• Nenhum resultado encontrado

O Corpus per il Confronto Diacronico: critérios e seleção dos textos

3. METODOLOGIA: ANÁLISE PARALELA CORPUS-BASED SOBRE DUAS

3.1. Análise do PB

3.2.3. O Corpus per il Confronto Diacronico: critérios e seleção dos textos

Para poder utilizar de maneira mais proveitosa os dados do Corpus Stammerjohann, a equipe do Laboratório Lablita organizou, em 2005, o Corpus per il Confronto Diacronico, pensado e realizado com a finalidade de ser utilizado em pesquisas sobre a fala em perspectiva diacrônica (SCARANO, 2005; MONEGLIA et al., 2008; SCARANO & SIGNORINI, 2003; MONEGLIA & SCARANO, 2008). O corpus compõe-se de uma amostragem do corpus Lablita, replicando a estrutura, o número de palavras totais e em todas as suas subdivisões, e a tipologia dos textos do Corpus Stammerjohann. A estrutura criada para esse novo corpus busca reproduzir com fidelidade a variação diafásica do corpus mais antigo: há uma variedade maior de situações justamente para poder compensar a diversidade obtida nas gravações ambiente originais. Não sendo possível obter textos com idênticas características de falantes, preferiu-se optar por uma escolha que levasse em conta situações cujas características diafásicas, diastráticas e de conteúdo pudessem garantir um uso mais próximo possível da variedade lexical regional.

Os textos são transcritos no formato CHAT e a qualidade acústica é geralmente alta, A e B, mas em alguns casos C, mais próxima àquela apresentada pelo Corpus Stammerjohann.

O quadro abaixo apresenta o corpus de maneira mais detalhada:

CONTEXTO TIPO INTERAÇÃO NÚMERO DE

TEXTOS FAMILIAR 22.784 palavras NÃO-REGULADO 22.784 palavras MONÓLOGO: 0 palavras 0 DIÁLOGO: 9.415 palavras 6 CONVERSAÇÃO: 13.369 palavras 7 PRIVADO 36.647 palavras NÃO-REGULADO 25.840 palavras MONÓLOGO: 0 palavras 0 DIÁLOGO: 0 palavras 0 CONVERSAÇÃO: 25.840 palavras 15 REGULADO 10.655 palavras MONÓLOGO: 3.475 palavras 3 DIÁLOGO: 7.180 palavras 5 CONVERSAÇÃO: 0 palavras 0 PÚBLICO 23.134 palavras NÃO-REGULADO 16.100 palavras MONÓLOGO: 0 palavras 0 DIÁLOGO: 0 palavras 0 CONVERSAÇÃO: 16.100 palavras 9 REGULADO 7.034 palavras MONÓLOGO: 1.219 palavras 1 DIÁLOGO: 5.815 palavras 4 CONVERSAÇÃO: 0 palavras 0 TELEFÔNICO 3.343 palavras 3.343 palavras 5 TOTAL 85.908 PALAVRAS 55

Quadro 7: Estrutura do corpus Corpus per il Confronto Diacronico, com número de palavras e textos para cada campo da estrutura.

Comparando os dados acima com aqueles do quadro 6 é perfeitamente visível que foi feito um grande trabalho de seleção para obter números praticamente idênticos em totais e parciais para cada campo do corpus. Conseguiu-se manter a estrutura em todos os detalhes diferindo apenas no número de textos, que passou de 32 para 55.

Como foi dito acima, o corpus foi pensado para estudos de análise lexical. A pesquisa que aqui apresentamos aborda a questão da expressão do sujeito e do uso dos clíticos no vernáculo florentino que, como será detalhado adiante, apresenta peculiaridades que o distinguem até mesmo da região rural em volta da cidade de Florença, e mais ainda do vernáculo toscano e do italiano padrão. Por este motivo, optou-se por refinar o Corpus per il Confronto Diacronico retirando todos os textos em que houvesse falantes não florentinos.

Desta forma, tentamos contornar o risco de coletar dados que não sejam rigorosamente de falantes do vernáculo em análise.

Foram extraídos 40 textos, para um total de 58.299 palavras, tamanho um pouco inferior, mas ainda comparável com o Corpus Stammerjohann. Quanto ao balanceamento, não foi possível mantê-lo, porque foi necessário excluir os textos que apresentavam falantes não florentinos.

O quadro abaixo expõe este novo corpus que chamaremos de Corpus de Florentinos:

CONTEXTO TIPO INTERAÇÃO NÚMERO DE

TEXTOS FAMILIAR 21.232 palavras NÃO-REGULADO 21.232 palavras MONÓLOGO: 0 palavras 0 DIÁLOGO: 9.415 palavras 6 CONVERSAÇÃO: 11.817 palavras 6 PRIVADO 24.862 palavras NÃO-REGULADO 16.641 palavras MONÓLOGO: 0 palavras 0 DIÁLOGO: 0 palavras 0 CONVERSAÇÃO: 16.641 palavras 12 REGULADO 8221 palavras MONÓLOGO: 1.958 palavras 2 DIÁLOGO: 6.263 palavras 4 CONVERSAÇÃO: 0 palavras 0 PÚBLICO 8.862 palavras NÃO-REGULADO 7.308 palavras MONÓLOGO: 0 palavras 0 DIÁLOGO: 0 palavras 0 CONVERSAÇÃO: 7.308 palavras 4 REGULADO 1.554 palavras MONÓLOGO: 0 palavras 0 DIÁLOGO: 1.554 palavras 1 CONVERSAÇÃO: 0 palavras 0 TELEFÔNICO 3.343 palavras 3.343 palavras 5 TOTAL 58.299 PALAVRAS 40

Quadro 8: Estrutura do Corpus de Florentinos, com número de palavras e textos para cada campo da estrutura.

Pode-se observar que o contexto familiar foi quase que totalmente mantido, tendo sido retirado somente um texto, ou 1.552 palavras do total. O contexto privado acabou sendo desmembrado de forma substancial com a retirada de quatro textos, equivalentes a 11.785 palavras, sendo mais forte a perda na parte não-regulada. O contexto público foi o que mais sofreu com a ausência dos não-florentinos: passou-se de 23.134 palavras para 8.862 palavras.

O Corpus de Florentinos representa, em termos de número de palavras, cerca de 68% do Corpus per il Confronto Diacrônico.

Do ponto de vista da distribuição interna dos textos e números de palavras nos dois corpora, o balanceamento permanece muito próximo ao original no contexto privado: no Corpus per il Confronto Diacrônico este representa 42,55% do número de palavras, enquanto no Corpus de Florentinos é 42,65% do total. Internamente a este contexto também os valores mantêm-se próximos ao balanceamento ideal: as interações não reguladas representam 30,13% do total de palavras no primeiro corpus e 28,54% no segundo; aquelas reguladas 12,42% no primeiro e 14,10% no segundo.

As divergências maiores encontram-se nos contextos familiares e públicos, como mostra a tabela abaixo:

CONTEXTO TIPO INTERAÇÃO

FAMILIAR Corpus per il Confronto

Diacrônico: 26,57 Corpus de Florentinos: 36,42

NÃO-REGULADO Corpus per il Confronto

Diacrônico: 26,57 Corpus de Florentinos: 36,42

MONÓLOGO: 0 palavras DIÁLOGO

Corpus per il Confronto Diacrônico:10,98 Corpus de Florentinos: 16,15

CONVERSAÇÃO

Corpus per il Confronto Diacrônico:15,59 Corpus de Florentinos: 20,27

PRIVADO Corpus per il Confronto

Diacrônico:42,55 Corpus de Florentinos:42,65

NÃO-REGULADO Corpus per il Confronto

Diacrônico:30,13% Corpus de Florentinos: 28,54

MONÓLOGO: 0 DIÁLOGO: 0 CONVERSAÇÃO

Corpus per il Confronto Diacrônico:30,13 Corpus de Florentinos: 28,54

REGULADO Corpus per il Confronto

Diacrônico:12,42 Corpus de Florentinos: 14,10

MONÓLOGO

Corpus per il Confronto Diacrônico:4,05 Corpus de Florentinos: 3,36

DIÁLOGO:

Corpus per il Confronto Diacrônico:8,37 Corpus de Florentinos: 10,74

CONVERSAÇÃO: 0

PÚBLICO Corpus per il Confronto

Diacrônico:26,97 Corpus de Florentinos: 15,20

NÃO-REGULADO Corpus per il Confronto

Diacrônico:18,77 Corpus de Florentinos: 12,54

MONÓLOGO: 0 DIÁLOGO: 0 CONVERSAÇÃO

Corpus per il Confronto Diacrônico:18,77 Corpus de Florentinos: 12,54

REGULADO Corpus per il Confronto

Diacrônico:8,2 Corpus de Florentinos: 2,67

MONÓLOGO

Corpus per il Confronto Diacrônico:1,42 Corpus de Florentinos: 0

DIÁLOGO

Corpus per il Confronto Diacrônico:6,78 Corpus de Florentinos: 2,67

CONVERSAÇÃO: 0 TELEFÔNICO

Corpus per il Confronto Diacrônico:3,9 Corpus de Florentinos: 5,73

Corpus per il Confronto Diacrônico:3,9 Corpus de Florentinos: 5,73

TOTAL 100

Quadro 9: Comparação em termos percentuais entre o Corpus per il Confronto Diacrônico e o Corpus de

Florentinos, para cada campo da estrutura.

Pode-se visualizar, no quadro acima, que no contexto familiar o Corpus per il Confronto Diacrônico apresenta 26,57% do total de palavras, enquanto o Corpus de Florentinos possui uma representação maior desse tipo de interação, com 36,42% do total. No caso do contexto público a situação é inversa: o Corpus per il Confronto Diacrônico apresenta uma porcentagem maior, 26,97% do total de palavras enquanto o Corpus de Florentinos exibe 15,2% do total. No caso das interações telefônicas, o número de palavras

permaneceu idêntico, não tendo sido feitos recortes. Contudo, em relação aos corpora a que pertencem, no Corpus per il Confronto Diacrônico equivale a 3,9% do total enquanto no Corpus de Florentinos a 5,73%.

O corte que fizemos do corpus original foi bastante grande. Não obstante, acreditamos que tenha sido necessário, tendo em vista as finalidades da pesquisa. Certamente, na análise dos dados, este fator deverá ser levado em conta.