• Nenhum resultado encontrado

O Corpus Matriz: O Corpus do Português

No documento reginaceliamartinssalomaobrodbeck (páginas 72-76)

ARGSTR ARG1 X EVSTR EV1 e

3. OS PROCEDIMENTOS DE PESQUISA

3.1. A escolha dos corpora

3.1.1 O Corpus Matriz: O Corpus do Português

O Corpus do Português é organizado pelos professores Mark Davies, da Brigham Young University, e Michael J. Ferreira, da Georgetown University. O corpus contém quarenta e cinco milhões de palavras, e compreende registros de usos linguísticos desde o século 14, sendo assim relevante para estudos que, além da perspectiva sincrônica, objetivem também o acompanhamento da evolução diacrônica.

Quantitativamente, o Corpus do Português, além de apresentar uma adequada extensão, obedece também aos critérios de representatividade em termos de variedade de registros e variedade de gêneros e tipos textuais, que o constituem com um acesso de quase 57.000 textos.

As buscas comparativas no corpus podem ser orientadas segundo três frentes distintas, quais sejam:

Registro: comparações entre uso oral, ficção, jornalístico, e acadêmico.

Dialeto: comparações entre o Português Brasileiro e o Português Europeu disponibilizadas apenas no século XX.

Período histórico: comparação entre os usos do século XIV até o século XX. Além da busca comparativa, pode-se efetuar também a busca simples, para a identificação da frequência de ocorrência da forma linguística em um dado registro, dialeto ou período histórico, assim como a identificação dos contextos de ocorrência dessas formas linguísticas.

20

Davies, Mark and Michael Ferreira. (2006-) Corpus do Português (45 milhões de palavras, sécs. XIV-XX). Disponível em http://www.corpusdoportugues.org.

Observe-se a reprodução do printscreen na tela de busca:

A busca pode ser feita para a identificação do número de ocorrências simples. Para tanto, seleciona-se em MOSTRAR, no topo da tela, a opção LISTA. A expressão

Monte de, por exemplo, tem um total de 572 ocorrências. Como se vê na tela, no Menu

PESQUISAR, não foram selecionadas seções ou séculos específicos para identificação da ocorrência da expressão.

O espaço à direita da tela inicial apresenta, além do número de ocorrências (572), a exemplificação das mesmas como palavras-chave em contexto, selecionadas através do CONCORD-KWIC. Cada página contém 100 exemplos (para a expressão Monte de, como se vê, há 6 páginas: 5 com 100 exemplos e a última com 72), que são rotulados segundo suas fontes :19Or: BR:Intv:Cid, que rotula o primeiro dos exemplos, indica que o exemplo data dos anos 1900s, no dialeto brasileiro, e da seção de entrevistas do caderno Cidade do jornal.

Caso se deseje o contexto ampliado, clica-se no exemplo selecionado:

Caso se pretenda fazer uma busca diacrônica da evolução da ocorrência da expressão Monte de ao longo dos séculos, seleciona-se a opção DIAGRAMA em MOSTRAR, e a opção IGNORAR na seção que se refere à seleção de séculos.

Observe-se o printscreen dessa tela:

FONTE:

.

Data (200s) Título Lúcio Oshima

Expanded context:

falta funcionário. Toda a documentação é resolvida em São Paulo e demora muito. JC - O que vocês fazem durante o dia para passar o tempo? Oshima - Como eu estava dizendo, aqui não tem estrutura. Eles só deixam a gente tomar sol no período da manha. Falam que não tem funcionário suficiente e eu até entendo, mas é duro. No final de semana ficamos sem sair da cela. Lá fora o tempo passa rápido, mas aqui é duro. A gente dorme, joga dominó, lê livros, assiste televisão, faz um monte de coisa e o tempo não passa. JC - Como é o tratamento que vocês recebem? Oshima - É bom, mas poderia ser melhor. Se tem funcionário para soltar a gente de manha para tomar sol, porque não soltam também à tarde? O problema é que não confiam muito, mas nós temos bom comportamento. Quando a gente sai, fica mais tranquilo, conversa com o pessoal das outras celas, é melhor para todo mundo. Presos aqui, ficamos revoltados. Agora, isso aqui FIGURA 10 Reprodução de informação sobre a fonte e contexto ampliado na busca no Corpus do

Português

Nesse caso, estamos tratando da identificação da frequência de ocorrência por séculos, aferida no total de palavras disponíveis como registro para cada século:

SECÇÃO s14s15 s16 s17 s18 s19s20 PORT BRAS ACAD NOTIC FIC ORAL POR MILH 8.214.8 10.6 39.1 20.6 5.111.3 7.5 15.1 2.3 4.6 17.7 38.9 MILHÕES 1.8 2.8 4.3 3.3 2.2 9.7 20.3 10.2 10.0 5.8 6.5 5.9 2.1 OCORRÊNCIAS 15 42 46 128 45 50 229 77 152 13 30 105 81

O item MILHÕES é o mesmo para qualquer busca a ser realizada no corpus. No século 14, portanto, o Corpus do Português dispõe de 1.8 milhões de palavras; no século 20, por outro lado, o Corpus dispõe de 20.3 milhões de palavras. No dialeto do Português do Brasil, o CP, doravante assumido como referência para o Corpus do Português, contém 10 milhões de palavras; para o registro em Notícias, 6.5 milhões e, para o registro Oral, 2.1 milhões.

O item OCORRÊNCIAS refere-se ao número absoluto de exemplos da palavra- chave em contexto. No século 14, portanto, a expressão Monte de tem 15 ocorrências, apresentadas quando se clica na coluna referente ao século: no lado direito da tela, na seção inferior, como já mencionado na descrição para Lista, há o registro e rotulação das ocorrências:

O item POR MILHÕES refere-se à frequência da ocorrência da expressão, considerado o universo total de palavras disponíveis no corpus para aquele século em questão. No século 14, a frequência é de 8.2 por milhões de palavras armazenadas; no século 17, a frequência sobe para 39.1.

FIGURA 12 Informação sobre frequência de ocorrência no Corpus do Português

As categorias dialeto e gênero/tipo textual não identificam, na totalização de ocorrências, o período cronológico de ocorrência da forma, que será indicado na legenda.Pode-se, por exemplo, verificar que as 13 ocorrências no gênero acadêmico da expressão monte de concentram-se todas no século XX, e que são, quase todas, no Brasil.

Procuramos demonstrar, nesta seção, que o Corpus do Português qualifica-se como corpus representativo, obedecendo aos critérios previstos em Biber (1998) e Sardinha (2000), o que o credencia como base de dados adequada aos propósitos de nossa investigação.

No documento reginaceliamartinssalomaobrodbeck (páginas 72-76)