• Nenhum resultado encontrado

F: Olha, eu confio em todos eles, eu eu costumo assim analisar bem a pessoa quando (conheço) observo, estou atento a tudo, nos mínimos detalhes, se a pessoa tive assim com

5.1 A CONSTITUIÇÃO E CARACTERIZAÇÃO DOS CORPORA

Devido ao caráter sincrônico desta pesquisa, selecionamos como fonte para o nosso objeto de estudo o português brasileiro do século XX, compreendendo os anos de 1901 a 2001. Embora alguns dos corpora selecionados registrem o local de origem da ocorrência, não consideramos de importância o número de ocorrências por localidade ou estados brasileiros. Nosso corpus geral59 é formado por dados extraídos de quatro fontes, as quais passamos a descrever:

1- Corpus Discurso & Gramática (D&G) - Este corpus constitui-se de amostras da língua falada e escrita em formato de entrevista com um entrevistador e um informante. O corpus D&G consiste em depoimentos de vinte informantes da cidade de Juiz de Fora, vinte

59

Os corpora podem ser acessados pelos links:

Corpus D&G http://www.discursoegramatica.letras.ufrj.br/corpus.html; Corpus NURC-RJ http://www.letras.ufrj.br/nurc.rj/corpora/mapa.html;

C P http://www.corpusdoportugues.org/x.asp;

informantes da cidade de Rio Grande, vinte da cidade de Natal, dezoito da cidade de Niterói e 93 informantes da cidade do Rio de Janeiro, totalizando 171 informantes de diversas faixas etárias e escolaridades. Os textos, produzidos pelos informantes são divididos em subgêneros: narrativa de experiência pessoal (NEP); narrativa recontada (NR); descrição de local (DL); relato de procedimento (RP); e relato de opinião (RO). Os mesmos textos produzidos pelas entrevistas orais são reproduzidos pelos informantes em modalidade de língua escrita. O Corpus D&G foi coletado e organizado entre os anos de 1991 e 1993.

Segue, abaixo, tabela com distribuição do número aproximado de palavras por cidades e número de informantes.

Tabela 01: Distribuição do número de palavras do Corpus D&G.

Para a constituição do corpus deste trabalho, foram levantados dados em todo o arquivo do Corpus D&G. A soma de todas as amostras totaliza um número aproximado de 448. 93060 palavras.

2- Projeto Norma Linguística Urbana Culta/Rio de Janeiro (NURC-RJ) - Constitui-se de cenas discursivas relatadas, descritas como: elocução formal (EF), composta por aulas e conferências; diálogo entre informante e documentador (DID), composto por entrevistas; diálogo entre dois locutores (D2), composto por diálogos informais. As elocuções formais compõem-se de seis inquéritos. Os diálogos entre informante e documentador compõem-se de 197 entrevistas subdivididas em: 160 DID; 22 DID comparativos da década de 70-90; e 15

60

Contagem feita pela autora com recurso do Word 2010. Cidades Número de informantes Número de palavras Natal 20 181.780 Rio Grande 20 31.410 Juiz de Fora 20 53.280 Rio de janeiro 93 144.660 Niterói 18 37.800 Total 171 448.930

DID de amostras complementares. Os diálogos entre dois informantes (D2) compõem-se de sete diálogos informais. O corpus NURC-RJ foi coletado entre os anos de 1972 e 1996.

Segue, abaixo, tabela com número aproximado de palavras por distribuição de inquéritos, informantes e tipos de agrupamento.

Tabela 02: Distribuição do número de palavras do Corpus NURC-RJ.

Agrupamento Número de inquérito Número de informante Número de palavras EF 6 6 32.200 DID 160 160 1.084.200 D2 7 14 98.400 Década de 70 11 11 81.800 Década de 90 11 11 51.800 Amostra compl. 15 15 67.500 Total 210 217 1.415.900

A soma de todas as amostras levantadas para esta pesquisa totaliza um número aproximado de 1.415.90061 palavras. Para a constituição do corpus, foram levantados dados de todas as 210 amostras de inquéritos.

3- Corpus do Português (CP) - Consiste em uma coletânea de 57.000 textos, compondo um total de mais de 45.000.000 de palavras. Esses textos estão organizados por século (XIII – XX), por gênero (oral, ficção, noticiário e acadêmico) e por dialeto (português europeu e português brasileiro). Levantamos apenas dados relativos ao século XX do português brasileiro (Br). Utilizamos os gêneros: oral, noticiário e ficção. A inclusão do gênero ficção deve-se ao critério de que as cenas discursivas retratadas aproximam-se de uma representação, razoável, da língua falada. No CP, os arquivos referentes ao século XX do português brasileiro são extraídos de literaturas, jornais e revistas, do tipo impresso e/ou on- line. A quantidade de palavras levantadas totaliza 7.454.22062 palavras.

Segue-se tabela com distribuição de número de palavras por gênero, século e país.

61

Contagem feita pela autora com recurso do Word 2010. 62

Tabela 03: Distribuição do número de palavras do Corpus do Português.

País Gênero Século

Número de palavras Brasil Oral XX 1.078.586 Brasil Ficção XX 3.028.646 Brasil Noticiário XX 3.346.988 Total 7.454.220

4- Programa de Estudos sobre o Uso da Língua (PEUL/RJ) - O site do corpus PEUL possui banco de dados representativo da modalidade da língua falada e da modalidade da língua escrita da Cidade do Rio de Janeiro. A modalidade falada divide-se em seis agrupamentos de amostras: Censo 1980, composto por 64 entrevistas entre falante e entrevistador; Amostra de indivíduos recontactados/2000, composto por 16 entrevistas; Censo 2000, composto por 32 entrevistas; Amostra de fala infantil, composta por 32 entrevistas; Amostra interacional, composta por 22 gravações de situações de fala real; e Amostra do Mobral, composta por 59 entrevistas de 12 informantes. A modalidade escrita é constituída por arquivos de diferentes gêneros discursivos da mídia jornalística, recolhidos entre os anos de 2000 e 2004. A soma de todas as 109 amostras do Corpus PEUL totaliza um número aproximado de 1.140.70063 palavras.

Segue, abaixo, tabela com distribuição do número de palavras por agrupamento de amostras e quantitativo de entrevistas.

Tabela 04: Distribuição de número de palavras do Corpus PEUL/RJ.

Amostra Número de entrevistas Número de palavras Censo 1980 62 678.800 Recontacto/2000 15 156.700 Censo 2000 32 305.200 Total 109 1.140.700 63

Para este trabalho, utilizamos apenas as três primeiras amostras da modalidade falada, isto é, do Censo 1980, da Amostra de indivíduos recontactados/2000 e do Censo 200064.

Nosso corpus, constituído dos quatro corpora D&G, NURC-RJ, CP e PEUL/RJ, abrange um total de 10.459.750 (dez milhões quatrocentos e cinquenta e nove mil, setecentos e cinquenta) palavras. Na tabela abaixo, podemos comparar o número de palavras pelos corpora das fontes extraídas.

Tabela 05: Distribuição do número de palavras por corpora fontes.

Corpus fonte Número de palavras

D&G 448.930

NURC-RJ 1.415.900

CP 7.454.220

PEUL 1.140.700

Total 10.459.750

Na tabela 05, podemos observar que não há uma uniformidade quanto ao total do número de palavras de cada corpus fonte. Não tomamos como critério metodológico o uniformitarismo do número de palavras por fonte. Nossa intenção é ampliar a detecção de um maior número possível de exemplares de MDs para captar um número maior de microconstruções individuais da macroconstrução Vpv(x)md.