• Nenhum resultado encontrado

Corpus de estudo em contraste com os corpora de referência: análise das palavras

CAPÍTULO 5 ANÁLISE CONTRASTIVA DO CORPUS DE ESTUDO DE ALENCAR

5.2 Corpus de estudo em contraste com os corpora de referência: análise das palavras

5.2 Corpus de estudo em contraste com os corpora de referência: análise das palavras de frequência zero

Com a atenção voltada para as palavras de frequência zero, obtivemos a lista de palavras de ocorrência zero por meio da ferramenta KeyWords do WST. Esta frequência é obtida por meio do ajuste da ferramenta KeyWords clicando na aba RC.Freq, cuja função é organizar a lista de palavras pela frequência no corpus de referência. A Figura 31 apresenta o

contraste com o corpus CorpRef-Alencar; a Figura 32, com o corpus CorpRef-AcadTeses; a Figura 33 com o corpus CorpRef-Lácio-Web; e a Figura 34 com o corpus CorpRef-Nov.

Figura 31: Corpus de estudo em contraste com

corpus de referência CorpRef-Alencar

Figura 32: Corpus de estudo em contraste com o corpus de referência CorpRef- AcadTeses

Figura 33: Corpus de estudo em contraste com o corpus de referência CorpRef-Lácio-Web

Fonte: A autora, por meio da ferramenta KeyWords

A primeira coluna traz a lista de palavras-chave (KeyWords) depreendidas pela confrontação entre o corpus de estudo e os corpora de referência. As palavras-chave são apresentadas em ordem decrescente de chavicidade, ou seja, as primeiras palavras, Loredano, Peri e Itaquê são as mais frequentes dentre aquelas de frequência zero nos corpora de referência. A segunda coluna registra a frequência do item no corpus de estudo; a terceira, a porcentagem do item em relação a todo o corpus de estudo. Já na coluna seguinte, em que aparecem os zeros, a ratificação de que estes itens não se encontram nos corpora de referência. A coluna que representa a porcentagem correspondente à representatividade do item em relação ao corpus de referência está em branco, em razão do baixo percentual.

Figura 34: Corpus de estudo em contraste com o corpus de referência CorpRef-Nov

Diferentemente das listas de palavras-chave geradas para obtenção das KeyWords contrastando o corpus de estudo com os corpora de referência, como já demonstrado, em que houve uma regularidade entre as 20 primeiras palavras-chave, no caso do contraste tomando por base as palavras de frequência zero apresenta uma diferença. Considerando a frequência zero e o critério chavicidade, apenas a palavra Araquém está entre as vinte primeiras em todos os corpora de referência. Porém, ainda assim, há nove palavras que constam de três dos

corpora; cinco palavras constam entre as 20 de dois corpora; e 30 palavras estão entre as 20

mais frequentes alternando-se entre os corpora37.

Observando ainda as palavras com frequência zero nos corpora de referências, verificamos que, no CorpRef-Alencar, do total dos 291 itens, 55 palavras são utilizadas apenas no corpus de estudo. Seguindo a mesma análise, obtivemos no CorpRef-AcadTeses dos 1.879 itens, 306 palavras com frequência zero no corpus de referência; já no CorpRef- Lácio-Web, dos 1.549 itens, 334 palavras do corpus de estudo têm frequência zero em relação ao de referência; por fim, no CorpRef-Nov, dentre os 477 itens, 104 palavras também têm frequência zero. O Quadro 8 organiza os números mencionados, obtidos por meio das

KeyWords demonstrado nas Figuras 31 a 34.

Quadro 8: Quantidade de palavras com frequência zero em relação ao total de itens nos

corpora de referência

Corpora de Referência Quantidade total de itens

obtidos a partir das KeyWords

Quantidade de palavras com frequência zero nos corpora de referência

CorpRef-Alencar 291 itens 55 palavras

CorpRef-AcadTeses 1.879 itens 306 palavras

CorpRef-Lácio-Web 1.549 itens 334 palavras

CorpRef-Nov 477 itens 104 palavras

Fonte: A autora

Por meio desses dados, é possível observar a produtividade de José de Alencar em suas obras indianistas. As palavras-chave colaboram, sobremaneira, para traçar o perfil léxico das obras indianistas de Alencar, uma vez que é relevante o número de palavras com frequência zero em relação ao número de itens de cada corpus de referência. Chamou-nos a

atenção, o fato de que alguns itens constantes entre os 20 primeiros da lista que, de primeira análise, tratava-se de nomes de personagens. Para constatar ou refutar essa primeira análise, consultamos todas as palavras nas obras do autor, por meio da ferramenta Concord, com a qual foi possível visualizar o contexto abonatório de cada item lexical. A consulta confirmou a impressão, pois 19 itens são nomes de personagens: Loredano, Ubirajara, Itaquê, Poti, Pojucã, Jurandir, Araquém, Jaguarê, Jandira, Cubi, Irapuã, Soeiro, Simões, Camacã, Canicrã, Lauriana, Jacaúna, Peri, Martim.

Ainda seguindo a pesquisa por meio do contexto abonatório, encontramos dez itens que nomeiam as tribos e são usadas também como adjetivos para especificar um personagem: abaré, aimoré, moacaras, pitiguaras, pitiguara, tabajaras, araguaia, araguaias, tocantim. Outras palavras do universo dos indígenas também estão entre as 20 mais chave com zero frequência, como tupã, pajé, guerreiros, cabana, clavina, relva, seta. Por fim, há também as formas verbais como tinha-se, tornou-se, sabeis, quereis, murmurou, ouviu-se, lembrou-se, dirigiu-se, ergueu-se e os substantivos esposo, distância e sois, esta última, grafada, no texto, sem o acento.

Ressaltamos que, embora estejamos analisando as 20 primeiras palavras com frequência zero, ordenadas por chavicidade, elas não são coincidentes em todas as listas de palavras geradas, conforme se constata nas Figuras 31 a 34. Porém, a lista das palavras nos mostrou que somando a totalidade dos itens que estão entre os vinte primeiros, considerando os quatro corpora de referência, com frequência zero, totalizam 48. Desses 48 itens, 19 são nomes de personagens, 10 nomeiam tribos e sete referem-se ao universo dos indígenas, ou seja, 36 itens são relacionados ao contexto indígena de um total de 48 palavras.

Pode-se aventar, então, que Alencar utiliza um léxico específico em suas obras indianistas, pois a porcentagem de palavras com frequência zero nos corpora de referência do mesmo autor, como também o contraste com os demais corpora, nos comprova esta produtividade e essa especificidade do léxico utilizado por Alencar em suas obras indianistas.

Durante a análise das palavras-chave do corpus de estudo e das palavras de frequência zero nos corpora de referência em relação ao corpus de estudo, como leitora das obras de Alencar, percebi que muitas palavras conhecidas e recobradas pela memória não constavam das listas geradas. Então, baseado no princípio impressionístico apontado por Berber Sardinha (2004; 2009), e considerando que o corpus pode guiar e guia, a partir de determinado momento, a pesquisa, resolvemos fazer o levantamento das palavras genuinamente indígenas das obras de Alencar. Isso porque as listas geradas até o momento nos mostraram a

produtividade do autor em relação ao léxico específico utilizado nas obras indianistas, entretanto não extraímos o léxico especificamente indígena. Assim sendo, na seção seguinte, apresentamos o léxico indígena característico das obras indianistas de José de Alencar, que compõem o nosso corpus de estudo.