• Nenhum resultado encontrado

CAPÍTULO 5 ANÁLISE CONTRASTIVA DO CORPUS DE ESTUDO DE ALENCAR

5.1 Análise das palavras-chave do corpus de estudo

Toda palavra de um corpus tem um potencial para análise. Portanto, para aguçar nosso estudo sobre o léxico indianista de Alencar, usamos a ferramenta KeyWord do WST para investigarmos as palavras características do corpus de estudo e propomos uma análise. A Figura 26 mostra a tela do KeyWords com as 20 palavras mais chave, organizadas pelo valor da chavicidade (Keyness) do corpus de estudo em relação ao corpus de referência de Alencar. Figura 26: Palavras-chave do corpus de estudo em contraste com o corpus de referência CorpRef-Alencar

Fonte: A autora, por meio do WST

Analisamos, inicialmente, a lista de palavras por ordem de chavicidade, ou seja, em ordem decrescente, como apresentado na coluna Keyness. Neste caso, a palavra “mais

chave” do corpus de estudo é Peri, porque possui um valor de chavicidade de 3.266,57, o maior da lista. Essa palavra tem apenas uma ocorrência no corpus de referência e foi utilizada na obra As Minas de Prata. Alencar, em As Minas de Prata, propõe uma intersecção entre os personagens dessa obra com os do livro O Guarani, conforme o trecho extraído, por meio da ferramenta Concord do WST, mostrado pela Figura 27.

Figura 27: Vista do trecho do romance As Minas de Prata em que Alencar emprega o vocábulo Peri

Fonte: A autora, por meio da ferramenta Concord do WST

As Minas de Prata é considerado um romance histórico e foi publicado sete anos

depois de O Guarani. Na primeira publicação, Alencar intitulou o romance com o subtítulo

Continuação do Guarani, porém este subtítulo foi extraído na edição de 1865/66.

Inicialmente, a ação seria a continuação de O Guarani, pois um dos personagens de As Minas

de Prata, o personagem D. Diogo de Mariz é filho de D. Antonio de Mariz e, portanto, irmão

de Ceci, a heroína de O Guarani. D. Antonio era o proprietário do solar onde se passou a história de amor do índio Peri por Ceci.

No romance As Minas de Prata, D. Diogo é portador do roteiro que levaria às minas de prata, porém esse roteiro é de propriedade de outro personagem do romance, Estácio. A história continua e marca a presença de um personagem que transitou de um romance para o outro, porém, em razão do próprio roteiro da história escrita por Alencar, ele não participa das ações de Estácio em busca das minas. (MARCO, 1993; VASCONCELOS, 2011). Não nos ateremos à descrições e análises do romance As Minas de Prata, porém, esse breve comentário e a apresentação do trecho deste texto que compõe o corpus de referência, Figura

27, demonstra a frequência um e justifica a utilização desse vocábulo por Alencar em obras não indianistas.

O emprego do vocábulo Peri em As Minas de Prata, destaca que, mesmo sendo utilizado no corpus não indianista, Alencar o emprega, retomando o personagem de O

Guarani. Como é possível observar, Alencar descreve a sala em que D. Diogo está, em ênfase

no detalhe do quadro da parede onde o índio Peri também é retratado na pintura que orna o ambiente, conforme o trecho

Os retratos de seus pais, de Cecília e Isabel, pendiam das paredes; em frente à papeleira onde escrevia, um pintor do tempo imaginara sob as indicações do fidalgo uma cópia muito semelhante da casa do Paquequer assentada sobre o rochedo à margem do rio. A um lado via-se uma palhoça, e encaminhando-se a ela um índio que figurava Peri. (ALENCAR, s/p.).

Dessa forma, o emprego do vocábulo é, marcadamente, associado ao personagem índio do romance O Guarani, tanto no corpus de estudo quanto no de referência. Dessa maneira, é um vocábulo empregado, especificamente, por Alencar com o propósito indianista.

No que se refere à chavicidade, o valor representa a extensão da diferença das porcentagens decorrentes das frequências de Peri nos dois corpora. No corpus de estudo, as ocorrências da palavra Peri (727) correspondem a 0,48% de ocorrências do corpus em totalidade. Em contrapartida, no corpus de referência, a ocorrência não foi mensurada em termos de porcentagem pela insignificância da ocorrência, que é uma. Destacamos, assim, a diferença entre as ocorrências, de 727 por 1, em números absolutos de ocorrências.

É possível também visualizar, dentre as 20 primeiras palavras mais chave do corpus de estudo, vocábulos de frequência zero no corpus de referência, como Loredano, Ubirajara, Itaquê e Poti. A frequência zero se justifica, pois essas palavras são nomes dos personagens dos livros que compõem o corpus de estudo: Itaquê e Ubirajara do livro Ubirajara; Poti de

Iracema; e Loredano de O Guarani.

Em observância ao princípio estabelecido por Berber Sardinha (2004, 2009), de que o

corpus de referência deve ser composto por gêneros diferentes do corpus de estudo e visando

atender ao objetivo de tese, geramos também as KeyWords com os outros corpora de referência: CorpRef-Lácio-Web, CorpRef-AcadTeses e CorpRef-Nov e, assim, proceder à análise do contraste.

Partimos do princípio de que o corpus de referência é “também conhecido como ‘corpus de controle’ e funciona como termo de comparação para análise”. (BERBER SARDINHA, 2009, p. 194). Ainda segundo o autor, a função do corpus de referência é estabelecer uma norma com que se fará a comparação das frequências das palavras-chave do

corpus de estudo. Assim sendo, foram geradas mais três listas de palavras-chave para a

comparação entre os quatro corpora de referência. A Figura 28 apresenta as palavras-chave do corpus de estudo em contraste com o corpus CorpRef-AcadTeses; a Figura 29 o contraste com o corpus CorpRef-Lácio-Web; e a Figura 30 com o corpus CorpRef-Nov.

Figura 28: Contraste com o corpus de referência CorpRef-AcadTeses

Figura 29: Contraste com o corpus de referência CorpRef-Lácio-Web

Fonte: A autora, com base na ferramenta KeyWords Fonte: A autora, com base na ferramenta

Figura 30: Contraste com o corpus de referência CorpRef-Nov

Fonte: A autora, por meio da ferramenta KeyWords

Ao procedermos à comparação entre as quatro listas de palavras-chave, notamos uma certa regularidade, pois 13 das vinte primeiras palavras são chave no corpus de estudo em relação aos quatro corpora de referência: CorpRef-Alencar, CorpRef-Nov; CorpRef-Lácio- Web; e CorpRef-AcadTeses. O fato de o corpus de referência, CorpRef-Alencar, ser composto por obras de Alencar, assim como o corpus de estudo, não invalidou a nossa escolha. Pelo contrário, confirmou a hipótese de que Alencar utiliza um léxico específico em suas obras indianistas. Isso pode ser corroborado, pelo fato de que, no conjunto, as palavras- chave extraídas por meio do contraste de Alencar com ele mesmo também foram identificadas

no contraste com os demais corpora de referência. Além disso, outras seis palavras são, igualmente, chave em três dos corpora de referência; outras cinco são chave em dois dos

corpora de referência e apenas a palavra Araci aparece como palavra-chave em contraste com

um único corpus de referência que é o corpus CorpRef-Alencar36.

Merece observação, também, o fato de que Peri aparece com 646 ocorrências no CorpRef-AcadTeses contra 726 do corpus de estudo, entretanto, isso não impediu que fosse a palavra mais chave do estudo, uma vez que a diferença de extensão entre os corpora é de 642 vezes maior.

Berber Sardinha afirma que

o conteúdo do corpus de referência influencia quais palavras-chave serão identificadas, de tal modo que é possível antecipar o tipo de influência que um corpus de referência terá no resultado da lista de palavras-chave se compararmos os perfis dos corpora, com relação a aspectos como: os gêneros incluídos, os assuntos, os períodos, a autoria etc. (BERBER SARDINHA, 2009, p. 194).

O conteúdo do corpus de referência pode influenciar na lista das palavras-chave, porém, no caso desta pesquisa, esta influência não refletiu nos contrastes realizados entre o

corpus de estudo e os corpora de referência, pois, mesmo os corpora tendo extensões

diversas: CorpRef-Alencar com 61.121 formas; o CorpRef-AcadTeses com 620.068; o CorpRef-Lácio-Web com 130.020 e o corpus CorpRef-Nov com 43.119 formas, as palavras- chave com maior chavicidade foram atestadas nos diferentes contrastes, o que comprova a especificidade do léxico nas obras indianistas de Alencar. Outro fator que corrobora para essa afirmação é que, apesar de os corpora também apresentarem perfis diferenciados, conforme descrito no capítulo de Metodologia, as palavras-chave, entre as primeiras da lista, se repetiram.

Cabe destacar que, apesar de o corpus de referência de Alencar ser formado também por romances do autor, a maioria das palavras-chave estão repetidas, isso nos leva a ratificar a afirmação, com base nos dados apresentados, de que José de Alencar utiliza um léxico específico em suas obras indianistas. Nesse sentido, o aspecto dos gêneros presente nos

corpora, seja de estudo, seja no de referência, não foi determinante para modificar os

resultados nas listas de palavras-chave.

Outro fator relevante é o fato de que, como afirma Berber Sardinha (2009), é possível identificar a temática de um corpus, como também traçar o perfil lexical de um autor por meio das palavras-chave desse corpus. Isso é possível perceber em Alencar que utiliza palavras que nos remetem ao universo dos indígenas como taba, virgem, cabana, aventureiros, chefe, guerreiros, guerreiro e a própria palavra índio. O autor também utiliza nomes próprios que são palavras-chave nas listas geradas, como: Peri, Cecília, Álvaro, Iracema, Loredano, Ubirajara, Antonio, Mariz, Itaquê, Poti, Araci e Isabel, que são palavras escolhidas para nomear seus personagens.

Durante os procedimentos de extração das palavras-chave, de observação atenta e análise relacionada às frequências das palavras no contraste do corpus de estudo com os

corpora de referência, percebemos que havia palavras cuja frequência é zero no corpus de

referência, isto é, palavras que ocorreram mesmo com frequência baixa no corpus de estudo, no corpus de referência não registram nenhuma ocorrência. Assim, o corpus nos guiou para a análise também dessas palavras de frequência zero e, em razão disso, decidimos adotar a perspectiva de análise guiada pelo corpus, conforme Berber Sardinha (2004; 2009).

O corpus nos levou a descobrir outros aspectos não programados anteriormente, porém com o manuseio e análise dos dados, a medida que foram tratados, formulamos novas hipóteses. Essa análise tornou-se relevante, na medida em que essas palavras, as de frequência zero, poderiam revelar um acervo lexical específico, utilizado pelo autor, para compor seus romances indianistas. Por esta razão, empreitamos análise também das palavras de frequência zero, o que, no princípio da pesquisa, não seria, especificamente, objeto de estudo.

Apresentamos, portanto, na seção seguinte, uma parcial das palavras-chave com