• Nenhum resultado encontrado

5.2 Etapas do percurso metodológico

5.2.7 Lista de palavras-chave

Percebe-se que a lista de palavras em si não nos possibilita traçar muitas considerações a respeito das particularidades do corpus de estudo. Contudo, o contraste da lista de palavras do corpus de estudo com uma lista de palavras de um corpus de referência resulta em outra lista capaz de revelar um perfil dos elementos linguísticos chave do corpus de estudo. A essa lista dá-se o nome de lista de palavras-chave, gerada pela ferramenta KeyWords.

Para esta pesquisa, utilizamos como corpus de referência, uma lista de palavras do

corpus geral de língua inglesa British National Corpus (BNC), por conter a mesma variação

diatópica predominante do corpus de estudo, ou seja, inglês britânico. De acordo com Viana (2010), o BNC pode ser comparado com um corpus menor, representativo de uma área do conhecimento para revelar uma lista de candidatos a termos desse corpus. O BNC é um ―corpus composto por 100 milhões de palavras. Trata-se de um corpus fechado, construído no início da década de 1990, tendo sido encerrado em 1994‖ (TAGNIN, 2010, p. 365). De modo mais detalhado, Viana (2015, p. 281) descreve o BNC da seguinte forma:

corpus geral da língua inglesa em sua variante britânica cuja composição

contempla 90% de dados escritos (e.g. textos acadêmicos, jornalísticos e ficcionais) e 10% de dados orais (e.g. conversas informais e reuniões de negócios). O corpus contém 100 milhões de itens, etiquetados morfossintaticamente (e.g. preposição, marcador de infinitivo e número ordinal), provenientes de textos do final do século XX.

A escolha do BNC foi feita com base nos seguintes motivos: é um corpus geral de língua inglesa da mesma variação do corpus de estudo, ideal para a identificação de candidatos a termo; não contém o corpus de estudo conforme a orientação de Berber Sardinha (2004, p. 100), (o BNC foi encerrado (1994) antes da publicação do primeiro volume da série HP em 1997); inclui vários gêneros em sua composição, de modo que as características do

corpus de estudo sobressaiam; é no mínimo cinco vezes maior que o corpus de estudo. Assim,

utilizamos a lista de palavras denominada BNC World com 99.465.296 itens e 512.588 formas. Além disso, a lista de palavras-chave foi gerada de acordo com a seguinte

configuração: valor de p99: 0,000001 (valor padrão do WST) e frequência mínima de 3

ocorrências.

Ao contrastar as listas de palavras dos corpora de estudo e de referência obtivemos 4.763 palavras-chave das quais as vinte primeiras apresentamos na FIGURA 13.

FIGURA 13 – Lista das vinte primeiras palavras-chave do corpus de estudo

Fonte: Elaboração do autor por meio da ferramenta KeyWords do WordSmith Tools 6.0.

Para traçar algumas considerações a respeito da lista anterior trazemos, primeiramente, a seguinte caracterização de palavras-chave:

Conforme descrito por Scott (2009b, p.150) as palavras-chave geralmente são de três tipos: temáticas, gramaticais e/ou identificativas. A primeira categoria abarca todas as palavras que apontam para o assunto abordado no

corpus de estudo, as quais seriam inicialmente identificadas por um analista

humano. [...] As palavras gramaticais, por serem geralmente empregadas em quantidades semelhantes em ambos os corpora, não aparecem no topo da lista de palavras-chave como ocorre numa lista de palavras regular. Contudo, o surgimento delas – com altos valores de chavicidade – indica uma característica estilística do corpus estudado. [...] Finalmente, as palavras identificativas correspondem a nomes próprios: por serem formas únicas de expressão, é esperado que apareçam entre as palavras-chave (VIANA, 2010, p. 65).

A personagem Harry, aparece na primeira posição da lista com maior índice de chavicidade100 do corpus. Há também o nome de vários outros personagens da narrativa,

99 ―A coluna ‗p‘ registra o valor desse índice estatístico [chavicidade]. O conceito de p indica em que proporção

o resultado encontrado é atribuído ao fator chance. Em outras palavras, quanto menor for o valor registrado para p, maior é a probabilidade de o resultado realmente expressar uma diferença entre, nesse caso, os domínios contrastados‖ (VIANA, 2010, p. 64).

como Ron, Hermione, Dumbledore, Hagrid, Snape, Weasley, Malfoy e Voldemort. Tratam-se de nomes próprios e, por isso, palavras identificativas que já se espera que apareçam entre as palavras-chave, conforme o excerto supracitado. Há também alta chavicidade de algumas palavras gramaticais. As ocorrências de ‗s‘, ‗t‘, ‗ve‘, ‗ll‘, ‗don‘, ‗didn‘, ‗re‘, aparentemente sem sentido, são, na verdade, formas computadas pelo programa como ocorrências, por fazerem parte de expressões com apóstrofo. Por exemplo, o uso da letra ‗s‘ é um traço linguístico típico do inglês para indicar o caso possessivo, como em ―‗You said You-Know- Who’s name!‘‖ e em contrações de verbos, como ‗has‘ e ‗is‘ em ―‗Daddy’s gone mad, hasn‘t he?‘‖ e ―‗What’s your Quidditch team?‘‖, respectivamente. O ‗t‘, por sua vez, refere-se à contração de ‗not‘ em ‗didn‘t‘ ou ‗don‘t‘, por exemplo, em que os itens ‗didn‘ e ‗don‘ são computados separadamente do ‗t‘ devido ao apóstrofo.

Além dessas ocorrências, o uso do verbo said com alto índice de chavicidade (28.571,82) na lista de palavras-chave, também parece apontar para um traço típico da língua inglesa. O que a princípio poderia ser apontado como uma pobreza lexical do autor da obra ao usar repetidamente o verbo said em vez de outros verbos de elocução, é na verdade um traço característico da língua inglesa. Segundo Tagnin (2011, p. 295), ―em inglês [...] é extremamente comum o uso do verbo de elocução said mesmo quando a fala não é uma afirmação. Ou seja, é também usado em casos de pergunta, resposta ou mesmo exclamação.‖ Conforme as dez linhas de concordâncias seguintes indicam (FIGURA 14), extraídas do

corpus por meio da ferramenta Concord, mesmo quando se trata de uma frase interrogativa e

exclamativa o verbo said é utilizado:

100 ―A chavicidade reporta o resultado de um procedimento estatístico pelo qual a ferramenta levanta o quão

importante cada palavra-chave positiva é para o corpus de pesquisa em relação ao de referência (e vice-versa no caso das palavras-chave negativas). Quanto maior o valor apresentado nessa coluna, maior a relevância da palavra em questão. [...] Há duas possibilidades de testes estatísticos para extração de palavras-chave no programa WordSmith Tools (SCOTT, 2009a): qui-quadrado e logaritmo de verossimilhança, sendo a última opção padrão (cf. SCOTT, 2009b)‖ (VIANA, 2010, p. 64).

FIGURA 14 – Linhas de concordâncias do corpus de estudo do verbo de elocução said

N Concordance

10 it before?‘ ‗What are you on about?‘ said Ron, but Harry, sprinting across 144 if they‘re not bringing you news?‘ ‗Aha!‘ said Uncle Vernon in a triumphant 162 like the Dementors, do you, Albus?‘ said Moody, with a sardonic smile. ‗No 190 that impenetrable darkness. ‗Is that all?‘ said Harry at once. ‗Why did it 232 of tears. ‗After all this time?‘ ‗Always,‘ said Snape. And the scene shifted. 438 her wand at Dolohov‘s forehead and said, ‗Obliviate.‘ At once, Dolohov‘s 584 Gryffindor Tower.‘ ‗I know who you are!‘ said Ron suddenly. ‗My brothers told 715 want you chucked back in Azkaban!‘ said Harry. There was a pause in

809 six hoops, isn't it?‘ ‗What‘s basketball?‘ said Wood curiously. ‗Never mind,‘ 1078 there aren‘t wild dragons in Britain?‘ said Harry. ‗Of course there are‘, said

Fonte: Elaboração do autor por meio da ferramenta Concord do WordSmith Tool 6.0.

Mesmo com esse uso comum de said, essa alta recorrência também demonstra, nos termos de Hunt (2010a), o controle exercido pelo enunciador na apresentação do discurso das personagens. As falas das personagens são apresentadas de modo direto com uso de aspas e ‗marcas‘, como said Harry. Isso sugere que, no corpus é feito uso do discurso direto marcado, em que a voz narrativa indica o modo como algo foi dito, de sorte que o narrador controla a forma como as personagens dizem e conduz a interpretação dos diálogos. Devido à alta chavicidade de said, o uso recorrente dessa forma sugere que o narrador exerce maior controle no direcionamento de interpretações possíveis em relação à apresentação do discurso das personagens, tolhendo, em certa medida, a liberdade de interpretação que o leitor teria em ele mesmo interpretar os dizeres das personagens e atribuir os verbos de elocução em um diálogo ‗livre‘.

Na posição 14 da lista de palavras-chave encontra-se a única unidade lexical (wand), no recorte das vinte primeiras palavras, que aponta para a temática do corpus, Witchcraft and

Wizardry (por ser um objeto mágico utilizado na prática de magia), e se configura como forte

candidata a termo, visto que ocorre nos dez textos do corpus. A identificação dos candidatos a termo foi realizada com base na lista de palavras-chave de acordo com o procedimento ilustrado no ensaio descritivo (cf. Capítulo 4).