Processamento do corpus - Corpus da pesquisa: o CardioCorpus

CAPÍTULO III - Metodologia e análise de dados

3.4. Corpus da pesquisa: o CardioCorpus

3.4.3. Processamento do corpus

Nesse item, evidenciamos como o CardioCorpus foi processado na ferramenta WordSmith Tools, explicando cada um dos comandos utilizados e expondo os resultados alcançados.

3.4.3.1. A ferramenta WordSmith Tools e suas funções

As ferramentas para processamento e análise de corpus são, juntamente com os microcomputadores, as grandes aliadas das pesquisas baseadas em corpora. Atualmente podemos contar com uma lista de diferentes opções de softwares, entre os quais podemos citar o WordSmith Tools, o Unitex e o AntConc, cada um deles com sua interface e suas especificidades.

O WordSmith Tools foi selecionado para o presente trabalho com base em sua produtividade em outras pesquisas, sendo provavelmente a ferramenta para análise de corpus mais utilizada ainda hoje. Berber Sardinha (2004) relata, em seu livro, as diversas funções dessa ferramenta e sua produtividade em pesquisas linguísticas (BERBER SARDINHA, 2004). O autor ainda afirma que o WordSmith Tools é ―depois de muitas versões, o mais completo e versátil conjunto de ferramentas para Linguística de Corpus.‖

(BERBER SARDINHA, 2000, p. 335)

A interface do programa é bastante amigável (―user-friendly‖), e possibilita o uso de três funções principais: Concord, Key Words e Word List.

Figura 1. Interface do WordSmith Tools

Para os fins de nossa pesquisa, utilizamos o comando Key Words para gerarmos a lista de candidatos a unigramas e o Index para buscar n-gramas com n>1. Também foi utilizado o Concord. A seguir tratamos com mais detalhes de cada uma dessas etapas.

Key Words

O recurso proporcionado pelo uso do comando Key Words é a localização, dentro do corpus, de unidades lexicais mais relevantes, ou seja, de palavras-chave. Isso é feito por meio da comparação das Word Lists geradas com base em dois corpora: o corpus de estudo e um corpus de referência, formado por textos de diversas áreas e fontes. Tal comparação colocará em evidência as unidades lexicais que são muito frequentes no corpus de estudo e pouco no de referência, gerando uma lista ordenada em ordem decrescente de ―chavicidade‖ (keyness) das unidades lexicais do corpus de estudo.

Esse recurso mostra-se extremamente útil para a extração de ULEs, pois essas irão ocorrer com muito mais frequência em textos de áreas técnico-científicas. Utilizamos, portanto, o procedimento do Key Words para extrair os unigramas.

Index

As listas de candidatos a n-gramas com n>1 foram geradas por meio da ferramenta Index, que produz listas de unidades lexicais que coocorrem com mais frequência no corpus com base em informações estatísticas. Dessa forma, o programa percebe a coocorrência frequente de duas unidades lexicais, e esse fato aponta para uma possível ULE complexa (formada por duas ou mais lexias). A visualização do candidato a ULE em linhas de concordância auxiliou-nos a confirmar o estatuto da unidade lexical (se era de fato especializada ou não) e a verificar se se tratava de um bi, tri, quadri, penta ou hexagrama.

Frisamos que, conforme afirmam Krieger e Finatto (2004), ―é uma característica genérica das terminologias a apresentação polilexemática. [...] Isto quer dizer que a busca por elementos associados tende a ser mais produtiva‖ (KRIGER; FINATTO, 2004, p. 205).

Notamos que, de fato, as busca por termos sintagmáticos foi mais produtiva e mais facilmente realizada, haja vista a facilidade do reconhecimento do estatuto terminológico

de unidades complexas em comparação com unidades simples, e a grande riqueza em número e em variedade dessas unidades, novamente se comparadas às unidades simples.

Concord

Como já dito acima, as linhas de concordância auxiliam o pesquisador a averiguar se uma unidade lexical é de fato uma ULE (por meio da visualização dos sues contextos de ocorrência), além de apontar se um suposto unigrama não é na verdade um n-grama com n>1.

Além disso, as linhas de concordância são extremamente funcionais no momento da extração de contextos definicionais, bem como de exemplos de uso apropriados para figurar no dicionário. De fato, esse foi um dos recursos oferecidos pelo WordSmith Tools mais utilizado no decorrer da pesquisa, em especial durante o trabalho com adjetivos muito frequentes, a fim de verificar quais eram os termos sintagmáticos formados por tais adjetivos.

3.4.3.2. Resultados obtidos

O CardioCorpus é formado por 12 tipos de texto (ver tabela 1), e possui 499 textos no total. Após limpeza e processamento, verificou-se que ele possui 26.697 ocorrências (843.647 tokens, 26.697 types).

Segundo a classificação de Berber Sardinha (2004), nosso corpus pode ser classificado como escrito, sincrônico, estático (não foi permitido crescimento ou diminuição do corpus durante a pesquisa), especializado (uma vez que é composto por textos que tratam de uma área de especialidade), de língua nativa e de estudo (pois dele foram retidas as unidades lexicais especializadas a serem descritas na pesquisa).

Além disso, segundo a classificação de Berber Sardinha (2002), nosso corpus pode ser considerado pequeno. Destacamos, porém, que, dada a delimitação do assunto tratado, nosso corpus de dimensões pequenas pode ser considerado bastante representativo. A representatividade, conforme já discutido em item anterior, é um conceito que depende não apenas do tamanho do corpus (medido em número de ocorrências), mas também de sua adequação à proposta da pesquisa. Em nosso caso, pode-se dizer que o CardioCorpus possui dimensões adequadas para atender àquilo que se pretendeu no presente trabalho.

A partir do CardioCorpus foram geradas listas de Keywords, bigramas, trigramas, quadrigramas, pentagramas e hexagramas. Inicialmente, realizamos nessas listas o corte inicial de todos os candidatos a termo com frequência menor que 26, critério inicial decidido por meio do corte de três dígitos (dezenas e centenas) do número total de types do corpus (26.697). Tal critério foi adaptado com base no critério de valores de corte de frequência utilizados por Kasama (2009): após constatar que o estabelecimento de valores de corte para utilização em unidades extraídas de corpora é tema pouco sistematizado na literatura, e que ainda falta consenso entre pesquisadores da área, o autor faz uso, em sua própria pesquisa, dos seguintes critérios para estabelecimento do valor de corte:

a) para corpus com mais de cem mil ocorrências de palavras, exclusão de dezenas, centenas, milhares e dezenas de milhares, sendo o número restante o valor de corte (exemplo: para um corpus com 1.846.763 ocorrências, realiza-se o corte 1.846.763 e o valor mínimo de frequência é estabelecido como 18);

b) para corpus com menos de cem mil ocorrências, o autor considera até mesmo os hapax legomena como valor de ocorrência aceitável para candidatos a termo. (KASAMA, 2009, p. 61-62)

Em nosso caso, dado que o corpus tem uma dimensão menor, os valores de corte de frequência foram adaptados: excluímos apenas as dezenas e as centenas (26.697), obtendo o valor de 26 ocorrências, que foi utilizado como critério inicial para a limpeza das listas.

Após o corte inicial, trabalhamos na limpeza das listas, uma a uma, excluindo candidatos a termo claramente improváveis, como palavras gramaticais, por exemplo.

A lista de Keywords, obtida com base na comparação do CardioCorpus com um corpus de referência, o Lácio-Ref,¹⁰⁵ gerou 3.003 candidatos a termo, dos quais foram selecionados 723 termos para posterior validação pela especialista.

Da lista de candidatos a bigramas foram selecionados 211 bigramas. Da lista de candidatos a trigramas foram selecionadas 89 unidades. Da lista de candidatos a quadrigramas, por sua vez, foram selecionadas 22 unidades. Da lista de candidatos a pentagramas foram selecionadas 3 unidades e da lista de hexagramas foram selecionadas 4 unidades.

105 Disponível no site <http://www.nilc.icmc.usp.br/nilc/index.php/tools-and-resources>, acesso em junho de 2012.

No documento Isabela Galdiano PROPOSTA DE UM DICIONÁRIO DA CARDIOPATIA CONGÊNITA (páginas 140-144)