EXTRAÇÃO DOS CANDIDATOS A TERMO - GLOSSÁRIO TERMINOLÓGICO DE SISTEMAS DE INFORMAÇÃO GERENCIAIS

Após a devida compilação e organização do corpus, selecionamos o programa

AntConc 3.2.4w26 para dar prosseguimento à extração semiautomática dos candidatos a termo. Este software mostrou-se bastante útil para a investigação pretendida, uma vez que possui as ferramentas básicas de um programa voltado à pesquisa baseada em

corpora (concordanciador, extrator de n-gramas e lista de frequências), é

disponibilizado gratuitamente, oferece um manual27 que descreve satisfatoriamente todas as utilidades do programa e conta com um grupo de discussão online28 destinado a eventuais dúvidas decorrentes de seu uso. Além disso, sua interface é intuitiva (figura 7) e de fácil manuseio, requerendo poucos minutos de familiarização com suas funcionalidades.

Figura 7 – Tela inicial do AntConc 3.2.4w.

Fonte: Print Screen de programa no Sistema Operacional Windows 7.

26 http://www.antlab.sci.waseda.ac.jp/antconc_index.html 27 http://www.antlab.sci.waseda.ac.jp/software/README_AntConc3.2.4.pdf 28 https://groups.google.com/forum/#!forum/antconc

Inicialmente, os artigos compilados em formato txt foram carregados para serem processados pelo programa, por meio do comando Open file(s). Após carregados, o programa exibe a lista dos arquivos na coluna Corpus File, localizada ao lado esquerdo da tela principal:

Figura 8 – O corpus da pesquisa carregado no AntConc 3.2.4w.

Fonte: Print Screen de programa no Sistema Operacional Windows 7.

Antes de realizarmos a extração semiautomática de candidatos a termo, elaboramos uma lista de palavras do corpus por ordem de frequência, a fim de verificar seu tamanho e confirmar se o número de textos compilados correspondia à intenção inicial de elaboração do corpus.

Selecionamos a ferramenta Word List, localizada na aba superior do programa. O criador do AntConc, professor Laurence Anthony (2011, p. 5), explica que “essa ferramenta conta todas as palavras do corpus e as apresenta em uma lista ordenada, o que possibilita encontrar rapidamente as palavras mais frequentes de um corpus” (tradução nossa29).

Como o AntConc estabelece diferenças entre letras maiúsculas e minúsculas, isto é, ele considera Tecnologia uma palavra diferente de tecnologia, selecionamos a opção

Treat all data as lowercase, localizada na barra de pesquisa abaixo, para que todo o corpus fosse processado como composto por palavras escritas com letras minúsculas,

This tool counts all the words in the corpus and presents them in an ordered list. This allows you to quickly find which words are the most frequent in a corpus.

eliminando, assim, qualquer interferência que tal diferenciação poderia causar no resultado da listagem de palavras.

O corpus apresentou no total 2.103.536 tokens, sendo 40.729 types30. Logo, o

tamanho atingido permitiu encaixá-lo na categoria médio-grande (BERBER SARDINHA, 2002, p. 119), como era pretendido.

Figura 9 – Resultado da lista de palavras do corpus por ordem de frequência.

Fonte: Print Screen de programa no Sistema Operacional Windows 7.

A palavra mais recorrente de todo o corpus é a preposição de, com 138.978 ocorrências. De fato, todas as 25 primeiras palavras da lista são palavras gramaticais, sendo que o primeiro termo dessa lista encontra-se somente na 26ª posição – a sigla TI, de Tecnologia da Informação. Isso já indicava a provável presença de itens lexicais indesejáveis nas demais extrações realizadas.

Após a certificação do total de unidades do corpus, prosseguimos com a extração e selecionamos a ferramenta N-Grams, presente no interior da ferramenta

Clusters. Segundo Anthony (2011, p. 1):

A ferramenta N-grams busca em todo o corpus grupos lexicais de tamanhos variados (por exemplo: uma ou duas palavras), o que possibilita encontrar expressões comuns presentes nos textos. Por exemplo, os N-gramas de

Tokens referem-se ao número total de palavras em um corpus, ao passo que types desconsideram as vezes em que cada unidade léxica foi repetida (BAKER; HARDIE e MCENERY, 2006, p. 162).

tamanho 2 da oração “isto é uma caneta” são ‘isto é’, ‘é uma’ e ‘uma caneta’. (tradução nossa31)

Esse tipo de ferramenta possibilita, portanto, a extração de agrupamentos de duas ou mais unidades lexicais que ocorrem com uma determinada frequência no corpus (N-gramas), e foi a partir de seu resultado que extraímos, manualmente, os candidatos a termo. Uma vez que a pesquisa para a delimitação do domínio dos SIG indicou a presença de termos compostos por até cinco palavras (como gestão da cadeia de

suprimentos), configuramos a ferramenta para verificar os agrupamentos léxicos de base

2 e teto 5.

Além de estabelecer quantos N-gramas seriam extraídos, definimos também um número de corte de frequência. Esse número determina a quantidade mínima de vezes que uma determinada estrutura deve aparecer em um corpus para ser considerada relevante, de acordo com o tamanho do corpus compilado. Por exemplo, caso o número de corte seja 17, o programa considera somente os agrupamentos léxicos (de duas ou mais palavras) que ocorrem no corpus a partir desse valor, desconsiderando os que ocorrem 16 vezes ou menos.

Determinar essa quantia é um procedimento extremamente necessário ao tipo de extração realizada em nossa pesquisa, pois, na ausência de um padrão que prescreva a frequência mínima de uma combinação léxica presente em um corpus, o programa consideraria todo e qualquer agrupamento como válido, não havendo critério algum para a extração dos N-gramas.

Para se chegar a esse número, utilizamos o cálculo estatístico empregado pelo Núcleo Interinstitucional de Linguística Computacional (NILC)32, centro brasileiro de pesquisa em Linguística Computacional e Processamento da Linguagem Natural que desenvolve estudos sobre o processamento computacional de línguas naturais e elabora recursos para a transferência de conhecimentos e tecnologias33. O resultado aritmético é obtido da seguinte maneira:

(Número de palavras do corpus ÷ 100.000) + 1 = Número de corte de frequência

The N‐Grams Tool scans the entire corpus for 'N' (e.g. 1 word, 2 words, …) length clusters. This allows you to find common expressions in a corpus. For example, n-grams of size 2 for the sentence “this is a pen”, are ‘this is’, ‘is a’ and ‘a pen’.

http://www.nilc.icmc.usp.br/nilc/index.php 33

Agradecemos à professora Dra. Gladis Maria Barcellos Almeida pela explicação, dada por e-mail, referente a esse critério estatístico.

Como o corpus compilado possui 2.103.536 palavras, temos:

2.103.536 ÷ 100.000 = 21,0356 21,0356 + 1 = 22,0356

Dessa forma, o número de corte de frequência foi estabelecido em 22, ou seja, para que os N-gramas de 2 a 5 palavras constassem nos resultados, eles precisariam ter ocorrido pelo menos 22 vezes no corpus.

Configuramos então a ferramenta N-grams com os dados necessários (figura 10), preenchendo os seguintes campos (localizados na parte inferior do programa):

• N-Gram size (tamanho de N-gramas) – Min. Size (tamanho mínimo) 2 e

Max. Size (tamanho máximo) 5;

• Min. N-Gram Frequency (Número de corte) – 22.

O resultado da extração de N-gramas processada pelo AntConc foi de 16.651 agrupamentos léxicos:

Figura 10 – Resultado da extração de N-gramas.

Como se pode notar, as primeiras ocorrências da lista são de palavras gramaticais; Tecnologia da Informação, primeiro termo a configurar nos resultados, aparece somente na 50ª posição.

A quantidade de ruído gerada, isto é, palavras que não configuram um saber especializado, é comum em métodos estatísticos de extração (TELINE; ALMEIDA; ALUÍSIO, 2003, p. 5). Para filtrar essas unidades impertinentes à pesquisa, optamos pelo processamento de uma stoplist, facilitando, assim, a extração manual dos candidatos a termo a partir de uma listagem mais específica.

Uma stoplist é uma lista de palavras a serem desconsideradas de uma determinada extração automática. Ao ser processada por softwares específicos, as palavras dessa lista que também ocorrem no resultado da extração automática são eliminadas, filtrando, assim, quaisquer unidades léxicas indesejadas de um determinado documento.

A stoplist utilizada para a filtragem dos N-gramas foi retirada da plataforma e-

Termos34. Segundo Almeida (2012, p. 221):

O e-Termos, acrônimo de Termos Eletrônicos, é um ambiente computacional colaborativo web de acesso livre e gratuito dedicado à gestão terminológica. Seu principal objetivo é viabilizar a criação de produtos terminológicos, sejam eles para fins de pesquisa acadêmica ou de divulgação, por meio da (semi) automatização das etapas do trabalho terminológico.

A plataforma e-Termos dispõe, portanto, de diversas ferramentas para a criação de produtos terminológicos, sendo uma delas a própria stoplist. De qualquer forma, algumas adaptações foram feitas à essa lista de palavras, de modo a obter melhores resultados em nossa pesquisa.

As lexias CONCLUSÃO, CONCLUSÕES, INTRODUÇÃO, CONSIDERAÇÕES

FINAIS e Palavras-chave foram adicionadas à stoplist, devido ao tratamento

diferenciado dado pelos programas de processamento de corpora por lexias escritas em maiúsculo, como já explicado anteriormente35.

Além disso, as preposições de e da foram removidas da stoplist original. Antes mesmo da extração já sabíamos da presença significativa de unidades terminológicas compostas pela combinação sintagmática sujeito + preposição + sujeito, como

https://www.etermos.cnptia.embrapa.br 35

Mesmo buscando não selecionar tais lexias para serem reconhecidas pelo ABBYY, a formatação de alguns artigos não permitiu que as excluíssemos durante a conversão dos arquivos, o que nos levou a adaptar a stoplist a essas manifestações.

Tecnologia da Informação e Sistemas de Informação, e, caso processássemos a stoplist

com tais preposições, teríamos uma perda significativa de termos da área. Assim, retiramos essas duas palavras gramaticais da listagem de lexias a serem filtradas.

Após essas modificações, a stoplist contou com 853 unidades, sendo salva em formato txt.

Figura 11 – Stoplist retirada e adaptada da plataforma e-Termos.

Fonte: Print Screen de programa no Sistema Operacional Windows 7.

Como o AntConc 3.2.4w não realiza o processamento de stoplists, recorremos à ferramenta kfNgramStopwords, presente no programa kfNGram36, para essa tarefa. Segundo seu criador, William H. Fletcher (2004), essa ferramenta “possibilita a filtragem de N-gramas que contenham qualquer palavra de uma stoplist” (tradução nossa37).

Para que seja possível realizar a filtragem, é necessário possuir tanto a stoplist quanto a listagem de N-gramas em formato txt. Assim, também convertemos a lista gerada pelo AntConc para o Bloco de Notas, sem a ordenação numérica dos resultados.

Com o processamento da stoplist, foi possível remover 8353 agrupamentos léxicos desnecessários, sobrando, portanto, 8298 unidades. Por mais que não tenha sido possível extrair todo o ruído presente na listagem de N-gramas, a filtragem feita pelo

http://kwicfinder.com/kfNgram/kfNgram.zip 37

kfNgramStopwords eliminou mais da metade das palavras indesejadas, permitindo que o

trabalho de extração manual fosse facilitado.

O resultado é salvo automaticamente pelo programa em um arquivo txt:

Figura 12 – Lista de N-gramas após filtragem pelo kfNgramStopwords.

Fonte: Print Screen de programa no Sistema Operacional Windows 7.

A partir dessa última listagem de N-gramas é que passamos à extração manual dos candidatos a termo. Os candidatos encontrados foram separados e organizados em uma planilha eletrônica, para que fosse possível apresentá-los aos especialistas da área e organizá-los no mapa conceitual construído, etapas descritas na seção seguinte.

No documento GLOSSÁRIO TERMINOLÓGICO DE SISTEMAS DE INFORMAÇÃO GERENCIAIS (páginas 54-61)