• Nenhum resultado encontrado

Tarefa A1 – Tratamento semiautomático do corpus

No documento Tese de Doutoramento em Linguística (páginas 123-128)

MODELO BASEADO EM PROCESSOS DE VALIDAÇÃO

2. Processo relativo aos termos

2.1.1. Atividade A – Seleção de candidatos a termos

2.1.1.1. Tarefa A1 – Tratamento semiautomático do corpus

Os textos que compõem o corpus foram submetidos a uma metodologia de tratamento semiautomática com o auxílio de programas informáticos especialmente adquirido para o efeito pela Assembleia da República, nomeadamente o programa

61 Formações no âmbito do CLUNL para o INE, a Direção-Geral de Arquivos, a Biblioteca Nacional de

Cabo Verde e a Assembleia da República, entre outras instituições. Formação em Terminologia para tradutores e revisores, no quadro das funções de gestão de terminologia em empresa de tradução.

- 114 -

Hyperbase62. Este programa foi complementado com o uso de outras ferramentas do tipo concordancer quando necessário, permitindo assim uma abordagem linguística e estatística ao corpus.

O terminólogo recorre ao uso de ferramentas de tratamento semiautomático da língua para confirmar as suas intuições sobre a análise linguística/terminológica que tem entre mãos.

A intuição do terminólogo é formada com base no conhecimento que este detém sobre o funcionamento do sistema da língua mas também na sua capacidade em distinguir unidades linguísticas de especialidade de entre os outros elementos da língua. Para isso, recorre à análise sistemática de combinatórias linguísticas em contextos de especialidade para chegar à identificação de candidatos a termos. Sem o auxílio de ferramentas informáticas, as noções de exaustividade e de sistematização seriam muito mais difíceis de alcançar, senão impossíveis.

Embora saibamos que dificilmente se é totalmente exaustivo na análise de um corpus, a abordagem semiautomática permite chegar muito perto desse objetivo. O facto de, rapidamente, podermos extrair todos os contextos onde ocorre uma determinada forma e, de seguida, observá-los e analisá-los criteriosamente permite de facto a formulação de conclusões com um maior grau de segurança e de confiabilidade. Podemos afirmar que o recurso a uma metodologia deste género em Terminologia contribui de forma decisiva para assegurar uma maior qualidade de análise do corpus.

No caso presente, o programa a que recorremos para apresentar a estatística é o AntConc63“a freeware, multiplatform tool for carrying out corpus linguistics research

and data-driven learning” (Anthony, 2014:1), disponível na Internet. O recurso a este

tipo de ferramentas informáticas permite, por um lado, obter dados quantitativos sobre o corpus baseados nas noções de frequência e percentagem relativamente às

62

Logiciel Hyperbase, Université de Nice: http://ancilla.unice.fr/

63 Build 3.4.1 - Laurence Anthony, Ph.D. Center for English Language Education in Science and

Engineering, School of Science and Engineering, Waseda University. http://www.antlab.sci.waseda.ac.jp/software.html

- 115 - ocorrências que surgem nos textos e, por outro lado, observar as distribuições de determinadas formas linguísticas nos seus respetivos contextos (Tarefa A2 a seguir).

Como ilustra a figura seguinte, após carregamento do corpus obtivemos os primeiros dados estatísticos. A função word list permite apurar o número total de ocorrências, neste caso o corpus de análise possui cerca de 90000 ocorrências (word

tokens) das quais cerca de 5500 são formas únicas (word types), isto é, apenas 6% do

corpus. Significa que 94% do corpus é constituído por formas repetidas o que é um forte indicador de pouca diversidade de formas linguísticas presentes no corpus em análise.

Figura 8: Word List: word tokens and word types

Para além destes primeiros dados quantitativos importantes na abordagem ao corpus, também nos é apresentada a lista de todas as ocorrências (word) com a respetiva frequência (freq), por exemplo, a forma votação no singular ocorre 133 vezes e a forma votações no plural apenas 27. A frequência da forma é, para o terminólogo, um indicador de pertinência terminológica ou de não-pertinência terminológica da

- 116 - forma. São, geralmente, as formas com as frequências mais elevadas que chamam a nossa atenção uma vez que, teoricamente, quanto mais vezes aparecer uma determinada forma linguística num texto de especialidade mais probabilidades terá de poder vir a ser um candidato a termo.

No entanto, também sabemos que a noção de frequência é relativa e que nem sempre se revela ser um verdadeiro índice de pertinência. Frequências elevadas podem não ter nada a ver com formas que remetem para conceitos ou, pelo contrário, formas com frequências baixas podem revelar-se muito pertinentes como é, por exemplo, o caso da forma votantes que possui uma frequência 1, ou seja, é um apax no corpus mas será tida em conta aquando da formação do campo conceptual em torno do conceito de /votar/.

A ferramenta AntConc apresenta outra funcionalidade designada concordance

plot tool que, mais uma vez, pode ser extremamente útil para guiar a perceção do

terminólogo dentro do corpus a melhor orientar a sua análise. Como é possível verificar na figura mais abaixo, esta função mostra o resultado da pesquisa de uma forma, por exemplo assembleia, sob a forma de representação de um código de barras. Concretamente, cada código de barras corresponde a um texto do corpus e as faixas pretas correspondem às zonas de incidência onde ocorre a forma assembleia.

De acordo com Antony “An example of the use of the Plot Tool is in determining

where specific content words appear in a technical paper, or where an actor or story character appears during the course of a play or novel” (2014:4).

- 117 -

Figura 9: Concordance Plot Tool para “assembleia”

A título de exemplo, verificamos que o termo assembleia tem maior incidência em três dos textos do corpus, no texto 1 Constituição (186 ocorrências), no texto 4

Regimento (388 ocorrências), e no texto 6 Lofar (244 ocorrências). No texto 1 é nítido

o desequilíbrio na repartição da ocorrência do termo assembleia que parece ser muito mais citado na segunda parte do texto, contrariamente aos textos 4 e 6 em que a homogeneidade na repartição da ocorrência é muito maior ao longo de ambos os textos. Não restam dúvidas que do ponto de vista da pertinência dos textos para uma abordagem contextualmente mais rica, estes seriam os três textos indicados para a análise do termo assembleia.

Desta forma, introduzimos, na abordagem semasiológica ao corpus pela via do tratamento semiautomátio, a noção de espaço relacionada com a noção de frequência, uma vez que é possível visualizar a posição efetiva que os termos ocupam nos textos. Estas funcionalidades são de grande ajuda para o terminólogo que parte assim para a análise linguística do corpus com uma perceção mais concreta do que vai

- 118 - encontrar nos textos, baseada em dados quantitativos suficientes para tomar decisões justificadas à medida que vai progredindo na sua análise.

No documento Tese de Doutoramento em Linguística (páginas 123-128)