• Nenhum resultado encontrado

IDENTIFICAÇÃO DE UMA TERMINOLOGIA: A METODOLOGIA UTILIZADA NA COLETA DA N&N EM PB-PE

N/A
N/A
Protected

Academic year: 2021

Share "IDENTIFICAÇÃO DE UMA TERMINOLOGIA: A METODOLOGIA UTILIZADA NA COLETA DA N&N EM PB-PE"

Copied!
11
0
0

Texto

(1)

IDENTIFICAÇÃO DE UMA TERMINOLOGIA: A METODOLOGIA UTILIZADA NA COLETA DA N&N EM PB-PE

Manoel M. A. da SILVA1 Yara M. DIAS2

Introdução

Este artigo objetiva apresentar a metodologia utilizada na coleta da terminologia em córpus comparáveis entre o Português Brasileiro (PB) e o Português Europeu (PE), possibilitada pelo Projeto de Pesquisa Terminologia da nanociência e da

nanotecnologia: proposta de integração intralinguística PB-PE, institucionalizado na

Universidade Estadual de Maringá (UEM) e financiado pela Fundação Araucária (FA), do governo paranaense, que vem sendo desenvolvido desde julho de 2012 com término previsto para julho de 2014. Esta metodologia é a mesma utilizada pelo Grupo de Pesquisa Projeto Observatório de Neologismos do Português Brasileiro Contemporâneo

(TermNeo), cuja página no CNPq é

http://dgp.cnpq.br/buscaoperacional/detalhegrupo.jsp?grupo=0067802CJCMWCS, e

pelo Grupo de Pesquisa Núcleo de pesquisa em léxico geral e especializado do português contemporâneo (Nuterm), cuja página no CNPq é

http://dgp.cnpq.br/buscaoperacional/detalhegrupo.jsp?grupo=0329802NAO7F9A.

Recentemente, foi proposto também a criação do Observatório de neologismos e neônimos do Português do Brasil – Região Sul (ONPB). Basicamente, o procedimento pode ser descrito em cinco passos, a saber: i. montagem do córpus, ii. manipulação textual; iii. seleção de candidatos e de contextos eficazes; iv. preenchimento das fichas terminológicas; v. apresentação dos verbetes (SILVA, 2012).

1 Professor Doutor do Departamento de Língua Portuguesa da Universidade Estadual de Maringá (UEM). 2 Graduanda do curso de Letras / Português da Universidade Estadual de Maringá (UEM).

(2)

Esta proposta de apresentação de metodologias vai ao encontro do desejado pela comunidade científica, pois o fenômeno da sistematização de terminologias de diferentes países começou a receber a devida atenção principalmente a partir dos anos de 1980, quando houve as reavaliações da Teoria Geral da Terminologia (TGT), em que a Unidade de Conhecimento Especializado (UCE) passa a ser considerada uma realização da língua natural e, como tal, possuidora de todas as suas peculiaridades.

Esta visão, no entanto, vem causando uma série de indagações porque, embora para o linguista seja importante observar e descrever a terminologia em uso, para o especialista da área há algumas restrições já que, em sua comunicação entre especialistas de diferentes países, a tendência é que haja propostas de harmonização, uma vez que, se uma área existe por si só, é porque existe um conjunto determinado de tarefas que a estrutura, sendo necessária a sistematização do conjunto dos conceitos pertinentes dela, das relações que permitem uma ligação de conceitos gerais a conceitos mais específicos, principalmente em relação a variantes intralinguísticas, para possibilitar uma integração desejada entre dois usos de uma mesma linguagem de especialidade.

A questão da integração intralinguística vai se dar a partir da constituição do córpus em ambas as variantes para se propor, como uma espécie de missão do terminólogo, as possibilidades mais indicadas para a integração, com base em critérios pré-selecionados e de comum acordo com os especialistas. Neste aspecto, a pesquisa optou por alguns princípios metodológicos em Terminologia que têm facilitado o trabalho de propostas de harmonização em PB e PE, como a consulta a especialistas daqui e d’além mar para a devida sistematização.

O projeto de pesquisa em tela visa à publicação de um Dicionário terminológico

da nanociência e nanotecnologia, visto que essas duas áreas – que englobam a

comunidade científica, como Biologia, Medicina, Física, Química, Informática e Engenharia – estão em ascensão e têm a necessidade de dicionarizar suas novas terminologias, em comum acordo entre os países falantes da Língua Portuguesa, para facilitar e aprimorar os trabalhos realizados nas devidas subáreas. Para se ter uma ideia da complexidade do objeto de estudo, é apresentada abaixo uma figura que o representa:

(3)

Figura 1 – Representação da área Nano.

A precisão de um acordo na elaboração de conceitos é relevante para a tecnologia na utilização das UCEs, que estão intrinsecamente ligadas no cotidiano profissional dos especialistas da área. A realização de um projeto que busca ir ao encontro da necessidade da comunidade científica e facilitar o avanço tecnológico é de grande importância para os estudos em Nanociência e Nanotecnologia (N & N), uma vez que o Brasil também desenvolve pesquisas nessa área, e um dicionário com essas terminologias será de extrema valia.

1. Desenvolvimento

Diversas ferramentas para a busca semiautomática de candidatos a UCEs são encontradas disponíveis na internet. Pode-se citar, por exemplo, a Plataforma E-termos, da Universidade Federal de São Carlos (UFSCAr), ou mesmo a Plataforma Terminus, um sistema integral que inclui a cadeia completa do trabalho terminológico, como a busca, constituição e exploração de córpus textuais, gestão de vocabulários e projetos, criação e manutenção de banco de dados, edição de dicionários em diversos formatos de impressão ou eletrônicos. Apesar de ser uma estação de trabalho terminológico, seu funcionamento se dá a partir de licenças individuais e institucionais. Por outro lado, não

(4)

deixa de ser uma contribuição valiosa do Grupo Iulaterm do Instituto Universitário de Linguística Aplicada da Universidade Pompeu Fabra.

Essas limitações econômicas fizeram com que a opção fosse pela montagem dos córpus a partir de pesquisas realizadas em buscadores disponíveis gratuitamente na internet. Principalmente a partir da coleta de teses e dissertações, foi possível avançar na montagem de bancos de dados apenas com textos especializados das diversas áreas e/ou subáreas eleitas para o desenvolvimento dessas sistematizações terminológicas.

A fase seguinte, a da manipulação do córpus, foi realizada com a ferramenta Unitex. Para o funcionamento perfeito do Unitex, é necessária a instalação da versão Java JRE 1.4 na máquina de trabalho. Após a instalação do Java, pode-se baixar o Unitex e descompactar os arquivos, originando, assim, uma nova pasta. Na nova pasta, é preciso localizar o arquivo APP-Unitex (executável/jar.). Dessa forma, conclui-se o processo de instalação, sendo possível a utilização do programa pela primeira vez.

Ao abrir a ferramenta, o Unitex cria cópias das pastas e dos arquivos necessários em um diretório pessoal. Em seguida, é necessário realizar a seleção do idioma desejado, permitindo que o programa reconheça o local de alguns dados.

Para abrir um texto, deve-se clicar na opção Open no menu Text, selecionando a busca de arquivos em formato unitex text. Em seguida, deve-se selecionar a pasta e/ou arquivo desejado, alterando o formato da seleção de busca para Raw Unicode Texts. Devem-se sempre selecionar arquivos em txt, arquivos de texto bruto.

Após selecionar o texto, o Unitex vai processá-lo de forma com que ocorram operações de normalização de separadores, segmentação em unidades lexicais, normalização das formas não ambíguas, segmentação em frases e aplicação de dicionários. Este procedimento é necessário para o bom funcionamento da ferramenta Unitex.

Após as operações de tratamento, é possível visualizar o texto na tela do programa. Do processamento, são geradas listas de frequência e listas de concordância para análise de possíveis candidatos a UCEs que podem vir a configurar um neônimo.

A busca por fraseologias e/ou sintagmas nominais pode ser feita a partir da lista de frequência, ou seja, são selecionados os itens mais frequentes e, a partir deles, organizam-se as expressões de buscas inseridas no Locate Pattern no menu Text para que os concordanceadores possam trazer os contextos em que a possível UCE aparece

(5)

no texto. Clicando sobre a UCE destacada, pode-se encontrar o contexto exato dela, ou seja, o lugar do texto em que ela se encontra.

Por fim, o processo de seleção de candidatos a neônimos realiza a busca de todas as palavras do córpus em dicionários de exclusão. Se uma UCE não ocorre em nenhum dicionário consultado, ela é considerada candidata a neônimo.

Como resultado desse processo, produz-se como saída um arquivo contendo os candidatos a neônimos, todos os contextos em que ocorrem e uma indicação se os candidatos são nomes próprios ou não, a qual é feita em função da capitalização da primeira letra dos candidatos: se maiúscula, então o candidato em questão pode ser um nome próprio e configurar ou não um epônimo. A exibição de todas as sentenças em que um candidato a neônimo ocorre permite que o especialista humano faça uma análise completa dos sentidos do candidato no córpus. Em relação ao PB-PE foram identificadas algumas variações, como as apresentadas na Figura 2 abaixo.

Figura 2 – Tabela com variantes PB-PE

Diante dessas variantes, que precisavam estar em acordo mútuo entre os especialistas dos países falantes da Língua Portuguesa, o programa de computador

(6)

Unitex foi utilizado também, para assim localizar os candidatos a UCEs em contextos reais, bem como para verificar os concordancedores e a frequência com o qual apareciam no córpus. Dessa forma, seria viável e prático o trabalho realizado para dicionarização, uma vez que as palavras-ocorrências indicariam o surgimento de um possível neônimo para a N&N, como se observa na Figura 3 abaixo.

Figura 3 – Modelo de lista de frequência gerada pelo Unitex.

Após a localização das novas UCEs para compor o dicionário, era preciso colocá-las em fichas para cumprir com as devidas finalidades esperadas para o dicionário. A ficha de pesquisa terminológica escolhida apresenta dezoito campos, e seguem sugestão da Profa. Dra. Ieda Maria Alves (1998), como também foram informatizadas pelo gerenciador de banco de dados MS-Access. Abaixo, a Figura 4 ilustra o modelo adotado.

(7)

Figura 4 – Modelo de Ficha Terminológica adotado.

A seguir, uma explicação de cada campo:

Campo 1. CÓDIGO: a ficha apresenta um número de identificação automático do

candidato a neônimo fornecido pelo gerenciador de banco de dados MS-Access;

Campo 2. UCE: ela é apresentada sob forma lematizada (forma nominal no

masculino singular e verbo no infinitivo). As exceções implicam que a mesma é sempre utilizada no plural ou que seu conceito comporta vários elementos constituintes;

Campo 2.1. SIGLA: forma abreviada como a UCE também é conhecida;

Campo 2.2. VARIANTE: outra forma utilizada sem critérios, ou seja,

discrepâncias ortográficas e/ou morfossintáticas. Prioriza -se a abertura de uma ficha para a UCE mais utilizada e é incluído um contexto, na mesma ficha, com a outra menos conhecida;

Campo 3. REFERÊNCIAS GRAMATICAIS: indicações morfológicas mínimas

necessárias para a adequada utilização da UCE em um contexto;

Campo 4. CONTEXTO: transcrição do contexto, de caráter definitório,

preferencialmente, em que a UCE ocorreu na fonte, que visa a apresentá-la, colocada entre < >, no âmbito de seu funcionamento conceitual e morfossintático.

(8)

É apresentado mais de um contexto apenas nos casos em que há variante, como explicitado acima, ou quando há decisão deliberada do pesquisador;

Campo 5. REFERÊNCIAS DO CONTEXTO: indicações do autor (nome) e da

fonte (do ano de publicação e da página), que remetem ao córpus da pesquisa;

Campo 6. OBSERVAÇÕES LINGUÍSTICAS: indicações de particularidades

gramaticais e linguísticas da UCE, com a utilização da segu inte acrossemia: s (substantivo), adj (adjetivo), ar (artigo), v (verbo), p (preposição), cp (contração prepositiva), c (conjunção), n (numeral), pref (prefixo), suf (sufixo), pr (pronome) e adv (advérbio) e de um código dado para efeito de referência em relação à sua formação, além de outras informações pertinentes à exata compreensão da UCE em questão;

Campo 7. OBSERVAÇÕES ENCICLOPÉDICAS: indicações de um número

dado para efeito de referência relacionado à parte que constará como verbete no dicionário.

Campo 8. DEFINIÇÃO: indicações dos traços necessários à identificação do

conceito, ou seja, um elemento genérico e suas características específicas que individualizam a UCE definida. É redigida de forma intencionalmente curta e com o objetivo de ser compreendida pelos leitores, observando-se a mesma estrutura sintática na redação das UCEs relacionadas;

Campo 9. ÁREA: refere-se a uma área do conhecimento humano acumulado, se

pertinente;

Campo 10. SUBÁREAS: referem-se àquelas que caracterizam especificidades da

área em questão;

Campo 11. DADOS FRASEOLÓGICOS: eventuais UCEs que se juntam a uma

outra não sintagmática;

Campo 12. UCEs RELACIONADAS: denominadas de unitermos, são aquelas

que estejam citadas na ficha terminológica da UCE, até um número máximo de três, tanto na definição quanto nas observações enciclopédicas, assim como aquelas que pertençam a uma classificação, sempre em ordem alfabética, e que façam parte do repertório;

(9)

Campo 13. SINÔNIMOS: indicações dos diferentes significantes da UCE, que

possuem o mesmo significado, utilizados em contextos e fichas terminológicas próprias, com a mesma definição;

Campo 14. AUTOR DA FICHA: nome do pesquisador que preencheu a ficha; Campo 15. REVISOR: nome do pesquisador que revisou a ficha após a

colaboração de especialista da área, se pertinente;

Campo 16. DATA DO REGISTRO: data em que a ficha foi preenchida pela

primeira vez, sem mencionar as revisões e reelaborações.

Os campos da ficha não são, muitas vezes, preenchidos em sua totalidade, porém isso não impede sua dicionarização, uma vez que nem sempre há sinônimos, variantes ou dados fraseológicos de suma relevância. As Figuras 5 e 6 abaixo apresentam exemplos de fichas terminológicas preenchidas e pode -se observar que nem todos os campos foram importantes para o completo dossiê da UCE, haja vista que nem sempre todas as informações estão disponíveis.

(10)

Figura 6 - Ficha Terminológica preenchida.

Com base nesta ficha de pesquisa terminológica, está sendo elaborado o

Dicionário terminológico da nanociência & nanotecnologia. Para isso, é

necessário que cada verbete contenha informações sistemáticas (obrigatórias em todos) e não sistemáticas (informações não recorrentes). As informações sistemáticas comporão a seguinte microestrutura: UCE, referências gramaticais, definição, contexto, referências do contexto e remissivas. As não sistemáticas comporão a seguinte microestrutura: sigla, variante, dados fraseológicos, observações linguísticas e enciclopédicas, que virão sob form a de nota, e sinônimos.

Considerações finais

Pode-se observar que a partir do desenvolvimento tecnológico cada vez mais célere, faz-se necessário aos especialistas da área científica – Biologia, Medicina, Física, Química, Informática e Engenharia – um dicionário que aborde as terminologias da área e que esteja em harmonia entre PB e o PE, visto que contribuirá para uma maior interação e cooperação entre as nações de fala portuguesa e ainda que essa área permaneça seu desenvolvimento veloz e qualificado.

(11)

Referências

ALMEIDA, Gladis Maria de Barcellos. Teoria comunicativa da terminologia (TCT): uma aplicação. 2000. 2 v. 290 f. Tese (Doutorado em Lingüística e Língua Portuguesa) — Faculdade de Ciências e Letras de Araraquara, Universidade Estadual Paulista Júlio de Mesquita Filho, Araraquara, 2000.

ALVES, I. M. et al., Proceedings of the International Joint Conference

IBERAMIA/SBIA/SBRN 2006 – In 4th Workshop in Information and Human

Language Technology (TIL’2006) - Poster Section, Ribeirão Preto, Brazil, October 23–

28, 2006. CD-ROM. ISBN 85-87837-11-7

ALVES, Ieda Maria (coord.) Glossário dos termos neológicos da economia. São Paulo: Humanitas: FFLCH (USP), 1998.

CABRÉ, M. Teresa. La Terminología hoy: replanteamiento o diversificación. In.: Revista Organon 26 – Terminologia e Integração – Revista do Instituto de Letras da Universidade Federal do Rio Grande do Sul. 1998.

FAULSTICH, E. Entre a sincronia e a diacronia: variação terminológica no código e na língua. In: CORREIA, M. (Org.). Terminologia, desenvolvimento e identidade nacional. Lisboa: Colibri/ILTEC, 2002. p. 61-74.

SILVA, Manoel M. A. da; LINO, Maria T. R. da F. La variation intralinguistique dans des corpus comparables em portugais brésilien et européen dans la terminologie de la nanoscience/nanotechnogie. Acta Scientiarum. Language and Culture. Vol 33, n. 2, Jul.-Dez. 2011, p. 173-187.

SILVA, M. M. A. da. Observatório de neologismos e neônimos da Português do Brasil – Região Sul, léxico especializado. In: ENCONTRO DO CÍRCULO DE ESTUDOS LINGUÍSTICOS DO SUL, 10, 2012, Cascavel, PR. CORBARI, Alcione Tereza (org.)

Anais... Cascavel, [s.n.], 2012. p. 1-11. Disponível em:

HTTP://www.celsul.org.br/Encontros/10/artigos/ManoelMAdaSilva.htm. Acesso em 8

Referências

Documentos relacionados

Neste estudo utilizaram-se como variáveis independentes apenas o facto da classificação da EF contar ou não para a média, sendo pertinente conduzirem-se mais

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

Para analisar as Componentes de Gestão foram utilizadas questões referentes à forma como o visitante considera as condições da ilha no momento da realização do

When comparing the three liquors it becomes clear that the treatments were successful and led to the improvement of the BDS process. While it is true that

Neste momento a vacina com a melhor perspetiva de disseminação pelos cuidados de saúde é a M.vaccae, pela sua ação como vacina terapêutica, aguardando-se a sua

Considerando-se que o trabalho de Coordenação Pedagógica revela complexidades pró- prias que, num contexto prático, posiciona o profissional perante a validação de registros de

Neste estudo foram estipulados os seguintes objec- tivos: (a) identifi car as dimensões do desenvolvimento vocacional (convicção vocacional, cooperação vocacio- nal,

A Ética Resolvendo Conflito Entre Direito e Moral Nesse outro estágio percebe-se que a eticidade contempla um Estado em que suas leis não são sentidas como mera coerção ao