A CONSTRUÇÃO D E UMzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
THESAURUS
ELETRÔNICO PARA O PORTUGUÊS DO BRASIL
B ento Carlos D IAS- D A- SILVA1
Hélio Rob erto de M O RAE S2
• RESUMO: Este trabalho discute o equacionamento lingüístico da construção de um
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
Thesaurus Eletrônico para o Português do Brasil. Na introdução, contextualizamos esse equacionamentono domínio da pesquisa em processamento automático de línguas naturais. Na seqüência, apresentamos, na seção 2, a representação lingüístico-computacional da sinonímia e da anto-nímia e exemplificamos o processo de compilação dessas relações de sentido em dicionários do português do Brasil. Na seção 3, justificamos a seleção dos dicionários enquanto o corpus
de referência e propomos uma tipologia dos problemas decorrentes da escolha desse tipo de
corpus para a montagem do thesaurus. Na seção 4, complementamos a discussão com a descri-ção das principais caracteristicas.de uma ferramenta computacional de autoria, projetada para .agilizar o processo de montagem da base de dados lexicais do thesaurus, o Editor do Thesaurus.
Por fim, pontuamos as estatísticas atuais do thesaurus e futuros desdobramentos.
• PALAVRAS-CHAVE: Thesaurus eletrônico; sinonímia; antonímia; WordNet.
In tro dução
3Este artigo descreve as principa is etapas lingüísticas envolvidas na construção de u m thesaurus* eletrônico para o Português do B rasil (TeP), u m tip o específico de dicionário eletrônico de sinônimos e antônimos, que, acoplado a ferramentas comp u -tacionais de auxílio à expressão escrita, soma-se a outras obras de referência em meio digital, como dicionários e gramáticas (FLEXNER, 1997). O TeP tem por finalidade ofe-recer ao usuário da língua portu gu esa a opção on Une de palavras sinônimas e antóni-mas qu e ele, por motivos de estilo, precisão, adequação comu n ica tiva , correção ou aprendizagem, desejar su b stitu ir (ILARI; G ERALD I, 1985).
A construção do TeP tomou por base Saint- D izier e Viegas (1995) e D ias- da- Silva
Departamento de Letras Modernas - Faculdade de Ciências e Letras - UNESP - 14800-901 - Araraquara - SP - Brasil. E-mail: [email protected].
Programa de PósGraduação em Lingüística e Língua Portugrresa Faculdade de Ciências e Letras (MestrandoCNPq) -UNESP - 14800-901 - Araraquara - SP - Brasil. E-mail: [email protected],
Agradecemos ao revisores anônimos pelas sugestões que contribuíram para a lapidação do texto.
Projeto desenvolvido no NILC (Núcleo Interinstitucional de Lingüística Computacional) com apoio da FINEP. Programa PADCT-I11-CDT/ MCX PROCESSO RC: 3.1.3-0012/98 r Convênio: 8.8.98.059.00.
(1998) que, além de proporem u ma metodologia específica, fornecem os subsídios lin -güísticos e compu tacionais essenciais para o desenvolvimento de projetos interdis ci-plinares de elaboração de sistemas compu ta ciona is qu e vis a m à simulação de fenô-menos e fatos da lingu agem hu mana.
Como decorrência desse recorte teórico-metodológico, a complexa tarefa de compilação do TeP foi decomposta em u m conju nto de atividades complementares, agru padas, segundo sua natureza, em três domínios: lingüístico, da representação e da im -plementação (DIAS-DA-SILVA, 1998). Nos domínios lingüístico e da representação, as atividades de pesquisa concentraram- se na fundamentação, delimitação, extração, fil-tragem e representação formal do que denominamos "conhecimentos lingüístico e me-taligüístico", em oposição aos "conhecimentos compu tacional e rnetacompu tacional". N o domínio da implementação, as atividades, fundamentadas em estratégias e re-su ltados de discussões delineados nos domínios anteriores, foram s u b dividida s em três tarefas distintas. A primeira, eminentemente compu tacional, consistiu na imple-mentação de u ma ferramenta compu tacional de au toria para a monta gem da base de dados lexicais do TeP, isto é, u ma base relacional de dados, no sentido compu ta ciona l do termo, que contém os dados e a representação compu tacional interna do TeP. Essa ferramenta desempenhou três funções bastante distintas: função de editor, qu e possi-b ilitou ao lingüista inserir e editar os verpossi-betes do thesaurus; função de sistema de co-leta e gerenciamento de dados, pela qu al a ferramenta armazena os verbetes inseridos pelo lingüista sob a forma de u ma base relacional de dados; função de gerador, que, a partir dos verbetes inseridos na base, torna- a capaz de gerar a u toma tica mente novos verbetes. A segunda tarefa, essencialmente lingüística, concentrou - se na inserção de verbetes na base, tarefa que, como veremos oportu namente, consistiu em inserir con-ju ntos de sinônimos e antônimos. A terceira, por fim, também compu tacional, consis-tiu na implementação de rotinas compu tacionais cuja finalidade é converter a base no TeP propriamente dito.
Neste trab alho, restringimos a discussão a três dos principais prob lemas enfren-tados nos Domínios Lingüístico e Representacional: (i) a especificação de u ma repre-sentação lingüístico-computacional das relações de sinonímia e antonímia, qu e são as relações constitu tivas e estruturadoras do TeP; (ii) o processo de extração dessas
rela-ções de u m conju nto de qu atro dicionários do português, selecionados como o
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
corpusde referência; (iii) a caracterização e o enfrentamento dos problemas mais recorrentes du rante o processo de refinamento do processo de compilação de sinônimos e antôni-mos para a montagem do TeP. Para complementar a exposição, esboçaantôni-mos o editor do
thesaurus, u ma ferramenta compu ta ciona l de au toria qu e a u xilia na mon ta gem dos verbetes e contrib u i para minimizar as principais inconsistências observadas em obras semelhantes publicadas em meio impresso.
A próxima seção apresenta a representação formal das relações de sinonímia e antonímia qu e tornou possível a implementação do editor e da conseqüente mon ta -gem e gerenciamento compu tacional da base de dados lexicais do TeP.
Os co n jun to s de sinô nim o s
A b u sca de resolução do prob lema qu e acab amos de explicitar na seção anterior
foi motiva da pela construção da rede
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
WordNet, descrita em Miller e Fellb au m. (1991). Desse empreendimento, u tilizamos três constru ctos básicos O synset, isto é, u mcon-ju nto de sinônimos ou quase-sinônimos (inglês synonym set), elemento formal qu e possib ilita a representação compu tacional dessa relação. A "ma triz lexical", ou tro ele-mento formal qu e especifica u ma correspondência biunívoca entre sentido e synset.
A idéia de matriz lexical parte da hipótese de que, dado u m synset b em- formado, o fa-lante é capaz de inferir, a partir das u nidades lexicais qu e o compõem, o sentido ex-presso pelo conju nto. Trata-se do princípio psicolingüístico de ativação de conceitos, na mente do falante, por meio da interpretação do conju nto de formas lexicais relacio-nadas pela sinonímia. Dessa forma, não há necessidade de se explicitar o valor semân-tico de cada conju nto de sinônimos por meio de u m rótulo conceitu ai ou de u ma defi-nição. Por fim, a "indexação rotu lada", qu e formaliza a relação de antonímia por meio de indexadores rotulados especificados entre pares de synsets qu e a ponta m para sen-tidos opostos.
D o ponto de vista formal, a rede WordNet pode ser entendida como u ma base re-lacional de dados qu e sistematiza u ma parcela do léxico de u ma língua - s u b s ta nti-vos, verbos, adjetivos e advérbios - em termos de u ma rede de qu atro relações: sino-nímia, antosino-nímia, hiponímia e meronímia (LYONS, 1979; CRUSE, 1986).
O constru to básico dessa base, o synset, é responsável pela estruturação da rede. É importa nte salientar qu e o synset não define u m conceito, mas fornece informação su ficiente para qu e os locu tores id en tifiqu em o conceito por ele evocado. Vale ta m-bém observar qu e a noção de sinonímia adotada é aquela qu e preconiza qu e dois ter-mos são sinôniter-mos se existir a lgu m contexto em qu e ambos pu derem ser intersu b sti-tuíveis, s em qu e haja alteração s u b s ta ncia l do significado, posto qu e, em última instância, são os locutores que decidem o grau de sinonímia existente entre as expres-sões de u ma língua (CRUSE, 1986, ILARI; G ERALD I, 1985).
Do ponto de vista compu tacional, os synsets são conju ntos mu nidos de dois tipos de ponteiros qu e representam dois tipos de relações entre os conju ntos: ponteiros qu e especificam relações léxico-semânticas (sinonímia e antonímia), relações entre for-mas, e ponteiros qu e especificam relações conceptu ais (hiponímia e meronímia), rela-ções entre conceitos atualizados por formas.
D o ponto de vista da implementação, a rede WordNet é composta de: (a) arqu ivos preparados por lexicógrafos (ALs), (b) u m programa qu e converte esses arqu ivos em u ma base de dados (DB), (c) rotinas de b u sca e (d) interfaces para a apresentação da informação a partir da base de dados. Nos ALs , su b stantivos, verbos, adjetivos e a d-vérbios estão sistematizados em conju ntos de sinônimos; a relação de antonímia, qu a n-do pertinente, é especificada entre pares desses conju ntos. O programa qu e converte os ALs na D B é também responsável pela codificação dessas relações. As diferentes
interfaces de acesso à D B u tilizam u ma b ib lioteca comu m de rotinas criadas para exi-bir os diversos tipos de relação.
D evido à adoção do modelo de representação proposto para a rede
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
WordNet, a la-boriosa tarefa de construção da base doTeP, em termos operacionais, ficou redu zida àespecificação de conju ntos (os sinônimos) e de relações entre conju ntos (os antôni-mos). O esquema, a seguir, ilustra a estrutura típica de u m verbete:
Entrada n (categoria X) Acepção n . l
Conju nto de Sinônimos Conjunto de Antônimos
Acepção n.m
Conjunto de Sinónimos Conjunto de Antônimos
Nesse esquema, n é o número de identificação da entrada, X representa u ma das qu a tro categorias gramaticais, su b sta ntivo, verb o, adjetivo ou advérbio, e n . l . . . n . m são os números de identificação das acepções da entrada n.
Criando conjuntos de si nôni mos
Esta seção tem por objetivo exemplificar o processo de seleção e filtragem da in -formação lexical para a base do TeP. Tomamos como fonte de informações W eiszflog (1998), u m dos componentes do corpus de referência, qu e será apresentado na seção 3. Ressaltamos que, emb ora a base do TeP seja composta de su b stantivos, adjetivos, verbos e advérbios, neste artigo vamos focalizai nossa atenção na categoria verbal.
A extração de informações léxico-semânticas a partir de verbetes de dicionários exigiu a observância de dois princípios. O primeiro refere-se ao cu idado qu e precisa-mos tomar qu ando analisaprecisa-mos as definições u tilizadas nos verbetes du rante o proce-dimento de extração da informação léxico-semântica pertinente para o thesaurus. A análise dos verbetes das obras de referência demonstrou qu e é freqüente a s u b s titu i-ção de sinônimos por paráfrases. Por exemplo, no verbete "prolongar", a primeira acep-ção diz: "dar maior comprimento". Essa paráfrase é o mesmo qu e "encompridar", cuja definição, no mesmo dicionário, é "tomar mais comprido".
O segu ndo refere-se à importância de se considerar o componente aspectu al do significado de cada vocábulo ou expressão, pois o aspecto é parte integra nte do seu significado, não podendo ser ignorado. Por exemplo: "cochichar" é definido como "fa-lar em voz b aixa". Emb ora "cochicha r" seja definido como "fa"fa-lar", não podemos dizer que "cochichar" seja sinônimo de "falar", pois não se trata de sinonímia, mas de tropo-nímia, isto é, u ma relação de sentido definida por "x é y de u m certo mod o" (MILLER:
FE LLB AU M, 1991), ou seja, "cochichar" é o mesmo que "falar" de u m certo modo. M a s essa restrição deve ser ob servada com cau tela, pois há casos em qu e não estamos diante da troponímia. Por exemplo, não há a relação aspectu al de troponímia entre "la-b u tar" e "tra"la-b alhar com intensidade", porqu e "la "la-b u ta r" não é o mesmo que "tra"la-b alhar" de u m certo modo.
Feitas essas considerações, tomemos u m exemplo concreto, o verb o "lemb ra r", para ilustrar o procedimento de filtragem. Partimos do seguinte verbete do dicionário:
l e m b r a r
v. 1. Tr. dir. Trazer à memória; recordar. 2. Tr. ind. Vir à idéia, tornar- se recordado. 3. Pron. Recordar-se. ter lembrança de. 4. Tr. dir. Fazer vir à memória por analogia ou semelhança. 5. Tr. dir. Advertir, notar. 6. Tr. dir. Sugerir. 7. Tr. dir. Recomendar.
Ao examinarmos a informação do verbete, identificamos qu atro acepções, repre-sentadas em termos dos seguintes conjuntos de sinônimos:
(lembrar, recordar} {lembrar, advertir, notar} (lembrar, sugerir) (lembrar, recomendar}
Observamos que a acepção 3 apresenta u ma forma pronominal, com o sentido de "processo", o que nos autoriza construir o conju nto:
{lembrar-se, recordar-se}
Terminada essa monta gem preliminar dos conju ntos, passamos a verificar a sistência da informação extraída do verbete "lemb rar". Para isso, o próximo passo con-siste em consultar, preferencialmente nesta ordem, os segu intes verbetes "recordar", "recordar- se", "advertir", "nota r", "su gerir" e "recomendar", processo fu nda menta l pa-ra a ampliação dos conju ntos de sinônimos.
Tomemos, então, o verbete "recordar":
i e . c o r . d ar
v. 1. Tr. dir. Trazer à memória. 2. Pron. Lembrar-se. 3. Tr. dir. Fazer lembrar; ter ana-logia ou semelhança com; parecer. 4. Tr. ind. Lembrar.
Essa cons u lta confirma os dois conju ntos existentes, {lembrar, recordar} e {lem-brar-se, recordar-se}, e permite construir u m novo conju nto: {recordar, parecer}.
Esse procedimento deve prosseguir até esgotarmos todos os verbetes "atingíveis"
a partir do verbete "lemb rar". Terminado esse procedimento, retomamos a ordem alfa-bética.
Suponhamos, agora, que estamos consu ltando o verbete "esquecer":
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
e s. q ue . c e r
v. 1. Tr. dir. D eixar sair da memória; perder a memória de; tirar da lembrança; olvi-dar- 2. Pron. Perder a lembrança ou a memória; olviolvi-dar-se. 3. Tr. dir. Não fazer ca-so de, pôr em esquecimento. 4. Tr. ind. e intr. Escapar da memória, ficar em esque-cimento: Esqu eceu - lhe o final do discurso. Seu prestígio foi momentâneo, passou e esqu eceu . 5. Tr. dir. Descurar-se de: Não esquecia as suas tarefas. 6. Pron. Per-der a ciência ou a hab ilidade adqu iridas: Já me esqueci do latim. 7. Pron. D escu i-dar-se: M eu secretário esqu eceu - se de tu do. 8. Intr. Ficar dormente ou tolhido, perder a sensibilidade: Naquela má posição a perna esqueceu.
Filtrando a informação desse verbete, obtemos os seguintes conju ntos:
{esquecer, olvidar}, {esquecer-se, olvidar-se},
{esquecer-se, descuidar-se, descurar-se}.
Apesar do verb ete apresentar "descu rar- se" e "descu idar- se" em acepções dife-rentes, a inserção de "descuidar- se" e "descurar- se" em u m mesmo conju nto ju stifica-se por duas constatações: esstifica-se mesmo dicionário aprestifica-senta "descu rar- stifica-se" como sinô-nimo de "descuidar- se" no verbete "descu rar".
Note-se que, em n en h u m dos verbetes transcritos, foram mencionados antônimos. Mas a oposição de sentido entre "lembrar/esquecer" é evidente. Esse fato é, entretan-to, registrado por meio de paráfrases. C om efeientretan-to, no verbete "lemb ra r", lemos "trazer à memória" e, no verbete "esquecer", várias paráfrases são apresentadas: "deixar sair da memória; perder a memória de; tirar da lembrança". Isso nos au toriza estabelecer entre os conjuntos {lembrar, recordar} e {esquecer, olvidar} a relação de antonímia.
Ressaltamos que o procedimento de seleção e filtragem do verbete "lemb rar" aqu i
descrito é apenas u m recorte. Nossos "percu rsos" por todas as obras do nosso
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
corpusde referência p ermitira m a mon ta gem do conju nto {lembrar, amentar2, recordar, re-lembrar, rememorar, ver}.
A próxima seção apresenta os dicionários que compõem o corpus de referência.
Se le ção e filtrage m de info rm açõ e s lé xico -se m ân ticas zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
O corpus de r efer ênci a
A compilação de dicionários, em geral, baseia-se em corpus, qu e são u tiliza dos du rante o procedimento de monta gem dos verbetes e da complicadíssima discrimina-ção dos diferentes sentidos que neles devem ser contemplados. Desnecessário dizer
que esse é u m tra b a lho qu e dema nda tempo e u ma grande equipe. U ma a lterna tiva para essa prática, proposta no âmbito da lexicografia compu tacional, é a reutilização
de dicionários já existentes como
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
corpus de referência (BRISCOE; BOGU RAEV, 1989). Das obras disponíveis e analisadas, escolhemos W eiszflog (1998), Ferreira (1999),Barbosa (1999), Fernandes (1997) e Borba (1990).
Algu n s fatos ju s tifica m a escolha. Essas obras são inegavelmente fontes de co-nhecimento lexical, segu em u ma tradição centenária para a compilação dos verbetes, privilegiam o emprego de sinônimos e antônimos na especificação das diferentes acep-ções das entradas, foram elaboradas por significativo corpo de lexicógrafos e parte de-las está disponível em meio digital, o qu e agiliza a extração da sinonímia e antonímia du rante a monta gem da base do TeP.
A escolha dessas obras como corpu s de referência ( C R) , porém, não está livre de prob lemas, u ma vez qu e a ma ioria delas apresenta incoerências, lacu nas e imp reci-sões. Ferreira (1999), por exemplo, foi severamente criticado por Cláudio Ab ra mo, em matéria pu b licada no caderno "M a is " da Folha de São Paulo (23/01/2000). Como vere-mos nas seções seguintes, a reutilização de dicionários já prontos como ponto de par-tida para a extração das informações pertinentes exigiu grande cu idado para qu e fos-sem transportadas para a base do TeP informações seguras.
Origem dos problemas
Não podemos negar qu e os dicionários sejam importa ntes fontes de informação lexical. Sua utilização para fins de extração de informação de natureza linguística, en-tretanto, requer cautela. Parte do cu idado está no fato de observarmos que, em geral, dicionários são produ tos comerciais. E m decorrência disso, acab am por seguir u m pa-drão tra diciona lmente aceito por consu midores (KILGARRIFF, 1997), e caracterizam-se por imprecisões qu e mesmo u m usuário não especializado em práticas lexicográfi-cas consegue detectar (AB RAMO, 2000).
As tarefas complexas qu e o lexicógrafo tem de enfrentar em seu cotidia no con-centram- se nas segu intes: delimitar o número de acepções qu e consegu e isolar para cada palavra selecionada para figurar como entrada e, u ma a u ma , defini- las e exemplificálas com abonações. Como resume Kilgarriff (1997, p.102), para realizar essa ta -refa, delimita u m corpus e nele mergu lha para garimpar seus lexemas. Nessa tarefa, utiliza- se dos seguintes procedimentos:
• reunir as concordâncias para o lexema a ser descrito;
• separar essas concordâncias em gru pos, de ta l forma qu e os memb ros de cada gru po compartilhem o maior número de traços morfossintáticos e semânticos;
• avaliar, para cada gru po, os traços qu e mantêm seus elementos u nidos;
• codificar as descrições na metalingu agem da lexicografia.
O maior prob lema é a delimitação precisa do sentido de cada gru po de con-cordância, posto que, em geral, não há u ma separação nítida entre os sentidos que veicu lam. Para definir quais gru pos serão "convertidos " em acepções do verbete,
os lexicógrafos b u scam os sentidos mais
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
freqüentes no uso, e menos previsíveis a partir de outros sentidos (KILGARRIFF, 1997). Porém, como cada dicionário segueestratégias de trab alho e padrões de excelência próprios, oriu ndos de decisões e escolhas mu ita s vezes ad hoc, a comparação entre verb etes de dicionários dife-rentes, e mes mo entre verb etes de u m mesmo dicionário, apresenta diferenças consideráveis.
E mb ora o processo descrito a cima não seja direta mente parte da rotina de compilação das entradas do TeP, sua compreensão é importa nte na análise dos ti-pos de distinções de acepções, e, portanto, de sentidos qu e p od em ser encontra-dos nos dicionários de referência para a mon ta gem da base de daencontra-dos do TeP. Kilgarriff (1993), trabalhando com entradas do Longman DictionaryofContemporary English (SU MMERS, 1995), encontrou qu a tro5 categorias diferentes de distinção
de sentido, das qu ais três podem ser aplicadas a verbos. Essas categorias ta m-bém são válidas para as obras de referência do TeP:
• Metáfora Generalizante - distinção entre u m sentido específico, qu e é a palavra certa em u m determinado contexto, e u m sentido mais geral, qu e pode ser atri-buído a u ma série de situações; por exemplo, o verbete marretar (WEISZFLOG, 1998) apresenta: 1. Bater com marreta em, sentido mais específico (...). 3. E s -pancar (...), sentido menos específico.
• Informação Pressuposta (Must-be-there) - se existe u ma situação em qu e u m sentido de u m lexema pode ser aplicado, então é u ma conseqüência lógica qu e outro sentido também possa ser aplicado para outro aspecto da mesma realida-de, como no verbete casar (WEISZFLOG, 1998): v. 1. Tr. dir. Ligar pelo
casamen-to, promover o casamento de. 2. Tr. dir. Realizar o casamento de. 3. Tr. dir. e pron.
Aliar (-se), ligar(-se).(...). Nesse verbete, temos a ação sendo toma da do ponto de vista de qu em realiza o casamento (acepções 1 e 2) e de qu em se casa (acep-ção 3).
• Mudança de Domínio - essa distinção pode ser observada entre duas situações de u so de u m lexema, cujos sentidos são de ta l forma distantes entre si, qu e o lexicógrafo decide por estabelecer duas acepções diferentes, ainda qu e alguém possa argu mentar qu e se trata de u ma adaptação de sentido possível do mes-mo lexema, dada u ma situação ou entidade diferente qu e deve ser descrita. Weiszflog (1998), no verbete levar, registra: v. 1. Tr. dir. Conduzir algo consigo de
A quarta distinção. Tipo. é aplicada com maior freqüência a substantivos. Isso pode ser reflexo da organização semânti-ca especifisemânti-ca dessa semânti-categoria, que segue uma hierarquização em que os conceitos lexisemânti-calizados se organizam em níveis, partindo dos mais abstratos para os mais específicos (M1LLER; FELLBAUM, 1991).
um lugar para outro. 2. Tr. dir. Afastar, retirar. 3. Tr. dir. Arrastar, puxar. 4. Tr. dir.
Conduzir, guiar.(...).
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
Nesse verbete podemos observar qu e as acepções 1 e 4pos-su em u ma intersecção de sentido, mas a especificidade de cada u ma justifica a separação, pois a acepção 1 pode perfeitamente ser substituída por carregar, o qu e não ocorre na acepção 4.
Essas distinções são recorrentes nas obras de referência escolhidas para a monta gem da base de dados doTeP, e, mu itas vezes, várias classificações são apli-cáveis a u ma mesma distinção, como veremos na seção 3.3. Para a compilação do TeP esse é u m ponto importante: qu anto mais distinções de sentido forem identi-ficadas, mais segura será a informação oferecida pelo TeP. Portanto, essas distin-ções de sentido são u m referencial para a análise dos prob lemas qu e s u rgem na difícil tarefa de delimitar o número de acepções, e, para cada acepção, especificar o seu valor semântico.
Tipos de problemas
Essa seção pretende apresentar os prob lemas mais recorrentes encontrados na tarefa de extração de informação lingüística dos verb etes dos dicionários. Há três tipos centrais de problemas, qu e Kilgarriff (1993) denomina: necessidade, con-sistência e centralidade.
N a compilação das entradas do TeP.é tarefa essencial refletir se u m determi-nado traço semântico ou gra ma tica l é condição necessária para u m lexema em u m determinado sentido. A importância de observarmos essa questão decorre da noção de sinonímia adotada, isto é, dois termos são sinônimos se existir u m con-texto em qu e os dois possam ser substituídos sem qu e haja prejuízo da significa-ção (LYONS, 1979; ILARI; G E RALD I, 1985). Isso limita sob remaneira o número de especificações gra ma tica is qu e u m lexema deve ter para poder ser inserido em u ma determinada acepção.
A verificação da consistência das entradas dos dicionários para a compilação do TeP implica b asicamente a observação da simetria, u ma característica impor-tante da sinonímia, n em sempre observada pelos dicionários, qu e preconiza qu e: se A é sinônimo de B, B é ob rigatoriamente sinônimo de A (MILLER; FE LLB AU M, 1991).
O prob lema de centralidade de cada acepção de u m verb ete refere-se ao l i-mite possível de variação de sentido a d mitid o pela acepção. Esse lii-mite corres-ponderia a u ma su posta linha divisória de separação entre du as acepções. Esse prob lema é recorrente na construção do TeP, dado qu e não se pode considerar a sinônima u ma relação transitiva: A é sinônimo de B, B é sinônimo de C, mas C não é sinônimo de A (LYONS, 1979).
Além de prob lemas como esses, cu idados, para evitar a transposição de i m
precisões para oTeP, devem ser observados. N a entrada do verbo "delimita r", por exemplo, Weiszílog (1998), equivocadamente, indica o verbo "extrema r" como seu sinônimo. Note-se, porém, qu e "extremar", no sentido de "tornar extremo", não é sinônimo de "delimitar", qu e significa "demarcar". Trata-se de u ma imprecisão or-tográfica, posto qu e o sinônimo pretendido para o verbo "delimita r" é o verbo
"es-tremar", grafado com "s". W eiszflog (1998) é o único dicionário do
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
corpus de refe-rência qu e registra a forma "requ estar" com o trema. B orb a (1990, p. 683) registra"espanadar" ao invés de "espadanar".
Além dessas imperfeições de natureza ortográfica, há problemas no tra ta men-to da homonímia e polissemia. E m outras palavras, os dicionários consultados n em sempre são consensuais qu anto ao número de entradas qu e devem abrir para u ma mesma forma (o prob lema da homonímia) ou ao número de acepções qu e regis-tr a m para u ma mesma enregis-trada (o prob lema da polissemia). Para "a ponta r", por exemplo, W eiszflog (1998) apresenta três entradas, Ferreira (1999) du as, e B orb a (1990) apenas u ma.
Essas arestas são, em geral, aparadas du ra nte o processo de compilação da base de dados lexicais do TeP. Porém, os casos qu e envolvem as três classes de prob lemas acima listados e os tipos de distinção de sentidos descritos na seção 3.2 apresentam dificuldades b em maiores para os compiladores do TeP.
São esses casos que pretendemos apresentar na seção seguinte.
A filtragem da i nfor mação para o T eP
Os tipos de problemas exemplificados a seguir foram encontrados du rante to-do o processo de compilação to-dos verbos.
O primeiro tipo refere-se à metáfora generalizante. Os lexemas "acarar, enca-rar, arrostar" possu em o sentido de "ficar face a face", e também possu em o senti-do de "enfrentar"; porta nto, esses senti-dois sentisenti-dos poderia m ser incluísenti-dos em u m mesmo conju nto na base de dados do TeP; por exemplo, poderíamos criar o con-ju nto {acarar, encarar, arrostar, confrontar, enfrentar}. Isso ocorre porqu e lexemas mu ito específicos, como "acarar", passaram a denotar u m sentido menos específi-co. Esse fato poderia gerar u m prob lema para o usuário do TeP, pois ele não teria como definir o sentido de "ficar face a face".
O inverso da metáfora generalizante também ocorre, ou seja, u m sentido me-nos específico também denotar u m sentido mais especificado. Por exemplo: os d i-cionários Ferreira (1999) e Weiszflog (1998) nos permitem, a partir da entrada "abas-tardar", sugerir o segu inte conju nto de sinônimos {abastardar, alterar, corromper, decompor}. Porém, a pesquisa, a partir desses elementos, mostra qu e "alterar" n em sempre é registrado como sinônimo de "abastardar". Esses dois exemplos demons-tr a m como a identificação da metáfora generalizante é útil na resolução de pro-blemas de centralidade de significado.
Os casos relacionados à metáfora generalizante, qu e gera m dois conju ntos com elementos comu ns e p od em eventu a lmente confu ndir o usuário qu a nto ao valor semântico de cada conju nto, podem ser sanados facilmente com a inserção de frases-tipo para cada acepção, u m refinamento previsto para o futuro. Por essa razão, a inserção das duas acepções, mesmo qu e semelhantes, é imprescindível para oTeP, e, portanto, com relação ao exemplo citado, foram criados os dois con-ju ntos: {acarar, encarar, arrostar} e {acarar, encarar, arrostar, confrontar, enfrentar}. O prob lema de inserção do lexema "alterar" no conju nto {abastardar, corrom-per, decompor}, é qu e ele seria o único elemento do conju nto qu e não carregaria u m traço disfórico. O fato é que "abastardar", "corromper" e "decompor" significam "alterar de u m certo modo". Portanto, "alterar" não foi inserido no conju nto, pois esse lexema não se relaciona por sinonímia com os demais elementos do conjunto, e sim, por outra relação de sentido: a troponímia (MILLER; FE LLB AU M, 1991, p.216).
O tip o de prob lema decorrente da interpretação de informação pressu posta pode ser perceb ido neste exemplo selecionado no verb ete "visu a liza r". Para ele, B orba (1990) apresenta u ma única acepção: "perceber pela visão, conceb er (sem ver) u ma ima gem menta l de". O primeiro segmento da definição ("perceber pela visão") é claramente sinônimo de "ver", fato confirmado pelo exemplo: "Assu stei-me ao visu alizar à minha frente à ima gem de dois hostei-mens de clã". Ob serve qu e nesse exemplo podemos s u b s titu ir "visu a liza r" por "ver", s em n en h u m prejuízo para o sentido da frase. Não é possível, porém, a substituição por "ima gina r", qu e é sinônimo do segu ndo segmento da definição: "conceber (sem ver) u ma ima gem mental de". Observe o exemplo: "podemos talvez alimentar a esperança de visu a-lizar/imaginar todas as novas dimensões da realidade". C om clareza, Borba (1990) identificou os dois sentidos e os ab onou com exemplos claros. O prob lema está no fato de ter mantido os dois sentidos diferentes em u ma mesma acepção, talvez por ju lgar qu e o primeiro sentido ("perceb er pela visão") fosse s u ficientemente pressu posto a partir do sentido do lexema "visão", explícito no ra dica l do verb o.
Os ou tros dicionários do nosso
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
corpus de referência apresentam apenas a acep-ção de "ima gina r". Como foram claramente identificados dois sentidos distintos,inseriram- se dois conju ntos diferentes na base de dados do TeP: {ver, visualizar, enxergar,...}, e, {ver, visualizar, imaginar}.
Foram encontradas situações inversas. Há entradas para as quais os dicioná-rios apresentam duas acepções distintas, mas só é possível a identificação de u m único sentido. B orb a (1990, p.1330), por exemplo, apresenta os lexemas "forçar", "ob rigar" e "impelir" para definir u ma das acepções de "u rgir", abonada pelo exem-plo: "U rgiam- nos de todos os lados para que caminhássemos". Observe-se que to-dos os itens lexicais sinônimos, sugerito-dos no dicionário, são intersubstituíveis no co- texto da frase.
O prob lema é qu e W eiszflog (1998), qu e também registra esses mesmos itens lexicais como sinônimos (na acepção cinco da mesma entrada), registra, na
ção sete, o mesmo exemplo encontrado em B orb a (1990, p.1330), cu jo sentido é definido pelos itens lexicais: "empu rrar" e "compelir".
A pesqu isa, em cada u m dos verb etes, nos revelou qu e podemos su gerir o conju nto: (urgir, compelir, forçar, obrigar, impelir,...), mas a entrada de "empu rra r" nos dicionários não possu i o sentido do conju nto, e n en h u m ou tro sentido qu e re-meta a "u r gir ". Sendo assim, apesar de W eiszflog (1998) dis crimina r du as acep-ções diferentes, só conseguimos estabelecer u m sentido.
Nesse exemplo, identificamos dois tipos de prob lemas: (i) prob lema da cen-tralidade, pois o problema central é definirmos se "empu rra r" deve ou não constar naqu ela acepção; (ii) prob lema da consistência, pois W eiszflog (1998) estab elece duas acepções para apenas u m sentido. Como solução para o TeP, inserimos apenas u ma acepção, como no caso do conju nto (urgir, compelir, forçar, obrigar, i m -pelir,...}. O lexema "empu rrar" não foi inserido no conju nto por não termos
identi-ficado qualquer contexto de ocorrência em nosso
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
corpus de referência. O terceiro prob lema, o da necessidade, abarca u ma mudança de domínio nouso do verbo "exalar", qu e significa "emitir ou lançar de si emanações odoríficas ou fétidas". D e acordo com essa definição, esse verbo deveria ser igu a lmente in -serido em conju ntos relacionados na base de dados do TeP por antonímia: (feder, catingar} e {recender (exalar cheiro bom)}, o qu e geraria u ma incoerência. Para so-lu cionar o prob lema, considera-se, então, qu e esse verbo exige complemento es-pecífico nesse sentido. Fato semelhante ocorre com o verbo "cheirar". Ob servem-se os exemplos: "o cadáver já está cheira ndo" e "o assado já está cheira ndo". A criação do conju nto "neu tro" {cheirar, exalar, trescalar,...}, com o sentido de "exa-lar cheiro forte" (b om ou ruim), parece ser a solução procurada.
A próxima seção apresenta o Editor do Thesaurus e suas principais fu nciona-lidades. Esse aplicativo é u ma ferramenta compu tacional através da qu al os com-piladores entra m e verificam os conju ntos da base do TeP. As principa is caracte-rísticas da arqu itetu ra compu ta ciona l do editor são descritas em Dias da Silva et al. (2000). Restringimos a descrição às suas principais características, que, asso-ciadas à observância dos problemas e estratégias mencionados, contrib u em para evitar qu e inconsistências semelhantes sejam inseridas no TeP.
O Edito r dozyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
Thesaurus
Enqu anto Editor do Thesaurus, a ferramenta de au toria é u ma interface compu ta -cional gráfica para a monta gem da base do TeP. Sua implementação foi possível gra-ças ao modelo de representação formal que descrevemos na seção 2, u ma vez que, no contexto desse modelo, as relações de sinonímia e antonímia passam a ter u ma "exis-tência" compu tacional. C om efeito, a relação de sinonímia é especificada pela relação de pertença qu e se estabelece entre formas da língua e o synset qu e as contém. Já a
relação de antonímia é convencionalmente especificada como u ma relação entre pa
-res de
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
synsets.D u rante o processo de montagem, os recursos implementados no Editor possib ili-ta ra m constru ir, visualizar e ediili-tar os conju ntos de sinônimos e antônimos e verificar as estatísticas referentes ao número de verbetes, entradas e conjuntos contidos na b a-se e a proporção n° de entradas/n° de conju ntos, para cada u ma das categorias gra-maticais especificadas.
M erece também destaqu e a geração automática de verb etes, pois, com esse re-curso, o sinônimo digitado em u m conju nto, qu e representa u ma determinada acep-ção, caso ele ainda não tenha sido inserido como entrada, é a u toma tica mente trans-formado em ta l pelo Editor. Este se encarrega também de transportar para essa nova entrada tanto o conju nto em qu e esse sinônimo foi inserido como o conju nto de antô-nimos, associado a esse conju nto, se houver. Esse algoritmo é, porta nto, responsável pela construção automática desse novo verbete.
As s im, a verificação dos sinônimos é também agilizada. D u ra nte a coleta e sele-ção de sinônimos e antônimos, qu ando consu ltamos o verb ete "recordar", por exem-plo, nos dicionários", já sabemos qu e existe, na base de dados lexicais doTeP, a entra-da recorentra-dar, pertencente ao conju nto (lembrar, recorentra-dar}, pois o E ditor informa ao compilador todos os verbetes qu e constam da base. Para o compilador, a tarefa passa a ser, então, a identificação e inclusão de novos sinônimos e antônimos nas acepções apropriadas do verb ete recordar, ob jetivando a complementação, se possível exau sti-va, desse verbete.
É importa nte esclarecer que, emb ora descritos separadamente, os procedimentos de extração das informações lexicais e de inserção dos dados no Editor são realizados simu ltaneamente, pois a interface gráfica do Editor permite ao lingüista tota l controle visu al do verbete que está em processo de montagem.
Co n side raçõ e s fin ais
Para finalizar, é importante ressaltar as dificuldades qu e tivemos de enfrentar para o des envolvimento de u m trab alho qu e envolve a manipulação de grande massa de dados: a falta de u m corpus d igita l disponível, cuja existência poderia au xiliar o lin -güista a contextu alizar acepções pou co usuais e minimiza r as inadequações apresen-tadas pelos dicionários, tarefa qu e consu miu tempo e exigiu cautela du rante o proce-dimento de seleção e filtragem de informações.
E m termos qu a ntita tivos , a base de dados lexicais do TeP conta com mais de 19 mil conju ntos, responsáveis pela indexação de 44 mil entradas, assim distribuídas: 17 mil su bstantivos, 15 mil adjetivos, 11 mil verbos e mil advérbios.
Os ganhos com a monta gem do TeP são também significativos. Ressaltamos o im
portante relacionamento interdisciplinar entre lingüistas e cientistas da computação, essencial para o projeto e para a formação interdisciplinar de pesquisadores.
A base de dados lexicais do TeP, criada segu ndo o modelo da rede
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
WordNet, cons-titu i o ponto de partida para a construção da rede WordNet para o português do Bra-s i l PIAS- D A- SILVA; OLIVEIRA; MORAES, 2002). Para era-sra-se ra-salto qu alitativo, era-stá pre-visto o desenvolvimento de três etapas; (i) associar, para cada lexema qu e con s titu i cada conju nto de sinônimos, u ma frase-tipo, extraída de corpus; (ii) atribuir, para cada conju nto, u ma glosa, isto é, u ma glosa e rótulo conceitu all; (iii) especificar as relações de hiponímia, meronímia, causa, acarretamento e troponímia.
DIAS-DA-SILVA, B. C; MORAES, H. R. de. Construction of a Brazilian Portuguese electronic thesaurus. Alfa, São Paulo, v.47, n.2, p.101-115,2003
• ABSTRACT: This paper examines the core problems in volved in the linguistic task of compiling
a Brazilian Portuguese Electronic Thesaurus. After presenting the natural language processing
framework in which it is couched, it sets up the linguistic and computational representation
for synonymy and antonymy, and describes the process of synonym and antonym mining from the lexical reference corpus, i. e. a set of four updated Brazilian Portuguese dictionaries. Next,
it argues for the importance of reusing traditional published dictionaries in computational
lexicon building, and, in the meantime, outlines the typology of the basic problems such a
strategy poses for human compilers. Then, it is outlined the features of the thesaurus Editor, a specific authoring tool designed to help linguists feed the thesaurus database with the
appropriate lexical information. Finally, it summarizes the thesaurus current lexical database
statistics.
• KEYWORDS:Electronic thesaurus; synonymy; antonymy; WordNet.
Re fe rê ncias biblio gráficas
ABRAMO, C. Dicionários que horror. Folha de São Paulo, São Paulo, 23 de jan. 2000. Caderno Mais.
BARBOSA, O. Grande dicionário de sinônimos e antônimos. Rio de Janeiro; Ediouro, 1999.
BORBA, F.S. (Coord.) Dicionário gramatical de verbos do português contemporâneo do Brasil.
São Paulo: Ed. Unesp, 1990.
BRISCOE.E. J.;B. BOGURAEV,(Eds.) Computational lexicography for natural language processing.
London, New York: Longman, 1989.
CRUSE, D.A. Lexical semantics. New York: Cambridge University Press, 1986.
DIAS-DA-SILVA, B. C; OLIVEIRA, M. F.; MORAES, H. R. Groundwork for the development of the
Projeto financiado pelo CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico). Processo: n5 552057/01 -0.
Brazilian Portuguese Wordnet. In: ADVANCES in natural language processing. Berlim:
Springer-Verlag,2002. p. 189-196.
D1AS-DA-SILVA, B. C. et al. Construção de um thesaurus eletrônico para o português do Brasil. In: ENCONTRO PARA PROCESSAMENTO DA LÍNGUA PORTUGUESA ESCRITA E FALADA, 5., 2000, Atibaia.
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
Anais... São Carlos: Ed. ICMC/USP, 2000. p . M l . DIAS-DA-SILVA, B. C. Bridging the gap between linguistic theory and natural language processing. In: PROCEEDINGS OF THE 16<h INTERNATIONAL CONGRESS OF LINGUISTS, 16., 1997, Paris. Anais...Oxford: Elsivier-Pergamon, 1998. paper 0425, CD-ROM 16.FERNANDES, F. Dicionário de sinônimos e antônimos da língua portuguesa. São Paulo: Globo,
1997.
FERREIRA, A. B. H. Dicionário Aurélio eletrônico século XXI. Versão 3.0. São Paulo: Lexikon
In-formática, 1999. 1 CD-ROM.
FLEXNER, S.B. (Ed.) Random house Webster's unabridged electronic dictionary. Version 2.0. New York: Random House, 1997. 1 CD-ROM.
ILARI, R.; GERALDI, J. W. Semântica. São Paulo: Ática, 1985.
KILGARRIFF, A. Dictionary word sense distinctions: an enquiry into their nature. Computers and
the Humanities. Amsterdam, v. 26, p. 365-387,1993.
. I don't believe in word senses. Computers and the Humanities. Amsterdam, v. 31, p. 91-113,1997.
LYONS, J. Introdução à Lingüística teórica. Tradução de Rosa Virgínia Mattos e Silva e Hélio
Pi-mentel. São Paulo: Ed. Nacional, Ed. da Universidade de São Paulo, 1979.
MILLER, G. A.; FELLBAUM, C. Semantic networks of English. Cognition. Amsterdam, v.41, n.1-3, p.197-229,1991.
SAINT-DIZIER, P.; VIEGAS, E. Computational lexical semantics. Cambridge: Cambridge University
Press, 1995.
SUMMERS, D. (Ed .J Longman dictionary oi contemporary English. Essex: Longman, 1995. WEISZFLOG, W. (Ed.) Michaeüs português: moderno dicionário da língua portuguesa. Versão 1.0.
São Paulo: DTS Software Brasil, 1998. 1 CD-ROM.