• Nenhum resultado encontrado

3.1 A WordNet de Princeton e as redes wordnets

3.1.2 A WordNet.Br

Nesta subseção serão apresentadas as principais características do projeto de construção da Wordnet.Br, a WN.Br, uma iniciativa análoga à da construção da EWN, realizada no Brasil (DIAS-DA-SILVA, 2003, 2004a, 2006; DIAS-DA-SILVA et al., 2008), que se encontra em fase de desenvolvimento.

Fundamentada na metodologia de construção da WN.Pr, a base lexical da WN.Br35 contém, atualmente, 44.678 mil itens lexicais, assim distribuídos: 17.388 substantivos, 15.072 adjetivos, 11.078 verbos e 1.113 advérbios. Esses itens são organizados em aproximadamente 19.872 synsets. Os verbos da base da WN.Br, em particular, se distribuem em 4.129 synsets. Os exemplos que ilustram as unidades lexicais da WN.Br são provenientes do córpus do

35 Como a WN.Br está em fase de desenvolvimento, ela ainda não apresenta todas as características de uma rede wordnet, como a WN.Pr, por isso, utiliza-se o termo “base da WN.Br” (DI FELIPPO, 2008).

projeto, composto por textos do córpus do NILC36 e por textos em português do Brasil disponíveis na Web (DIAS-DA-SILVA, et al. 2006). No total, 19.747 frases-exemplo estão inseridas na base. Do ponto de vista das relações semântico-conceituais entre synsets que estruturam as redes wordnets, a base da WN.Br conta, por enquanto, somente com a interligação de 21,55% de seus synsets através da antonímia. Ao se restringir esses dados aos

synsets de verbos, a porcentagem aumenta para 28,05% (MORAES, 2008).37

Os synsets da base da WN.Br foram construídos a partir de cinco dicionários do PB. Dentre eles, dois são dicionários gerais do PB (WEISZFLOG, 1998; FERREIRA, 1999). Esses dicionários, muitas vezes, apresentam verbetes com definições circulares, cujas acepções da entrada são estabelecidas por meio de unidades lexicais com sentidos similares – observe-se, por exemplo, como Weiszflog (1998) define uma das acepções do verbete abolir: “anular, suprimir, revogar; ab-rogar”; do verbete anular: “declarar nulo, invalidar; cancelar; revogar, cassar; rescindir” e do verbete suprimir: “abolir, anular, cassar, revogar” –, quando deveriam empregar exclusivamente a definição aristotélica, “baseada em gênero próximo e diferença específica” (MORAES, 2008, p. 39). Essa circularidade, todavia, permitiu que synsets fossem propostos, como por exemplo, o synset {abolir, ab-rogar, anular, cancelar, cassar, derrogar, desatar, desfazer, desvalidar, dissolver, esfazer, invalidar, rescindir, resilir, revocar, revogar, suprimir, suspender, viciar}. Ressalta-se, entretanto, que foram seguidos critérios de filtragem das informações dessas obras consultadas, durante o procedimento de montagem dos synsets, para minorar a transposição de eventuais problemas desses verbetes para os synsets da base da WN.Br (DIAS-DA-SILVA, 2004; DIAS-DA-SILVA; MORAES, 2003; MORAES, 2008). Os outros três dicionários utilizados para a montagem dos synsets do português foram um dicionário específico de verbos (BORBA, 1990) e dois dicionários de sinônimos e antônimos (BARBOSA, O., 2000; FERNANDES, 1997).

Após a fase de construção dos synsets, a base da WN.Br passou por um processo de refinamento. Nessa fase, foram incluídas frases-exemplo para cada verbo constituinte do

36 O Córpus do NILC é composto por textos escritos em português do Brasil, em registros jornalístico, didático e epistolar e abrange mais de 1 milhão e novecentas frases do português contemporâneo do Brasil. Disponível no

site <http://www.linguateca.pt/>, acesso em: 5 mar. 2009, onde há um concordanciador implementado para esse fim.

37 O primeiro passo dado no projeto de construção da base da WN.Br foi o da elaboração de um outro recurso, o Thesaurus Eletrônico para o Português do Brasil, o TeP (DIAS-DA-SILVA, 2004a; DIAS-DA-SILVA; MORAES, 2003). O TeP é um inventário de sinônimos e antônimos armazenado na memória do computador, um tipo específico de dicionário eletrônico, que pode ser acoplado a um processador de textos ou a outras ferramentas computacionais de auxílio à expressão escrita (DIAS-DA-SILVA; MORAES, 2003; SAINT- DIZIER; VIEGAS, 1995). A metodologia empregada na construção do TeP foi a mesma aplicada na construção da WN.Pr (MILLER; FELLBAUM, 1991), o que permitiu a “transformação” do TeP na base da WN.Br sem grandes dificuldades.

synset, para, como mencionado anteriormente, elucidar o conceito expresso pelo synset. Também nessa fase de refinamento foram eliminadas as unidades lexicais dos synsets consideradas fora de circulação, isto é, as unidades que não obtiveram nenhuma frase- exemplo encontrada no córpus de referência da pesquisa (LENHARO; MARGONI, 2004; LENHARO; DIAS-DA-SILVA, 2004, 2005, 2006). Além das informações contidas nos synsets da WN.Pr, foram acrescentados aos synsets do português a indicação da origem das frases-exemplo, através da inserção dos símbolos [ e I], precedentes à ocorrência dos verbos nas frases-exemplo. O símbolo [ indica que a frase-exemplo foi selecionada no Córpus do NILC, enquanto o símbolo I] indica que ela foi selecionada por meio do motor de busca

Google, em textos na WEB. Dessa forma, o synset {adoçar, emelar, melar, melificar}, refinado, foi reduzido ao synset {adoçar}, com a inserção da frase-exemplo O açúcar pode

ser usado para [adoçar o café ou polvilhar o chantilly.

No processo de construção da WN.Br, a fase seguinte à fase de refinamento dos synsets consiste no alinhamento dos synsets do português aos synsets do inglês, da WN.Pr. Por exemplo, o synset {adoçar} do português alinha-se ao synset {sweeten, dulcify, edulcorate, dulcorate} do inglês. Como os verbos desses synsets expressam, nas duas línguas, o mesmo conceito, a versão para o português da glosa proposta para o inglês, “make sweeter in taste”, é apropriada para glosar o conceito expresso pelo synset da base da WN.Br: “tornar o sabor mais doce”. Nessa fase de alinhamento, além da glosa, é adicionada ao synset da base da WN.Br a classificação semântica presente nos synsets da WN.Pr, que, no exemplo apresentado, é um verbo de percepção, isto é, um “verb.perception”. Além de herdar essa classificação, a base da WN.Br herda as relações semântico-conceituais especificadas para o synset do inglês (DIAS-DA-SILVA et al., 2006). Esse processo de alinhamento entre a base da WN.Br e a WN.Pr será melhor especificado na Subseção 3.2.

Como as demais wordnets, a WN.Br deverá constituir um recurso léxico- computacional, nos termos de Saint-Dizier e Viegas (1995), que, além de servir de instrumento complementar para o estudo de línguas, poderá também ser utilizado como recurso lexical em aplicações no âmbito da Lingüística Computacional e da Engenharia da Linguagem como, por exemplo, sistemas de tradução automática, motores de busca da Web (Google, AltaVista, Lycos, entre outros), processadores e sumarizadores automáticos de texto, aplicativos de recuperação de textos e de informação em bases textuais (FELLBAUM, 1998). Além dessas aplicações de natureza tecnológica, com o recurso dos ILIs, através do estabelecimento do alinhamento mencionado, aplicações científico-pedagógicas e de natureza lexicográfica poderão ser também implementadas de modo automático e para acesso gratuito

on-line na Web: dicionários digitais inglês-português/português-inglês. Por exemplo: o synset {dirigir, guiar, pilotar}, da base da WN.Br, ao ser alinhado ao synset correspondente da WN.Pr por meio do ILI {drive}, gera automaticamente as correspondências entre as unidades lexicais das duas línguas, permitindo o alinhamento de informações de natureza léxico- conceitual a elas associadas.