• Nenhum resultado encontrado

Caracterização de uma base relacional de dados lexicais do tipo wordnet

Seção 2 A polissemia como um desafio à estruturação de bases relacionais de

2.2 Caracterização de uma base relacional de dados lexicais do tipo wordnet

Tendo em vista que o objetivo geral desta seção é identificar os desafios a serem solucionados por nossa proposta de representação aplicada à WN.Br, faz-se necessário, antes de iniciarmos a reflexão sobre as estratégias apresentadas por cada base de dados, conhecermos com mais detalhes as características de sua organização. A caracterização do paradigma wordnet tem aqui duas funções. A primeira delas é a caracterização da hierarquia geral de uma base relacional de dados lexicais, a fim de percebermos as possibilidades oferecidas e as limitações da estrutura para o tratamento das relações de polissemia a serem propostas nesta tese. Somente a partir de um detalhado estudo sobre os recursos descritivos oferecidos por uma wordnet é que poderemos propor uma estratégia descritiva para as relações de polissemia. A segunda é identificarmos o de informação que pode ser representada em uma wordnet para podermos formular os critérios de delimitação dos sentidos de um item lexical polissêmico.

A primeira wordnet – a WordNet.Pr – foi construída com o objetivo de compreender como as crianças aprendem novas palavras. Essa foi a motivação do Professor de Psicologia George A. Miller e de sua equipe para iniciar a construção, na Universidade de Princeton/EUA, nos anos 80, da WN.Pr para a língua inglesa. Atualmente, embora haja ainda preocupação com a motivação psicolinguística, é a preocupação com a utilidade dessa rede para pesquisas de PLN, que é a principal razão para as reelaborações propostas por seus desenvolvedores (FELLBAUM & MIILER, 2006). A WN.Pr foi concebida como um repositório altamente enriquecido de conteúdo léxico-semântico estruturado de maneira a simular o que se acredita ser a organização do léxico mental humano (MILLER & FELLBAUM, 2007). A partir da WN.Pr, diversos projetos surgiram e redes, seguindo proposta similar, têm sido construídas individualmente para diferentes línguas (ex.: português, alemão, italiano, japonês, latim,

espanhol, hebreu, romeno, japonês, etc.), além de recursos que se propõem a integrar essas diferentes bases (EuroWordNet7 e MultiWordNet8).

A arquitetura de uma wordnet traz de um dicionário tradicional a inserção de glosas para representar o sentido de nominais, verbos, adjetivos e advérbios. Entretanto, dele se diferencia por não seguir o critério alfabético em sua macroestrutura, mas o de estruturação semântica. Em uma wordnet, o léxico de uma língua é representado como uma rede de formas lexicais que mapeiam para um ou mais sentidos representados por meio de synsets (BOAS e FELLBAUM, 2009). Desse modo, um item lexical é representado por uma sequência de caracteres (string), e um sentido é rerpresentado por um conjunto formado por um ou mais itens lexicais sinônimos (o synset). Os synsets são formados por itens lexicais de mesma classe gramatical que podem ser substituídos em pelo menos um contexto de uso (VOSSEN, 1999), são os sinônimos contextuais ou cognitivos. Por exemplo, o synset {carro, automóvel} tem seus elementos intersubstituíveis no contexto Ele precisa de um ____ para ir ao trabalho e aponta para o sentido glosado por “veículo de quatro rodas impulsionado por um motor de combustão interna”9. Cada synset define os

sentidos associados a uma forma lexical de maneira implícita a partir dos seus membros (os outros itens lexicais do synset) e possibilita que o sentido seja inferido automaticamente por sistemas computacionais a partir das relações léxico-conceituais explicitamente codificadas entre os diferentes synsets. A figura 1 ilustra o synset da WN.Pr (versão 2.0) do qual book é parte e as diferentes informações a ele associadas.

Figura 1 – O synset book e informações associadas

7 http://www.illc.uva.nl/EuroWordNet/

8 Disponível em http://multiwordnet.itc.it/english/home.php

9 Não se pode confundir a noção de sinonímia adotada pelas wordnets, a sinonímia contextual, com a rara

ou inexistente noção de sinonímia absoluta, fenômeno que, sob uma perspectiva contextual, corresponde à completa identidade de sentidos em todos os contextos; ou com a noção de sinonímia proposicional, quando dois itens lexicais podem ser substituídos em qualquer proposição sem alteração na verdade condicional, havendo apenas diferença na expressividade da significação, no nível estilístico (coloquial/ formal) ou no campo pressuposto de discurso (CRUSE, 2000). Uma wordnet adota, portanto, uma noção bastante ampla de sinonímia.

{02870092} <noun.artifact>S: (n) book, volume (physical objects consisting of a number of pages bound together) "he used a large book as a doorstop"

O synset em que se insere book é identificado pelo número {02870092}, é formado pelos itens lexicais book, volume e recebe de tipo semântico (unique beginner)

<noun.artifact>. Os synsets organizam-se hierarquicamente. No topo da hierarquia, estão os unique beginners, conceitos genéricos que iniciam diferentes hierarquias que englobam o vocabulário pertencente a campos semânticos distintos, sendo que cada campo semântico é representado por um unique beginner. A WN.Pr organiza a hierarquia de substantivos a partir de 25 unique beginners, indicados na figura 2.

Figura 2 - Os 25 unique beginners da hierarquia dos synsets para os nomes da WN.Pr Fonte: MILLER, 1990, p. 17

A partir de cada unique beginner, os demais synsets são, hierarquicamente, apresentados através de relações. As relações entre itens lexicais são denominadas relações lexicais. As relações entre sentidos ou conceitos associados aos itens lexicais distintos, isto é, entre synsets, são denominadas relações semânticas ou conceituais. Tendo em vista que itens lexicais e sentidos estão intimamente interligados, as expressões relações léxico-semânticas ou léxico-conceituais são frequentemente empregadas quando não é necessário ou possível estabelecer distinção (EVENS, 1988). Entre as relações lexicais codificadas nas wordnets, estão a sinonímia e a antonímia. De acordo com os critérios das wordnets, cão e cachorro devem ser considerados sinônimos, visto que podemos dizer que há acarretamento bilateral entre esses elementos em um contexto como Todos devem levar seus cachorros/cães para vacinar. Os nomes homem e mulher devem ser codificados nas wordnets como antônimos, uma vez que cada um

deles caracteriza propriedades disjuntas, caracterizando-se um tipo de antonímia binária (CANÇADO, 2005).

Entre as relações semânticas mais relevantes codificadas nas wordnets para a descrição do conteúdo associado aos nominais, destacam-se a hiponímia-hiperonímia e a meronímia-holonímia. A relação de hiponímia-hiperonímia (ou relação de é-um) é uma relação de acarretamento unilateral. Como exemplo, podemos ter apartamento, que é um tipo de imóvel, uma vez que apartamento (hipônimo) é uma entidade mais específica do que imóvel (hiperônimo). A relação semântica de meronímia-holonímia (ou de parte- todo) pode ser percebida entre braço e corpo, visto que braço é parte do corpo. Algumas wordnets (ex. EuroWordNet, WordNet.Pt) incluem detalhamentos da relação de meronímia como mero-membro (ex. professor é mero-membro do corpo docente), mero- porção (ex. fatia é mero-porção de pão), mero-matéria (ex. bambu é mero-matéria de colher de bambu), mero-localização (ex. centro é mero-localização de cidade). Visto que as relações semânticas são relações entre sentidos associados a formas lexicais distintas e que os sentidos em uma wordnet são representados pelos synsets, é natural que as relações semânticas nas wordnets sejam representadas como rótulos que indicam relações entre os synsets. O quadro 1 mostra relações da WN-Pr que se estabelecem entre nomes.

Relação Classe gramatical relacionada Exemplo

SINONÍMIA nome/nome posição/opinião

ANTONÍMIA nome/nome homem/mulher

HIPONÍMIA- HIPERONÍMIA nome/nome animal/cachorro MERONÍMIA- HOLONÍMIA nome/nome cachorro/patas

Quadro 1- Relações do tipo nome-nome da WN-Pr (adaptado de VOSSEN, 1999)

O quadro 1 ilustra as relações semânticas básicas que estruturam as wordnets em uma rede maior com nós linguisticamente rotulados (MILLER & FELLBAUM, 2007). Cada um desses nós é formado por um ou mais itens lexicais equivalentes em sua denotação (synsets). Sob o enfoque topológico, entende-se que cada synset constitui um nó da rede e que as relações léxico-semânticas são os arcos que ligam esses nós. A

existência de um arco entre os synsets representa, por exemplo, a proposição um cachorro é um tipo de animal. Outro tipo de arco, expressando parte, pode relacionar cachorro e patas, expressando o fato de que patas são parte de cachorro e, através de herança, uma pata é parte de todos os tipos de cachorro, tais como rottweiler, schnauzer, poodle.

Apresentamos nesta seção as principais características de uma wordnet que são mais gerais e comuns aos exemplos de bases que selecionamos para tratar. Além disso, inventariamos aqui informações-chave que serão importantes mesmo que secundariamente à proposição da representação de nominais polissêmicos; são elas: (a) a estrutura base da wordnet a partir de synsets, constructo que deve ser entendido como a representação de um sentido, em certa medida, comum a todos os seus membros; (c) a organização geral da base a partir de relações semânticas que conectam synsets e não itens lexicais individuais; (d) os tipos de relações semânticas; e, por fim, (e) a indicação de um tipo semântico mais geral particular a um grupo de sentidos que são os unique beginners. Essas informações serão retomadas explicitamente ao longo da apresentação dos exemplos de bases de dados relacionais, e, posteriormente, algumas delas são necessárias para a apresentação da estratégia de representação a ser proposta na Seção 5. As bases escolhidas como exemplo de estratégias comuns às wordnets foram a WN.Pr, a WN.Pt e a GermaNet. O CoreLex será também apresentado por representar uma robusta base de dados de polissemia regular extraída da WN.Pr e da GN.