• Nenhum resultado encontrado

4 Similaridade Semântica

4.2 Medidas de similaridade semântica baseadas na WordNet

4.2.3 Medidas de similaridade baseada em definições

Esse tipo de medida de similaridade utiliza as informações contidas nas definições (glosses) das palavras, para identificar o quão similares elas são. A abordagem baseada em definições verifica o quanto de sentido compartilhado as palavras possuem em comum. O significado das palavras é extraído a partir de dicionários conhecidos, como MRD (do Inglês,

Machine Readable Dictionaries), que possuem informações passíveis de ser extraídas por

computador, como, por exemplo, Longman Dictionary of Contemporary English (LDOC),

Collins English Dictionary (CED) e WordNet.

A desambiguação do sentido da palavra (do Inglês, Word Sense Disambiguation) é o processo de atribuição de um significado a uma palavra em particular com base no contexto em que ocorre. Para solucionar o problema de desambiguação, Lesk (1986) propôs um algoritmo baseado em definições para medir a similaridade entre dois conceitos por meio das sobreposições (overlap) encontradas nas definições correspondentes a cada conceito. A ideia principal do algoritmo é selecionar o sentido no qual exista o maior número de coincidências nas palavras que se quer desambiguar.

O algoritmo baseia-se na percepção de que os sentidos de palavras que estão relacionadas, muitas vezes, compartilham das mesmas palavras em suas definições. O Quadro 3 mostra o algoritmo proposto por Lesk.

1. 2. 3.

palavra

cone from an ice cream cone cone cone verificadas e Pine e cone Oxford

descritas em um dicionário geralmente são curtas

vocabulário insuficiente para identificar a relação entre os sentidos. Lesk

1. Extrair de um dicionário MRD todas as definições das palavras que se deseja desambiguar

2. Contabilizar as coincidências ( possíveis combinações dos sentidos 3. Escolher os sentidos que

A Figura 1 palavra cone na frase

cone from an ice cream cone cone" refere-se

cone" ela refere

verificadas e #1 ⋂ Cone

cone aparecem juntas

O algoritmo original proposto por Lesk extrai as definições do dicionário de

Oxford Advanced Learner's Dictionary.

Uma limitação do algoritmo original de Lesk é que descritas em um dicionário geralmente são curtas

vocabulário insuficiente para identificar a relação entre os sentidos. Lesk considera apenas as

Extrair de um dicionário MRD todas as definições das palavras que se deseja desambiguar;

Contabilizar as coincidências ( possíveis combinações dos sentidos Escolher os sentidos que

A Figura 15 mostra o exemplo des na frase pine cone

cone from an ice cream cone

se a uma parte de um alimento doce, no caso, o sorvete; enquanto que, em " ela refere-se à uma parte de uma planta.

o número de palavras coincidentes são contabilizadas.

Cone #3 = 2, no caso,

aparecem juntas, o sentido mais prov

algoritmo original proposto por Lesk extrai as definições do dicionário de

Advanced Learner's Dictionary.

Figura 15

Uma limitação do algoritmo original de Lesk é que descritas em um dicionário geralmente são curtas

vocabulário insuficiente para identificar a relação entre os sentidos. apenas as sobreposições

Quadro 3 -

Extrair de um dicionário MRD todas as definições das palavras que se deseja Contabilizar as coincidências (

possíveis combinações dos sentidos

Escolher os sentidos que possuem o maior número de coincidências

mostra o exemplo des

pine cone, como sugere o sub cone from an ice cream cone". Neste exemplo, percebe

uma parte de um alimento doce, no caso, o sorvete; enquanto que, em " uma parte de uma planta.

o número de palavras coincidentes são contabilizadas. #3 = 2, no caso, evergreen

, o sentido mais prov

algoritmo original proposto por Lesk extrai as definições do dicionário de

Advanced Learner's Dictionary.

- Exemplo de desambiguação (traduzido e adaptado de

Uma limitação do algoritmo original de Lesk é que descritas em um dicionário geralmente são curtas

vocabulário insuficiente para identificar a relação entre os sentidos. sobreposições

- Algoritmo

Extrair de um dicionário MRD todas as definições das palavras que se deseja Contabilizar as coincidências (overlap) das palavras nas definições para todas possíveis combinações dos sentidos;

possuem o maior número de coincidências

mostra o exemplo descrito no trabalho de Lesk para como sugere o sub

Neste exemplo, percebe

uma parte de um alimento doce, no caso, o sorvete; enquanto que, em " uma parte de uma planta. Na Fig

o número de palavras coincidentes são contabilizadas.

evergreen e tree

, o sentido mais provável é que se trata do fruto de uma árvore.

algoritmo original proposto por Lesk extrai as definições do dicionário de

Advanced Learner's Dictionary.

Exemplo de desambiguação raduzido e adaptado de

Uma limitação do algoritmo original de Lesk é que descritas em um dicionário geralmente são curtas

vocabulário insuficiente para identificar a relação entre os sentidos. sobreposições entre as definições da palavra

Algoritmo original de

Extrair de um dicionário MRD todas as definições das palavras que se deseja ) das palavras nas definições para todas possuem o maior número de coincidências

crito no trabalho de Lesk para como sugere o sub-título de seu trabalh Neste exemplo, percebe-se que a palavra

uma parte de um alimento doce, no caso, o sorvete; enquanto que, em " Na Figura 15

o número de palavras coincidentes são contabilizadas.

tree, o que pode

vel é que se trata do fruto de uma árvore.

algoritmo original proposto por Lesk extrai as definições do dicionário de

Exemplo de desambiguação para a raduzido e adaptado de Lesk, 1986)

Uma limitação do algoritmo original de Lesk é que descritas em um dicionário geralmente são curtas, o que leva

vocabulário insuficiente para identificar a relação entre os sentidos. entre as definições da palavra

de Lesk

Extrair de um dicionário MRD todas as definições das palavras que se deseja ) das palavras nas definições para todas possuem o maior número de coincidências

crito no trabalho de Lesk para título de seu trabalh

se que a palavra

uma parte de um alimento doce, no caso, o sorvete; enquanto que, em " 5, as definições de

o número de palavras coincidentes são contabilizadas.

o que pode sugerir que se as palavras vel é que se trata do fruto de uma árvore.

algoritmo original proposto por Lesk extrai as definições do dicionário de

para a palavra 1986)

Uma limitação do algoritmo original de Lesk é que, as definições de sentido o que leva, às vezes

vocabulário insuficiente para identificar a relação entre os sentidos. O algoritmo entre as definições da palavra alvo

Extrair de um dicionário MRD todas as definições das palavras que se deseja ) das palavras nas definições para todas possuem o maior número de coincidências.

crito no trabalho de Lesk para desambigua título de seu trabalho "how to tell a pine

se que a palavra cone em " uma parte de um alimento doce, no caso, o sorvete; enquanto que, em "

, as definições de pine o número de palavras coincidentes são contabilizadas. Nota

que se as palavras vel é que se trata do fruto de uma árvore.

algoritmo original proposto por Lesk extrai as definições do dicionário de

palavra cone

as definições de sentido s vezes, a uma quantidade de

O algoritmo

alvo e as definições das Extrair de um dicionário MRD todas as definições das palavras que se deseja

) das palavras nas definições para todas as

desambiguar a

how to tell a pine

em "ice cream uma parte de um alimento doce, no caso, o sorvete; enquanto que, em "pine

pine e cone são

ota-se que que se as palavras pine vel é que se trata do fruto de uma árvore.

algoritmo original proposto por Lesk extrai as definições do dicionário de

as definições de sentido uma quantidade de original de e as definições das a

how to tell a pine ice cream pine

são se que

pine

algoritmo original proposto por Lesk extrai as definições do dicionário de

as definições de sentido uma quantidade de original de e as definições das

palavras vizinhas a ela, o que, de certa forma, é um número limitado de comparações de sentidos.

O algoritmo adaptado de Lesk (S. Banerjee & Pedersen, 2002) estende essa comparação para incluir as definições das palavras que estão relacionadas com as palavras do texto que está sendo desambiguado. O algoritmo adaptado de Lesk utiliza a base de dados lexical WordNet, ao invés de um dicionário tradicional, para fazer uso das definições dos

synsets e das relações que existem entre eles. Assim, as definições das palavras vizinhas à

palavra-alvo (palavra que se quer desambiguar) são expandidas de forma a incluir também as definições das palavras que se encontram relacionadas às palavras vizinhas. Banerjee e Pedersen (2002), definem o contexto da palavra alvo como um conjunto de n palavras à esquerda e n palavras à direita da palavra alvo até o total de 2n palavras circundantes.

Por exemplo, suponhamos que a palavra bank é a palavra que se deseja desambiguar e que as palavras money e tree sejam as palavras vizinhas. O algoritmo original de Lesk verifica as coincidências entre as definições de money com as definições de bank e, em seguida, as coincidências entre as definições de tree e bank. O algoritmo adaptado de Lesk verificará as mesmas coincidências e mais as coincidências das definições dos conceitos relacionados semanticamente a bank, money e tree de acordo com a WordNet.

O Quadro 4 mostra o algoritmo adaptado de Lesk por Banerjee e Pedersen (2002).

Quadro 4 - Algoritmo adaptado de Lesk 1. Preparar um conjunto de palavras dentro do contexto circundante;

2. Para cada sentido da palavra, obter um conjunto de palavras de diversas relações lexicais e semânticas na WordNet, incluindo sinônimos, sentidos, frases de exemplo, hiperônimos, hipônimos, etc.;

3. Os dois conjuntos acima referidos são comparados e o sentido que dá a máxima sobreposição é escolhido.

Os valores produzidos pelos algoritmos original e adaptado de Lesk são normalizados para que fiquem entre 0 e 1. Esta normalização é feita dividindo-se o valor de similaridade obtido pelo valor máximo possível de similaridade produzido pelo algoritmo.

Este capítulo apresentou as medidas de similaridade semântica mais conhecidas na literatura. Essas medidas costumam fazer uso de uma base lexical para extrair informações que permitam indicar o quão relacionados estão dois conceitos. A análise do caminho existente entre os conceitos, o conteúdo da informação ou mesmo as definições das palavras são, em geral, as estratégias mais adotadas para se verificar o nível de similaridade semântica entre palavras.