Técnicas tradicionais de desambiguação - Paradigma superﬁcial: neste método, a informação a res

Desambiguação de palavras

2. Paradigma superﬁcial: neste método, a informação a respeito de contexto é obtida através da análise estatística da vizinhança da palavra ambígua Por exemplo, se

7.1 Técnicas tradicionais de desambiguação

Algoritmos tradicionais de desambiguação são baseados em técnicas de identiﬁcação de contexto pelo uso de vários atributos contextuais. Estes atributos podem ser classiﬁcados como:

• Atributos locais: caracterizam o contexto local da palavra alvo. Tipicamente, a análise é realizada nas características (p.e., a classe gramatical) de um pequeno número de palavras ao redor da palavra ambígua.

• Atributos globais: um contexto maior da palavra ambígua é estudado. A análise de contexto pode envolver uma sentença, um parágrafo ou ainda estruturas maiores. • Atributos sintáticos: o relacionamento sintático entre a palavra ambígua e as

7.1. Técnicas tradicionais de desambiguação 143

• Atributos semânticos: a informação semântica das palavras sem ambiguidade (ou com ambiguidade resolvida) é usada como atributo.

Atributos locais, globais, sintáticos ou semânticos têm sido usados em muitos algoritmos por cerca de 70 anos. Um dos mais simples e famosos é o algoritmo Lesk (107), baseado na ideia de que as palavras identificadoras de contexto são semanticamente relacionadas ao sentido adequado à palavra ambígua. Mais especificamente, para cada um dos sentidos possíveis o algoritmo seleciona aquele que compartilha o maior número de palavras de sua definição no dicionário com o contexto ao redor da palavra ambígua. Extensões deste método e a descrição de vários outros podem ser encontradas nas Refs. (105, 107).

7.1.1 Abordagens tradicionais com bag-of-words

A técnica baseada na caracterização bag-of-words será exempliﬁcada nesta seção com o classiﬁcador Naive Bayes. A ideia desta técnica é analisar a recorrência de contextos. Cada palavra de conteúdo ao redor da palavra ambígua pode contribuir para caracterizar um contexto. No caso da decisão bayesiana, a seguinte regra é utilizada:

Regra de decisão ótima Bayesiana : decida pelo sentido θ′ _{se P (θ}′_{|c) > P (θ}

k|c) para

todo θk 6= θ′, onde P (θk|c) representa a probabilidade do sentido θk ocorrer no

contexto c.

Usualmente, o valor de P (θk|c) não é conhecido, mas ele pode ser computado com o

teorema de Bayes:

P(θk|c) =

P(c|θk)

P(c) P(θk). (7.1)

Neste caso P (θk) é chamada de probabilidade a priori do sentido θk, isto é, a chance

de o sentido θk ocorrer independentemente de qualquer contexto. A evidência sobre o

contexto aparece no termo P (c|θk). No problema de discriminação de sentidos, P (c) pode

ser simplesmente ignorado por ser constante para todos os sentidos. Desta forma, o sentido mais provável pode ser obtido da seguinte maneira:

θ′ = arg max θk P(θk|c) = arg max θk P(c|θk) P(c) P(θk) = arg max θk P(c|θk)P (θk) = arg max θk [log P (c|θ k) + log P (θk)]. (7.2)

Note que o logaritmo foi tomado no último passo para simplificar a computação. Usando a simplificação do classificador Naive Bayes de independência dos atributos e considerando o

esquema de que palavras vizinhas j representam o contexto, i.e. c = {j|j ∈ c}, obtém-se:

Hipótese do Naive Bayes : P (c|θk) = P ({j|j ∈ c}|θk} =Qj∈cP(j|θk).

Note que, com esta suposição, toda a organização das palavras dentro do contexto considerado é ignorada. Além disso, devido à independência dos atributos, a presença de uma palavra na vizinhança indepente da presença de outra. Com estas considerações, o sentido correto θ′ _{é escolhido como:}

θ′ = arg max θk [log P (θk) + X j∈c log P (j|θk)]. (7.3)

7.1.2 Abordagens tradicionais com grafos

Os conceitos e metodologias de grafos também têm sido usados em algoritmos de desambiguação automática de sentido de palavras. Por exemplo, o algoritmo HyperLex (109) é baseado na construção de redes de co-ocorrência em nível de parágrafo, cujas arestas são estabelecidas entre palavras sempre que elas co-ocorrem no mesmo parágrafo. O peso das conexões é dado por wij = 1−max{P (i|j), P (j|i)}, onde P (i|j) = Nij/Nj, P (j|i) = Nij/Ni

e Nij representa o número de vezes em que as palavras i e j apareceram no mesmo parágrafo.

Após a construção do grafo, um passo iterativo é aplicado ao algoritmo de forma que o vértice com maior grau seja selecionado como hub e todos os seus vizinhos sejam não elegíveis como hub nas próximas interações. Este processo é finalizado quando o maior grau remanescente é menor que um dado limiar. O conjunto de hubs identificados na fase anterior, que são presumidos representar os possíveis sentidos, são conectados à palavra ambígua com peso wij = 0. Como próximo passo, a árvore geradora mínima é identificada

a fim de ser usada como estrutura de discriminação de sentido para instâncias específicas da palavra alvo. Note que desta forma as palavras mais relacionadas ao hubs são usadas como representantes daquele sentido. A Figura 7.1 ilustra a árvore geradora mínima obtida para um exemplo fictício. Seja J = {j1, j2, . . . ji, . . . , jn} o contexto em que a palavra

ambígua está inserida. Um vetor −→scr é associado a cada ji ∈ J , de forma que o k-ésimo

componente −→scr representa a contribuição do k-ésimo hub hk:

scrk =  



1/(1 + d(hk, ji)) se o hub hk é um ancestral de ji na árvore

0 caso contrário. (7.4)

onde d(hk, ji) representa a distância entre o hub hk e o vértice ji. Em seguida, todos os

escores scrk associados com todas as palavras ji são somados e o hub que recebe o maior

7.2. Relacionamento entre topologia de redes e sentidos das palavras 145 BAR IRON COFFEE SOAP PRESSURE GOLD WAX CHOCOLATE

COCKTAIL WINE STEEL

DYNE

PALAVRA AMBÍGUA HUBS DESCENDENTES

Figura 7.1– Árvore geradora mínima para a palavra ambígua bar em um texto ﬁctício. A palavra ambígua é conectada com os hubs que representam possíveis sentidos assumidos da palavra. Através do algoritmo de árvore geradora mínima, os hubs são conectados às palavras mais representativas de cada sentido. Exemplo adaptado da Ref. (105).

Embora o algoritmo HyperLex e outros algoritmos de desambiguação utilizem a estrutura de co-ocorrência em grafo, ele é fortemente baseado nas características locais e semânticas do texto. A abordagem de redes complexas, descrita na próxima seção, emprega a estrutura da rede de co-ocorrência, que é baseada principalmente em fatores sintáticos (ver Capítulo 5).

7.2 Relacionamento entre topologia de redes e senti-

No documento Classificação de textos com redes complexas (páginas 144-147)