• Nenhum resultado encontrado

4.2 Avaliador de Contexto

4.2.2 Ponderador de Contexto Abrangente

A segunda subtarefa de mensuração de aplicabilidade contextual utilizada é menos restritiva quanto às palavras relevantes consideradas no contexto. Esta fase busca criar uma representação do contexto considerando, principalmente, o termo substituível e as propriedades mais relevantes da sentença. Deste modo, busca-se na sentença alguma palavra que tenha forte correlação com o t para viabilizar a representação de t para o contexto.

Assumimos que realizada a composição do conjunto de candidatos para a substi- tuição, após considerar aspectos semânticos (independentes de contexto) e aspectos sintáticos (dependentes do contexto), é possível aprimorar a ordenação final a partir da captura de aspectos semânticos dependentes de contexto que abrange t. O aprimo- ramento se dá a partir da proximidade semântica da sentença, quando compreende o termo substituível, com uma representação escolhida de cada um dos candidatos selecionados.

O Avaliador de Contexto avalia um documento que visa extrair o significado do termo principal dentro da sentença e verifica a ocorrência de alguma palavra que exprima o mesmo significado, extraída de algum dicionário, e já avaliada para pequenos contextos para mitigar a imprecisão. Assim, partimos da premissa que o segundo ranking é direcionado à aplicabilidade contextual, mas focando em grandes janelas ao redor do termo desambiguável.

A medição da aplicação do candidato dentro do contexto abrangente pode assim ser descrita: para cada palavra wi, sendo wi∈ {substantivos, verbos, adjetivos, advérbios} (usando o POS-Tagger apresentado em [73]), da totalidade S, mensura-se sob demanda qual possui maior associação ao termo substituível t. Para a computação da medida de coocorrência para cada palavra wida sentença S de entrada junto ao termo t, aplica-se

a medida que mensura a probabilidade de ocorrência simultânea de dois eventos, conhecida como Pontwise Mutual Information (PMI) [15], que é expressa pela Equação

4.1.

pmi(t, wi) = log2 p(t, wi)

Método de Substituição Lexical e Desambiguação de Sentido 61

Para a Equação 4.1, p denota a probabilidade de observação de ocorrência de determinada palavra em um contexto, que é aprendida a partir de um corpus para aprendizagem. Mais especificamente, p(t) e p(wi) representam a observação da ocorrência, de forma independente, de t e wi, respectivamente. De mesmo modo, p(t, wi)denota probabilidade da coocorrência do parht, wiiem um dado conjunto de contextos, onde tal medida é computada a partir de um corpus de aprendizado (a configuração é expressa na Seção5).

Nosso método obtém a probabilidade p de modo bem específico quanto ao escopo de observação: para a computação da medida, p considera cada contexto como sendo uma frase “bem formada” dos corpora (para o processo de aprendizagem considera-se a frase concluída por algum dos caracteres “?”, “!”, “.”), e não necessariamente pequenas janelas com imposições de ordem relativa, tais como os n-grams ou skip-grams. Por tal característica, a área de pesquisa possui comprimento desconhecido de antemão.

Focando na instância de entrada do MSL-DE, o subcomponente computa a medida PMI para todas as palavras do contexto S combinadas junto ao termo t. Concluídas as várias invocações da medida temos uma lista ordenada com todas as palavras da sentença S, exceto para t, naturalmente.

Posteriormente, para a lista ordenada, é retornada aquela palavra wique maximiza

a função PMI (Equação4.1), conforme expressa pela Equação4.4, que recebe a repre- sentação simplificada de toda sentença. Representação esta que, concretamente, é um produto da distância de embeddings (método 3CosMul78 [44]), que retorna as palavras mais aproximadas através da distância de cosseno a partir da operação vetorial.

A Equação4.3obtém coeficientes maiores para termos que conciliam proximidade vetorial do seu potencial substituto, além da palavra de maior frequência de ocor- rência antes computada. A representação da menor correlação tende a obter valores irrisórios para qualquer sentença de entrada, já que não determinamos um limite infe- rior pretensamente adequado para o denominador. Mais detalhadamente, a mesma equação representa a única operação vetorial realizada no método, que consiste em um produto das distâncias de cosseno sobre dois pares de termos. O primeiro, composto pelo candidato ponderado e t, o segundo, composto por t junto à palavra de S mais correlacionada na aprendizagem. A saída do produto é entrada na divisão da mesma

7

A Equação4.3requer que cada coeficiente Xθobtido pela distância de cosseno seja não negativo. Depois, é efetuado (Xθ+1)/2 sobre o resultado de Xθ.

8

Logo a seguir, os coeficientes da função para a saída do Ponderador de Contexto Abrangente são normalizados para o intervalo [0,1].

62 Método de Substituição Lexical e Desambiguação de Sentido

distância de cosseno entre o candidato (cj) e a palavra de menor correlação à t9. Já a variável Lnrepresenta o vocabulário oriundo da subtarefa de ponderação de n-grams (Fórmula4.2), inclusa no Ponderador de Contexto Restrito (Seção4.2.1).

A saída da Equação4.3, que é também a saída do Ponderador de Contexto Abran- gente, é a lista de palavras com menor distância no espaço multidimensional (Lemb), orientadas pela função que maximiza o enviesamento ao contexto, filtrada pela lista imposta pelo vocabulário contido em Ln.

Ln = ponderar_ngram(C, S, t) (4.2) Lemb= argmax cj∈ (Ln) cos(cj, t)cos(cj, argmax(pmi(t,wi)) wi ∈ S ) cos(cj, argmin(pmi(t,wi)) wi∈ S +0.0001 (4.3)

Conceitualmente, a Equação4.4representa uma operação que almeja uma palavra parecida tanto com t que esteja para aquela da sentença com forte correlação PMI (argmax(wi, t)), além de ser substancialmente diferente de argmin(wi, t), que é a pala- vra do contexto com menor medida PMI (argmin), para composição da operação de analogia. υ[t] é a representação vetorial de t, a qual é adicionada a saída da função de maximização, que também é um embedding. A saída, naturalmente, é uma lista de representações das palavras com as menores distâncias de cosseno contidas no mesmo espaço multidimensional, que é então filtrada sintaticamente selecionando aquelas contidas como chaves de entrada na Wordnet quando associadas à função sintática de t quando aplicadas dentro de S.

Re =cos(υ[t] +υ[

argmax(pmi(t,wi))

wi ∈S ] −υ[

argmin(pmi(t,wi))

wi ∈ S ]) (4.4)

Esta função é pertinente para a descoberta de padrões linguísticos transcritíveis na forma de operações algébricas de vetores. Na prática a função busca enviesar o termo substituível ao contexto, selecionando as palavras representadas no espaço dimensional com atributos comuns às palavras do parht, wii.

Exemplo. Na sentença S este subcomponente identifica as funções sintáticas de todas as palavras nela existentes gerando a lista associativa: Sa=[(“He”, “pronome”), (“will”,

9

Método de Substituição Lexical e Desambiguação de Sentido 63

“verbo”), (“invite”, “verbo”), (“you”, “pronome”), (“for”, “preposição”), (“have”, “verbo”), (“drinks”, “substantivo”), (“at”, “preposição”), (“the”, “artigo”), (“bar”, “substantivo”), (“and”, “conjunção”), (“walk”, “NN’), (“around”, “preposição”)]. Posteriormente, filtra-se somente aquelas com função sintática semanticamente relevante nesta etapa, reduzindo Saà lista: Sa*=[(“will”, “verbo”), (“invite”, “verbo”), (“have”, “verbo”), (“drinks”, “substantivo”), (“walk”, “verbo’), (“around”, “preposição”)].

A seguir, acontece a aplicação da medida PMI para cada palavra inclusa Sa* em um casamento com o token “bar” é efetuada, resultando na lista SPMI(a*, bar) = [(“bar”, “drinks”, 9.0120), (“bar”, “invite”, 4.1723), ..., (“bar”, “walk”, -1.0090), (“bar”, “will”, -4.2010)]. O passo final aplica a tripla de palavras h bar-drink-will i como entrada para a Função 4.3, retornado a lista temporária que é representada no espaço muldimensionalLemb*=(“pub”, 0.5826115012168884) (“tavern”, 0.5498610734939575), (“taproom”, 0.5342156291007996), (“nightspot”, 0.5226896405220032). A saída desta etapa corresponde à lista Lembjá sem o registro de “nightspot”, naturalmente, já que este último não fora o único não selecionado pelos

subcomponentes anteriores.