Abordagens para sinônimos aproximados - Um Método para Desambiguação de Sentido e Substituição

O trabalho de [24] apresenta uma solução não-supervisionada para o problema da escolha lexical, utilizando um método estatístico através de redes de coocorrência entre as palavras. A ideia da utilização de redes de coocorrência é que mesmo que uma palavra não coocorra com uma outra, é possível predizer uma terceira palavra a partir de duas palavras fortemente correlacionadas. Deste modo, percebe-se uma transitividade entre palavras, onde o próprio autor do trabalho exemplifica: “learn” pode estar fortemente relacionado com “task” porque “learn” coocorre frequentemente com “difficult” que coocorre frequentemente com “task”. Então, o autor propõe uma segunda ordem de coocorrência para a predição da relação de duas palavras através da mediação de um termo correlato a ambas.

Para tal, o autor usa um corpus para criar um grafo de árvore, onde cada sinônimo candidato representa a raiz. As palavras coocorrentes a cada um dos sinônimos em um mesmo contexto compõem uma relação de primeira ordem. Para definir se duas palavras que comporão uma relação de primeira ordem são usadas duas medidas: (i) mutual information e (ii) t-score. A função das medidas é calcular a probabilidade de junção entre palavras. Quando utilizadas juntas, almeja-se evitar que o espaço amostral que gera a medida de coocorrência, sendo pequeno, forneça probabilidades pouco acuradas. Para as relações de segunda ordem é utilizada apenas a medida t-score.

Dadas duas palavras quaisquer w₁e w_n, para uma relação de ordem d, uma medida de significância para a relaçãohw₁, w_nipara o menor caminho na árvore P(w₁, w_n) é expressa por uma fórmula que assegura que a importância da correlação decaia proporcionalmente ao aumento da distância em quantidade de saltos.

A construção de uma rede utiliza uma sentença de entrada. Assim, cada palavra de um conjunto de sinônimos aproximados (sem descoberta de sinônimos) se torna raiz de uma rede de coocorrência com as palavras da sentença S*de entrada. A partir desta estrutura, o sinônimo predito s é aquele que maximiza o somatório da função sig(s, w_i) onde w_i representa cada palavra pertencente a S* e sig()é uma função que aplica as medidas da probabilidade de junção de s e todas as palavras da rede construída. O trabalho atinge até 68.9% de acurácia para um determinado caso de entrada.

O trabalho de [38] apresenta um método estatístico para a escolha automática do sinônimo aproximado integrando um thesaurus inteligente, que sugere uma ordem

Trabalhos Relacionados 39

de sinônimos para um contexto de uso definido. Esta abordagem computa uma pontuação para cada sinônimo de um conjunto o quão adequado é para um contexto de uso. A pontuação se baseia na medida de informação mútua [15] para verificar se duas palavras tendem a coocorrer em determinado contexto (probabilidade de junção). No trabalho em questão, o tamanho da janela de contexto utilizada no corpus para o cálculo do PMI é de k palavras à esquerda e k à direita ao lado da ocorrência no corpus do sinônimo a ser predito. Assim, para cada sinônimo aproximado, calcula-se o somatório da medida PMI para cada este mesmo sinônimo e todas as palavras inclusas na janela que define o contexto.

O trabalho de [38] também considera restrições colocacionais (posição dentro de uma sentença) a partir de uma base de conhecimento às palavras escolhidas para preencher uma lacuna de um trecho de texto. Para cada palavra colocada próxima a um sinônimo aproximado, é realizado um teste t a partir de um motor de busca com contadores para mensurar se essa composição configura uma colocação válida ou uma violação. De forma complementar, também é apresentado um método supervi- sionado à tarefa. Naturalmente, obtém-se dados rotulados. Além disto, é necessário realizar o treinamento de classificadores para cada grupo de sinônimos aproximados juntos à sentença utilizada para predizer o sinônimo aproximado mais adequado. Naturalmente, tal propriedade se destaca como uma desvantagem comum a todas as abordagens supervisionadas, que necessitam de treinamento para cada inventário fechado de sinônimos.

As classes do modelo são os sinônimos do conjunto solução admitido. Cada sentença é então convertida em um vetor de atributos para a realização do treinamento. São utilizadas duas propriedades no modelo: (i) o coeficiente de cada parte do contexto (esquerda e direita), portanto, a quantidade de atributos passa a ser o dobro daquela de sinônimos aproximados. (ii) as palavras nas janelas de contexto. Para cada conjunto de sinônimos aproximados, fora usado o grupo das 500 palavras mais frequentes localizadas próximas às lacunas no conjunto de desenvolvimento. A cada palavra, no momento do treinamento, é registrada se uma palavra ocorre no mesmo contexto ou não. O trabalho de [38] faz uso diferentes algoritmos classificadores sobre o mesmo modelo.

O trabalho de [40] apresenta uma abordagem apoiada sobre método estatístico e não-supervisionada que não demanda de ontologias para a resolução do problema de sinônimos aproximados. Diferente de trabalhos anteriores, o corpus utilizado por este trabalho fora o Google Web 1T (que abrange cerca de até 109 páginas web) . O

40 Trabalhos Relacionados

trabalho usa modelo de linguagem 5-grams (Seção2.3.1), que é uma tentativa de se medir o quão frequente uma cadeia de palavras acontece enquanto uma sequência em um corpus. Basicamente, as sentenças são construções de uma sentença original preenchida por cada um dos sinônimos a ser classificado. Assim, são consultadas sentenças formadas por uma janela deslizante de tamanho 5 sobre os trechos de textos gerados para a consulta ao corpus. A acurácia média aproximada é de 69.9%.

A abordagem de [31] estende à abordagem de [38] para a resolução do problema de preencher lacunas de uma sentença por sinônimos. A principal diferença realizada é o uso de skip-grams (Seção2.3.3), como alternativa de uma janela de contexto para o cálculo da medida de informação mútua, entre os sinônimos aproximados e as palavras pertencentes ao skip-gram.

Este trabalho também realiza a avaliação entre sinônimos anotados por avaliadores como “atitudinais"ou “não-atitudinais"com o intuito de corroborar à hipótese que conjuntos de sinônimos classificados como “atitudinais", quando unidos a métodos estatísticos, entregam um resultado mais acurado. No entanto, tal hipótese não é comprovada. Esta abordagem consegue um ganho de até 4% na acurácia quando comparado ao trabalho de [24].

O trabalho de [76] propõe um método de aprendizado que consiste em uma junção de máquinas de vetores de suporte (SVM) com análise semântica (Latent Semantic Analysis - LSA). Para a realização da análise semântica, cria-se uma matriz de frequên- cias de palavras por documentos (obtidas através dos termos que circundam os sinô- nimos aproximados, com uma janela de tamanho 5). Em mais detalhes, um termo p (sinônimo candidato) é representada por um vetor com todas as palavras coocorrentes no contexto. O vetor na posição i recebe 1, se a palavra do vocabulário no índice i coocorra com p, ou recebe 0, caso contrário. Por fim, o método de SVD é aplicado ao vetor original que representa a palavra com o intuito de destacar atributos infrequentes nos contextos de uso dos sinônimos candidatos, e então representá-los em um espaço com baixa dimensionalidade.

A conclusão do algoritmo se dá através do treinamento de classificadores SVM com os vetores resultantes (latent vectors) de modo a melhorar a acurácia da performance dos classificadores. O autor faz uma experimentação mais focada ao tamanho mais adequado para a janela de contexto aplicada ao domínio do problema, concluindo que 415 palavras é o mais adequado. O algoritmo consegue ganhos significativos sobre seu baseline, que é [38], alcançando até 74.5% de acurácia.

Trabalhos Relacionados 41

Quando comparada a este nicho de trabalhos, nossa abordagem difere-se que ataca um problema mais amplo no que concerne à seletividade de sinônimos. Ou seja, não trabalha com o escopo reduzido a sinônimos inclusos em uma mesma definição. Entretanto, compartilha de pontos em comum, como considerar métricas como a PMI para cálculo de coocorrência entre palavras do contexto e um eventual candidato.

No documento Um Método para Desambiguação de Sentido e Substituição Lexical Apoiado em Dicionários e Embeddings (páginas 64-67)