Similaridade de termos assimétricas - Adaptabilidade não Supervisionada Independente da Língua,

As medidas assimétricas tem sido amplamente utilizado no contexto da adaptabilidade, este método com precisão a similaridade entre os termos no sentido de que os termos próximos mui- tas vezes têm um coeficientes de baixa similaridade, em poucos termos a norma de t1 de um termo é o número de documentos indexados pela palavra devido à lei de Zipf, a distribuição das normas de termos t1 e da norma t2 é muito assimétrico neste facto altera a distancia entre termos, em grande diferenças em suas normas. Para as visualizações segundo a similaridade, é importante ter uma boa estimativa de semelhança de termos, isto pode ser feito, utilizando diferentes métricas, de duas maneiras; a partir de uma representação que deve ser gerada no conteúdo dos documentos ou deve ser comparado termos sem adotar uma representação inter- mediaria [117].

As medidas de semelhança assimétricas são construídas a partir da análise de termos nos textos são baseadas na seguinte hipótese; dois termos são os mais próximos que são frequentemente usadas nos mesmos textos, assim, dois termos serão consideradas muito simples se aparecerem frequentemente “ lado-a-lado” ou pode ser no mesmo documento e de forma complementar se

eles parecem raramente um sem o outro. Estas medidas são do tipo, probabilidade condicional (PCS), que tem o coeficientes de dados e Jaccard ou informações mútuas usam este princípio. Quando observamos que dois sinónimos raramente são usados juntos as medidas de associação permitem dois ou mais termos em relação sinonímia [42] enquanto, por definição, mesmo desta relação assimétrica, onde se usa as noções de “vetor de contexto” que caracterizam cada termos pelo seu conjunto, onde que foi proposto a medida InfoSimba que consiste em comparar dois para dois cada um dos elementos de dois vetores de contexto para deduzir a semelhança assimétrica entre dois termos.

De facto que é importante há existência de uma tendência para uma forte associação direta de um termo especifico para o termo mais geral mas associação inversa é a mais fraca, dentro de um escopo, onde a vários trabalhos recentes de termos gerais foi proposto o uso de medidas de similaridade assimétricas, por sua vez acreditamos que esta ideia tem o potencial de provocar melhorias significativas na aquisição de relações assimétricas de termos.

Na literatura a abordagem mais popular é a baseada em um modelo de esquema de frequências de palavras, que faz uso de um vetor de frequência de palavra para representar um documento. Função cosseno, Produto escalar e função de proporção, entre outras, são medidas de similaridade regulares de vetor. Essas medidas são medidas de similaridade simétrica.

Neste trabalho como mencionado, apresentamos um modelo de similaridade assimétrica, de- senvolvendo o contexto em causa (extração de termos relevantes) uma medida assimétrica,

(Adapted Asymmetric InfoSimba Similarity), derivada da medida desenvolvida.

Um método de similaridade é uma função que calcula um coeficiente de semelhança entre ve- tores, utilizando uma medida de similaridade entre uma query e cada um dos documentos de um conjunto, que podem ser:

• Recuperar os documentos segundo a ordem de relevância presumida;

• Definir um valor limiar de modo a controlar o tamanho do subconjunto de documento recuperados.

3.9.1 Medidas de Associação Assimétrica

Nesta hipótese, as medidas de associação assimétricas são necessárias induzir associações de termos partir dos quais apresentar as assimetrias que serão usadas para medir o grau de ati- vidade entre substantivos, que são respetivamente a frequência em função da probabilidade. Estás medida são baseadas em padrões que podem incorporar a assimetria que são definidas inicialmente para uma relação, basicamente esta abordagem aproveita ao máximo os padrões assimétricos, por instanciando para um mecanismo de busca um número de padrões preenchi- dos apenas com um candidato possível que pode garantir a extrações de termos quando existir padrão assimétricos, por entanto nós sabemos que as medidas que são baseadas em padrões sensíveis de termos e com a confusão do padrão, com estas técnicas vêm dependendo do idioma que são difíceis de argumentar para diferentes idiomas, para que permaneça dentro da metodo- logia independente da língua e não supervisionadas. A aplicação dos problemas de construção de uma taxonomia, linguística cognitiva é um dos termos geral específica.

Quando os termos ocorrem juntos com mais frequências do que o caso, isso pode ser uma evi- dência de que eles têm uma função especial que não é simplesmente explicada como resultado da sua combinação, esta propriedade é conhecida em linguística como não composicionalidade, e chegamos de pensar que num corpus como uma sequência de termos gerada aleatoriamente que é visto como uma sequência de termos de pendência de n-gramas é no nosso caso [108] es-

tas são as consequências que ocorrem frequentemente que usamos nas medidas de associação assimétrica, certa mente com estes estudos a propor o uso de probabilidade, para construção de taxonomia, apresentada na equação 3.10.

Conditional Probability

P (x/y) = P (x, y)

P (y) (3.12)

Os termos de altas frequências não discriminam entre documentos relevantes, e não relevantes, a adição desses termos para a expansão da consulta é ineficaz, o nível de relevância de um termo que o específico que resulta na determinação por [30] ocorrência com o termo conceito geral, que pode ser extraído do corpus, para que os termos de conceito gerais numa consulta que são substituídos por um conjunto de termos conceituais específicos usados no corpus. Esta abordagem é adequada apenas para situações em que precisão é mais importante.

Assume-se que um termo T2 inclui um termo T1 se os documentos em que T1 ocorre forem um subconjunto dos documentos em que T2 ocorre limitado por P(T2/T1)≥0,8 e P(T1/T2)todas estas relações de integração, constrói-se a estrutura semântica de qualquer domínio, que cor- responde a um gráfico acíclico dirigido, a relação de integração de subsunção é aliviada com a seguinte expressão, de comparação de termos semelhantes no documento, P(T2/T1)≥ P(T1/T2) e P(T2/T1 )gt;T, onde T é um determinado limiar e todos os pares de termos encontrado para ter um relacionamento de integração que é passado através de um módulo de transitividade, que remove as relações de integração estranhas na maneira de que a transitividade é preferida em relação o caminho direto para que nos conduz assim a um gráfico acíclico que é direcionado não triangular.

As duas medidas propostas para modelar a noção das similaridade assimétrica, com as intenções de determinar em que medida essas duas de associação dirigida podem ser usados como modelo para associação psicológica dirigida na mente do utilizador, com estas medidas a probabilidade condicional é simples e a medida de classificação R(.∥ .) com na escala de person, X2, em parti- cular o TI,I=1… n é a lista de todos termos que concorrem com o termo T ordenado com respeito para um determinado valor, X2, (T,TI),a R(TI(.∥ .)T), é a classificação do termo TI nesta lista, com estas classificações dos termos os resultados são avaliados a favor de um grande número de normas de livre associação, com estas medidas é capaz de distinguir os pares simétricos e com os assimétricos e com certas medidas na previsão de graus assimétrico.

Por enquanto as pontuações finais dos rankings para o gráfico que é relevante diferentes signi- ficativamente em comparação às suas alternativas não relevantes com os números de iterações à convergência e a forma da convergência com uma curva é quase idêntico para poder permitir uma identificação de termos relevantes e não relevantes no gráfico.

Added Value

AV (x∥ y) = P (x|y) − P (x) (3.13)

Braun-Blanket

BB(x∥ y) = f (x, y)

Certainty Factor CF (x∥ y) = P (x|y) − P (x) 1− P (x) (3.15) Conviction CO(x∥ y) = P (x)× P (y −₎ P (x, y−) (3.16) Gini Index

GI(x∥ y) = P (y) × P (x|y)2+ P (x−|y)2− P (x)2P (y−)× (P (x|y−)2) + P (x−|Y−)2)− P (x−)2 (3.17) J-measure. J M (x∥ y) = P (x, y) × logP (x|y) P (x) + P (x −_{, y)}_{× log}P (x−|y) P (x−) (3.18) Laplace LP (x∥ y) = N× P (x, y) + 1) N× P (y)+₂ (3.19)

No documento Adaptabilidade não Supervisionada Independente da Língua, ao Perfil Linguístico do Utilizador (páginas 71-74)