Medidas de Similaridade - Análise de Proximidade entre Investigadores de Alguns Centros de I&D

A presente secção explora várias medidas de proximidade e compara as suas especificidades, finalizando com a exposição dos algoritmos de ranking disponíveis para comparar diferentes medidas de similaridade.

2.7.1. Similaridade Cosseno

Uma medida muito popular para medir a similaridade entre elementos de um conjunto de documentos de texto é o cosseno do ângulo entre dois vectores. A medida cosseno é determinada por:

A_k=

∑

k i=1 u_iσ_iν_iT cos x , y = x∗y

∥

∗

∥

Esta medida é invariante com a escala, isto é, não depende do tamanho dos vectores mas apenas da sua direcção. Tal permite tratar de modo idêntico documentos com a mesma distribuição relativa de termos. O facto de esta medida ser independente do tamanho dos documentos torna-a muito popular para análise de documentos textuais. Além disso, os vectores do documento podem ser normalizados à unidade para um processamento mais eficiente (Ghosh e Strehl, 1998).

2.7.2. Similaridade de Jaccard

Segundo Markov e Larose (2007) existe uma alternativa à similaridade cosseno, que aproveita todos os termos que ocorrem no documento, mas utiliza apenas as coordenadas dos vectores booleanos diferentes de zero. Esta abordagem serve-se do coeficiente de Jaccard, que é definido como a percentagem de coordenadas diferentes de zero que são diferentes nos dois vectores como se apresenta na fórmula:

Recorrendo-se à notação utilizada anteriormente para o Coseno pode-se escrever a fórmula da seguinte forma:

A similaridade entre os dois documentos apresenta algumas propriedades importantes no contexto da procura de similaridade. De acordo com o exemplo dos autores, a similaridade atinge o seu máximo 1 se os documentos forem idênticos e simétricos, isto é Sim(d1,d2) = 1 e Sim(d1,d2) = Sim(d2,d1). Porém, tal como a semelhança

cosseno, não é uma métrica formal, visto que não satisfaz a desigualdade triangular (teorema que afirma que, num triângulo, o comprimento de um dos lados é sempre inferior à soma dos comprimentos dos outros dois lados). Contudo pode através da transformação 1 – Sim(d1,d2) chegamos à denominada métrica de Jaccard.

De acordo com Markov e Larose (2007) a medida Jaccard é preferível à medida cosseno, na procura de similaridades de documentos para information retrieval. A principal razão é a escalabilidade, que se torna um problema em grandes colecções de

SimJaccard  d₁, d₂=∣j∣d1 j =1∧d2 j =1∣ ∣j∣d₁j=1∨d₂j=1∣ SimJaccard  x , y =

∑

i=1 n x_iy_i

∑

i =1 n x_i2

∑

i=1 n y_i2−

∑

i=1 n x_iy_i

documentos como as existentes na web. Existem métodos para aproximar o cálculo do coeficiente de Jaccard que resultam bastante bem nesses casos. Estes autores apresentam um método proposto por Broder (1998) para estimar a "parecença" (resemblance) entre dois documentos utilizando um conjunto de representação de subsequência de documentos chamado shingles. Este método estima o coeficiente de Jaccard em dois conjuntos, apresentando-os como conjuntos mais pequenos denominados sketches, que são depois utilizados, em vez dos documentos originais, para calcular o coeficiente de Jaccard.

Os sketches, com um tamanho fixo para todos os documentos, são criados através de uma permutação aleatória, utilizada na geração de uma amostra para cada documento. Estes representam, desta forma, cada documento do corpus, o que possibilita utilizar menos recursos de armazenamento e de processamento ao calcular a similaridade entre pares de documentos. Tendo surgido no contexto do agrupamento, o método também se revela bastante eficaz na procura de similaridades.

2.7.3. Discussão das diferentes medidas de similaridade

No quadro seguinte compara-se diferentes medidas de similaridade evidenciando a sua sensibilidade quanto à extensão dos documentos e orientação dos vectores. Para os documentos representados pelos pontos d1 e d2, a linha a tracejado representa os pontos com igual semelhança com d1 e d2. As linhas continuas representam as semelhanças iguais a 0,25, 0,5 e 0,75. Deste modo a medida euclideana mostra-se sensível à extensão dos documentos, mas não à sua orientação. A medida cosseno é sensível à orientação, mas não à extensão e a medida de jaccard é sensível às duas componentes.

2.7.4. Comparação e validação de medidas de proximidade de

Ilustração 2: Propriedades das semelhanças baseadas nas medidas euclideana, cosseno e jaccard, adaptado de Ghosh e Strehl (1998)

Segundo Lesot e Rifqi (2010), os sistemas de information retrieval fornecem resultados em forma de listas ordenadas pela relevância. Fagin et al. (2003) referem que um dos exemplos mais comuns é a lista dos 10 primeiros resultados na página inicial de um motor de busca. Normalmente estes rankings são calculados a partir da similaridade entre documentos (Lesot e Rifqi, 2010). Assim, a selecção de uma medida de similaridade torna-se central, pressupondo-se que se duas medidas de similaridade distintas resultarem em ordenações equivalentes elas não são substancialmente diferentes, denominando-se de medidas de comparação equivalentes.

Para trabalho futuro de análise de proximidades entre investigadores, prevê-se pedir aos investigadores um ranking de colegas mais próximos da linha de investigação. O resultado será então comparado com o ranking obtido a partir do Text Mining dos títulos das suas publicações.

Seguindo Lesot e Rifqi (2010), outros métodos de aprendizagem automática, como a classificação dos k vizinhos mais próximos ou o agrupamento hierárquico pelo método de complete e single linkage, dependem dos rankings de similaridade e não nos seus valores. Desta forma, no presente trabalho utilizar-se-á a análise de agrupamentos e a sua comparação com classes existentes para validar as proximidades obtidas.

Refinando a caracterização de medidas não equivalentes, os graus de equivalência quantificam o grau de não concordância entre rankings, tendo em conta o número de inversões e as suas posições através do tau de Kendall generalizado. Deste modo, duas medidas com poucas inversões podem ser consideradas mais equivalentes do que medidas que conduzem a rankings opostos. Duas medidas podem ser consideradas menos equivalentes se as inversões ocorrem com mais frequência nos valores mais altos de similaridade do que nos mais baixos.

Segundo Lesot e Rifqi (2010), o tau de Kendall generalizado Kpt,pm compara os

rankings r1 e r2 definidos num conjunto de elementos ε, associando cada par (i, j) ε∈ 2 a

uma penalidade P(i,j) definida como a soma de todas as penalidades divididas pelo número de pares. Distinguem-se quatro valores de penalidades: (1) Se o par (i,j) é concordante, então P=0. (2) Se o par não é concordante então P=1. (3) Se estiver associado a um ranking e não a outro P=pt [0,1]. (4) Se estiver presente num ∈ ranking e

não no outro, distingue-se se tanto o i como o j estão ausentes, ficando P=pm [0,1] ou∈

Para calcular o grau de equivalência entre duas medidas de comparação m1 e m2

procede-se da seguinte forma: dada a consulta ou documento x D e todos os outros∈ pontos (documentos) y D são ordenados de acordo com a sua semelhança a x, de∈ acordo com m1 e m2. Os rankings r1k e r2k induzido pelo espaço D e restringidos aos seus k elementos de topo são depois comparados segundo a fórmula:

O seu resultado será igual a 1 para medidas equivalentes e 0 para rankings opostos.

Mais à frente, nesta exposição, descrever-se-á a Análise de Procrustes que permite comparar da evolução temporal do mesmo tipo de semelhança e, o mais relevante para esta secção, diferentes medidas de proximidade.

No documento Análise de Proximidade entre Investigadores de Alguns Centros de I&D da Universidade do Porto usando Text Mining sobre Bases de Dados Bibliográficas (páginas 51-55)