1
Modelos de Recuperação de Documentos
Modelo Espaço Vetorial
Representação do documento
Associa pesos positivos não-binários aos termos nos documentos
Os documentos são representados como vetores onde os termos são eixos que definem o espaço vetorial multidimensional de termos.
Olimpíada
Brasil Londres
d
0.2
0.5 0.3
Documento d :
Brasil em Londres 2012
O Brasil não foi bem no quadra das medalhas da
Olimpíada de Londres 2012 ...
Brasil 0.5 Olimpíada 0.3 Londres 0.2
Representação da consulta
A expressão de busca consiste de palavras separadas por espaço em branco
Associa pesos positivos não-binários aos termos na expressão de busca
A consulta é representada como vetor onde os termos são eixos que definem o espaço vetorial multidimensional de termos.
Olimpíada
Brasil Londres
d
0.2
0.5 0.3
q Brasil Olimpíada Londres
Consulta q : Brasil 0.4
Olimpíada 0.3
Londres 0.3
Representação do documento e da consulta
Dado o conjunto de termos representativos para o corpus em questão V = {t1, t2, t3, ...,tn}
cada termo é um eixo de um espaço vetorial
Consultas (q) e documentos (d) são representados como vetores nesse espaço n-dimensional de termos
Olimpíada
Brasil Londres
d
0.2
0.5 0.3
q
Brasil Olimpíada Londres Consulta q :
Documento d :
Brasil em Londres 2012
O Brasil não foi bem no quadra das medalhas da Olimpíada de Londres 2012 ...
Brasil 0.4 Olimpíada 0.3 Londres 0.3
Brasil 0.5 Olimpíada 0.3 Londres 0.2
Representação de q
Representação do documento e da consulta
Este modelo pode utilizar diferentes
fórmulas para c
alcular os pesos dos
vetores
Freqüência de ocorrência do termo
no documento
TF-IDF (mais usado)
Cálculo dos Pesos
Uma possibilidade é utilizar como peso a frequência de ocorrência do termo (TF) no documento e na consulta
“Se o desonesto soubesse a
vantagem de ser honesto, ele seria honesto ao menos
por desonestidade.”
Sócrates
Documento dj
desonesto / soubesse / vantagem / honesto / seria / honesto /
menos/desonestidade/ socrates
honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1
Operações de Texto Representação
Cálculo dos Pesos
Método TF-IDF leva em consideração
Freqüência do termo no documento
Term Frequency (TF)
Quanto maior, mais relevante é o termo para descrever o documento
Inverso da freqüência do termo nos documentos
da coleção
Inverse Document Frequency (IDF)
Termo que aparece em muitos documentos não é útil para distinguir relevância
Definições
dj: documento; ki:termo
freqi,j: freqüência do termo ki no documento dj ni: número de documentos que contêm termo ki N: número total de documentos do corpus
maxlfreql,j : a freqüência do termo mais freqüente no
documento
TF:
IDF:
Cálculo dos Pesos com TF-IDF
N ni idfi= log
Inverso da freqüência do termo nos documentos do corpus
freqi,j maxl freql,j tfi,j=
Freqüência (normalizada) do termo no documento
Definição do peso nos documentos:
wi,j: peso associado ao termo ti no documento dj
wi,j = tfi,j X idfi
Para definição dos pesos dos termos nas
consultas, Baeza-Yates e Ribeiro-Neto sugerem:
Cálculo dos Pesos com TF-IDF
N ni X log 0.5 freqi,q
Exemplo de TF
freqi,j: freqüência do termo ki no documento dj
maxl freql,j = 2
Cálculo dos Pesos com TF-IDF
honesto 2 – 1.0 desonesto 1 – 0.5 soubesse 1 – 0.5 vantagem 1 – 0.5 seria 1 – 0.5 menos 1 – 0.5 desonestidade 1 – 0.5 socrates 1 – 0.5
Termo freq - tf
freqi,j maxl freql,j tfi,j=
Exemplo de IDF
ni: freqüência do termo ki na coleção
N: número de documentos na coleção
Suponha:
que a palavra honesto apareça em seis documentos na coleção
que a coleção tenha 32 documentos no total
Cálculo dos Pesos com TF-IDF
32 6
idfhonesto= log = 0.73 N
ni idfi= log
Função de Busca
O modelo ordena os documentos recuperados de acordo com sua similaridade em relação à consulta
Similaridade pode ser medida pelo cosseno do ângulo entre q e d
Existem outras medidas de similaridade usadas com
o modelo EV, porém o cosseno é a mais usada
K2
K1 d
q
Este modelo pode utilizar diferentes
fórmulas para c
alcular a medida de
similaridade entre consulta e documentos
Cosseno (mais usado)
Jaccard, Coeficiente de Pearson,
etc...
Essa escolha depende de quem
constrói o SRI, e não do modelo
Espaço Vetorial
Função de Busca
A associação de pesos positivos não-binários aos termos nos documentos e na expressão de busca juntamente com o cálculo de uma função
similaridade entre os vetores permite o
casamento parcial entre consulta e documento
Os pesos são usados para calcular um “grau de
similaridade” entre consulta e documento
O usuário recebe um conjunto ordenado de
documentos como resposta à sua consulta
Similaridade pode ser medida pelo
cosseno do ângulo entre q e d
função inversamente relacionada ao
ângulo entre os documentos
Quanto menor é o ângulo entre os documentos, maior o cosseno
E maior é a similaridade entre d e q
Varia entre 0 e 1
Independe do tamanho do vetor
Considera apenas sua direção
Cosseno Exemplo:
n i i n i i n i i i d q d q sim 1 2 1 2 1 ) ( ) ( ) (
0.9736 . 0 35 . 0 38 . 0 34 . 0 35 . 0 (0.2) (0.3) (0.5) (0.3) (0.3) (0.4) .2 0 0.3 .3 0 0.3 .5 0 0.4 2 2 2 2 2
2
sim Olimpíada Brasil Londres d 0.2 0.5 0.3 -q
Brasil Olimpíada Londres Consulta q :
Documento d :
Brasil em Londres 2012
O Brasil não foi bem no quadra das medalhas da Olimpíada de Londres 2012 ...
Brasil 0.4 Olimpíada 0.3 Londres 0.3
Brasil 0.5 Olimpíada 0.3 Londres 0.2
Representação de q
Representação de d
0.3 -d q d q d q d q
sim
cos( , )
0.35 .2 0 0.3 .3 0 0.3 .5 0
0.4
d q
Brasil 0.4 Olimpíada 0.3 Londres 0.3
Brasil 0.5 Olimpíada 0.3 Londres 0.2
Representação de q
Representação de d
Brasil Olimpíada Londres Norma q dj Cos
d 0,5 0,3 0,2 0,62 0,35 0,97
q 0,4 0,3 0,3 0,58
58 . 0 34 . 0 (0.3) (0.3)
(0.4)2 2 2
q 97 . 0 36 . 0 35 . 0 58 . 0 62 . 0 35 . 0
cos
d q d q 62 . 0 38 . 0 (0.2) (0.3)
(0.5)2 2 2
com pesos binários
t1 t2 t3 Norma q dj Cos
d1 1 0 1 1,41 2 0,82
d2 1 0 0 1,00 1 0,58
d3 0 1 1 1,41 2 0,82
d4 1 0 0 1,00 1 0,58
d5 1 1 1 1,73 3 1,00
d6 1 1 0 1,41 2 0,82
d7 0 1 0 1,00 1 0,58
q 1 1 1 1,73
Consulta q: t1 t2 t3
Modelo Booleano só permite retornar como resultado:
d5 (todos os termos); ou todos os documentos sem ordem (qualquer dos termos).
Resultado: d5, [d1, d3, d6], [d2, d4, d7]
d1 d2
d3 d4 d5
d6 d7
t1 t2
de ocorrência como peso das palavras
t1 t2 t3 Norma q dj Cos
d1 2 0 1 2,24 3 0,77
d2 1 0 0 1,00 1 0,58
d3 0 1 3 3,16 4 0,73
d4 2 0 0 2,00 2 0,58
d5 1 2 4 4,58 7 0,88
d6 1 2 0 2,24 3 0,77
d7 0 5 0 5,00 5 0,58
q 1 1 1 1,73
Consulta q: t1 t2 t3
Pesos calculados pelo próprio sistema de RI
Modelo Espaço Vetorial
Vantagens
Permite casamento parcial dos documentos com a
consulta
Ordena documentos de acordo com o grau de
similaridade com a consulta
Consultas e documentos são representados de forma
homogênea pelo sistema
Desvantagens:
Assim como o modelo booleano assume independência
entre os termos usados na indexação
q1: professor ; q2: professores
Resultados das consultas q1 e q2 são diferentes
Mecanismos de Busca na Web
Todos adotam uma variação do modelo espaço vetorial
https://www.google.com.br/about/company/history/ http://www.google.com/intl/pt-BR/insidesearch/
http://www.google.com/intl/pt-BR/insidesearch/howsearchworks/crawling-indexing.html
http://
static.googleusercontent.com/media/www.google.com/pt-BR//intl/pt-BR/insidesearch/howsearchworks/assets/searchInfographic.pdf
Bing
Exercícios
1) Construa a lista de documentos retornados
utilizando o modelo espaço vetorial para o exemplo 2 para as consulta: t1 t2
Exercícios
3) Acesse o Google Acadêmico:
https://scholar.google.com.br/
Recuperar documentos que possua o termo indexação
automática em algum dos campos descritivos dos artigos ou no
t1 t2 t3 Norma q dj Cos
d1 2 0 1 2,24 2 0,63
d2 1 0 0 1,00 1 0,71
d3 0 1 3 3,16 1 0,22
d4 2 0 0 2,00 2 0,71
d5 1 2 4 4,58 3 0,46
d6 1 2 0 2,24 3 0,95
d7 0 5 0 5,00 5 0,71
q 1 1 0 1,41
Pesos dos termos na consulta calculados pelo Sistema de RI
Resolução
2) Primeiro Passo – cálculo de TF
TF t1 t2 t3
d1 1,00 0,00 0,50
d2 1,00 0,00 0,00
d3 0,00 0,33 1,00
d4 1,00 0,00 0,00
d5 0,25 0,50 1,00
d6 0,50 1,00 0,00
d7 0,00 1,00 0,00
q 1,00 1,00 1,00
t1 t2 t3
d1 2 0 1
d2 1 0 0
d3 0 1 3
d4 2 0 0
d5 1 2 4
d6 1 2 0
d7 0 5 0
Resolução
2) Segundo Passo – Calculo de IDF
t1 t2 t3
d1 2 0 1
d2 1 0 0
d3 0 1 3
d4 2 0 0
d5 1 2 4
d6 1 2 0
d7 0 5 0
q 1 1 1
t1 t2 t3
Resolução
2) Terceiro Passo – Calculo do TFIDF
TFIDF t1 t2 t3
d1 0,15 0,00 0,18
d2 0,15 0,00 0,00
d3 0,00 0,08 0,37
d4 0,15 0,00 0,00
d5 0,04 0,12 0,37
d6 0,07 0,24 0,00
d7 0,00 0,24 0,00
q 0,15 0,24 0,37
TF t1 t2 t3
d1 1,00 0,00 0,50
d2 1,00 0,00 0,00
d3 0,00 0,33 1,00
d4 1,00 0,00 0,00
d5 0,25 0,50 1,00
d6 0,50 1,00 0,00
d7 0,00 1,00 0,00
q 1,00 1,00 1,00
t1 t2 t3
Resolução
2) Quarto Passo – Cálculo do Cosseno
Resultado: d5,d3,d1,d6,d7,[d2,d4]
TFIDF t1 t2 t3 Norma q dj Cos
d1 0,15 0,00 0,18 0,23 0,09 0,82
d2 0,15 0,00 0,00 0,15 0,02 0,31
d3 0,00 0,08 0,37 0,38 0,16 0,89
d4 0,15 0,00 0,00 0,15 0,02 0,31
d5 0,04 0,12 0,37 0,39 0,17 0,94
d6 0,07 0,24 0,00 0,25 0,07 0,59
d7 0,00 0,24 0,00 0,24 0,06 0,52
Resolução
3) Google Acadêmico:
Referências
FERNEDA, E. Introdução aos Modelos
Computacionais de Recuperação de
Informação. Rio de Janeiro: Editora Ciência Moderna