• Nenhum resultado encontrado

Modelos de Recuperação de Documentos Modelo Espaço Vetorial Renato Fernandes Corrêa

N/A
N/A
Protected

Academic year: 2019

Share "Modelos de Recuperação de Documentos Modelo Espaço Vetorial Renato Fernandes Corrêa"

Copied!
30
0
0

Texto

(1)

1

Modelos de Recuperação de Documentos

Modelo Espaço Vetorial

(2)

Representação do documento

Associa pesos positivos não-binários aos termos nos documentos

Os documentos são representados como vetores onde os termos são eixos que definem o espaço vetorial multidimensional de termos.

Olimpíada

Brasil Londres

d

0.2

0.5 0.3

Documento d :

Brasil em Londres 2012

O Brasil não foi bem no quadra das medalhas da

Olimpíada de Londres 2012 ...

Brasil 0.5 Olimpíada 0.3 Londres 0.2

(3)

Representação da consulta

A expressão de busca consiste de palavras separadas por espaço em branco

Associa pesos positivos não-binários aos termos na expressão de busca

A consulta é representada como vetor onde os termos são eixos que definem o espaço vetorial multidimensional de termos.

Olimpíada

Brasil Londres

d

0.2

0.5 0.3

q Brasil Olimpíada Londres

Consulta q : Brasil 0.4

Olimpíada 0.3

Londres 0.3

(4)

Representação do documento e da consulta

Dado o conjunto de termos representativos para o corpus em questão V = {t1, t2, t3, ...,tn}

 cada termo é um eixo de um espaço vetorial

Consultas (q) e documentos (d) são representados como vetores nesse espaço n-dimensional de termos

Olimpíada

Brasil Londres

d

0.2

0.5 0.3

q

Brasil Olimpíada Londres Consulta q :

Documento d :

Brasil em Londres 2012

O Brasil não foi bem no quadra das medalhas da Olimpíada de Londres 2012 ...

Brasil 0.4 Olimpíada 0.3 Londres 0.3

Brasil 0.5 Olimpíada 0.3 Londres 0.2

Representação de q

(5)

Representação do documento e da consulta

Este modelo pode utilizar diferentes

fórmulas para c

alcular os pesos dos

vetores

Freqüência de ocorrência do termo

no documento

TF-IDF (mais usado)

(6)

Cálculo dos Pesos

Uma possibilidade é utilizar como peso a frequência de ocorrência do termo (TF) no documento e na consulta

“Se o desonesto soubesse a

vantagem de ser honesto, ele seria honesto ao menos

por desonestidade.”

Sócrates

Documento dj

desonesto / soubesse / vantagem / honesto / seria / honesto /

menos/desonestidade/ socrates

honesto 2 desonesto 1 soubesse 1 vantagem 1 seria 1 menos 1 desonestidade 1 socrates 1

Operações de Texto Representação

(7)

Cálculo dos Pesos

Método TF-IDF leva em consideração

 Freqüência do termo no documento

Term Frequency (TF)

 Quanto maior, mais relevante é o termo para descrever o documento

 Inverso da freqüência do termo nos documentos

da coleção

Inverse Document Frequency (IDF)

 Termo que aparece em muitos documentos não é útil para distinguir relevância

(8)

Definições

 dj: documento; ki:termo

 freqi,j: freqüência do termo ki no documento dj  ni: número de documentos que contêm termo ki  N: número total de documentos do corpus

 maxlfreql,j : a freqüência do termo mais freqüente no

documento

TF:

IDF:

Cálculo dos Pesos com TF-IDF

N ni idfi= log

Inverso da freqüência do termo nos documentos do corpus

freqi,j maxl freql,j tfi,j=

Freqüência (normalizada) do termo no documento

(9)

Definição do peso nos documentos:

 wi,j: peso associado ao termo ti no documento dj

 wi,j = tfi,j X idfi

Para definição dos pesos dos termos nas

consultas, Baeza-Yates e Ribeiro-Neto sugerem:

Cálculo dos Pesos com TF-IDF

N ni X log 0.5 freqi,q

(10)

Exemplo de TF

 freqi,j: freqüência do termo ki no documento dj

 maxl freql,j = 2

Cálculo dos Pesos com TF-IDF

honesto 2 – 1.0 desonesto 1 – 0.5 soubesse 1 – 0.5 vantagem 1 – 0.5 seria 1 – 0.5 menos 1 – 0.5 desonestidade 1 – 0.5 socrates 1 – 0.5

Termo freq - tf

freqi,j maxl freql,j tfi,j=

(11)

Exemplo de IDF

 ni: freqüência do termo ki na coleção

N: número de documentos na coleção

 Suponha:

 que a palavra honesto apareça em seis documentos na coleção

 que a coleção tenha 32 documentos no total

Cálculo dos Pesos com TF-IDF

32 6

idfhonesto= log = 0.73 N

ni idfi= log

(12)

Função de Busca

O modelo ordena os documentos recuperados de acordo com sua similaridade em relação à consulta

Similaridade pode ser medida pelo cosseno do ângulo entre q e d

 Existem outras medidas de similaridade usadas com

o modelo EV, porém o cosseno é a mais usada

K2

K1 d

q

(13)

Este modelo pode utilizar diferentes

fórmulas para c

alcular a medida de

similaridade entre consulta e documentos

Cosseno (mais usado)

Jaccard, Coeficiente de Pearson,

etc...

Essa escolha depende de quem

constrói o SRI, e não do modelo

Espaço Vetorial

(14)

Função de Busca

A associação de pesos positivos não-binários aos termos nos documentos e na expressão de busca juntamente com o cálculo de uma função

similaridade entre os vetores permite o

casamento parcial entre consulta e documento

 Os pesos são usados para calcular um “grau de

similaridade” entre consulta e documento

 O usuário recebe um conjunto ordenado de

documentos como resposta à sua consulta

(15)

Similaridade pode ser medida pelo

cosseno do ângulo entre q e d

função inversamente relacionada ao

ângulo entre os documentos

Quanto menor é o ângulo entre os documentos, maior o cosseno

E maior é a similaridade entre d e q

Varia entre 0 e 1

Independe do tamanho do vetor

Considera apenas sua direção

(16)

Cosseno Exemplo:

      n i i n i i n i i i d q d q sim 1 2 1 2 1 ) ( ) ( ) (

 

0.97

36 . 0 35 . 0 38 . 0 34 . 0 35 . 0 (0.2) (0.3) (0.5) (0.3) (0.3) (0.4) .2 0 0.3 .3 0 0.3 .5 0 0.4 2 2 2 2 2

2         

      sim Olimpíada Brasil Londres d 0.2 0.5 0.3 -q

Brasil Olimpíada Londres Consulta q :

Documento d :

Brasil em Londres 2012

O Brasil não foi bem no quadra das medalhas da Olimpíada de Londres 2012 ...

Brasil 0.4 Olimpíada 0.3 Londres 0.3

Brasil 0.5 Olimpíada 0.3 Londres 0.2

Representação de q

Representação de d

0.3 -d q d q d q d q

sim

      

 cos( , )

(17)

0.35 .2 0 0.3 .3 0 0.3 .5 0

0.4     

 d q 

Brasil 0.4 Olimpíada 0.3 Londres 0.3

Brasil 0.5 Olimpíada 0.3 Londres 0.2

Representação de q

Representação de d

Brasil Olimpíada Londres Norma q dj Cos

d 0,5 0,3 0,2 0,62 0,35 0,97

q 0,4 0,3 0,3 0,58

58 . 0 34 . 0 (0.3) (0.3)

(0.4)2  2  2  

q 97 . 0 36 . 0 35 . 0 58 . 0 62 . 0 35 . 0

cos  

     d q d q     62 . 0 38 . 0 (0.2) (0.3)

(0.5)2  2  2  

(18)

com pesos binários

t1 t2 t3 Norma q dj Cos

d1 1 0 1 1,41 2 0,82

d2 1 0 0 1,00 1 0,58

d3 0 1 1 1,41 2 0,82

d4 1 0 0 1,00 1 0,58

d5 1 1 1 1,73 3 1,00

d6 1 1 0 1,41 2 0,82

d7 0 1 0 1,00 1 0,58

q 1 1 1 1,73

Consulta q: t1 t2 t3

Modelo Booleano só permite retornar como resultado:

d5 (todos os termos); ou todos os documentos sem ordem (qualquer dos termos).

Resultado: d5, [d1, d3, d6], [d2, d4, d7]

d1 d2

d3 d4 d5

d6 d7

t1 t2

(19)

de ocorrência como peso das palavras

t1 t2 t3 Norma q dj Cos

d1 2 0 1 2,24 3 0,77

d2 1 0 0 1,00 1 0,58

d3 0 1 3 3,16 4 0,73

d4 2 0 0 2,00 2 0,58

d5 1 2 4 4,58 7 0,88

d6 1 2 0 2,24 3 0,77

d7 0 5 0 5,00 5 0,58

q 1 1 1 1,73

Consulta q: t1 t2 t3

Pesos calculados pelo próprio sistema de RI

(20)

Modelo Espaço Vetorial

Vantagens

 Permite casamento parcial dos documentos com a

consulta

 Ordena documentos de acordo com o grau de

similaridade com a consulta

 Consultas e documentos são representados de forma

homogênea pelo sistema

Desvantagens:

 Assim como o modelo booleano assume independência

entre os termos usados na indexação

 q1: professor ; q2: professores

 Resultados das consultas q1 e q2 são diferentes

(21)

Mecanismos de Busca na Web

Todos adotam uma variação do modelo espaço vetorial

Google

 https://www.google.com.br/about/company/history/  http://www.google.com/intl/pt-BR/insidesearch/

http://www.google.com/intl/pt-BR/insidesearch/howsearchworks/crawling-indexing.html

 http://

static.googleusercontent.com/media/www.google.com/pt-BR//intl/pt-BR/insidesearch/howsearchworks/assets/searchInfographic.pdf

Bing

(22)

Exercícios

1) Construa a lista de documentos retornados

utilizando o modelo espaço vetorial para o exemplo 2 para as consulta: t1 t2

(23)

Exercícios

3) Acesse o Google Acadêmico:

https://scholar.google.com.br/

 Recuperar documentos que possua o termo indexação

automática em algum dos campos descritivos dos artigos ou no

(24)

t1 t2 t3 Norma q dj Cos

d1 2 0 1 2,24 2 0,63

d2 1 0 0 1,00 1 0,71

d3 0 1 3 3,16 1 0,22

d4 2 0 0 2,00 2 0,71

d5 1 2 4 4,58 3 0,46

d6 1 2 0 2,24 3 0,95

d7 0 5 0 5,00 5 0,71

q 1 1 0 1,41

Pesos dos termos na consulta calculados pelo Sistema de RI

(25)

Resolução

2) Primeiro Passo – cálculo de TF

TF t1 t2 t3

d1 1,00 0,00 0,50

d2 1,00 0,00 0,00

d3 0,00 0,33 1,00

d4 1,00 0,00 0,00

d5 0,25 0,50 1,00

d6 0,50 1,00 0,00

d7 0,00 1,00 0,00

q 1,00 1,00 1,00

t1 t2 t3

d1 2 0 1

d2 1 0 0

d3 0 1 3

d4 2 0 0

d5 1 2 4

d6 1 2 0

d7 0 5 0

(26)

Resolução

2) Segundo Passo – Calculo de IDF

t1 t2 t3

d1 2 0 1

d2 1 0 0

d3 0 1 3

d4 2 0 0

d5 1 2 4

d6 1 2 0

d7 0 5 0

q 1 1 1

t1 t2 t3

(27)

Resolução

2) Terceiro Passo – Calculo do TFIDF

TFIDF t1 t2 t3

d1 0,15 0,00 0,18

d2 0,15 0,00 0,00

d3 0,00 0,08 0,37

d4 0,15 0,00 0,00

d5 0,04 0,12 0,37

d6 0,07 0,24 0,00

d7 0,00 0,24 0,00

q 0,15 0,24 0,37

TF t1 t2 t3

d1 1,00 0,00 0,50

d2 1,00 0,00 0,00

d3 0,00 0,33 1,00

d4 1,00 0,00 0,00

d5 0,25 0,50 1,00

d6 0,50 1,00 0,00

d7 0,00 1,00 0,00

q 1,00 1,00 1,00

t1 t2 t3

(28)

Resolução

2) Quarto Passo – Cálculo do Cosseno

Resultado: d5,d3,d1,d6,d7,[d2,d4]

TFIDF t1 t2 t3 Norma q dj Cos

d1 0,15 0,00 0,18 0,23 0,09 0,82

d2 0,15 0,00 0,00 0,15 0,02 0,31

d3 0,00 0,08 0,37 0,38 0,16 0,89

d4 0,15 0,00 0,00 0,15 0,02 0,31

d5 0,04 0,12 0,37 0,39 0,17 0,94

d6 0,07 0,24 0,00 0,25 0,07 0,59

d7 0,00 0,24 0,00 0,24 0,06 0,52

(29)

Resolução

3) Google Acadêmico:

(30)

Referências

FERNEDA, E. Introdução aos Modelos

Computacionais de Recuperação de

Informação. Rio de Janeiro: Editora Ciência Moderna

Referências

Documentos relacionados

[r]

Albuquerque / neilzacastro@gmail.com AGRO5016 Cultivo de Plantas Industriais I 45 h Gibran da Silva Alves / gibranalves@yahoo.com.br AGRI5008 Hidrologia Agrícola 60 h

Farmacêutica - SIGAF (Sistema responsável pela gestão de toda a cadeia de distribuição de medicamentos e de materiais da SES), o Warehouse Management System - WMS (Sistema de

Com intuito de localizar no forno micro-ondas o ponto de maior irradiação na sua concavidade para assim posteriormente alcançar um melhor rendimento no preparo da farinha

Tentou-se através do contato com algumas empresas brasileiras, representan­ tes ou compradoras potenciais de bordadeiras CNC, a obtenção da descrição do formato de

Na verdade, a assistência social passa a ser condição necessária para a eficácia das demais políticas de inclusão social, sejam aquelas oriundas da área da saúde,

 Gestores Especialistas: são aqueles que possuem R$1 bilhão ou mais em patrimônio líquido na amostra de fundos FGV/Exame, e têm fundos abertos à captação em pelo

Conforme dispõem as “Diretrizes Gerais dos Serviços da Rede de Enfrentamento à Violência contra as Mulheres” (BRASIL, 2011), os Centros de Atendimento à Mulher