GSI024 - Organização e Recuperação da

(1)

GSI024 - Organiza¸

c˜

ao e Recupera¸

c˜

ao da

Informa¸

c˜

ao

Ilm´erio Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI

Arquivo 5 - Peso de termos

(2)

5-Peso de termos

• Busca paramétrica usando atributos • Regiões em documentos e indexa¸cão • Peso de termos

(3)

Busca param´etrica

Combina busca textual com Metadados

• Language = French • Format = pdf

• Subject = Physics etc. • Date = Feb 2000

(4)

Busca param´etrica - Exemplo

(5)

Busca param´etrica - Exemplo (com busca textual)

(6)

Busca param´etrica/textual

• Sele¸c˜ao de atributos

• Filtros para definir documentos alvo • Busca textual na cole¸c˜ao resultante

(7)

´Indices em busca param´etrica/textual

• Linguagem de consulta modificada

• Exemplo: Encontre documentos em pdf com a frase “Faculdade de computa¸c˜ao da UFU”

• Sele¸cão de campos: listas invertidas por nome do atributo, incluindo técnicas de compressão

• Consultas do tipo wildcard: autor contˆem s*trup

• Consultas por intervalo: data entre setembro e dezembro

• T´ecnicas de indexa¸c˜ao de BD em geral funcionam melhor, por exemplo, ´ Arvore-B+ (veja www.bluerwhite.org/btree/)

(8)

Busca por atributos (Proje¸c˜ao)

• Exemplo: ISBN dos livros cujo autor contˆem s*trup

• Sele¸cão de documentos baseado em processamento de consulas wildcar • Índexa¸cão direta (não invertida) de documentos

(9)

Regi˜oes

• S˜ao partes do documento que contˆem textos livres • Exemplo: t´ıtulo, resumo, bibliografia

• Indexa¸c˜ao por regi˜ao permite consultas do tipo:

sorting in Title AND smith in Bibliography AND recur* in Body

(10)

Exemplo de ´ındice incluindo regi˜oes no vocabul´ario

(11)

Exemplo de ´ındice incluindo regi˜oes na lista invertida

(12)

Temos agora um banco de dados?

• n˜ao temos transa¸c˜oes

• n˜ao temos protocolos de recupera¸c˜ao • em geral, armazenamos somente ´ındices

• nosso foco ´e consultas orientadas a texto, n˜ao SQL

(13)

Al´em de consultas booleanas

• com consultas booleanas a resposta ´e um conjunto de documentos que atendem `

a consulta

• bom em ambiente de BD onde o usu´ario conhece o conjunto de dados e sabe o que quer

• dif´ıcil para maioria dos usu´arios

(14)

Al´em de consultas booleanas Objetivo

• retornar documentos que atendam às necessidades de informa¸cão do usuário • como organizar os documentos em um ranking com rela¸cão à uma consulta • atribuir um score (similaridade) para cada documento

• em geral ´e um casamento de palavras documento/consulta

• um adversário na web são palavras inseridas para driblar as máquinas de busca

(15)

Score baseado em pesos na consulta

Score = 0.6 × < sorting in T itle >

+ 0.3 × < sorting in Abstract > + 0.05 × < sorting in Body >

+ 0.05 × < sorting in Boldf ace >

Neste caso, quais as possibilidades de Score?

Um problema com essa abordagem ´e como estabelecer pesos na consulta.

(16)

Consultas textuais

• Como interpretar a consulta “bill of rights” • Não há conectivos lógicos

• Alguns documentos relevantes podem n˜ao conter alguns termos da consulta

(17)

Casamento documento x consulta

• Um documento pode ser representado como um conjunto de termos

• A consulta tamb´em pode ser representada como um conjunto de termos • score = |documentoT consulta|

(18)

Casamento documento x consulta Problemas

• não considera freqüencia de termos nos documentos • não considera freqüencia de termos na cole¸cão

• n˜ao considera tamanho do documento

(19)

(20)

Casamento documento x consulta Pr´oximos passos

• Até aqui: posi¸cão e sobreposi¸cão de termos

• Pr´oximo: medir o quanto um documento fala sobre o assunto da consulta • Se possui grande quantidade de termos da consulta deve ser relevante.

(21)

Documento como vetor de termos Espa¸co NM

(22)

Documento como conjunto (ou vetor) de termos Problemas

• Documento 1: John is quicker than Mary • Documento 2: Mary is quicker than John • Vocabul´ario: is john mary quicker than • ~d1 = ~d2 = 11111

• Como diferenciar?

(23)

Problema com freq¨uencia de termos

• Seja a consulta: ides of march

– ides ocorre somente na pe¸ca Julius Caesar, 5 ocorrˆencias – march ocorre em v´arias

– of ocorre em todas

• Usando somente freqüencia (número de ocorrências), a que tiver mais ofs provavelmente ocupará o topo do ranking

(24)

Freq¨uencia do termo (tf)

• documentos grandes s˜ao favorecidos • podemos normalizar os documentos

• alternativas usadas para peso baseado em tf – contagem direta: wft,d = tft,d – ou wft,d = 0 se tf = 0 0.1 + log tft,d cc GSI024-ORI Pg:5. 24

(25)

Casamento consulta/documento baseado em tf

• Score baseado em soma sobre termos da consulta score = X

∀t∈q

tft,q

• pode ser combinado com regi˜oes

• pode-se usar wf_t,d em substitui¸c˜ao a tf

• mas ainda não considera freqüencia do termo na cole¸cão

• um termo raro deve ser mais discriminante que um termo comum? • no exemplo, ides ´e raro e of comun.

(26)

Peso do termo deve considerar caracter´ısticas gen´ericas

• Qual termo abaixo diz mais sobre o assunto de um documento? – 10 ocorrˆencias de hernia

– 10 ocorrˆencias de the

• Como atenuar o peso de termos muito comuns? • o que ´e um termo comum?

• observar a ocorrˆencia do termo na cole¸c˜ao

(27)

Freq¨uencia de documentos

• seja df o número de documentos da cole¸cão que contêm o termo • é diferente da freqüencia do termo na cole¸cão (cf )

• Exemplo Termo cf df ferrari 10422 17 insurance 10440 3997 • como usar df? GSI024-ORI Pg:5. 27

(28)

Inverso da freq¨uencia de documentos idf

• o idf ´e uma medida inversa da freq¨uencia de documentos

• o idf mede a quantidade de informa¸c˜ao de um termo em uma cole¸c˜ao

• a motiva¸cão é: quanto mais raro for o termo maior é sua importância em caracterizar um documento

• poderia ser idf_t = _df1

t, mas a vers˜ao mais utilizada ´e idft = log

N

df_t, onde N ´e

o número de documentos da cole¸cão e ddft é o número de documentos onte o

termo ocorre.

• justificativa te´orica baseada no conceito de entropia, conforme Kishore Papineni, 2001.

(29)

Pesagem tf × idf (ou tfidf)

• Peso do i-ésimo termo (k_i) no j-ésimo documento (dj) é:

wi,j = tfi,j × log

N dfi

onde,

– tfi,j : freq¨uencia do termo ki no documento dj

– N : total de documentos na cole¸c˜ao

– dfi : total de documentos que contˆem o termo ki

• aumenta com o n´umero de ocorrˆencias do termo no documento • aumenta com a raridade do termo entre os documentos

• Qual o peso de um termo que ocorre em todos os documentos?

(30)

Matriz de pesos baseada em tf.idf

(31)

Documento como vetor de termos

• cada documento pode ser visto como um vetor de termos (coluna na matriz) • cada termo ´e um eixo no espa¸co vetorial

• documentos s˜ao vetores nesse espa¸co

• o espa¸co tem milhares de eixos (dimens˜oes)

• a matriz nos dá também a op¸cão de vetores de termos em um espa¸co de documentos

(32)

Resumo

• Busca parametrizada • Score por regi˜oes • Peso de termos • tf.idf

• Documentos como vetores em um espa¸co vetorial de termos