1
Recuperação de Informação
Modelos de Recuperação de Documentos
Modelo Booleano
2 2
Sistemas de RI (SRI)
Um sistema de recuperação de informação
pode ser visto como
a parte do sistema de informação responsável
pelo armazenamento ordenado dos documentos
em base de dados,
e sua posterior recuperação
para responder a consulta do usuário.
Todo SRI adota um
modelo computacional
de recuperação de informação
que
Como funciona os Sistemas de Recuperação de Informação?
Usuário
Necessidade de Informação
Função de busca
Documentos
Representação
Representação Consulta
Modelos de Recuperação de
Informação
Sistema de
Recuperação de Informação
Resultado
Armazenamento do Índice
Modelos de Recuperação de Informação
Os SRIs adotam modelos de recuperação de informação que definem principalmente:
A representação dos documentos
A visão lógica dos documentos, sua representação no sistema
A representação das expressões de busca dos
usuários
A visão lógica da expressão de busca ou consulta, sua representação no sistema
A função de busca: como as duas representações
são comparadas, e como ordenar os documentos que casam (a lista de resultado).
Modelos de Recuperação de Informação
Existe uma distinção entre:
A
tarefa do usuário
Recuperação ou browsing
A
visão lógica dos documentos e
consulta
sua representação no sistema
Podem ser categorizados quanto aos
fundamentos teóricos/históricos dos
modelos de recuperação de
Tarefas e Modelos de
Recuperação de Informação
Listas não-sobrepostas Nós proximais Modelos Estruturados Recuperação: Adhoc Filtragem Browsing T A R E F A D O u S U Á R I O Modelos Clássicos Booleano Espaço vetorial Probabilista
Teoria dos conjuntos
Fuzzy
Booleano estendido
Probabilista
Redes de inferência Redes de crença Algebrico
Modelos Clássicos de Recuperação
de Documentos
Veremos os seguintes modelos:
Modelo Booleano
Modelo Espaço Vetorial
Modelo Probabilista
Para cada modelo, veremos:
A representação do
documento
A representação da
consulta
8
Exercícios
O que o modelo computacional de recuperação de informação define nos sistemas de recuperação de informação?
Modelo Booleano
Representação do documento
Dado o conjunto de termos representativos para o corpus em questão (Vocabulário do Sistema)
V = {t1, t2,...,tn}
Os documentos são representados como conjunto de
termos de indexação atribuídos intelectualmente ou automaticamente. Os conjuntos são representados como vetores de pesos binários de tamanho n
Cada posição no vetor corresponde a um termo usado
na indexação dos documentos da base
Cada valor indica apenas se determinado termo está
Exemplo
Por exemplo: V={t1,t2,t3} d1 = {1 ,0 ,1}
Ao documento d1 foram
atribuídos os termos de indexação
t1 e t3, e não foi atribuído o termo de indexação t2.
O valor 1 representa VERDADEIRO, e 0
representa FALSO.
Um método automático muito utilizado para
representar o conteúdo textual de documentos consiste em considerar cada palavra
Exemplo
Para um conjunto de 7 documentos, e um
vocabulário do sistema de 3 termos de indexação podemos ter os documentos representados através da seguinte matriz binária.
t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 0 0 1
d5 1 1 1
d6 1 1 0
12
Modelo Booleano
Representação da consulta
Consulta:
Expressão booleana: A consulta é expressa
utilizando termos de indexação conectados por
operadores lógicos booleanos: E; OU; NÃO.
Termos ou palavras
conectados por: AND, OR, NOT ou ANDNOT
Parênteses podem ser utilizados para mudar a
precedência de resolução da consulta.
A consulta expressa que se deseja um conjunto de
Exemplos
Documentos: 14 d1 d2 d3 d4 d5 d6 d7 t1 t2 t3t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 0 0 1
d5 1 1 1
d6 1 1 0
d7 0 1 0
Consultas booleanas: t1 AND t2
t1 OR t2
Exemplo
d1 d2 d3 d4 d5 d6 d7 Brasil Olimpíada LondresBrasil Olimpíada Londres Consulta q :
Documento d5 : Brasil em Londres 2012
O Brasil não foi bem no quadra das medalhas da Olimpíada de Londres 2012 ...
Brasil AND Olimpíada AND Londres
Brasil 1 Olimpíada 1 Londres 1
Representação de q
16
Função de busca
Relevância “binária”:
O documento é considerado relevante se e somente
se seu “casamento” com a consulta é verdadeiro, isto é se o valor verdade da consulta se torna verdadeiro para aquele documento.
Não é possível ordenar os documentos recuperados
Exemplo de consulta
Consulta:
t1 AND t2 AND t3
Documentos
apresentados ao usuário
t1 t2
t3
Diagrama de Venn
Documentos
d1 d2 d3 d4 d5 d6 d7 t1 t2 t3t1 t2 t3
d1 1 0 1
d2 1 0 0
d3 0 1 1
d4 0 0 1
d5 1 1 1
d6 1 1 0
d7 0 1 0
Aplicação da função de busca booleana: t1 AND t2 -> R: [d5, d6]
t1 OR t2 -> R: [d1, d2, d3, d5, d6, d7] t1 AND NOT t2 -> R: [d1, d2]
* Observação: Resultados (R) em qualquer ordem.
Consultas booleanas: t1 AND t2
t1 OR
Tabela Verdade
18
t1 t2 t3 t1 AND t2 t1 OR t2 NOT t2 t1 AND NOT t2
d1 1 0 1 0 1 1 1
d2 1 0 0 0 1 1 1
d3 0 1 1 0 1 0 0
d4 0 0 1 0 0 1 0
d5 1 1 1 1 1 0 0
d6 1 1 0 1 1 0 0
d7 0 1 0 0 1 0 0
Exemplos de aplicação da função de busca booleana: t1 AND t2 -> R: [d5, d6]
t1 OR t2 -> R: [d1, d2, d3, d5, d6, d7] t1 AND NOT t2 -> R: [d1, d2]
Modelo Booleano
Operadores de proximidade
Úteis para predizer a adjacência de palavras
ou frases que podem aparecer no texto dos
documentos relevantes. Podem especificar
condições relacionadas a:
Distância dos termos no texto
t1 NEAR/3 t2 (o termo t1 aparece com no máximo 3 palavras de distância que t2, não importando a ordem)
t1 ADJ/5 t2 (o termo t1 seguido de t2 separados por no máximo 5 palavras)
Posição dos termos no texto
t1 WITH t2 (mesmo parágrafo)
t1 SAME t2 (mesma sentença)
20
Modelo Booleano
Vantagens
Modelo simples baseado em teoria bem
fundamentada
Fácil de entender e implementar em computador
Desvantagens
Não permite casamento parcial entre consulta e
documento
Não permite ordenação dos documentos recuperados
A necessidade de informação do usuário deve ser
expressa em termos de uma expressão booleana
Nem todo usuário é capaz disso
Todos os termos de indexação são independentes e
Exercícios
1) Para o exemplo, utilizando o modelo booleano,
qual o resultado das buscas:
a) t2 AND t3
b) t2 OR t3
C) t2 AND NOT t3
2) Escreva em português o tipo de documento
retornado pelas expressões de busca abaixo:
a) documento OR informação
b) recuperação AND (documento OR informação)
c) recuperação AND informação AND web
Exercícios
3) Acesse Scielo:
http://www.scielo.br/scielo.php?script=sci_home&lng=pt&nrm=iso
Acesse Pesquisa de artigos
Recuperar documentos que possua o termo indexação automática em algum dos campos descritivos dos artigos.