• Nenhum resultado encontrado

Sistemas de RI (SRI)

N/A
N/A
Protected

Academic year: 2019

Share "Sistemas de RI (SRI)"

Copied!
24
0
0

Texto

(1)

1

Recuperação de Informação

Modelos de Recuperação de Documentos

Modelo Booleano

(2)

2 2

Sistemas de RI (SRI)

Um sistema de recuperação de informação

pode ser visto como

 a parte do sistema de informação responsável

pelo armazenamento ordenado dos documentos

em base de dados,

 e sua posterior recuperação

 para responder a consulta do usuário.

Todo SRI adota um

modelo computacional

de recuperação de informação

que

(3)

Como funciona os Sistemas de Recuperação de Informação?

Usuário

Necessidade de Informação

Função de busca

Documentos

Representação

Representação Consulta

Modelos de Recuperação de

Informação

Sistema de

Recuperação de Informação

Resultado

Armazenamento do Índice

(4)

Modelos de Recuperação de Informação

Os SRIs adotam modelos de recuperação de informação que definem principalmente:

 A representação dos documentos

 A visão lógica dos documentos, sua representação no sistema

 A representação das expressões de busca dos

usuários

 A visão lógica da expressão de busca ou consulta, sua representação no sistema

 A função de busca: como as duas representações

são comparadas, e como ordenar os documentos que casam (a lista de resultado).

(5)

Modelos de Recuperação de Informação

Existe uma distinção entre:

A

tarefa do usuário

Recuperação ou browsing

A

visão lógica dos documentos e

consulta

sua representação no sistema

Podem ser categorizados quanto aos

fundamentos teóricos/históricos dos

modelos de recuperação de

(6)

Tarefas e Modelos de

Recuperação de Informação

Listas não-sobrepostas Nós proximais Modelos Estruturados Recuperação: Adhoc Filtragem Browsing T A R E F A D O u S U Á R I O Modelos Clássicos Booleano Espaço vetorial Probabilista

Teoria dos conjuntos

Fuzzy

Booleano estendido

Probabilista

Redes de inferência Redes de crença Algebrico

(7)

Modelos Clássicos de Recuperação

de Documentos

Veremos os seguintes modelos:

Modelo Booleano

Modelo Espaço Vetorial

Modelo Probabilista

Para cada modelo, veremos:

A representação do

documento

A representação da

consulta

(8)

8

Exercícios

O que o modelo computacional de recuperação de informação define nos sistemas de recuperação de informação?

(9)

Modelo Booleano

Representação do documento

Dado o conjunto de termos representativos para o corpus em questão (Vocabulário do Sistema)

 V = {t1, t2,...,tn}

Os documentos são representados como conjunto de

termos de indexação atribuídos intelectualmente ou automaticamente. Os conjuntos são representados como vetores de pesos binários de tamanho n

 Cada posição no vetor corresponde a um termo usado

na indexação dos documentos da base

 Cada valor indica apenas se determinado termo está

(10)

Exemplo

Por exemplo: V={t1,t2,t3} d1 = {1 ,0 ,1}

 Ao documento d1 foram

atribuídos os termos de indexação

t1 e t3, e não foi atribuído o termo de indexação t2.

 O valor 1 representa VERDADEIRO, e 0

representa FALSO.

 Um método automático muito utilizado para

representar o conteúdo textual de documentos consiste em considerar cada palavra

(11)

Exemplo

Para um conjunto de 7 documentos, e um

vocabulário do sistema de 3 termos de indexação podemos ter os documentos representados através da seguinte matriz binária.

t1 t2 t3

d1 1 0 1

d2 1 0 0

d3 0 1 1

d4 0 0 1

d5 1 1 1

d6 1 1 0

(12)

12

Modelo Booleano

Representação da consulta

Consulta:

Expressão booleana: A consulta é expressa

utilizando termos de indexação conectados por

operadores lógicos booleanos: E; OU; NÃO.

 Termos ou palavras

 conectados por: AND, OR, NOT ou ANDNOT

 Parênteses podem ser utilizados para mudar a

precedência de resolução da consulta.

 A consulta expressa que se deseja um conjunto de

(13)
(14)

Exemplos

Documentos: 14 d1 d2 d3 d4 d5 d6 d7 t1 t2 t3

t1 t2 t3

d1 1 0 1

d2 1 0 0

d3 0 1 1

d4 0 0 1

d5 1 1 1

d6 1 1 0

d7 0 1 0

Consultas booleanas: t1 AND t2

t1 OR t2

(15)

Exemplo

d1 d2 d3 d4 d5 d6 d7 Brasil Olimpíada Londres

Brasil Olimpíada Londres Consulta q :

Documento d5 : Brasil em Londres 2012

O Brasil não foi bem no quadra das medalhas da Olimpíada de Londres 2012 ...

Brasil AND Olimpíada AND Londres

Brasil 1 Olimpíada 1 Londres 1

Representação de q

(16)

16

Função de busca

Relevância “binária”:

 O documento é considerado relevante se e somente

se seu “casamento” com a consulta é verdadeiro, isto é se o valor verdade da consulta se torna verdadeiro para aquele documento.

 Não é possível ordenar os documentos recuperados

Exemplo de consulta

Consulta:

t1 AND t2 AND t3

Documentos

apresentados ao usuário

t1 t2

t3

(17)

Diagrama de Venn

Documentos

d1 d2 d3 d4 d5 d6 d7 t1 t2 t3

t1 t2 t3

d1 1 0 1

d2 1 0 0

d3 0 1 1

d4 0 0 1

d5 1 1 1

d6 1 1 0

d7 0 1 0

Aplicação da função de busca booleana: t1 AND t2 -> R: [d5, d6]

t1 OR t2 -> R: [d1, d2, d3, d5, d6, d7] t1 AND NOT t2 -> R: [d1, d2]

* Observação: Resultados (R) em qualquer ordem.

Consultas booleanas: t1 AND t2

t1 OR

(18)

Tabela Verdade

18

t1 t2 t3 t1 AND t2 t1 OR t2 NOT t2 t1 AND NOT t2

d1 1 0 1 0 1 1 1

d2 1 0 0 0 1 1 1

d3 0 1 1 0 1 0 0

d4 0 0 1 0 0 1 0

d5 1 1 1 1 1 0 0

d6 1 1 0 1 1 0 0

d7 0 1 0 0 1 0 0

Exemplos de aplicação da função de busca booleana: t1 AND t2 -> R: [d5, d6]

t1 OR t2 -> R: [d1, d2, d3, d5, d6, d7] t1 AND NOT t2 -> R: [d1, d2]

(19)

Modelo Booleano

Operadores de proximidade

Úteis para predizer a adjacência de palavras

ou frases que podem aparecer no texto dos

documentos relevantes. Podem especificar

condições relacionadas a:

Distância dos termos no texto

 t1 NEAR/3 t2 (o termo t1 aparece com no máximo 3 palavras de distância que t2, não importando a ordem)

 t1 ADJ/5 t2 (o termo t1 seguido de t2 separados por no máximo 5 palavras)

Posição dos termos no texto

 t1 WITH t2 (mesmo parágrafo)

 t1 SAME t2 (mesma sentença)

(20)

20

Modelo Booleano

Vantagens

 Modelo simples baseado em teoria bem

fundamentada

 Fácil de entender e implementar em computador

Desvantagens

 Não permite casamento parcial entre consulta e

documento

 Não permite ordenação dos documentos recuperados

 A necessidade de informação do usuário deve ser

expressa em termos de uma expressão booleana

 Nem todo usuário é capaz disso

 Todos os termos de indexação são independentes e

(21)

Exercícios

1) Para o exemplo, utilizando o modelo booleano,

qual o resultado das buscas:

a) t2 AND t3

b) t2 OR t3

C) t2 AND NOT t3

2) Escreva em português o tipo de documento

retornado pelas expressões de busca abaixo:

a) documento OR informação

b) recuperação AND (documento OR informação)

c) recuperação AND informação AND web

(22)

Exercícios

3) Acesse Scielo:

http://www.scielo.br/scielo.php?script=sci_home&lng=pt&nrm=iso

 Acesse Pesquisa de artigos

 Recuperar documentos que possua o termo indexação automática em algum dos campos descritivos dos artigos.

(23)
(24)

Referências

Slides do Prof. Berthier Ribeiro Neto

FERNEDA, E.

Introdução aos Modelos

Computacionais de Recuperação de

Informação

. Rio de Janeiro: Editora Ciência

Moderna

Ltda. 2012.

Referências

Documentos relacionados

Os Upanixadse fazem parte dos livros sagrados da sabedoria védica, eles datam de VIII- IV a.C. 63 Neles encontra-se a doutrina de que por trás dos acontecimentos da vida, conforme a

Carga horária estudo: 4h Carga horária prática: 2h Carga horária teórica: 4h Carga Horária Total: 120h Duração: 12 semana(s) Objetivos.. Introduzir o estudo qualitativo das

Jung refere-se ao trabalho tanto como Liber Novus quanto como O Livro Vermelho, como ficou mais universalmente conhecido.. Como há indicações de que o primeiro é o título

Inicialmente ocorrerá a abertura dos envelopes com os documentos de HABILITAÇÃO (envelope “A”), bem assim será processado o julgamento e divulgação do resultado

Porém, no D3, D4 e D5 houve diminuição significativa de CK plasmática, incluindo o retorno aos níveis iniciais (pré-treino), enquanto no grupo placebo não foi

A ira é uma das emoções que que frequentemente experimentamos, e que consiste numa “raiva violenta onde quase sempre se perde o domínio sobre si mesmo e se cometem agressões

Quadro 1: Sugestões para redação em trabalhos científicos ... 79 Quadro 3: Demonstração das notas médias dos alunos do curso

Neste modelo considerou-se variá- vel independente a constante dielétrica do solo e, como de- pendente, o conteúdo de água no solo, enquanto para o cál- culo da constante dielétrica