• Nenhum resultado encontrado

slides01-RI-Introducao

N/A
N/A
Protected

Academic year: 2021

Share "slides01-RI-Introducao"

Copied!
42
0
0

Texto

(1)

Introdução à

Recuperação da

Informação (RI)

Recuperação da Informação

(2)

Roteiro

 Problemas\Contexto\Motivação  Definição

 Sistema de Recuperação de Informação (SRI)  Exemplos de SRI

 Avaliação de SRI

(3)

Problemas\Contexto

Problema de RI:

Necessidade de condensar e organizar a

informação de acordo com necessidades

e objetivos para recuperação posterior.(OTLET, 1934)

“A tarefa massiva de tornar mais

acessível, um acervo crescente de

conhecimento“. (VANNEVAR BUSH, 1945)

(4)

Problemas\Contexto

Problemas na RI:

Explosão informacional – acervo

crescente de documentos informativos.

Sobrecarga de informação – muitos

documentos retornados como resultado de uma busca.

(5)

Contexto\Motivação

Motivações:

Importância estratégica da informação e

do conhecimento

Informação como recurso estratégico

para profissionais, empresas, governos, sociedades, etc.

(6)

Contexto\Motivação

Motivações:

Documentos digitais de conteúdo processável por

computador (desde 1980)

Web como repositório mundial de informação digital

(desde 1990)

(7)

Exercícios

 Descreva o problema de pesquisa da área de

recuperação de informação.

 Cite dois problemas presentes no processo de

recuperação de informação.

 Cite motivos para pesquisar o processo de

recuperação de informação.

(8)

8

RI vs CI

“Certamente, a recuperação da informação não foi a única

responsável pelo desenvolvimento da CI [Ciência da Informação],

mas pode ser considerada como principal; ao longo do tempo, a CI ultrapassou a recuperação da informação, mas os problemas

principais tiveram sua origem aí e ainda constituem seu núcleo.”

(9)

Definição de Informação

Buckland(1991) define informação “como coisa” como: aquilo que é visto como informativo, pontencial para o processo de informar, expresso, descrito ou representado em algum modo físico.

 Físico não é mais aplicável atualmente, mas sim

modo lógico (manipulável e legível por

computador), dada a natureza lógica, abstrata e

numérica da informação digital.

Este é o sentido de informação que os Sistemas de Recuperação de

Informação (SRI) podem lidar diretamente.

(10)

10

Definição de RI

 Calvin MOOERS (1951) cunhou a área de pesquisa (ou disciplina) denominada recuperação de informação (do inglês information

retrieval), destacando que ela:

"engloba os aspectos intelectuais da descrição

de informações e suas especificidades para a busca, além de quaisquer sistemas, técnicas ou máquinas empregados para o desempenho da

(11)

Definição de RI

Recuperação de Informação é uma área de pesquisa

e desenvolvimento que

 investiga métodos e técnicas

 para a representação, a organização, o

armazenamento, a busca e a recuperação de itens de informação

Com objetivo principal de

 facilitar o acesso a documentos (itens de

informação) relevantes à necessidade de informação

do usuário

 Geralmente representada através de expressões de busca (consultas baseadas em

palavras-chaves)

(12)

12

Processo de RI

O processo de recuperação de informação

é uma tarefa típica onde:

 Dados

 Um corpus de documentos e

 Uma expressão de busca do usuário

 O objetivo é encontrar (através de um SRI)

 Um conjunto (ordenado) de documentos que são relevantes para a consulta

(13)

13

Processso de RI:

Elementos de um Sistemas de RI Sistema de RI Expressão de busca Corpus de documentos Documentos relevantes Resultado da Busca 1. Doc1 2. Doc2 3. Doc3 ... Usuário 1° 2° 4° 3º

(14)

Sistemas de RI

 Um sistema de recuperação de informação (SRI) pode ser visto

como

 a parte do sistema de informação responsável pelo

armazenamento ordenado dos documentos em base de dados,

 e sua posterior recuperação

 para responder a expressão de busca usuário.  Etapas principais na construção do SRI:

Aquisição (seleção) dos documentosConstrução de índice para busca

 Preparação dos documentos

 Indexação dos documentos  Armazenamento do índice

Recuperação

 Busca (casamento com a representação da expressão de busca do

usuário)

Ordenamento dos documentos recuperados (do inglês ranking)

(15)

A tarefa do usuário

 Diante do SRI o usuário pode realizar duas tarefas visando especificar uma expressão de busca:

Busca ou Recuperação (do inglês Retrieval)Navegação (do inglês Browsing)

 Dependendo da tarefa a ser realizada pelo usuário, um modelo

computacional de recuperação de informação deve ser empregado na construção do SRI.

(16)
(17)

Navegação

Embrapa - Infoteca

(18)
(19)

Exercícios

 Defina a área de pesquisa recuperação de

informação.

 Defina o processo de recuperação de informação.  Defina o que é um sistema de recuperação de

informação.

 Buscando caracterizar o google como um sistema de

recuperação de informação, especifique: a) corpus; b) usuários; c) expressão de busca d) resultado da busca.

(20)

20

Como funcionam os Sistemas de Recuperação de Informação? Usuário Necessidade de Informação Função de busca Documentos Representação Representação Consulta

Modelos de Recuperação de

Informação

Sistema de Recuperação de Informação Resultado Armazenamento do Índice Casamento, Ordenação

(21)

Modelos de Recuperação de Informação

 Os SRIs adotam modelos de recuperação de informação

que definem principalmente:

A representação dos documentos

 A visão lógica dos documentos, sua representação no

sistema

A representação das expressões de busca dos usuários  A visão lógica da expressão de busca ou consulta, sua

representação no sistema

A função de busca: como as duas representações são

comparadas, e como ordenar os documentos que casam (a lista de resultado).

 Além do modo de operação os modelos definem a

(22)

Exercícios

 Quais as tarefas típicas que o usuário pode realizar

através da interface de um sistema de recuperação de informação na especificação de uma expressão de busca?

 O que o modelo computacional de recuperação de

informação define nos sistemas de recuperação de informação?

(23)

Exemplos de Sistemas de Recuperação de

Informação

 Catálogo em linha de acesso público

 Mecanismos de busca

 Serviços de busca em linha

 Sistemas de gerenciamento de documentos

 Sistemas de Filtragem de Informação  Sistemas de Comércio Eletrônico

 Sistemas de fluxo de vídeo/áudio

(24)

Catálogo em linha de acesso público

(OPAC)

 Sistemas que recuperam informação em bases de dados catalográficos de bibliotecas.

(25)

25

Mecanismos de Busca

Web Consulta Resposta Base de Índices Engenho de Busca Usuário Spider Indexador

Representação dos Docs Servidor de Consultas Aquisição Pré-Processador Docs Recuperador Ordenador 2 1 3 4 Motor de Indexação Browser

(26)

Serviços de busca em linha

 Sistemas que recuperam informação em bases de dados bibliográficos ou de texto completo.

(27)

Sistemas de gerenciamento de

documentos

 Sistemas que gerenciam a publicação, o versionamento e

recuperam informação em um corpus de documentos digitais.  Exemplos:

 Softwares Proprietários da IBM (FileNet), Xerox(DocuShare), Microsoft (SharePoint) e Oracle.

 Softwares Livres  Alfresco  KnowledgeTree  Main//Pyrus DMS  Nuxeo  OpenKM  Archivista

(28)

Sistemas de Filtragem de Informação

 Sistemas que filtram a informação recuperada de acordo com o interesse do usuário Servidor News Artigos Indexados Usuário Perfil do usuário Engenho de Busca Internet

(29)

Sistemas de Extração de Informação

 Sistemas capazes de extrair de documentos relevantes apenas a

informação requerida

 A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs. 29 Sistema de EI BD Nome: End.: Fone: Fax: Preços: Template Página de Hotel

(30)

Exercício

 Escolha um SRI de uma base de dados científica e

descreva: A. URL B. corpus C. Usuários D. Expressão de busca E. Resultado da busca 30

(31)

31

Avaliação de SRI

Para que avaliar?

Qual o melhor modelo de RI?

Qual a melhor escolha para:

Seleção de termos (stopword, stemming…) Definição de pesos (TF, TF-IDF,…)

Função de busca (co-seno, correlação, Jaccard…)

Quantos itens da lista de resultados o usuário

deverá consultar para ainda encontrar algum

documento relevante?

(32)

32

Como avaliar?

Todo software pode ser avaliado quanto a

corretude ou eficácia através da comparação

da saída do programa com a saída esperada

para valores de entrada predeterminados.

SRI

Entrada de dados Saída de dados

• Corpus • Consulta • Lista de documentos recuperados • Lista de documentos relevantes Julgamentos de Relevância Por Especialistas

(33)

33

Metodologia de Avaliação de

Sistemas de RI

1. Selecione com um corpus de

documentos chamado também de coleção de referência

2. Defina um conjunto de consultas para

esse corpus

3. Use um ou mais especialistas

humanos para exaustivamente

categorizar (etiquetar, marcar) os documentos relevantes para cada consulta

 Geralmente assume relevância binária

(34)

34

Metodologia de Avaliação de

Sistemas de RI

(35)

Metodologia de Avaliação

Vantagens:

 Pode ser adotada para avaliar qualquer SRI

Desvantagens:

 Não leva em conta ordenação dos documentos na

lista de documentos retornados

 Depende do julgamento de relevância dos

documentos da coleção em relação a cada expressão de busca.

 Processo lento, caro e subjetivo.

(36)

36

Precisão

 Habilidade de recuperar somente itens relevantes

(unicidade)

Revocação ou Cobertura

 Habilidade de recuperar todos os itens relevantes

(completude)

Medidas de Avaliação de

Sistemas de RI

(37)

37 relevantes documentos de total Número s recuperado relevantes documentos de Número Revocação  s recuperado documentos de total Número s recuperado relevantes documentos de Número Precisão  Documentos relevantes Documentos recuperados Coleção de documentos Não recuperados e relevantes Não recuperados e irrelevantes recuperados e relevantes recuperados e irrelevantes Relevantes Irrelevantes Não recuperados Recuperados

Medidas de Avaliação

(38)

38

Conflito entre Revocação e Precisão

1 0 1 Revocação Precis ão Ideal Retorna documentos relevantes

mas esquece muitos outros relevantes

Retorna todos os

documentos relevantes mas inclui muitos não relevantes

(39)

Conflito entre Revocação e

precisão

A exaustividade e a especificidade

na indexação são os dois fatores

mais importantes que governam a

Revocação e a precisão;

 A exaustividade aumenta a Revocação

e diminui a precisão, enquanto que

uma maior especificidade leva à menor Revocação e maior precisão;

Em síntese, o desempenho de um

sistema de recuperação de

informação é avaliado

principalmente pelas medidas de

(40)

Exercício: busca por carta

antiga

 Calcule Precisão e Revocação

40

Retornado

(41)

41

Combinando Precisão e Revocação

F-Measure

Medida de desempenho que considera tanto

a Revocação como precisão

Média harmônica da Revocação (Cobertura)

e Precisão:

Vantagem de usar a média harmônica em

relação à média aritmética:

 Ambas as medidas precisam ser altas para a

média harmônica ser alta

P C

C

P

PC

F

2

1

2

1

(42)

Referências

FERNEDA, E. Introdução aos Modelos

Computacionais de Recuperação de Informação. Rio de Janeiro: Editora

Ciência Moderna Ltda. 2012.

 BAEZA-YATES, R.; RIBEIRO-NETO, B.

Recuperação de informação: conceitos e

tecnologia das máquinas de busca. 2. ed. Porto Alegre: Bookman, 2013

 SARACEVIC, T. Ciência da informação:

origem, evolução e relações. Perspec. Ci.

Inf., Belo Horizonte, v. 1, n. 1, p. 41-62,

jan./jun. 1996

Referências

Documentos relacionados

Art.º 195 – Nas épocas determinadas para a distribuição do fardamento às praças o Comandante do Corpo exigirá dos comandantes das companhias os pedidos que serão

A presente investigação teve como objetivo geral o estudo dos fatores de risco e de proteção internos e externos utilizados perante a violência social, nomeadamente o bullying

Movimentos Políticos Pan-Europeus: os movimentos escolhem também os candidatos principais para mobilizar o eleitorado e organizam a estratégia de campanha em diferentes níveis:

[r]

OCEANO ATLÂNTICO OCEANO PACÍFICO PARANÁ PARÁ ACRE AMAPÁ MARANHÃO TOCANTINS DF GOIÁS MINAS GERAIS PAULO SÃO RIO GRANDE DO SUL BAHIA CEARÁ PIAUÍ PARAÍBA ALAGOAS SERGIPE

O rito fotográfico é uma fábrica. Rennó re- volve, estrangula as imagens, até que delas se possam guardar somente impressões; são iden- tidades perdidas, memórias que se

Figura A.164 – Custos de Exploração por metro cúbico de água faturada em função do número médio de trabalhadores para EG de gestão direta por grau de fiabilidade dos dados.

Conforme Muller (2000), a necessidade de maior agilidade na difusão do conhecimento fez com que o periódico viesse à tona. Os periódicos vêm ganhando cada vez mais espaço