Introdução à
Recuperação da
Informação (RI)
Recuperação da Informação
Roteiro
Problemas\Contexto\Motivação Definição
Sistema de Recuperação de Informação (SRI) Exemplos de SRI
Avaliação de SRI
Problemas\Contexto
Problema de RI:
Necessidade de condensar e organizar a
informação de acordo com necessidades
e objetivos para recuperação posterior.(OTLET, 1934)
“A tarefa massiva de tornar mais
acessível, um acervo crescente de
conhecimento“. (VANNEVAR BUSH, 1945)
Problemas\Contexto
Problemas na RI:
Explosão informacional – acervo
crescente de documentos informativos.
Sobrecarga de informação – muitos
documentos retornados como resultado de uma busca.
Contexto\Motivação
Motivações:
Importância estratégica da informação e
do conhecimento
Informação como recurso estratégico
para profissionais, empresas, governos, sociedades, etc.
Contexto\Motivação
Motivações:
Documentos digitais de conteúdo processável por
computador (desde 1980)
Web como repositório mundial de informação digital
(desde 1990)
Exercícios
Descreva o problema de pesquisa da área de
recuperação de informação.
Cite dois problemas presentes no processo de
recuperação de informação.
Cite motivos para pesquisar o processo de
recuperação de informação.
8
RI vs CI
“Certamente, a recuperação da informação não foi a única
responsável pelo desenvolvimento da CI [Ciência da Informação],
mas pode ser considerada como principal; ao longo do tempo, a CI ultrapassou a recuperação da informação, mas os problemas
principais tiveram sua origem aí e ainda constituem seu núcleo.”
Definição de Informação
Buckland(1991) define informação “como coisa” como: aquilo que é visto como informativo, pontencial para o processo de informar, expresso, descrito ou representado em algum modo físico.
Físico não é mais aplicável atualmente, mas sim
modo lógico (manipulável e legível por
computador), dada a natureza lógica, abstrata e
numérica da informação digital.
Este é o sentido de informação que os Sistemas de Recuperação de
Informação (SRI) podem lidar diretamente.
10
Definição de RI
Calvin MOOERS (1951) cunhou a área de pesquisa (ou disciplina) denominada recuperação de informação (do inglês information
retrieval), destacando que ela:
"engloba os aspectos intelectuais da descrição
de informações e suas especificidades para a busca, além de quaisquer sistemas, técnicas ou máquinas empregados para o desempenho da
Definição de RI
Recuperação de Informação é uma área de pesquisa
e desenvolvimento que
investiga métodos e técnicas
para a representação, a organização, o
armazenamento, a busca e a recuperação de itens de informação
Com objetivo principal de
facilitar o acesso a documentos (itens de
informação) relevantes à necessidade de informação
do usuário
Geralmente representada através de expressões de busca (consultas baseadas em
palavras-chaves)
12
Processo de RI
O processo de recuperação de informação
é uma tarefa típica onde:
Dados
Um corpus de documentos e
Uma expressão de busca do usuário
O objetivo é encontrar (através de um SRI)
Um conjunto (ordenado) de documentos que são relevantes para a consulta
13
Processso de RI:
Elementos de um Sistemas de RI Sistema de RI Expressão de busca Corpus de documentos Documentos relevantes Resultado da Busca 1. Doc1 2. Doc2 3. Doc3 ... Usuário 1° 2° 4° 3ºSistemas de RI
Um sistema de recuperação de informação (SRI) pode ser visto
como
a parte do sistema de informação responsável pelo
armazenamento ordenado dos documentos em base de dados,
e sua posterior recuperação
para responder a expressão de busca usuário. Etapas principais na construção do SRI:
Aquisição (seleção) dos documentos Construção de índice para busca
Preparação dos documentos
Indexação dos documentos Armazenamento do índice
Recuperação
Busca (casamento com a representação da expressão de busca do
usuário)
Ordenamento dos documentos recuperados (do inglês ranking)
A tarefa do usuário
Diante do SRI o usuário pode realizar duas tarefas visando especificar uma expressão de busca:
Busca ou Recuperação (do inglês Retrieval) Navegação (do inglês Browsing)
Dependendo da tarefa a ser realizada pelo usuário, um modelo
computacional de recuperação de informação deve ser empregado na construção do SRI.
Navegação
Embrapa - Infoteca
Exercícios
Defina a área de pesquisa recuperação de
informação.
Defina o processo de recuperação de informação. Defina o que é um sistema de recuperação de
informação.
Buscando caracterizar o google como um sistema de
recuperação de informação, especifique: a) corpus; b) usuários; c) expressão de busca d) resultado da busca.
20
Como funcionam os Sistemas de Recuperação de Informação? Usuário Necessidade de Informação Função de busca Documentos Representação Representação Consulta
Modelos de Recuperação de
Informação
Sistema de Recuperação de Informação Resultado Armazenamento do Índice Casamento, OrdenaçãoModelos de Recuperação de Informação
Os SRIs adotam modelos de recuperação de informação
que definem principalmente:
A representação dos documentos
A visão lógica dos documentos, sua representação no
sistema
A representação das expressões de busca dos usuários A visão lógica da expressão de busca ou consulta, sua
representação no sistema
A função de busca: como as duas representações são
comparadas, e como ordenar os documentos que casam (a lista de resultado).
Além do modo de operação os modelos definem a
Exercícios
Quais as tarefas típicas que o usuário pode realizar
através da interface de um sistema de recuperação de informação na especificação de uma expressão de busca?
O que o modelo computacional de recuperação de
informação define nos sistemas de recuperação de informação?
Exemplos de Sistemas de Recuperação de
Informação
Catálogo em linha de acesso público
Mecanismos de busca
Serviços de busca em linha
Sistemas de gerenciamento de documentos
Sistemas de Filtragem de Informação Sistemas de Comércio Eletrônico
Sistemas de fluxo de vídeo/áudio
Catálogo em linha de acesso público
(OPAC)
Sistemas que recuperam informação em bases de dados catalográficos de bibliotecas.
25
Mecanismos de Busca
Web Consulta Resposta Base de Índices Engenho de Busca Usuário Spider IndexadorRepresentação dos Docs Servidor de Consultas Aquisição Pré-Processador Docs Recuperador Ordenador 2 1 3 4 Motor de Indexação Browser
Serviços de busca em linha
Sistemas que recuperam informação em bases de dados bibliográficos ou de texto completo.
Sistemas de gerenciamento de
documentos
Sistemas que gerenciam a publicação, o versionamento e
recuperam informação em um corpus de documentos digitais. Exemplos:
Softwares Proprietários da IBM (FileNet), Xerox(DocuShare), Microsoft (SharePoint) e Oracle.
Softwares Livres Alfresco KnowledgeTree Main//Pyrus DMS Nuxeo OpenKM Archivista
Sistemas de Filtragem de Informação
Sistemas que filtram a informação recuperada de acordo com o interesse do usuário Servidor News Artigos Indexados Usuário Perfil do usuário Engenho de Busca Internet
Sistemas de Extração de Informação
Sistemas capazes de extrair de documentos relevantes apenas a
informação requerida
A informação extraída pode ser apresentada ao usuário e/ou armazenada em BDs. 29 Sistema de EI BD Nome: End.: Fone: Fax: Preços: Template Página de Hotel
Exercício
Escolha um SRI de uma base de dados científica e
descreva: A. URL B. corpus C. Usuários D. Expressão de busca E. Resultado da busca 30
31
Avaliação de SRI
Para que avaliar?
Qual o melhor modelo de RI?
Qual a melhor escolha para:
Seleção de termos (stopword, stemming…) Definição de pesos (TF, TF-IDF,…)
Função de busca (co-seno, correlação, Jaccard…)
Quantos itens da lista de resultados o usuário
deverá consultar para ainda encontrar algum
documento relevante?
32
Como avaliar?
Todo software pode ser avaliado quanto a
corretude ou eficácia através da comparação
da saída do programa com a saída esperada
para valores de entrada predeterminados.
SRI
Entrada de dados Saída de dados
• Corpus • Consulta • Lista de documentos recuperados • Lista de documentos relevantes Julgamentos de Relevância Por Especialistas
33
Metodologia de Avaliação de
Sistemas de RI
1. Selecione com um corpus de
documentos chamado também de coleção de referência
2. Defina um conjunto de consultas para
esse corpus
3. Use um ou mais especialistas
humanos para exaustivamente
categorizar (etiquetar, marcar) os documentos relevantes para cada consulta
Geralmente assume relevância binária
34
Metodologia de Avaliação de
Sistemas de RI
Metodologia de Avaliação
Vantagens:
Pode ser adotada para avaliar qualquer SRI
Desvantagens:
Não leva em conta ordenação dos documentos na
lista de documentos retornados
Depende do julgamento de relevância dos
documentos da coleção em relação a cada expressão de busca.
Processo lento, caro e subjetivo.
36
Precisão
Habilidade de recuperar somente itens relevantes
(unicidade)
Revocação ou Cobertura
Habilidade de recuperar todos os itens relevantes
(completude)
Medidas de Avaliação de
Sistemas de RI
37 relevantes documentos de total Número s recuperado relevantes documentos de Número Revocação s recuperado documentos de total Número s recuperado relevantes documentos de Número Precisão Documentos relevantes Documentos recuperados Coleção de documentos Não recuperados e relevantes Não recuperados e irrelevantes recuperados e relevantes recuperados e irrelevantes Relevantes Irrelevantes Não recuperados Recuperados
Medidas de Avaliação
38
Conflito entre Revocação e Precisão
1 0 1 Revocação Precis ão Ideal Retorna documentos relevantes
mas esquece muitos outros relevantes
Retorna todos os
documentos relevantes mas inclui muitos não relevantes
Conflito entre Revocação e
precisão
A exaustividade e a especificidade
na indexação são os dois fatores
mais importantes que governam a
Revocação e a precisão;
A exaustividade aumenta a Revocação
e diminui a precisão, enquanto que
uma maior especificidade leva à menor Revocação e maior precisão;
Em síntese, o desempenho de um
sistema de recuperação de
informação é avaliado
principalmente pelas medidas de
Exercício: busca por carta
antiga
Calcule Precisão e Revocação
40
Retornado
41
Combinando Precisão e Revocação
F-Measure
Medida de desempenho que considera tanto
a Revocação como precisão
Média harmônica da Revocação (Cobertura)
e Precisão:
Vantagem de usar a média harmônica em
relação à média aritmética:
Ambas as medidas precisam ser altas para a
média harmônica ser alta
P C
C
P
PC
F
2
12
1
Referências
FERNEDA, E. Introdução aos Modelos
Computacionais de Recuperação de Informação. Rio de Janeiro: Editora
Ciência Moderna Ltda. 2012.
BAEZA-YATES, R.; RIBEIRO-NETO, B.
Recuperação de informação: conceitos e
tecnologia das máquinas de busca. 2. ed. Porto Alegre: Bookman, 2013
SARACEVIC, T. Ciência da informação:
origem, evolução e relações. Perspec. Ci.
Inf., Belo Horizonte, v. 1, n. 1, p. 41-62,
jan./jun. 1996