Recuperação de Informação
Recuperação de Informação
Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário.
Recuperação de Informação
A recuperação de informação envolve:
◦ um acervo documental;
◦ pessoas que buscam por documentos relevantes para satisfazer suas necessidades de informação.
Recuperar informação implica em operar seletivamente um
estoque de informação
◦ envolve processos cognitivos difíceis de serem formalizados.
A utilização de recursos computacionais nessa tarefa parte
de inevitáveis simplificações teóricas e de adequações de conceitos subjetivos ◦ relevância ◦ necessidade de informação ◦ informação O processo de recuperação de informação
O processo de recuperação de
informação
Documento
Documentos
◦ Segundo Buckland (1991):
o termo informação é utilizado na maioria das vezes
vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também
designar “algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos”.
◦ Para Le Coadic (2004, p.5):
documento é o termo genérico que designa os objetos
portadores de informação. Um documento é todo artefato
que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos).
O processo de recuperação de
informação
Representação de documentos
Representação de documentos
A principal característica do processo de
representação da informação é a substituição de
uma entidade linguística longa e complexa - o texto do documento - por sua descrição abreviada. O uso de tal sumarização não é apenas uma consequência de restrições práticas quanto ao volume de material a ser armazenado e
recuperado. Essa sumarização é desejável pois
sua função é demonstrar a essência do documento. Ela funciona então como um artifício para enfatizar o que é essencial no documento considerando sua recuperação.
Representação de documentos
Representação Descritiva (catalogação descritiva) Representação Temática (catalogação de assunto)
Representação Descritiva
(catalogação descritiva)
Representa as características específicas do
documento, denominada descrição bibliográfica, que permite a individualização do documento.
Ela também define e padroniza os pontos de
acesso, responsáveis pela busca e recuperação da informação, assim como pela reunião de documentos semelhantes, por exemplo, todas as obras de um determinado autor ou de uma série específica.
Representação Descritiva
(catalogação descritiva)
É composta pelo conjunto de características próprias ou atribuídas ao documento, que o individualiza em um catálogo, repositório ou outro sistema informacional.
É necessário algum modo de padronização, tanto na estrutura de descrição (elementos descritivos ou metadados) como também nos valores que devem ser representados na estrutura de descrição.
(ALVES; SANTOS, 2013). Proporcionar a caracterização do recurso, tornando-o único e, ao
mesmo tempo, reunindo-o com outros recursos semelhantes. Com a representação é possível garantir:
◦ o armazenamento consistente dos dados de um documento; ◦ garantir o acesso físico ou digital ao documento;
◦ melhorar a busca e recuperação dos recursos que passam a ser identificáveis nos sistemas;
◦ etc
(ALVES, 2010).
Representação Descritiva
(catalogação descritiva)
Representação Descritiva
(catalogação descritiva) Dublin Core ◦ Title ◦ Creator ◦ Subject ◦ Description ◦ Publisher ◦ Contributor ◦ Date. ◦ Type ◦ Format ◦ Identifier ◦ Source ◦ Language ◦ Relation ◦ Coverage ◦ RightsRepresentação Descritiva
(catalogação descritiva) FRBR◦ Functional Requirements for Bibliographic Records (FRBR)
(Requisitos Funcionais para Registros Bibliográficos)
◦ Utilizada o modelo Entidade-Relacionamento;
◦ Não é um código de catalogação, não é um formato, não é
uma norma, não é um padrão, não é um princípio de catalogação. Assim, não é adequado dizer coisas como “vou catalogar usando o FRBR”.
◦ Objetivos:
prover um quadro definido com clareza e estruturado para
relacionar os dados que são registrados em registros de bibliográficos às necessidades dos usuários desses registros;
recomendar um nível básico de funcionalidade para registros
criados por agências bibliográficas nacionais.
Representação Descritiva
(catalogação descritiva) FRBRRepresentação Temática
(catalogação de assunto) Resumo◦ Texto breve e coerente que se destina a informar o usuário sobre os conhecimentos essenciais transmitidos por um documento;
Extrato
◦ Versão abreviada de um documento, feita mediante a
extração de frases do próprio documento;
Índice
◦ Representação do conteúdo temático de um documento
por meio da utilização de um conjunto de palavras ou termos
Indexação
Indexação
A indexação de um documento visa representar o seu
conteúdo temático por meio de um conjunto de termos.
Os termos de indexação servem também como pontos de
acesso mediante os quais o documento é localizado e recuperado em um sistema de informação.
Lancaster (2004, p.18) distingue dois tipos de indexação: ◦ indexação por extração
A seleção dos termos fica restrita ao contexto do próprio documento.
O indexador, utilizando critérios institucionais e pessoais, seleciona no texto palavras que serão utilizados para representar o documento.
◦ indexação por atribuição.
Utiliza-se de um elemento externo ao documento, um conjunto de termos
previamente definidos e normalizados (léxico) cuja complexidade pode variar deste uma lista de cabeçalhos de assunto até um tesauro ou uma ontologia.
Após a leitura do texto, o indexador escolhe os termos mais adequados
Indexação automática
Indexação Automática
Embora a prática da indexação possa ser regulada por políticas e princípios institucionais, o processo de indexação manual é dependente de critérios subjetivos e pessoais, relacionados à formação e experiência do indexador.
O tempo despendido e a qualidade da indexação ficam fortemente atrelados a fatores não controláveis, o que pode afetar o custo desse processo.
As dificuldades inerentes à indexação manual e a grande quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade.
As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950.
A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje.
Indexação Automática
Vantagens
◦ baixo custo da indexação automática;
◦ facilidade de aplicação a grandes conjuntos de documentos ◦ homogeneidade desse processo quando realizados por
algoritmos computacionais.
O resultado da indexação realizada por seres humanos
pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes;
Um sistema computacional irá realizar a indexação de
maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado,
independentemente da quantidade de documentos ou de qualquer fator externo.
(ANDERSON; PEREZ-CARBALLO, 2001)
Indexação Automática: tipos
De forma semelhante à sua classificação da
indexação manual, Lancaster (2004, p.285) identifica dois tipos de indexação automática:
◦ indexação automática por extração automática
realizada geralmente por meio de cálculos matemáticos de
frequência das palavras encontradas no texto de um documento.
◦ indexação automática por atribuição automática
é utilizado um elemento externo aos textos com o objetivo de
O processo de recuperação de
informação
Usuário
Segundo Le Coadic (2004, p.38-40), existem dois tipos
de necessidades de informação: a necessidade de informação em função do conhecimento, originária do desejo de saber, e a necessidade de informação em função da ação, derivada de necessidades
materiais determinadas pela realização de atividades humanas, profissionais e individuais. Ambas serão representadas pelo usuário quando entram em contato com o ambiente que escolheram para satisfazer a sua necessidade informacional.
O processo de recuperação de
informação
Expressão de Busca
Meio que o usuário emprega para comunicar a
sua necessidade informacional para o sistema de informação.
Podem ser especificada em linguagem natural ou
por meio de uma linguagem artificial, dependendo dos recursos oferecidos pelo sistema.
Os usuários necessitam ter um mínimo de
conhecimento do tema de interesse e do seu vocabulário do domínio.
Principal dificuldade: predizer quais os termos que
foram usadas para representar os documentos que satisfarão sua necessidade.
O processo de recuperação de
informação
Representação da Expressão de
Busca
É necessário que a expressão de busca seja representada de forma similar à utilizada na representação dos documentos.
Essa homogeneidade permitirá a comparação
entre a busca e todos os documentos do corpus do sistema por meio da função de busca.
Interfaces de busca
Interfaces de busca
Bem concebidos, os sistemas eficazes geram
sentimentos positivos em seus usuários. Quando um sistema é bem projetado, a interface quase
desaparece, permitindo que os usuários se
concentrar em seu trabalho, realizando-o de maneira prazerosa.
Em Sistemas de Recuperação de Informação, a função da interface de busca é auxiliar o usuário a entender e expressar a sua necessidade de
Interfaces de Busca
1997 - Protótipo
1999 - Beta
O processo de recuperação de
informação
Modelo de Recuperação de
Informação
É a especificação formal de três elementos: ◦ a representação dos documentos;
◦ a representação da necessidade de informação por meio
de uma expressão de busca;
◦ como estes dois elementos serão comparados: a função
de busca.
A eficiência de um sistema de recuperação de
informação está diretamente ligada ao modelo que ele utiliza, influenciando diretamente em seu modo de operação.
Modelo Booleano
No modelo booleano um documento é
representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais
especializados ou automaticamente, utilizando algoritmos computacionais.
As buscas são formuladas por meio de uma
expressão booleana composta por termos ligados
por operadores lógicos AND, OR e NOT e
apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca.
Modelo Booleano
Uma expressão de busca que utiliza apenas um
termo t1terá como resultado o conjunto de documentos indexados por t1;
Modelo Booleano
Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Desmatamento Amazônia Grilagem de terras ReflorestamentoModelo Booleano
Uma expressão conjuntiva de enunciado t1AND t2
recuperará documentos indexados por ambos os termos (t1e t2).
Esta operação equivale à interseção do conjunto
dos documentos indexados pelo termo t1com o conjunto dos documentos indexados pelo termo t2, representado pela área cinza na figura.
Modelo Booleano
Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento AND Mata Atlântica Desmatamento Amazônia Grilagem de terras ReflorestamentoModelo Booleano
Uma expressão disjuntiva t1OR t2recuperará o
conjunto dos documentos indexados pelo termo t1 ou pelo termo t2.
Essa operação equivale à união entre o conjunto
dos documentos indexados pelo termo t1e o conjunto dos documentos indexados pelo termo t2.
Modelo Booleano
Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento OR Mata Atlântica Desmatamento Amazônia Grilagem de terras ReflorestamentoModelo Booleano
A expressão NOT t1recuperará os documentos
que não são indexados pelo termo t1, representados pela área cinza da figura.
Modelo Booleano
Desmatamento Mata Atlântica Madeireiras Reflorestamento NOT Desmatamento Desmatamento Amazônia Grilagem de terras ReflorestamentoModelo Booleano
As expressões t1NOT t2ou t1AND NOT t2terão o
mesmo resultado: o conjunto dos documentos indexados por t1e que não são indexados por t2.
Neste caso o operador NOT pode ser visto como
Modelo Booleano
Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento AND NOT Madeireiras DesmatamentoAmazônia Grilagem de terras
Reflorestamento
Modelo Booleano
Termos e operadores booleanos podem ser
combinados para especificar buscas mais amplas ou restritivas.
Como a ordem de execução das operações
lógicas de uma expressão influencia no resultado da busca, muitas vezes é necessário explicitar essa ordem, delimitando partes da expressão por meio de parênteses.
Modelo Booleano
As áreas cinza da figura representam o resultado
de duas expressões de busca que utilizam os mesmos termos e os mesmos operadores, mas diferem na ordem de execução.
(Recuperação AND Informação) OR WEB Recuperação AND (Informação OR WEB)
Modelo Booleano
Desmatamento Mata Atlântica
Madeireiras Reflorestamento
( Desmatamento AND Reflorestamento ) OR Amazônia Desmatamento Amazônia Grilagem de terras Reflorestamento
Modelo Booleano
Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento AND ( Reflorestamento OR Amazônia ) Desmatamento Amazônia Grilagem de terras ReflorestamentoModelo Booleano
Operadores de Proximidade◦ Surgimento dos sistemas de texto completo
◦ Operadores Termos adjacentes
Desmatamento ADJ Amazônia Desmatamento NEAR/10 Amazônia Sistema STAIRS
Desmatamento WITH Amazônia (mesmo parágrafo) Desmatamento SAME Amazônia (mesma frase) ◦ Frase Exata
“Recuperação de Informação”; “Desmatamento na Amazônia” ◦ Composição de Operadores
Modelo Vetorial:
Um documento é representado por um vetor onde
cada elemento representa o peso, ou relevância, do respectivo termo de indexação para o
documento.
Cada vetor descreve a posição do documento em
um espaço multidimensional, onde cada termo de indexação representa uma dimensão ou eixo.
Cada elemento do vetor (peso) é normalizado de
forma a assumir valores entre zero e um. Os pesos mais próximos de 1 indicam termos com maior importância para a descrição do documento.
Modelo Vetorial
Desmatamento 0.7 Mata Atlântica 0.6 Madeireiras 0.3 Reflorestamento 0.2 0,7 0,6 0,3 0,2Modelo Vetorial
Uma expressão de busca também é representada
por um vetor numérico onde cada elemento representa a importância (peso) do respectivo termo na representação da necessidade de
informação do usuário, substanciada na expressão de busca. Usuário e sua necessidade de informação Mata Atlântica 0.5 Desmatamento 0.8 Causas 0.7 0,5 0,8 0,7
Modelo Vetorial:
cálculo da similaridade
A utilização de uma mesma forma de representação
tanto para os documentos como para as expressões de busca permite calcular a similaridade entre uma expressão de busca e cada um dos documentos do
corpus, ou ainda entre dois documentos;
Em um espaço vetorial contendo N dimensões, a
similaridade (sim) entre um documento dje uma expressão de busca q pode ser calculada utilizando a seguinte fórmula:
∑
∑
∑
= = = × × = N i iq N i ij q i N i ij j w w w w q d sim 1 , 2 1 , 2 , 1( , ) ) , (onde wi,jé o peso do i-ésimo termo do documento dje wi,qé o peso do i-ésimo termo da expressão de busca q.
O processo de recuperação de
informação
Resultado da Busca
Geralmente é composto por um conjunto de documentos que supostamente serão úteis para o usuário.
É apresentado na forma de uma lista ordenada
pelo grau de similaridade calculada pela função de
busca.
Uma busca deve resultar na recuperação de uma
quantidade de documentos que possibilite ao usuário a verificação de cada um deles a fim de selecionar os que lhe serão úteis.
O fato de um termo utilizado na expressão de
busca aparecer na representação de um
documento não significa que este documento seja relevante para a necessidade do usuário.
Visualização de Resultados de Busca
Visualização de Resultados de Busca
A interface utilizada em sistema de recuperação deinformação mudou muito pouco desde a década de 1950, apesar de existir muitas interfaces alternativas sendo propostas e desenvolvidas por vários pesquisadores.
Os usuários fornecem uma lista de palavras-chave
e é apresentada lista de páginas que contêm as palavras-chave;
Os usuário se veem diante da tarefa de verificar
cada um dos documentos (links) para obter as informações que procuram.
Visualização de Resultados de Busca
As desvantagens das interfaces (textuais)baseadas em uma lista de (links a) documentos são:
◦ O usuário precisa verificar sequencialmente uma longa
lista de resultados;
◦ O usuário não é informado o motivo pelo qual um
determinado documento foi recuperado;
◦ Da mesma forma, o usuário não é informado da relação
entre um determinado documento com a sua busca;
◦ Não é apresentada similaridades entre documentos; ◦ São apresentados aos usuários apenas um pequeno
Visualização de Resultados de busca
GrokkerRecuperação de Informação na WEB
Recuperação de informação na
WEB
Sites de Busca (search engines/buscadores) ◦ Permitem ao usuário submeter sua expressão de busca e
recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação
◦ Maioria de uso geral
◦ Em um acervo extremamente grande como é a Web é
essencial uma indexação antecipada de seus documentos (páginas).
A maioria dos mecanismos de busca da Web gera índices. Pelo caráter dinâmico da Web esses índices devem
permanecer em constante processo de atualização
Recuperação de informação na
WEB
Sites de busca ◦ Índexação
Não Automática
O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página
Automática
Spiders (robôs, crawlers ou worms)
Partindo de uma lista inicial de URLs, rastreiam a estrutura
hipertextual da WEB, colhendo informações sobre as páginas que encontram;
Recuperação de informação na
WEB
Indexação não-automática (manual)
◦ Indexadores profissionais especificam uma hierarquia de
assuntos e indexam as páginas Web utilizando tais categorias.
◦ Uma URL submetida pode ser associada a uma categoria
de qualquer nível. Por exemplo, ela pode ser ligada a uma categoria principal, “Ciência”, ou à subcategoria, “Ciências Humanas”, ou à sub-subcategoria, “Biblioteconomia e Ciência da Informação”.
◦ A URL cadastrada é avaliada por profissionais, que
podendo alterar os dados fornecidos pelo usuário.
◦ Caso um usuário não consiga encontrar uma categoria
apropriada para descrever sua página, ele pode sugerir uma nova categoria.
Recuperação de informação na
WEB
Recuperação de informação na
WEB
Indexação automática
◦ A indexação automática é realizada através de duas
etapas:
Seleção de endereços (URLs) de páginas;
Indexação das páginas, gerando para cada uma um conjunto
de termos de indexação.
◦ Existem programas que “viajam” através da Web a fim de
selecionar URLs de páginas de potencial interesse para que sejam indexadas. Utilizando a metáfora da Web, esses programas são chamados de spiders (aranhas) ou ainda robôs, crawlers ou worms.
◦ Partindo de uma lista inicial de URLs, esses robôs
rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram.
Recuperação de informação na
WEB
Indexação automática: Estratégias
◦ breadth-first - visa maximizar a amplitude da pesquisa
descendo apenas poucos níveis de cada site
◦ depth-first - visa maximizar a profundidade buscando um
maior detalhamento do assunto tratado pelo site.
Quando uma nova página é recuperada, o spider
extrai todas as URLs dessa página e os adiciona na sua base de dados.
Recuperação de informação na
WEB
Indexação automática
◦ Para aumentar a velocidade de cobertura da Web podem
ser usados vários spiders trabalhando em paralelo, cada um cobrindo uma região ou um domínio diferente da Web e enviando suas URLs para a base de dados
◦ Depois de formado o banco de dados de URLs o robô
poderá acessar cada página e indexá-la usando métodos de indexação automática.
Recuperação de Informação na
WEB
Buscas
◦ Geralmente dois níveis de busca: básico e avançado ◦ Básico:
Buscas booleanas utilizando os operadores AND, OR, NOT ou
alguma outra forma;
◦ Avançado:
Buscas por proximidade: NEAR, ADJ
Buscas por tipo de mídia ou tipo de arquivo: “.JPG”, “.MPEG”,
Recuperação de Informação na
WEB
Recuperação de Informação na
WEB
Meta-buscadores
◦ Realizam buscas utilizando diversos mecanismos de
busca;
A expressão de busca é traduzida e enviada para cada um dos
mecanismos que o meta-buscador utiliza.
Cada buscador retornará uma lista de URLs
O meta-buscador agrega as listas em uma única lista,
Recuperação de Informação na
WEB
Recuperação de Informação na
WEB
Referências
Referências bibliográficas
ANDERSON, J.D.; PEREZ-CARBALLO, J. The nature of indexing: how humans and
machines analyze messages and texts for retrieval - Part I: Research, and the nature of human indexing. Information Processing and Management, v.37, n.2, 2001.
ALVES, R. C. V. Metadados como elementos do processo de catalogação. 2010.
132f. Tese (Doutorado em Ciência da Informação)-Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2010.
ALVES, R. C. V.; SANTOS, P. L. V. A. da C. Metadados no domínio bibliográfico. Rio
de Janeiro: Intertexto, 2013.
BUCKLAND, M.K. Information as thing. Journal of the American Society of
Information Science, v.42, n.5, 1991. p.351-360.
LE COADIC, Y-F. A Ciência da Informação. 2.ed. Brasília: Briquet de Lemos, 2004.
LANCASTER, F.W. Indexação e Resumos: teoria e prática. 2ªed. Brasilia, DF:
Briquet de Lemos, 2004,
MAIMONE, G. D.; SILVEIRA, N. C.; TÁLAMO, M. de. F. G. M. Reflexões acerca das
relações entre representação temática e descritiva. Informação & Sociedade: Estudos, João Pessoa, v. 21, n. 1, p. 27-35, jan./abr. 2011.
NOVELLINO, Maria Salet Ferreira. Instrumentos e metodologias de representação da