• Nenhum resultado encontrado

Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário.

N/A
N/A
Protected

Academic year: 2021

Share "Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário."

Copied!
40
0
0

Texto

(1)

Recuperação de Informação

Recuperação de Informação

 Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário.

(2)

Recuperação de Informação

 A recuperação de informação envolve:

◦ um acervo documental;

◦ pessoas que buscam por documentos relevantes para satisfazer suas necessidades de informação.

 Recuperar informação implica em operar seletivamente um

estoque de informação

◦ envolve processos cognitivos difíceis de serem formalizados.

 A utilização de recursos computacionais nessa tarefa parte

de inevitáveis simplificações teóricas e de adequações de conceitos subjetivos ◦ relevância ◦ necessidade de informação ◦ informação O processo de recuperação de informação

(3)

O processo de recuperação de

informação

(4)

Documento

 Documentos

◦ Segundo Buckland (1991):

 o termo informação é utilizado na maioria das vezes

vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também

designar “algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos”.

◦ Para Le Coadic (2004, p.5):

 documento é o termo genérico que designa os objetos

portadores de informação. Um documento é todo artefato

que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos).

O processo de recuperação de

informação

(5)

Representação de documentos

Representação de documentos

 A principal característica do processo de

representação da informação é a substituição de

uma entidade linguística longa e complexa - o texto do documento - por sua descrição abreviada. O uso de tal sumarização não é apenas uma consequência de restrições práticas quanto ao volume de material a ser armazenado e

recuperado. Essa sumarização é desejável pois

sua função é demonstrar a essência do documento. Ela funciona então como um artifício para enfatizar o que é essencial no documento considerando sua recuperação.

(6)

Representação de documentos

 Representação Descritiva (catalogação descritiva)  Representação Temática (catalogação de assunto)

Representação Descritiva

(catalogação descritiva)

 Representa as características específicas do

documento, denominada descrição bibliográfica, que permite a individualização do documento.

 Ela também define e padroniza os pontos de

acesso, responsáveis pela busca e recuperação da informação, assim como pela reunião de documentos semelhantes, por exemplo, todas as obras de um determinado autor ou de uma série específica.

(7)

Representação Descritiva

(catalogação descritiva)

 É composta pelo conjunto de características próprias ou atribuídas ao documento, que o individualiza em um catálogo, repositório ou outro sistema informacional.

 É necessário algum modo de padronização, tanto na estrutura de descrição (elementos descritivos ou metadados) como também nos valores que devem ser representados na estrutura de descrição.

(ALVES; SANTOS, 2013).  Proporcionar a caracterização do recurso, tornando-o único e, ao

mesmo tempo, reunindo-o com outros recursos semelhantes.  Com a representação é possível garantir:

◦ o armazenamento consistente dos dados de um documento; ◦ garantir o acesso físico ou digital ao documento;

◦ melhorar a busca e recuperação dos recursos que passam a ser identificáveis nos sistemas;

◦ etc

(ALVES, 2010).

Representação Descritiva

(catalogação descritiva)

(8)

Representação Descritiva

(catalogação descritiva)  Dublin Core ◦ Title ◦ Creator ◦ Subject ◦ Description ◦ Publisher ◦ Contributor ◦ Date. ◦ Type ◦ Format ◦ Identifier ◦ Source ◦ Language ◦ Relation ◦ Coverage ◦ Rights

Representação Descritiva

(catalogação descritiva)  FRBR

Functional Requirements for Bibliographic Records (FRBR)

(Requisitos Funcionais para Registros Bibliográficos)

◦ Utilizada o modelo Entidade-Relacionamento;

◦ Não é um código de catalogação, não é um formato, não é

uma norma, não é um padrão, não é um princípio de catalogação. Assim, não é adequado dizer coisas como “vou catalogar usando o FRBR”.

◦ Objetivos:

 prover um quadro definido com clareza e estruturado para

relacionar os dados que são registrados em registros de bibliográficos às necessidades dos usuários desses registros;

 recomendar um nível básico de funcionalidade para registros

criados por agências bibliográficas nacionais.

(9)

Representação Descritiva

(catalogação descritiva)  FRBR

Representação Temática

(catalogação de assunto)  Resumo

◦ Texto breve e coerente que se destina a informar o usuário sobre os conhecimentos essenciais transmitidos por um documento;

 Extrato

◦ Versão abreviada de um documento, feita mediante a

extração de frases do próprio documento;

 Índice

◦ Representação do conteúdo temático de um documento

por meio da utilização de um conjunto de palavras ou termos

(10)

Indexação

Indexação

 A indexação de um documento visa representar o seu

conteúdo temático por meio de um conjunto de termos.

 Os termos de indexação servem também como pontos de

acesso mediante os quais o documento é localizado e recuperado em um sistema de informação.

 Lancaster (2004, p.18) distingue dois tipos de indexação: ◦ indexação por extração

 A seleção dos termos fica restrita ao contexto do próprio documento.

 O indexador, utilizando critérios institucionais e pessoais, seleciona no texto palavras que serão utilizados para representar o documento.

◦ indexação por atribuição.

 Utiliza-se de um elemento externo ao documento, um conjunto de termos

previamente definidos e normalizados (léxico) cuja complexidade pode variar deste uma lista de cabeçalhos de assunto até um tesauro ou uma ontologia.

 Após a leitura do texto, o indexador escolhe os termos mais adequados

(11)

Indexação automática

Indexação Automática

 Embora a prática da indexação possa ser regulada por políticas e princípios institucionais, o processo de indexação manual é dependente de critérios subjetivos e pessoais, relacionados à formação e experiência do indexador.

 O tempo despendido e a qualidade da indexação ficam fortemente atrelados a fatores não controláveis, o que pode afetar o custo desse processo.

 As dificuldades inerentes à indexação manual e a grande quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade.

 As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950.

 A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje.

(12)

Indexação Automática

 Vantagens

◦ baixo custo da indexação automática;

◦ facilidade de aplicação a grandes conjuntos de documentos ◦ homogeneidade desse processo quando realizados por

algoritmos computacionais.

 O resultado da indexação realizada por seres humanos

pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes;

 Um sistema computacional irá realizar a indexação de

maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado,

independentemente da quantidade de documentos ou de qualquer fator externo.

(ANDERSON; PEREZ-CARBALLO, 2001)

Indexação Automática: tipos

 De forma semelhante à sua classificação da

indexação manual, Lancaster (2004, p.285) identifica dois tipos de indexação automática:

indexação automática por extração automática

 realizada geralmente por meio de cálculos matemáticos de

frequência das palavras encontradas no texto de um documento.

indexação automática por atribuição automática

 é utilizado um elemento externo aos textos com o objetivo de

(13)

O processo de recuperação de

informação

Usuário

 Segundo Le Coadic (2004, p.38-40), existem dois tipos

de necessidades de informação: a necessidade de informação em função do conhecimento, originária do desejo de saber, e a necessidade de informação em função da ação, derivada de necessidades

materiais determinadas pela realização de atividades humanas, profissionais e individuais. Ambas serão representadas pelo usuário quando entram em contato com o ambiente que escolheram para satisfazer a sua necessidade informacional.

(14)

O processo de recuperação de

informação

Expressão de Busca

 Meio que o usuário emprega para comunicar a

sua necessidade informacional para o sistema de informação.

 Podem ser especificada em linguagem natural ou

por meio de uma linguagem artificial, dependendo dos recursos oferecidos pelo sistema.

 Os usuários necessitam ter um mínimo de

conhecimento do tema de interesse e do seu vocabulário do domínio.

 Principal dificuldade: predizer quais os termos que

foram usadas para representar os documentos que satisfarão sua necessidade.

(15)

O processo de recuperação de

informação

Representação da Expressão de

Busca

 É necessário que a expressão de busca seja representada de forma similar à utilizada na representação dos documentos.

 Essa homogeneidade permitirá a comparação

entre a busca e todos os documentos do corpus do sistema por meio da função de busca.

(16)

Interfaces de busca

Interfaces de busca

Bem concebidos, os sistemas eficazes geram

sentimentos positivos em seus usuários. Quando um sistema é bem projetado, a interface quase

desaparece, permitindo que os usuários se

concentrar em seu trabalho, realizando-o de maneira prazerosa.

Em Sistemas de Recuperação de Informação, a função da interface de busca é auxiliar o usuário a entender e expressar a sua necessidade de

(17)

Interfaces de Busca

1997 - Protótipo

1999 - Beta

(18)
(19)

O processo de recuperação de

informação

Modelo de Recuperação de

Informação

 É a especificação formal de três elementos: ◦ a representação dos documentos;

◦ a representação da necessidade de informação por meio

de uma expressão de busca;

como estes dois elementos serão comparados: a função

de busca.

 A eficiência de um sistema de recuperação de

informação está diretamente ligada ao modelo que ele utiliza, influenciando diretamente em seu modo de operação.

(20)

Modelo Booleano

 No modelo booleano um documento é

representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais

especializados ou automaticamente, utilizando algoritmos computacionais.

 As buscas são formuladas por meio de uma

expressão booleana composta por termos ligados

por operadores lógicos AND, OR e NOT e

apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca.

Modelo Booleano

 Uma expressão de busca que utiliza apenas um

termo t1terá como resultado o conjunto de documentos indexados por t1;

(21)

Modelo Booleano

Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Desmatamento Amazônia Grilagem de terras Reflorestamento

Modelo Booleano

 Uma expressão conjuntiva de enunciado t1AND t2

recuperará documentos indexados por ambos os termos (t1e t2).

 Esta operação equivale à interseção do conjunto

dos documentos indexados pelo termo t1com o conjunto dos documentos indexados pelo termo t2, representado pela área cinza na figura.

(22)

Modelo Booleano

Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento AND Mata Atlântica Desmatamento Amazônia Grilagem de terras Reflorestamento

Modelo Booleano

 Uma expressão disjuntiva t1OR t2recuperará o

conjunto dos documentos indexados pelo termo t1 ou pelo termo t2.

 Essa operação equivale à união entre o conjunto

dos documentos indexados pelo termo t1e o conjunto dos documentos indexados pelo termo t2.

(23)

Modelo Booleano

Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento OR Mata Atlântica Desmatamento Amazônia Grilagem de terras Reflorestamento

Modelo Booleano

 A expressão NOT t1recuperará os documentos

que não são indexados pelo termo t1, representados pela área cinza da figura.

(24)

Modelo Booleano

Desmatamento Mata Atlântica Madeireiras Reflorestamento NOT Desmatamento Desmatamento Amazônia Grilagem de terras Reflorestamento

Modelo Booleano

 As expressões t1NOT t2ou t1AND NOT t2terão o

mesmo resultado: o conjunto dos documentos indexados por t1e que não são indexados por t2.

 Neste caso o operador NOT pode ser visto como

(25)

Modelo Booleano

Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento AND NOT Madeireiras Desmatamento

Amazônia Grilagem de terras

Reflorestamento

Modelo Booleano

 Termos e operadores booleanos podem ser

combinados para especificar buscas mais amplas ou restritivas.

 Como a ordem de execução das operações

lógicas de uma expressão influencia no resultado da busca, muitas vezes é necessário explicitar essa ordem, delimitando partes da expressão por meio de parênteses.

(26)

Modelo Booleano

 As áreas cinza da figura representam o resultado

de duas expressões de busca que utilizam os mesmos termos e os mesmos operadores, mas diferem na ordem de execução.

(Recuperação AND Informação) OR WEB Recuperação AND (Informação OR WEB)

Modelo Booleano

Desmatamento Mata Atlântica

Madeireiras Reflorestamento

( Desmatamento AND Reflorestamento ) OR Amazônia Desmatamento Amazônia Grilagem de terras Reflorestamento

(27)

Modelo Booleano

Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento AND ( Reflorestamento OR Amazônia ) Desmatamento Amazônia Grilagem de terras Reflorestamento

Modelo Booleano

 Operadores de Proximidade

◦ Surgimento dos sistemas de texto completo

◦ Operadores  Termos adjacentes

 Desmatamento ADJ Amazônia  Desmatamento NEAR/10 Amazônia  Sistema STAIRS

 Desmatamento WITH Amazônia (mesmo parágrafo)  Desmatamento SAME Amazônia (mesma frase) ◦ Frase Exata

 “Recuperação de Informação”; “Desmatamento na Amazônia” ◦ Composição de Operadores

(28)

Modelo Vetorial:

 Um documento é representado por um vetor onde

cada elemento representa o peso, ou relevância, do respectivo termo de indexação para o

documento.

 Cada vetor descreve a posição do documento em

um espaço multidimensional, onde cada termo de indexação representa uma dimensão ou eixo.

 Cada elemento do vetor (peso) é normalizado de

forma a assumir valores entre zero e um. Os pesos mais próximos de 1 indicam termos com maior importância para a descrição do documento.

Modelo Vetorial

Desmatamento 0.7 Mata Atlântica 0.6 Madeireiras 0.3 Reflorestamento 0.2 0,7 0,6 0,3 0,2

(29)

Modelo Vetorial

 Uma expressão de busca também é representada

por um vetor numérico onde cada elemento representa a importância (peso) do respectivo termo na representação da necessidade de

informação do usuário, substanciada na expressão de busca. Usuário e sua necessidade de informação Mata Atlântica 0.5 Desmatamento 0.8 Causas 0.7 0,5 0,8 0,7

Modelo Vetorial:

cálculo da similaridade

 A utilização de uma mesma forma de representação

tanto para os documentos como para as expressões de busca permite calcular a similaridade entre uma expressão de busca e cada um dos documentos do

corpus, ou ainda entre dois documentos;

 Em um espaço vetorial contendo N dimensões, a

similaridade (sim) entre um documento dje uma expressão de busca q pode ser calculada utilizando a seguinte fórmula:

= = = × × = N i iq N i ij q i N i ij j w w w w q d sim 1 , 2 1 , 2 , 1( , ) ) , (

onde wi,jé o peso do i-ésimo termo do documento dje wi,qé o peso do i-ésimo termo da expressão de busca q.

(30)

O processo de recuperação de

informação

Resultado da Busca

 Geralmente é composto por um conjunto de documentos que supostamente serão úteis para o usuário.

 É apresentado na forma de uma lista ordenada

pelo grau de similaridade calculada pela função de

busca.

 Uma busca deve resultar na recuperação de uma

quantidade de documentos que possibilite ao usuário a verificação de cada um deles a fim de selecionar os que lhe serão úteis.

 O fato de um termo utilizado na expressão de

busca aparecer na representação de um

documento não significa que este documento seja relevante para a necessidade do usuário.

(31)

Visualização de Resultados de Busca

(32)

Visualização de Resultados de Busca

 A interface utilizada em sistema de recuperação de

informação mudou muito pouco desde a década de 1950, apesar de existir muitas interfaces alternativas sendo propostas e desenvolvidas por vários pesquisadores.

 Os usuários fornecem uma lista de palavras-chave

e é apresentada lista de páginas que contêm as palavras-chave;

 Os usuário se veem diante da tarefa de verificar

cada um dos documentos (links) para obter as informações que procuram.

Visualização de Resultados de Busca

 As desvantagens das interfaces (textuais)

baseadas em uma lista de (links a) documentos são:

◦ O usuário precisa verificar sequencialmente uma longa

lista de resultados;

◦ O usuário não é informado o motivo pelo qual um

determinado documento foi recuperado;

◦ Da mesma forma, o usuário não é informado da relação

entre um determinado documento com a sua busca;

◦ Não é apresentada similaridades entre documentos; ◦ São apresentados aos usuários apenas um pequeno

(33)

Visualização de Resultados de busca

 Grokker

Recuperação de Informação na WEB

(34)

Recuperação de informação na

WEB

 Sites de Busca (search engines/buscadores) ◦ Permitem ao usuário submeter sua expressão de busca e

recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação

◦ Maioria de uso geral

◦ Em um acervo extremamente grande como é a Web é

essencial uma indexação antecipada de seus documentos (páginas).

 A maioria dos mecanismos de busca da Web gera índices.  Pelo caráter dinâmico da Web esses índices devem

permanecer em constante processo de atualização

Recuperação de informação na

WEB

 Sites de busca ◦ Índexação

 Não Automática

 O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página

 Automática

 Spiders (robôs, crawlers ou worms)

 Partindo de uma lista inicial de URLs, rastreiam a estrutura

hipertextual da WEB, colhendo informações sobre as páginas que encontram;

(35)

Recuperação de informação na

WEB

 Indexação não-automática (manual)

◦ Indexadores profissionais especificam uma hierarquia de

assuntos e indexam as páginas Web utilizando tais categorias.

◦ Uma URL submetida pode ser associada a uma categoria

de qualquer nível. Por exemplo, ela pode ser ligada a uma categoria principal, “Ciência”, ou à subcategoria, “Ciências Humanas”, ou à sub-subcategoria, “Biblioteconomia e Ciência da Informação”.

◦ A URL cadastrada é avaliada por profissionais, que

podendo alterar os dados fornecidos pelo usuário.

◦ Caso um usuário não consiga encontrar uma categoria

apropriada para descrever sua página, ele pode sugerir uma nova categoria.

Recuperação de informação na

WEB

(36)

Recuperação de informação na

WEB

 Indexação automática

◦ A indexação automática é realizada através de duas

etapas:

 Seleção de endereços (URLs) de páginas;

 Indexação das páginas, gerando para cada uma um conjunto

de termos de indexação.

◦ Existem programas que “viajam” através da Web a fim de

selecionar URLs de páginas de potencial interesse para que sejam indexadas. Utilizando a metáfora da Web, esses programas são chamados de spiders (aranhas) ou ainda robôs, crawlers ou worms.

◦ Partindo de uma lista inicial de URLs, esses robôs

rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram.

Recuperação de informação na

WEB

 Indexação automática: Estratégias

breadth-first - visa maximizar a amplitude da pesquisa

descendo apenas poucos níveis de cada site

depth-first - visa maximizar a profundidade buscando um

maior detalhamento do assunto tratado pelo site.

 Quando uma nova página é recuperada, o spider

extrai todas as URLs dessa página e os adiciona na sua base de dados.

(37)

Recuperação de informação na

WEB

 Indexação automática

◦ Para aumentar a velocidade de cobertura da Web podem

ser usados vários spiders trabalhando em paralelo, cada um cobrindo uma região ou um domínio diferente da Web e enviando suas URLs para a base de dados

◦ Depois de formado o banco de dados de URLs o robô

poderá acessar cada página e indexá-la usando métodos de indexação automática.

Recuperação de Informação na

WEB

 Buscas

◦ Geralmente dois níveis de busca: básico e avançado ◦ Básico:

 Buscas booleanas utilizando os operadores AND, OR, NOT ou

alguma outra forma;

◦ Avançado:

 Buscas por proximidade: NEAR, ADJ

 Buscas por tipo de mídia ou tipo de arquivo: “.JPG”, “.MPEG”,

(38)

Recuperação de Informação na

WEB

Recuperação de Informação na

WEB

 Meta-buscadores

◦ Realizam buscas utilizando diversos mecanismos de

busca;

 A expressão de busca é traduzida e enviada para cada um dos

mecanismos que o meta-buscador utiliza.

 Cada buscador retornará uma lista de URLs

 O meta-buscador agrega as listas em uma única lista,

(39)

Recuperação de Informação na

WEB

Recuperação de Informação na

WEB

(40)

Referências

Referências bibliográficas

 ANDERSON, J.D.; PEREZ-CARBALLO, J. The nature of indexing: how humans and

machines analyze messages and texts for retrieval - Part I: Research, and the nature of human indexing. Information Processing and Management, v.37, n.2, 2001.

 ALVES, R. C. V. Metadados como elementos do processo de catalogação. 2010.

132f. Tese (Doutorado em Ciência da Informação)-Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2010.

 ALVES, R. C. V.; SANTOS, P. L. V. A. da C. Metadados no domínio bibliográfico. Rio

de Janeiro: Intertexto, 2013.

 BUCKLAND, M.K. Information as thing. Journal of the American Society of

Information Science, v.42, n.5, 1991. p.351-360.

 LE COADIC, Y-F. A Ciência da Informação. 2.ed. Brasília: Briquet de Lemos, 2004.

 LANCASTER, F.W. Indexação e Resumos: teoria e prática. 2ªed. Brasilia, DF:

Briquet de Lemos, 2004,

 MAIMONE, G. D.; SILVEIRA, N. C.; TÁLAMO, M. de. F. G. M. Reflexões acerca das

relações entre representação temática e descritiva. Informação & Sociedade: Estudos, João Pessoa, v. 21, n. 1, p. 27-35, jan./abr. 2011.

 NOVELLINO, Maria Salet Ferreira. Instrumentos e metodologias de representação da

Referências

Documentos relacionados

abaixo são apresentadas imagens de uma triplicata, três diferentes sínteses nas mesmas condições de produção (apenas primeira etapa e sem o uso da bomba

Dissertação de Mestrado Dissertação apresentada como requisito parcial para a obtenção do grau de Mestre pelo programa de Pós- graduação em Teologia Bíblica do Departamento de

Esta comunicação apresenta a contribuição do Projeto Arte na Escola na formação continuada e permanente do professor da escola pública municipal e estadual. O Projeto

Interessante registrar que esta família não entrava em conflito com a religião católica de forma aberta, pois seus integrantes freqüentavam as igrejas, assistiam às

O tempo de serviço prestado nas Escolas Portuguesas no Estrangeiro é suscetível de contagem para efeitos de concursos de pessoal docente, competindo ao agrupamento de escolas ou

Nesse capítulo, objetivou-se determinar a composição corporal e estimar as exigências nutricionais em proteína e energia de cordeiros machos não castrados da raça Santa

Aborigines; Academic publications; Academic staff; Access; Accuracy; Adolescents; Advertisements; Age differences; AIDS; Alcohol consumption; Alcohol use; Anonymity;

O presente trabalho teve como objetivo identificar espécies do gênero Burkholderia presentes em sítio de Terra Preta Arqueológica (tipo sambaqui) e solo