• Nenhum resultado encontrado

Beatriz Valadares Cendón

4.1 Sistemas de Recuperação da Informação

A recuperação da informação consiste em encontrar a informação desejada em um armazém de informação ou base de dados (Meadows, 1992). Embora possa ter essa conotação mais ampla, na área de Biblioteconomia e Ciência da Informação a expressão tem sido usada para significar busca de literatura (Lancaster e Warner, 1993). Se a recuperação da informação consiste na busca de uma coleção de documentos7 para identificar aqueles

que satisfazem uma determinada necessidade de informação, sistemas de recuperação da informação (SRls) são aqueles sistemas criados para facilitar essa busca (Lancaster e Warner, 1993).

Embora a recuperação da informação não seja necessariamente uma atividade computacional, na prática, hoje, SRls são automatizados. Exemplos de SRls são catálogos de bibliotecas, bases de dados bibliográficas (como, aquelas disponibilizadas no Portal Capes: Library and Information Sciences Abstracts - LISA, Web of Science e outras), e motores de busca na Internet (como, o Google). Normalmente os SRls lidam com documentos que contêm principalmente texto, e esse é o seu grande desafio, já que devem se defrontar com a ambigüidade da palavra na recuperação da informação. Caracterizam-se também por lidarem com informações de natureza externa (versus informação interna a empresas e instituições), o que os diferencia de outros sistemas como os de informações gerenciais. Em sua definição mais ampla, SRls podem, também, lidar apenas com o problema da recuperação textual. Um sistema de armazenamento e recuperação de desenhos de engenharia, por exemplo, seria também um SRI. Já um catálogo de fichas seria

7 O termo documento é usado no seu sentido mais amplo, não se restringindo apenas a textos, incluindo sons,

um exemplo de um SRI não automatizado.

Devido às vantagens e facilidades que os SRls automatizados oferecem para busca de informação, seu uso tem se tornado cada vez mais comum. Esses sistemas oferecem maior número de pontos de acesso que os SRls não automatizados, podendo-se, muitas vezes, pesquisar palavras-chave que aparecem em qualquer ponto do registro, inclusive no resumo e no texto completo, quando estes estão disponíveis. Além disso, permitem realizar pesquisas mais complexas, em que vários conceitos necessitam ser relacionados, pois pode- se combinar grande número de termos de busca com lógica booleana, de maneiras que não seriam possíveis nos SRls impressos. Permitem também fazer, rapidamente, buscas abrangentes, cobrindo vários anos de publicações. Essas e outras facilidades representam uma grande economia de tempo para o usuário, permitindo que uma pesquisa que poderia tomar muitas horas de trabalho, se realizada manualmente, seja executada bem mais rapidamente, com o uso dos computadores.

4.2 O Funcionamento dos Sistemas de Recuperação da Informação

Um sistema de recuperação da informação pode ser representado como no diagrama a seguir, proposto por Lancaster (1979):

Figura 4.1 - Funções de um sistema de recuperação da informação

Fonte - Adaptado de LANCASTER, F. Wilfried. Information Retrieval Systems: characteristics, testing and evaluation. 2nd. New York: Wiley Interscience, 1979.

A aquisição de documentos por um serviço de informação implica na existência de um critério de seleção, o qual, por sua vez, requer um conhecimento das necessidades de informação da comunidade à qual o serviço atende. Critérios para seleção de documentos

incluem, por exemplo, assunto, tipo de documento, idioma, ou fonte. Uma vez adquiridos, os documentos são organizados e controlados para que possam ser identificados em resposta às consultas dos usuários. A indexação por assunto envolve a análise conceitual, ou análise de conteúdo, e a sua tradução para um vocabulário ou linguagem de indexação. Em alguns sistemas, isso implica no uso de um vocabulário controlado, ou seja, um conjunto limitado de termos que devem ser usados para representar o assunto de um documento. Esse vocabulário pode ser uma lista de cabeçalho de assunto, um esquema de classificação ou um tesaurus, por exemplo. A representação de assuntos do documento pode ser feita também através de um vocabulário não controlado, seja pelo uso de palavras ou frases que ocorrem no documento que está sendo indexado ou de termos escolhidos pelo indexador. Os termos usados pelo indexador, sejam eles provenientes de um vocabulário controlado ou não controlado, são chamados termos de indexação.

Uma vez terminado o processo de indexação, os documentos são arquivados em alguma forma de base de dados de documentos; e os registros contendo as representações dos documentos são colocados em uma outra base de dados, onde eles são organizados de forma que possam ser pesquisados. Em sistemas utilizando tecnologias anteriores, essa base de dados de representações de documentos poderia ter a forma, por exemplo, de um catálogo de fichas ou de um índice impresso. Hoje, ela toma a forma de uma base de dados eletrônica.

A base de dados de documentos e a base de dados das representações de documentos, hoje, já não são sempre distintas. Tornam-se cada vez mais comuns representações de documentos contendo não apenas termos de indexação, mas, também, resumos e, mais recentemente, tem se firmado a tendência das bases de dados conterem documentos em texto completo.

Do ponto de vista do usuário, os passos envolvidos no funcionamento de um SRI são semelhantes. As perguntas dos usuários passam por uma análise conceitual e são traduzidas para o vocabulário do sistema. Depois disso, é elaborada a estratégia de busca e formulada a expressão de busca, na qual os termos da busca são relacionados entre si através de operadores booleanos ou não booleanos. A estratégia de busca consiste em um plano para encontrar a informação desejada em que várias expressões de busca podem ser utilizadas. Através da expressão de busca, o sistema compara, então, as representações dos documentos com as das perguntas dos usuários. Na fase final, os documentos recuperados através da consulta ao sistema são apresentados ao usuário para que este julgue, então, sua

relevância para as suas necessidades de informação. Pode ser que o usuário decida modificar a sua estratégia de busca com base nos documentos recuperados (feedback), reiniciando-se o processo.

4.3 A Pesquisa em Recuperação da Informação

As origens da pesquisa para avaliar e melhorar a performance de sistemas de recuperação da informação são encontradas em 1953, com a execução de testes, separadamente, na Grã-Bretanha e nos Estados Unidos, sobre o desempenho de um sistema de indexação então recém-lançado e controverso, o Uniterm, criado por Mortimer Taube. Esse sistema representava documentos por termos únicos retirados do título ou resumo, ao contrário de abordagens mais tradicionais para indexação por assunto. Os testes de avaliação foram executados pelo Armed Services Technicallnformation Agency (ASTIA), nos Estados Unidos (chamados de testes Uniterm e relatados por Gull, 1956), e pelo College of Aeronautics in Cranfield, no Reino Unido (chamados de "os testes Cranfield-Uniterm" e descritos por Thorne, 1955).

No teste ASTIA, dois grupos, um da equipe de indexação da ASTIA e o outro da empresa Documentation Incorporated, de Mortimer Taube, indexaram separadamente e pesquisaram a coleção, que consistia de 15 mil documentos, com 93 pedidos de busca que haviam sido submetidos à ASTIA por usuários reais. A equipe ASTIA indexou os documentos empregando os cabeçalhos de assunto ASTIA. A equipe da Documentation Incorporated usou os Uniterms. A medida de efetividade empregada pelos dois grupos foi a relevância dos documentos recuperados para a pergunta. Parece ter sido essa a primeira vez em que o conceito de relevância foi utilizado como um critério para avaliação de SRls.

No mesmo ano dos testes ASTIA-Uniterm nos Estados Unidos, um outro teste que comparava a performance dos Uniterms com a de formas mais convencionais de indexação ocorreu no College of Aeronautics, em Cranfield, Reino Unido. Nesse teste comparou-se o desempenho dos Uniterms com o de um sistema de indexação tradicional, baseado na Classificação Decimal Universal. Usou-se uma coleção de 200 documentos dos quais 40, chamados documentos-fonte, foram selecionados para derivar 40 perguntas de busca. O critério de efetividade foi o sucesso de se recuperar o documento-fonte, ou seja, aquele que havia gerado a pergunta de busca. Esse procedimento representava uma maneira de se evitar o difícil julgamento de relevância. Os resultados desse teste, embora sujeitos a

questionamento pela metodologia adotada8, demonstraram a superioridade dos Uniterms, que recuperaram 85% dos documentos-fonte, versus a Classificação Decimal Universal, que recuperou apenas 50% dos documentos.

Mais dois testes, chamados Cranfield I e II, são marcos nas origens da pesquisa em recuperação da informação. O Cranfield I, iniciado em 1957, foi similar na sua concepção e execução ao Cranfield-Uniterm, mas numa escala mais ambiciosa - nele foi utilizada uma coleção de 18 mil documentos em engenharia aeronáutica. Essa coleção foi indexada usando-se 4 sistemas de indexação a serem comparados em sua eficiência de recuperação. Um conjunto de 1.200 perguntas de busca foi criado com base em documentos-fonte. A coleção foi então pesquisada a partir dessas perguntas. Caso o documento-fonte fosse localizado, a busca era considerada bem-sucedida. As buscas malsucedidas, que não conseguiam recuperar os documentos-fonte, foram analisadas para se identificar se a causa do insucesso eram problemas relativos à formulação da pergunta de busca, à indexação, à busca ou ao sistema.

Os resultados, sujeitos às mesmas críticas que os do teste anterior9, mostraram que

todos os sistemas testados operavam com níveis semelhantes de desempenho, em termos de sua capacidade de recuperar os documentos-fonte: o Uniterm atingiu 82% de sucesso, os cabeçalhos de assunto, 81,5%; a Classificação Decimal Universal, 75,6% e o esquema de classificação facetada, 73,8%.

A segunda série de testes do Instituto Cranfield, realizada em 1963, foi chamada de Cranfield II. Nesse teste, 33 diferentes linguagens de indexação foram construídas com diferentes terminologias e estruturas. As diferentes linguagens de indexação variavam na extensão do uso de termos simples ou compostos, hierarquias e controle de sinônimos e homógrafos. Uma diferença significativa nos procedimentos do teste, comparado ao do Cranfield I, foi que a medida de efetividade da busca de informação foi explicitamente baseada em relevância. O desempenho de cada linguagem de indexação foi julgado pela recuperação de itens identificados previamente como relevantes para a pergunta de busca.

8 São tidos como limitações desse teste (1) o fato de não ter sido considerada na avaliação da performance do sistema a recuperação de outros documentos além do documento-fonte, fossem estes relevantes ou não; e (2) o favorecimento de sistemas de recuperação baseados no uso de termos e não de conceitos, já que as perguntas de busca foram derivadas dos termos utilizados nos documentos (ver Ellis, 1996).

9 No Cranfield I. foi especialmente criticado o uso de documentos-fonte tanto para derivar as perguntas como para avaliar a efetividade da recuperação da informação, já que numa situação real o documento-fonte geralmente não existe. Criticou-se também o fato de que a relação entre o documento-fonte e a pergunta de busca era muito próxima (Ellis, 1996).

Foi também julgado o desempenho de cada linguagem em relação às medidas de revocação e precisão, as quais foram criadas para uso nesse teste. A mais séria crítica à metodologia do Cranfield II, mesmo tendo sido esta mais rigorosa que a do teste anterior, foi em relação à obtenção dos julgamentos de relevância. Esses julgamentos representam uma área de dificuldade, já que se constatou que podem ser influenciados por inúmeros fatores, tais como: assunto, nível de dificuldade, estilo, ordem de apresentação do material, definição de relevância empregada e características da pessoa que faz o julgamento (experiência, conhecimento, inteligência, entre outros fatores).

Os testes Cranfield estabeleceram um marco na história da recuperação da informação por terem fornecido o embasamento teórico dentro do qual a disciplina de recuperação da informação se desenvolveu. Estabeleceram também o princípio de que a argumentação sobre os méritos dos designs de esquemas de indexação ou classificação para representação do conhecimento deve ter base empírica e experimental, em vez de filosófica e especulativa, como era o caso anteriormente. Os procedimentos metodológicos adotados nos testes Cranfield, com testes de sistemas de indexação, controlados em laboratório usando-se coleções-teste, constituídas de um conjunto de documentos e submetidas a perguntas de busca, e acompanhados de pressupostos relativos às características do ambiente em que o sistema de recuperação da informação operava10 formaram uma tradição de pesquisa em design e teste de SRls.

Esses pressupostos constituem um modelo implícito de comportamento de busca de informação que, devido a seu significado para essa tradição de pesquisa, é chamado de modelo de recuperação da informação. Nesse modelo o usuário reconhece uma necessidade de informação e vem ao sistema de recuperação da informação com um pedido de busca baseado naquela necessidade. O sistema de recuperação compara o pedido do usuário com as representações de documentos contidas no sistema. A tarefa do sistema é apresentar ao usuário os documentos que melhor satisfazem a sua necessidade. O usuário examina as representações dos textos apresentadas e julga a sua relevância. A intenção é que alguns ou todos os documentos apresentados parcial ou totalmente satisfaçam a necessidade de

10 Os pressupostos dos testes Cranfield eram: (1) que a relevância é equivalente à similaridade com o tópico ou

assunto; (2) que a relevância de um documento é independente da relevância de outros; (3) que todos os documentos relevantes são igualmente desejados; (4) que a necessidade de informação do usuário não muda; (5) que o julgamento de relevância é binário, isto é, um documento é relevante ou não relevante; (6) um único conjunto de julgamentos é representativo dos julgamentos de toda população de usuários e (7) a revocação é conhecida (Ellis, 1886).

informação do usuário.

O modelo de situação de recuperação da informação implícito nos procedimentos dos testes de Cranfield foi tacitamente aceito e empregado em pesquisas posteriores na área de recuperação da informação. Esses testes forneceram as bases metodológicas para o desenvolvimento da disciplina de recuperação da informação. Suas conclusões representam os primeiros resultados científicos do campo. A abordagem para testar SRls foi empregada como modelo para muitas outras avaliações experimentais e operacionais, criando um corpo de trabalhos em problemas identificados dentro da estrutura teórica fornecida pelos testes. Os resultados de pesquisas subseqüentes robusteceram as conclusões dos testes Cranfield, reforçando o estado paradigmático do campo; além disso, serviram para orientar a concepção dos serviços comerciais de fornecimento de bases de dados que surgiram em seguida.

Uma continuação aprimorada da tradição de Cranfield é a iniciativa Text Retrieval Conference (TREC), começada nos Estados Unidos, que, desde 1992, promove congressos, estimula a pesquisa em recuperação da informação e fornece uma plataforma para que pesquisadores testem seus sistemas e técnicas e as comparem com outros. Apesar de existirem outras coleções-teste para recuperação da informação, TREC, contendo mais de meio milhão de documentos, tem sido a mais usada. O tamanho da coleção-teste visa uma aproximação maior dos testes com a realidade.

No final dos anos 1970 e começo dos anos 1980, outros métodos de pesquisa para se melhorar o desempenho dos SRls foram desenvolvidos. Ellis (1996) classifica-os nas seguintes áreas:

• Pesquisa baseada em métodos estatísticos e probabilísticos;

• Abordagens cognitivas para a recuperação da informação, incluindo a modelagem cognitiva do usuário;

• O desenvolvimento de sistemas especialistas intermediários como auxiliares na recuperação da informação;

• A aplicação de conceitos e técnicas de inteligência artificial à recuperação da informação;

• A recuperação da informação através do hipertexto.

O centro das preocupações da pesquisa estatística e probabilística é o desenvolvimento de técnicas para indexação, classificação e elaboração automática de resumos, bem como a

busca automática. O primeiro sistema em que esse tipo de pesquisa foi testado foi o histórico sistema SMART, de Gerard Salton. A partir dos anos 1990, essa tradição de pesquisa passou a ser intensivamente continuada nas pesquisas para melhoria da recuperação da informação da Internet, através dos mecanismos de busca. Já os anos 70 e 80 se caracterizaram por uma mudança de ênfase, em que o interesse de pesquisa se dirigiu mais para modelos cognitivos de modelagem dos usuários, nos quais os SRls pudessem se basear, e no desenvolvimento de sistemas especialistas que intermediassem a busca. Um dos mais conhecidos exemplos de proposta de sistema baseado em modelo cognitivo do usuário é o Estado Anômalo de Conhecimento (em inglês, Anomalous States of Knowledge - ASK), de Nicholas J. Belkin. Essa abordagem é criticada por ter gerado sistemas que não foram além do estágio de protótipos, não chegando a se tornar operacionais ou comerciais. Nesse mesmo período, vários sistemas especialistas foram criados para recuperação da informação, embora tenham tido sucesso limitado, como, por exemplo, o CANSEARCH, para a busca da literatura na área de câncer. Além dos sistemas especialistas, outras técnicas da inteligência artificial como processamento da linguagem natural, redes semânticas e redes neurais, têm sido exploradas na tentativa de aprimorar a recuperação da informação.

Cerca de 30% de toda a literatura publicada na Ciência da Informação se dá na área de recuperação da informação (Jarvelin; Vakkari, 1993).

4.4 História e Desenvolvimento da Indústria On-line

Enquanto, desde o final dos anos 1950, eram lançadas as bases para a pesquisa em avaliação de SRls, as técnicas de armazenagem e recuperação de dados bibliográficos em sistemas de computadores foram desenvolvidas durante os anos 1960.

Por volta de 1969, vários produtores de bases de dados criaram fitas magnéticas contendo dados bibliográficos como produtos secundários na produção dos seus periódicos de indexação e resumos. Muitas dessas fitas magnéticas eram adquiridas por grandes organizações, como Shell Research Ltd. e ICI, e usadas em serviços internos de disseminação seletiva de informação (DSI) ou buscas retrospectivas, que eram, naqueles dias, feitos no modo off-line ou batch. Esse tipo de busca era alimentado no computador através de conjuntos de cartões (batch) para processamento, junto com outras buscas que se acumulavam. O resultado era impresso. Costumava haver demora da ordem de dias ou semanas entre o recebimento do pedido de busca e o envio do resultado e não era possível

interação entre o usuário e o sistema. Os softwares usados para as buscas eram, em geral, desenvolvidos internamente.

Embora predominassem naquela época os sistemas off-line, já no final dos anos 1950 e no início dos anos 1960 começam também os primeiros experimentos com sistemas on-

line de recuperação da informação. Lilley e Trice mencionam exemplos desses sistemas:

SAGE11 (1952-1957), na área de defesa aérea, SABRE12 (1962), para reservas de

companhias aéreas, e TlP13 (1964), um sistema desenvolvido no MIT para buscas

bibliográficas em uma coleção de 35 mil citações, na literatura de física. Nessa época, outras organizações nos Estados Unidos começaram a se envolver na área de busca em bases de dados. Em 1964, a lockheed Missiles Corporation demonstrou um sistema on-line, conhecido como CONVERSE, para buscas na base de dados de sua biblioteca. Em 1965, a empresa System Development Corporation (SDC), num projeto financiado pelo Advanced Research Projects Agency (ARPA), do U.S. Department of Defense, se envolveu no desenvolvimento de um sistema que permitiu a 13 organizações privadas e governamentais acessarem, via telefone, um arquivo de 200 mil registros bibliográficos sobre tecnologia estrangeira. O software para esse sistema se chamou ORBIT (Online Retrieval of Bibliographic Information

Time Shared). Também em 1965, a lockheed desenvolveu um outro software para ser

utilizado em uma coleção de cerca de 200 mil documentos da U.S. National Aeronautics and

Space Administration (NASA). Este software, conhecido como RECON (Remote Console), foi

baseado no próprio software de lockheed, que foi, então, renomeado DIALOG. A IBM começou a se envolver nessa área e, por volta de 1966, iniciou o desenvolvimento de um sistema de recuperação bibliográfica que deu origem ao seu sistema STAIRS (Storage and Information Retrieval System).

Também nos anos 1960 surgiram os projetos cooperativos entre bibliotecas para aquisição de documentos, compartilhamento de dados, desenvolvimento de padrões comuns, catalogação cooperativa e comutação bibliográfica entre bibliotecas e centros de informação. Esses projetos, com a adoção de métodos computadorizados nos anos 1970 e 1980, passaram a se responsabilizar pela criação e manutenção de grandes bases de dados bibliográficos para apoio às atividades de processamento técnico e administração de bibliotecas, mas que também podem ser pesquisadas pelo usuário final. A Ohio College

11 Semi-Automatic Ground Environmnt System.

12 Semi-Automated Booking and Reservation Enviroment. 13 Technical Information Project.

Library Center (OClC), criada em 1967, foi a primeira dessas redes de catalogação cooperativa. As bases de dados geradas por essas redes, contendo registros no padrão