ANÁLISE DOS SISTEMAS DE BUSCA NA WEB

(1)

A N Á L IS E D O S S IS T E M A S D E B U S C A N A

WEB

_{zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA}

GISELE VASCONCELOS DZIEKANIAK*

R E S U M O

O estudo aborda o cenano informacional no qual a sociedade da informação está inserida, buscando exaltar a importância na classificação e recuperação da informação na Internet. Analisa as diferenças, bem como os pontos positivos e negativos das classes de sistemas de busca mais utilizados e conhecidos atualmente - motores de busca, diretórios e rnetaferramentas - e comenta brevemente as ferramentas híbridas, que mesclam características dos motores de busca e dos diretórios. Estas

classificações baseiam-se na técnica de análise documental dos

ZYXWVUTSRQPONMLKJIHGFEDCBA

h e lp s e

revisão bibliográfica. Aponta os principais critérios de relevância utilizados por estes sistemas na indexação dos documentos para a inserção dos

mesmos em suas bases de dados, evitando a recuperação do lix o

in f o r m a c io n a l pelo usuário, no momento da consulta. Aborda a questão da

multidisciplinaridade entre profissionais da informação envolvidos no

processo de criação e avaliação dos sistemas de busca, a fim de que estes profissionais entrem em consenso acerca da criação e utilização destas novas tecnologias.

P A L A V R A S -C H A V E : Internet; sistemas de busca; motores de busca; diretórios; metaferramentas; web; ferramentas híbridas.

1 - IN T R O D U Ç Ã O

Mais de 500 bilhões de páginas! Essa é a gama de documentos

que compunha a Internet no final do ano 2000. Porém, um número

exorbitante de informação já estava armazenado na rede em 1992,

época em que surgiu o primeiro sistema de busca, com o objetivo de

btimizar o processo de localização e recuperação dessa informação.

Os primeiros sistemas surgiram na tentativa de pôr ordem ao

caos instaurado anteriormente com a explosão documental, e um pouco

mais tarde, com a Internet, servindo de repositório para o b o o m

in f o r m a c io n a l devido

à

disseminação da informação através do suporte

* Bacharel em Biblioteconomia pela FURG; Bibliotecária da UNIFRA; Mestranda em Engenharia de Produção, linha de pesquisa em Tecnologia da Informação, pela UFSM, Santa Maria, RS.

(2)

que se assemelhava aos OPACs 1utilizados atualmente pelas bibliotecas. Há quase dez anos, a

ZYXWVUTSRQPONMLKJIHGFEDCBA

w e b já sofria do mal da desordem

informacional e da dificuldade do pesquisador/estudante/leitor e dos

profissionais envolvidos no processo de preparação, indexação,

armazenamento e recuperação da informação, em gerenciar a informação.

O novo milênio iniciou-se com propostas de novos sistemas de

busca, como a disseminação das metaferramentas (que serão

apresentadas mais adiante no item 2.3 e com a constatação de que

ainda não se resolveu a problemática da busca e acesso à informação

no c ib e r e s p a ç o , e de fatores como a dificuldade para manter atualizados

seus catálogos (a Internet é muito dinâmica, s it e s e lin k s novos estão

sendo inseridos constantemente na rede), prejudicando a qualidade na

disseminação da informação.

Este trabalho busca analisar quais políticas de organização e

principalmente de indexação de documentos/páginas devem ser

tomadas, e o que já está sendo realizado para enfrentar tais dificuldades

até mesmo em relação ao armazenamento dos documentos na " D ig it a l

o r d e r " d e Levy (1995).

Com base no conhecimento tácito, através de testes com

consultas a sistemas de busca como o C a d ê ? e o G o o g le , sabe-se que

os sistemas existentes atualmente não satisfazem as principais

necessidades dos seus usuários.

Isto pode ocorrer por vários motivos: quer devido às falhas

provenientes dos programas que ainda não utilizam a inteligência

artificial a seu favor ou falhas na criação de algoritmos mais eficientes,

quer porque os próprios sistemas de busca trouxeram consigo a

problemática do congestionamento no tráfego de dados.

Nos itens a seguir, serão abordados tipos de sistemas de busca

existentes atualmente no universo virtual, bem como serão discutidas

diferenças entre estes sistemas, suas especificidades e peculiaridades,

critérios de relevância adotados para a formação/indexação de suas

bases de dados, além de abordar a atual problemática enfrentada pelo

profissional da informação envolvido no processo de gerenciamento da

informação.

2 -

aZYXWVUTSRQPONMLKJIHGFEDCBA

S IS T E M A S D E B U S C A

Devido à grande quantidade de informações na Internet e

dificuldades em acessá-Ias, houve a necessidade do desenvolvimento

1 O P A C : O n lin e P u b lic A c c e s s C a t a lo g in g , ou seja, Catálogo Online de Acesso Público.

São os catálogos de bibliotecas disponíveis em rede, para consulta às suas bases de

dados bibliográficos.

172 Biblos, Rio Grande, 14: 171-184, 2002.

de sistemas que, além de armazená-Ias, fornecessem também o seu

acesso através de buscas, como foi mencionado anteriormente. A estes

sistemas dá-se o nome de sistemas de busca, ou mecanismos de

busca, ou Buscadores, ou s e a r c h e n g in e s , entre outras nomenclaturas.

Porém, neste trabalho far-se-á referência a eles como sistemas de

busca, por uma questão de padronização do termo, como também por

ser uma das denominações mais utilizadas na literatura brasileira.

U m sistema de busca, segundo Moura (2001), é um conjunto

organizado constituído de computadores, índices, bases de dados e

algo ritmos com o objetivo de analisar e indexar páginas da rede e

armazená-Ias em uma base de dados. O usuário faz uma Consulta e o

sistema de busca pesquisa em sua base de dados, retornando ao

usuário, através da interface w e b , os resultados recuperados na

pesquisa.

É interessante esclarecer que, ao realizar uma pesquisa, o

usuário não está pesquisando dados diretamente na w e b , e sim em uma

base de dados que armazena as cópias dos s it e s por ela indexados.

Existem oficialmente três classes de sistemas de busca. São

elas: motores de busca, diretórios e metaferramentas. Há uma quarta

divisão, não tão consistente como as anteriormente citadas - as

ferramentas híbridas - mas que não são consideradas como sistema

de busca devido ao fato de serem uma mescla da utilização de

diretórios e de motores de busca. Porém, como poderá ser visto no

item 2.4, as ferramentas híbridas estão se revelando como a melhor

forma de busca, uma vez que permitem ao usuário customizar e

ajustar a sensibilidade e a qualidade da busca, dependendo da sintaxe

adotada e da profundidade objetivada nos resultados de uma pesquisa

via rede.

2.1 - M o to res d e b u sca

U m motor de busca é um tipo específico de sistema de busca,

assim como diretórios e metaferramentas. Surgiu após o sistema de

busca por diretório, porém trouxe algumas vantagens, como a

velocidade no rastreamento de novos s it e s a serem indexados em sua

base de dados e a presença de programas criados para efetuar e

otimizar estas inserções, os chamados robôs.

Segundo a enciclopédia digital Webopedia (2000), motores de

busca são

Programas que pesquisam em documentos por palavras-chave

especificadas e recuperam uma lista de documentos onde as

palavras-chave foram encontradas.

Biblos, Rio Grande, 14:171-184, 2002.

(3)

[Este] (... ) trabalha enviando um robô

ZYXWVUTSRQPONMLKJIHGFEDCBA

( s p id e r ') para buscar o maior

volume de documentos possível. Outro programa, chamado indexador, lê

esses documentos e cria um índice baseado nas palavras contidas em

cada documento. Cada mecanismo de busca" usa um algoritmo próprio

para criar seu índice de tal modo que, em condições ideais, só resultados

significativos sejam recuperados para cada busca.

Os motores de busca possuem três componentes principais. São

eles:

a) um programa de computador denominado robot, spider

aZYXWVUTSRQPONMLKJIHGFEDCBA

(aran h a), crawler (rastejad o res), wanderers (viajan tes), knowbot, worm (verm e), web-bot ou simplesmente ro b ô , que percorre os s it e s

ou páginas armazenadas na w e b e, ao chegar em cada s it e , cria uma

cópia ou réplica do texto contida na página visitada e guarda essa cópia para si. Essa cópia ou réplica vai compor a sua base de dados.

b) uma base de dados, constituída das cópias efetuadas pelo

robô. Essa base de dados, às vezes também denominada índice ou

catálogo, fica armazenada no computador, chamado servidor do

mecanismo de busca.

c) um programa de busca propriamente dito. Esse programa de

busca é acionado cada vez que alguém realiza uma pesquisa. Nesse

instante, o programa sai percorrendo a base de dados do motor de

busca dos endereços - os URL3 - das páginas que contêm as palavras,

expressões ou frases informadas na consulta. Em seguida, os

endereços encontrados são apresentados ao usuário.

Há bibliografias que abordam um quarto componente, que seria a

interface. Preferiu-se neste trabalho não entrar no mérito da interface,

uma vez entendido que todo sistema de busca trabalha via b r o w s e r , e

através da Internet, o que a p r io r i identifica o cenário no qual os

sistemas de busca estão inseridos.

A outra maneira de o motor de busca encontrar os s it e s na w e b é

o autor do s it e informar a este motor de busca qual o endereço, o URL,

deste s it e . Todos os motores têm um quadro reservado para o

cadastramento, submissão ou inscrição de novas páginas.

É

um

h ip e r lin k , que recebe diversas denominações conforme o sistema de busca.

Buscou-se em Cendón (2001, p. 41) esclarecimento sobre as

estratégias para inserção de documentos da w e b :

2Lê-se motor de busca ao invés de mecanismos de busca, pois trata-se de sistemas que

utilizam robôs.

3_URL: U n if o r m R e s o u r c e L o c e t o t : é um endereço único na Internet, composto pelo nome do arquivo, diretório, nome do servidor e o método como ele será requisitado.

174 Biblos, Rio Grande, 14: 171-184, 2002.

[...]Existem várias estratégias que os robôs podem utilizar para se

locomoverem de um documento a outro, utilizando-se dos lin k s

existentes nas páginas da W e b . Geralmente, eles iniciam a busca a partir

de s it e s conhecidos, especialmente daqueles que possuem muitos lin k s ,

recuperam a sua h o m e p a g e e, sistematicamente, seguem os lin k s

encontrados nesta página inicial. Usam algoritmos próprios para

determinar que lin k s devem seguir. Por exemplo, alguns recuperam os

documentos da hierarquia superior de um grande número de servidores

(abordagem b r e a d t h - f ir s t ) [busca em largura], enquanto outros capturam

todos os documentos em lin k s de um mesmo servidor (abordagem d e p t h

-f ir s t ) [busca em profundidade].

2.2 - D iretó rio s

Para conceituar diretórios, não basta dizer que vêm a ser um tipo

de sistema de busca no qual a indexação das páginas da w e b é

realizada por pessoas, como informam muitos trabalhos presentes na

literatura.

Um diretório também precisa ser questionado quanto às suas

metodologias de trabalho na recuperação, armazenagem e organização

da informação. O mesmo apresenta dois componentes principais:

a) uma base de dados, também chamada de índice ou catálogo;

b) um programa de computador que faz a pesquisa na base de

dados.

A montagem ou criação da base de dados de um diretório é

realizada por pessoas, que fazem a análise e a indexação dos s it e s da

w e b . Nos diretórios, não existem robôs para a catalogação e a indexação dos documentos.

Enquanto os motores de busca copiam todo o conteúdo das

páginas que encontram pela frente e mantêm tudo isso em suas bases,

os diretórios mantêm em suas bases de dados apenas um resumo do

conteúdo dos s it e s por eles catalogados.

Muitas vezes esse resumo, que fica na base de dados do

diretório, contém apenas o título do s it e e mais duas ou três frases sobre

o assunto nele contido. Esse resumo tanto pode ser elaborado pelo

autor da página ou por quem a submete, como por um indexador,

dependendo do diretório.

O diretório tem a mesma finalidade dos motores de busca, ou

seja, a indexação e a recuperação de páginas da w e b . Eles têm a

mesma finalidade, porém existem duas diferenças fundamentais entre

os diretórios e os mecanismos de busca.

Umas das diferenças é no modo como o diretório encontra na

w e b os s it e s a serem por ele indexados. Enquanto o programa robô do

motor de busca toma, ou pode tomar, a iniciativa de sair "visitando" os

Biblos, Rio Grande, 14: 171-184,2002.

(4)

s í t e s

zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

e suas páginas pela w e b , o diretório espera que o autor do s í t e e

das páginas apresente-os a ele (demais diferenças serão abordadas no

item 3).

A seguir, tem-se o quadro explicativo do diretório Cadê?

demonstrando como é feito o cadastramento de um

site.

QUADRO 1 - Modo de cadastramento de sites no Diretório Cadê.

aZYXWVUTSRQPONMLKJIHGFEDCBA

1 .C o m o é feito o cad astro d o s sites p elo C ad ê?

O processo de construção do catálogo exige um grande esforço

de qualidade e atenção, garantindo um serviço de qualidade aos

usuários.

A partir da solicitação de inclusão de um site por seu responsável,

a nossa equipe editorial verifica:

a. se o site realmente existe no endereço fornecido;

b . se a descrição está de acordo com o conteúdo do site;

c. se a descrição sugerida está coerente, objetiva e clara para os

usuários e;

d . a inclusão do site na categoria mais adequada do catálogo.

Após estes 4 passos terem sido seguidos criteriosamente, o

endereço é catalogado. São em média 5000 solicitações de

inclusão por semana.

O prazo para colocar seu site no ar é de aproximadamente 10

dias úteis, mas hoje, com investimentos feitos na nossa equipe

editorial, esse prazo tem sido menor

2. P ed i a in clu são d o m eu site h á b astan te tem p o , m as até ag o ra, n ad a. O q u e h o u ve?

Os cadastros são revisados um a um por nossa equipe editorial

para assegurar a qualidade do catálogo e com isso um site pode

levar até 10 dias úteis para ser cadastrado. Caso esse prazo

tenha expirado e seu site ainda não esteja cadastrado, mande um

e-mail com as informações de sua inclusão. Verificaremos o que

aconteceu e lhe daremos.

FONTE: Site Cadê? URL: www.cadê.com.br

2.3 - M etaferram en tas

As metaferramentas são sistemas de busca que utilizam as bases

de dados tanto dos motores de busca quanto dos diretórios para realizar

uma pesquisa na w e b .

As metaferramentas (também denominadas metamotores

e

multibuscadores) não possuem base de dados própria. Devido a isto,

176

Biblos, Rio Grande, 14: 171·184, 2002.

procuram em vários sistemas de busca ao mesmo tempo, sendo esta

sua principal vantagem em relação aos motores de busca e aos

diretórios.

Este tipo de ferramenta é indicado quando não se encontram

muitos resultados ao pesquisar em um só sistema. Pode também ser

utilizado para verificar quais sistemas individuais trazem as melhores

respostas e fornecer uma visão geral do que cada ferramenta contém

sobre um tópico com fins de seleção de um sistema específico para uma

busca mais expandida.

Devido a esta peculiaridade, as metaferramentas são os

sistemas, segundo predições de especialistas no assunto, que mais

crescerão no c í b e r e s p a ç o , uma vez que poupam o tempo do

pesquisador na busca pela informação e compilam resultados.

É

preciso não confundir uma metaferramenta com alguns

sistemas existentes no ambiente w e b que perguntam ao usuário, no

momento da consulta, em qual buscador ele deseja efetuar sua

pesquisa.

Estas são na verdade p s e u d o m e t a f e r r a m e n t a s , pois apenas

disponibilizam uma interface onde vários sistemas são listados sem que

exista um mecanismo de busca integrado. Sendo assim, há uma caixa

para cada sistema, e as consultas são requisitadas e submetidas de

forma separada umas das outras; uma vez escolhido um sistema para

busca, esta opção exclui a busca nos demais sistemas.

Este tipo de procedimento difere da forma com que uma

metaferramenta trabalha, porque esta não efetua a busca em um só

buscado r, e sim em vários buscadores simultaneamente, poupando

dessa forma o tempo do seu usuário.

2.4 - F erram en tas h íb rid as

Como o próprio nome diz, ferramentas híbridas são aqueles

sistemas de busca que se utilizam tanto de motores de busca (robô)

quanto de diretórios (pessoas) para inserir um s U e em sua base de

dados. Basicamente trabalham com o robô no momento da busca pelo

novo s it e a ser inserido na sua base de dados e utilizam a mão-de-obra

humana no momento da indexação destes novos

sites.

O G o o g le é um representante destes sistemas, assim como o L y c o s , o Y a h o o e outros. Essa iniciativa otimizou o processo de busca

na rede, uma vez que o usuário pode adaptar a ferramenta certa para o

tipo de busca desejada. Alguns autores arriscam-se em fazer previsões

de que em um futuro próximo não haverá sistemas somente com uma

modalidade de busca. A tendência será os sistemas híbridos.

(5)

3 -

_{aZYXWVUTSRQPONMLKJIHGFEDCBA}

C A R A C T E R íS T IC A S E D IF E R E N Ç A S

zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA

Os motores de busca diferem dos diretórios por vanas

peculiaridades, entre as quais destacamos as mais representativas

como a representação hierárquica, que vem a ser a forma como as

organizações das páginas são pefetuadas, ou seja, os motores de

busca "preocupam-se menos com a seletividade que com a abrangência

de suas bases de dados" Cendón (2000, p. 41), procurando anexar em

sua base o maior número possível de páginas sem atentar para a

qualidade e relevância do documento.

Outra diferença merecedora de destaque, já citada anteriormente

no momento da definição de cada tipo de sistema de busca, é a forma

de busca utilizada por estes sistemas: os motores de busca utilizam

robôs para efetuar a constante busca por novos

sites

a serem

catalogados em suas bases, enquanto os diretórios utilizam

profissionais da informação (bibliotecários, ontologistas, indexadores)

para selecionar os novos

sites,

inferindo se estes possuem a qualidade

exigida (que está diretamente relacionada com as políticas de inserção

de cada diretório) para compor sua base de dados.

O diretório dispõe de uma equipe de editores (bibliotecários) que

visita o

site

e faz uma revisão do conteúdo. Uma vez aprovada a

inclusão, o

site

é inserido no índice do mesmo. Mas também existem os

diretórios sem editores, os quais aceitam as informações da maneira

que o autor submeteu e as arquivam no respectivo índice. Quando o

diretório adota o procedimento de apenas fazer a inclusão de um

site

após a conferência dos indexadores, três situações podem acontecer:

a) talvez o

site

demore bastante tempo para aparecer na base de

dados. Depende da metodologia de cada diretório: alguns prometem

fazer a inclusão de um

site

no prazo de duas semanas, outros

estabelecem um prazo de até seis semanas;

b) talvez a página jamais seja indexada (pois seu conteúdo pode

não corresponder às expectativas do indexador);

c) talvez o

site

seja logo indexado e fique disponível para futuras

consultas.

As pessoas, ao contrário dos programas de computador,

possuem o que se chama critério d e relevân cia. É segundo os critérios

de relevância que os editores vão avaliar se a página merece ou não

freqüentar os índices. Embora esses critérios não sejam divulgados,

apenas os melhores recursos são selecionados para a inclusão, que

deverá ser classificada em categorias e subcategorias. Quando a URL

do

site

for informada para que o diretório faça a indexação, também

deve informar a qual dessas categorias a página pertence.

178 Biblos, Rio Grande, 14: 171·184,2002.

Os motores de busca e os diretórios também diferem em outros

aspectos: tamanho, modo de cadastramento e de atualização. Os

diretórios geralmente têm uma base de dados de menor tamanho que

os motores de busca, o que não significa que eles produzam resultados

inferiores, ao contrário. Devido ao modo de criação de sua base de

dados, geralmente eles têm um índice de relevância bem maior.

Outro aspecto a considerar é que enquanto um motor de busca

cadastra todas as páginas de um

site

uma a uma, um diretório cadastra

todo um

site,

evitando encontrar, nos resultados de uma pesquisa,

várias vezes a ocorrência do mesmo

site.

As bases de dados dos motores de busca são, de uma maneira

geral, mais atualizadas do que as bases de dados dos diretórios. A

razão dessa maior atualidade é facilmente percebida. Os robôs não

dependem das pessoas para a atividade de indexação da

ZYXWVUTSRQPONMLKJIHGFEDCBA

w e b . Já os

diretórios dependem totalmente das pessoas para essa catalogação, o

que torna o trabalho mais moroso.

O tempo de espera, desde a apresentação de um

site

(ou URL) a

um motor de busca, até que ele venha a surgir nas pesquisas, pode ser

de um dia a três semanas. Nos diretórios, esse tempo de espera

geralmente é bem maior.

4 -

C R IT É R IO S D E R E L E V Â N C IA

Toma-se por critérios de relevância todo recurso utilizado pelos

sistemas de busca no momento da busca, indexação, recuperação e

forma de apresentação dos resultados (ordenação). São eles: tamanho

da base dados, indexação de documentos, inclusão de

sites,

ordenação

dos resultados, freqüência na atualização dos dados, cobertura.

Torna-se difícil a identificação dos critérios de relevância

utilizados pelos sistemas de busca nos resultados das consultas.

Segundo pesquisas recentes, pode-se destacar como uma das

principais dificuldades, a ação constante de alguns

sites

que trabalham

ativamente para impedir que os programas dos sistemas de busca

consigam acessar suas páginas, buscando proteger, desta forma, seus

direitos autorais.

A crescente quantidade de conteúdos e documentos novos

também é um dos fatores determinantes da dificuldade que estes

sistemas têm em oferecer bons resultados para seus usuários

(relevância) .

Os critérios nos diretórios não são divulgados. Porém, crê-se que,

por serem indexados por bibliotecários e profissionais da informação,

utilizam o construto da área, ou seja, vocabulário controlado por tesauro,

(6)

além de utilizarem a linguagem de seus usuários (palavras mais usadas nas buscas) para definir os termos destes tesauros.

4.1 - Critérios de indexação

Se um termo não estiver incluído no índice de um sistema de

busca, ele não será encontrado, portanto os critérios utilizados para

indexação influenciam os resultados das buscas.

A maioria dos motores indexa cada palavra do texto visível das

páginas, mas alguns extraem, em vez do texto completo, apenas a URL,

as palavras que ocorrem com freqüência ou as palavras e frases mais

importantes contidas no título ou nos cabeçalhos e nas primeiras linhas.

Também são indexados termos que não fazem parte do texto

visível, mas que contêm informações importantes e úteis, que são as

ZYXWVUTSRQPONMLKJIHGFEDCBA

m e t a t a g s para classificação, descrição e palavras-chave e texto AL T do t a g I m a g e , ou seja, texto associado com imagens.

Alguns motores não incluem no seu índice algumas palavras do

texto, chamadas s t o p w o r d s (palavras proibidas), tais como preposições

e artigos, porque, além de serem irrelevantes em uma busca, ocupam

muito espaço de armazenamento, por aparecerem com freqüência,

tornando a busca mais lenta.

4.2 - Critérios para inclusão

Alguns sistemas incluem todas ou a maioria das páginas

visitadas. Outros indexam os s it e s superficialmente, ou seja, incluem

apenas ah o m e p a g e e algumas páginas principais.

Há páginas que não estão presentes em nenhum motor de busca.

São aquelas páginas que requerem senhas para acesso (o robô não

tem acesso a elas), bem como páginas em HTML que contenham o

m e t a t a g Meta Robot "noindex". O m e t a t a g Robot «META name=

"robots" contente "noindex"» pode ser acrescentado aos marcadores de

cabeçalho pelo criador da página para indicar aos robôs que eles não

devem capturá-Ia.

Existe dentro da Internet uma parte denominada w e b in v is í v e l, por

incluir páginas não indexadas pela maioria dos motores de busca. São

as páginas que contêm t r e m e s ', im a g e - m a p s e as páginas dinâmicas.

No caso de páginas que contêm t r a m e s , é comum ver-se s it e s com mais

de 100 páginas que somente têm indexada a sua h o m e p a g e . O Google

e o Altavista são alguns dos poucos motores que indexam t r a m e s . Mas

4Frame: Vem a ser, de acordo com CRUMLlSH (1997, p. 97) uma "moldura. Um bloco de dados que, para ser transmitido por uma rede, foi emoldurado com um cabeçalho (header) e um bloco de finalização (trailer).

180 Biblos, Rio Grande, 14: 171·184,2002.

não trazem o contexto em que elas estão inseridas.

Páginas dinâmicas também são difíceis para os robôs, pois são

montadas no momento da formulação da busca, no momento em que o

usuário clica em um lin k . Caracterizam-se por conter quase sempre um

ponto de interrogação como parte da sua URL.

4.3 - Critérios para atualização

Devido

à

grande quantidade informacional presente na w e b , os

dados precisam ser atualizados. Os motores de busca comprometem-se

em atualizar suas bases de dados uma vez por mês. Porém, páginas

mais visitadas e que mudam com maior freqüência são atualizadas em

intervalos mais curtos. Novos URLs e lin k s inativos descobertos pelos

robôs são atualizados diariamente.

Cada motor tem sua própria estratégia para manter-se atualizado.

Alguns passam cerca meses sem cadastrar novos s it e s em função

apenas das atualizações. Há empresas, como a Inktomi, que

disponibilizam programas que cobram uma taxa para inserir um s it e num

prazo de 48 horas.

4.4 - Critérios de ordenação

São os critérios considerados mais importantes numa busca. Com

a finalidade de permitir que os melhores s it e s sejam apresentados nas

primeiras posições, a maioria dos motores de busca utiliza algoritmos de

ordenação de resultados. Esses algoritmos utilizam critérios como:

- L o c a liz a ç ã o e t r e q ü ê n c ia de ocorrência das palavras em uma

página, ou seja, se os termos de busca aparecem no título, nos

cabeçalhos de destaque ou nos primeiros parágrafos de uma página. Se

uma palavra aparece mais freqüentemente em uma página que em

outra, a primeira seria mais relevante.

- N ú m e r o d e t e r m o s d a c o n s u lt a que estão presentes na página e a p r o x im id a d e em que os termos se encontram.

- D e n s id a d e (tamanho do documento): quanto menor o

documento, mais denso. Ou seja, se dois documentos possuem o

mesmo número de repetições para uma palavra, o menor deles será

considerado mais relevante.

- M e t a t a g s de palavras-chave e descrição: representação do

conteúdo da página. Essas informações estão acessíveis nos m e t a t a g s

de descrição ou de palavras-chave.

- P o p u la r id a d e d o s lin k s : refere-se ao número de lin k s que

apontam para uma página. Quanto mais lin k s indicando uma página,

maior relevância ela possui. Assim como, se os s it e s importantes

(7)

referenciam uma página, ela também é considerada importante.

ZYXWVUTSRQPONMLKJIHGFEDCBA

- D ir e c t H it : é um serviço na w e b que monitora quais os lin k s que

milhares de usuários selecionam entre os resultados apresentados para

uma busca e quanto tempo permanecem nos s it e s selecionados. São

exemplos de motores que usam este serviço: HotBot, Lycos e

Metabusca.

- C o n c e it o s ( A n á lis e D o c u m e n t a l) : essa análise é realizada

através do uso de índices gerados por profissionais da informação. Os

resultados são organizados em pastas que representam conceitos ou

assuntos, tipos de s it e s ou idiomas. Os resultados de cada pasta são

ordenados por relevância.

- S p a m : é um conjunto de métodos pouco ético para a promoção

de páginas através da repetição das palavras irrelevantes, porém muito

procuradas, para que as páginas sejam localizadas facilmente. Como

técnica usual de s p a m se têm os textos invisíveis (escritos da mesma

cor do fundo da página) que também são capturadas pelos robôs.

- P a g a m e n t o : técnica discutível que apresenta nas primeiras

posições dos resultados de buscas, os s it e s cujos autores pagaram para

estar entre eles.

5 -

_{aZYXWVUTSRQPONMLKJIHGFEDCBA}

P R O B L E M Á T IC A D O S S IS T E M A S D E B U S C A

Um dos maiores equívocos que se pode apontar na indexação de

documentos na w e b está atrelado ao pouco entrosamento entre os

profissionais da informação.

De um lado tem-se o profissional da informática, dividido entre

várias correntes de pesquisa sobre indexação na w e b dentro da ciência

da computação. Alguns grupos buscam melhorias através de linguagens

ontológicas, ou seja, linguagens utilizadas pela ciência da computação e

que têm sua origem na semântica (área da Lingüística), na utilização da

lógica de predicados (área abstrata que trabalha com a indexação

eletrônica não somente de termos mas também de códigos de

programação, e pode fazer uso de raciocínios mais simples, como a

lógica de Boole, tão conhecida da Biblioteconomia). Outros grupôs

buscam a contribuição da Ciência da Computação para a busca na

Internet através da utilização de fórmulas estatísticas para mensurar os

termos mais utilizados dentro de um conjunto de documentos sobre o

mesmo assunto. Outros, ainda, seguem correntes que estudam o uso

da inteligência artificial para manipulação de termos indexáveis.

Por outro lado, temos os bibliotecários que trabalham em

diretórios que continuam a repetir a velha fórmula de indexação para

182 Biblos, Rio Grande, 14: 17", 84, 2002.

organizar uma base de dados com mais de 10.000 inserções diárias, da

mesma forma como catalogavam e indexavam livros em uma biblioteca.

Enfim, um profissional desconsidera a importância e existência do

outro. O informata desconsidera todo o construto da Biblioteconomia, ou

seja, os séculos de desenvolvimento de técnicas para o tratamento da

informação, no momento em que se envolve com a indexação como se

tivesse sido inventada por eles. E o bibliotecário, por sua vez, não

admite que o profissional da informática detém os meios tecnológicos e

lógicos para facilitar o seu trabalho.

6 -

C O N S ID E R A Ç Õ E S F IN A IS

O presente trabalho buscou fazer referências aos diferentes tipos

de sistemas de busca, diferenciando-os através de metodologias de

trabalho e peculiaridades no armazenamento, indexação, inserção,

ordenação e recuperação da informação na Internet.

Apesar da evolução que houve, partindo dos diretórios - o

primeiro sistema de busca - seguidos dos motores de busca, até chegar

nas metaferramentas, ainda não existe a qualidade almejada pelos

usuários.

Os sistemas de busca atuais não conseguem abranger nem 60%

do conteúdo total da w e b , o que demonstra falhas no seu propósito.

Predições são feitas por especialistas, no sentido de que as

metaferramentas serão o futuro da Internet, uma vez que fazem uma

busca em vários sistemas concomitantemente, assim poupando, o

tempo do usuário e expandindo a margem de acerto (relevância) de

uma consulta.

Algumas tentativas no ramo da Inteligência Artificial (IA) estão

sendo pesquisadas a fim de otimizarem o processo de organização e

buscas, como técnicas heurísticas e sistemas inteligentes, baseadas em

ontologias (lógica semântica) e/ou tesauros mais consistentes.

Os profissionais envolvidos precisam aliar seus conhecimentos, a

fim de estimular a disseminação da informação de qualidade. Enquanto

houver desconsideração da biblioteconomia para com a tecnologia da

informação e vice-e-versa, os resultados serão sempre inferiores

àqueles que poderiam ser obtidos se o trabalho para organizar a

informação na w e b fosse multidisciplinar, envolvendo todas as ciências

da informação: biblioteconomia, arquivística/documentação e a

tecnologia da informação.

Os sistemas de busca na w e b têm muito a desenvolver, a fim de

acompanhar a acelerada produção intelectual, principalmente no que

tange à velocidade de recuperação da informação e à relevância da

(8)

informação nos resultados encontrados nas pesquisas, enfim, todas as

categorias de otimização da disseminação da informação no espaço

virtual. .

Isso porque principalmente a informação publicada e

disponibilizada na rede, na maioria das vezes, não está acessível em

nenhum outro suporte informacional além do digital e o seu acesso

envolve (ou deveria envolver) o crescimento cultural da sociedade do

conhecimento, sociedade da informação, ou seja qual for o nome que se

quiser dar ao período cultural que se está vivendo.

aZYXWVUTSRQPONMLKJIHGFEDCBA

B IB L IO G R A F IA

1. ALENCAR, Maria Simone de M.

ZYXWVUTSRQPONMLKJIHGFEDCBA

M e c a n is m o s d e b u s c a n a w e b : uma análise da metodologia de estudos comparados. 2000. 95f. Dissertação (Mestrado em Ciência da Informação) - Escola de Comunicação, Universidade Federal do Rio de Janeiro, Rio de Janeiro.

2. ALMEIDA, Rubens Queiroz de. Vortais. R e v is t a d e I n f o r m a ç ã o eT e c n o lo g ia : Universo

Internet. Campinas: Unicamp. Disponível em:

<http://www.revista.unicamp.br/infotec/internetlinternet161.htm>.Acessoem:25abr.de 2001.

3. CENDÓN, Beatriz Valadares. Ferramentas de busca na W e b . C iê n c ia d a I n f o r m a ç ã o ,

Brasília, v. 30, n. 1, p. 39-49, janJabr. 2001.

4. CORNELLA, P. Avanços das ferramentas de busca. I n f o n o m ia . Disponível em:

<www.intexnet.com.br/polors/revistalinfonomia/20.htm>Acessoem:300ut.de 2001.

5. CRUMLlSH, Christian. O d ic io n á r io d a in t e r n e t um guia indispensável para os

internautas. Rio de Janeiro: Campus, 1997. 297p.

6. LEVY, David M. C a t a lo g in g in t h e d ig it a l o r d e r . Disponível em:

<http://csdl.tamu.edu/DL95/papers/lew/lew.html> Acesso em: 25 out. 2000.

7. MARTIN, Philippe; EKLUND, Peter W. Knowledge retrieval and the World Wide Web.

I E E E I n t e l/ ig e n t S y s t e m s . 2000 Disponível em: <http://www.ieeeinteligentsystems.com.br> Acesso em: 2 novo2001.

8. MOURA, Gevilacio Aguiar Coêlho de. S is t e m a s d e b u s c a d a w e b : d ir e t ó r io s e

m e c a n is m o s d e b u s c a . Disponível em: <www.guatrocantos.com.br>. Acesso em: 20 out. de 2001.

9. SERACEVIC, Tekfo. Relevance: a review of and a framework for the thinking on the notion in Information Science.J o u r n a l o f t h e A m e r ic a n S o c ie t y f o r I n f o r m a t io n S c ie n c e .V.

26, n.6,p. 321-343, 1975.

10. WEBOPEDIA . Disponível em: <www.webopedia.edu.br>. Acesso em: 20 out. 2001.

1 8 4