A N Á L IS E D O S S IS T E M A S D E B U S C A N A
WEB
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
GISELE VASCONCELOS DZIEKANIAK*
R E S U M O
O estudo aborda o cenano informacional no qual a sociedade da informação está inserida, buscando exaltar a importância na classificação e recuperação da informação na Internet. Analisa as diferenças, bem como os pontos positivos e negativos das classes de sistemas de busca mais utilizados e conhecidos atualmente - motores de busca, diretórios e rnetaferramentas - e comenta brevemente as ferramentas híbridas, que mesclam características dos motores de busca e dos diretórios. Estas
classificações baseiam-se na técnica de análise documental dos
ZYXWVUTSRQPONMLKJIHGFEDCBA
h e lp s erevisão bibliográfica. Aponta os principais critérios de relevância utilizados por estes sistemas na indexação dos documentos para a inserção dos
mesmos em suas bases de dados, evitando a recuperação do lix o
in f o r m a c io n a l pelo usuário, no momento da consulta. Aborda a questão da
multidisciplinaridade entre profissionais da informação envolvidos no
processo de criação e avaliação dos sistemas de busca, a fim de que estes profissionais entrem em consenso acerca da criação e utilização destas novas tecnologias.
P A L A V R A S -C H A V E : Internet; sistemas de busca; motores de busca; diretórios; metaferramentas; web; ferramentas híbridas.
1 - IN T R O D U Ç Ã O
Mais de 500 bilhões de páginas! Essa é a gama de documentos
que compunha a Internet no final do ano 2000. Porém, um número
exorbitante de informação já estava armazenado na rede em 1992,
época em que surgiu o primeiro sistema de busca, com o objetivo de
btimizar o processo de localização e recuperação dessa informação.
Os primeiros sistemas surgiram na tentativa de pôr ordem ao
caos instaurado anteriormente com a explosão documental, e um pouco
mais tarde, com a Internet, servindo de repositório para o b o o m
in f o r m a c io n a l devido
à
disseminação da informação através do suporte* Bacharel em Biblioteconomia pela FURG; Bibliotecária da UNIFRA; Mestranda em Engenharia de Produção, linha de pesquisa em Tecnologia da Informação, pela UFSM, Santa Maria, RS.
que se assemelhava aos OPACs 1utilizados atualmente pelas bibliotecas. Há quase dez anos, a
ZYXWVUTSRQPONMLKJIHGFEDCBA
w e b já sofria do mal da desordeminformacional e da dificuldade do pesquisador/estudante/leitor e dos
profissionais envolvidos no processo de preparação, indexação,
armazenamento e recuperação da informação, em gerenciar a informação.
O novo milênio iniciou-se com propostas de novos sistemas de
busca, como a disseminação das metaferramentas (que serão
apresentadas mais adiante no item 2.3 e com a constatação de que
ainda não se resolveu a problemática da busca e acesso à informação
no c ib e r e s p a ç o , e de fatores como a dificuldade para manter atualizados
seus catálogos (a Internet é muito dinâmica, s it e s e lin k s novos estão
sendo inseridos constantemente na rede), prejudicando a qualidade na
disseminação da informação.
Este trabalho busca analisar quais políticas de organização e
principalmente de indexação de documentos/páginas devem ser
tomadas, e o que já está sendo realizado para enfrentar tais dificuldades
até mesmo em relação ao armazenamento dos documentos na " D ig it a l
o r d e r " d e Levy (1995).
Com base no conhecimento tácito, através de testes com
consultas a sistemas de busca como o C a d ê ? e o G o o g le , sabe-se que
os sistemas existentes atualmente não satisfazem as principais
necessidades dos seus usuários.
Isto pode ocorrer por vários motivos: quer devido às falhas
provenientes dos programas que ainda não utilizam a inteligência
artificial a seu favor ou falhas na criação de algoritmos mais eficientes,
quer porque os próprios sistemas de busca trouxeram consigo a
problemática do congestionamento no tráfego de dados.
Nos itens a seguir, serão abordados tipos de sistemas de busca
existentes atualmente no universo virtual, bem como serão discutidas
diferenças entre estes sistemas, suas especificidades e peculiaridades,
critérios de relevância adotados para a formação/indexação de suas
bases de dados, além de abordar a atual problemática enfrentada pelo
profissional da informação envolvido no processo de gerenciamento da
informação.
2 -
aZYXWVUTSRQPONMLKJIHGFEDCBA
S IS T E M A S D E B U S C ADevido à grande quantidade de informações na Internet e
dificuldades em acessá-Ias, houve a necessidade do desenvolvimento
1 O P A C : O n lin e P u b lic A c c e s s C a t a lo g in g , ou seja, Catálogo Online de Acesso Público.
São os catálogos de bibliotecas disponíveis em rede, para consulta às suas bases de
dados bibliográficos.
172 Biblos, Rio Grande, 14: 171-184, 2002.
de sistemas que, além de armazená-Ias, fornecessem também o seu
acesso através de buscas, como foi mencionado anteriormente. A estes
sistemas dá-se o nome de sistemas de busca, ou mecanismos de
busca, ou Buscadores, ou s e a r c h e n g in e s , entre outras nomenclaturas.
Porém, neste trabalho far-se-á referência a eles como sistemas de
busca, por uma questão de padronização do termo, como também por
ser uma das denominações mais utilizadas na literatura brasileira.
U m sistema de busca, segundo Moura (2001), é um conjunto
organizado constituído de computadores, índices, bases de dados e
algo ritmos com o objetivo de analisar e indexar páginas da rede e
armazená-Ias em uma base de dados. O usuário faz uma Consulta e o
sistema de busca pesquisa em sua base de dados, retornando ao
usuário, através da interface w e b , os resultados recuperados na
pesquisa.
É interessante esclarecer que, ao realizar uma pesquisa, o
usuário não está pesquisando dados diretamente na w e b , e sim em uma
base de dados que armazena as cópias dos s it e s por ela indexados.
Existem oficialmente três classes de sistemas de busca. São
elas: motores de busca, diretórios e metaferramentas. Há uma quarta
divisão, não tão consistente como as anteriormente citadas - as
ferramentas híbridas - mas que não são consideradas como sistema
de busca devido ao fato de serem uma mescla da utilização de
diretórios e de motores de busca. Porém, como poderá ser visto no
item 2.4, as ferramentas híbridas estão se revelando como a melhor
forma de busca, uma vez que permitem ao usuário customizar e
ajustar a sensibilidade e a qualidade da busca, dependendo da sintaxe
adotada e da profundidade objetivada nos resultados de uma pesquisa
via rede.
2.1 - M o to res d e b u sca
U m motor de busca é um tipo específico de sistema de busca,
assim como diretórios e metaferramentas. Surgiu após o sistema de
busca por diretório, porém trouxe algumas vantagens, como a
velocidade no rastreamento de novos s it e s a serem indexados em sua
base de dados e a presença de programas criados para efetuar e
otimizar estas inserções, os chamados robôs.
Segundo a enciclopédia digital Webopedia (2000), motores de
busca são
Programas que pesquisam em documentos por palavras-chave
especificadas e recuperam uma lista de documentos onde as
palavras-chave foram encontradas.
Biblos, Rio Grande, 14:171-184, 2002.
[Este] (... ) trabalha enviando um robô
ZYXWVUTSRQPONMLKJIHGFEDCBA
( s p id e r ') para buscar o maiorvolume de documentos possível. Outro programa, chamado indexador, lê
esses documentos e cria um índice baseado nas palavras contidas em
cada documento. Cada mecanismo de busca" usa um algoritmo próprio
para criar seu índice de tal modo que, em condições ideais, só resultados
significativos sejam recuperados para cada busca.
Os motores de busca possuem três componentes principais. São
eles:
a) um programa de computador denominado robot, spider
aZYXWVUTSRQPONMLKJIHGFEDCBA
(aran h a), crawler (rastejad o res), wanderers (viajan tes), knowbot, worm (verm e), web-bot ou simplesmente ro b ô , que percorre os s it e s
ou páginas armazenadas na w e b e, ao chegar em cada s it e , cria uma
cópia ou réplica do texto contida na página visitada e guarda essa cópia para si. Essa cópia ou réplica vai compor a sua base de dados.
b) uma base de dados, constituída das cópias efetuadas pelo
robô. Essa base de dados, às vezes também denominada índice ou
catálogo, fica armazenada no computador, chamado servidor do
mecanismo de busca.
c) um programa de busca propriamente dito. Esse programa de
busca é acionado cada vez que alguém realiza uma pesquisa. Nesse
instante, o programa sai percorrendo a base de dados do motor de
busca dos endereços - os URL3 - das páginas que contêm as palavras,
expressões ou frases informadas na consulta. Em seguida, os
endereços encontrados são apresentados ao usuário.
Há bibliografias que abordam um quarto componente, que seria a
interface. Preferiu-se neste trabalho não entrar no mérito da interface,
uma vez entendido que todo sistema de busca trabalha via b r o w s e r , e
através da Internet, o que a p r io r i identifica o cenário no qual os
sistemas de busca estão inseridos.
A outra maneira de o motor de busca encontrar os s it e s na w e b é
o autor do s it e informar a este motor de busca qual o endereço, o URL,
deste s it e . Todos os motores têm um quadro reservado para o
cadastramento, submissão ou inscrição de novas páginas.
É
umh ip e r lin k , que recebe diversas denominações conforme o sistema de busca.
Buscou-se em Cendón (2001, p. 41) esclarecimento sobre as
estratégias para inserção de documentos da w e b :
2Lê-se motor de busca ao invés de mecanismos de busca, pois trata-se de sistemas que
utilizam robôs.
3URL: U n if o r m R e s o u r c e L o c e t o t : é um endereço único na Internet, composto pelo nome do arquivo, diretório, nome do servidor e o método como ele será requisitado.
174 Biblos, Rio Grande, 14: 171-184, 2002.
[...]Existem várias estratégias que os robôs podem utilizar para se
locomoverem de um documento a outro, utilizando-se dos lin k s
existentes nas páginas da W e b . Geralmente, eles iniciam a busca a partir
de s it e s conhecidos, especialmente daqueles que possuem muitos lin k s ,
recuperam a sua h o m e p a g e e, sistematicamente, seguem os lin k s
encontrados nesta página inicial. Usam algoritmos próprios para
determinar que lin k s devem seguir. Por exemplo, alguns recuperam os
documentos da hierarquia superior de um grande número de servidores
(abordagem b r e a d t h - f ir s t ) [busca em largura], enquanto outros capturam
todos os documentos em lin k s de um mesmo servidor (abordagem d e p t h
-f ir s t ) [busca em profundidade].
2.2 - D iretó rio s
Para conceituar diretórios, não basta dizer que vêm a ser um tipo
de sistema de busca no qual a indexação das páginas da w e b é
realizada por pessoas, como informam muitos trabalhos presentes na
literatura.
Um diretório também precisa ser questionado quanto às suas
metodologias de trabalho na recuperação, armazenagem e organização
da informação. O mesmo apresenta dois componentes principais:
a) uma base de dados, também chamada de índice ou catálogo;
b) um programa de computador que faz a pesquisa na base de
dados.
A montagem ou criação da base de dados de um diretório é
realizada por pessoas, que fazem a análise e a indexação dos s it e s da
w e b . Nos diretórios, não existem robôs para a catalogação e a indexação dos documentos.
Enquanto os motores de busca copiam todo o conteúdo das
páginas que encontram pela frente e mantêm tudo isso em suas bases,
os diretórios mantêm em suas bases de dados apenas um resumo do
conteúdo dos s it e s por eles catalogados.
Muitas vezes esse resumo, que fica na base de dados do
diretório, contém apenas o título do s it e e mais duas ou três frases sobre
o assunto nele contido. Esse resumo tanto pode ser elaborado pelo
autor da página ou por quem a submete, como por um indexador,
dependendo do diretório.
O diretório tem a mesma finalidade dos motores de busca, ou
seja, a indexação e a recuperação de páginas da w e b . Eles têm a
mesma finalidade, porém existem duas diferenças fundamentais entre
os diretórios e os mecanismos de busca.
Umas das diferenças é no modo como o diretório encontra na
w e b os s it e s a serem por ele indexados. Enquanto o programa robô do
motor de busca toma, ou pode tomar, a iniciativa de sair "visitando" os
Biblos, Rio Grande, 14: 171-184,2002.
s í t e s
zyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
e suas páginas pela w e b , o diretório espera que o autor do s í t e edas páginas apresente-os a ele (demais diferenças serão abordadas no
item 3).
A seguir, tem-se o quadro explicativo do diretório Cadê?
demonstrando como é feito o cadastramento de um
site.
QUADRO 1 - Modo de cadastramento de sites no Diretório Cadê.
aZYXWVUTSRQPONMLKJIHGFEDCBA
1 .C o m o é feito o cad astro d o s sites p elo C ad ê?
O processo de construção do catálogo exige um grande esforço
de qualidade e atenção, garantindo um serviço de qualidade aos
usuários.
A partir da solicitação de inclusão de um site por seu responsável,
a nossa equipe editorial verifica:
a. se o site realmente existe no endereço fornecido;
b . se a descrição está de acordo com o conteúdo do site;
c. se a descrição sugerida está coerente, objetiva e clara para os
usuários e;
d . a inclusão do site na categoria mais adequada do catálogo.
Após estes 4 passos terem sido seguidos criteriosamente, o
endereço é catalogado. São em média 5000 solicitações de
inclusão por semana.
O prazo para colocar seu site no ar é de aproximadamente 10
dias úteis, mas hoje, com investimentos feitos na nossa equipe
editorial, esse prazo tem sido menor
2. P ed i a in clu são d o m eu site h á b astan te tem p o , m as até ag o ra, n ad a. O q u e h o u ve?
Os cadastros são revisados um a um por nossa equipe editorial
para assegurar a qualidade do catálogo e com isso um site pode
levar até 10 dias úteis para ser cadastrado. Caso esse prazo
tenha expirado e seu site ainda não esteja cadastrado, mande um
e-mail com as informações de sua inclusão. Verificaremos o que
aconteceu e lhe daremos.
FONTE: Site Cadê? URL: www.cadê.com.br
2.3 - M etaferram en tas
As metaferramentas são sistemas de busca que utilizam as bases
de dados tanto dos motores de busca quanto dos diretórios para realizar
uma pesquisa na w e b .
As metaferramentas (também denominadas metamotores
e
multibuscadores) não possuem base de dados própria. Devido a isto,
176
Biblos, Rio Grande, 14: 171·184, 2002.
procuram em vários sistemas de busca ao mesmo tempo, sendo esta
sua principal vantagem em relação aos motores de busca e aos
diretórios.
Este tipo de ferramenta é indicado quando não se encontram
muitos resultados ao pesquisar em um só sistema. Pode também ser
utilizado para verificar quais sistemas individuais trazem as melhores
respostas e fornecer uma visão geral do que cada ferramenta contém
sobre um tópico com fins de seleção de um sistema específico para uma
busca mais expandida.
Devido a esta peculiaridade, as metaferramentas são os
sistemas, segundo predições de especialistas no assunto, que mais
crescerão no c í b e r e s p a ç o , uma vez que poupam o tempo do
pesquisador na busca pela informação e compilam resultados.
É
preciso não confundir uma metaferramenta com algunssistemas existentes no ambiente w e b que perguntam ao usuário, no
momento da consulta, em qual buscador ele deseja efetuar sua
pesquisa.
Estas são na verdade p s e u d o m e t a f e r r a m e n t a s , pois apenas
disponibilizam uma interface onde vários sistemas são listados sem que
exista um mecanismo de busca integrado. Sendo assim, há uma caixa
para cada sistema, e as consultas são requisitadas e submetidas de
forma separada umas das outras; uma vez escolhido um sistema para
busca, esta opção exclui a busca nos demais sistemas.
Este tipo de procedimento difere da forma com que uma
metaferramenta trabalha, porque esta não efetua a busca em um só
buscado r, e sim em vários buscadores simultaneamente, poupando
dessa forma o tempo do seu usuário.
2.4 - F erram en tas h íb rid as
Como o próprio nome diz, ferramentas híbridas são aqueles
sistemas de busca que se utilizam tanto de motores de busca (robô)
quanto de diretórios (pessoas) para inserir um s U e em sua base de
dados. Basicamente trabalham com o robô no momento da busca pelo
novo s it e a ser inserido na sua base de dados e utilizam a mão-de-obra
humana no momento da indexação destes novos
sites.
O G o o g le é um representante destes sistemas, assim como o L y c o s , o Y a h o o e outros. Essa iniciativa otimizou o processo de busca
na rede, uma vez que o usuário pode adaptar a ferramenta certa para o
tipo de busca desejada. Alguns autores arriscam-se em fazer previsões
de que em um futuro próximo não haverá sistemas somente com uma
modalidade de busca. A tendência será os sistemas híbridos.
3 -
aZYXWVUTSRQPONMLKJIHGFEDCBA
C A R A C T E R íS T IC A S E D IF E R E N Ç A SzyxwvutsrqponmlkjihgfedcbaZYXWVUTSRQPONMLKJIHGFEDCBA
Os motores de busca diferem dos diretórios por vanas
peculiaridades, entre as quais destacamos as mais representativas
como a representação hierárquica, que vem a ser a forma como as
organizações das páginas são pefetuadas, ou seja, os motores de
busca "preocupam-se menos com a seletividade que com a abrangência
de suas bases de dados" Cendón (2000, p. 41), procurando anexar em
sua base o maior número possível de páginas sem atentar para a
qualidade e relevância do documento.
Outra diferença merecedora de destaque, já citada anteriormente
no momento da definição de cada tipo de sistema de busca, é a forma
de busca utilizada por estes sistemas: os motores de busca utilizam
robôs para efetuar a constante busca por novos
sites
a seremcatalogados em suas bases, enquanto os diretórios utilizam
profissionais da informação (bibliotecários, ontologistas, indexadores)
para selecionar os novos
sites,
inferindo se estes possuem a qualidadeexigida (que está diretamente relacionada com as políticas de inserção
de cada diretório) para compor sua base de dados.
O diretório dispõe de uma equipe de editores (bibliotecários) que
visita o
site
e faz uma revisão do conteúdo. Uma vez aprovada ainclusão, o
site
é inserido no índice do mesmo. Mas também existem osdiretórios sem editores, os quais aceitam as informações da maneira
que o autor submeteu e as arquivam no respectivo índice. Quando o
diretório adota o procedimento de apenas fazer a inclusão de um
site
após a conferência dos indexadores, três situações podem acontecer:
a) talvez o
site
demore bastante tempo para aparecer na base dedados. Depende da metodologia de cada diretório: alguns prometem
fazer a inclusão de um
site
no prazo de duas semanas, outrosestabelecem um prazo de até seis semanas;
b) talvez a página jamais seja indexada (pois seu conteúdo pode
não corresponder às expectativas do indexador);
c) talvez o
site
seja logo indexado e fique disponível para futurasconsultas.
As pessoas, ao contrário dos programas de computador,
possuem o que se chama critério d e relevân cia. É segundo os critérios
de relevância que os editores vão avaliar se a página merece ou não
freqüentar os índices. Embora esses critérios não sejam divulgados,
apenas os melhores recursos são selecionados para a inclusão, que
deverá ser classificada em categorias e subcategorias. Quando a URL
do
site
for informada para que o diretório faça a indexação, tambémdeve informar a qual dessas categorias a página pertence.
178 Biblos, Rio Grande, 14: 171·184,2002.
Os motores de busca e os diretórios também diferem em outros
aspectos: tamanho, modo de cadastramento e de atualização. Os
diretórios geralmente têm uma base de dados de menor tamanho que
os motores de busca, o que não significa que eles produzam resultados
inferiores, ao contrário. Devido ao modo de criação de sua base de
dados, geralmente eles têm um índice de relevância bem maior.
Outro aspecto a considerar é que enquanto um motor de busca
cadastra todas as páginas de um
site
uma a uma, um diretório cadastratodo um
site,
evitando encontrar, nos resultados de uma pesquisa,várias vezes a ocorrência do mesmo
site.
As bases de dados dos motores de busca são, de uma maneira
geral, mais atualizadas do que as bases de dados dos diretórios. A
razão dessa maior atualidade é facilmente percebida. Os robôs não
dependem das pessoas para a atividade de indexação da
ZYXWVUTSRQPONMLKJIHGFEDCBA
w e b . Já osdiretórios dependem totalmente das pessoas para essa catalogação, o
que torna o trabalho mais moroso.
O tempo de espera, desde a apresentação de um
site
(ou URL) aum motor de busca, até que ele venha a surgir nas pesquisas, pode ser
de um dia a três semanas. Nos diretórios, esse tempo de espera
geralmente é bem maior.
4 -
C R IT É R IO S D E R E L E V Â N C IAToma-se por critérios de relevância todo recurso utilizado pelos
sistemas de busca no momento da busca, indexação, recuperação e
forma de apresentação dos resultados (ordenação). São eles: tamanho
da base dados, indexação de documentos, inclusão de
sites,
ordenaçãodos resultados, freqüência na atualização dos dados, cobertura.
Torna-se difícil a identificação dos critérios de relevância
utilizados pelos sistemas de busca nos resultados das consultas.
Segundo pesquisas recentes, pode-se destacar como uma das
principais dificuldades, a ação constante de alguns
sites
que trabalhamativamente para impedir que os programas dos sistemas de busca
consigam acessar suas páginas, buscando proteger, desta forma, seus
direitos autorais.
A crescente quantidade de conteúdos e documentos novos
também é um dos fatores determinantes da dificuldade que estes
sistemas têm em oferecer bons resultados para seus usuários
(relevância) .
Os critérios nos diretórios não são divulgados. Porém, crê-se que,
por serem indexados por bibliotecários e profissionais da informação,
utilizam o construto da área, ou seja, vocabulário controlado por tesauro,
além de utilizarem a linguagem de seus usuários (palavras mais usadas nas buscas) para definir os termos destes tesauros.
4.1 - Critérios de indexação
Se um termo não estiver incluído no índice de um sistema de
busca, ele não será encontrado, portanto os critérios utilizados para
indexação influenciam os resultados das buscas.
A maioria dos motores indexa cada palavra do texto visível das
páginas, mas alguns extraem, em vez do texto completo, apenas a URL,
as palavras que ocorrem com freqüência ou as palavras e frases mais
importantes contidas no título ou nos cabeçalhos e nas primeiras linhas.
Também são indexados termos que não fazem parte do texto
visível, mas que contêm informações importantes e úteis, que são as
ZYXWVUTSRQPONMLKJIHGFEDCBA
m e t a t a g s para classificação, descrição e palavras-chave e texto AL T do t a g I m a g e , ou seja, texto associado com imagens.
Alguns motores não incluem no seu índice algumas palavras do
texto, chamadas s t o p w o r d s (palavras proibidas), tais como preposições
e artigos, porque, além de serem irrelevantes em uma busca, ocupam
muito espaço de armazenamento, por aparecerem com freqüência,
tornando a busca mais lenta.
4.2 - Critérios para inclusão
Alguns sistemas incluem todas ou a maioria das páginas
visitadas. Outros indexam os s it e s superficialmente, ou seja, incluem
apenas ah o m e p a g e e algumas páginas principais.
Há páginas que não estão presentes em nenhum motor de busca.
São aquelas páginas que requerem senhas para acesso (o robô não
tem acesso a elas), bem como páginas em HTML que contenham o
m e t a t a g Meta Robot "noindex". O m e t a t a g Robot «META name=
"robots" contente "noindex"» pode ser acrescentado aos marcadores de
cabeçalho pelo criador da página para indicar aos robôs que eles não
devem capturá-Ia.
Existe dentro da Internet uma parte denominada w e b in v is í v e l, por
incluir páginas não indexadas pela maioria dos motores de busca. São
as páginas que contêm t r e m e s ', im a g e - m a p s e as páginas dinâmicas.
No caso de páginas que contêm t r a m e s , é comum ver-se s it e s com mais
de 100 páginas que somente têm indexada a sua h o m e p a g e . O Google
e o Altavista são alguns dos poucos motores que indexam t r a m e s . Mas
4Frame: Vem a ser, de acordo com CRUMLlSH (1997, p. 97) uma "moldura. Um bloco de dados que, para ser transmitido por uma rede, foi emoldurado com um cabeçalho (header) e um bloco de finalização (trailer).
180 Biblos, Rio Grande, 14: 171·184,2002.
não trazem o contexto em que elas estão inseridas.
Páginas dinâmicas também são difíceis para os robôs, pois são
montadas no momento da formulação da busca, no momento em que o
usuário clica em um lin k . Caracterizam-se por conter quase sempre um
ponto de interrogação como parte da sua URL.
4.3 - Critérios para atualização
Devido
à
grande quantidade informacional presente na w e b , osdados precisam ser atualizados. Os motores de busca comprometem-se
em atualizar suas bases de dados uma vez por mês. Porém, páginas
mais visitadas e que mudam com maior freqüência são atualizadas em
intervalos mais curtos. Novos URLs e lin k s inativos descobertos pelos
robôs são atualizados diariamente.
Cada motor tem sua própria estratégia para manter-se atualizado.
Alguns passam cerca meses sem cadastrar novos s it e s em função
apenas das atualizações. Há empresas, como a Inktomi, que
disponibilizam programas que cobram uma taxa para inserir um s it e num
prazo de 48 horas.
4.4 - Critérios de ordenação
São os critérios considerados mais importantes numa busca. Com
a finalidade de permitir que os melhores s it e s sejam apresentados nas
primeiras posições, a maioria dos motores de busca utiliza algoritmos de
ordenação de resultados. Esses algoritmos utilizam critérios como:
- L o c a liz a ç ã o e t r e q ü ê n c ia de ocorrência das palavras em uma
página, ou seja, se os termos de busca aparecem no título, nos
cabeçalhos de destaque ou nos primeiros parágrafos de uma página. Se
uma palavra aparece mais freqüentemente em uma página que em
outra, a primeira seria mais relevante.
- N ú m e r o d e t e r m o s d a c o n s u lt a que estão presentes na página e a p r o x im id a d e em que os termos se encontram.
- D e n s id a d e (tamanho do documento): quanto menor o
documento, mais denso. Ou seja, se dois documentos possuem o
mesmo número de repetições para uma palavra, o menor deles será
considerado mais relevante.
- M e t a t a g s de palavras-chave e descrição: representação do
conteúdo da página. Essas informações estão acessíveis nos m e t a t a g s
de descrição ou de palavras-chave.
- P o p u la r id a d e d o s lin k s : refere-se ao número de lin k s que
apontam para uma página. Quanto mais lin k s indicando uma página,
maior relevância ela possui. Assim como, se os s it e s importantes
referenciam uma página, ela também é considerada importante.
ZYXWVUTSRQPONMLKJIHGFEDCBA
- D ir e c t H it : é um serviço na w e b que monitora quais os lin k s que
milhares de usuários selecionam entre os resultados apresentados para
uma busca e quanto tempo permanecem nos s it e s selecionados. São
exemplos de motores que usam este serviço: HotBot, Lycos e
Metabusca.
- C o n c e it o s ( A n á lis e D o c u m e n t a l) : essa análise é realizada
através do uso de índices gerados por profissionais da informação. Os
resultados são organizados em pastas que representam conceitos ou
assuntos, tipos de s it e s ou idiomas. Os resultados de cada pasta são
ordenados por relevância.
- S p a m : é um conjunto de métodos pouco ético para a promoção
de páginas através da repetição das palavras irrelevantes, porém muito
procuradas, para que as páginas sejam localizadas facilmente. Como
técnica usual de s p a m se têm os textos invisíveis (escritos da mesma
cor do fundo da página) que também são capturadas pelos robôs.
- P a g a m e n t o : técnica discutível que apresenta nas primeiras
posições dos resultados de buscas, os s it e s cujos autores pagaram para
estar entre eles.
5 -
aZYXWVUTSRQPONMLKJIHGFEDCBA
P R O B L E M Á T IC A D O S S IS T E M A S D E B U S C AUm dos maiores equívocos que se pode apontar na indexação de
documentos na w e b está atrelado ao pouco entrosamento entre os
profissionais da informação.
De um lado tem-se o profissional da informática, dividido entre
várias correntes de pesquisa sobre indexação na w e b dentro da ciência
da computação. Alguns grupos buscam melhorias através de linguagens
ontológicas, ou seja, linguagens utilizadas pela ciência da computação e
que têm sua origem na semântica (área da Lingüística), na utilização da
lógica de predicados (área abstrata que trabalha com a indexação
eletrônica não somente de termos mas também de códigos de
programação, e pode fazer uso de raciocínios mais simples, como a
lógica de Boole, tão conhecida da Biblioteconomia). Outros grupôs
buscam a contribuição da Ciência da Computação para a busca na
Internet através da utilização de fórmulas estatísticas para mensurar os
termos mais utilizados dentro de um conjunto de documentos sobre o
mesmo assunto. Outros, ainda, seguem correntes que estudam o uso
da inteligência artificial para manipulação de termos indexáveis.
Por outro lado, temos os bibliotecários que trabalham em
diretórios que continuam a repetir a velha fórmula de indexação para
182 Biblos, Rio Grande, 14: 17", 84, 2002.
organizar uma base de dados com mais de 10.000 inserções diárias, da
mesma forma como catalogavam e indexavam livros em uma biblioteca.
Enfim, um profissional desconsidera a importância e existência do
outro. O informata desconsidera todo o construto da Biblioteconomia, ou
seja, os séculos de desenvolvimento de técnicas para o tratamento da
informação, no momento em que se envolve com a indexação como se
tivesse sido inventada por eles. E o bibliotecário, por sua vez, não
admite que o profissional da informática detém os meios tecnológicos e
lógicos para facilitar o seu trabalho.
6 -
C O N S ID E R A Ç Õ E S F IN A ISO presente trabalho buscou fazer referências aos diferentes tipos
de sistemas de busca, diferenciando-os através de metodologias de
trabalho e peculiaridades no armazenamento, indexação, inserção,
ordenação e recuperação da informação na Internet.
Apesar da evolução que houve, partindo dos diretórios - o
primeiro sistema de busca - seguidos dos motores de busca, até chegar
nas metaferramentas, ainda não existe a qualidade almejada pelos
usuários.
Os sistemas de busca atuais não conseguem abranger nem 60%
do conteúdo total da w e b , o que demonstra falhas no seu propósito.
Predições são feitas por especialistas, no sentido de que as
metaferramentas serão o futuro da Internet, uma vez que fazem uma
busca em vários sistemas concomitantemente, assim poupando, o
tempo do usuário e expandindo a margem de acerto (relevância) de
uma consulta.
Algumas tentativas no ramo da Inteligência Artificial (IA) estão
sendo pesquisadas a fim de otimizarem o processo de organização e
buscas, como técnicas heurísticas e sistemas inteligentes, baseadas em
ontologias (lógica semântica) e/ou tesauros mais consistentes.
Os profissionais envolvidos precisam aliar seus conhecimentos, a
fim de estimular a disseminação da informação de qualidade. Enquanto
houver desconsideração da biblioteconomia para com a tecnologia da
informação e vice-e-versa, os resultados serão sempre inferiores
àqueles que poderiam ser obtidos se o trabalho para organizar a
informação na w e b fosse multidisciplinar, envolvendo todas as ciências
da informação: biblioteconomia, arquivística/documentação e a
tecnologia da informação.
Os sistemas de busca na w e b têm muito a desenvolver, a fim de
acompanhar a acelerada produção intelectual, principalmente no que
tange à velocidade de recuperação da informação e à relevância da
informação nos resultados encontrados nas pesquisas, enfim, todas as
categorias de otimização da disseminação da informação no espaço
virtual. .
Isso porque principalmente a informação publicada e
disponibilizada na rede, na maioria das vezes, não está acessível em
nenhum outro suporte informacional além do digital e o seu acesso
envolve (ou deveria envolver) o crescimento cultural da sociedade do
conhecimento, sociedade da informação, ou seja qual for o nome que se
quiser dar ao período cultural que se está vivendo.
aZYXWVUTSRQPONMLKJIHGFEDCBA
B IB L IO G R A F IA
1. ALENCAR, Maria Simone de M.
ZYXWVUTSRQPONMLKJIHGFEDCBA
M e c a n is m o s d e b u s c a n a w e b : uma análise da metodologia de estudos comparados. 2000. 95f. Dissertação (Mestrado em Ciência da Informação) - Escola de Comunicação, Universidade Federal do Rio de Janeiro, Rio de Janeiro.2. ALMEIDA, Rubens Queiroz de. Vortais. R e v is t a d e I n f o r m a ç ã o eT e c n o lo g ia : Universo
Internet. Campinas: Unicamp. Disponível em:
<http://www.revista.unicamp.br/infotec/internetlinternet161.htm>.Acessoem:25abr.de 2001.
3. CENDÓN, Beatriz Valadares. Ferramentas de busca na W e b . C iê n c ia d a I n f o r m a ç ã o ,
Brasília, v. 30, n. 1, p. 39-49, janJabr. 2001.
4. CORNELLA, P. Avanços das ferramentas de busca. I n f o n o m ia . Disponível em:
<www.intexnet.com.br/polors/revistalinfonomia/20.htm>Acessoem:300ut.de 2001.
5. CRUMLlSH, Christian. O d ic io n á r io d a in t e r n e t um guia indispensável para os
internautas. Rio de Janeiro: Campus, 1997. 297p.
6. LEVY, David M. C a t a lo g in g in t h e d ig it a l o r d e r . Disponível em:
<http://csdl.tamu.edu/DL95/papers/lew/lew.html> Acesso em: 25 out. 2000.
7. MARTIN, Philippe; EKLUND, Peter W. Knowledge retrieval and the World Wide Web.
I E E E I n t e l/ ig e n t S y s t e m s . 2000 Disponível em: <http://www.ieeeinteligentsystems.com.br> Acesso em: 2 novo2001.
8. MOURA, Gevilacio Aguiar Coêlho de. S is t e m a s d e b u s c a d a w e b : d ir e t ó r io s e
m e c a n is m o s d e b u s c a . Disponível em: <www.guatrocantos.com.br>. Acesso em: 20 out. de 2001.
9. SERACEVIC, Tekfo. Relevance: a review of and a framework for the thinking on the notion in Information Science.J o u r n a l o f t h e A m e r ic a n S o c ie t y f o r I n f o r m a t io n S c ie n c e .V.
26, n.6,p. 321-343, 1975.
10. WEBOPEDIA . Disponível em: <www.webopedia.edu.br>. Acesso em: 20 out. 2001.
1 8 4