PARANÁ GOVERNO DO ESTADO

(1)

Pág.

1 Prof. João Junior

blog: http://professorjoaojunior.blogspot.com facebook: www.facebook.com/jr.especialista e-mail: [email protected] msn: [email protected]

PARANÁ

GOVERNO DO ESTADO

COLÉGIO ESTADUAL DE PARANAVAÍ

ENSINO FUNDAMENTAL, MÉDIO, NORMAL E PROFISSIONAL

CURSO TÉCNICO EM INFORMÁTICA

DISCIPLINA: INTERNET E PROGRAMAÇÃO WEB 1º MÓDULO SUBSEQUENTE

MECANISMOS DE BUSCA

Introdução

Desde o surgimento da Internet, ela vem se propagando cada vez mais atingindo um número surpreendente de usuários, ao mesmo tempo em que essa necessidade faz surgir novas tecnologias para o avanço da mesma, além de mais e mais conteúdos para ser pesquisado e acessado do conforto do seu lar através do seu computador pessoal. A boa notícia é que existem centenas de milhões de páginas disponíveis esperando para apresentar informações em uma impressionante variedade de tópicos. A má notícia sobre a Internet é que embora existam centenas de milhões de páginas disponíveis, a maioria delas intitulada de acordo com os caprichos de seus autores, e quase todas elas acomodadas em servidores com nome criptografados. Quando você precisa saber um assunto qualquer, vai precisar encontrar uma determinada página na Internet que traz informações sobre o mesmo, e para fazer isso, você vai precisar de um mecanismo de busca da Internet.

Os mecanismos de busca da Internet são sites especiais, projetados para ajudar as pessoas a encontrar informações armazenadas nesse vasto mundo virtual da World Wide Web. Existem diferenças nas maneiras como os vários mecanismos de busca funcionam, mas eles todos realizam três tarefas básicas, que são:

 Eles buscam na Internet, ou selecionam pedaços da Internet, com base em palavras importantes;

 Eles mantêm um índice das palavras que encontram, e onde eles as encontraram;

 Eles permitem que os usuários procurem palavras ou combinações de palavras localizadas nesse índice.

Anualmente são realizadas centenas de bilhões de pesquisas através dos diversos mecanismos de busca disponíveis na Internet e esse número aumenta acentuadamente ano a ano, de forma que no topo da lista dos mecanismos de busca, o mais utilizado não poderia deixar de ser o da Google.

(2)

Pág.

blog: http://professorjoaojunior.blogspot.com facebook: www.facebook.com/jr.especialista

e-mail: [email protected] msn: [email protected]

Os primeiros mecanismos de busca mantinham um índice de algumas centenas de milhares de páginas e documentos, e recebiam talvez, mil ou duas mil pesquisas por dia. Hoje, um mecanismo de busca de ponta indexa centenas de milhões de páginas, e responde a dezenas de milhões de pesquisas por dia.

Quando a maioria das pessoas falam sobre os mecanismos de busca da Internet, elas, de fato, se referem aos mecanismos de busca da World Wide Web. Antes de a Web se tornar a parte mais visível da Internet, já existiam mecanismos de busca para ajudar as pessoas a encontrar informações na Rede. No começo, programas com nomes como "Gopher" e "Archie" mantinham índices de arquivos armazenados em servidores conectados à Internet e reduziam drasticamente a quantidade de tempo requerida para encontrar suas pesquisas na Internet. No final da década de 1980, extrair o máximo valor da Internet significava saber usar o Gopher, Archie, Veronica e outros.

Base de Funcionamento

Antes de um mecanismo de busca poder dizer a você onde um arquivo ou documento está, ele primeiramente precisa ser encontrado. Para encontrar informações em centenas de milhões de páginas da Web, um mecanismo de busca emprega softwares especiais chamados aranhas, para construir listas de palavras encontradas nos sites. Quando uma aranha está construindo suas listas, o processo é chamado de rastejamento. Para construir e manter uma lista útil de palavras, as aranhas de um mecanismo de busca precisam olhar várias páginas.

O processo inicia-se em pontos iniciais usuais, que são as listas de servidores muito usados e páginas muito procuradas. A aranha começará por um site popular, indexando as palavras em suas páginas e seguindo cada link encontrado dentro do site. Dessa forma, o sistema de aranhas inicia rapidamente a viagem, alastrando-se pelas partes mais amplamente usadas da Internet.

O Google começou como um mecanismo de busca acadêmico. No documento que descreve como o sistema foi construído, Sergey Brin e Lawrence Page dão um exemplo do quão rápido suas aranhas podem funcionar. Eles construíram seu sistema inicial para usar múltiplas aranhas, geralmente três ao mesmo tempo. Cada aranha poderia manter cerca de 300 conexões com páginas da Web abertas ao mesmo tempo. Em seu desempenho máximo, usando quatro aranhas, o sistema deles poderia rastejar sobre 100 páginas por segundo, gerando cerca de 600 kilobytes de dados a cada segundo.

(3)

Pág.

Manter tudo executando rapidamente significava construir um sistema para alimentar as informações necessárias para as aranhas. O primeiro sistema do Google tinha um servidor dedicado a fornecer endereços às aranhas, e também ao invés de depender de um provedor de serviços da Internet para um servidor de nome de domínio (DNS) que traduz um nome de servidor em um endereço, o Google tinha seu próprio DNS, para manter os atrasos em patamares mínimos.

Quando a aranha da Google está em ação, ela olha para uma página HTML e anota duas coisas fundamentais, que são:

 As palavras dentro da página;

 Onde as palavras foram encontradas.

As palavras que ocorrem no título, subtítulos, meta tags e outras posições de relativa importância foram anotadas para consideração especial durante a busca do usuário subsequente. A aranha do Google foi criada para indexar toda palavra significante em uma página, desconsiderando os "um", "uma", "o" e "a", já outras aranhas de diferentes mecanismos de busca, seguem abordagens diferentes e podem considerar essas palavras.

Meta Tags

As meta tags são comandos que permitem aos proprietários de uma página especificar palavras-chave e determinar sob quais delas a página será indexada. Isso pode ser útil, especialmente nos casos em que as palavras na página podem ser ambíguas, ou seja, ter duplo significado, nesse aspecto, as meta tags podem guiar o mecanismo de busca para escolher qual desses vários possíveis significados para essas palavras é o correto. Existe, porém, um perigo em se confiar em excesso nas meta tags, porque um dono de página inescrupuloso ou descuidado pode acrescentar meta tags que se encaixem em tópicos muitos populares, mas que não tenham nada a ver com o real conteúdo da página. Para se proteger contra isso, as aranhas correlacionam as meta tags com o conteúdo da página, rejeitando aquelas que não coincidam com as palavras na página.

Tudo isso presume que o proprietário de uma página, de fato, deseja que essas palavras sejam incluídas nos resultados das atividades de um mecanismo de busca. Porém, muitas vezes, o proprietário da página não deseja que ela seja mostrada em um mecanismo de busca grande, ou não deseja a atividade de uma aranha acessando a página. Considere, por exemplo, um jogo que cria páginas ativas novas sempre que as seções da página são exibidas, ou novos links são seguidos. Se uma aranha acessar uma dessas páginas e começar a seguir

(4)

Pág.

todos os links para novas páginas, o jogo poderia confundir a atividade para um jogador humano muito veloz e sair de controle. Para evitar situações como essas, um protocolo de exclusão de aranha foi desenvolvido. Esse protocolo é implementado na seção de meta tags no início de uma página da Web e diz a uma aranha para deixar a página e não indexar as palavras na página e nem tentar seguir seus links, literalmente solicitando que a mesma se retire da página.

Construindo o Índice

Primeiramente devemos notar que essa é uma tarefa de rastejamento de aranha na

Web que nunca é realmente concluída, pois com a natureza constantemente alterável da

Internet, significa que as aranhas precisarão estar sempre rastejando a procura de mudanças de conteúdos em páginas já visitadas anteriormente.

Mas depois que as aranhas completaram a tarefa de localização das informações nas páginas da Web o mecanismo de busca deve armazenar as informações de uma forma que as torne úteis. Existem dois componentes chaves envolvidos na reunião de dados acessíveis aos usuários, que são:

 As informações armazenadas com os dados;

 O método pelo qual as informações são indexadas.

No caso mais simples, um mecanismo de busca poderia simplesmente armazenar a palavra e o endereço onde ela foi encontrada. Na realidade, isso funcionaria para um mecanismo de uso limitado, já que não haveria maneira de dizer se a palavra foi usada de uma maneira importante ou trivial em uma página, se ela foi usada uma vez ou muitas vezes ou se a página continha links para outras páginas contendo a palavra. Em outras palavras, não haveria maneira de construir a lista de classificação (índice) que tenta apresentar as páginas mais usadas no topo da lista dos resultados da busca.

Para criar mais resultados úteis, a maioria dos mecanismos de busca armazena mais do que simplesmente a palavra ou o endereço. Um mecanismo pode armazenar o número de vezes que a palavra aparece em uma página. O mecanismo pode atribuir um peso a cada entrada, com valores crescentes atribuídos às palavras à medida que elas aparecem próximas ao topo do documento, em subtítulos, em links, nas meta tags ou no título da página. Cada mecanismo de busca comercial tem uma fórmula diferente de atribuir peso às palavras em seu índice. Essa é uma das razões pelas quais uma busca pela mesma palavra em

(5)

Pág.

diferentes mecanismos de busca produzirá listas diferentes, com as páginas apresentadas em ordens diferentes.

Independentemente da combinação, é preciso partes adicionais de informações armazenadas por um mecanismo de busca, os dados precisam ser codificados para economizar espaço de armazenamento. Por exemplo, o documento original do Google descreve o uso de 2 bytes, de 8 bits cada, para armazenar informações sobre a classificação do peso das palavras, tais como: se a palavra estava em letras maiúscula, seu tamanho de fonte, posição e outras informações para ajudar na classificação. Cada fator pode consumir até 2 ou 3 bits dentro de um grupamento de 2 bytes (8 bits = 1 byte). Como resultado, uma grande quantidade de informações pode ser armazenada de uma forma muito compacta. Depois que as informações são compactadas, elas estão prontas para indexação. Um índice tem o único propósito de permitir que as informações possam ser encontradas o mais rapidamente possível.

Como base relativa para criação da tabela de índices, você deve observar, por exemplo, que existem algumas letras que iniciam muitas palavras, ao passo que outras iniciam menos palavras, ou seja, você descobrirá, que a seção "M" do dicionário é muito mais grossa que a seção "X". Essa diferença significa que localizar uma palavra que comece com uma letra muito popular poderia demorar muito mais do que encontrar uma palavra que comece com uma letra menos popular. Mas o mecanismo de busca da Google possui métodos que iguala a diferença e reduz o tempo médio gasto para encontrar uma palavra, dessa forma, a combinação de indexação eficiente e armazenamento eficaz possibilita a obtenção de dados mais rapidamente, mesmo quando o usuário cria uma busca complicada.

Construindo uma Busca

Para realizar uma busca na Internet, envolve um usuário criar uma pesquisa e submetê-la por meio do mecanismo de busca. A pesquisa pode ser bastante simples, com pelo menos uma palavra ou mais complexa por usuários experientes que pode se utilizar de operadores, que permitem que você refine e estenda os termos da busca.

Os operadores mais frequentemente utilizados são:

 AND: Todos os termos unidos por um "AND" (E) devem aparecer nas páginas ou documentos. O mecanismo da Google substitui o operador "+" pela palavra AND.

 OR: Pelo menos um dos termos unidos por "OR" deve aparecer nas páginas ou documentos. O mecanismo da Google substitui o operador "|" pela palavra OR.

(6)

Pág.

 NOT: O termo ou termos após "NOT" não devem aparecer nas páginas ou documentos. O mecanismo da Google substitui o operador "-" pela palavra NOT.

 Sinais de aspas: As palavras entre aspas são tratadas como uma frase, e essa frase deve se encontrar dentro do documento ou arquivo exatamente como foi escrita.

Futuro dos Mecanismos de Busca

As buscas definidas pelos operadores são buscas literais, onde o mecanismo procura por palavras ou frases exatamente como elas são digitadas. Isso pode ser um problema quando as palavras digitadas são ambíguas, ou seja, têm vários significados. A palavra “manga”, por exemplo, pode significar a manga da sua camisa ou uma fruta, assim como palavras leve, pulo, verão, sela, posto, graça, etc. Se você está interessado em apenas um desses significados, você pode não desejar ver páginas que apresentem todos os outros. Você pode construir uma busca literal que tente eliminar significados indesejados, mas é bom se o próprio mecanismo de busca puder ajudar.

Uma das áreas de pesquisa do mecanismo de busca é a pesquisa baseada em conceito. Parte dessa pesquisa envolve o uso de análise estatística em páginas que contêm as palavras ou frases pelas quais você busca para encontrar outras páginas pelas quais você possa estar interessado. Obviamente, as informações armazenadas sobre cada página são maiores para um mecanismo de busca baseado em conceito e muito mais processamento é exigido para cada pesquisa. Muitos grupos estão trabalhando para melhorar ambos, os resultados e o desempenho desse tipo de mecanismo de busca. Outros prosseguiram em outra área de pesquisa, chamada pesquisas de linguagem natural.

A idéia por trás das pesquisas de linguagem natural é que você pode digitar uma pergunta da mesma maneira que perguntaria a um ser humano sentado a seu lado: sem necessidade de controlar os operadores ou complexas estruturas de pesquisa. Atualmente o site de pesquisa de linguagem natural mais popular é o Ask.com (em inglês), que analisa a pesquisa por palavras-chave e depois aplica ao índice de sites que criou. Ele funciona apenas com pesquisas simples, mas a competição é grande para desenvolver um mecanismo de pesquisa de linguagem natural que possa aceitar uma pesquisa de grande complexidade.

(7)

Pág.

blog: http://professorjoaojunior.blogspot.com facebook: www.facebook.com/jr.especialista e-mail: [email protected] msn: [email protected] Bibliografia http://informatica.hsw.uol.com.br/mecanismos-de-busca-da-internet.htm acesso em 07/03/2010 http://www.band.com.br/jornalismo/tecnologia/conteudo.asp?ID=176769 acesso em 17/04/2011