• Nenhum resultado encontrado

Capítulo 2 Revisão do Estado de Arte

2.2. Motores de Busca

O crescimento da WWW tem sido tal que as tecnologias dos motores de busca aumentaram significativamente. Um dos indícios remonta-se ao ano 1994, quando um dos primeiros motores de busca indexou cerca de 110,000 páginas e documentos web, e outro em Novembro de 1997, quando os principais motores de busca afirmaram ter indexado entre 2 a 100 milhões de documentos web [Brin e Page 1998]. Os motores de busca em geral, realizam frequentemente uma verificação incremental da web para gerar vários índices relevantes, que podem ser pesquisados mais tarde, em resposta a uma consulta16 do utilizador.

Um estudo interessante sobre o crescimento da web é de [Gulli e Signorini 2005] que alega que o Google tem indexado mais de 8 bilhões de páginas, MSN17 cerca de 5 bilhões, Yahoo aproximadamente 4 bilhões e ASK um pouco mais de 2 bilhões no ano 2005. Dados como estes convertem o Google, Yahoo e Bing nos motores de busca mais

15 Uma página (conhecida comummente como página web ou webpage no Inglês) é um documento HTML com ligações de

hipertexto que permitem navegar de uma página, ou secção para outra.

16 Consulta real introduzida por um utilizador na caixa de busca dos motores de busca.

13

populares de todos os tempos. Um recente estudo do ComScore nos EU pode corroborar esta afirmação: o Google é apresentado como líder dos motores de busca com uma quota de mercado de 66.8%, seguido pelo Bing com 15,6% e pelo Yahoo com 13,0% [ComScore 2012]. Outros dados estatísticos idênticos são apresentados pelo StatCounter, que atribui ao Google uma quota de mercado de 80%, ao Bing 9,5% e ao Yahoo 8% [StatCounter 2012]. Como se pode ver, o Google continua a ser o líder dos motores de busca, possuindo uma média de 70% de audiência nos Estados Unidos e 91% na Europa Ocidental [Lieb 2009].

Um motor de busca define-se como um fragmento de software que utiliza aplicações para recolher informações sobre os sites. As informações recolhidas são normalmente palavras-chave ou frases que são indicadores que se encontram no site, o URL, o código, os links internos e os links externos. Toda está informação é indexada e armazenada numa base de dados [Ledford 2009]. Outro sentido para um motor de busca é a de Kent [2008] que o define “como um site manipulado por visitantes ou utilizadores para procurar documentos pela internet e a todo o sistema utilizado para rastrear, armazenar e indexar documentos web, e conduzir pesquisas na internet”. A vantagem de tudo este sistema é que se pode organizar e pesquisar a enorme quantidade de informação existente na web de uma maneira mais rápida e eficiente. Sullivan tem dividido o motor de busca em dois tipos: motores de busca baseados no crawler18

e às diretorias geridas por pessoas, sendo que estes dois tipos de motores de busca armazenam sites de forma completamente diferentes [Sullivan 2003].

A listagem dos sites nos motores de busca, como o Google, Yahoo ou Bing, baseados no crawler é automática. Os motores de busca referidos rastreiam os sites, armazenando-os e indexando-os em bases de dados gigantescas, a fim de permitir que os utilizadores possam encontrar a informação de que estão à procura (Ilustração 4). Estes motores de busca são capazes de indexar uma variedade de tipos de conteúdo da

web, tais como pdf, doc, ppt, xls, entre outros [Fister 2007], além de que podem

encontrar com muita facilidade as alterações que os sites fazem, quer no seu código, quer na sua conceção. Porém, devido à enorme quantidade de páginas na web as indexações nem sempre estão dirigidas para o site todo [Kobayashi e Takeda 2000], são diversos os fatores que impedem os motores de busca realizar esta ação, como por

18 Conhecidos também como spiders ou robôs, são programas ou scripts automatizados que recolhem informação sobre cada URL

14

exemplo, conteúdo duplicado, manipulação do código fonte, entre outros que não destacam a qualidade de um site [Lewandowski 2005]. No que respeita às alterações nos

sites, de uma ou de outra forma, estas afetam a visibilidade nas SERPs, fazendo com

que os sites fiquem mais longe do seu posicionamento inicial. O URL, as Meta Tags19, o

conteúdo e outros elementos dos sites também desempenham um papel importante no posicionamento das páginas, no entanto, a maioria dos motores de busca utilizam uma mistura de Meta Tags, conteúdo, Link Popularity20, Click Popularity21 e de longevidade para determinar o posicionamento dos sites [Curran 2004].

Na diretoria gerida por pessoas, comumente conhecido como “diretórios”, a listagem dos sites depende das pessoas sendo Dmoz22

um bom exemplo para abraçar esta abordagem. Neste tipo de motores de busca, os webmasters são responsáveis por enviar uma breve descrição dos seus sites para que estes possam ser armazenados nas suas bases de dados, ou os editores responsáveis por gerir estes diretórios escrevem uma pequena descrição para que estes sejam revistos depois. A procura dos utilizadores sobre estes motores de busca, corresponde apenas às descrições apresentadas e quando um site é alterado quer no seu conteúdo ou quer na sua conceição, não tem efeito sobre o posicionamento. As técnicas que são úteis para melhorar o posicionamento nos motores de busca baseados no crawler não funcionam nas diretorias geridas por pessoas. A única exceção é que um bom site com conteúdo único tem mais probabilidade de ser revisto do que um site com pouca informação [Sullivan 2003].

Ilustração 4. Motores de Busca Baseados em Crawler. Fonte: [Pinkerton, 2000].

Os motores de busca ainda têm estabelecido algumas diretrizes para ajudar os

webmasters a maximizar o valor dos seus sites de uma maneira mais simples. O seu

19 São elementos HTML ou etiquetas que informam aos crawlers dos motores de busca sobre o o title tag (nome), description tag

(descrição) e as keywords tag (palavras-chave) de uma página.

20 Número e qualidade de links apontando a um site.

21 Mede o número de vezes que os utilizadores clicam num site através de motores de busca.

15

propósito é que os sites possuam qualidade na sua coneição, código e conteúdo, apresentando informação útil e rápida aos utilizadores. No apêndice são apresentados as diretrizes dos maiores motores de busca: Google, Yahoo e Bing.

Documentos relacionados