• Nenhum resultado encontrado

4 TECNOLOGIAS DIGITAIS E MECANISMOS DE BUSCA

4.3 SOBRE O SURGIMENTO DOS MECANISMOS DE BUSCA

Os mecanismos de busca tiveram seu início quase que simultaneamente com a criação da internet. A necessidade de encontrar informações na rede fez com que eles fossem desenvolvidos e aperfeiçoados com o passar do tempo, tornando-os hoje praticamente indispensáveis para a busca de informações cotidianas, tais como encontrar um restaurante, uma farmácia; chegar a um local desejado; construir um roteiro de viagem; auxiliar nas pesquisas escolares e acadêmicas, na elaboração de receitas; buscar informações sobre sintomas e gravidade de doenças. Chega-se, assim, ao que é conhecido popularmente como Doutor Google6.

É importante salientar que, apesar de a expressão ser popular, nem todas as respostas encontradas no Google são cientificamente comprovadas ou adequadas,

6 O uso da expressão “Doutor Google” foi anunciada pelos desenvolvedores da plataforma, em um

evento em 6 de fevereiro de 2017, após a verificação de que uma em cada 20 pesquisas no site estava relacionada ao tema saúde. Nessa ocasião, estavam presentes no evento executivos do Google e médicos do Grupo Albert Einstein (VIEIRA, 2017). Estima-se que em torno de 40% dos brasileiros fazem autodiagnóstico pela internet (FELIX E DIÓGENES, 2018).

62 como é o caso de resultados sobre sintomas de doenças. Há a necessidade de as informações serem interpretadas por um especialista para adaptá-las à realidade do indivíduo (VIEIRA, 2017).

Independentemente do uso que é dado aos mecanismos de busca na gestão do cotidiano, pode-se afirmar que eles são “uma tecnologia incontornável no nosso dia-a-dia [...] basta-nos pensar numa palavra e logo estamos a digitar numa caixa de texto, e ainda sem sequer ter pressionado o enter, já estamos a ser bombardeados com os resultados” (FERNANDES, 2013, documento eletrônico).

A aparência dos mecanismos de busca não se alterou de forma significativa, no que se refere à navegação dos usuários. Ela é composta basicamente por três etapas: um campo de busca para entrada da palavra-chave (digitação, voz etc.); um “botão” para dar início à pesquisa; e um campo para a apresentação dos resultados.

A evolução dos mecanismos de busca teve várias fases até chegarmos aos dias atuais, com o protagonismo do Google. Segundo Gabriel (2018), a ideia de sistema de filtragem de informação vem sendo discutida desde a primeira metade do século XX, com a publicação do artigo de Vannevar Bush, em 1945, “As We May Think”. Nesse trabalho, o autor destaca o MEMEX: fusão das palavras memory index, uma máquina hipotética capaz de armazenar toda a produção humana, permitindo consultas mecanizadas rápidas e flexíveis.

Além disso, Gabriel (2018) também ressalta que, até 1993, um longo caminho foi trilhado, passando pelo projeto Xanadu e pelo memorando publicado pelo cientista Joseph Carl Robnett Licklider, em que apresenta o conceito de uma rede computacional intergaláctica. Todas essas ideias e concepções contribuíram para a formação da rede ARPANET, em 1968, a qual é considerada a origem da atual internet.

Gabriel (2012) ainda ressalta que, no período entre 1960 e 1990, os estudos de Gerard Salton e suas equipes, nas universidades de Harvard e Cornell, desenvolveram o sistema SMART. No ano de 1975, um marco importante para a evolução do estudo sobre os motores de busca foi a publicação do livro “A Theory of Indexing”, considerado uma referência para as atuais tecnologias de busca, por discutir como funciona a indexação de conteúdo. Já em 1989, Tim Berners, na empresa CERN, desenvolveu o protocolo HTTP, marcando o início da World Wide Web (WWW) na internet (GABRIEL, 2012).

63 Em relação ao surgimento dos mecanismos de busca, o primeiro buscador de que se tem conhecimento é o Archie. Ele foi desenvolvido em 1990 pelo estudante canadense Alan Emtage (GABRIEL, 2012; MACEDO, 2015). Em 1993, foi lançado o Wandex, por alunos do Instituto de Tecnologia de Massachusetts (MIT), o qual era um programa automatizado que acessava e percorria links presentes nas páginas. Ainda em 1993, o Excite foi lançado por um grupo de alunos da Universidade de Stanford, sendo considerado o início da sofisticação das buscas (MACEDO, 2015).

Segundo Gabriel (2012), em 1994, é criado o Yahoo!, o mais popular mecanismo de busca até então. Parecia haver certa “explosão” no desenvolvimento de tais recursos: “em um período de 12 meses, vimos o lançamento de nomes icônicos do setor que prepararam o caminho para o Google, como Infoseek, AltaVista, WebCrawler, Yahoo! e Lycos” (MACEDO, 2015, documento eletrônico).

Em 1995, no Brasil, foi lançado o Cadê?, ano em que a internet começou a funcionar comercialmente no país. Sendo assim, os buscadores Cadê?, Yahoo! e Altavista dominaram o mercado até o final dos anos 1990, quando a popularidade do Google começou a aumentar. Esse mecanismo, considerado o mais relevante da atualidade e utilizado por cerca de 95% dos usuários da internet, surgiu entre 1996 e 1998.

Em 1996, no mercado brasileiro, a UOL lança o Metaminer. Em 1997, é lançado o Aonde e, em 1999, surge o Radix (MACEDO, 2015). Cabe salientar que diversos outros mecanismos de busca foram criados, e, embora muitos tenham sido desativados ao longo do tempo - como o Powerset, lançado em 2008 e adquirido pela Microsoft em 2009; o Bing, de 2009, desenvolvido pela Microsoft; e o Wolfran Alpha, também de 2009 (GABRIEL, 2012) -, vários ainda estão ativos.

Em relação ao funcionamento dos mecanismos de busca, eles obedecem basicamente a três etapas: rastreamento (crawling); indexação (indexing); e pesquisa (searching). A etapa de rastreamento é definida da seguinte forma:

Antes de ser possível pesquisar é necessário que o motor de pesquisa preencha o seu índice com os documentos sobre o qual efetuará a pesquisa. O motor de pesquisa delega essa tarefa de rastreamento, ou seja, encontrar na WWW os documentos que vão fazer parte do seu índice, a um software que se denomina por web crawler (também podendo ser denominado de

spider ou internet bot). A esta web crawler é fornecido uma lista de URLs

(chamada de semente) a partir dos quais ele começa a seguir todas as hiperligações encontradas nessas páginas e nas páginas seguintes e assim sucessivamente até ter visitado e copiado todas as páginas pretendidas. Existem milhares de bots a percorrer a web constantemente, o bot do Google

64

chama-se muito apropriadamente Googlebot. É com estas cópias das páginas que o motor de pesquisa constrói o seu índice. A dimensão da internet atual é tão grande que estes crawlers não a conseguem rastrear completamente. A internet que não está indexada pelos motores de pesquisa é designada por Web Invisível (Deep Web) (FERNANDES, 2013, documento eletrônico).

Quanto à segunda etapa, denominada indexação, Fernandes (2013) faz as seguintes observações:

A fase de indexação corresponde ao processo pelo qual o motor de pesquisa extrai a informação necessária desses documentos e a armazena na sua base de dados para que as pesquisas a serem efetuadas sobre esse índice sejam rápidas e precisas. Se não houvesse este processo de indexação, as pesquisas sobre o conjunto de documentos (corpus) poderiam demorar horas ou mesmo dias para apenas uma consulta (FERNANDES, 2013, documento eletrônico).

O índice tem normalmente a forma de um índice invertido. A ideia é manter um vocabulário de todos os termos encontrados nos documentos com a indicação (lista) de onde esses termos existem. Este índice é um fator chave na eficiência dos sistemas de Recuperação de Informação, dos quais os motores de pesquisa fazem parte (FERNANDES, 2013, documento eletrônico).

E a terceira etapa com a qual se relaciona a pesquisa é caracterizada do seguinte modo:

O primeiro passo na resposta a uma consulta é analisar (fazer o parsing) dessa consulta. Os tipos de consultas disponíveis em sistemas de Recuperação de Informação são diversas, podemos ter consultas booleanas, consultas de proximidade, consultas wildcard e consultas com correções ortográficas automáticas, entre outras.

Depois de interpretada a consulta, o sistema de RI irá procurar todos os documentos que correspondem à palavra-chave(s) usada na consulta. Nesta fase não há ordenação (ranking) entre documentos processados, apenas se pretende identificar todos os documentos que são candidatos a pertencer à lista de resultados possíveis. Como o número de resultados pode ser na ordem das centenas ou mesmo milhares, é importante que alguma ordenação se aplique à lista dos resultados. Os resultados encontrados são assim devolvidos numa lista de resultados ordenados por ordem de relevância. A determinação da ordem da relevância obedece a um algoritmo de

ranking/scoring. Um dos métodos mais populares para fazer o scoring dos

documentos é o ''Term Frequency-Inverse Document Frequency'' (tf-idf), mas existem vários outros métodos, como por exemplo o Okapi BM25 ou o Latent Semantic Indexing (LSI) (FERNANDES, 2013, documento eletrônico).

Apesar da constante evolução dos motores de busca ao longo dos anos, ressalta-se que as ferramentas que conquistaram popularidade foram aquelas que proporcionaram as melhores experiências para os usuários. É justamente nesse

65 aspecto que o Google obteve destaque, tornando-se mecanismo hegemônico em apenas 20 anos.