3.1.2 Principais Limitações da Web - Um sistema para a recuperação de objectos de aprendizagem

A Web tornou-se numa biblioteca de documentos à escala mundial, constituindo actualmente o maior repositório de informação que disponibiliza conteúdos em páginas estáticas ou dinâmicas e oferece serviços para praticamente todos os sectores da sociedade.

Face à proliferação de conteúdos na Web, surgiram mecanismos de pesquisa, cuja principal função é facilitar a exploração e recuperação de informação. Os mecanismos de pesquisa podem classificar-se em:

a) Directories (listas, catálogos ou directórios, tais como: Yahoo! e Lycos), onde a informação se encontra catalogada de acordo com as descrições das páginas fornecidas por quem as submete;

b) Search engines (motores de pesquisa ou motores de busca de informação, tais como: Google e Altavista), que baseiam a busca de informação em palavras-chave, em robots que realizam o download das páginas Web, em indexadores que criam índices extraindo automaticamente os termos-chave das páginas ou em interfaces de consulta que comparam os termos recebidos com a base de termos indexados (Ramalho, 2002; Sullivan, 2002a).

Contudo, o constante aumento do número de servidores e de páginas Web faz com que a teia de informação assuma dimensões gigantescas, tornando difícil encontrar aquilo que se deseja ou necessita, mesmo recorrendo aos agentes dos motores de busca, pois o número de resultados devolvidos é exageradamente grande e impreciso. As bases de dados de alguns motores de pesquisa são construídas automaticamente com um tipo de programas ou agentes de software denominados rastejadores (crawlers) que analisam periodicamente a informação disponibilizada através de vários serviços da Internet e criam registos sobre o seu conteúdo. Nesta perspectiva, sem constituir uma solução mágica, as meta tags e o texto ALT da tag

image têm sido úteis para apoiar os agentes de pesquisa. As meta tags de título (title meta tag), de classificação (classification meta tag), de descrição (description meta tag) e de

palavras-chave (keywords meta tag) são inseridas no cabeçalho das páginas Web, sendo invisíveis para os utilizadores, mas bastante úteis para os crawlers, uma vez que incluem metadados. No entanto, como nem sempre as meta tags traduzem a realidade do conteúdo dos Websites, os motores de busca passaram a preocupar-se mais com a indexação do texto disponível no corpo da página (Sullivan, 2002b).

Uma outra forma de auxiliar os utilizadores a encontrarem informação sobre determinado assunto foi o aparecimento de portais generalistas e temáticos, munidos de directório e motor de pesquisa. Mas, nem mesmo os portais temáticos, que se tornaram ferramentas importantes para os cibernautas, conseguem lidar facilmente com a grande acumulação de informação.

Actualmente, os motores de busca, entre outras empresas com presença na Web, disponibilizam mecanismos de pesquisa personalizados para cada Website que, após a indexação dos conteúdos internos, facilitam a procura de informação no Website em questão, através de palavras-chave.

Contudo, à medida que cresce o volume de informação e as necessidades de actualização se repetem, os Websites vêem-se obrigados a recorrer a Bases de Dados. As Bases de Dados constituem uma das principais formas de armazenamento de grandes quantidades de informação de forma estruturada, de modo a que a localização de informação armazenada possa ser feita de forma rápida e eficiente. Para tal, esses Websites disponibilizam mecanismos, criados com recurso a linguagens como ASP, PHP ou JSP, com vista a facilitar a recuperação de informação dos conteúdos internos (informação armazenada na base de dados do Website), através de palavras-chave.

No entanto, os motores de busca externos ao Website não conseguem ter acesso aos conteúdos gerados a partir de uma base de dados, uma vez que não têm forma de perceber como os dados se encontram organizados, sendo difícil para um agente externo ao Website realizar inferências sobre as Bases de Dados.

Na perspectiva desse tipo de motores de busca externos ao Website, a grande maioria das Base de Dados, embora armazenem muita informação, é informação que é em grande parte inútil, porque está inacessível, profunda ou invisível. Tal como referido anteriormente, esta parte da Web tem vindo a ser designada de Web profunda ou Web invisível, uma vez que as páginas não estão armazenadas em nenhum local, são geradas dinamicamente apenas quando o utilizador as solicita directamente interagindo com a Base de Dados por intermédio de uma aplicação ou página específica. Vários autores referem que a Web possui algumas centenas de vezes mais informação do que aquela que pode ser acedida usando os actuais motores de busca (Singh, 2002; Bergman, 2001; Sherman, 2001).

Segundo um estudo sobre a Web profunda, intitulado “The Deep Web: Surfacing Hidden Value” (Bergman, 2001), existem centenas de milhares de milhões de páginas Web

escondidas em bases de dados a que os motores de busca convencionais não conseguem aceder, pois os crawlers não conseguem ir além das páginas que encontram e seguir os links nelas inseridos, pois essas Bases de Dados só produzem resultados se questionadas directamente.

Em suma, existe uma panóplia de sítios na Internet recheados de informação útil que dificilmente conseguimos localizar. Por um lado, porque parte dessa informação se encontra algures perdida no fundo do mar de informação onde só os humanos a conseguem entender (para as máquinas essa informação passa despercebida, é difícil de localizar ou, simplesmente, não a conseguem interpretar), e por outro, porque poderá estar armazenada em bases de dados, sendo complicado aceder a ela através dos motores de busca actuais. A constante proliferação de conteúdos na Web tornou cada vez mais difícil encontrar o que quer que seja, mesmo recorrendo a catálogos ou motores de busca, pois o número de resultados devolvidos é exagerado e impreciso. Isto acontece porque os resultados devolvidos correspondem a centenas ou mesmo milhares de páginas Web que contêm palavras iguais às palavras-chave submetidas, não havendo preocupação com a semântica ou significado dessas palavras. Por isso, não é de estranhar que 71% dos 561 inquiridos no estudo publicado pela Roper Starch

Worldwide em Dezembro de 2000 ficassem frustrados com os resultados obtidos aquando da

realização de pesquisas. Embora existam estudos bem mais recentes e animadores, a grande maioria aponta para percentagens entre os 55% e os 74%. Este estudo indicava também que, em média, os internautas começavam a demonstrar indícios de nervosismo após 12 minutos de pesquisa on-line improdutiva, pelo que 86% dos inquiridos achava que deveria ser encontrado um método mais eficiente de filtragem durante as pesquisas na Web (TEK, 2000).

Vários exemplos simples ilustram esta realidade. Imaginemos que pretendíamos descobrir “cursos de formação sobre informática” através de um dos motores de busca mais populares da actualidade: Google. Submetida a pesquisa usando as aspas (é pesquisada a frase exacta), curiosamente não nos devolveria qualquer resultado. Sem as aspas (todas as palavras- chave são pesquisadas), obteríamos cerca de 1.250.000 documentos Web. Se adicionássemos um parâmetro que incluísse algum nível de semântica, como por exemplo “em Dezembro de 2006” como critério de filtragem, esse número baixaria para cerca de cerca de 867.000 documentos Web. Se incluíssemos mais parâmetros para filtrar a pesquisa através do formulário de pesquisa avançada (país, localidade, data de actualização das páginas, língua, formato do documento, tipo de curso, etc), obviamente que conseguiríamos reduzir o número de páginas Web devolvidas. Porém, continuaríamos a obter um número excessivo de páginas

(cerca 350 páginas Web para a pesquisa ilustrada na Figura 18) e a grande maioria delas não corresponde minimamente ao que pretendemos.

Figura 18 – Uma pesquisa de cursos de formação no Google

Mas, para conseguirmos obter uma resposta à nossa questão ainda teríamos que interpretar o conteúdo de cada uma dessas páginas. Portanto, uma pesquisa baseada apenas na sintaxe, deixando a avaliação da semântica para o utilizador, não é a melhor estratégia para orientar as pesquisas numa Web que cresce exponencialmente.

Embora os resultados não sejam famosos, os motores de busca estão indiscutivelmente na ordem do dia. Tal como refere João Paulo Luz (director comercial do SAPO), o acesso a páginas de pesquisa ultrapassou em muito os acessos a outros sites (TEK, 2006). A Microsoft reconhece o potencial desta área e está a trabalhar para ser líder nas pesquisas, enfrentando os actuais líderes das tecnologias de pesquisa: Google e Yahoo!, tal como refere o seu CEO Steve Ballmer (Gutiérrez, 2006).

A Web deixou de ser apenas uma colecção de páginas para se transformar numa infra-estrutura que disponibiliza não só o acesso a páginas estáticas, como também a aplicações e serviços que lidam com a crescente abundância de informação. No entanto, embora a eficácia (atingir os objectivos) e a eficiência (atingir os objectivos optimizando os recursos) dessas aplicações num contexto de aplicação específico (organizações) sejam bastante satisfatórias, o mesmo já não se poderá dizer quando aplicadas a contextos mais gerais ou, em última instância, a toda a Web, uma vez que, embora possam ser eficazes, não conseguem ser eficientes.

Em suma, a evolução da Internet e, mais concretamente, da Web pode resumir-se em três gerações consequentes e cumulativas. Enquanto que a primeira geração da rede permitia apenas a troca de dados entre máquinas distintas sendo a Web resultado da criação manual de páginas em HTML (páginas estáticas), a segunda provocou uma revolução ao disponibilizar uma vasta gama de aplicações e informação para as pessoas (preocupação na apresentação de informação recorrendo a editores e utilizando modelos e folhas de estilo, geração automática de páginas Web baseadas em base de dados - páginas dinâmicas e interactivas - e interacção com o utilizador através de formulários e de mecanismos de busca), tornando também possível o ensino/aprendizagem e o comércio electrónicos. A próxima geração da rede tem vindo a ser designada Web Semântica (Semantic Web) e aposta na estruturação dos recursos de informação, na descrição dos mesmos através de metadados e no recurso a agentes inteligentes orientados por ontologias para eliminar, ou pelo menos atenuar, as limitações dos motores de busca e para apoiar o utilizador na realização de tarefas mais sofisticadas que as executadas actualmente.

As aplicações para a Web Semântica permitirão processar, reutilizar e partilhar a informação inteligentemente, com ou sem ajuda humana. A Web transformar-se-á assim numa enorme base de conhecimento compartilhado, constantemente lida e escrita não só por humanos, mas também por aplicações semânticas.

Diversos autores defendem que existe uma grande similaridade entre o cérebro humano e a Internet. Se todos podemos estar ligados à Internet, poderá esta assumir-se como o cérebro do nosso planeta? E o seu comportamento colectivo será inteligente, podendo constituir uma mente global? Poderá esta forma colectiva de inteligência comparar-se à de uma mente humana individual, ou de um grupo de mentes humanas?

A Internet pode não estar organizada exactamente da mesma forma que o cérebro humano, mas podemos dizer que é uma extensão dele. McLuhan afirmou que as tecnologias podiam ser vistas como extensões dos nossos próprios membros e sentidos. Enquanto extensões de nós próprios, qualquer tecnologia exterioriza, amplifica e modifica diversas funções cognitivas (McLuhan, 1964-1969). Consequentemente, podemos afirmar que a Web poderá vir a transformar-se numa extensão dos nossos sentidos e das nossas mentes, um cérebro global da sociedade em que vivemos. Tal como o cérebro inclui um sistema de memória onde pode armazenar, localizar e recordar informações, também a Internet disponibiliza espaços e protocolos para armazenar, partilhar e recuperar informações, favorecendo a cognição colaborativa de forma descentralizada. Este espaço de partilha de informação é como a memória colectiva da mente global.

Podemos, então, afirmar que a Internet (tecnologia/hardware) tem vindo a evoluir no sentido de um cérebro global distribuído e a sua actividade (agentes de software, seres humanos e dados) representa o processo cognitivo de uma mente global cada vez mais inteligente. Tal como o cérebro humano é composto por milhares de neurónios, também a Internet é uma vasta rede computacional distribuída composta por biliões de processadores em interacção paralela. Nestes processadores podemos incluir os programas de software, os próprios seres humanos e sistemas compostos de ambos, tais como as organizações (as instituições educativas como organizações do saber por excelência são um exemplo evidente disso mesmo). Tal como o poder de raciocínio do cérebro é maior do que o poder da soma das suas partes, também a Internet no seu todo é mais do que a soma de suas partes, beneficiando das características e potencialidades de uma rede de redes. O poder do sistema cresce de forma exponencial à medida que as partes e as relações ou ligações entre elas são adicionadas.

Esta abordagem baseia-se na possibilidade dos servidores poderem ser capazes de aprender o percurso que os cibernautas fazem com vista a que a rede possa funcionar como um cérebro global (Heylighen et al., 2001). Genericamente, esta ideia assume que as hiperligações na Web podem ser vistas como as associações no cérebro humano, ou seja,

como as sinapses que interligam os neurónios. Mais informação sobre esta visão pode ser encontrada no anexo B.

No documento Um sistema para a recuperação de objectos de aprendizagem baseado nas tecnologias para a Web Semântica, para o e-Learning e para os agentes (páginas 96-102)