Web Semântica - A busca semântica no Google

4.4 WEB SEMÂNTICA E PERSONALIZAÇÃO NO GOOGLE

4.4.3 A busca semântica no Google

4.4.3.2 Web Semântica

Segundo Lima e Carvalho (2004), a maior parte do conteúdo de informações disponibilizadas na Web está direcionada ao entendimento humano. Isso leva a uma grande dificuldade na execução dos serviços de recuperação de informação processados por máquinas, como é o caso do mecanismo de busca do Google. Diante desse contexto,

várias iniciativas, como as desenvolvidas pelo Consórcio W3C (World Wide Web Consortium), buscam, por intermédio da criação de padrões, arquitetura de metadados, serviços de inferências e ontologias, uma melhor forma de tornar as informações processáveis pelas máquinas (LIMA; CARVALHO, 2004, p. 2).

Para Justino (2014), a Web Semântica, uma extensão da Web atual, permitirá que computadores e humanos trabalhem em cooperação. O intento da Web Semântica é o de atribuir sentido aos conteúdos publicados na net de modo a ser perceptível tanto ao humano quanto ao computador. Para alcançar essa finalidade, é necessário desenvolver tecnologias e linguagens que tornem a informação legível também para as máquinas.

compreendam e vinculem dados colocados na rede com semântica, isto é, os computadores, através de ontologias e regras de inferências, encontrem respostas mais precisas para as consultas, descartando o que é irrelevante para o usuário. O objetivo da introdução de semântica na Web é tornar a informação “compreensível” para o computador. Ela representa uma revolução no processamento da informação e, por conseqüência, uma revolução na maneira de se obter e organizar os conhecimentos. Pretende-se que os recursos disponibilizados sejam expressivos o bastante para que máquinas e/ou agentes de software sejam capazes de processar e “entender” o real significado dos dados. (LIMA; CARVALHO, 2004, p. 3).

Antes da Web Semântica, a internet era definida como sintática. Nesta fase, os computadores meramente apresentavam as informações, e o processo de interpretação ainda ficava sob a responsabilidade de seres humanos. Como afirma Breitman (2005), a Internet desenvolveu-se rapidamente como um meio de troca de documentos entre as pessoas, mas o conteúdo semântico das páginas, seu significado, é codificado de uma maneira somente acessível a seres humanos. A questão que se impunha era como se poderia adicionar semântica à forma como os computadores veem uma página.

Para Grimaldo (2004, p. 14), para estruturação da Web Semântica é necessário:

1. Uma linguagem que estruture os objetos digitais sintaticamente, denominada XML (eXtensible Markup Language);

2. Um formato que estruture o significado da informação que possuem os objetos

digitais (em conjunto com os metadados associados a ele) denominado RDF (Resource Description Framework);

3. Um programa de computador que recupere a informação existente, baseado em

Inteligência Artificial, os denominados Agentes Inteligentes;

4. Um conjunto de regras que permitam aos Agentes Inteligentes moverem-se

dentro da Web com liberdade e de acordo com o perfil informacional do usuário que o use, denominado Ontologia.

Vamos passar a esclarecer alguns desses conceitos.

Metadados. Segundo Breitman (2005, p. 6), “metadados são dados sobre dados.

Servem para indexar páginas e sites na Web Semântica, permitindo que outros computadores saibam de que assunto eles tratam”. Ferreira (2010) afirma que conhecemos algumas instituições que utilizam os metadados para catalogar objetos: bibliotecas; museus; etc. De acordo com a International Federation of Library Associations (IFLA), metadado é qualquer informação utilizada para identificar, descrever e localizar recursos (FERREIRA, 2010). Para Figueiredo, os metadados constituem um modo de “possibilitar a associação dos documentos com seus significados” (2006, p. 55). Bernes-Lee, Hendler e Lassila (2001) afirmam, ainda, que, para a Web Semântica funcionar, os computadores devem ter acesso a coleções

estruturadas de informações e conjuntos de regras de inferência que podem ser usadas para

realizar o raciocínio automatizado.

Linguagem XML (eXtensible Markup Language).A linguagem XML funciona

como uma metalinguagem que contém tags111 para descrever o conteúdo de um documento;

seu foco está na descrição dos dados do documento. Segundo Figueiredo, são vantagens dessa linguagem: (a) “sua flexibilidade de criação, expansão e uso”; e (b) a potencialidade de criação de etiquetas de natureza semântica consoantes às necessidades do criador (2006, p. 56). Para Ferreira (2010), a linguagem XML possui elementos que representam as “coisas”.

Padrão RDF (Resource Description Framework). Para Figueiredo (2006, p. 56),

o RDF visa estabelecer um padrão de metadados a serem embutidos na codificação XML. Segundo a autora,

O padrão deve permitir o agrupamento dos dados com uma sintaxe e semântica única. O RDF se baseia num esquema de triplas: um sujeito, um objeto e uma ação e deve permitir que a máquina entenda a estrutura e a organização dos metadados. Dessa forma o resultado da busca nos sistemas de busca se tornará mais preciso (2006, p. 56).

Para Breitman (2005, p. 20),

O Resource Description Framework (RDF) é uma linguagem declarativa que fornece uma maneira padronizada de utilizar o XML para representar metadados no formato de sentenças sobre propriedades e relacionamentos entre itens na Web. Esses itens, chamados de recursos, podem ser virtualmente qualquer objeto (texto, figura, vídeo e outros), desde que possuam um endereço Web.

Vieira et al. (2014, p. 9) afirmam que a forma que o padrão RDF utiliza para a descrição de recursos segue uma estrutura básica: recurso – propriedade – valor, que, por sua vez, caracteriza-se como uma estrutura análoga à tripla: sujeito – predicado – objeto. Para os autores, um recurso é qualquer coisa que possa ter um URI112 (identificador Web); uma

111_{Uma tag é uma “etiqueta, uma palavra-chave (relevante) ou termo associado com uma informação (ex: uma}

imagem, um artigo, um vídeo) que o descreve e permite uma classificação da informação baseada em palavras-chave. Tags ou etiquetas são, usualmente, escolhidas informalmente e como escolha pessoal do autor ou criador do item de conteúdo - isto é, não é parte de um esquema formal de classificação” (TAG, 2014).

112_{URI (Uniform Resource Identifiers) “é uma cadeia de caracteres compacta usada para identificar ou} denominar um recurso na Internet. O principal propósito desta identificação é permitir a interação com representações do recurso através de uma rede [...] usando protocolos específicos. [...] Um URI pode ser classificado como um localizador (URL) ou um nome (URN), ou ainda como ambos. [...] Um Nome de Recursos Uniforme URN (Uniform Resource Name (em inglês)) é como o nome de uma pessoa, enquanto que um Localizador de Recursos Uniforme URL (Uniform Resource Locator (em inglês)) é como o seu endereço. O URN define a identidade de um item, enquanto que o URL nos dá um método para o encontrar”. (INTERNETBASICSSITE, 16).

propriedade indica uma informação sobre um recurso e um valor é o valor da propriedade (que pode ser outro recurso).

Veja-se o esclarecimento prestado por Lima e Carvalho (2004, p. 6): “Em RDF, um documento faz afirmações sobre coisas particulares (pessoas, Web sites) tendo propriedades (tal como: “é mãe de” ou “é autor de”) com certos valores (outra pessoa, outro Web site)”. Em relação à tripla, Ferreira (2010) afirma, ainda, que podemos pensar a “tripla (x, P, y) como uma fórmula lógica P (x, y), em que o predicado binário P relaciona o objeto x para o objeto y”.

Ferreira (2010, p. 35) afirma:

Os conceitos fundamentais do RDF são: recursos, propriedades e expressões. Podemos pensar em um recurso como um objeto, uma “coisa” que quer ser falada. Os recursos podem ser autores, livros, editoras, lugares, pessoas, hotéis, salas, pesquisas e, assim por diante. Cada recurso possui uma URI, um Universal Resource Identifier. [...] URI é o identificador de um recurso da Internet.

As propriedades são um tipo especial de recursos, que descrevem as relações entre os recursos, por exemplo, “escrito por”, “idade”, “título” e assim por diante. Propriedades em RDF também são identificados por URIs (e na prática por URLs).

Agentes Inteligentes113. Constituem programas de computador, que utilizam técnicas de Inteligência Artificial, capazes de “coletar, processar e compartilhar com outros programas as informações da Web” (FIGUEIREDO, 2006, p. 56). Oliveira (2011) ressalta que se tratam de sistemas computacionais autônomos capazes de travar diálogos, negociar e coordenar transferência de informações a fim de atingir os objetivos do seu criador.

São os agentes inteligentes os responsáveis pela varredura da ontologia atrás de informações que sejam úteis ao usuário, inclusive, checando a “consistência lógica dessa ontologia” (WAGNER FILHO; LÓSCIO, 2015, p. 23).

Figueiredo ressalta que os agentes deverão ser capazes de se adaptarem às necessidades de informação humana e inferir resultados para conseguirem uma resposta mais efetiva e eficaz, tanto em tempo de resposta quanto em conteúdo (2006, p. 56, grifo nosso).

Oliveira (2011) apresenta algumas características que os agentes devem possuir: (a) terem autonomia para funcionar sem intervenção humana; (b) possuirem reatividade, a fim de perceberem o ambiente e tomar decisões; (c) terem comportamento colaborativo; (d)

113_{Também denominados de reasoners, raciocinadores, motores de inferência ou mecanismos de inferência} (engine inference).

possuirem objetivos (e) serem flexíveis; (f) serem sociáveis; e (g) terem a capacidade de aprender.

Para Wagner Filho, Lóscio e Campos (2008, p. 4),

Os motores de inferência ou raciocinadores são ferramentas de software que mapeiam uma base de conhecimentos existente (coleção de conceitos e relações entre estes conceitos, fatos e regras), inferindo conhecimentos adicionais e mostrando informações implícitas. Como exemplo de inferência, podemos citar a classificação (computação de todas as classes as quais um determinado indivíduo pertence) e a realização (encontrar as classes mais específicas no qual um indivíduo pertence) de indivíduos. Além da inferência de informações, os raciocinadores têm a capacidade de responder consultas em cima do conhecimento provido e inferido, bem como checagem de consistência de ontologias.

Ontologias.O termo ontologia inicialmente foi utilizado na Filosofia e se referia

ao “estudo dos tipos de entidades no mundo e de como elas estão relacionadas” (FERREIRA, 2010, p. 41); ou seja, “ao estudo dos seres (onto), daquilo que existe e como aquilo que existe está no mundo de acordo com uma classificação hierárquica” (VIEIRA et al., 2014, p. 12).

Em Inteligência Artificial,

o termo ontologia está ligado à representação de um domínio114_{, a ontologia é a} descrição do conhecimento, seguindo alguns princípios básicos como identificação das classes do domínio, da hierarquia de classes, das propriedades e de seus relacionamentos, de forma que reflitam uma realidade. As instâncias são os indivíduos e a configuração de instâncias corresponde a um conhecimento factual respeitando os conceitos gerais expressos na ontologia (VIEIRA et al., 2014, p. 12).

Segundo Breitman (2005, p. 30), o conceito de ontologia de Gruber (1993) é o mais utilizado: “Ontologia é uma especificação formal e explícita de uma conceitualização

compartilhada” (grifo do autor). Trata-se de um documento ou arquivo que formalmente

define relações entre termos (LIMA; CARVALHO, 2004, p. 7).

Através de ontologias, pretende-se atribuir características ou propriedades aos termos e, ainda, exprimir outros tipos de relacionamento, tais como: “parte de, causa-efeito, localização, associação, entre outros” (LASSILA; MCGUINESS, [s.d.] apud BREITMAN, 2006, p. 35).

114_{Exemplos de domínios de conhecimento: médico, farmacêutico, jurídico, financeiro, etc. (BREITMAN,} 2005). Para Morais e Ambrósio (2007, p. 3) ao “conjunto dos elementos de um domínio que podem ser representados em uma ontologia é dado o nome de Universo de Discurso”. Para os mesmos autores, ontologias de domínio “expressam conceitualizações que são específicas de um domínio” (2007, p. 6).

Para Vieira et al. (2014), dentre outros propósitos, a ontologia pode auxiliar na busca de informação na interação entre humanos e sistemas e, também, tem importante papel na inferência computacional, desde que a ontologia tenha um embasamento lógico.

Lógicas específicas para a descrição de conceitos foram desenvolvidas com esse propósito, são as chamadas lógicas de descrição. A inferência tem um papel importante na estrutura da Web Semântica, uma vez descrito, o conhecimento tem que ser manipulado por meio de regras lógicas para a verificação de questões não explicitamente representadas, mas que derivam de uma especificação inicial (VIEIRA et al., 2014, p. 13, grifo nosso).

A OWL (Ontology Web Language) é a linguagem para ontologias no contexto da Web. Ela se baseia na lógica de descrição e possui um suporte para inferência que também está baseado nessa lógica (VIEIRA et al., 2014).

Segundo Vieira et al. (2014, p. 15-16), a construção de ontologias deve ser suficientemente formal para suportar inferência automática e, idealmente, por requerer um consenso entre uma comunidade, devem ser construídas de forma colaborativa.

Diante de exemplo de construção de uma ontologia apresentado na obra de Vieira

et al. (2014), extraímos um passo a passo e algumas definições importantes:

a) Identificação dos indivíduos: como primeiro passo é necessário delimitar o

domínio que será abordado e os indivíduos que farão parte dele, lembrando que os indivíduos podem ser concretos ou não;

b) Identificação de classes: com base nos indivíduos identificados, as classes de

indivíduos serão criadas e, a partir delas, serão identificados grupos menores e mais especializados;

c) Características de propriedades: “propriedades representam os relacionamentos entre dois indivíduos. Cada propriedade deve ter o domínio e a abrangência especificados. As propriedades unem indivíduos de um domínio a indivíduos de uma abrangência” (p. 17).

d) Criação de instâncias: após os três passos anteriormente apresentados, uma

ontologia pode ser instanciada. Tal instanciação é estabelecida conforme a aplicação para a qual ela será destinada. Nessa fase, “o conjunto inicial de indivíduos pode então ser ampliado para que inferências sobre novos dados possa ser realizada [sic]. Como resultado, temos uma base de conhecimento que pode ser utilizada por mecanismos de inferência” (p. 19).

Quanto às inferências para as quais as ontologias podem contribuir, achamos esclarecedor um exemplo utilizado pela W3C (INFERENCE, 2014). Neste exemplo, se considerarmos um conjunto de dados iniciais que estabelece a seguinte relação “Fliper é um

golfinho”, uma ontologia pode declarar que um golfinho também é um mamífero. Assim, um

programa de Web Semântica que compreenda a noção de “X também é Y” pode adicionar a afirmação “Fliper é um mamífero”, ainda que tal afirmação não faça parte dos dados iniciais.

Vale lembrar que, a partir da implantação do Hummingbird e com a introdução da busca semântica, o Google passa a considerar resultados baseados em entidades. “Uma entidade pode ser qualquer coisa ou qualquer conceito que exista. Pode ser um produto, uma empresa, pessoas, lugares, eventos, filmes, ideias, qualquer coisa” – o que se aproxima do conceito de recurso.

Para Simoni (2013), o Google vem expandindo o que já acontece em seu Mapa ou Gráfico de Conhecimento, ao conectar a uma pesquisa diversos atributos e resultados relacionados. Assim, para o autor, o Google tem expandido sua tecnologia, baseando-a em “localização, personalização, contexto e otimização semântica”, sendo que a otimização semântica deve ser compreendida como

uma busca, uma pergunta ou uma ação que gera resultados relevantes mesmo quando os itens do resultado apresentado não contenham exatamente o termo da pesquisa. Isso significa um resultado que considera valor do conteúdo semântico, termos que tenham relação semântica (2013, grifo nosso).

No documento Conciliação de metas em buscas orgânicas no Google: análise das interações usuário-sistema (páginas 120-126)