• Nenhum resultado encontrado

Hawking (2004) define o termo “busca empresarial”, para qualquer or- ganização que possua conteúdo textual em formato eletrônico, como a busca:

• No website externo da empresa;

• Nos websites internos da empresa (sua intranet) e;

• Por outros textos eletrônicos mantidos pela organização, na forma de e-mail, registros da banco de dados e documentos em geral.

Busca empresarial é diferente da busca na Web em vários aspectos (Raghavan, 2001; Hawking, 2004; Mukherjee e Mao, 2004). Em primeiro lugar, a noção de uma “boa” resposta para um consulta é bem diferente. Na Web, ela é definida de maneira vaga. Como muitos documentos são tipicamente relevantes a uma consulta, o usuário está geralmente procurando o “melhor” documento, ou seja, o mais relevante. Em uma intranet, a noção de uma “boa” resposta é geralmente definida como a resposta “certa”. Nesse caso, a consultas tendem a ter poucos resultados (em alguns casos apenas um), e esse resultados não são necessariamente o documento mais “popular”, o que muitas vezes determina o “melhor” resultado na Web.

Em segundo lugar, as forças sociais por trás da criação de conteúdo nesses dois casos são bem diferentes (Hawking, 2004). A Web reflete o esforço coletivo de muitos autores publicam conteúdo livremente, enquanto que uma intranet geralmente reflete a visão da entidade à qual ela serve. O conteúdo de uma intranet é criado visando a disseminação de informação e não para atrair e manter a atenção de algum grupo de usuários em particular. Além disso, nem todos os usuários têm permissão para publicar conteúdo (Mukherjee e Mao, 2004).

Além disso, o conteúdo em uma intranet é oriundo de repositórios heterogêneos. Por exemplo, servidores de e-mail e sistemas de gerenciamento de conteúdo em geral não fazem referência entre si via hiperlinks. Portanto, a estrutura de links em uma intranet é diferente da estrutura na Web. Se- gundo Hawking (2004), cerca de 10% na intranet da IBM, por exemplo, são fortemente conectados entre si, contra cerca de 30% na Web. Nesse sentido, algoritmos que levem em conta essa característica – tal como o PageRank (Brin, 1998) – não é tão efetivo em uma intranet como é na Web. Portanto, outras técnicas devem ser empregadas para melhorar os resultados da busca numa intrantet.

2.3.1 Requisitos

Os aspectos apresentados mostram que técnicas particulares devem ser aplicadas para a implementação de sistemas de busca empresarial. Esses

aspectos podem ser agrupados conforme as seguintes características encon- tradas dentro de uma empresa (Abrol et al., 2001; Hawking, 2004; Mukherjee e Mao, 2004; Demartini, 2007):

• Diversidade de fontes de conteúdo e formato: empresas produzem e consomem informações estruturadas e não estruturadas oriunda de fontes heterogêneas, tais como: bases de dados, sistemas de gerenci- amento de documentos, e-mail, páginas HTML, entre outros. Além disso, os documentos são codificados em uma variedade de formatos de arquivos e linguagens de representação.

• Combinação de busca estruturada e não estruturada: dada a diver- sidade de formatos e tipo de repositórios, é esperado que o sistema de busca seja capaz de oferecer uma interface de busca que integre tanto fontes estruturadas como não estruturadas. Um dos desafios aqui é como combinar mecanismos de ordenação (ranking) que unifiquem e definam a relevância entre repositórios heterogêneos.

• Suporte à busca federada: tal busca permite que um único ponto de acesso visualize o resultado de buscas feitas em múltiplos repositórios, ou feitas por múltiplos motores de busca. O desafio nesse tipo de funcionalidade é o agrupamento eficiente dos resultados e a sua apre- sentação de forma unificada. A dificuldade aqui está na organização de conjuntos diferentes que tipicamente não têm documentos em comum e empregam diferentes mecanismos de ordenação.

• Acesso seguro: o papel desempenhado por um indivíduo em uma em- presa indica que tipo de documentos este pode ter acesso. Este re- quisito exige que os resultados de uma busca sejam filtrados de modo a apresentarem somente os documentos acessíveis pelo usuário. A implementação desse requisito em conjunto com os mecanismos de segurança nativos dos repositórios é um desafio particularmente difícil.

• Processo de geração de conteúdo: enquanto a Web tende a crescer de- mocraticamente, intrantets são normalmente administradas de maneira burocrática. A criação de conteúdo em uma intranet é normalmente centralizada em um pequeno grupo de pessoas. Além disso, a publi- cação de conteúdo pode depender de políticas específicas, envolvendo processos de revisão e de aprovação prévias.

• Contexto de trabalho: ao contrário dos usuários da Web, os funci- onários de uma empresa estão em um contexto de trabalho explícito. Eles desempenham diferentes papeis e estão envolvidos em diversas atividades. Tal contexto deve ser levado em conta pois dá indicações do que pode ser relevante durante o processo de busca.

Hawking (2004) também ressalta como desafio adicional a falta de coleções de teste apropriadas para busca empresarial. Alguns esforços nessa direção vêm sendo feitos, como por exemplo, a coleção desenvolvida por Bailey et al. (2007), no âmbito da conferência TREC.

2.3.2 Abordagens e Tecnologias

Os requisitos para busca empresarial vêm sendo abordados por di- versas técnicas, conforme enumerado (Mukherjee e Mao, 2004; Barrows e Traverso, 2006):

1. Ontologias / Extração de Informação / Web Semântica: a combina- ção de técnicas de extração de informações e ontologias para a geração automática de anotações semânticas permite o enriquecimento de do- cumentos de modo a serem mais precisamente processados. Várias linguagens vêm sendo adotadas como padrão para a representação de ontologias, tais como RDF e OWL.

2. Classificação, clusterização: consiste na organização dos resultados com base em estruturas hierárquicas (uma ontologia, por exemplo), que podem ser criadas manualmente ou geradas a partir da análise da coleção de documentos.

3. Utilização de metadados e “tags”: a associação de metadados (autor, título, data, etc.) permite que a busca possa ser melhor refinada. Além disso, uma abordagem que se popularizou na Web, consiste na utiliza- ção de etiquetas (tags), que são listas de termos que são usadas para enriquecer o conteúdo. Diversos sites da Web, especialmente os que enfatizam o aspecto social (weblogs, sites de compartilhamento de ví- deo e redes sociais), permitem que usuários associem etiquetas próprias ao conteúdo criado. Outro tipo de metadado que pode ser adicionado ao conteúdo é a informação referente ao contexto do usuário (processo, tarefa, papel, aplicação, dispositivo), tal como feito por Gross e Klemke (2002).

4. Sistemas de recomendação: tal abordagem visa analisar o comporta- mento dos usuários definindo perfis, de tal forma que o sistema possa recomendar resultados similares para usuários com perfis semelhantes.

5. Motores de meta-busca: são sistemas que implementam a busca fede- rada, agregando diversos motores de busca e apresentando os resulta- dos de forma unificada.

6. Interfaces gráficas de usuário ricas e adaptáveis: tais interfaces de- vem dar suporte ao usuário tanto para de definição de consultas quanto

para a apresentação e navegação de resultados. Aqui há uma combina- ção das técnicas acima apresentadas: a interface pode ajudar o usuário na construção de consultas estruturadas (por exemplo, baseadas numa ontologia ou taxonomia); e pode combinar aspectos de categorização, metadados e tags visando uma melhor organização dos resultados.

Os próximos capítulos apresentam uma revisão bibliográfica de alguns dos tópicos aqui apresentados: ontologias, Web Semântica e anotações se- mânticas; e recuperação de informação, incluindo busca semântica e baseada em contexto. Uma análise do estado de arte é feita para cada um dos tópicos apresentados.

Ontologias e Web Semântica

Este capítulo apresenta uma revisão bibliográfica sobre algumas áreas de pesquisa relacionadas às ontologias. O objetivo é apresentar ao leitor os conceitos da base para o modelo proposto neste trabalho. Além dos conceitos básicos e áreas de aplicação e pesquisa, este capítulo cobre a área da Web Semântica, que define padrões e tecnologias utilizados para representação de ontologias.

Adicionalmente, este capítulo também cobre tópicos relacionados a anotações semânticas. Uma anotação semântica é um vínculo entre o con- teúdo de um documento e sua descrição formal, definida por ontologias. Este tipo de mecanismo enriquece o conteúdo de documentos permitindo que aplicações tratem esse conteúdo de forma mais precisa. Adicionalmente aos conceitos, são apresentadas as principais técnicas as plataformas disponíveis.

3.1

Introdução

O termo “ontologia” é originário da filosofia, tendo sido definido pelos pensadores gregos da Antiguidade como uma maneira de se estudar a natu- reza do ser e da existência, através da classificação das coisas do mundo. No âmbito da ciência da computação uma ontologia constitui um conjunto de conceitos, propriedades, relações e axiomas que descrevem um dado domínio do conhecimento.

Segundo Studer et al. (1998), “uma ontologia é uma especificação formal e explícita de uma conceitualização compartilhada”. Conceitualização se refere a um modelo abstrato de algum fenômeno no mundo. Explícito significa que o tipo dos conceitos utilizados e as restrições no seu uso são definidos explicitamente. Formal significa que a ontologia deve ser interpre- tável pelas máquinas. Compartilhada reflete a noção de que uma ontologia captura o conhecimento consensual, ou seja, foi aceita por um grupo.

Noy e McGuinness (2001) definem ontologia como sendo uma des- crição formal e explícita de conceitos em um domínio de discurso. Esta

descrição contém classes (também chamadas de conceitos), propriedades (também chamadas de slots ou papeis) que descrevem características e atri- butos dos conceitos e restrições nas propriedades (também chamadas de

facetasou restrições de papeis). As mesmas autoras definem uma base de

conhecimentocomo sendo uma ontologia e suas instâncias.

Por prover as definições acerca de um domínio, ontologias permitem que aplicações usem uma semântica precisa e formal para processarem suas informações. Desse modo, diversas áreas têm tirado vantagem do uso de ontologias, como por exemplo, gestão de conhecimento, sistemas de suporte à aprendizagem (tutores) e comércio eletrônico. Adicionalmente, outra área que vêm impulsionando o uso de ontologias é a Web Semântica (Berners- Lee et al., 2001). Tal área tem oferecido padrões e tecnologias para diversos aspectos na implementação e uso de ontologias. Um exemplo dessas tecno- logias compreende as linguagens padronizadas para representação de ontolo- gias, que são a base para a implementação da grande maioria das aplicações desse tipo.