• Nenhum resultado encontrado

2 Fundamentos e Estado da Arte

2.2 Conceitos Complementares

A integração da semântica de textos e a personalização de consultas multidimensio- nais tem o objetivo de melhorar a relevância dos resultados obtidos pelos tomadores de decisão. Os sistemas de recomendação oferecem esta possibilidade de personalização e uma das formas de obter a relação semântica entre documentos é por meio de uma ontologia. Por essa razão são descritas a seguir as tecnologias que também são utilizadas neste trabalho: ontologia e sistemas de recomendação.

No desenvolvido do protótipo PAMDES (Capítulo 5), uma ontologia foi utilizada para auxiliar no desenvolvimento de algoritmos para permitir a agregação (roll-up) de

2.2. Conceitos Complementares 35

documentos em bases multidimensionais. A ontologia utilizada no desenvolvimento reúne os conceitos e relacionamentos de domínio da aplicação, que nesse caso, trata-se do domínio da biomedicina.

2.2.1

Ontologia

Uma ontologia é uma especificação formal e explícita sobre um conceito com- partilhado [SKOUTAS; SIMITSIS, 2007], onde os conceitos são ricamente definidos e organizados em hierarquias de subsunção [NEUMAYR; ANDERLIK; SCHREFL, 2012]. Em [ZHUOLUN; SUFEN, 2008], o termo ontologia é definido como uma maneira de descrever metadados em comum por meio de uma coleção semelhante de objetos.

Ontologia é um conceito isométrico emprestado da filosofia pelas comunidades da Inteligência Artificial e Tecnologia da Informação. Os elementos de sua composição como entidades, atributos, relações e axiomas podem ser expressos de uma maneira que não apenas os seres humanos consigam compreender, mas também máquinas podem interpretá-los, já que existe uma lógica na criação e na manutenção de ontologias.

No contexto de uma aplicação de Data Warehouse, as ontologias podem ser usadas como um modelo conceitual para descrever aspectos relacionados à semântica contida nas fontes de dados, permitindo assim que o uso de técnicas racionais possa ser aplicada para inferir correspondências e apontar conflitos entre as fontes [SKOUTAS; SIMITSIS, 2007]. O acesso à informação e o gerenciamento da informação são aspectos cada vez mais desafiadores quando se trata da alta taxa de volume de crescimento de dados. Por essa razão, as ontologias de domínio são uma forma fundamental de representação do conhecimento em um determinado domínio [MUSTAPHA et al., 2012].

Por sua vez, a ontologia deve ser bem construída para que possa realmente ajudar o desenvolvimento de pesquisas e gestão de sistemas de informação baseados em conhecimento, tais como ferramentas de busca, sistemas de recomendação, sistemas de classificação automática de textos, sistemas de gerenciamento de conteúdo, entre outros. No entanto, a efetividade desses sistemas depende da ontologia ser a mais completa possível e possuir uma representação que se adapte no processo de buscas em bases textuais.

Existem diferentes tipos ou níveis de ontologia. [BEPPLER, 2008] cita três tipos básicos de ontologia:

Ontologia de domínio: representam o conhecimento de um domínio particular, como

é o caso das ontologias específicas para as áreas de medicina, biomedicina, eletrônica, engenharia mecânica, comércio eletrônica, biologia dentre outras. Esse tipo de ontologia é a que foi utilizada neste trabalho.

conhecimento geral sobre o mundo, além de noções básicas e conceitos diversos, tais como: tempo, espaço, estado, evento, ação, etc. Essa categoria de ontologia é, portanto, independente de um problema ou domínio específico.

Ontologias representacionais: armazenam a descrição de estruturas conceituais e

metaestruturas que podem ser aplicadas em um âmbito geral, que são baseadas em visões lógicas e filosóficas não necessariamente focadas em aplicações [BEPPLER, 2008].

Em resumo, uma ontologia pode fornecer uma forma para descrever o significado e as relações dos termos em um domínio e por ser padronizada, a comunidade aceita a descrição do conteúdo da informação para resolver heterogeneidade, que incluem problemas semânticos [ZHUOLUN; SUFEN, 2008]. Por essas razões, as estruturas de conhecimento semântico podem fornecer uma valiosa base de conhecimento de domínio e de informações do usuário [MIDDLETON; ALANI; ROURE, 2002].

Dessa forma, a ontologia em si pode ser o coração de um sistema baseado em conhecimento, pois é por seu intermédio que o conhecimento de um domínio pode ser representado. O seu uso permite o desenvolvimento de sistemas inteligentes [BEPPLER, 2008]. Já o uso de ontologias na área da computação trouxe significativos avanços, pois mesmo com o avanço de software, os desenvolvedores e analistas de sistemas perceberam a importância de focar nos dados, sobre os quais os seus sistemas operam, em vez de focar em funcionalidades e aspectos procedurais dos próprios sistemas [BEPPLER, 2008].

2.2.2

Sistemas de Recomendação

A personalização da recuperação de informação e os sistemas de recomendação têm o propósito de encontrar a informação correta para os usuários com interesses diferentes [KANG; CHOI, 2011]. Os sistemas de recomendação surgiram como uma área de pesquisa independente em meados de 1990, quando os pesquisadores começaram a se concentrar em problemas de recomendação que explicitamente dependiam de uma estrutura de classifica- ção. Em sua forma mais comum, o problema era reduzido a estimar a classificação para itens que não deveriam ser apresentados para os usuários [ADOMAVICIUS; TUZHILIN, 2005]. De forma intuitiva, essa estimativa baseia-se nas classificações dadas por esses usuários para outros itens, ou seja, assim seria possível estimar a classificação para itens ainda não classificados e que podem ser altamente recomendados para esses usuários.

Segundo [ADOMAVICIUS; TUZHILIN, 2005], são desenvolvidas novas abordagens sobre sistemas de recomendação tanto no meio acadêmico quanto na indústria. O interesse nessa área permanece elevado, pois é uma área de pesquisa que possui questões em aberto e também pela abundância de aplicações práticas. Essas aplicações e softwares que ajudam

2.2. Conceitos Complementares 37

os usuários a trabalhar com uma sobrecarga de informações e que fornecem recomendações personalizadas sobre conteúdos e serviços para eles.

Atualmente, a maioria dos usuários da Web, por exemplo, gastam uma grande quantidade de tempo para encontrar o conteúdo de que desejam, porque os sistemas de recuperação de informações possuem uma capacidade limitada para identificar os documentos apropriados, já que o volume de informações disponíveis é cada vez maior [KANG; CHOI, 2011].

Os sistemas de recomendação normalmente são utilizados para sugerir produtos baseados em compras ou pesquisas realizadas pelo cliente no passado, baseados no índice de produtos mais vendidos ou relacionados ao perfil do usuário. O uso das informações de contexto ajuda a melhorar os sistemas de recomendação, tornando-os mais refinados e precisos.

Ao se recomendar um item, é necessário definir quais parâmetros serão levados em consideração, seja, por exemplo, ao consumir produtos em um comércio eletrônico ou por número de acessos a uma determinada página de uma categoria, havendo ou não interação do usuário e suas preferências [JESUS; BRITO, 2011]. A identificação do usuário é opcional em sistemas de recomendação, já que seus perfis podem ou não ser considerados como parâmetros. Os parâmetros que serão usados pelo sistema de recomendação são definidos e os dados são coletados, e a partir desse ponto, é aplicada uma estratégia de recomendação que, por fim, é visualizada por meio dos itens recomendados ao usuário [BARCELLOS et al., 2007].

Os sistemas de recomendação podem ser classificados em três tipos [VIEIRA; NUNES, 2012]:

Sistema de recomendação baseado em conteúdo: utiliza as informações de preferência

do usuário para sugerir novos itens, ou seja, recupera informações já apontadas pelo usuário, assim recomendando itens similares àqueles já escolhidos.

Sistema de recomendação colaborativo: considera as escolhas realizadas por usuá-

rios com características similares, considerando que usuários com características semelhantes terão as mesmas preferências.

Sistema de recomendação híbrido: efetua a junção das técnicas de recomendação

baseados em conteúdo e também focados nos usuários (colaborativa). Dessa forma, tanto a similaridade entre usuários e entre os itens utilizados são considerados, podendo assim sugerir mais itens e recomendando itens que não parecem estar relacionados [VIEIRA; NUNES, 2012].

A escolha do algoritmo mais apropriado para um sistema de recomendação depende de muitos problemas, incluindo o tipo de serviço específico, a natureza dos itens, em

conjunto com o tipo e a quantidade de informações disponíveis. Por exemplo, se os itens são documentos, um algoritmo baseado em conteúdo é mais apropriado, pois é capaz de lidar com os problemas relacionados com a análise automática de texto [DEHURI, 2012]. Baseado nesse princípio, a estratégia de recomendação utilizada no desenvolvimento do protótipo PAMDES é baseada em conteúdo, a qual permite a agregação (agrupamento) de dados textuais.

A avaliação do desempenho dos algoritmos de recomendação ocorre analisando essencialmente a satisfação do usuário, ou seja, o grau de aceitação das recomendações. Na maior parte dos casos existe um interesse maior em avaliar os itens que são de interesse do usuário e que deveriam ser recomendados, assim distinguindo as boas das más recomendações, uma vez que o objetivo dos sistemas de recomendação consiste em produzir boas recomendação [COSTA et al., 2014]. As três métricas mais comuns de avaliação são:

precision, recall e F1-measure. Essas medidas serão exploradas na seção que descreve os

experimentos e as validações relativas ao protótipo PAMDES no Capítulo 5.

2.3 Sumário

No decorrer deste capítulo foram abordados os principais conceitos relacionados a

Data Warehouses. A arquitetura do Data Warehouse favorece a consulta e análise para

diversas aplicações voltadas para a tomada de decisão. O processo de ETL é fundamental para tornar as informações integradas, padronizadas e disponíveis para ferramentas de acesso e análise de dados.

Os modelos multidimensionais, como o estrela, armazenam dados de maneira a responder questões complexas de análise de negócios. Os operadores OLAP são responsáveis pela análise dos dados em diversas perspectivas, em diferentes níveis de detalhe ou abstração, além de permitir a seleção de atributos e dimensões. A operação de agregação, roll-up, consolida os dados, ou seja, diminui o nível de detalhes. Essa operação é utilizada para permitir a recomendação semântica de documentos nesse trabalho.

Uma ontologia de domínio é utilizada nesse trabalho para se estabelecer a si- milaridade entre os descritores dos documentos. Já, os sistemas de recomendação e a personalização possuem o propósito de encontrar a informação correta para usuários com objetivos diferentes. O sistema de recomendação proposto é baseado em conteúdo, que nesse caso, são documentos de textos. Ambos os conceitos complementares, ontologia e sistema de recomendação, são utilizados para melhorar a relevância dos resultados das agregações OLAP.

39

3 Estado da Arte: Personalização, Recomen-