Taxonomias para recuperação de informação

2.4 Recuperação de informação e conhecimento

2.4.7 Taxonomias para recuperação de informação

Existe uma proliferação de algoritmos, métodos, tecnologias e ferramentas para RI além das diferentes terminologias usadas (CANFORA; CERULO, 2004). As taxonomias são úteis para organizar esse conhecimento, facilitar o estudo do estado da arte, bem como

auxiliar a pesquisa para o desenvolvimento de novos modelos com novas características para atender melhor às necessidades informacionais. Diversas taxonomias para classificar modelos de RI são encontradas na literatura. Kuropka (2004) desenvolveu uma taxonomia com duas vertentes: a primeira classifica os modelos segundo a sua base matemática, ou seja, se são fundamentados na teoria de conjuntos, se são algébricos ou se são probabilísticos. A segunda vertente é relacionada à existência de dependências entre os termos da pesquisa. Champclaux, Dkaki e Mothe (2010), propuseram uma taxonomia que faz analogia com a Ciência Cognitiva usando critérios de similaridade para comparar um objeto com outro. Esses autores classificam os modelos segundo três abordagens de similaridade: (i) distância espacial, (ii) baseado em atributos e (iii) estrutural. A taxonomia de Naranjo, Kauffman e Ferrández (2014) é baseada no nível de incerteza, sendo classificada em probabilístico, grau de possibilidade e o quanto é relacionado a fatos. Outras duas taxonomias, Canfora e Cerulo (2004) e Baeza- Yates e Ribeiro-Neto (2011), que se aproximam mais das características do presente trabalho, são apresentadas com mais detalhes a seguir.

Canfora e Cerulo (2004) propõem uma taxonomia para modelos de RI, Figura 17 e Figura 18, em duas visões, vertical e horizontal:

 Vertical: representado pela Figura 17, classifica os modelos segundo um

conjunto de características básicas, ou seja, o tipo de representação (representation) da consulta (query) e do documento (document) e também o método de condução da recuperação (reasoning) que pode ser com lógica (with logic), com incerteza (with uncertainty) e com aprendizagem (with learning). Espera-se que um dado modelo seja enquadrado em um elemento do ramo Query, em outro do ramo Document e em, pelo menos, mais um do ramo Reasoning.

Figura 17 – Taxonomia vertical de modelos de RI

Fonte: Canfora e Cerulo (2004, p. 177)

 Horizontal: representado pela Figura 18, classifica os objetos da RI, ou seja,

artefatos que resolvem problemas da RI, e são identificados por três componentes: tarefas (Tasks), forma (Form) e contexto (Context). Existem 9 categorias de tarefas, não mutualmente exclusivas: (i) ad hoc retrieval, quando ocorrem consultas independentes sem depender da continuidade de interatividade com o usuário; (ii) known item search, tal como ocorre com ad hoc retrieval, porém o resultado da pesquisa é conhecido pelo usuário; (iii) interactive retrieval, onde o julgamento do usuário sobre informações já recuperadas é determinante ainda durante o processo da recuperação; (iv) filtering, onde cada documento é categorizado em classes, sendo estas escolhidas a priori pelos usuários para que suas buscas já sejam automaticamente filtradas por elas; (v) browsing, quando o usuário quer explorar a base de conhecimento simplesmente navegando-a, sem especificar uma busca; (vi) clustering,

quando usa um reconhecimento automático, por intermédio de alguma medida de similaridade, para agrupar documentos em categorias e assim melhorar o processo de RI; (vii) mining, quando usa um processo automático de extração de informações chaves dos documentos; (viii) gathering, que tem a capacidade de realizar a recuperação de informação em fontes heterogêneas de informações, tal como ocorre nas máquinas de meta-busca quando apresentam único resultado advindo de várias máquinas de busca; (ix) crawling, que se concentra na atualização constante da fontes de informação que normalmente são processadas por sucessivas atividades de busca. O ramo denominado ‘forma’ representa como o objeto é entregue ao usuário e pode ser de serviço (service), onde há a entrega do serviço que irá proporcionar a busca tal como acontecem com as máquinas de busca na web; ou de ferramenta (tool), quando um software é instalado no cliente. Quanto ao ramo ‘contexto’, ele pode ser geral (general), onde trabalha num domínio de conhecimento mais amplo; ou específico (specific), quando trabalha num domínio específico do conhecimento.

Figura 18 – Taxonomia horizontal de modelos de RI

A taxonomia proposta por Baeza-Yates e Ribeiro-Neto (2011), representada na Figura 19, distingue três principais tipos de modelos de RI: aqueles baseados em texto, os baseados em links e os baseados em objetos multimídia. Modelos baseados em texto podem ser estruturados ou não, sendo que os não estruturados classificam-se em um dos três modelos clássicos (booleano, vetorial e probabilístico), ainda com suas derivações e especializações. Para modelos baseados em links os autores criaram uma classificação própria denominada Web. Finalmente, modelos baseados em objetos multimídia classificam aqueles que trabalham com imagem, música e vídeo.

Figura 19 – Taxonomia geral de modelos de RI

Fonte: Baeza-Yates e Ribeiro-Neto (2011, p. 60, tradução nossa)

A taxonomia proposta por Canfora e Cerulo é ampla em seus critérios e consegue classificar os modelos utilizando-se vários elementos e suas especificidades, porém ela é específica para recuperação de informação no formato de texto, enquanto Baeza-Yates e Ribeiro-Neto, apesar de proporem uma taxonomia mais simples em se tratando de critérios, conseguiram ampliar o espectro de tipos de documentos, tratando também os documentos formados por links e aqueles do tipo multimídia, além do texto.

2.4.8 Considerações finais da seção

Observa-se que a área da RI cognitiva (subseção 2.4.2.3) faz uma boa interseção com a área da RI interativa (subseção 2.4.2.1), pois ambas se preocupam com a relação entre o usuário e o sistema de RI, e sugerem métodos para melhorá-la. Percebe-se aproximação ainda maior da RI cognitiva com a área comportamento informacional (subseção 2.4.2.2), especificamente information seeking behavior, por ambas serem dependentes dos estados cognitivos do usuário. Porém, information seeking behavior ainda é mais ampla do que a RI cognitiva por cuidar dos estados afetivos do usuário, ambientes sociais, culturais e organizacionais.

Apesar da existência da RI cognitiva e do comportamento informacional, que tratam o usuário como elemento fundamental no processo de RI, a tendência é que todos os modelos de RI aumentem cada vez mais a preocupação com o usuário. Além disso, há também uma tendência para que os processos de RI sejam menos estáticos e mais interativos como a interactive information retrieval discutida na subseção 2.4.2.1. Porém, ainda há muito o que fazer nos sistemas de RI, antes de considera-los plenamente interativos. Existem lacunas quanto ao processo interno de escolha da informação recuperada relevante, para estabelecer um bom ranqueamento e oferecer ao usuário documentos mais sintonizados à sua necessidade informacional. A formulação de modelos híbridos de RI, que aproveitam-se de características boas dos modelos existentes e bem amadurecidos, pode ser um caminho promissor.

Outra proximidade que pode ser observada é entre a área de recuperação de conhecimento (subseção 2.4.3) com as áreas visualização de informação e visualização de conhecimento (subseção 2.4.4). Apesar da recuperação de conhecimento cuidar de várias etapas anteriores, em ambos os casos a apresentação da informação ocorre por meio de estruturas com o objetivo de melhorar a criação do conhecimento e trazer novas percepções aos usuários.

Outra vertente são os avanços da RI que se aproveitam de conhecimentos de áreas emergentes. Por exemplo, Gurrin et al. (2010) citam o exemplo de um sistema que recupera um link quebrado de um site substituindo-o pela página correta através de técnicas de mineração de textos, Araújo Junior (2007, p. 149) defende a tese de que a “[...] mineração de textos pode, em associação com o processo de indexação manual, trazer ganhos no índice de precisão no processo de busca e recuperação da informação [...]” (p. 149). Duque (2005) explora o uso da linguística computacional associada a ontologias para otimizar o desempenho de sistemas de RI por meio da utilização de técnicas que permitam contextualizar

as palavras dos textos a serem indexados. Beppler (2008) propôs um ambiente de busca interativo, baseado na hermenêutica, onde o usuário navega em conceitos de uma ontologia de domínio usada para a construção de indexadores da base de conhecimento.

Yao et al. (2007), após a análise de vários artigos sobre recuperação de conhecimento, afirmam que essa área é o próximo passo da RI e sugerem que é preciso estudá-la de uma forma mais intensa e superar muitos desafios, por exemplo, o de lidar com o grande volume de dados da web, já que, tradicionalmente, bases de conhecimento são armazenadas localmente. A recuperação de conhecimento aliada à visualização de conhecimento podem mehorar o relacionamento entre os sistemas de RI e a necessidade informacional do usuário.

O mapa conceitual da Figura 20 apresenta alguns relacionamentos importantes abordados nessa seção sobre recuperação de informação e conhecimento, destacando, em cor alaranjada e espessura maior, alguns conceitos relevantes para a presente tese. Entre as várias proposições existentes no mapa, destacam-se os desafios da RI e as medidas para avaliação da qualidade da informação recuperada: precisão e revocação. Também se destaca o usuário enquanto elemento fundamental da RI cognitiva, do comportamento informacional, da recuperação de conhecimento, e como tendência a ser seguida pela RI. Outras proposições cobrem as áreas de visualização de informação e conhecimento e suas ênfases. A área information seeking behaviour, pertencente à área comportamento informacional, aparece bastante abrangente envolvendo elementos afetivos, sócio culturais e cognitivos do usuário. Observa-se também a necessidade informacional como um elemento fundamental no contexto e que faz movimentar os processos de recuperação tanto de informação quanto de conhecimento.

Figura 20 – Mapa conceitual com alguns relacionamentos abordados na seção 4: recuperação de informação e conhecimento

No documento UM MODELO HÍBRIDO DE RECUPERAÇÃO DE INFORMAÇÃO E CONHECIMENTO BASEADO NA SÍNTESE DE MAPAS CONCEITUAIS OBTIDOS POR OPERAÇÕES DE TRANSFORMAÇÃO DE REDES COMPLEXAS ORIENTADAS POR BUSCA DE RELACIONAMENTOS ENTRE TERMOS DE CONSULTA EM BASES DE DADOS LIGADOS (páginas 121-129)