Ferramentas para Recuperação de Informação

2 A BASE TECNOLÓGICA

2.2 RECUPERAÇÃO DA INFORMAÇÃO

2.2.1 Ferramentas para Recuperação de Informação

Sneiders (1999) desenvolveu uma técnica para processamento de consultas com algumas premissas. Segundo ele, as consultas formuladas pelos usuários normalmente são curtas com poucas palavras e, nelas, há quatro tipos de palavras dentro de um determinado contexto:

palavras-chave requeridas: carregam a essência da sentença. Elas não

podem ser ignoradas;

palavras-chave opcionais: ajudam a trazer o significado da sentença, mas

podem ser omitidas sem alterar a essência dela;

palavras-chave proibidas: cuja presença não é compatível com o significado

da sentença. Elas são consideradas quando é necessário distinguir duas sentenças similares que possuem as mesmas palavras-chave requeridas, enfatizando a diferença entre sentenças; e

palavras irrelevantes é perto do sentido de stop word na recuperação da informação. A diferença é que estas são sempre consideradas irrelevantes enquanto que aquelas podem se tornar relevantes quando usadas para enfatizar nuanças numa sentença particular.

Se as palavras forem substituídas pelos seus sinônimos e formas gramaticais, é obtida uma nova, mais ampla seleção de palavras que caracteriza um conjunto de diferentes sentenças que são semanticamente relacionadas à sentença original. Se duas sentenças possuem as mesmas palavras-chave requeridas e opcionais considerando seus sinônimos, Sneiders declara que elas têm o mesmo significado. Esta afirmação é importante para este trabalho porque em um ambiente de esclarecimento de dúvidas, seja uma sala de aula presencial ou virtual, cada aluno pode exprimir suas dúvidas (questionamentos) sobre um mesmo assunto utilizando um repertório diferente de termos em relação ao questionamento de seus colegas. Wen; Nie; Zhang (2002) dizem que para melhorar a precisão de respostas para uma consulta, uma nova geração de máquinas de busca da Web deve tentar ‘entender’ a consulta do usuário e sugerem algumas consultas similares, que outros usuários tenham anteriormente formulado, e o sistema já tenha respostas a elas. Isto garante que, se uma das consultas sugeridas é verdadeiramente similar à consulta do usuário, a resposta fornecida pelo sistema será relevante. Estes sistemas baseiam- se na hipótese de que muitas pessoas tenham os mesmos questionamentos, contudo as consultas submetidas pelos usuários são formuladas com termos distintos.

Muitos outros autores reiteram a importância de uma consulta bem formulada para uma recuperação adequada. Por exemplo, Yates e Neto (1999, p. 4, tradução nossa) afirmam que “[...] a efetiva recuperação de informação relevante é diretamente afetada pelo usuário e pelo sistema de recuperação”. Gauch e Smith (1991) falam que os usuários podem melhorar seus resultados de busca, pois demonstram não ter conhecimentos de lógica de busca, não utilizam sinônimos com alternativa e constroem consultas muito simples. Conforme apresentado anteriormente, Strzalkowski et al. (1999) dizem que o fator primordial na

sentença formulada pelo usuário.

Assim, muitas pesquisas e técnicas abordam a melhoria da consulta formulada pelo usuário para obter melhor performance na recuperação da informação, entre elas a

Query expansion ou Query refinement.

Vélez et al. (1997, tradução nossa) comentam que “Query expansion ou Query

refinement é uma ferramenta essencial para recuperação da informação que

interativamente recomenda novos termos relacionados a uma particular consulta”. É um processo incremental de transformar uma consulta em outra, com novos termos, que reflete mais precisamente a necessidade de informação do usuário.

Então, o propósito de Query expansion é refazer a consulta do usuário de modo a recuperar a informação de que ele necessita. Isto inclui modificação no conteúdo da consulta e também em outros aspectos tais como composição, estilo e tipo de linguagem.

Sendo uma das ferramentas essenciais neste projeto, o Apêndice A descreve com mais profundidade a implementação de Query expansion na solução de software utilizada no Hospital Educacional.

Outra importante ferramenta, utilizada neste trabalho, que auxilia no processamento das consultas é Stemming30 (radicalização). Ela é uma das técnicas mais

empregadas na recuperação da informação ao reduzir os termos das consultas as suas variações morfológicas a um conceito comum, conforme lido em Kraaij e Pohlmann (1996). Esta afirmação, apesar de antiga, ainda é válida conforme pode ser observada em várias pesquisas recentes sobre recuperação da informação (MARTHA, 2005; AMORIM; CHERIAF, 2007)

A validade do emprego de Stemming está no fato de que os usuários especificam uma palavra numa consulta, mas somente uma variante desta palavra pode estar presente numa outra consulta. Plural e variações de verbos (gerúndio, passado e

Stemming [é o processo] que reduz palavras distintas a sua raiz gramatical comum (stem). “Stems são pensados para serem úteis a fim de melhorar a performance da recuperação porque eles reduzem variações de palavras com mesma raiz a um conceito comum. Além disso, stemming tem o efeito secundário de reduzir o tamanho da estrutura de indexação porque o número de índices distintos é reduzido” (YATES; NETO, 1999, p.168, tradução nossa).

futuro) são exemplos de variações morfológicas que impedem o relacionamento de uma consulta à outra, caso esta técnica não seja aplicada.

Uma ferramenta auxiliar no processamento das consultas é a eliminação de stop

words. Palavras que são muito freqüentes e comuns nos documentos ou nas

consultas não são boas como discriminantes de seu conteúdo. Segundo Yates e Neto (1999, p. 167, tradução nossa), “[...] uma palavra que ocorre em 80% dos documentos numa coleção é inútil para o propósito de recuperação”. Elas são denominadas de stop words e, normalmente, são retiradas como potenciais índices. As palavras candidatas naturais para a lista de stop words são artigos, preposições e conjunções.

Estas palavras são adicionadas num dicionário específico chamado de dicionário negativo ou stop list. Este dicionário é utilizado durante o pré-processamento dos documentos para desconsiderar as palavras contidas neles como candidatas a índices.

No Hospital Educacional, a stop list foi implementada em uma tabela relacional, facilitando a adição e remoção de termos pelo administrador do ambiente. Na versão atual, a stop list contém 447 entradas.

No documento Construção e difusão colaborativa do conhecimento: uma experiência construtivista de educação em um ambiente virtual de aprendizagem (páginas 48-51)