• Nenhum resultado encontrado

CAPÍTULO 2: CIÊNCIA DA INFORMAÇÃO E INTELIGÊNCIA COMPUTACIONAL –

2.3. Redes neurais artificiais na recuperação de informação

Um grande número de pesquisadores tem utilizado RNA na recuperação de informação, conforme evidenciado por Lin, Soergel e Marchionini (1991) ao utilizar uma rede SOM para construir um sistema de recuperação de informação. Estes autores apresentaram

um mapa semântico como uma interface de recuperação de um sistema bibliográfico online, caracterizado como um guia de literatura que refina a busca do usuário. Os autores destacaram o papel dos computadores na pesquisa, como não apenas o de um mecanismo de busca, mas, uma ferramenta para análise e descoberta de relações semânticas entre os documentos. O mapa semântico obtido identificava relações semânticas entre os documentos da entrada e representava os dados com os seus relacionamentos. A caracterização e a organização da informação eram obtidas pela análise da frequência e da distribuição das palavras contidas nos textos. O estudo foi aplicado à base de dados LISA, que incluía 140 títulos indexados pelo descritor Artificial Intelligence, de janeiro de 1969 a março de 1990. Depois de excluir palavras como information, artificial e intelligence e palavras com frequência de ocorrência inferior a três, foram selecionadas 25 palavras (raízes), definidas, então, como o conjunto de palavras para esta coleção.

Stafylopatis e Likas (1992) descreveram, em seu trabalho, uma técnica de recuperação de imagens armazenadas utilizando informação incompleta como entrada do processo. Ressaltaram a importância da tecnologia das RNA para oferecer soluções efetivas para problemas relacionados aos sistemas de informação. O processo era constituído, basicamente, de três etapas. A primeira processava as imagens e extraía informação destas imagens. A segunda criava o banco de dados responsável pelo armazenamento e pelo gerenciamento das imagens originais e das informações extraídas. A terceira etapa gerava as interfaces com o usuário que o possibilitavam acessar as informações disponíveis.

Chen (1995) propôs a utilização de uma rede neural do tipo Hopfield para recuperar informações contidas em três bases de dados. A rede Hopfield se caracteriza por ter as entradas dos neurônios vindas do meio externo e de saídas de neurônios da própria rede. Chen cita um exemplo em que solicita ao pesquisador que identifique descritores que sejam relevantes na busca relacionada à expressão knowledge indexed deductive search. Foram utilizados quatro termos de pesquisa iniciais, quais sejam information retrieval, knowledge

base, thesaurus e automatic indexing. A rede convergia após onze iterações, apresentando

catorze termos e respectivas fontes. Solicitava, então, ao usuário que selecionasse os dez termos que melhor se adequassem à sua pesquisa. Estas etapas de seleção de termos podiam se repetir até que a demanda do usuário fosse satisfeita.

Ellis (1996) destacou que Mozer foi o primeiro a utilizar uma arquitetura de RNA em um protótipo de recuperação de informação. O sistema continha apenas duas camadas, uma camada de 407 documentos e outra camada contendo 133 termos de indexação. Os termos de indexação ativavam os documentos, que ativavam os termos de indexação,

conforme apresentado na Figura 10. Um documento ao ser ativado reduzia o nível de ativação dos demais documentos. O processo se propagava até a estabilização da rede neural, quando cessavam as atividades entre os nós. O nível de ativação de cada documento representava o grau de relevância em relação à expressão de busca. A arquitetura era simples e não utilizava uma das principais características da RNA, que é a capacidade de aprender. Mas, como o próprio autor enfatizou, eram produzidos resultados inesperados, recuperando-se documentos que não possuíam termo em comum com a expressão de busca, podendo, mesmo assim, ser relevantes para o usuário.

Figura 10 - Exemplo de RNA utilizando a arquitetura de Mozer

Fonte: FERNEDA, 2006

De uma maneira simplificada, o processo de recuperação de informação envolve documentos, termos de indexação e expressões de busca dos usuários. Para Ferneda (2006), em um SRI, de um lado estão as expressões de busca, do outro lado estão os documentos e, no centro, estão os termos de indexação. Esta estrutura pode ser vista como uma RNA de três camadas. A camada de termos de busca é a camada de entrada, a camada de documentos é a saída e a camada de termos de indexação é a camada central, como exemplificado na Figura 11.

Figura 11 - Representação de uma RNA aplicada à recuperação de informação

Fonte: FERNEDA, 2006

Basicamente, os termos de busca iniciam o processo de inferência mediante a ativação dos respectivos termos de indexação. Nem todos os termos da expressão de busca fazem parte do conjunto de termos de indexação e, portanto, não são considerados durante o processo de ativação da rede. Os termos de indexação ativados pelos termos de busca enviam sinais para os documentos. Estes sinais são multiplicados pelos pesos de cada ligação. Os documentos ativados enviam sinais que são conduzidos de volta aos termos de indexação. Ao receberem estes estímulos, os termos de indexação enviam novos sinais aos documentos, repetindo o processo. Os sinais tornam-se mais fracos a cada iteração e o processo de propagação eventualmente para. O resultado final de uma busca é um conjunto dos documentos que foram ativados, cada qual com um nível de ativação que pode ser interpretado como o grau de relevância do documento em relação à busca do usuário. Entre os documentos resultantes podem aparecer alguns que não estão diretamente relacionados aos termos de busca, mas que foram inferidos durante a pesquisa e possuem algum grau de relacionamento com a necessidade de informação do usuário. A utilização de RNA em sistemas de recuperação de informação, como discutido por Ferneda (2006), permite atribuir um caráter dinâmico a tais sistemas, uma vez que as representações dos documentos podem ser reavaliadas e alteradas de acordo com a especificação de relevância atribuída pelos usuários aos documentos recuperados.

Capuano (2009) utilizou RNA para automação do processo de ordenação e apresentação de resultados na recuperação de informação textual. O diferencial apresentado pelo autor era a utilização de índices, no processo de indexação, compostos por mais de um termo linguístico, como sendo uma tentativa de se reduzir a possível ambiguidade gerada ao se trabalhar com palavras-chave. O experimento utilizava uma base de índices de textos em linguagem natural representada por expressões denominadas sintagmas nominais. Os

sintagmas nominais são partes de uma sentença constituídas de substantivos associados a preposição, a artigo ou a adjetivo. Os textos utilizados eram constituídos por uma amostra dos resumos das apresentações ocorridas em eventos de Arquitetura da Informação, de 2005 a 2008, nos Estados Unidos. Foram definidos três sintagmas nominais para indexar cada texto dessa base, buscando, com este número, um equilíbrio entre o problema enfrentado pela resolução semântica no processo de recuperação de informação e a pressão exercida sobre a infraestrutura computacional. O usuário informava ao sistema três argumentos de busca constituídos por três sintagmas nominais, sugerindo, assim, o conteúdo pesquisado.