• Nenhum resultado encontrado

Redes neurais artificiais em processos de categorização e classificação

CAPÍTULO 2: CIÊNCIA DA INFORMAÇÃO E INTELIGÊNCIA COMPUTACIONAL –

2.4. Redes neurais artificiais em processos de categorização e classificação

Muitos dos experimentos relatados na literatura descrevem a utilização da rede SOM para categorização de documentos, com o intuito de organizá-los em um formato alternativo para a recuperação de informação (LUO; ZINCIR-HEYWOOD, 2003; YEN; WU, 2006; YU et al, 2008). Sharma e outros (1994) combinaram, em seus experimentos, aprendizado supervisionado e não supervisionado e destacaram a melhoria do desempenho da RNA. Lensu e Koikkalainen (1999) apresentaram um método que pode ser usado na recuperação de documentos utilizando queries. O processo localizava palavras similares nos documentos e, posteriormente, categorizava os documentos baseado nos contextos em que estas palavras estavam inseridas. Para avaliar o procedimento, foram utilizados 18.937 questionários respondidos por estudantes de escolas finlandesas, e identificadas 115.474 palavras e 73.608 contextos. O procedimento de análise textual foi capaz de localizar documentos similares mesmo quando estes documentos continham palavras com terminações distintas e com erros de ortografia. O método foi capaz de identificar como pertencentes ao mesmo contexto e agrupar em um mesmo cluster dois documentos com expressões do tipo “ouça o professor e faça a tarefa de casa” e “preste atenção ao ensino e faça os exercícios dados”.

Kohonen e outros (2000) descreveram a implementação de um sistema capaz de organizar uma vasta coleção de documentos de acordo com as similaridades textuais. De acordo com os autores, a interpretação dos resultados das buscas se tornaria mais fácil se os resultados já fossem apresentados de acordo com as semelhanças de conteúdo. No trabalho, os artigos foram representados como pontos de uma estrutura bidimensional e as relações geométricas entre os pontos representavam as relações de similaridade entre os artigos, formando mapas. A proposta dos mapas de documentos era agregar valor à recuperação de

textos, fornecendo uma base visual significativa para retratar os resultados da pesquisa e fornecer pistas para selecionar os textos mais interessantes. Os mapas seriam especialmente úteis quando o usuário não conhecesse bem o domínio ou tivesse apenas uma vaga ideia do conteúdo dos textos que estavam sendo examinados. Segundo os autores, coleções organizadas de dados fornecem ao usuário a possibilidade de recuperar informação relevante que não foi explicitamente declarada em sua busca.

Bakus, Hussin e Kamel (2002) ressaltaram o crescimento do interesse dos pesquisadores por trabalhos que exploram métodos e ferramentas de organização de dados disponíveis eletronicamente. Em seu trabalho, definiram uma abordagem de categorização de documentos que identificava alguns dos contextos em que as palavras estavam inseridas, utilizando frases e não palavras. A rede SOM foi utilizada em conjunto com um algoritmo de extração de frases. O corpus utilizado foi composto de 21.578 artigos da base de textos REUTERS. Deste corpus, foram selecionados 1000 artigos para testar o método de categorização proposto. Dos artigos restantes, foram escolhidos 10.000 documentos para o treinamento da fase de extração das frases. Os autores comprovaram que houve uma melhoria na execução do processo de categorização ao se utilizar frases substituindo-se as palavras.

Em trabalho posterior, Hussin e Kamel (2003) utilizaram uma rede organizada hierarquicamente, construída de uma rede SOM e de uma rede ART, Adaptive Reasonance

Theory, denominada SOMART pelos autores. A rede SOM foi usada para separar a coleção

de documentos em grupos e a rede ART foi utilizada para refinar a qualidade dos clusters. Os resultados encontrados mostraram que o experimento apresentou melhor qualidade de categorização e que a combinação das redes foi mais eficiente em termos de tempo de execução. O corpus foi composto, também, por 1000 artigos coletados dos 21.578 documentos disponibilizados pela REUTERS.

Wang e Yu (2008) propuseram um modelo de categorização textual baseado na combinação da utilização de uma RNA e do método Latent Semantic Analysis (LSA), Análise da Semântica Latente. Este método é capaz de indexar textos para recuperação de informação e estabelecer um espaço vetorial, onde cada dimensão corresponde a um termo e cada texto é representado como um somatório de seus componentes. O objetivo do método LSA é reduzir o número de dimensões do espaço vetorial produzido com a menor perda possível de informação. Além de reduzir a dimensão, o método apresenta um relacionamento importante entre os termos. O algoritmo de treinamento utilizado, back-propagation, é um algoritmo supervisionado que utiliza a saída desejada e a saída fornecida pela rede para atualizar os pesos de suas conexões. A RNA é uma MLP com o algoritmo de treinamento back-

propagation modificado. Esta modificação foi proposta para aumentar a velocidade de

treinamento da rede. O método LSA, originalmente proposto como um método de recuperação de informação, foi utilizado na categorização de textos para melhorar a precisão e a eficiência do processo.

No trabalho desenvolvido por Phuc e Hung (2008), foi apresentado um sistema de categorização que utilizou grafos para agrupar documentos similares e extrair as principais ideias dos documentos. O modelo utilizado na representação dos documentos foi capaz de indicar, segundo os autores, a informação estrutural dos documentos, assim como a relação semântica entre as palavras utilizadas na representação, a posição das palavras nos documentos e alguns conceitos implícitos presentes nos documentos. Depois de realizada a categorização, a saída da rede SOM foi utilizada para identificar as palavras que ajudaram a definir as principais ideias do conjunto de 500 documentos.

Morris, Wu e Yen (2001) ressaltaram o fato de que a maioria dos métodos descritos na literatura para a categorização de documentos utiliza histogramas de frequência de palavras como atributo de categorização. O método de visualização de artigos exposto utilizou as conexões contidas nas citações dos documentos e, segundo os autores, conseguiu identificar inovações na área pesquisada e a influência destas inovações sobre tecnologias aparentemente não relacionadas, fornecendo linhas do tempo de tendências tecnológicas. Foram utilizados 118 documentos na aplicação prática do método.

O trabalho apresentado por He e Hui (2001) descreveu um sistema de recuperação de publicações baseado em citações. Este sistema indexou as publicações científicas disponíveis em alguns sítios acessados pela Web e armazenou-as em um banco de dados. Foram descritos dois processos de categorização, que geravam grupos de documentos e grupos de autores. A categorização de autores agrupou autores de áreas de pesquisa diferentes baseada na análise das citações destes autores. Neste agrupamento, assumia-se que se a frequência em que dois autores eram citados juntos pela mesma publicação era alta, então, estes dois autores pertenciam ao mesmo campo de pesquisa. Para a categorização de documentos, duas técnicas foram utilizadas, as redes SOM de Kohonen e a Fuzzy Adaptive

Resonance Theory (Fuzzy ART). O sistema extraía palavras dos títulos das referências citadas

pelos autores e as utilizava no processo de categorização A arquitetura do sistema apresentado possuía um agente de indexação de citações, que localiza os artigos em sítios especificados pelos usuários ou sítios que continham as palavras-chave especificadas, convertia os artigos em texto, identificava a seção de referência e salvava as referências em um banco de dados. Foram realizados testes para a validação do método com publicações que utilizavam o assunto

“recuperação de informação”, no sítio ISI, Institute for Scientific Information, que incluía os periódicos da CI e da Biblioteconomia no período de 1987 a 1997. Foram selecionados 1466 artigos, de 367 periódicos, gerando um total de 44836 citações.

A Figura 12 representa o processo de categorização de documentos proposto pelos autores deste trabalho.

Figura 12 - O processo de categorização proposto por He e Hui (2001)

Fonte: Adaptado de He e Hui, 2001

A maioria dos trabalhos de categorização encontrados na literatura utiliza palavras-chave como atributo de categorização ou faz o agrupamento dos documentos pelas similaridades encontradas em seus conteúdos e contextos em que os mesmos estão inseridos. No trabalho descrito no parágrafo anterior, a categorização dos artigos foi realizada tomando- se como atributo as palavras extraídas dos títulos das referências citadas por estes artigos. Este trabalho também utilizou as citações dos artigos como atributo e propôs um método de categorização que utilizou as redes SOM. Diferentemente do que propôs He e Hui (2001), este trabalho gerou um arquivo para a entrada da RNA com a informação da presença ou da ausência das referências dos artigos que compunham a base de dados.

Palavras-chave pré- processsadas Seleção de características Geração de categorias de documentos Base de dados de citações Pré- processamento Transformação Base de conhecimento Recuperação Resultado Modelos de RNA Model Base de dados categorizada Registros de documentos

Títulos dos artigos

Categorias de documentos Registros de documentos Categorias de documentos Vetores Interface com o usuário