• Nenhum resultado encontrado

Muitos trabalhos relacionados a identificação de tópicos de pesquisa utilizam a combinação de métodos de clusterização de documentos e extração de palavras-chave (keywords) (Das-Neves et al., 2005; Rennie, 2004). Os métodos de clusterização são utilizados para encontrar grupos de documentos similares. Cada cluster pode ser rotulado automaticamente por palavras-chave sem a necessidade da definição manual destes termos de indexação. Esta abordagem baseia-se na ava- liação estatística de co-ocorrências de palavras. Não são consideradas informações semânticas explícitas, levando-se em conta apenas as freqüências de termos encontrados nos documentos. As- sim, não é utilizada qualquer informação de significado das palavras em domínios como a pesquisa científica, onde há grandes e rápidas mudanças no vocabulário, e que torna difícil fixar estruturas como dicionários ou listas de palavras definidas manualmente.

Alguns métodos de busca por palavras-chave combinados com técnicas de clusterização utili- zam medidas da teoria da informação como a entropia (Nürnberger, 2001). Esta combinação tem sido utilizada para possibilitar a representação gráfica, em forma de mapas, dos clusters de docu- mentos (Hagman et al., 2000; Azcarraga et al., 2004). Para a construção destes mapas podem ser utilizadas arquiteturas de redes neurais como Growing Self-organizing Map.

Muitos dos métodos de extração de palavras-chave utilizam técnicas de processamento de lín- gua natural (PLN), como a sumarização, onde se busca os elementos principais que possam ofe- recer o tema ou assunto de um texto (Hearst, 1997). Nestes métodos é comum ser utilizada uma segunda abordagem, que leva em conta análises léxicas, sintáticas e semânticas, apresentando grandes dificuldades devido a complexidade da linguagem humana (Andrade e Valencia, 1998).

Além da tarefa da obtenção de palavras-chave, técnicas de PLN são utilizadas na detecção de tópicos em textos. O termo tópico, em PLN, pode ter um significado diferente do utilizado neste trabalho de mestrado. Em comum, os dois sentidos permitem representar artigos por um conjunto de termos que, embora não sejam necessariamente como uma descrição narrativa, são compactos e têm uma representação inteligível ao ser humano. Torna-se um identificador de resumo que permite a uma pessoa rapidamente saber o assunto relacionado. A diferença da utilização do termo tópico, é que em PLN é muito comum ser representado não somente por palavras-chaves, mas por expressões ou frases inteiras que representem o texto. Apesar desse conceito também poder ser utilizado no domínio de publicações científicas, o objetivo do trabalho apresentado neste capítulo

se restringe à obtenção de um conjunto de palavras que mais se assemelham às palavras-chave, e não a frases inteiras.

Outro aspecto importante a ser observado nas pesquisas relacionadas à obtenção automática de tópicos, é a grande variedade dos tipo de textos utilizados nas aplicações. É muito comum a utilização de textos como noticiários, e-mails e fóruns de discussão da Web (Bigi et al., 2001). É importante ressaltar que a mudança de domínios e fontes dos textos pode fazer com que os resultados das técnicas utilizadas nos experimentos também variem.

Os experimentos apresentados neste trabalho podem ser classificados como pertencentes à área chamada TDT (Topic Detection and Tracking) (Allan et al., 2000; Makkonen, 2003), que como o próprio nome diz, tem como um dos objetivos a detecção de tópicos. A quantidade de materiais recentes nesta área é muito grande, no entanto, como já mencionado anteriormente, muitas ve- zes o termo tópico apresenta outro sentido ou são realizados experimentos com outros tipos de documentos e domínios diferentes.

Outra abordagem recente usa regras de associação para determinação de co-ocorrências (n- gram, comentado na próxima seção) que descrevem bem tópicos de conjuntos de documentos (Lopes et al., 2007). Esta abordagem, embora desenvolvida com a participação do grupo da FIP, não foi testada no âmbito deste trabalho por estar disponível na fase final do mesmo.

Este trabalho de mestrado apresenta uma técnica para obtenção automática de tópicos na qual são consideradas séries com as freqüências dos termos que aparecem nos títulos das publicações para cada ano. Não são utilizadas informações semânticas ou sintáticas para selecionar as palavras que definem o assunto de um artigo. Além disso, enquanto as técnicas como clusterização consi- deram um subconjunto de documentos para a extração dos tópicos, ou ainda, algumas técnicas de extração de keywords levam em conta os documentos individualmente, na técnica utilizada neste trabalho são considerados os termos extraídos de todos os títulos dos documentos.

C

APÍTULO

3

Repositórios de Artigos Científicos

3.1 Introdução

Cada vez mais os repositórios de artigos científicos tornam-se importantes para a disponi- bilização dos materiais científicos na Web. Estes sistemas permitem uma maior e mais rápida disseminação das informações no meio científico, facilitando seu acesso aos pesquisadores, inde- pendentemente de sua localização. À medida que a quantidade dos materiais científicos aumenta, a busca e análises automáticas sobre as informações tornam-se importantes para os pesquisadores. A ferramenta FIP pretende armazenar artigos recuperados da Web e fazer análises sobre este material. Para tal, a FIP também contará com um repositório de artigos. O levantamento reali- zado sobre os repositórios existentes na Web, apresentados neste capítulo, auxiliou na etapa da especificação do repositório da FIP, proposta nesta dissertação.

Nas próximas seções são apresentados alguns dos mais importantes e representativos repositó- rios encontrados na Internet. Também são apresentados os índices bibliométricos utilizados pelos repositórios em suas análises e novas propostas de índices para tentar suprir eventuais deficiências encontradas nos índices tradicionais.

Documentos relacionados