SATSUMM - UMA FERRAMENTA PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS JORNALÍSTICOS

(1)

SATSUMM - UMA FERRAMENTA PARA

SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS

JORNALÍSTICOS

Manoel Neto¹, Alisson B. Nascimento¹, Andrea A. Gomes¹ ¹Faculdade Ruy Barbosa (FRB) – Salvador – BA – Brazil

{andreiagomes, alissonbn, manoelneto}@frb.br

Resumo. Criar sumários é uma tarefa comum que se concentra em extrair pontos principais de um texto. A sumarização automática, um ramo da Lingüística Computacional, permite que esse processo seja realizado através de uma ferramenta computacional em um tempo relativamente curto. O objetivo deste trabalho é a criação de uma ferramenta que sumarize textos jornalísticos a partir de um método da abordagem superficial, a Mineração de Textos. O sumarizador tem por finalidade, além de gerar resumos, apresentar uma lista com as palavras-chave relacionadas ao texto fonte e um dicionário com as palavras menos usuais da língua portuguesa. A Mineração de Textos, por ser uma área em que se é possível extrair informações a partir de textos, tornou-se de interesse para o desenvolvimento da ferramenta SATSumm.

Palavras-chave: Sumarização, Resumo, Mineração de Textos.

Abstract. Creating summaries is a common task that is based on the extraction of main points of a text. The automatic summarization, a Computational Linguistcs research field, allows this process to be realized through a computational tool in a relatively short time. The goal of this work is the creation of a tool that summarizes journalistic texts from a superficial approach´s method, the Text Mining. The summarizer also intends to produce a list with the keywords related to the original text and a dictionary with the least usual Portuguese words. Since Text Mining is a field that makes possible the extraction of information from texts, it became useful to the development of the SatSumm tool.

Keywords: Summarization, Abstract, Text Mining.

1. A Sumarização de Textos

Sumarizar é o processo de seleção das informações mais importantes de um texto para produzir uma versão mais curta [MANI; BLOEDORN; GATES 1998]. A sumarização automática de textos surgiu com o intuito de tornar o processo de resumir mais prático e eficiente. Com o advento da Internet, o repertório de textos produzidos tornou-se ainda mais amplo, incorrendo em uma quantidade maior de dados informativos a serem pesquisados.

(2)

Particularmente, o interesse em aplicar a sumarização automática para o âmbito dos textos jornalísticos ocorre por conterem informação extra para detalhar o fato abordado. Isso faz com que o leitor gaste um tempo maior na leitura, quando a intenção seria apenas saber a idéia essencial da notícia. Um outro motivo seria a existência de técnicas que são capazes de detectar a sua idéia principal [MARTINS et al 2001].

Existem técnicas que são utilizadas no campo da sumarização automática de textos, porém os sumários gerados não apresentam um nível de coerência e coesão tão satisfatório, a exemplo do Auto-resumo do Word. Propostas de métodos que melhoram o processo de sumarizar automaticamente são estudados para garantir resumos mais coesos e coerentes [MÜÜRISEP; MUTSO 2005].

Há duas abordagens principais de Processamento de Linguagem Natural (PLN) para a sumarização automática - a profunda e a superficial. A primeira concentra-se no âmbito das teorias lingüísticas e formais, ao passo que a segunda utiliza métodos estatísticos e experimentais [MARTINS et al 2001].

A sumarização automática é do interesse da Mineração de Textos, que é definida como o processo de extração de padrões, a partir de um único texto ou conjunto de documentos textuais [TAN 1999]. Nesse caso, torna-se importante para a sumarização técnicas que eliminem palavras irrelevantes para serem aplicadas a um único texto.

Os textos jornalísticos normalmente não apresentam resumos e em diversas situações contêm informações irrelevantes, incorrendo em um tempo maior para leitura integral e compreensão da idéia. Além disso, a presença de palavras não usuais da língua portuguesa em um texto dessa categoria contribui para que o leitor gaste mais tempo no entendimento da leitura e por recorrer a outras fontes para buscar o significado de uma palavra desconhecida.

O objetivo deste trabalho é o desenvolvimento de uma ferramenta, utilizando a abordagem superficial, que sumarize um texto jornalístico, gere um dicionário com as palavras não usuais da língua portuguesa presentes no texto e uma lista de palavras-chave.

A ferramenta permite que o usuário não perca tempo para compreender o texto, em decorrência da sua extensão ou por conter palavras que não são de uso tão freqüente na língua portuguesa. O dicionário facilita a compreensão da leitura, pois apresenta o significado de palavras desconhecidas por parte do leitor e faz com que não seja desperdiçado tempo pesquisando a sua definição. A lista com as palavras-chave é utilizada para verificar os termos que são essenciais no texto.

O artigo compõe-se das seguintes partes: na seção 2, situam-se os conceitos da sumarização e Mineração de Textos. A seção 3 trata da fase de implementação e testes da ferramenta. A conclusão final do trabalho encontra-se na seção 4. A seguir, vêm as referências bibliográficas.

(3)

2. Fundamentos e Automatização do Processo de Sumarizar

Esta seção aborda os conceitos que norteiam a área da sumarização automática e apresenta a Mineração de Textos aplicada a esse campo.

2.1. Contextualização da sumarização

Há duas propriedades do sumário que devem ser medidas: a taxa de compressão, ou seja, o quão curto o sumário é em relação ao texto original e o fator de retenção, que se refere ao quanto de informação do texto fonte permanece retido [SMEDT et al 2005].

As taxas de compressão e retenção se relacionam, pois quanto maior for o valor da primeira, mais curto será um sumário e menos informação será retida do texto fonte. Caso o leitor deseje apenas o mínimo de informação possível, o grau de compressão pode ser alto, a fim de produzir um resumo mais preciso. Esses aspectos são observados mais claramente na sumarização automática de textos.

Atribui-se a necessidade de pesquisas na área devido à grande quantidade de informação online disponível, tornando-se viável desenvolver ferramentas que sumarizem de modo automático [PARDO 2002b].

A Mineração de Textos é um campo que explora acerca da sumarização automática, por apresentar etapas passíveis de identificar as informações importantes em um texto, como será descrito a seguir.

2.2. Mineração de Textos (Text Mining)

A Mineração de Dados é uma área que trata com grande volume de dados, sendo uma de suas variantes a Mineração de Textos. As duas concentram-se em tipos de dados distintos, pois, enquanto em Mineração de Dados contemplam-se dados estruturados, em Mineração de Textos, busca-se o estudo das relações existentes entre componentes de textos não estruturados [SANTOS 2002].

Esse relacionamento pode ser interno, isto é, relativo a apenas um texto, ou externo, abrangendo vários textos, dependendo do objetivo da aplicação. Para a sumarização automática, no entanto, a importância está em identificar informações relevantes em um determinado documento textual e, portanto, contemplar um texto por vez - aquele que será sumarizado [MARTINS et al 2001].

O processo de Mineração de Textos engloba etapas que são indispensáveis para a sumarização automática, como a análise léxica, remoção de irrelevantes, normalização morfológica e remoção de stopwords, isto é, palavras que não carregam significado como os artigos, pronomes, interjeições e preposições [PARDO 2002b].

Finalizada a etapa de pré-processamento, realiza-se a preparação dos dados e os seleciona, para que sejam identificados os termos representativos, ou seja, aqueles que são relevantes para definir o assunto principal do texto.

(4)

Como por meio da Mineração de Textos também se pode procurar pelas informações significativas, existem técnicas que ajudam a prover isso. De acordo com Santos (2002), a freqüência de um termo pode ser verificada através de cálculos de relevância utilizados para computar o peso de um termo “x” em um determinado documento “N”. Em Silva (2004), é ilustrado um cálculo de freqüência relativa, cuja fórmula apresenta um termo “x” de um documento “N” com uma freqüência (Tf) dividida pelo número total de termos no mesmo documento (N), como pode ser verificado a seguir:

Frelx = Tf(x) / N

A aplicação de uma fórmula matemática que estime a ocorrência das palavras facilita a obtenção das palavras-chave pertencentes ao documento textual.

3. Implementação da Ferramenta Satsumm

Nesta seção discute-se sobre o desenvolvimento da ferramenta SATSumm, incluindo seus módulos e técnicas utilizadas.

3.1. Desenvolvimento e Arquitetura da Ferramenta

Nesta subseção, apresentam-se a arquitetura e algoritmos utilizados para implementação da ferramenta SATSumm.

A arquitetura da ferramenta SATSumm, ilustrada na figura 1, apresenta o módulo de entrada de dado que, por ser a única que se comunica com o banco de dados, viabiliza a sumarização e a criação do dicionário.

Figura 1. Arquitetura Sumarizador SATSumm

Antes de se abordar os módulos da ferramenta, faz-se necessária uma explanação dos algoritmos da etapa de pré-processamento da Mineração de Textos empregados para o seu desenvolvimento.

(5)

O primeiro algoritmo é o case fold, que consiste em tornar todas as letras do texto maiúsculas ou minúsculas, padronizando em uma única forma as palavras. Por convenção, adotou-se a forma minúscula para as letras. Assim, não há distinção de uma mesma palavra iniciar em maiúscula em um momento e, em minúscula, em um outro e vice-versa. Após essa etapa, é aplicado um algoritmo de steeming, que reduz uma palavra à sua forma radical, removendo os sufixos, prefixos e vogais temáticas.

O último algoritmo a ser aplicado é o de remoção de stopwords, que eliminará do texto todas as palavras de classe fechada (aquelas que não apresentam significado como os pronomes, artigos, preposições). Há uma lista com esses termos, onde durante o processo de sumarização, todas as palavras que constarem nessa lista serão eliminadas do texto. Assim, no momento em que as palavras-chave forem selecionadas, para extração dos termos que exprimem a idéia central, as stopwords serão ignoradas.

O algoritmo de steeming utilizado neste trabalho foi o de Porter, implementado na linguagem Snowball, projetada para criar algoritmos dessa categoria. O compilador

Snowball traduz um script nessa linguagem em um programa em C ou Java [PORTER

2006].

O algoritmo de Porter original foi desenvolvido para remover os sufixos das palavras da língua inglesa, porém, a partir de sua implementação em Snowball para outras línguas, permitiu-se aplicá-lo a outros idiomas, inclusive para o português.

A ferramenta é dividida em módulos para uma melhor organização e facilitar o desenvolvimento: módulo de entrada de dados, módulo de sumarização e módulo de manutenção do dicionário. A seguir, há o detalhamento de cada um deles.

3.2.1. Módulo de Entrada de Dados

O módulo de entrada se relaciona com a escolha do texto, ou seja, o arquivo a ser selecionado para sumarizar (o texto pode também ser digitado pelo usuário). Esse módulo também é responsável pela inserção de palavras e seu respectivo significado no banco de dados.

A classe de interface trata da entrada de dados via arquivo, onde a leitura se realiza no momento em que o usuário seleciona a opção Abrir Arquivo, presente no menu de opções da ferramenta ou na barra de tarefas presente no SATSumm.

O processo para atualizar e remover palavras e significados do dicionário pode ser realizado no módulo de manutenção do dicionário, que se relaciona com o de entrada de dados.

3.2.2. Módulo de Sumarização

A geração de um resumo do texto carregado através do módulo de entrada de dados processa-se seguindo algumas etapas que são realizadas no módulo de sumarização. A ferramenta, inicialmente, divide o texto em sentenças e estas em palavras, a fim de

(6)

conseguir uma representação estruturada do texto. Uma vez obtida essa representação, é possível iniciar o processamento dos algoritmos para sumarizar o texto.

Para alcançar a representação estruturada do texto, foram criadas as classes Palavra,

PalavraClasseFechada, PalavraClasseAberta, Sentenca e Texto. A classe Palavra armazena um determinado termo do texto que deve, posteriormente, ser tratado em

PalavraClasseAberta, que representa as palavras com significado relevante, ou PalavraClasseFechada, correspondendo aos termos sem significado.

A classe Sentenca é composta por uma lista de Palavras e contém métodos como

classificaAbertaFechada, que decide se uma palavra é ou não relevante ao texto,

classificando-a para PalavraClasseFechada ou PalavraClasseAberta. Essa classe apresenta o método steem, que extrai apenas o radical de um termo, excluindo a vogal temática, sufixos e prefixos. Além disso, a classe é responsável por dividir uma sentença em palavras.

A divisão é realizada através de um analisador léxico implementado nessa classe, conforme ilustra a figura 2, em que o autômato desconsidera qualquer símbolo que não apresente sentido de palavra, como, por exemplo, abre e fecha parênteses. E considera letras e dígitos, além de símbolos significativos, como $ e %, terminando uma palavra quando encontra um símbolo não significativo.

(7)

A classe Texto é composta por uma lista de sentenças. Para isso, divide um texto que é dado como entrada em uma lista de sentenças. Na ocasião da saída de dados, é essa classe que também transforma o texto da representação estruturada para uma string padrão. Por fim, essa classe aplica o algoritmo de case fold sobre o texto, tornando todas as letras presentes, acentuadas ou não, em palavras minúsculas.

Na figura 3, é apresentado o autômato do analisador léxico utilizado na classe Texto que divide um texto em sentenças do seguinte modo: o autômato considera que uma frase termina quando é encontrado ponto final, exclamação ou interrogação.

(8)

Este trabalho utiliza a técnica TF-ISF (Term Frequency-Inverse Sentence

Frequency) para pontuar as sentenças mais importantes do texto, que é descrita em Larocca

Neto et al [2000 apud MARTINS et al, 2001, p.16].

A técnica TF-ISF é similar ao TF-IDF, que é utilizado na Recuperação de Informações, e é originado das técnicas de estatística, isto é, baseadas na freqüência de palavras. O TF-IDF é aplicado sobre um texto e contra um corpus, onde as palavras que aparecem com maior freqüência no texto do que no corpus recebem um peso maior. A idéia do TF-ISF é tratar com sentenças, ao invés de documentos [MARTINS et al 2001].

Ao se substituir a noção de documento para texto, a importância de uma palavra w em uma sentença s é ilustrada através da fórmula TF-ISF(w,s) =TF(w,s)*ISF(w), onde TF consiste no número de vezes em que w aparece em s.

A freqüência inversa da sentença vem de ISF(w)=log(|S|/SF(w)), onde SF diz respeito ao número de sentenças onde w ocorre, e S é o numero de sentenças do texto. O peso final da sentença é obtido pela media das TF-ISF de todas as palavras com relevância no texto. Logo, o Avg-TF-ISF(s), corresponde à média aritmética dos valores de TF-ISF de cada palavra da sentença s, ou seja, este valor é a relevância da sentença no texto.

Com base no número de sentenças do texto original e na taxa de porcentagem escolhida pelo usuário, é calculado um threshold. Sentenças com Avg-TF-ISF maior que o

threshold são selecionadas para compor o sumário, de acordo com a ordem em que

aparecem, até que o número de sentenças seja satisfeito. O threshold também pode ser escolhido explicitamente pelo usuário.

Algumas alterações foram realizadas na técnica, onde após calcular o Avg-TF-ISF das sentenças, ordenou-as em ordem decrescente de Avg-TF-Avg-TF-ISF, e se escolheu as X primeiras sentenças dessa lista que são necessárias para compor o sumário desejado. Assim, o resumo é composto, colocando cada sentença selecionada na ordem em que aparece no texto fonte. No processo original, eram compostos sumários coesos, porém em grande parte incoerentes. Com essas modificações, foi possível melhorar substancialmente a coerência dos sumários.

Em outras técnicas, como a das palavras-chave, os termos mais freqüentes de um texto são considerados representativos, porém as palavras de domínio fechado (stopwords), como artigos ou pronomes, que não carregam significado, também são consideradas sem, no entanto, serem relevantes ou expressarem informações importantes. Outros métodos como o da localização, que realiza o mesmo procedimento do anterior, sendo que seleciona as sentenças do primeiro e último parágrafo do texto, também não tratam da questão das

stopwords. A Mineração de Textos já realiza a remoção dessas stopwords, além de

considerar iguais palavras que aparecem de modo distinto no texto, ou seja, maiúsculas em um momento e minúsculas em um outro, o que não é realizado nas outras técnicas [MARTINS et al 2001].

Na classe Sumarizador, foram implementados os algoritmos da TF-ISF responsáveis em realizar os cálculos a fim de localizar as sentenças que irão compor o sumário. Nessa classe, é onde ocorre de fato a sumarização do texto.

(9)

A classe Sumarizador contém os métodos que calculam o peso de cada sentença do texto. Os métodos são: calculaISF que consiste em calcular a freqüência inversa da sentença; calculaTF representando a quantidade de ocorrência de uma palavra em uma determinada sentença; o método calculaTFISF que determina a importância de uma palavra; e o método calculaAvgTFISF o qual fornece o peso médio de cada sentença, ou seja, a média aritmética dos pesos obtidos em calculaTF-ISF de todas as palavras pertencentes à sentença.

A partir desses cálculos, as sentenças mais importantes serão selecionadas para gerar o resumo automaticamente.

3.3. Interface com o usuário

É representada por uma janela que é a interface da ferramenta com o usuário. Através dela, pode-se abrir um texto, sumarizá-lo, salvar um sumário, imprimi-lo, gerar dicionário e lista de palavras-chave, configurar percentual da taxa de compressão, inserir e consultar informações do dicionário.

O texto, após passar por todo processo de sumarização, apresenta um resumo ao usuário em um campo, ao lado do texto original. Caso as opções para exibir o dicionário e a lista de palavras-chave sejam selecionadas, também são exibidas nos campos específicos.

A figura 4 apresenta a tela principal da ferramenta, onde ocorre a sumarização propriamente dita. Notam-se os campos para o texto fonte e resumo gerado, além das opções seguintes: exibir dicionário, lista de palavras-chave, porcentagem de compressão e o botão para sumarizar e outro para limpar os textos dos campos.

(10)

O usuário poderá alterar o conteúdo do dicionário, removendo uma palavra dele, inserindo novas, além de acrescentar informações do significado de um determinado termo. A figura 5, a seguir, ilustra a tela de manutenção do dicionário, onde essas operações se concretizam e o usuário acessa quando precisa consultar um termo desconhecido no dicionário.

Figura 5. Janela de Manutenção do Dicionário

3.4 Avaliação da ferramenta SATSumm

Nesta subseção, são apresentados os experimentos realizados com o sumarizador SATSumm e os resultados obtidos..

Foram realizados dois experimentos que envolveram a classificação de cada sumário a partir dos parâmetros: idéia principal conservada e de acordo com a coerência e coesão, atribuindo-se uma nota na escala de 0 a 3. Um outro teste foi agrupar alguns textos jornalísticos e solicitar que os avaliadores selecionassem as sentenças que melhor expressassem a idéia central de cada um, e tomando como base essa mesma amostra de textos, gerou-se a partir do SATSumm, os sumários.

Experimento 1: Pontuar o sumário gerado a partir do SATSumm

O objetivo desse experimento foi atribuir notas aos sumários gerados pela ferramenta. Primordialmente, um texto era escolhido e o usuário definia a taxa de compressão desejada. Para esse experimento, padronizou-se as notas de acordo com alguns parâmetros adotados que foram a conservação da idéia central e o grau de coerência e coesão dos resumos criados, conforme ilustra a tabela 1.

(11)

Tabela 1 – Parâmetros para avaliação dos sumários

A nota 3, que corresponde a mais alta, mensura o quão coerente e coeso é o sumário, ou seja, se as sentenças escolhidas foram realmente as mais expressivas.

Uma média de 20% dos usuários que testaram a ferramenta, pontuaram com o valor 3 o resumo gerado pela SATSumm.

A maioria dos avaliadores, cerca de 80%, indicaram a nota 2, que corresponde a um sumário, onde a conservação da idéia central do texto foi preservada, e com a sua textualidade pouco prejudicada, sendo considerado bom.

Um número de 40% dos usuários pontuou como regular (nota 1) os sumários gerados através da ferramenta, considerando que a idéia principal não foi mantida, assim como os termos escolhidos para compor a lista de palavras-chave, não correspondiam aos mais relevantes. Em relação à nota 0, ou seja, um sumário sem textualidade e idéia principal, classificado como ruim, cerca de 20% atribuíram esse valor.

Experimento 2: Verificar as sentenças selecionadas

O intuito desse experimento foi analisar se as sentenças selecionadas manualmente correspondem, em geral, as mesmas que aparecem no sumário gerado a partir da ferramenta SATSumm e da GistSumm, sumarizador desenvolvido a partir do trabalho de Pardo [PARDO 2002a].

Os usuários realizavam a leitura do texto e extraiam as sentenças que melhor expressavam a idéia principal. A partir disso, confrontavam-se os resultados, verificando se as sentenças selecionadas pelo usuário manualmente correspondiam às mesmas que apreciam no sumário gerado de modo automático.

Em relação ao GistSumm, o SATSumm apresentou-se com um grau desejável, gerando sumários, com textualidade razoável, e mantendo, em grande parte dos casos, a idéia central. A partir dos testes com usuários, onde foi solicitado que marcassem as sentenças mais relevantes, o SATSumm, selecionou em média 70% das mesmas sentenças que um humano, ao passo que outras ferramentas extraiam na faixa dos 60%.

A figura 6, a seguir, ilustra os sumários gerados pela ferramenta SATSumm e GistSumm, com uma taxa de compressão de 90%. As sentenças que aparecem na composição do sumário gerado pelo SATSumm correspondem apenas aquelas que também foram selecionadas por um humano. Ao passo que, o outro sumarizador, destacou sentenças que não foram consideradas relevantes para um humano, ao apontar manualmente as sentenças de um texto.

Idéia principal Coerência e Coesão Nota Conceito

Conservada Sim 3 Ótimo

Conservada Pouco prejudicada 2 Bom

Prejudicada Pouco prejudicada 1 Regular

(12)

Figura 6. Amostra de sumários gerados automaticamente

4. Conclusão

A sumarização automática de textos é uma área que se tornou de interesse dos estudiosos devido a crescente quantidade de informação disponível em meio digital. O enfoque deste projeto foi a sumarização em textos jornalísticos, por conterem sempre uma idéia central bem definida. Utilizou-se o método da Mineração de Textos, uma das técnicas da abordagem superficial, capaz de extrair padrões e idéias de um texto.

O algoritmo de stemming usado foi o de Porter, implementado na linguagem

snowball, cujo compilador gera códigos na linguagem Java. Este algoritmo foi modificado

incluindo novas regras de derivação sufixal, a fim de que extração da forma raiz de algumas palavras ocorresse de modo correto. Além disso, o modo de escolha das sentenças foi também alterado, onde primeiro ordenou-se as frases de acordo com o valor do avgTFISF, o qual fornece o peso médio de cada sentença, e assim escolhe-se as primeiras, onde a quantidade de sentenças depende do valor da taxa de compreensão fornecida pelo usuário. A partir disso, organiza-se as frases no sumário na ordem em que aparecem no texto fonte.

A área da sumarização automática que utiliza a abordagem superficial ainda não gera resumos satisfatórios, tornando-a alvo de pesquisas que proponham melhorar a qualidade dos sumários gerados a partir dessa abordagem.

Referências Bibliográficas

MANI, Inderjeet ; BLOEDORN, Eric ; GATES, Barbara. Using cohesion and coherence models for text summarization. In: SYMPOSIUM ON INTELLIGENT TEXT

Sumário Gerado pela SATSumm

Lula vai congelar até R$ 19 bilhões do Orçamento

Contingenciamento preventivo será revisto caso as receitas superem previsão inicial de R$ 600 bilhões

Embora ocorra no momento em que o governo tenta fazer decolar o Programa de Aceleração do Crescimento (PAC), a medida será adotada de forma preventiva, como todos os anos, diante de uma expectativa menos otimista para a arrecadação do que o previsto pelo Congresso.

A diferença entre o que é previsto no papel e o que efetivamente é realizado em matéria de obras se deve ao tipo de ajuste fiscal feito pelo governo, que sacrifica os investimentos mais do que outros tipos de gastos menos prioritários. Esses cortes são mantidos enquanto a arrecadação não supera as projeções oficiais.

Sumário Gerado por outro sumarizador

Lula vai congelar até R$ 19 bilhões do Orçamento

Contingenciamento preventivo será revisto caso as receitas superem previsão inicial de R$ 600 bilhões

Dos R$ 27,3 bilhões previstos para investimentos no Orçamento da União de 2007, o governo só deve liberar inicialmente R$ 18 bilhões, aí incluídos os R$ 4,6 bilhões do projeto piloto - uma carteira de obras especiais, não sujeitas a contingenciamento.

No ano passado, o governo chegou a autorizar R$ 19,6 bilhões de investimentos, mas R$ 12,3 bilhões estão em aberto, dependendo de execução e liberação de recursos.

(13)

SUMMARIZATION, 13, 1998, Stanford. Proceedings. Stanford: [s.n], 1998, p.69-76. Disponível em: <http://complingone.georgetown.edu/~linguist/papers/Spring98 Symp.pdf>. Acesso em: 26 mar. 2006.

MARTINS, Camilla et al. Introdução à sumarização automática. São Carlos:[s.n], 2001. Disponível em: <http://www.nilc.icmc.usp.br/~thiago/RTDC00201-CMartinsEtAl.pdf>. Acesso em: 20 mar. 2006.

MÜÜRISEP, Kaili; MUTSO, Pilleriin. ESTSUM- Estonian newspaper texts summarizer. In: THE BALTIC CONFERENCE ON HUMAN LANGUAGES TECHNOLOGIES, 2, 2005, Tallin. Proceedings. Tallin: [s.n.], 2005, p.311-316. Disponível em: <http://math.ut.ee/~kaili/papers/estsumbhlt05.pdf>. Acesso em: 23 mar. 2006.

PARDO, Thiago. GISTSumm: um sumarizador automático baseado na idéia principal de textos. São Carlos:[s.n], 2002a. Disponível em: <http://www.nilc.icmc.usp.br /~thiago /NILCTR0213-Pardo.pdf>. Acesso em: 23 mar. 2006.

PARDO Thiago. DMSumm: um gerador automático de sumários. 2002b. Dissertação (Mestrado em Ciências da Computação) - UFSCar, São Carlos, 2002. Disponível em: <http://www.nilc.icmc.sc.usp.br/~thiago/DISSERTATION-Pardo.pdf>. Acesso em: 29 mar. 2006.

PORTER; BOULTON. Snowball.Disponível em: <http://snowball.tartarus.org >. Acesso em: 12 out. 2006.

SANTOS, M. Extraindo regras de associação a partir de textos. 2002. Dissertação (Mestrado em Informática Aplicada) – PUC-PR, Curitiba, 2002. Disponível em:

<http://www.ppgia.pucpr.br/ensino/defesas/Maria_Angela%20_2002.PDF>. Acesso em: 23 mar. 2006.

SILVA, Cassiana. Uso de informações lingüísticas na etapa de pré-processamento em

Mineração de Textos. 2004. Dissertação (Mestrado em Computação Aplicada) –

UNISINOS, São Leopoldo, 2004. Disponível em: <http://bdtd.unisinos.br /tde_arquivos/1 /TDE-2004-04-30T11:16:38Z-3/Publico/Informacoeslinguisticas.pdf>. Acesso em: 02 abr. 2006.

SMEDT, Koenraad et al. How short is good? an evaluation of automatic summarization. Disponível em:<http://www.nada.kth.se/~xmartin/reports/ScandSum-yearbook2004-

fullpage.pdf>. Acesso em: 23 mar. 2006.

TAN, Ah-Hwee. Text mining: the state of the art and the challenges. Disponível em:

< http:// www.ewastrategist.com/papers/text_mining_kdad99.pdf >. Acesso em: 27 maio 2006.