Sumarização de Texto - Tarefas de Mineração em Texto

2.3 Tarefas de Mineração em Texto

2.3.4 Sumarização de Texto

A Sumarização/Compactação tem constituído um domínio frequente de pesquisa por muitos anos e os vários enfoques vão desde métodos simples de posição e frequência de palavras a algoritmos de aprendizagem baseados em gráficos (SANKARASUBRAMANIAM;

RAMANATHAN; GHOSH,2014). O processo de sumarização visa produzir automaticamente

uma versão menor de um ou mais documentos de texto (FERREIRA et al.,2013).

As técnicas de compactação de texto podem ser circunstanciadas como extrativas e abstrativas (FERREIRA et al.,2013). Técnicas extrativas realizam a sumarização do texto pela distinção das frases presentes no documento com base em alguns critérios, ou seja, seleciona e extrai as frases mais relevantes dos documentos, enquanto que, os resumos abstrativos procuram melhorar a conexão entre as frases, pela exclusão de redundâncias e esclarecimento da disputa de frases (LLORET; ROMÁ-FERRI; PALOMAR,2013).

Uma das abordagens de sumarização que varia consideravelmente quanto ao aprimora- mento é a Abordagem de Representação de Tópico. Aqui são mostradas algumas das abordagens de tópico mais populares ou vastamente aplicadas (AGGARWAL; ZHAI,2012a):

1. Palavras tópico: a abordagem de palavras descritivas exclui as palavras mais repetidas em um documento, como por exemplo as preposições, e as palavras que ocorrem pouquíssimas vezes. Chamadas tipicamente de "Assinaturas de Tópicos" na literatura de sumarização (LIN; HOVY,2000), Assinatura de Tópicos são palavras que aconte- cem muitas vezes em alguns textos, mas são raras em outros, de forma que seu cálculo necessita de um grande conjunto de documentos e da entrada para sumarização.

2.3. TAREFAS DE MINERAÇÃO EM TEXTO 31

É necessário conhecimento a respeito da frequência de palavras em um grande corpus tido como base de experiência (fundo), para calcular a estatística de acordo com as palavras tópico de assinatura demarcadas. A probabilidade da entrada e do corpus de fundo são calculadas em duas proposições: (H1) a probabilidade de uma palavra na entrada é a mesma que no fundo e (H2) a palavra tem probabilidade diferente, maior, na entrada do que no fundo.

A entrada e o corpus de fundo são acertados como uma ordem de palavras e a probabilidade do texto em referência a uma dada palavra de interesse é calculada com o uso de uma fórmula de distribuição binomial.

2. Abordagens baseadas na frequência:

As abordagens apresentadas nessa seção atribuem pesos não-binários pertinentes ao número de ocorrências de uma palavra ou conceito. A avaliação da probabilidade das palavras é uma das formas mais simples de usar a frequência na entrada como um indicador importante.

A viabilidade de uma palavra é medida a partir da entrada, que pode ser uma coleção de documentos associados ou um único documento. Esse cálculo é feito com o total de ocorrências de uma palavra fracionado pelo número de palavras de entrada.

O SumBasic é um sistema que utiliza a frequência como forma de selecionar sen- tenças. Ele tem por base a probabilidade da palavra para determinar sua importân- cia (VANDERWENDE et al., 2007). Para cada frase na entrada, é atribuído um peso equivalente ao da probabilidade média das palavras de conteúdo na sentença, considerados segundo a entrada para sumarização.

Dessa forma SumBasic elege a melhor frase de pontuação pelas palavras que possuem maior probabilidade. Esse método de seleção presume que em cada ponto, ao preferir uma sentença, uma única palavra (com maior probabilidade) retrata o tópico mais significativo no documento e que o propósito é escolher a melhor frase que contém essa palavra. Após a seleção da melhor frase, é acertado a probabilidade de cada palavra que sucede na frase destacada.

3. Análise semântica latente:

A Análise Semântica Latente (ASL) é um método não supervisionado potente para conceito subentendido da semântica de texto fundamentado na co-ocorrência obser- vada de palavras (DEERWESTER et al.,1990).

A ASL foi proposta para sumarização genérica única e para multi-documentos de notícia como uma forma de discernir temas relevantes em documentos sem o uso de recursos lexicais tais como WordNet (GONG; LIU,2001). A proposição inicial de Gong e Liu foi a seleção de uma frase para cada um dos tópicos principais. Eles

2.3. TAREFAS DE MINERAÇÃO EM TEXTO 32

realizam a redução de dimensionalidade, mantendo apenas o número de sentenças que pretende dispor no sumário e a frase com maior peso para cada um dos assuntos propostos é selecionada para compor o resumo.

Sistemas que dependem de ASL exemplificam a definição dos modos de pontuação das frase. Em diversificações do algoritmo, a representação do tópico continua a mesma, enquanto o caminho das frases são apontadas e a escolha pode variar, intervindo no desempenho do sumarizador na escolha por conteúdo importante.

4. Modelos de tópicos Bayesianos:

Os modelos Bayesianos são populares e rebuscados para representação do tema proposto para sumarização (CELIKYILMAZ; HAKKANI-TUR,2010). Esse modelo original, para resumos de multi-documentos, procede de diversas distribuições probabilísticas diferentes para palavras que surgem na entrada (HAGHIGHI; VAN-

DERWENDE,2009).

Essas representações de modelo de tópico são interessantes porque podem reter informações que se perdem na maioria das outras abordagens, como por exemplo uma representação evidente dos documentos individuais que compõem o conjunto. A representação especificada concederá o desenvolvimento de sumarizadores melhores, que poderão disseminar as afinidades e diferenças entre os variados documentos que formam a entrada para resumos multi-documentos.

Os modelos de tópicos ressaltam a utilidade de um procedimento diferente de pon- tuação de frases: Divergência Kullback-Lieber (KL) . A divergência KL entre duas distribuições de probabilidade pode capturar a discordância na probabilidade referida aos mesmos eventos (ocorrência de palavras) pelas duas distribuições. A probabilidade das palavras do resumo pode ser medida de maneira direta, pelo número de vezes que a palavra ocorre dividido pelo total do número de palavras.

A divergência KL oferece uma maneira de mensurar a importância das palavras, dada por suas probabilidades, e as alterações no resumo de acordo com a entrada.

5. Agrupamento de frases e tópicos dependentes do domínio:

Nos resumos multi-documentos de notícias, as entradas, equivalem a variados artigos de um mesmo tema, provavelmente de diversas fontes.

Em sumarização, a similaridade do co-seno é utilizada para determinar a similaridade entre as representações do vetor das sentenças (SALTON et al.,1997). Nesta abordagem, os grupos de frases similares são tratados como representantes para tópicos; grupos com várias frases retratam consideráveis temas de tópicos na entrada.

A abordagem apoiada em grupos de frases para sumarização de multi-documentos pesquisa a iteração no nível da frase. Quanto maior o número de frases em um cluster,

No documento Disorderclassifier: classificação de texto para categorização de transtornos mentais (páginas 31-34)