O Sistema SweSum - Sistemas de SA que usam o potencial de marcação HTML

3 Utilização da marcação HTML e conhecimento ontológico para o processamento

3.1 O formalismo HTML

3.1.1 Sistemas de SA que usam o potencial de marcação HTML

3.1.1.1 O Sistema SweSum

O SweSum (DALIANIS, 2000) é um sumarizador automático de textos jornalísticos desenvolvido inicialmente para o sueco, mas hoje disponível também para outros idiomas, como o norueguês, dinamarquês, espanhol, inglês, francês, alemão, persa e grego. Ele faz uso de heurísticas de extração baseadas em informações estatísticas e lingüísticas, gerando sumários de textos jornalísticos em formato HTML. O processo de sumarização se dá em três passos principais (Figura 6): pré- processamento e extração de palavras-chave, ranqueamento de sentenças e composição do extrato.

Figura 6. O processo de sumarização no SweSum

No primeiro passo, as sentenças do documento são delimitadas considerando os símbolos de pontuação usuais e a etiqueta <BR> que indica quebras de linha. Além das sentenças delimitadas, o sistema armazena a posição (linha) de cada uma delas dentro do código-fonte HTML. Após essa delimitação, as palavras-chave do documento são extraídas. São consideradas palavras-chave os substantivos, adjetivos, advérbios ou quaisquer palavras definidas pelo usuário do sistema. Para cada palavra-chave é computada sua freqüência no documento e, para isso, é usado um léxico. A freqüência das palavras-chave é usada posteriormente no processo de ranqueamento de sentenças.

No segundo passo, o sistema determina a importância das sentenças do texto e os seus respectivos ranques, atribuindo-lhes um escore. O escore de cada sentença depende de sua posição no texto e da freqüência das palavras que ela contém. Para isso são levados em consideração os seguintes critérios:

• Inclusão incondicional da primeira sentença do documento: é sempre incluída no sumário. A hipótese é que em textos jornalísticos a primeira sentença é sempre importante e deve fazer parte do sumário.

• Critério geográfico: as sentenças são ranqueadas de acordo com sua posição no documento. Por se tratar de documentos HTML, a posição de cada sentença corresponde à linha do código-fonte HTML onde se encontra a sentença. Considerando uma sentença que no código-fonte

Léxico Passo 1 Pré-processamento Extração de palavras-chave Passo 2 ranqueamento de sentenças Passo 3 composição do extrato

ocorre após duas etiquetas quaisquer como <HTML> e <TITLE>, por exemplo, ela teria como posição o valor 3. O escore de posição é calculado conforme a fórmula seguinte:

1 *10 Escore posição linha da sentença   =    

De acordo com esta fórmula as sentenças que aparecem primeiro, ou seja, pertencem às primeiras linhas, apresentarão maior escore de posição.

• Premiação para a presença de valores numéricos: sempre que um número é encontrado em uma sentença, seu escore é acrescido de uma unidade. A hipótese é que os dados numéricos são importantes e as sentenças que trazem esses tipos de dados devem ser privilegiadas.

• Escore fixo para textos em negrito: o SweSum associa um escore de 100 para as sentenças que contêm textos em negrito; que são identificados no código HTML pela etiqueta <B>. A associação do valor 100 ao escore não é justificada pelo autor, intuitivamente isso garante que sentenças com textos em negrito tenham uma alta prioridade sobre as outras.

• Premiação de sentenças pela presença de palavras-chave: as sentenças são premiadas de acordo com freqüência das palavras-chave que elas contêm.

Os critérios definidos anteriormente são usados para determinar o escore de cada sentença. Ainda no segundo passo do processo de sumarização, um escore individual de cada palavra no documento é calculado e adicionado ao escore da sentença, conforme as fórmulas seguintes:

EscorePalavra = (FrequênciaPalavra)* ConstantePalavraChave

em que ConstantePalavraChave tem o valor padrão de 0,3333. A escolha desse valor

não é justificada no trabalho pelo autor.

Para evitar distorções no ranqueamento, como a introduzida por sentenças muito longas, todos os escores sentenciais são normalizados; para isso, o escore de cada sentença, calculado conforme a fórmula anterior, é multiplicado por um fator denominado ASL (Average Sentence Length) e dividido pelo número total de palavras

na sentença. * ASL EscoreSentença EscoreSentença NumeroPalavrasNaSentença = QuantidadePalavras ASL QuantidadeLinhas =

em que QuantidadePalavra corresponde ao número total de palavras no documento e QuantidadeLinhas corresponde ao número de linhas do código-fonte.

O terceiro passo de composição do extrato, simplesmente seleciona as sentenças de maiores escores para compô-lo. O sistema também inclui no extrato todas as linhas de código HTML restantes a fim de manter a estrutura do documento no momento de apresentá-lo ao usuário.

O SweSum passou por um processo de avaliação automática (HASSEL, 2003) e

manual. Na avaliação automática, o objetivo foi medir a precisão do sistema, verificando quantas das sentenças do extrato automático coincidem com aquelas contidas em um extrato ideal. Um corpus de extratos ideais de textos jornalísticos foi criado. Os extratos ideais foram manualmente construídos por especialistas que, após lerem os textos-fonte correspondentes, selecionaram as sentenças consideradas mais

relevantes para incluí-las nos extratos. Os extratos ideais foram construídos a partir de textos, com tamanhos que variam entre 5 e 500 linhas e com um número médio de 193 palavras. Na média, os extratos corresponderam a 37% do tamanho original dos textos- fonte.

A avaliação automática consistiu da comparação de 100 extratos gerados pelo sistema, sentença a sentença, com o respectivo extrato ideal, ou seja, para cada extrato obtido, checavam-se quantas de suas sentenças estavam presentes no extrato ideal correspondente. Os resultados obtidos indicaram uma precisão de 57.2% para o sistema. Na avaliação manual, o objetivo foi medir a informatividade e a coerência dos extratos gerados pela ferramenta. Foi considerado um processo de redução gradual do tamanho dos extratos, aumentando a taxa de compressão, a fim de determinar até que ponto os documentos poderiam ser sumarizados mantendo a coerência e a informatividade. O objetivo foi, portanto, identificar até que valores se poderia aumentar a taxa de compressão sem prejudicar a coerência e a informatividade do extrato. Noventa extratos foram gerados usando o SweSum, usando taxas de compressão

variando entre 10% e 90%. Para cada extrato, um juiz verificou se havia existido quebra de coerência ou perda de informatividade e anotou qual era a taxa de compressão quando isso ocorreu. Os resultados obtidos indicaram que, na média, os extratos mantinham-se coerentes com taxas de compressão de até 74% e a informatividade era mantida para taxas de compressão de até 69%. Usando taxas de compressão maiores, os extratos começam a apresentar problemas de coerência e informatividade. Esses resultados podem ser considerados ruins, sobretudo se considerarmos que a aplicação de extratos na apresentação de resultados de buscas exige altas taxas de compressão.

No documento ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia. (páginas 33-38)