• Nenhum resultado encontrado

Geração de extratos de documentos Web utilizando o HTMLSUMM:

4 Implementações preliminares: os sumarizadores HTMLSUMM e GEO

4.1 Sumarização baseada em etiquetas HTML

4.1.2 Avaliação do sistema HTMLSUMM

4.1.2.3 Geração de extratos de documentos Web utilizando o HTMLSUMM:

Nesta seção apresentaremos exemplos de extratos de documentos Web gerados pelo HTMLSUMM e uma análise desses extratos. Os documentos-fonte utilizados (identificados por DF1 e DF2) e extratos automáticos correspondentes (identificados por E1H e E2H) são mostrados a seguir.

HTMLSUMM - Extrato Automático (90% de compressão): E1H

SH1 O pai da ficção científica escreveu livros que até hoje encantam leitores do mundo inteiro!

SH2 Vinte mil léguas submarinas, Viagem ao centro da Terra, A volta ao mundo em oitenta dias e Viagem da Terra à Lua são considerados os livros mais importantes de sua obra. SH3 Ciência Hoje das Crianças

SH4 INÍCIO | O INSTITUTO | CH ON-LINE | REVISTA CH | CH DAS CRIANÇAS | APOIO À EDUCAÇÃO | CONTATO

Analisando o extrato E1H referente ao documento-fonte DF1 (Figura 13), cujas sentenças estão identificadas por SH1 a SH4, observamos que SH1 introduz uma referência que não pode ser resolvida no extrato, pois ao citar “O pai da ficção”, o leitor não tem como recuperar a quem esta sentença se refere. A sentença SH2 também introduz problemas ao extrato, se considerado seu contexto original, pois faz referência com “de sua obra” ao agente “Júlio Verne”, contido na sentença anterior (“Júlio Verne escreveu muito durante toda a vida”), omitida em E1H.

Outro problema claro do extrato refere-se a sua textualidade. As quatro sentenças incluídas em E1H são desconexas, prejudicando sua coerência e coesão. Além disso, se considerarmos que o tópico principal de DF1 refere-se ao escritor Júlio Verne e as suas obras de ficção científica, somente as sentenças SH1 e SH2 trazem, em seu conteúdo, alguma relação com este tópico, já que SH3 e SH4 introduzem no extrato informações completamente marginais. Assim, E1H traz 50% de sentenças com conteúdos irrelevantes, que não tem nenhuma relação com a temática principal de DF1. De modo geral, E1H deixa muito a desejar com relação à informatividade, pois omite o agente, personagem ilustre sobre o qual versa o documento, e o evento realizado.

Se observarmos os dados da Tabela 8, que traz os pesos normalizados no intervalo de 0 a 1, a inclusão das sentenças SH3 e SH4 pelo HTMLSUMM é justificável já que, apesar de serem irrelevantes do ponto de vista da manutenção do tópico

principal, tanto SH3 (com peso 35%) quanto SH4 (com peso 100%) contêm várias palavras-chave provenientes das etiquetas de título (<TITLE>) e links (<A>).

Tabela 8. Síntese das informações consideradas pelo HTMLSUMM para DF1

E1H Etiquetas HTML

consideradas Palavras da sentença relacionadas à etiqueta

Peso de cada sentença [0-1]

<TITLE> hoje SH1

<STRONG> pai, ficção, científica, escreveu, livros, hoje, encantam, leitores, mundo, inteiro

0.67 SH2 <I> vinte, mil, léguas, submarinas, viagem, centro,

terra, volta, mundo, oitenta, dias, terra, lua, 0.32 SH3 <TITLE> ciência, hoje, crianças 0.35

<A> início, instituto, ch, revista, apoio, educação SH4

HTMLSUMM - Extrato Automático (90% de compressão): E2H SH1 Iraque condena cinco à morte e 35 à prisão por terrorismo

SH2 Na terça-feira o mesmo tribunal condenou 25 pessoas, entre elas cinco iraquianos, quatro sauditas, um sírio e um bengali a penas de morte e prisão, também por terrorismo, no caso dos iraquianos, e por entrada ilegal no Iraque, no caso dos estrangeiros.

SH3 Leia o que já foi publicado sobre pena de morte no Iraque SH4 Leia cobertura completa sobre o Iraque sob tutela

SH5 Promotor aposta em pena mais severa para Cristian Cravinhos SH6 Novas ações de Israel matam 23 no Líbano; Hizbollah lança foguetes SH7 Sandy e Junior se estranham nos bastidores de show

SH8 Globo admite que "Páginas da Vida" apela e promete controle

Observando o documento-fonte DF2 (Figura 14) e o extrato correspondente gerado pelo HTMLSUMM, temos que em E2H a sentença SH2 introduz um referente que não pode ser resolvido no extrato já que ela cita “o mesmo tribunal”, não sendo possível recuperar a que tribunal se refere a sentença.

Do ponto de vista da textualidade, as sentenças incluídas em E2H são desconexas, prejudicando sua coerência e coesão.

Considerando que o tema principal do documento é “a condenação imposta pelo tribunal iraquiano”, as duas primeiras sentenças de E2H são as mais relevantes do extrato. A sentença SH1 escolhida é bem informativa neste aspecto, embora SH2 introduza problemas de quebra de referência, ela ajuda a complementar a informação trazida por SH1 já que introduz detalhes sobre o tópico. A escolha de SH1 e SH2 pelo HTMLSUMM se deve ao peso derivado do título (“Iraque condena cinco à morte e 35 à prisão por terrorismo”), já que elas compartilham várias dessas palavras-chave, conforme vemos na Tabela 9. Por outro lado, as demais sentenças de E2H são completamente irrelevantes e em nada contribuem para o extrato.

Tabela 9. Síntese das informações consideradas pelo HTMLSUMM para DF2

E2H Etiquetas HTML

consideradas

Palavras da sentença relacionadas à etiqueta

Peso de cada sentença [0-1]

SH1 <TITLE> iraque, condena, cinco, morte, prisão,

terrorismo 0.92 SH2 <TITLE> morte, cinco, prisão, terrorismo, iraque 0.76

<TITLE> iraque, morte SH3

<A> leia, foi, publicado, pena 0.73 <TITLE> iraque, morte

SH4

<A> leia, cobertura, completa, tutela 0.73 SH5 <A> promotor, aposta, pena, severa, cristian,

cravinhos 0.6 SH6 <A> novas, ações, israel, matam, líbano, hizbollah,

lança, foguetes 1 SH7 Sandy, junior, estranham, bastidores, show 0.69 SH8 <A> globo, admite, páginas, vida, apela, promete, controle 0.86

Se considerado como um todo, somente 25% das sentenças de E2H são relevantes. Assim, o extrato E2H deixa muito a desejar nesse aspecto já que mesmo as sentenças marginais apresentam pesos relativamente altos, conforme mostra a Tabela 9, por exemplo, SH6 que tem peso máximo de 100%. Observe que as sentenças de SH3 a SH8 foram selecionadas por incluírem diversas palavras-chave provenientes da etiqueta de links <A>, porém essas palavras-chave não são boas representantes do documento- fonte já que se referem a tópicos irrelevantes. Na próxima seção descrevemos o modelo baseado em conhecimento ontológico.