• Nenhum resultado encontrado

Geração de extratos de documentos Web utilizando o GEO: ilustração

4 Implementações preliminares: os sumarizadores HTMLSUMM e GEO

4.2 Sumarização baseada em ontologia

4.2.3 O sistema de geração de extratos GEO

4.2.3.4 Geração de extratos de documentos Web utilizando o GEO: ilustração

Nesta seção apresentaremos exemplos de extratos de documentos Web gerados pelo GEO e uma análise desses extratos. Cabe destacar que os documentos-fonte utilizados (identificados por DF1 e DF2) são os mesmos das Figuras 13 e 14 (da Seção

4.1.2.3) utilizados na geração de extratos pelo HTMLSUMM e por esse motivo eles não foram reproduzidos nessa seção. Os extratos automáticos (identificados por E1G e E2G) gerados pelo GEO, que correspondem aos documentos DF1 e DF2 respectivamente, são mostrados a seguir.

GEO - Extrato Automático (90% de compressão): E1G

SG1 O pai da ficção científica escreveu livros que até hoje encantam leitores do mundo inteiro!

SG2 “Ficção científica é um gênero literário dedicado a criar mundos fictícios que, de alguma forma, são diferentes do mundo real em que vivem seus autores”, explica Lucia de La Rocque, pesquisadora da Fundação Oswaldo Cruz.

SG3 Foi o que Júlio Verne fez: em seus livros, criou inventos que, na época, eram impossíveis de produzir!

Analisando o extrato E1G gerado pelo GEO referente ao documento-fonte DF1 (Figura 13), cujas sentenças estão identificadas por SG1 a SG3, observamos que em E1G a sentença SG3 introduz uma incoerência, se considerado seu contexto original, pois faz referência (com “Foi o que Júlio Verne fez”) ao “dar-se o luxo de inventar coisas mirabolantes”, contido na sentença anterior, omitida em E1G. No entanto, a primeira sentença desse parágrafo, por ser mais genérica e introduzir claramente a criação de mundos fictícios, permite o estabelecimento da relação entre SG3 e SG2, muito embora ligeiramente modificada.

A sentença SG1 poderia introduzir outro problema, se não houvesse a referência catafórica a Júlio Verne em SG3, já que um leitor não saberia de quem o texto fala.

De modo geral, o extrato S1G é coerente e coeso. As sentenças incluídas nesse extrato são bastante informativas em relação ao agente e evento realizado, remetendo bastante satisfatoriamente ao tópico principal do documento Web. Observando os dados da Tabela 15, as três sentenças incluídas no extrato estão associadas a conceitos que são realmente relevantes para DF1 como, por exemplo, “Livros”, “Ficção Científica”, “Gênero Literário” e “Júlio Verne”.

Tabela 15. Síntese das informações consideradas pelo GEO para DF1

E1G Conceitos considerados14

Palavras da sentença mapeadas

no conceito

Peso de cada sentença

Compras e Serviços>>Livros livros Artes e Cultura>>Literatura>>Gêneros

literários>>Ficção Científica ficção científica

SG1

Sociedade>>Família>>Pais e Filhos pai

0.83

Artes e Cultura>>Literatura>>Autores autores Construção Civil>>Trabalho de Campo da construção

civil>>Fundações fundação

SG2

Artes e Cultura>>Literatura>>Gêneros literários gênero literário

0.84 Compras e Serviços>>Livros livros

SG3 Artes e Cultura>>Literatura>>Autores>>Júlio Verne

(1828-1905) júlio verne

1

GEO - Extrato Automático (90% de compressão): E2G

SG1 Entre os estrangeiros estão um cidadão sírio e seis sauditas, que foram condenados a penas de prisão de entre dez e quinze anos por ter entrado de modo ilegal em território iraquiano.

SG2 Na terça-feira o mesmo tribunal condenou 25 pessoas, entre elas cinco

iraquianos, quatro sauditas, um sírio e um bengali a penas de morte e prisão, também por terrorismo, no caso dos iraquianos, e por entrada ilegal no Iraque, no caso dos estrangeiros.

SG3 As autoridades iraquianas sustentam que a maioria desses combatentes são membros do braço iraquiano da organização terrorista Al Qaeda, cujo líder, Abu Musab al Zarqawi, morreu em um ataque aéreo americano em junho ao norte de Bagdá.

Observando o documento DF2 (Figura 14) e o extrato E2G, temos que a sentença SG2 introduz uma referência não resolvida no extrato (“o mesmo tribunal”) que está relacionada com “tribunal iraquiano”, citada na primeira sentença de DF2, mas que foi omitida de E2G. A sentença SG1 faz uma citação a “entre os estrangeiros” que se refere a “oito estrangeiros”, também mencionado na primeira sentença de DF2.

Do mesmo modo que as outras duas sentenças, SG3 também introduz uma referência não resolvida, pois cita a “maioria desses combatentes” que se refere, em DF2, à informação “centenas de combatentes estrangeiros” contida em uma sentença

14 Os conceitos considerados são aqueles em negrito. O caminho completo da ontologia foi incluído para

omitida do extrato. A ausência desses antecedentes prejudica a compreensão do extrato, tornando-o pouco coeso.

Embora os problemas citados prejudiquem a textualidade do extrato E2G, do ponto de vista da informatividade, ele consegue filtrar do documento-fonte sentenças que, ainda que desconexas, se relacionam ao tópico principal de DF2 que é “a condenação imposta pelo Iraque por terrorismo”. Observando os dados da Tabela 16, a maioria dos conceitos relacionados às sentenças são relevantes, pois têm relação direta com o tópico principal de DF2. As duas sentenças de maior peso, SG2 (97%) e SG3 (100%), por exemplo, estão associadas aos conceitos “Iraque” e “Terrorismo”, que são centrais no documento-fonte.

Tabela 16. Síntese das informações consideradas pelo GEO para DF2

E2G Conceitos considerados

Palavras da sentença mapeadas

no conceito

Peso de cada sentença

Ciência>>Agropecuária>>Culturas e Solos território Regional>>Países>>Síria sírio Regional>>Países>>Arábia Saudita sauditas SG1

Regional>>Países>>Iraque iraquiano

0.92

Regional>>Países>>Iraque iraquianos, Iraque Regional>>Países>>Arábia Saudita sauditas

Sociedade>>Morte morte Sociedade>>Crime>>Tipos de Crime>>Terrorismo terrorismo

Regional>>Países>>Síria sírio SG2

Entretenimento>>Ingressos entrada

0.97

Regional>>Países>>Iraque Iraquianas, iraquiano, Bagdá

Sociedade>>Crime>>Tipos de Crime>>Terrorismo terrorismo, Al Qaeda, terrorista

Business to Business>>Firmas e Escritórios organizações Regional>>Agências e Empresas organizações

Organizações e Associações organizações

SG3

Regional>>Países>>Estados Unidos americano

1

4.3 Geração de extratos de documentos Web: comparação de

desempenhos do HTMLSUMM e GEO

O que se nota pelos exemplos é que a geração dos extratos pelo HTMLSUMM é influenciada pelo layout das páginas Web. Páginas com menus, imagens e propagandas, que trazem geralmente informações marginais sem nenhum tipo de relação direta com o

conteúdo relevante da página, têm o processo de seleção de sentenças claramente prejudicado. O documento-fonte DF2 (Figura 14) é um exemplo desse tipo, no qual podemos distinguir visualmente uma região central, onde está localizado o conteúdo relevante do documento, circundado por menus, figuras e propagandas que, apesar de representarem a maior parte da informação do documento, são, de fato, informações irrelevantes. Os menus trazem tipicamente informações delimitadas pela etiqueta de

links <A>, que é usada pelo HTMLSUMM para seleção de palavras-chave. Nessas

situações, em vez de ajudar na seleção de conteúdos relevantes, os links acabam introduzindo informações marginais nos extratos, vide, por exemplo, sentenças SH3 a SH8 no extrato E2H (Seção 4.1.2.3). Portanto, em páginas com este layout a estratégia que utiliza etiquetas HTML, sobretudo influenciada pela etiqueta de links <A>, parece relativamente menos útil para gerar os extratos já que ela pode introduzir informações marginais. Os títulos das páginas, geralmente muito úteis para contextualizar (SH1 em E2H (Seção 4.1.2.3), por exemplo), pode também ter uma influência negativa no modelo do HTMLSUMM quando eles trouxerem, por exemplo, informações marginais como o nome do autor do site (vide SH3 em E1H (Seção 4.1.2.3)). Nessas situações, o modelo não é bom o suficiente para excluir as informações marginais, já que ele apenas considera a etiqueta para extração de palavras-chave sem fazer nenhuma consideração sobre o layout da página, ou seja, sobre as regiões que são potencialmente fornecedoras de informações relevantes.

Uma alternativa para aprimorar o modelo seria classificar as regiões do documento, detectando o maior corpo da página e somente extrair sentenças dessa região, também pode-se considerar excluir palavras isoladas e as sentenças muito curtas que indicam, em muitos casos, os menus. Outro problema claro da estratégia é que a seleção das palavras-chave está restrita apenas a algumas poucas regiões da página, e

não necessariamente àquelas regiões mais relevantes. Considerando as limitações do modelo, essa estratégia de sumarização possivelmente poderá desempenhar melhor para documentos compostos por um corpo simples, sem muitas informações marginais. Nesse caso, a seleção de palavras-chave para composição dos extratos pelo HTMLSUMM tende a ser mais refinada, fazendo com que ele selecione as sentenças mais relevantes.

A estratégia do GEO que é baseada em conhecimento ontológico mostra que a ontologia consegue captar alguns tópicos relevantes para os documentos, conseguindo selecionar, na maior parte dos casos, o conteúdo mais importante da página, filtrando grande parte das informações marginais (por exemplo, os extratos E1G e E4G (Seção 4.2.3.4)). O que se nota é que desempenho do sistema, diferentemente do HTMLSUMM, parece não sofrer muita influência do layout da página, mesmo o mapeamento sendo realizado também com palavras de regiões marginais do documento. De todo modo, o sucesso dessa estratégia depende de que a ontologia consiga detectar corretamente os tópicos mais relevantes, o que só ocorre quando há explicitamente o mapeamento entre as palavras do documento e os conceitos ontológicos. Apesar das limitações da ontologia, o que se observa, pelos exemplos, é que os extratos gerados pelo GEO conseguem ser relativamente informativos, principalmente se comparados àqueles gerados pelo HTMLSUMM. No próximo capítulo é apresentado o sistema ExtraWeb.

5 ExtraWeb: um sumarizador de documentos Web baseado