• Nenhum resultado encontrado

4 Implementações preliminares: os sumarizadores HTMLSUMM e GEO

4.1 Sumarização baseada em etiquetas HTML

4.1.2 Avaliação do sistema HTMLSUMM

4.1.2.2 Síntese da avaliação do HTMLSUMM

A Tabela 7 mostra a informatividade semântica média, variando de 0 a 1, obtida por cada sistema, sendo os sombreados os métodos simples considerados nesse trabalho.

Tabela 7. Informatividade semântica para o corpus de avaliação

Sistema Informatividade Semântica média S3 0,17 S13 0,15 S14 0,15 S11 0,14 S10 0,14 S5 0,14 S12 0,13 S9 0,13 S1 0,12 S6 0,1 S2 0,09 S4 0,08 S8 0,06 S7 0,05

Conforme podemos observar na Tabela 7, os valores médios de informatividade obtidos por todos os sistemas foram muito baixos. Isso pode ser explicado pelo fato de as descrições analisadas serem muito curtas, com apenas duas sentenças, já que optamos por reproduzir descrições que caracterizassem bem aquelas que são exibidas pelos

mecanismos de busca. Considerando esse tamanho padrão de duas sentenças, conclui-se que as descrições geradas são ruins, o que pode comprometer sua utilização na apresentação de resultados de buscas. Porém, cabe ressaltar que, apesar do baixo desempenho a versão base do HTMLSUMM (S3) foi o sistema que apresentou o melhor resultado médio de informatividade semântica, o mesmo podendo ser observado para suas versões modificadas frente aos sistemas comerciais e ao baseline. Esse dado é interessante porque demonstra que existe um potencial a ser explorado no que se refere à aplicação das etiquetas HTML na SA.

A diferença para o Google pode ser explicada pelo fato de que ele gera as descrições apenas considerando a presença dos termos da consulta do usuário. Nesse caso, ele pode recuperar excertos do documento que não necessariamente sejam os mais proeminentes (localizados no topo da página). Além disso, os termos da consulta do usuário podem não coincidir com as palavras com maior densidade no documento. Já o baseline, apesar de recuperar o conteúdo da etiqueta <META NAME=”Descripton”> que traz muitas palavras proeminentes devido à sua localização nas primeiras linhas do código-fonte, não necessariamente traz na descrição palavras de alta densidade, já que elas podem não se repetir em outros trechos do documento; além disso, a presença desta etiqueta não é obrigatória nos documentos.

Mesmo fazendo uso de características lingüísticas, o desempenho médio do Copernic Summarizer ficou abaixo do Google e do HTMLSUMM. Seu desempenho inferior provavelmente seja em virtude de o seu algoritmo de sumarização não considerar a estrutura HTML do documento. Esse resultado aponta que o conjunto de etiquetas utilizado pelo HTMLSUMM e sua estratégia de sumarização conseguem gerar descrições mais informativas que os outros sistemas, do ponto de vista de trazer o

conteúdo mais denso e proeminente e isso justifica a continuidade da investigação da estratégia utilizada, apesar do baixo valor de informatividade alcançado.

A Figura 12 mostra os valores da informatividade semântica obtidos pelo HTMLSUMM (S3) e os outros sistemas para cada um dos documentos do corpus.

0 0,05 0,1 0,15 0,2 0,25 0,3 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Documentos In fo rm a ti v id a d e S e m â n ti c a HTMLSUM Google Copernic Baseline

Figura 12. Informatividade dos sistemas para a coleção de documentos

Como podemos notar pelas curvas, existe uma grande variação da informatividade dependendo do documento sumarizado. Isso evidencia que o desempenho dos sistemas é dependente de algumas características dos documentos que merecem investigações mais profundas para sua detecção. Possivelmente para o HTMLSUMM esse comportamento pode estar relacionado à riqueza de etiquetas do documento, ou seja, os valores mais baixos das curvas podem indicar os documentos cujas etiquetas HTML têm pouca correspondência com aquelas definidas no modelo do HTMLSUMM. Observamos que para 13 dos 21 documentos (62% dos casos), o HTMLSUMM conseguiu obter o melhor valor de informatividade, isso aponta que a sua superioridade é constante para a maior parte da coleção. Para 5 documentos o Copernic superou o HTMLSUMM. Como ele considera características lingüísticas, esse dado pode indicar que, para certos documentos, considerar somente a estrutura HTML seja insuficiente. Logo, a metodologia utilizada pode ser aprimorada considerando informações de outra natureza, por exemplo, as lingüísticas, e não só as das etiquetas HTML.

Analisando o desempenho médio dos sistemas que corresponderam a variações do HTMLSUMM, podemos observar que a introdução dessas variações não trouxe melhorias com relação ao sistema base (S3).

Apesar da nossa hipótese sobre a utilidade de se estabelecerem pesos diferenciados para as etiquetas HTML, em alguns casos, não houve diferença significativa com relação à informatividade semântica entre os sistemas quando estes utilizavam peso homogêneo igual a 1.

De maneira geral, desconsiderar a etiqueta de link <A>, não traz prejuízos ao desempenho do sistema. Essa situação é evidenciada, por exemplo, pelo sistema S14, que teve um resultado muito próximo àquele alcançado pelo sistema base. Isso pode ser explicado pelo fato de que os links, geralmente, contêm informações que descrevem bem o documento para o qual eles apontam, sendo algumas vezes pouco úteis para indicar o conteúdo do documento em que eles estão definidos (MCBRYAN, 1994).

Tentar privilegiar sentenças mais longas ou mais curtas não parece influenciar a informatividade de uma descrição de um documento Web. Isto é evidenciado na Tabela 7, para os sistemas S7 e S8, que obtiveram um valor médio de informatividade muito similar e apresentam como única diferença justamente a variação V3, que privilegia as sentenças mais curtas em detrimento das mais longas.

Os resultados mostram que o processo de remoção de stopwords (palavras muito comuns ou sem conteúdo que são consideradas irrelevantes) durante a seleção e extração de informações contribui para que os sistemas gerem descrições mais informativas. Isso é evidenciado na Tabela 7, já que os sistemas com melhores desempenhos médios fazem esse processo.

Apesar da baixa informatividade semântica média obtida pelo HTMLSUMM, esse sistema apresentou, dentre os demais, o melhor desempenho médio, superando

mesmo o desempenho do Copernic e do Google, demonstrando que existe um potencial a ser explorado. A conclusão a que chegamos é que o uso de informações estruturais pode ser um fator complementar importante para a geração de extratos de documentos

Web, pelo seu potencial de produzir conteúdo mais denso e proeminente do que os

outros sistemas. Isso justifica o estudo e o aprimoramento desse sistema, principalmente no que diz respeito à combinação e avaliação de outras variações além das aqui consideradas, uma vez que não realizamos uma combinação exaustiva de todas elas. Também pode ser aprimorado o modelo de pesos das etiquetas HTML.

Apesar do potencial evidenciado pelos resultados sobre a utilidade das etiquetas HTML, existem algumas limitações claras referentes ao modelo de sumarização utilizado pelo HTMLSUMM, sendo a principal delas a necessidade da presença no documento das mesmas etiquetas HTML utilizadas pelo sistema. Isso pode ser um problema para o processo de sumarização na forma como ele é feito no HTMLSUMM, na medida em que os documentos não utilizarem aquelas etiquetas definidas no modelo do sistema. Além disso, esse processo de sumarização lida somente com a estrutura de formatação do texto, não fazendo nenhum tipo de processamento de conteúdo que não esteja explicitamente ressaltado por etiquetas, o que pode levar a situações em que grande parte do conteúdo do documento seja ignorado para geração dos extratos. Diante dessas limitações, propusemos outro modelo de sumarização com foco no conteúdo textual de documentos Web. O modelo proposto baseia-se em conhecimento ontológico para realizar o processamento semântico do conteúdo textual. Esse modelo é descrito na Seção 4.2. A seguir apresentaremos alguns exemplos de extratos de documentos Web gerados pelo HTMLSUMM.

4.1.2.3 Geração de extratos de documentos Web utilizando o