• Nenhum resultado encontrado

2.1. A Sumarização Automática Multidocumento

2.1.3. As estratégias de avaliação em SAM

As estratégias de avaliação já foram bastante exploradas no cenário do PLN, pois permitem verificar o avanço do estado da arte dos sistemas/métodos. Quanto à SA, as conferências internacionais, como a SUMMAC10 (Text Summarization Evaluation

Conference) e a DUC (Document Understanding Conference) (DANG, 2005), iniciada em 2001 e que passou a se chamar TAC11 (Text Analysis Conference) em 2008,

desempenharam papel central no estabelecimento dos parâmetros de avaliação.

De um modo geral, a avaliação de sistemas de SA pode ser classificada em intrínseca ou extrínseca. A primeira foca a avaliação do desempenho dos sistemas por meio da análise de seus resultados (sumários). A segunda foca a avaliação da utilidade dos sumários em alguma tarefa específica, por exemplo, na recuperação de informação (SPARCK JONES; GALLIERS, 1996).

Reconhece-se, na literatura, que a avaliação extrínseca é uma tarefa demorada, cara e que requer um planejamento cuidadoso (HALTEREN; TEUFEL, 2003) e que a intrínseca deve focar a qualidade e a informatividade dos sumários (MANI, 2001). A avaliação intrínseca, aliás, é a mais frequentemente realizada nos trabalhos de SA.

Há dois aspectos principais que são o alvo da avaliação intrínseca dos sumários produzidos automaticamente: a informatividade e a qualidade linguística (MANI, 2001). A informatividade diz respeito à quantidade de informação relevante que está contida nos sumários e esse tipo de avaliação é geralmente realizada de forma automática. A qualidade diz respeito a fatores relacionados à gramaticalidade, coesão, coerência, etc. Fatores esses que são avaliados de forma manual.

Para a avaliação de informatividade, uma das medidas automáticas amplamente usadas é a ROUGE (Recall-Oriented Understudy for Gisting Evaluation (LIN, 2004), pois, além de ser de domínio público, é a medida mais adotada em conferências internacionais. O princípio dessa medida é basicamente comparar a quantidade de n- gramas (palavras) em comum entre o sumário produzido automaticamente e um ou mais sumários humanos, também chamados sumários de referência. Essa medida fornece

10 http://www-nlpir.nist.gov/related_projects/tipster_summac/ 11 http://www.nist.gov/tac/about/index.html

18 resultados em termos de precisão, cobertura e medida-f, cujas métricas estão descritas em (1).

A precisão diz respeito ao número de n-gramas em comum entre o(s) sumário(s) de referência e o sumário automático em relação ao total de n-gramas do sumário automático. A cobertura diz respeito ao número de n-gramas em comum entre o(s) sumário(s) de referência e o sumário automático em relação ao total de n-gramas do(s) sumário(s) de referência. Em outras palavras, a precisão captura a quantidade de informação do sumário de referência que está no sumário automático e a cobertura, por sua vez, captura o quanto da informação do sumário de referência foi coberto pelo sumário automático. Essas duas medidas são complementares e são ponderadas pela medida-f, que calcula a média harmônica da precisão e cobertura. Como precisão e cobertura são inversamente relacionadas, uma tende a diminuir quando a outra sofre aumento.

(1)

Precisão = n-gramas em comum entre sumário automático e humano n-gramas do sumário automático

Cobertura = n-gramas em comum entre sumário automático e humano n-gramas do sumário humano

Medida-f = 2x Precisão x Cobertura Precisão x Cobertura

A ROUGE é muito popular no PLN porque é barata e facilmente aplicável a qualquer tipo de sumário. Uma desvantagem dessa medida é que, por apenas avaliar correspondência de n-gramas, ela não considera todo aspecto relacionado à qualidade dos sumários.

Para a avaliação da qualidade linguística dos sumários automáticos, a TAC sugeriu 5 aspectos: (i) gramaticalidade, que se refere aos padrões de boa ortografia, pontuação e sintaxe, (ii) coerência, que se refere à manutenção da organização textual de forma que preserve o sentido do texto, (iii) não redundância, que se refere ao fato de que não existam informações repetitivas no sumário, (iv) foco, que se refere ao fato de que as partes do texto devem estar relacionadas com o todo e (v) clareza referencial, que se refere a presença adequada de componentes linguísticos que liguem apropriadamente

19 os elementos do sumário. Para avaliar os sumários de acordo com esses critérios, a TAC sugere que cada um dos aspectos seja pontuado com valores entre 1-5, sendo que 1 significa “muito ruim” e 5 significa “muito bom”.

Além dessas possibilidades, vários autores têm investigado outras, já que não há consenso sobre a melhor forma de se avaliar um sistema dessa natureza. Dentre eles, citam-se, por exemplo, Nenkova e Passonneau (2004) e Louis e Nenkova (2013).

O método da pirâmide de Nenkova e Passonneau (2004) considera um conjunto de sumários de referência a partir dos quais são extraídas “unidades de conteúdo do sumário” (summarization content units - SCU). As SCU são organizadas em uma pirâmide cujo topo representa as que aparecem na maioria dos sumários de referência. As SCU são pontuadas de acordo com a posição na pirâmide, sendo mais bem pontuadas as SCU localizadas mais no topo do que as demais. Os sumários automáticos mais informativos são os que têm maior número de SCU próximas do topo da pirâmide.

Louis e Nenkova (2013) propuseram 3 métodos de avaliação, visando reduzir a influência da subjetividade humana na tarefa e a dificuldade de se obter dados provenientes de humanos. No primeiro, mede-se a similaridade entre os textos-fonte e os sumários automáticos, assumindo que um bom sumário é similar aos textos dos quais foram gerados. No segundo, adicionam-se, a um pequeno conjunto de sumários de referência, sumários automáticos escolhidos por humanos (pseudomodelos). No terceiro método, faz-se uso somente de sumários automáticos para construir o conjunto de sumários de referência, seguindo um critério similar ao método da pirâmide. Assim, as informações relevantes são aquelas que aparecem na maioria dos sumários automáticos, e os sumários que mais possuam essas informações relevantes são os novos sumários de referência. Com a proposição desses métodos, Louis e Nenkova salientam que as avaliações humanas podem ser reproduzidas por essas métricas totalmente automáticas com alta precisão.

A seguir, apresentam-se os principais métodos profundos baseados em conhecimento léxico-conceitual.