Avaliação da Extração de Temas e Trechos - Análise e Resultados da Avaliação do Extrator de Opi

6.6 Análise e Resultados da Avaliação do Extrator de Opinião Pública

6.6.4 Avaliação da Extração de Temas e Trechos

A partir dos dados apresentados na Tabela 2, foi possível avaliar a tarefa de extração de temas do EOP e comparar seus resultados com aqueles apresentados pelos sistemas de extração de palavras-chave.

Usando as palavras selecionadas na pesquisa como referência de comparação, a Tabela 6 apresenta todas as palavras-chave extraídas pelos cinco sistemas, destacando, em negrito, aquelas que coincidem com as selecionadas pelos juízes. A partir destes dados, foi possível calcular as métricas precisão, revocação e medida-F. Os resultados destes cálculos se encontram na Tabela 7.

Tabela 6 – Comparação entre os resultados da pesquisa e dos sistemas de extração de temas/palavras-chave. As palavras selecionadas pelos sistemas que coincidem com as palavras selecionadas pelos juízes humanos estão destacadas em negrito.

Pesquisa EOP LINGUAKIT TF-IDF SKETCH SUMMA GENSIM

Neymar Neymar Neymar Neymar Neymar Neymar Neymar

Tite Tite Tite Verdade Annenberg Tite Tite

Argentina Argentina Argentina Argentina Argentina Argentina Argentina

Rússia Rússia Rússia Rússia Rússia Rússia Rússia

Brasil Brasil Brasil Brasil Simpsons Brasil Brasil

Hexa Hexa Hexa Seleção Hexa Time Hexa

Copa Copa Copa Copa CR7 Copa Copa

Substituições Seleção Time Time Substituições Alien Substituições

Jogo Jogo Simpsons Verdade Salahazão Jogo Jogo

Corinthians Mês Seleção Time Equipe Simpsons

Tabela 7 – Comparação dos resultados da extração de palavras-chave/temas pelos diferentes sistemas usando as métricas precisão, revocação e medida-F.

SISTEMA PRECISÃO REVOCAÇÃO MEDIDA-F

EOP 0,89 0,89 0,89 LINGUAKIT 0,70 0,78 0,74 TF-IDF 0,56 0,56 0,56 SKETCH 0,56 0,56 0,56 SUMMA 0,70 0,78 0,74 GENSIM 1,00 0,69 0,82

É possível observar na Tabela 7 que os resultados do EOP mostram-se superiores a todos os outros sistemas no que diz respeito à precisão. Já em relação à revocação, mostram-se inferiores apenas aos do GenSim. Porém, a média harmônica destas duas medidas, representada pela medida-F, indica serem os resultados do EOP superiores a de todos os outros sistemas.

Para análise da relevância, foram apuradas as questões respondidas na última etapa da pesquisa. A Tabela 8 apresenta os resultados para cada tema avaliado, indicando seus respectivos índices de relevância, calculados conforme metodologia descrita anteriormente, e índice de potenciação, gerado pelo EOP.

A hipótese de que a relevância do tema pode ser expressa pelo índice de po- tenciação foi verificada calculando a correlação de Pearson entre o índice de potenciação e o índice de relevância, apresentados na Tabela 8. A Figura 42 mostra o diagrama de dispersão entre os dois índices. O valor da correlação de Pearson encontrado foi de 0,8829, com valor-p < 0,05, o que expressa significância estatística com uma correlação forte entre as medidas.

Figura 42 – Gráfico de dispersão entre o índice de relevância e o índice de potenciação das palavras avaliadas na pesquisa.

Para a avaliação dos trechos, foi utilizado o conjunto de referências que con- tinha os trechos indicados pelos juízes para cada palavra-chave escolhida. Porém, foram considerados apenas os trechos das palavras-chave que coincidiram com os temas selecionados pelo EOP. A Tabela 9 apresenta estes resultados. Em negrito estão os trechos que foram considerados equivalentes.

Tabela 9 – Comparação dos trechos selecionados pelos juízes e extraídos pelo EOP. Em negrito estão os trechos que foram considerados equivalentes.

Palavra-

chave Trechos - Pesquisa Trechos - EOP

Neymar

Neymar ta muito gato Neymar ta muito gato, esqueci de

falar

Capítulo 6. Avaliação do Extrator de Opinião Pública 179

Alguém tem que explicar pro Neymar que o jogo ganha quem faz mais gol, não

quem sofre mais falta

Cabelo do neymar -

neymar bonito achando o neymar bonito

cada vez que o Neymar cair cada vez que o neymar cair eu tomo um shot

Neymar quando pegava na bola -

eu me tornei aquilo q mais temia , achar o neymar bonito

tornei aquilo q mais temia , achar o neymar bonito

Tite

O Tite mexeu mal no time - Tite errou nas substituições - Se o Tite foi capaz de trazer a

Libertadores e o mundial pro Corinthians, ele trará o HEXA também

- O Tite não tem peito para tirar o Neymar - O Tite ontem foi o grande culpado -

Tite teve medo de assumir a responsabilidade de efetuar as alterações necessárias para tornar o

time ofensivo

verdade o tite teve medo de assumir a responsabilidade de efetuar as alterações necessárias para tornar o

time ofensivo

Tite faça boas substituiçoes que o tite faça boas substituições também nos próximos jogos Tite vai escalar alguém para marcar

o árbitro

próximo jogo da seleção , tite vai escalar alguém para marcar o

árbitro

Tite tem uma equipe competente em

todos os setores na Seleção -

Tite foi um dos piores do Brasil nesse jogo

verdade tite foi um dos piores do brasil nesse jogo

Argentina

Argentina mais perdida que a zaga do

Palmeiras -

Inglaterra e Argentina nunca mais vão

ganhar uma copa -

Acho mais fácil a Argentina cair na

primeira fase da copa do que o Brasil - a Argentina tem um mundial roubado -

Argentina vs Brasil é uma das melhores coisas do clima da copa do

mundo

argentina vs brasil é uma das melhores coisas do clima da copa do

mundo

Sempre torça pra seleção mais fraca ou

pra latino-americana (exceto Argentina) - Portugal é muito mais time que a

Argentina -

argentina jogou muito no seu primeiro jogo da copa

argentina voando na copa ” sim , de uma cidade pra outra pra jogar a fase de grupos e ser eliminada antes das oitavas

Rússia

Rússia: pior país pra se ter uma copa do mundo!

rússia pior país pra se ter uma copa do mundo

É um horror tb esse fuso horário com a

Rússia -

A Rússia não dorme durante a copa -

Racismo e homofobia na Rússia racismo e homofobia na rússia estragam a festa da copa do mundo Céu da sede da Copa da Rússia

deixa torcedores intrigados

céu da sede da copa da rússia deixa torcedores intrigados

Nossa, eu juntaria seis meses de dinheiro

pra ir pra RÚSSIA assistir a copa -

Egito e Rússia será um dos grandes jogos dessa fase de grupos

Fortes esperanças de que egito e rússia será um dos grandes jogos

dessa fase de grupos

Brasil

pro Brasil houve e não marcaram - Mas vai dar Brasil -

Brasil com hexa na copa da Rússia brasil com hexa na copa da rússia

tecnologia da copa chegar no Brasil -

Argentina vs Brasil é uma das melhores coisas do clima da copa do

mundo

argentina vs brasil é uma das melhores coisas do clima da copa do

mundo

Acho mais fácil a Argentina cair na

primeira fase da copa do que o Brasil -

- brasil eu nunca te pedi nada , só vem com o hexa nessa copa

- simpsons previram q o brasil vai ganhar o hexa esse ano

- Geral sabe que o brasil vai ser hexa campeão pelo simpsons

- próximo jogo do brasil , cada vez que o neymar cair eu tomo um shot - verdade tite foi um dos piores do brasil

nesse jogo

- brasil ganhar o hexa nessa copa , vou fazer 2 tatuagens até o final do ano

Hexa

Brasil eu nunca te pedi nada, só vem com o hexa nessa copa tá

brasil eu nunca te pedi nada , só vem com o hexa nessa copa tá Brasil com hexa na copa da Rússia o brasil que eu quero é um brasil

com hexa na copa da rússia

Se o Tite foi capaz de trazer a Libertadores e o mundial pro Corinthians,

Capítulo 6. Avaliação do Extrator de Opinião Pública 181

- simpsons previram q o brasil vai ganhar o hexa esse ano

geral sabe que o brasil vai ser hexa campeão pelo simpsons , o brasileirão já

pode voltar né que saudade

Copa

Meu twitter nesse mês vai ser só copa,

futebol e Neymar -

Brasil eu nunca te pedi nada, só vem com o hexa nessa copa tá

brasil eu nunca te pedi nada , só vem com o hexa nessa copa Argentina vs Brasil é uma das

melhores coisas do clima da copa do mundo

argentina vs brasil é uma das melhores coisas do clima da copa do

mundo Racismo e homofobia na Rússia

estragam a festa da Copa do Mundo

racismo e homofobia na rússia estragam a festa da copa do mundo

- brasil ganhar o hexa nessa copa , vou fazer 2 tatuagens até o final do ano - brasil que eu quero é um brasil com hexa

na copa da rússia

- russia: pior país pra se ter uma copa do mundo

- Poxa a argentina jogou muito no seu primeiro jogo da copa -

argentina voando na copa ” sim , de uma cidade pra outra pra jogar a fase de grupos e ser eliminada antes das oitavas - céu da sede da copa da rússia deixa

torcedores intrigado - 2014 tinha jogo da copa até 21h

Da mesma forma que ocorreu com a avaliação dos temas, os trechos também foram comparados com aqueles extraídos pelos sistemas de sumarização extrativa através do cálculo da precisão, revocação e medida-F. Os resultados desta comparação encontram- se na Tabela 10.

Analisando o desempenho do EOP para a tarefa de extração de palavras- chave, pode-se concluir que o EOP foi o sistema que apresentou os melhores resultados em comparação com os outros métodos. Tanto a precisão quanto a revocação mostraram- se superiores as dos demais sistemas, o que indica, além do bom desempenho, um bom ajuste das variáveis. A medida-F, calculada em 0,89, confirma estes resultados. Um dos pontos sensíveis dos extratores de palavras-chave é determinar o ponto a partir do qual as palavras não são mais relevantes. O EOP conseguiu automaticamente encontrar um limiar adequado sem a necessidade de intervenção humana. Em geral, os sistemas extratores de palavras-chave deixam a critério do usuário escolher esse ponto, entregando como

Tabela 8 – Resultado da apuração das questões: MRe refere-se à quantidade de respostas "Muito Relevante"; Rel, "Relevante"; PRe, "Pouco Relevante"; e Irr, "Irrele- vante". IR é o Índice de Relevância e IP é o Índice Potenciação gerados pelo EOP.

Palavra MRe Rel PRe Irr IR IP

Copa 14 0 0 0 56 3,00 Brasil 12 2 0 0 54 2,23 Neymar 10 4 0 0 52 1,39 Rússia 7 6 1 0 48 1,27 Jogo 5 6 3 0 44 1,26 Tite 6 7 1 0 47 1,06 Hexa 4 7 3 0 43 0,87 Seleção 2 2 9 1 33 0,85 Argentina 5 7 2 0 45 0,83 Time 1 3 7 3 30 0,44 Fase 1 0 4 9 21 0,40 Tatuagem 0 2 0 12 18 0,33 Portugal 0 0 3 11 17 0,03 Inglaterra 0 1 4 9 20 0,03 Invasão 0 0 3 11 17 0,03 Holofote 0 0 2 12 16 0,00

resultado apenas uma lista de palavras ranqueadas.

Outro aspecto analisado foi a possibilidade do índice de potenciação representar a relevância do tema. Para isto, foi calculada a correlação entre o índice de potenciação e o índice de relevância. O resultado foi uma correlação positiva, com valor-p < 0,05 e interpretação de correlação alta (0,89). Desta forma, o índice de potenciação pode ser utilizado como indicativo da relevância do tema.

Já em relação ao desempenho na tarefa de extração de trechos, também considerando as medidas calculadas e os valores da medida-F como parâmetros de análise, pode-se concluir que, em média, o EOP apresentou um desempenho superior aos outros sistemas testados. Numa análise por palavras-chave, no tema “Copa”, o sistema Luhn obteve melhor desempenho; no tema “Brasil”, o GenSim mostrou-se superior; no tema “Argentina”, LSA e Luhn mostraram-se superiores; nos demais, o EOP apresentou melhores resultados. O baixo desempenho dos outros sistemas, principalmente no que diz respeito à revocação, pode estar associado à natureza da atividade do sumarizador, o qual possui distintos critérios para selecionar o que é relevante, tendendo a selecionar poucas ideias relevantes de um universo de ideias para satisfazer o critério de compres- são do texto. Ainda assim, alguns sistemas tiveram uma precisão muito baixa, indicando que, mesmo escolhendo poucos trechos, os mesmos não correspondiam ao que os juízes humanos selecionaram.

Nos experimentos realizados, o EOP apresentou os melhores desempenhos em função da medida-F. Isto permite dizer que os dados obtidos pela ferramenta de extra-

Capítulo 6. Avaliação do Extrator de Opinião Pública 183

Tabela 10 – Comparação dos resultados da extração de trechos relevantes entre os diversos sistemas sumarizadores e o EOP a partir das métricas precisão, revocação e medida-F.

PALAVRA-CHAVE SISTEMA PRECISÃO REVOCAÇÃO MEDIDA-F

Neymar LEXRANK 0,67 0,25 0,36 LSA 1,00 0,25 0,40 LUHN 0,00 0,00 0,00 GENSIM 0,50 0,13 0,20 EOP 1,00 0,50 0,67 Tite LEXRANK 1,00 0,20 0,33 LSA 1,00 0,20 0,33 LUHN 1,00 0,20 0,33 GENSIM 1,00 0,20 0,33 EOP 1,00 0,40 0,57 Argentina LEXRANK 0,50 0,11 0,18 LSA 1,00 0,22 0,36 LUHN 1,00 0,22 0,36 GENSIM 0,50 0,11 0,18 EOP 0,66 0,22 0,33 Rússia LEXRANK 0,50 0,13 0,20 LSA 0,50 0,13 0,20 LUHN 0,50 0,13 0,20 GENSIM 0,50 0,13 0,20 EOP 1,00 0,50 0,67 Brasil LEXRANK 0,00 0,00 0,00 LSA 0,50 0,14 0,22 LUHN 0,50 0,14 0,22 GENSIM 1,00 0,29 0,44 EOP 0,42 0,38 0,40 Hexa LEXRANK 0,00 0,00 0,00 LSA 0,00 0,00 0,00 LUHN 0,00 0,00 0,00 GENSIM 0,00 0,00 0,00 EOP 0,67 0,50 0,57 Copa LEXRANK 0,50 0,25 0,33 LSA 0,50 0,25 0,33 LUHN 1,00 0,50 0,67 GENSIM 0,50 0,25 0,33 EOP 0,75 0,30 0,43 Média LEXRANK 0,45 0,13 0,21 LSA 0,64 0,17 0,27 LUHN 0,57 0,17 0,26 GENSIM 0,57 0,16 0,25 EOP 0,79 0,40 0,53

ção da opinião mostraram-se mais informativos do que nos demais sistemas. No entanto, deve-se levar em consideração que a avaliação comparativa tratou de analisar sistemas similares adaptados para exercer as mesmas tarefas do EOP. Este fato implica em duas observações: o melhor desempenho do EOP pode estar relacionado ao ajuste da ferramenta à atividade que ela se propõe, ressaltando o caráter inovador, o qual não pode ser devidamente reproduzido pela adaptação de outros sistemas de PLN; com exceção dos sistemas de análise puramente estatística, como o TF-IDF, os sistemas demandam ou trei- namento com corpus em português e∖ou tokenizadores e lematizadores para esta língua. Alguns destes sistemas são treinados com corpus para o português de Portugal, podendo gerar resultados menos adequados para textos em português do Brasil. Além disso, os tokenizadores e lematizadores dos sistemas implementados em Python são oriundos da biblioteca NLTK, enquanto o EOP possui um lematizador especialmente adaptado para a ferramenta, podendo, este fato, também ser um explicação para o seu melhor desempenho. Por fim, é importante ressaltar uma limitação do processo de avaliação online no que diz respeito à atividade do EOP: o tamanho do corpus não pode ser excessiva- mente longo, pois tornaria muito cansativa a atividade de sintetizá-lo. Porém, a proposta metodológica do EOP é buscar a informação relevante a partir da repetição de ideias, significando que quanto maior for o banco de dados, maior será a probabilidade de uma ideia se repetir e, assim, ser selecionada pelo EOP. Desta forma, acredita-se que o desem- penho da ferramenta esteja diretamente relacionado ao tamanho do corpus. Para testar esta hipótese, o próximo capítulo tratará de apresentar um experimento utilizando um corpus de mais de 500 discursos, previamente analisados por especialistas.

6.7 Conclusão do Capítulo

Este capítulo abordou o processo de avaliação do Extrator de Opinião Pública através da aplicação de uma metodologia de avaliação baseada nas avaliações de sistemas de processamento de linguagem natural.

A proposta metodológica fundamentou-se nos princípios gerais e diretrizes para avaliação de sistemas de PLN elaborados por Jones e Galliers (1995), os quais visam tornar a atividade de avaliação mais transparente e reproduzível, sendo uma referência consis- tente para comparações entre diferentes sistemas de PLN que executam as mesmas tarefas. Nesta abordagem, definiu-se uma avaliação intrínseca, online, black-box e comparativa.

Os conjuntos de referências foram obtidos a partir de uma pesquisa realizada de forma online com pós-graduando da Universidade Estadual de Campinas. Dezoito universitários leram um banco de dados formado por 50 tweets com o tema “Copa” e responderam a três questionários: no primeiro selecionaram as palavras que julgavam mais relevantes; no segundo, para cada palavra selecionada, indicaram trechos que as

Capítulo 6. Avaliação do Extrator de Opinião Pública 185

representassem; em terceiro responderam um questionário contendo palavras extraídas pelo EOP e as avaliaram em uma escala de relevância.

Como não foi encontrado na literatura um sistema que exercesse a mesma atividade que o EOP, a avaliação comparativa foi feita com sistemas adaptados para exer- cerem tarefas semelhantes. O processo de extração de temas foi comparado com sistemas de extração de palavras-chave. Já o processo de extração de trechos foi comparado com sistemas de sumarização extrativa. Como parâmetros de comparação, foram calculadas as métricas precisão, revocação e medida-F.

O desempenho do EOP foi superior aos de todos os outros sistemas avaliados, tanto na atividade de extração de temas quanto na seleção de parágrafos. Estes resultados indicam um bom ajuste da ferramenta ao que ela se propõe a fazer. Porém, é importante ressaltar algumas limitações da avaliação: o tamanho do corpus pode influenciar nos resultados, uma vez que, a princípio, quanto mais dados, melhores serão as extrações; e os sistemas de suporte como lematizadores, tokenizadores e listas de stop-words também podem exercer influenciar sobre os resultados, sendo que o melhor desempenho do EOP pode ser explicado pelo melhor ajustes destes sistemas.

Além da avaliação comparativa, a análise de relevância dos temas pelos juízes foi utilizado para verificar a hipótese de que o índice de potenciação poderia representar a representatividade do tema. Para isto, foi calculada a correlação de Pearson entre os índices. O resultado mostrou uma correlação estatisticamente significativa (valor-p < 0,05) e forte (0,89).

O desenvolvimento de uma metodologia de extração de opinião constitui um tema desafiador, que demanda grandes esforços para realizar o processamento adequado e que vai muito além da busca da informatividade. Sistemas de suporte adequados, como lematizadores e identificadores de entidades nomeadas, poderiam melhorar o desempenho geral do sistema; além disso, preocupações com a complexidade do algoritmo, a escalabi- lidade dos métodos e o preparo do banco de dados também são questões que representam desafios consideráveis ao desenvolvimento destas ferramentas.

Porém, considerando a informatividade, os resultados apresentados tornam o EOP uma estratégia interessante para a extração de opinião. Além disso, o sistema representa uma relevante contribuição para os estudos de sistemas de processamento de linguagem natural voltados à língua portuguesa e amplia as pesquisas sobre a aplicação de métodos não-supervisionados em tarefas de mineração de textos.

7 Experimento: Análise dos Discursos dos

Deputados Federais na Abertura do Impe-

achment da Presidente Dilma Rousseff

No capítulo anterior foi apresentado o processo de avaliação do Extrator de Opinião Pública, o qual mediu a eficiência da ferramenta frente a outros sistemas adaptados para executar as mesmas tarefas. Os resultados mostraram um melhor desempenho do EOP, em função da medida-F, quando comparado aos outros sistemas. Além disso, a avaliação permitiu a sintonia e ajuste ao auxiliar na determinação das variáveis de corte do sistema. Uma vez avaliado e ajustado, o EOP está pronto para experimentos mais ro- bustos e próximos da sua aplicação real: a síntese da informação relevante em um grande banco de dados de opiniões.

No processo de avaliação, uma das limitações estava no tamanho do banco de dados: em uma avaliação online, a atividade de síntese por juízes humanos é tão mais cansativa e complexa quanto maior é o banco de dados. Assim sendo, a quantidade de opiniões foi restrita a apenas 50 relatos. Porém, segundo as premissas da metodologia proposta, espera-se que, quanto maior for o banco de dados, mais eficiente seja o processo de extração e síntese, sendo necessário, desta forma, a realização de experimentos que comprovem ou refutem esta hipótese.

Para isto, dois experimentos foram propostos: o primeiro, apresentado neste capítulo, é a síntese e análise de 503 discursos proferidos pelos deputados federais na sessão de abertura do impeachment da Presidente Dilma Rousseff em 2016, cujos resultados foram comparados com os obtidos em uma análise semelhante feita pelos pesquisadores Prandi e Carneiro (2017). Um segundo, já no contexto de uso do EOP na plataforma Ágora, será apresentado no capítulo final deste trabalho.

Três eixos nortearão este capítulo: inicialmente será abordada a pesquisa de Prandi e Carneiro (2017) no que diz respeito à análise e extração do conteúdo relevante dos discursos; em seguida, será apresentado o planejamento do experimento e as considerações para sua execução; por fim, no terceiro eixo, serão mostrados os resultados da extração pelo EOP e a comparação com o trabalho dos pesquisadores, bem como as conclusões.

Capítulo 7. Experimento: Análise dos Discursos dos Deputados Federais na Abertura do Impeachment da Presidente Dilma Rousseff 187

7.1 Análise dos Discursos dos Deputados Federais na Abertura do

No documento e-Ágora : métodos e algoritmos para a construção da opinião pública no contexto da teoria da democracia deliberativa (páginas 177-187)