• Nenhum resultado encontrado

Uma abordagem de sumarização automática de textos aplicada a debates online

N/A
N/A
Protected

Academic year: 2017

Share "Uma abordagem de sumarização automática de textos aplicada a debates online"

Copied!
113
0
0

Texto

(1)

RAFAEL SIMONASSI

UMA ABORDAGEM DE SUMARIZAÇÃO AUTOMATICA DE TEXTOS APLICADAS A DEBATES ONLINE

Dissertação apresentada ao Programa de Pós-Graduação Stricto Sensu em Gestão do Conhe-cimento e da Tecnologia da Informação da Universidade Católica de Brasília, como requi-sito parcial para obtenção do título de Mestre em Gestão do Conhecimento e da Tecnologia da Informação.

Orientador: Prof. Dr. Edilson Ferneda Coorientador: Prof. Dr. Hércules do Prado

(2)

Ficha elaborada pela Biblioteca Pós-Graduação da UCB

S596a Simonassi, Rafael.

Uma abordagem de sumarização automática de textos aplicada a debates online. / Rafael Simonassi – 2015.

112 f.: il.; 30 cm

Dissertação (Mestrado) – Universidade Católica de Brasília, 2015. Orientação: Prof. Dr. Edilson Ferneda

Coorientação: Prof. Dr. Hércules do Prado

1. Gestão do conhecimento. 2. Web 2.0. 3. Debates. 4. Debates Online. 5. Processamento de linguagem natural. 6. Sumarização. 7. Sumarização por extração. I. Ferneda, Edilson, orient. II. Prado, Hércules do, coorient. III. Título.

(3)
(4)
(5)

AGRADECIMENTO

(6)

Emprego é fonte de renda e trabalho é fonte de vida. Meu trabalho é minha obra. A noção grega de obra é poiesis. De onde vem poesia, que é o que você elabora. Eu gosto dessa idéia. Tanto que não há estresse no meu trabalho, só cansaço. Cansaço resulta de um esforço inten-so e estresse resulta de um esforço para o qual você não vê sentido. Cansaço se cura descan-sando. Estresse só se cura se houver mudança de rota.

(7)

RESUMO

Referência: SIMONASSI, Rafael. UMA ABORDAGEM DE SUMARIZAÇÃO

AUTO-MATICA DE TEXTOS APLICADAS A DEBATES ONLINE. 2015. p. 112. Dissertação do Mestrado em Gestão do Conhecimento e da Tecnologia da Informação – Universidade Católica de Brasília (UCB), Brasília – DF, 2015.

Após o surgimento da Web 2.0, as aplicações voltaram-se para não só fornecer conteúdos estáticos, mas também para absorver novas informações criadas pelos seus usuários. A intera-ção das informações passara, então, a caminhar em dois sentidos. Nesse contexto, surgiram diversas aplicações, dentre elas os debates online. Os debates online permitem que as intera-ções dos usuários sejam imergidas no contexto da democracia. Por meio dos debates, os cida-dãos interessados podem interagir sob diversas óticas o que permite a produção e o consumo de diferentes informações nos assuntos que lhes afetam. Assim como em outros aplicativos baseados na Web 2.0, um grande volume de informações é produzido e atualizado nos debates online. Esse volume de informações pode evoluir para uma escala ainda maior, pois, na medi-da em que os debates são vias de comunicações não restritas entre diferentes participantes, eles tendem a assumir uma grande proporção de interações e informações trocadas. O excesso de informações, embora evidencie o caráter positivo e democrático de um debate, pode se tornar também um obstáculo para os novos cidadãos que desejem fazer parte das discussões. Isso pode ocorrer, pois, à medida que a informação se amplia, os novos participantes ou aque-les menos ativos podem enfrentar dificuldades para absorver os diversos comentários expres-sos. É nessa problemática que a sumarização automática de textos pode auxiliar a manutenção democrática de um debate online. A sumarização automática de textos permite que os pontos mais relevantes de um debate sejam extraídos para criar um resumo que possa ser comparti-lhado entre os interessados. O resumo gerado faz com que os participantes antigos e novos mantenham-se atualizados perante aquilo que está sendo discutido. Assim, dada a problemáti-ca e uma possível solução para ela, o presente trabalho tem como objetivo estudar e apresen-tar uma abordagem de como a sumarização automática de textos pode ser utilizada no contex-to dos debates online. Na primeira fase do trabalho, os principais conceitos e um modelo de sumarização são apresentados. Posteriormente, um debate e a extração do seu sumário basea-do no modelo é realizabasea-do. Por fim, é realizada a análise e avaliação basea-dos resultabasea-dos de forma a evidenciar a efetividade da abordagem proposta. A efetividade é comprovada diante da com-paração dos resultados com sumários gerados por seres humanos, sendo possível concluir que o trabalho apresentou resultados relevantes e que, apesar de algumas limitações do modelo, podem ser refinados visando uma contribuição para o contexto de sumarização de debates online.

(8)

ABSTRACT

After the Web 2.0 creation, the applications turned to offer not only static information, but also to include the different data created by users. The interaction, erstwhile, changed to a bidirectional type. Plunged in this new scenario, several different applications were devel-oped and one of them is the online debate. The online debate applications allow users interac-tions to be realized in a democracy context. Through the debates, the citizens can interact over different point of views, which allows the production and consumption of distinct infor-mation based on the matters that affect all them. Like other Web 2.0 based applications, the large amount of information yielded is part of the online debate field. This high information volume can evolve until a scale even larger, because the online debate is an untied site com-posed by different participants that interact and exchange several types of information. Not-withstanding the information glut offers a positive and democratic layer to a debate, it can be turned into a hurdle for newer participants that wish to join the deliberations. This undesired behavior can happen, because as soon as the amount of information starts to be presented, newer participants or lesser activity ones can face problems to absorb the several comments made under a discussion. Plunged in this issue, the automatic text summarization can aid the democratic maintenance of an online debate. The automatic text summarization allows the most relevant points included in a debate to be extracted and compose a summary shared among participants. The summary created enable that old and new participants stay up to date with all topics within the debate. So, over the problematic provided and given a possible solution for it, the current work aims to study and present an approach of automatic text summarization embedded under a online debate context. In the first phase of this work, the main concepts and a proposed summarization model is shown. Then, a debate and a summary based on the proposed model are done. Lastly, the outcome analysis is presented, in which is expected to verify the extraction-based summary approach effectiveness over an online debate environment. The effectiveness is proved by comparing the project results with the human-generated summaries. It is possible to conclude that the project presented relevant results and, despite some model limitations, they can be refined in order to contribute to the summa-rization of the online debates.

(9)

LISTA DE FIGURAS

Figura 1 – Substrato de um debate realizado com o uso da ferramenta Argumentea ... 33

Figura 2 – Quadrado de Aristóteles e suas relações ... 39

Figura 3 – Exemplos de derivações temáticas e n quadrados de oposições ... 42

Figura 4 – Graph Theory Approach ... 55

Figura 5 – Exemplo de debate extraído ... 65

Figura 6 – Como um argumento é criado na ferramenta Dialoguea ... 66

Figura 7 – Esquematização de uma argumentação ... 67

Figura 8 – Argumentações a favor e contrárias realizadas em torno de um debate ... 68

Figura 9 – Atividades desenvolvidas pela pesquisa ... 74

(10)

LISTA DE QUADROS

Quadro 1 – Trabalhos científicos relacionados ... 17

Quadro 2 – Ferramentas de debates online ... 36

Quadro 3 – Proposições categóricas ... 38

Quadro 4 – Substrato de deduções lógicas que podem ser aplicadas aos argumentos de um debate .... 43

Quadro 5 – Classificação de sumarização automática ... 49

Quadro 6 – Exemplo de algoritmo se sumarização, usando a técnica TF/IDF ... 58

Quadro 7 – Algoritmo de sumarização de debates baseado na técnica TF/IDF adaptada ... 70

Quadro 8 – Texto motivador do debate ... 79

Quadro 9 – Argumentos do debate ... 80

Quadro 10 – Algoritmo de sumarização de debates baseado na técnica TF/IDF adaptada ... 86

Quadro 11 – Abordagem HTSS ... 90

Quadro 12 – Abordagem STSS ... 90

Quadro 13 – Abordagem SDSS ... 91

Quadro 14 – Algoritmo de sumarização de debates baseado na técnica TF/IDF adaptada ... 92

Quadro 15 – Sentenças selecionadas pelos participantes e abordagens automáticas ... 95

(11)

LISTA DE GRÁFICOS

Gráfico 1 – Resultados obtidos no tocante ao termo de sumarização ... 16

Gráfico 2 – Resultados obtidos no tocante ao termo de sumarização ... 17

Gráfico 3 – Contribuições de argumentos durante a execução do debate ... 93

Gráfico 4 – Sentenças selecionadas de cada participante pelo método HTSS ... 93

Gráfico 5 – Sentenças selecionadas de cada participante pelo método STSS ... 94

(12)

SUMÁRIO

1 INTRODUÇÃO ... 13

1.1 REVISÃO DA LITERATURA ... 15

1.2 PROBLEMA E QUESTÃO DE PESQUISA ... 22

1.3 JUSTIFICATIVA ... 24

1.4 OBJETIVOS ... 25

2 REFERENCIAL TEÓRICO ... 26

2.1 DEBATES NO CONTEXTO DA eDEMOCRACIA ... 26

2.1.1 Conceito ... 26

2.1.2 Relevância dos debates e contribuição social (eDemocracia) ... 28

2.1.3 Debates 2.0 ... 29

2.1.4 Onde se encaixam os debates online? ... 34

2.1.5 Estruturação lógica do debate ... 38

2.1.6 Argumention mining versus debates ... 44

2.2 SUMARIZAÇÃO DE TEXTOS ... 45

2.2.1 Classificação da sumarização automática ... 47

2.2.2 Etapas de sumarização ... 49

2.2.3 Método de sumarização por extração e suas técnicas ... 51

2.2.4 Term Frequence/Inverse Document Frequence (TF/IDF) ... 56

2.2.5 O algoritmo cosseno ... 58

2.2.6 Como medir a eficácia de um sumário? ... 60

3 UMA PROPOSTA DE SUMARIZAÇÃO DE DEBATES ONLINE ... 62

3.1 NECESSIDADE DE SUMARIZAR UM DEBATE ... 62

3.2 COMO APLICAR A SUMARIZAÇÃO ... 64

3.2.1 A estruturação do debate no ambiente Dialoguea ... 65

3.2.2 Aplicando a sumarização ... 68

3.2.3 Restrições e aprimoramentos prováveis da proposta ... 70

4 METODOLOGIA DE PESQUISA ... 72

4.1 CLASSIFICAÇÃO DA PESQUISA ... 72

4.2 DESENHO DA PESQUISA ... 73

4.2.1 Primeira fase ... 74

(13)

4.2.3 Fase final ... 75

4.3 DESENVOLVIMENTO E TESTE DO MODELO ... 75

4.4 AMBIENTE DE PESQUISA ... 76

4.5 PRÉ-PROCESSAMENTO E ANÁLISE DOS DEBATES ... 77

5 RESULTADOS ... 78

5.1 DEBATE E COLETA DOS DADOS ... 78

5.2 SUMARIZAÇÃO DO DEBATE ... 86

5.2.1 Atividades da sumarização de debates ... 86

5.2.2 Abordagens de pontuação das sentenças do debate e seleção para o sumário 89 5.2.3 Análise dos resultados ... 92

5.2.4 Comparando os resultados com sumários humanos ... 94

6 CONCLUSÃO ... 99

REFERÊNCIAS ... 102

(14)

13

1 INTRODUÇÃO

Segundo Hilbert (2012), as informações digitais nas últimas décadas cresceram a um ritmo acelerado. Esse autor demonstra que, a partir da década de 80, as informações dispo-níveis mais do que quadruplicaram, passando de 432 exabytes para 1.9 zettabytes. Com o boom da Teconologia da Informação e Comunicação (TIC) e a popularização dos dispositi-vos eletrônicos (YANG et al., 2013; SATYANARAYANAN, 2002), um novo ambiente mais complexo e maior foi criado para que as informações pudessem trafegar. Todo esse contexto permitiu que as informações não mais se restringissem a algumas regiões, pois aquilo que estava na escala regional passara a se encontrar em uma escala mundial. Isso pro-porcionou um maior aumento das informações produzidas (SATYANARAYANAN, 2002). É possível perceber o alcance que os sítios Web, redes sociais e aplicativos de comunicação atingiram.

Outra contribuição permitida pela TIC, por intermédio da Web 2.0, foi a participação na geração coletiva de informações. Antes da existência da Web 2.0, os usuários da Internet eram apenas consumidores de conteúdos, mas, com o surgimento dessa nova versão, os mesmos consumidores passaram a agir, também, como criadores de informações (OREILLY, 2007; SEILLES, 2012). Entre as aplicações que permitem o consumo e a pro-dução de informações, encontram-se aquelas chamadas de debates 2.0, conhecidas, também, como debates online (SEILLES, 2012). Com um intuito democrático, os debates online se sustentam nas atuais ferramentas da TIC e, portanto, na Web 2.0, para permitir que cidadãos possam participar ativamente de assuntos que lhes afetam. Nesse sentido, Seilles (2012) re-força que, ao participar de um debate, o cidadão atua como um consumidor e criador de con-teúdos, contribuindo ainda mais para o aumento da quantidade de informações. Porém, à medida que esse excedente de informações se alastra, os cidadãos, por sua natureza humana, podem incorrer em problemas de absorção de conteúdo. Isso poderia ocasionar no desinte-resse da sua própria participação, deixando o debate cair no ostracismo. Esse problema tende a se agravar quando os debates se prolongam demasiadamente. Pois, além da possiblidade do seu desuso, há também outros complicadores, como a insularização1, onde possíveis no-vos cidadãos podem se abster da participação, na medida em que se deparam com esse

1

(15)

14

cesso de informações inerentes a um debate duradouro (SEILLES, 2012).

É nesse contexto que a sumarização automática de textos pode auxiliar as ferramen-tas de debates online. Por meio da sumarização automática, as informações contidas em de-bates, que tendem a tomar uma escala considerável (SEILLES, 2012), podem ser resumidas de tal forma que os principais pontos discutidos sejam rapidamente apresentados e contextu-alizados para todos os cidadãos envolvidos. Essa ideia torna-se mais interessante uma vez que ela favorece o constante acesso às informações, mantendo a democracia viva e itinerante no dia a dia de um debate. Entretanto, é importante frisar que esse trabalho defende que a sumarização não pode ser vista como meio suficiente para a democratização de um debate, mas tão somente necessária, na medida em que ela pode auxiliar a focalização do tema por parte dos cidadãos envolvidos. Focalização que, devido a natureza humana, tende a ser cru-cial no universo atual da informação, pois, segundo, Larrosa, o homem é um vivente com palavra. E isto não significa que o homem tenha a palavra ou a linguagem como uma coisa, ou uma faculdade, ou uma ferramenta, mas que o homem é palavra, que o homem é enquan-to palavra, que enquan-todo humano tem a ver com a palavra, se dá em palavra, está tecido de pala-vras, que o modo de viver próprio desse vivente, que é o homem, se dá na palavra e como palavra (BONDÍA, 2002). Nesse contexto, é natural o debate seja um reflexo da natureza humana e acabe ilustrando mais um ambiente onde a qualidade da informação é preterida ao excesso de informação exposto. Portanto, acredita-se, nesse trabalho, que a sumarização dos debates pode auxiliar nessa tarefa de convergência dos debates, sem alterar a característica flexível dos debates.

Contudo, sumarizar um debate não é como uma simples tarefa de sumarização textu-al. Um debate é um centro dinâmico de expressão de opiniões (SEILLES, 2012). Nele, seus participantes contribuem para enriquecer e expressar suas ideias e propostas. Eles criam um contexto de variados termos e palavras cujos valores semânticos nem sempre são levados em consideração pelos algoritmos de sumarização de textos. Assim, ao conduzir a sumarização de debates online, todo cuidado deve ser tomado para que só as contribuições mais relevan-tes sejam retidas. Embora haja diversas técnicas de sumarização (GUPTA; LEHAL, 2010) e algumas delas sejam focadas na extração de sentimentos (GANESAN; ZHAI; HAN, 2010; CARENINI et al., 2013), nem todas são capazes de extrair as opiniões proferidas em deba-tes. E isso retoma à problemática apresentada por esse trabalho, qual seja: como realizar uma sumarização automática de textos voltada para os debates online.

(16)

15

das pesquisas realizadas em debates e sumarização de textos com o intuito de descobrir tra-balhos já existentes nessas áreas. A segunda seção apresenta os principais conceitos e teorias relativas a sumarização automática e dos debates online. A terceira parte ilustra uma propos-ta de sumarização aplicada aos debates. A quarpropos-ta e a quinpropos-ta seções descrevem como o traba-lho será realizado. Uma sexta seção é reservada para a apresentação e análise dos resultados a serem obtidos. Por fim, uma última parte apresentará uma conclusão e os trabalhos a serem explorados no futuro.

1.1 REVISÃO DA LITERATURA

Para essa dissertação, foi realizado um levantamento da literatura publicada sobre o uso de técnicas de sumarização de textos, com ênfase em textos relativos a debates. A partir da análise desse levantamento foi definido o foco deste trabalho e identificado seu arcabou-ço teórico.

Inicialmente, dois trabalhos são tidos como fontes de inspiração para essa disserta-ção: A Survey of Text Summarization Extractive Techniques (GUPTA; LEHAL, 2010) e Structuration de débats en ligne à l’aide d’Annotations socio-sémantiques: Vers une analyse de réseaux sociaux centrés sur l’interaction (SEILLES, 2012). Ambos forneceram uma vi-são das duas dimensões de estudo dessa pesquisa, quais sejam: sumarização de textos e de-bates online. A partir dessas dimensões foi realizada a pesquisa em cinco motores de busca: o portal de periódicos da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)1, o Google Acadêmico2, o portal Scielo3, o IEEE4 e o Springer5.

Com relação à sumarização, os termos buscados tanto em português como em inglês foram: summarization, text + summarization, extractive + text + summarization e abstracti-ve + text + summarization. O Gráfico 1 apresenta os termos relacionados e as respectivas proporções de trabalhos retornados.

(17)

16

Gráfico 1 – Resultados obtidos no tocante ao termo de sumarização

No tocante à dimensão debate, sua generalidade e amplitude de contexto não permi-tiu um retorno de resultados relevantes para o estudo. Portanto, foi reformulada a pesquisa para buscar os seguintes termos: forum + summarization, forum + text + summarization, debate + text + summarization e debate + text + summarization. O termo fórum, embora tecnicamente diferente de um debate (SEILLES, 2012), foi associado à pequisa porque refle-tia a aproximação semântica mais coerente à palavra debate. Mesmo assim, poucos foram os resultados que abrangiam o contexto desejado por esse trabalho. O Gráfico 2 apresenta os resultados da pesquisa desses termos. Observou-se que há uma quantidade reduzida deles, sendo, portanto, selecionados apenas quatro artigos considerados relevantes.

0 40000 80000 120000 160000 200000

summarization text +

summarization

extractive + text + summarization

abstractive + text + summarization

IEEE 2255 688 68 14

CAPES 4356 501 10 2

Google Acadêmico 175000 95800 22000 18800

Springer 40 0 0 0

(18)

17

Gráfico 2 – Resultados obtidos no tocante ao termo de sumarização

Após uma análise dos sumários e títulos dos resultados, foi criada uma pré-lista de 45 trabalhos científicos e dois livros acadêmicos correlatos ao tema dessa dissertação para estu-do e refinamento. Com isso, uma nova relação de trabalhos foi criada, levanestu-do em conside-ração a relevância com o tema e a sua data de publicação, chegando a 28 trabalhos, listados no Quadro 1.

Quadro 1 – Trabalhos científicos relacionados

Título Referência Resumo

Text

summarization using Wikipedia

SANKARASUBR AMANIAM; RAMANATHAN; GHOSH, 2014

O advento de bases de conhecimento humano, como a Wikipedia, oferece uma possibilidade em sumarização texto, que pode ser usada para entender o texto de entrada em termos de conceitos importantes. Nesse artigo, foi proposta uma abordagem que apro-veita a Wikipedia em uma classificação de sumários baseados em gráficos. A abordagem consiste primeiramente em construir um gráfico bipartido de frases dos textos com conceitos da Wikipedia, em seguida, classificar as sentenças de entrada usando atualizações iterativas no gráfico. Então, é utilizada uma sumarização personali-zada e focada em consulta, onde os sumários dependem dos inte-resses dos usuários e suas buscas. Por fim, é apresentado um algo-ritmo de sumarização de múltiplos documentos baseado na Wiki-pedia. Uma característica importante dos algoritmos propostos é que eles permitem, em tempo real, a sumarização incremental. O algoritmo proposto teve seu desempenho avaliado segundo as mé-tricas ROUGE, e os resultados mostram que o uso da Wikipedia pode melhorar significativamente a qualidade do resumo.

0 5000 10000 15000 20000 25000 30000

forum+summariza tion

forum+text+summ arization

debate+summariz ation

debate+text+sum marization

Springer 1 0 1 0

IEEE 14 6 3 0

Scielo 0 0 0 0

CAPES 1 0 0 0

(19)

18

Título Referência Resumo

Multi-document Summarization using Tensor Decomposition LITVAK; VANETIK; 2014

Esse trabalho descreve uma utilização adaptada e conjunta de duas técnicas de sumarização, quais sejam: coocorrência de palavras (n-gramas) e sentenças semelhantes com o título (tema). Para extrair os temas do texto, um agrupamento de termos baseado na técnica tf-idf é utilizado. Essas técnicas são aplicadas na sumarização de múltiplos documentos para obter o que o os autores chamam de Tensor Decomposition-based Summarizer.

Association of Deep Learning Alghorithm With Fuzzy Logic for Multidocument Text Summarization. PADMAPRIYA; DURAISWAMY, 2014

A pesquisa na área de sumarização de texto predominantemente busca calcular o valor das frases para serem extraídas em um resu-mo. O trabalho proposto associa o algoritmo de Aprendizagem Profunda com a lógica fuzzy para melhorar a eficiência do resumo gerado. O trabalho tem duas fases: fase de treinamento e fase de teste. A fase de treinamento utiliza os benefícios da lógica fuzzy e de algoritmo de Aprendizagem Profunda para a geração de um resumo eficiente. Em seguida, a fase de teste foi realizada para verificar a eficiência da abordagem proposta.

Consumer Sentiment Extraction From Unstructured Data. NORTH;

RINIKER, 2014 Esse artigo representa o estado atual de um trabalho ainda não terminado sobre o tema da análise de sentimentos de clientes em dados não estruturados. Os pesquisadores desenvolveram um corpo de postagens de clientes sobre uma variedade de empresas conhe-cidas. Criou-se, então, uma matriz de análise de sentimento dessas classificações. O projeto está agora no ponto de validação do seu modelo de mineração de texto. O processo de desenvolvimento das ferramentas é descrito com algumas representações visuais de dados. Segundo os autores, após a validação do modelo proposto e, provavelmente, depois de alguns ajustes, vários experimentos serão realizados para comprovar as aplicações comerciais e eficácia do modelo.

The effectiveness of automatic text summarization in mobile learning contexts.

YANG et al., 2013 Com o objetivo de tornar o conteúdo de aprendizagem adequado para os usuários de dispositivos móveis, esse estudo investiga a sumarização automática de textos que reduz a quantidade do con-teúdo textual disponibilizada nesse ambiente. A sumarização é usada para condensar os textos nas ideias mais importantes. Esse estudo foca em uma metodologia para investigar a eficácia da su-marização automática de textos utilizados no contexto de aprendi-zagem móvel. Os resultados experimentais demonstram que a abordagem de sumarização proposta é capaz de gerar resumos precisos, podendo ser considerados úteis para apoiar a aprendiza-gem móvel. CDDS: Constraint-driven document summarization models. ALGULIEV; ALIGULIYEV; ISAZADE, 2013

(20)

19

Título Referência Resumo

Multi-Document Summarization of Evaluative Text.

CARENINI et al., 2013

Em muitos cenários de tomada de decisão, as pessoas podem se beneficiar ao saber a opinião entre elas. À medida que diversos documentos de avaliação contendo opiniões são publicados na Web, a sumarização desses textos se torna uma tarefa crítica para muitas organizações e indivíduos. Esse artigo apresenta uma abor-dagem, baseada em linguagem natural, capaz de resumir um corpus de documentos usados para opinar sobre uma organização qual-quer. São propostos dois sumarizadores: um sumarizador baseado em extração e um sumarizador baseado em abstração. A aborda-gem proposta foi testada sob a visão de diferentes usuários. Em termos quantitativos, ambos apresentaram uma boa estruturação dos sumários, embora cada um apresente vantagens e desvanta-gens. Comparative Document Summarization via Discriminative Sentence Selection.

WANG et al., 2013 Dada uma coleção de documentos, uma dúvida natural é identificar quais as diferenças existentes entre eles. Embora as técnicas de sumarização de documentos tradicionais sejam capazes de resumir múltiplos documentos, não é comum obter um sumário que identi-fique suas diferenças. Nesse artigo, é proposto um estudo de um problema que surge ao resumir as diferenças entre documentos relacionados. Um método de seleção de sentença discriminativo é proposto para extrair as frases mais periféricas que representam as características específicas de cada documento. Experiências e estu-dos de caso sobre conjuntos de daestu-dos do mundo real demonstram a eficácia do método proposto.

Assessing sentence scoring techniques for extractive text summarization.

FERREIRA et al.,

2013 Esse artigo descreve e executa uma avaliação quantitativa e quali-tativa de 15 algoritmos que pontuam sentenças para constarem no sumário. Três conjuntos de dados diferentes (notícias, blogs e arti-gos científicos) foram avaliados. Além disso, instruções para me-lhorar os resultados obtidos pelos algoritmos são sugeridas. Multi-source,

Multilingual Information Extraction and Summarization.

SAGGION et al.,

2013 Esses autores afirmam que a sumarização automática de textos é uma tecnologia importante para a sociedade da informação. Embo-ra a pesquisa nessa área tenha mais de 50 anos de idade, o tema ainda necessita ser aprofundado, na medida em que a era da infor-mação amplia seus domínios. Este livro dedica um capítulo sobre uma breve visão dos métodos de sumarização.

Multi-document summarization via submodularity.

LI; LI; LI, 2012 O trabalho propõe o uso de alguns princípios gerais para a tarefa de sumarização de múltiplos documentos. Experimentos em conjuntos de dados de compactação de referência (DUC04-06, TAC08 e corpora TDT2) são realizados para demonstrar a eficácia dos prin-cípios apresentados.

Mining Text Data. AGGARWAL;

ZHAI, 2012 A classificação de sumarização quanto à extração é considerada como uma das principais técnicas de sumarização automática de texto. Esse livro trata de algumas técnicas que podem ser aplicadas à sumarização por extração. Diferentes tipos de documentos a serem sumarizados são avaliados, quais sejam: a sumarização de documentos Web, sumarização de artigos científicos, sumarização de e-mails e sumarização baseada em perguntas. Entre as principais técnicas apresentadas no livro, estão a sumarização baseada em palavras-chave e a sumarização por criação de agrupamentos (clus-ter). Text summarisation in progress: a literature review. LLORET; PALOMAR, 2012

(21)

20

Título Referência Resumo

A Graph–based Approach to Cross–language Multi–document Summarization BOUDIN; HUET; TORRES-MORENO; 2011

Nesse trabalho, é proposta uma sumarização por extração, baseada em gráficos, para multíplos documentos. A esse processo é inte-grado uma funcionalidade de tradução automática, para realizar uma sumarização que não dependente da língua original do texto. Os resultados são avaliados sobre um conjunto de documentos traduzidos oriundos do DUC 2004.

Enhancing sentence-level clustering with integrated and interactive frameworks for theme-based summarization.

CAI; LI, 2011 A técnica de agrupamento de sentença desempenha um papel fun-damental na sumarização temática. A sumarização temática busca descobrir temas tópicos em aglomerados de frases relacionadas. Nesse artigo, é realizado um estudo sobre como o agrupamento de sentença pode ser utilizado para descobrir distintos temas. Para isso, foram exploradas representações vetoriais de frase e, depois, desenvolvidas duas abordagens de agrupamento, chamadas de agrupamento integrado e agrupamento interativo. Ambas as abor-dagens apresentaram razoáveis resultados quando realizados sob o conjunto de dados do Document Understanding Conferences (DUC). Integrating Document Clustering and Multidocument Summarization. Acm Transactions On Knowledge Discovery From Data.

WANG et al.,2011 Nesse artigo, é proposto um modelo de linguagem para agrupar e resumir simultaneamente documentos. Ao utilizar a influência mútua de agrupamento de documentos, o método proposto faz: (i) a implementação de um método de agrupamento de documentos; e, (ii) a implementação de um método de sumarização. Os resultados experimentais em vários conjuntos de documentos mostram uma boa eficácia do método proposto e uma boa interpretabilidade dos resumos gerados. Maximum coverage and minimum redundant text summarization model.

ALGULIEV et al.,

2011 O artigo propõe um modelo de sumarização de texto não supervisi-onado que extrai frases-chave de um determinado documento. Tal modelo, propõe que a sumarização de texto seja feita como um problema de programação linear inteira. Uma das vantagens dessa abordagem é que ela cobre o conteúdo principal do documento original e, portanto, apresenta uma boa abrangência temática. Adi-cionalmente, esse modelo é capaz de eliminar as frases redundantes do sumário. A proposta apresentada é geral e também pode ser utilizada em múltiplos documentos. Resultados experimentais sobre o conjunto de dados de DUC2005 e DUC2007 mostraram que a abordagem é bastante promissora.

Summary of FAQs from a topical forum based on the native composition structure.

TAO; LIU; LIN,

2011 Essa pesquisa apresenta um sistema de compactação de múltiplos documentos e produz as perguntas mais frequentes (FAQ) a partir deles. O design e as investigações sobre a estrutura de apresentação foram propostos com base no reconhecimento de um padrão dos artigos tradicionais chineses. Um experimento foi projetado basea-do em critérios que consistem em taxa de compressão, taxa de lembrança e taxa de precisão. Também foi realizada uma análise subjetiva baseada na aceitação do usuário em termos de legibilida-de, número adequado de frases e estrutura do resumo. Os resulta-dos experimentais mostraram que a estrutura de apresentação do resumo produziu uma significativa melhoria em comparação com o sistema de sumarização utilizado anteriormente.

Summary Evaluation with and without References

TORRES-MORENO et al.; 2010

(22)

21

Título Referência Resumo

A Survey of Text Summarization Extractive Techniques.

GUPTA; LEHAL, 2010

A importância de sentenças pode ser decidida com base em ele-mentos estatísticos ou linguísticos das sentenças. O método de sumarização por extração consiste em extrair as principais senten-ças do texto original. Nesse trabalho, uma pesquisa sobre as técni-cas de sumarização por extração é apresentada, bem como as van-tagens e desvanvan-tagens de cada uma.

Opinosis: a graph-based approach to abstractive summarization of highly redundant opinions.

GANESAN; ZHAI;

HAN, 2010 Nesse trabalho é apresentado um modelo de sumarização baseado em gráfico que gera um sumário abstrato de opiniões altamente redundantes. A avaliação dos resultados dos sumários gerados sugere que estes apresentam uma melhor aceitação por parte de leitores, quando comparados com os sumários baseados em extra-ção. Os sumários são legíveis, razoavelmente bem formados e possuem as informações suficientes para transportar as principais opiniões. Text Summarization Extraction System (TSES) Using Extracted Keywords. AL-HASHEMI, 2010

Uma técnica para produzir um resumo de um texto original é inves-tigada nesse artigo. O modelo consiste em quatro fases. Na primei-ra fase, o sistema remove as palavprimei-ras não relevantes e atribui um marcador para cada palavra. A segunda fase consiste em extrair as frases mais importantes do texto através do uso de um algoritmo de classificação das palavras selecionadas na etapa anterior. Cada frase é classificada em função da existência das palavras-chave e da sua relação com o título do documento. Na terceira fase, a sele-ção das frases com a pontuasele-ção mais alta é realizada. Por fim, a quarta fase reduz a quantidade de sentenças candidatas, a fim de produzir um resumo mais enxuto.

A comprehensive comparative evaluation of RST-based summarization methods. UZÊDA; PARDO;

NUNES, 2010 Esse artigo apresenta uma avaliação comparativa global dos prin-cipais métodos de sumarização automática que usam o método Rhetorical Structure Theory (RST). Os resultados mostram que os métodos RST têm um desempenho aceitável e promissor, colocan-do-os no mesmo patamar eficiência de outros métodos já consagra-dos. A complex network approach to text summarization. ANTIQUEIRA et

al., 2009 Nesse trabalho, conceitos e métricas de redes complexas são utili-zados para selecionar frases quando da criação de um sumário. O gráfico ou rede que representa um pedaço de texto consiste em nós correspondentes às sentenças, enquanto bordas que conectam as frases são baseadas nos substantivos comuns entre elas. A partir desse gráfico, foi desenvolvido um conjunto de 14 sumarizadores, onde cada um usa diferentes algoritmos, como, por exemplo, me-nor caminho, d-rings e k-cores. O uso de redes complexas para representar os textos se mostrou apropriado para a sumarização automática, na medida em que as métricas das redes podem captu-rar recortes de texto importantes.

Multi-topic based Query-oriented Summarization.

TANG; YAO;

CHEN, 2009 Esse trabalho propõe um método probabilístico para realizar um sumário baseado em buscas que contemplam múltiplos tópicos. Esses múltiplos tópicos são retirados dos termos contidos em uma busca qualquer e, a partir deles, um sumário agrupado dos diferen-tes resultados é apresentado.

Opinion Extraction, Summarization and Tracking in News and Blog Corpora.

KU; LIANG;

(23)

22

Título Referência Resumo

Looking for a Few Good Metrics: ROUGE and Its

Evaluation.

LIN, 2004 Recall-Oriented Understudy for Gisting Evaluation (ROUGE) inclui métricas para avaliar automaticamente a qualidade de um resumo automático, através da sua comparação com resumos gera-dos por seres humanos. As métricas contam os números de sobre-posições de palavras, como n-gramas, sequência de palavras e palavras pareadas dos resumos automáticos com o intuito de com-pará-las aos resumos considerados ideais (os criados por humanos). Esse artigo detalha cinco diferentes métricas que são utilizadas nessas avaliações, quais sejam: N, L, ROUGE-W, ROUGE-S e ROUGE-SU.

Efficiently computed lexical chains as an intermediate representation for automatic text summarization. SILBER; MCCOY,

2002 Enquanto sumarização automática de textos é uma área que tem recebido uma grande atenção em pesquisas recentes, o problema da eficiência dessa tarefa não tem sido frequentemente abordado. Esse trabalho apresenta um algoritmo de tempo linear para computação de cadeia lexical. O algoritmo cria cadeias lexicais como candida-tas para uma representação intermediária de sumarização automáti-ca de textos. Um método para avaliar automáti-cadeias lexiautomáti-cais como um passo intermediário em sumarização é também apresentado. Fonte: o Autor

Sobre esses trabalhos identificados, alguns devem ser enfatizados. O primeiro deles é o de Gupta et al. (2010), cujo texto apresentou um apanhado de importantes técnicas de su-marização por extração. O trabalho de Ferreira et al. (2013) complementa o primeiro ao dis-ponibilizar uma avaliação sobre essas diferentes técnicas. Adicionalmente aos dois anterio-res, os trabalhos de Saggion et al. (2013), Aggarwal e Zhai (2012), Alguliev et al. (2011) e Lin (2014) ajudaram a idealizar a proposta desenvolvida por essa pesquisa. Cabe mencionar, também, que alguns outros trabalhos, acima não citados, ajudaram a diferenciar o tema de debates online em relação a outros conceitos similares, eles são detalhados nas seções 2.1.4 e 2.1.6. Na primeira seção, são demonstradas por que os debates online são diferentes de outras ferrramentas Web. Na segunda, o conceito de debates online e sua sumarização são contrapostos ao conceito de argument mining, através da exposição de suas similaridades e diferenças.

As análises das pesquisas suprarreferidas, incluindo o trabalho de debates de Seilles (2012), foram os motivadores e subsidiadores da presente dissertação. Como dito, certos trabalhos apresentaram maior relevância do que outros para a concepção dessa pesquisa. Entretanto, todos contribuiram, na sua devida medida, para nortear essa dissertação e delimi-tar o seu foco. Na seção que se segue, são identificados o problema e a questão da pesquisa que, por sua vez, levaram à proposição dessa dissertação.

(24)

23

Os debates online geram, normalmente, uma considerável quantidade de informações em torno de um tema. Seilles (2012) relembra que, desde a democracia grega, no século V A.C., o debate permite aos cidadãos participar do processo decisório, possibilitando que ca-da um com sua personalica-dade, formação e conhecimento expressem seus pontos de vista acerca de um determinado assunto. A quantidade de informação aumenta exponencialmente na medida em que a participação ganha proporções territoriais, contexto em que se definem os chamados debates em grande escala. Assim, resumos poderiam ser utilizados, para que as pessoas possam absorver o vasto conteúdo debatido.

Os debates, por meio de sua característica democrática e aberta, são dinâmicos. Os participantes podem desejar não mais discutir sobre o tema, assim como novos participantes podem querer expressar sua opinião em uma discussão já há muito iniciada (SEILLES, 2012). Para ambos, um sumário sobre o que está sendo falado é de grande valia, pois permi-te que aqueles que forem contribuir com uma opinião possam se conpermi-textualizar previamenpermi-te. Um debate, que pode transcorrer por semanas ou meses (SEILLES, 2012), poderia ser subu-tilizado, caso os participantes interessados se deparassem com uma grande quantidade de informações a serem lidas, antes de poder exprimir suas opiniões.

Por outro lado, resumir, ou sumarizar um debate não é uma tarefa de simples sumari-zação de textos, cuja aplicação de ferramentas e algoritmos em sua forma primitiva permiti-ria extrair os conteúdos relevantes discutidos. Um debate, em sua dinamicidade, é um centro de expressão de opiniões (SEILLES, 2012), onde diversos participantes estão ativamente contribuindo para enriquecer, opinar e expressar sentimentos. Eles criam um contexto de variados termos e palavras cujos valores semânticos nem sempre são levados em considera-ção pelos algoritmos de sumarizaconsidera-ção de textos existentes. Adicionalmente, sumarizar um debate requer um cuidado para que as contribuições mais relevantes dos participantes não sejam retiradas do resumo, ocasionando uma perda de qualidade deste. Embora haja diversas técnicas de sumarização (GUPTA; LEHAL, 2010), nem todas elas são capazes de extrair as opiniões proferidas em debates. É claro que um sumário já reduz significativamente a quan-tidade de informações do seu texto original. Porém um bom sumário deve ser capaz de, den-tro de um espaço limitado de linhas ou palavras, representar os assuntos considerados rele-vantes para que, após sua leitura, a precisão e lembrança do texto sejam recobradas pelos leitores (NOMOTO; MATSUMOTO, 2003).

(25)

24

trabalho proposto leva a seguinte pergunta para a pesquisa: como extrair sumários de deba-tes online?

1.3 JUSTIFICATIVA

Para elaborar um trabalho científico é necessário apresentar uma justificativa que ocorre quando há lacunas no conhecimento e há possibilidade de se acrescentar ao assunto resultados da pesquisa científica realizada, assim há quatro justificativas possíveis para se apresentar uma pesquisa científica (PEREIRA, 2011):

(i) O tema foi pouco estudado, faltando relatos científicos sobre ele;

(ii) Ampliação de pesquisas anteriores, normalmente por sugestão das mesmas; (iii)Possível confirmação de resultados;

(iv) Esclarecimento de algumas controvérsias ou validação do conhecimento, oriunda de pesquisas anteriores.

O trabalho aqui apresentado foca nas justificativas i e ii. Não obstante existam diver-sos estudos sobre sumarização de textos, especialmente no tocante à sumarização por extra-ção (AL-HASHEMI, 2010), o tema de sumarizaextra-ção de textos específico para debates ainda não é bastante explorado. Na seção de bibliometria, foram achadas poucas publicações que sumarizavam os textos de discussões, blogs ou fóruns, porém nenhuma foi encontrada no tocante à sumarização de debates online. Como definido por Seilles (2012), os debates onli-ne são plataformas de concertação de discussão entre participantes visando a ampliação da democracia participativa. Esses debates são redutos de diversos pontos de vista, sendo que uma sumarização específica nesse contexto é necessária para extrair as opiniões e informa-ções prestadas pelos participantes.

(26)

25

1.4 OBJETIVOS

O objetivo geral deste trabalho é propor um modelo de sumarização de debates onli-ne utilizando técnicas automáticas de sumarização de texto.

Para isso, foram definidos os seguintes objetivos específicos:

• Estudo sobre o estado da arte em debates online e suas abordagens;

• Estudo sobre os algoritmos de sumarização de textos e sua adequação ao con-texto de sumarização de debates;

(27)

26

2 REFERENCIAL TEÓRICO

A sumarização automática de texto é bastante utilizada em diferentes contextos, den-tre eles, sumarização de um texto ou grupo de textos (GUPTA; LEHAL, 2010), sumarização de fóruns (TAO; LIU; LIN, 2011), sumarização e extração de opinião (KU; LIANG; CHEN, 2006), sumarização com apoio de enciclopédia (SANKARASUBRAMANIAM; RAMA-NATHAN; GHOSH, 2014), entre outros. Nesse capítulo, são apresentados os principais conceitos, classificação e técnicas de sumarização de texto. Mas antes de falar sobre a suma-rização automática de textos, este se inicia com a apresentação dos conceitos, estruturas e demais detalhes dos debates online.

2.1 DEBATES NO CONTEXTO DA eDEMOCRACIA

2.1.1 Conceito

O debate é estudado e praticado desde o surgimento da democracia na Grécia no sé-culo V A.C. (OBER; HEDRICK, 1996, p. 20). Ele é um meio adotado para permitir que todos possam participar dos processos de tomada de decisão (SEILLES, 2012). Por meio do debate, a palavra é dada às pessoas, que, segundo Bidima e seu conceito de palabre (1997), é o meio pelo qual se permite a vários indivíduos dentro de uma sociedade expressar suas opiniões para chegar a um consenso. Essas atividades, expressão de opiniões e formulação consensual, são aquelas que circundam a principal finalidade do estabelecimento de um de-bate. Para o melhor detalhamento de seu conceito, Seilles (2012) apresenta os seguintes pon-tos que ilustram as suas principais características:

• Um debate é um lugar de exposição de argumentos para formar uma argumentação. O argumento, por sua vez, é uma parte da discussão em que se apoia ou se opõe a uma opinião (CHABROL; BROMBERG, 1999). Portanto, o argumento é intrínseco do in-divíduo e complementado com diferentes opiniões. O conjunto de argumentos se transforma naquilo que pode ser chamado de argumentação. Uma argumentação, por fim, utiliza o debate como um local de sua exposição e cujo objetivo é abarcar os pon-tos favoráveis e desaforáveis até que eles sejam acordados ou refutados entre os parti-cipantes;

(28)

27

participantes no processo decisório ao qual um debate pode estar sujeito. Por exemplo, caso os debates sejam considerados públicos, o objetivo é permitir que os tomadores de decisão fossem receptivos a opinião dos cidadãos. Portanto, os cidadãos são os in-divíduos ou grupos de inin-divíduos que serão afetados por essa decisão;

• Um debate deve centralizar as discussões. Fazendo uma analogia ao que já existe na Internet, um debate incorpora a capacidade de discussão de fóruns e blogs em um úni-co lugar de acesso;

• Um debate deve ser capaz de sintetizar seu conteúdo. Cada debate apresenta um con-junto de informações, as quais podem ser sintetizadas em torno de concon-juntos de argu-mentos. Essas sínteses, então, podem ser usadas para suportar a comunicação entre os participantes de um debate;

• Um debate deve permitir a expressão de opiniões. Esse é um requisito mínimo, para que um debate seja conduzido de forma democrática;

• Os cidadãos devem ser capazes de se identificarem. Não se trata de uma obrigatorie-dade, mas a representação de identidade dos participantes deve ser facultada a cada um. Aos cidadãos, portanto, deve lhes dar a oportunidade de criar uma identidade, pois o anonimato total não deve ser uma regra, e sim uma opção.

Dois outros conceitos relevantes levantados por Seilles (2012) e que merecem as su-as menções são a concertação e os debates em grande escala. A concertação é a atividade de obter uma visão geral das opiniões dos cidadãos sobre um ou mais assuntos. Os debates são, portanto, uma tentativa de realizar a concertação ao introduzir a participação ativa dos cida-dãos. Os debates em grande escala, por sua vez, são as ações que permitem que um vasto número de interessados participe de uma concertação. Um debate na escala de uma coletivi-dade territorial é considerado um debate em grande escala. Esse tipo de debate envolve, ne-cessariamente, um grande número de informações produzidas por e para os seus participan-tes. Assim, durante sua existência, deve ser dada a oportunidade para os cidadãos se expres-sarem sobre os assuntos e, também, participarem da construção de julgamentos coletivos.

(29)

28

Expostas as características dos debates e com o intuito de nortear o foco do estudo, a seguinte definição de debate é utilizada. O debate é um centro de concertação de cidadãos que buscam a apresentação de argumentações em torno de um tema específico e cujos en-volvimentos englobam a expressão de opiniões e a sintetização de conteúdo, visando uma contribuição democrática ampliada, na medida em que ele se torna de grande escala.

2.1.2 Relevância dos debates e contribuição social (eDemocracia)

Os debates surgiram como uma forma de auxiliar a participação da população nas decisões democráticas (SEILLES, 2012). Sua principal relevância foi a permissão da inge-rência da esfera individual na esfera coletiva. Consideremos três tipos simplificados de soci-edade: monarquia, oligarquia e democracia (WALL, 1993). Na monarquia o seu centro é caracterizado pela aristocracia, onde todos os poderes e pensamentos são concentrados em uma personalidade única: o monarca ou ditador. Se o monarca ou ditador é substituído por um pequeno grupo de pessoas, tem-se o que se chamam de oligarquia. A democracia, por sua vez, é exatamente o oposto da monarquia, significando literalmente que todos são parti-cipantes das decisões (WALL, 1993).

Mas como garantir a participação das pessoas visando fortalecer o cunho democráti-co é uma questão, no mínimo, intrigante. Segundo Bordenave (1983, p. 11), a participação é algo intrínseco do ser humano. As pessoas participam em sua família, em sua comunidade, no trabalho e na luta política. Ainda, segundo esse autor, nenhum ser humano é uma ilha e o maior erro das ditaduras é pensar que toda a população se sente aliviada por não ter que to-mar decisões, preferindo transferi-las ao governo. Essa ideia é refutada pelo fato de a maio-ria das pessoas preferirem a democracia. Observa-se, também, que, para muitas pessoas, a democracia não é apenas um método de governo onde existem eleições diretas. Ela é mais do que isso, ela é um estado de espírito.

Mas a maioria prefere a democracia. E para um crescente número de pessoas, de-mocracia não é apenas um método de governo onde existem eleições. Para elas, democracia é um estado de espírito e um modo de relacionamento entre as pesso-as. Democracia é um estado de participação (BORDENAVE, 1983, p.8).

(30)

29

Embora haja um caráter normativo dado às formas participativas acima descritas, o mundo está evoluindo para fortalecer essa participação. Os setores progressistas, que dese-jam uma democracia mais autêntica, são seus grandes promotores (BORDENAVE, 1983, p. 12). Sob o ponto de vista desses setores, a participação facilita o crescimento da consciência crítica da população e fortalece seu poder de reivindicação. E é nesse contexto que surge a eDemocracia. Com o advento das Tecnologias da Informação e Comunicação (TIC), a soci-edade possui novas ferramentas para interação, incluindo sua participação em processos de-cisórios. Ou seja, a possibilidade de concertação dos participantes de um processo democrá-tico decisório pôde ser ampliada com a introdução da TIC.

Uma das expectativas da eDemocracia é aumentar o âmbito da concertação e garantir a transparência dos sistemas administrativos e políticos, dando ao público o seu lugar nos debates. A Internet torna-se, assim, um canal de comunicação e vem naturalmente substituir seus antecessores (o telégrafo, o rádio, a televisão, o telefone) para o campo experimental da eDemocracia (SEILLES, 2012). Embora o início da eDemocracia esteja em um domínio mais antigo do que a Internet, como o telégrafo, ela se amplia ainda mais com o uso da TIC. A Internet, hoje em dia, e, mais especificamente a Web, tornou-se o terreno de predileção das experiências do domínio participativo. Segundo Seilles (2012), as aplicações Web da eDemocracia cobrem todas as etapas da tomada de decisão, desde a concertação até o voto. O autor ressalta, também, que a eDemocracia se subdivide em vários domínios, sendo um deles o dos debates. O uso do que ele chama de debates 2.0, uma ferramenta de concertação para auxiliar a participação dos cidadãos, é uma contribuição significativa que amplia o al-cance democrático da sociedade.

2.1.3 Debates 2.0

Na esteira da definição de debates, Seilles (2012) criou o debate 2.0. Em sua defini-ção, o debate 2.0 une dois conceitos: a Web 2.0 e os debates. O que diferencia a Web 2.0 da que a antecede é principalmente o fato de que o conteúdo das páginas naquela é gerado pelo usuário (OREILLY, 2007). Antes da Web 2.0, a Internet era provida de um conjunto de pá-ginas estáticas, escrito por uma pessoa e acessível a todos os outros, mas somente para leitu-ra. Com a chegada, em 1995, dos primeiros Wikis e fóruns, torna-se possível não só ler pá-ginas, mas modificá-las, editá-las, comentá-las e completá-las.

(31)

30

assim como os meios de comunicação predecessores, uma mera difusora de informações, ou seja, a comunicação se realizava em um só sentido (da mídia para os consumidores das in-formações). Ela era apenas uma continuação das quatro revoluções dos meios de comunica-ção que apareceram nos últimos 500 anos: imprensa, telégrafo, rádio e televisão (HOW... 2009). Com o advento da Web 2.0, houve o fortalecimento do capital social, a valorização do indivíduo e a contribuição coletiva (HOW... 2009). Esse novo conceito permitiu que as pessoas pudessem suportar e sere suportadas nas suas ideias, contribuindo para a ampliação de uma comunidade social mais barata, ubíqua e global. Profissionais da mídia começam a fazer menor número perante os cidadãos (“os amadores”) do mundo, pois qualquer um pode contribuir, não há mais a necessidade de estar vinculado a uma empresa de comunicação para pronunciar seu contento a respeito de um assunto. A figura 1 ilustra como as conexões da atual Internet se organizam. Percebe-se claramente pela figura que as comunicações transcorrem em todos os sentidos, o que realmente evidencia a real capacidade de comunica-ção das pessoas, valorizando o capital social que elas representam.

Figura 1 – Conexões da Internet

Fonte: JURVETSON (2015)

(32)

opi-31

nião sobre as músicas. Os sítios de varejo permitem opinar sobre um produto comprado ou sobre a qualidade do serviço prestado. Nas redes sociais, é possível, em qualquer página, dizer se você gosta dela clicando no botão “Curti”, como é feito no Facebook. Nesse contex-to de colaboração, alguns já dizem que o usuário não é um mero consumidor, mas também um ator informacional, chamando-o de “consommacteur”, isto é, aquele que consome e pro-duz informações (SEILLES, 2012).

Os exemplos citados e muitos outros levaram à definição prática do conceito de Web 2.0: a melhoria do serviço pelo uso (SEILLES, 2012). Em outras palavras, o usuário de um serviço cria, pelo uso, novos dados que são fundamentais para a melhoria do serviço (por exemplo, sistemas de recomendação para as vendas online analisam o histórico de compras e traços de uso para recomendar outras compras pertinentes). Nessa junção de consumidor e ator, surge o debate 2.0, uma ferramenta da Web 2.0 onde os participantes consomem e atu-am produzindo mais informações. Os debates 2.0, ora chatu-amado de debates online, são dedi-cados principalmente à concertação que visa obter a opinião dos cidadãos sobre determina-dos assuntos. Cabe observar que o termo debate, por si só, é geralmente associado apenas às concertações originadas por gestores ou decisores políticos e é raramente associado aos an-seios dos cidadãos que desejam participar ativamente do processo por meio de uma tomada de decisão coletiva (SEILLES, 2012). Entretanto, com a evolução para a Web 2.0, parece haver uma forte tendência do público em relação a esse cenário. Isso se dá por meio de pro-jetos livres, coletivos ou associações que se unem e se servem das atuais ferramentas online disponíveis.

Objetivando promover debates democráticos na Web, Seilles (2012) desenvolveu uma ferramenta de debates 2.0, batizada de Argumentea. Seu principal propósito era apoiar à gestão de interações de cidadãos existentes nas zonas costeiras de diferentes países. Essas interações permitem uma ampliação do debate participativo e seu trabalho focou na concep-ção e desenvolvimento de ferramentas de apoio à concertaconcep-ção, promoconcep-ção de debates, promo-ção de escrita colaborativa e criapromo-ção de uma ligapromo-ção funcional entre os cidadãos, gestores e líderes. De cunho democrático, a ferramenta Argumentea incorpora algumas funcionalidades da Web 2.0 que são essenciais para permitir a participação dos stakeholders. Entre as funci-onalidades são destacadas a capacidade de anotação, expressão de opiniões e discussão so-bre os pontos de vista.

(33)

32

(2012) cita dois tipos básicos de anotação: a discursiva e a semântica. A primeira diz respei-to à prática interativa semelhante à postagem de opiniões dos fóruns ou blogs. Esse tipo de anotação permite aos usuários exprimir suas opiniões sobre trechos e frases de outros parti-cipantes. A anotação semântica, por sua vez, refere-se ao uso de tecnologias da Web Semân-tica1. Trata-se de tornar explícita a informação concernente a um documento ou a um trecho dele. Essas informações, chamadas de metadados, são adicionadas através das anotações semânticas, a fim de explicitar, para um programa, as informações sobre o contexto de pro-dução. Por exemplo, as anotações semânticas podem especificar quem é o autor do docu-mento, em que data ele foi produzido e os temas abordados. Seilles usa ambos os tipos de anotação como uma solução deestruturação dedebates, permitindo que diferentes pontos de vistas sejam colocados sobre um ou mais argumentos construídos pelos participantes. A Fi-gura 1 ilustra um substrato da ferramenta utilizada em um dos debates conduzidos pelo tra-balho de Seilles.

1 Web Semântica, chamada de próxima geração da Web, visa resolver os problemas de interoperabilidade de

(34)

33

Figura 1 – Substrato de um debate realizado com o uso da ferramenta Argumentea

Fonte: SEILLES (2012)

O trabalho aqui proposto utiliza os resultados originados de um debate realizado a partir de uma ferramenta de debates como a Argumentea. Objetiva-se ser capaz de sumarizar os debates utilizando a estruturação realizada pela ferramenta e sua capacidade de anotação. A anotação levada em consideração é a do tipo discursiva, pois somente o conteúdo de um debate é relevante para ser constado em um sumário. Assim, o trabalho foca nas seguintes características de um debate estruturado pela ferramenta de Seilles (2012):

(i) Debates são discussões derivadas de argumentações; (ii) As argumentações são compostas de anotações discursivas;

(iii)Anotações permitem a descrição de opiniões, sendo expressas por um ou mais partici-pantes;

(iv) As opiniões são relativas a trechos dos debates;

(v) Para cada opinião, pode ser colocada uma nova proposição, cujo teor pode levar a um ou mais argumentos.

(35)

34

2.1.4 Onde se encaixam os debates online?

No contato com a definição de debates online, é possível, a um primeiro momento, confundi-lo como um blog, fórum ou outras ferramentas de interação online. Entretanto, à medida que se analisa a definição dessas ferramentas é possível traçar um contexto distinto ao qual o debate online se encontra quando. Para melhor compreender a diferença que o des-taca, é necessário analisar o conceito das outras ferramentas.

A primeira delas, o blog, se conceitua como uma ferramenta de comunicação entre particulares, onde um usuário expõe suas ideias sobre determinados textos, vídeos ou outras mídias apresentadas. Sobre eles, um usuário pode exprimir sua posição por meio daquilo que foi chamado de postagem (post) (SEILLES, 2012). Estas postagens são apresentadas de forma cronológica e tratam sobre o tópico inicialmente abordado. Por meio dos blogs, co-nhecimentos e reflexões podem ser compartilhados, podendo atrair diferentes tipos de leito-res (BOULOS; MARAMBA; WHEELER, 2006). A principal diferença entre um blog e um fórum online reside na ideia de que o primeiro apresenta um autor/criador do tópico debatido colocando-o à frente de seus leitores, enquanto que o segundo não há a distinção entre auto-res e leitoauto-res (SEILLES, 2012). O autor desse trabalho identifica um debate online como uma ferramenta que favorece a expressão de uma posição a favor ou contrária (opinião). Sendo a principal diferença de um debate online para com um blog ou fórum online reside na capacidade de centralizar essas posições com intuito de democratizar uma discussão, uma vez que esses últimos não têm como objetivo tal atividade.

Outro tipo de ferramenta colaborativa bastante conhecida é os chamados sítios Wi-kis, cujo conteúdo informativo e de uso coletivo é usado como fonte de conhecimento e po-de ser editado por qualquer um que tenha acesso a ele (BOULOS; MARAMBA; WHEELER, 2006; SEILLES, 2012). Conceito inicialmente apresentado por Ward Cunnin-gham em 1995, talvez o melhor exemplo de Wiki seja a popular Wikipedia1. Esta se caracte-riza como fonte de obtenção de informações e conhecimento, e também um método colabo-rativo para compartilhá-los entre seus participantes (BOULOS; MARAMBA; WHEELER, 2006; CUNNINGHAM, 2013). Essas ferramentas permitem que um conjunto de páginas seja criado, editado e difundido em tempo real. E, embora argumentos e posições possam ser colocados quando se tratando de determinados assuntos, os Wikis não têm como objetivo o debate coletivo. Eles focam na criação de conteúdo e sua principal diferença para com os debates online, tal como os blogs e fóruns, se repousa na ideia de que os debates focam

(36)

35

tamente na concertação de argumentos.

Pode-se ainda fazer uma comparação com os sítios de redes sociais. Reconhecida-mente surgidas no ano de 1997, as redes sociais são definidas como serviços Web que per-mitem aos indivíduos: construir um perfil público ou semipúblico; articular uma lista de usuários com as quais eles se conectam; e, permitir a permutação destas de tal modo que um usuário possa conhecer as listas de conexão de outro (BOYD; ELLISON, 2007). MySpace, Orkut, Mixi e Facebook são apenas alguns exemplos de redes sociais. E, embora todos eles permitam a expressão de opiniões sobre uma postagem, seus objetivos não compreendem a arguição e a concertação de pessoas interessadas em determinados assuntos, que, acredita-se, por esse autor, como sendo o cerne conceitual de um debate online.

(37)

36

Quadro 2 – Ferramentas de debates online Nome Anotação Posições a favor ou

contrárias

Textos

livres Sumários

Texto motivador introdutório

Argumento hierárquico

Debate.org1

Debatepedia2

Createdebate3

Dialoguea4

Argumentea5

Idebate6

Convinceme7

ForandAgainst8

onlineDebate9

Takeonit10

Fonte: o Autor

Como pode ser observado no quadro, há algumas características comuns às ferra-mentas de debates online, sendo que a principal reside na capacidade de qualificar, como concordantes ou não, os argumentos apresentados durante o debate. No Quadro 2, são avali-ados os seguintes atributos de tais ferramentas:

• Capacidade de anotação: representa os debates que apresentam como funcionalidade a capacidade de marcar os textos a serem debatidos. Para o cidadão, essa capacidade permite que determinados assuntos sejam destacados e debatidos, contribuindo para o aprofundamento das discussões. Das ferramentas ilustradas, somente a Argumentea e a Dialoguea (que é variação da primeira) apresentam tal funcionalidade;

• Qualificação das posições como concordantes ou discordantes: considera-se que essa é uma das funcionalidades principais de uma ferramenta de debates online. É por meio dela que o cidadão pode opinar explicitamente a respeito do tema. Percebe-se que, cu-riosamente e apesar do nome, somente a ferramenta onlineDebate não inclui tal funci-onalidade. O autor acredita que a ausência de tal funcionalidade equipara tal ferramen-ta a um fórum de discussão e não a um debate;

1 www.debate.org

2 www.debatepedia.com 3 www.createdebate.com 4 www.dialoguea.fr/#/

5 Ferramenta criada no âmbito da tese de doutorado de Seilles (2012). 6 www.idebate.org

(38)

37

• Capacidade de expor textos livres: embora todas as ferramentas apresentadas incluam essa funcionalidade, o autor desse trabalho considera relevante a sua citação. Caso tal funcionalidade não estivesse presente, as ferramentas não passariam de instrumentos de enquetes, onde perguntas seriam correspondidas por respostas restritas a uma lista fechada, por exemplo, Sim, Não ou Talvez. Isso eximiria uma participação mais de-mocrática do cidadão, que, por muitas vezes, querem contribuir com informações além daquelas contidas nas listas fechadas;

• Capacidade de sumarização: é aqui que se encontra o foco desse trabalho e, portanto, destaca-se que nenhuma ferramenta analisada permite que um sumário seja extraído. O sumário permitiria uma referência rápida do tema debatido e das principais posições até o momento colocadas;

• Texto motivador introdutório: aquelas ferramentas que não permitem que um texto motivador seja introdutoriamente apresentado geralmente apresentam uma pergunta inicial. Tal pergunta tem como objetivo indagar a posição sobre determinado assunto, como, por exemplo: “Are politics generally good people?”. Não obstante quão uma pergunta possa ser provocativa o suficiente para estimular a expressão de opiniões, o autor acredita que um texto introdutório permite melhor expor o tema a ser debatido, diferentemente de uma simples pergunta. Por meio do texto, os assuntos podem ser melhores abordados inicialmente, focando em pontos que devem ser debatidos e re-movendo questões não interessantes ao debate;

• Capacidade de argumentar hierarquicamente: por meio dessa capacidade, argumentos podem ser apresentados sobre outros argumentos e não somente sobre o texto ou per-gunta inicialmente apresentados. Não obstante considerada como uma característica simples de ser implementada, nem todas as ferramentas a possuem. O autor avalia tal característica como importante e essencial para um debate online, pois permite que ha-ja uma interação explícita entre os cidadãos.

(39)

38

2.1.5 Estruturação lógica do debate

Seilles (2012), para estruturar um debate, remete à teoria do quadrado das oposições de Aristóteles. Tal teoria, apresentada também por Moretti (2005), pode organizar e estrutu-rar os argumentos presentes em um debate. A teoria do quadrado das oposições de Aristóte-les é também conhecida como quadro aristotélico de oposições ou quadro tradicional de oposições (BARONETT, 2009). Para explicar essa teoria, é necessário primeiramente apro-fundar naquilo que é chamado de proposição categórica. Uma proposição categórica, em sua forma primitiva, é composta por um termo sujeito (S) e um termo predicado (P). Nesse con-texto, toda proposição categórica ou afirma ou nega que o termo sujeito se relaciona parcial ou integralmente com o termo predicado. Ou seja, é possível expressar as seguintes possibi-lidades de relacionamento entre o termo sujeito (S) e o termo predicado (P):

(i) Todos S são P (universal afirmativa). Exemplo: todas as monarquias são países desen-volvidos;

(ii) Nenhum S é P (universal negativa). Exemplo: nenhuma monarquia é um país desen-volvido;

(iii)Algum S é P (particular afirmativa). Exemplo: existe uma monarquia que é um país desenvolvido;

(iv) Algum S não é P (particular negativa). Exemplo: existe uma monarquia que não é um país desenvolvido.

Perceba que ainda nada foi verificado quanto à veracidade dos exemplos acima. Es-sas proposições categóricas são blocos construtivos dos silogismos categóricos, conhecidos como inferências, e são designadas pelas quatro primeiras vogais do alfabeto A, E, I e O. Abaixo, o Quadro 3 apresenta tal relação e a Figura 2(a) apresenta como essas proposições são apresentadas sob a figura geométrica de um quadrado.

Quadro 3 – Proposições categóricas

Designação Proposição Classificação

A Todos S são P Universal afirmativa

E Nenhum S é P Universal negativa

I Algum S é P Particular afirmativa

O Algum S não é P Particular negativa

Imagem

Figura 1 – Conexões da Internet
Figura 2.a – Quadrado de Aristóteles  Figura 2.b – Relação da Contradição
Figura 3 – Exemplos de derivações temáticas e n quadrados de oposições
Figura 4 – Graph Theory Approach
+6

Referências

Documentos relacionados

Estes resultados, aparentemente insatisfatórios, não indicam que os extratos produzidos pelo NeuralSumm sejam ruins, pois: (a) a utilização da medida do co-seno pode incluir

Na década de 1970, a utilização das técnicas de gerenciamento de projetos passou a difundir-se por diversos ramos e setores da economia, sendo modelo de gestão

Para desenvolvermos esse artigo utilizamos da pesquisa qualitativa, por meio de leituras e debates ocorridos no estágio I referente a observações na educação infantil e estágio II

Por outro lado, a industria mineral tinha que realizar ajustes em sua capacidade produtiva, na tentativa de conter a queda dos pre<;:os dos metais,

E-mail para contato: steiner@uems.br Felizarda Viana Bebé Professor do Instituto Federal de Educação, Ciência e Tecnologia Baiano, Campus Guanambi-BA; Membro do corpo docente

Assim como os contexts, a unit utilizada na DCA deve possuir um ID único para evitar duplicidades. Vale destacar que todo valor deve ser enviado na escala 1:1..

Four centuries of Portuguese expansion, 1415-1815: a succinct survey, Publication in of the Ernest Oppenheimer Institute of Portuguese Studies of the University of the

Trata-se de um estudo observacional longitudinal, do tipo levantamento com base em dados secundários coletados a partir das publicações de estimativas de incidência