• Nenhum resultado encontrado

5.7 O Extrator de Opinião Pública

5.7.10 Módulo 6: Extração dos Trechos Representativos

Selecionadas e classificadas as palavras mais representativas, a última etapa consiste em conhecer os trechos que melhor representam cada tema/subtema. Neste pro- cesso, todas as sentenças da coleção de textos são avaliadas e sua representatividade em relação a um tema é determinada segundo a presença deste em seu conteúdo. O Fluxo- grama da Figura 38 apresenta este processo. Segue uma descrição de cada passo.

1. Geração das proto-frases: esta primeira etapa consiste em mapear no documento pré-processado os parágrafos do documento original. Cada parágrafo localizado é de- nominado proto-frase, pois é formado apenas pelas palavras de conteúdo semântico relevante.

2. Avaliação das proto-frases: cada proto-frase é formada por uma sequência de bigramas. Nesta etapa, para cada bi-grama é atribuído um peso que expressa o número de vezes que ele aparece na rede obtida no módulo 3. Esta informação é fornecida pela lista de adjacência.

3. Cálculo dos Índices de Representatividade: obtidas as proto-frases, o próximo passo é o cálculo da representatividade de cada sequência. Três índices são gerados para cada proto-frase: o índice de representatividade geral, global e local.

Capítulo 5. Projeto e-Ágora: o Extrator de Opinião Pública 151

Figura 38 – Fluxograma das atividades do módulo 6.

Seja 𝑇 = (𝑡1, 𝑡2, 𝑡3, ..., 𝑡𝑛) o conjunto dos 𝑁 temas/subtemas e seja 𝑅 = (𝑃1, 𝑃2, 𝑃3, ..., 𝑃𝑚) o conjunto das 𝑀 proto-frases, obtidas na etapa de geração das proto-frases, onde 𝑃𝑚 = (𝐵) representa a proto-frase 𝑚, a qual contém um ou mais elementos de 𝑇 e possui 𝑞 bigramas, cujos pesos 𝑏𝑞 estão no conjunto 𝐵 = (𝑏1, 𝑏2, 𝑏3, ..., 𝑏𝑞).

O índice de representatividade geral 𝐼𝑅𝑔𝑒𝑟𝑎𝑙𝑚 de uma proto-frase 𝑚 é dado por:

𝐼𝑅𝑚𝑔𝑒𝑟𝑎𝑙= 𝑆𝑢𝑝𝑃𝑚(𝐵), (5.18)

ou seja, é o maior peso da proto-frase 𝑚. Já o índice de representatividade global 𝐼𝑅𝑔𝑙𝑜𝑏𝑎𝑙𝑚 é dado por:

𝐼𝑅𝑔𝑙𝑜𝑏𝑎𝑙𝑚 = 𝑆𝑢𝑝𝑃𝑚(𝐵)

𝑆𝑢𝑝𝑃 (𝐵) , (5.19)

ou seja, é uma fração do maior peso da proto-frase 𝑚 dividido pela maior peso entre todas as proto-frases de 𝑅. Por fim, o índice de representatividade local 𝐼𝑅𝑙𝑜𝑐𝑎𝑙

dado por:

𝐼𝑅𝑙𝑜𝑐𝑎𝑙𝑚 = 𝑆𝑢𝑝𝑃𝑚(𝐵)|𝑡𝑛 𝑆𝑢𝑝𝑃 (𝐵)|𝑡𝑛

, (5.20)

ou seja, é uma fração do maior peso de uma proto-frase 𝑚 que contenha um tema de 𝑇 , com o maior peso dentre todas as proto-frases que contenha o mesmo tema. A partir dos índices de representatividade, foram definidos os intervalos de repre- sentação das sentenças. Proto-frases de IR global ou local > 0,8 foram consideradas de “altíssima representatividade”, entre 0,6 e 0,8, “alta representatividade”; entre 0,4 e 0,6, “média representatividade”; entre 0,2 e 0,4, “baixa representatividade”; e abaixo de 0,2, “baixíssima representatividade”.

4. Extração dos núcleos: O último processo constitui em extrair da proto-frase o seu núcleo de informação. Para isto, foi criada uma variável denominada corte dos núcleos, que pode assumir valores entre 0 e 100% e exclui os bigramas que apresen- tam peso menor do que a porcentagem escolhida para o corte dos núcleos em relação ao maior peso da proto-frase. Determinado seu núcleo, a proto-frase é mapeada na coleção de textos e seu conteúdo original é extraído. A presença de um tema/sub- tema a torna uma representante do tópico. Caso uma proto-frase contenha mais do que um tema, o tema de maior grau é quem definirá qual tópico ela representa. A Figura 39 exemplifica o processo de avaliação e seleção de uma proto-frase.

Figura 39 – Exemplo de geração e avaliação de uma proto-frase.

O processo de extração da opinião finaliza-se com um conjunto de palavras que expressam os temas e/ou subtemas presentes na coleção de textos, e os trechos que

Capítulo 5. Projeto e-Ágora: o Extrator de Opinião Pública 153

representam as ideias mais relevantes, tanto no contexto geral quanto no contexto local de cada tema e/ou subtema. Um ponto importante a ressaltar é que a metodologia proposta não exclui ideias minoritárias. Os temas selecionados são hubs das redes e sua importância é mensurada pelo índice de potenciação. O algoritmo desenvolvido busca o limiar entre os vértices representativos e o grande conjunto de nós que não centralizam informação, através da descrição matemática da lei de potência e regra de Pareto. Desta forma, é pos- sível notar nas palavras selecionadas temas muito relevantes (alto índice de potenciação) até temas minoritários (pequeno índice de potenciação, porém fora da cauda longa). As ideias relevantes também são avaliadas no contexto local do tema e todas as sentenças da coleção de textos recebem uma classificação que pode variar de uma representatividade altíssima até baixíssima, não havendo nenhum descarte de ideias. Esta é uma condição essencial quando se trata de desenvolver estratégias de consulta da opinião pública pen- sando em um ambiente democrático e participativo, uma vez que é necessário dar voz às minorias e conhecer o que estes grupos pensam e desejam.

5.8

Conclusão do Capítulo

O presente capítulo tratou de apresentar o Extrator de Opinião Pública, a terceira frente do projeto e-Ágora. O EOP é formado por um conjunto de algoritmos que têm por objetivo extrair os temas e as ideias mais relevantes de uma coleção de textos. A proposta é utilizá-lo como o centro de tratamento de dados da Ágora para auxiliar na tarefa de extração da opinião em uma consulta da opinião pública orientada pela metodologia da ação comunicativa.

O Extrator da Opinião Pública é composto por uma metodologia fundamen- tada na área de mineração de textos e redes complexas. Enquanto a primeira trata de estabelecer um procedimento de busca de conhecimento em bancos de dados não estru- turados, a segunda fundamenta o tratamento de processos linguísticos através da teoria de redes.

A metodologia proposta para o EOP é dividida em seis passos, segundo as de- finições de extração da informação da abordagem KDT, que são implementados em seis módulos independentes. O primeiro passo trata da geração do documento que será anali- sado, tendo como fonte uma coleção de relatos. O segundo consiste no pré-processamento ou preparação do texto para geração da rede complexa, a qual compõe o terceiro passo. O quarto passo trata da avaliação da informatividade das palavras e seleção dos temas. Para isto, foi proposta uma medida de centralidade, denominada “índice de potenciação”, a qual foi utilizada como base para extração dos temas. O quinto, um passo opcional, trata de verificar a relação de dependência entre os temas, buscando possíveis subtemas. Por fim, o sexto passo executa a extração dos trechos mais relevantes e indica qual tema/sub-tema

eles representam.

A opinião extraída é, portanto, expressa através dos temas e ideias mais rele- vantes de um conjunto de relatos escritos por participantes de uma comunidade. A meto- dologia extrativa procura avaliar todas as ideias em contexto local (do tema) e classificá-las em um espectro de baixíssima até altíssima representatividade, possibilitando conhecer até mesmo ideias de grupos minoritários oriundos de temas menos expressivos. Esta condição é essencial quando se pensa em tecnologias para democracia.

Por fim, o presente capítulo tratou de apresentar o desenvolvimento da meto- dologia do EOP e sua fundamentação teórica. Nos próximos capítulos serão abordadas a avaliação da metodologia, validação dos resultados e índices propostos, além da execução de um experimento cujos resultados obtidos pelo EOP foram comparados com resultados obtidos pela atividade humana na mesma tarefa de análise e síntese da opinião.

155

Parte III

6 Avaliação do Extrator de Opinião Pública

A avaliação de um sistema de Processamento de Linguagem Natural (PLN), tal como o Extrator de Opinião Pública, é uma atividade que envolve desafios de di- versas naturezas. Definir formas de avaliação de uma ferramenta que tem por objetivo reproduzir uma atividade humana de interpretação e síntese exige uma criteriosa escolha metodológica, bem como um profundo conhecimento das particularidades do sistema e do seu usuário final, uma vez que nem sempre é possível enquadrá-lo em aplicações já consolidadas para efeitos comparativos.

Assim sendo, o presente capítulo se inicia com uma revisão sobre a área de avaliação de sistemas de PLN, em especial sobre o campo da recuperação da informação em textos, apresentando os principais desafios, soluções e abordagens. Em seguida, apresenta a metodologia desenvolvida para avaliação do Extrator de Opinião Pública, a qual inclui uma pesquisa de campo, validações através de métricas bibliométricas e comparações com ferramentas de propósitos semelhantes. Por fim, apresenta as conclusões, bem como as limitações da metodologia proposta e as possibilidades futuras.