• Nenhum resultado encontrado

5.7 O Extrator de Opinião Pública

5.7.8 Módulo 4: Seleção dos Temas

De posse da rede complexa, foi desenvolvida uma metodologia de extração de temas a partir da criação de uma de métrica de centralidade denominada índice de potenciação, a qual avalia a representatividade informacional dos lemas no contexto da rede linguística.

Capítulo 5. Projeto e-Ágora: o Extrator de Opinião Pública 145

A ideia por trás da seleção dos temas está no cálculo da importância dos nós considerando algumas características inerentes à natureza do problema de extração da informação. Na teoria de redes complexas, conforme anteriormente mencionado, a mais importante forma de mensurar a importância de um vértice é através das métricas de centralidade. Existem diferentes tipos de centralidade que permitem as mais diversas análises, considerando o contexto local ou global, medidas relativas, caminhos curtos, entre outras. Porém quatro delas são amplamente utilizadas na análise de redes (OPSAHL et al., 2010): centralidade de grau, centralidade de intermediação ou betweenness, centralidade de proximidade ou closeness e centralidade de auto-vetor ou eigenvector. Considerando o problema de extração de opinião, três destas quatro métricas foram selecionadas para compor o índice de potenciação: graus, intermediação e auto-vetor.

Conforme descrita na subseção 5.4.3, a centralidade grau é definida como o número de ligações que entram e saem de um nó, e pode ser interpretada como a pro- babilidade que o vértice tem de receber alguma informação da rede. Desta forma, numa rede linguística, ela pode expressar o uso da palavra em termos de frequência e sua pro- babilidade de uso. Por outro lado, a centralidade intermediação quantifica o número de vezes que um nó atua como atalho ao longo do caminho mais curto entre dois nós. É uma medida de requisição do nó como intermediador de informação. Em uma rede linguística, pode-se interpretá-la como uma medida de importância global de uma unidade textual, uma vez que considera os caminhos curtos oriundos de todos os nós da rede. Por fim, a terceira medida, o auto-vetor, é uma medida da influência do nó numa rede considerando a importância dos seus vizinhos locais. Nós que possuem vizinhos de alta importância também serão nós importantes. Trata-se de uma medida de contexto local. Em uma rede linguística, interpretamos esta informação como a importância de uma palavra para o seu subgrupo ou contexto específico.

A escolha dessas três medidas para o cálculo do índice de potenciação levou em consideração três hipóteses de mensuração do conteúdo relevante em uma rede linguística: (1) a frequência com que as palavras são usadas no texto refletem parte da importância da unidade textual; (2) palavras muito requisitadas como atalho para formação de sequências apresentam uma importância global na síntese da informação; e (3) palavras com vizi- nhança relevante expressam uma importância local, em especial como expressão de um subtema. Abarcam-se, assim, três condições topológicas: o contexto individual (grau), o contexto local (auto-vetor) e o contexto global (intermediação). Desta forma, definiu-se o índice de potenciação (𝐼𝑃 ) de um nó 𝑖 como a soma das três medidas de centralidade ci- tadas - grau (𝑘𝑖), intermediação (𝑏𝑖) e auto-vetor (𝑥𝑖) normalizadas entre 0 e 1, compondo um índice que varia de 0 a 3:

O índice de potenciação é a principal referência na seleção dos temas. O Flu- xograma da Figura 35 mostra as etapas do processo de seleção dos temas, as quais serão detalhadas em seguida.

Figura 35 – Fluxograma das atividades do módulo 4.

1. Cálculo das métricas: a primeira etapa consiste no cálculo das métricas de cen- tralidade que comporão o índice de potenciação. Para isto, são utilizadas funções disponíveis na biblioteca NetworkX. Para cada métrica, é gerada uma tabela com o nó e o seu respectivo valor.

2. Seleção dos candidatos: nesta etapa, é gerado o índice de potenciação para cada nó da rede, e um conjunto de nós candidatos a se tornarem temas é formado. Uma vez calculados os índices de potenciação, a etapa seguinte consiste em selecionar as palavras de alta representatividade que possam vir a expressar os temas.

Após diversos testes com os mais variados bancos de dados, foi observado que a distribuição dos valores do índice de potenciação comporta-se como uma lei de potência com cauda longa onde poucos nós apresentam um índice elevado e muitos

Capítulo 5. Projeto e-Ágora: o Extrator de Opinião Pública 147

nós apresentam um baixo índice. Este comportamento, esperado em redes de co- ocorrência de palavras, reflete a característica livre de escala.

A hipótese de relevância das palavras foi baseada neste comportamento: nós que estejam fora da cauda longa são os melhores candidatos a se tornarem temas. Para isto, foi desenvolvido um procedimento de separação dos nós com índice de potenci- ação elevado (fora da cauda longa) utilizando uma técnica de clusterização de uma dimensão baseada no procedimento “Estimativa de Densidade de Kernel” (Kernel Density Estimators - KDE ) (RUDEMO, 1982), o qual separa os dados em grupos (ou clusters) conforme sua densidade em um eixo de uma dimensão.

Este procedimento gera um conjunto de grupos que separam os nós da rede segundo faixas pré-definidas do índice de potenciação. O resultado pode ser expresso por um histograma cujo eixo vertical representa a quantidade de nós no cluster e o eixo horizontal a faixa do índice de potenciação, conforme exemplificado na Figura 36.

Figura 36 – Exemplo de um histograma gerado após procedimento KDE. O eixo horizon- tal indica o índice de potenciação e o eixo vertical o número de vértices em cada grupo. A largura das barras é de 0,1.

O passo seguinte trata de selecionar os grupos que contém os possíveis temas e excluir aqueles que não contém palavras relevantes (estão na cauda longa). Esta seleção se dá a partir da soma do número de palavras dos clusters, que deve respeitar o princípio de Pareto (LIPOVETSKY, 2009), arbitrado em 90/10, o qual enuncia que 90% de toda a informação relevante encontra-se em 10% do conteúdo. Desta forma, é selecionada uma quantidade de grupos de forma que a soma total de palavras de todos eles não ultrapasse 10% da quantidade total de nós da rede.

Assim, o resultado final é um conjunto de palavras, oriundas da seleção dos clusters, e que expressam os vértices que estão fora da cauda longa na distribuição do índice

de potenciação.

3. Seleção dos temas: selecionados os candidatos a temas, o próximo passo con- siste em excluir as palavras redundantes e/ou as que não expressam um tema. Para este trabalho, considerou-se que apenas substantivos e as entidades nomeadas4 (EN)

seriam classificadas como temas. Deste modo, dois critérios de exclusão foram deter- minados: (1) palavras que não são entidades nomeadas ou substantivos; (2) palavras redundantes, ou seja, termos que aparecem imediatamente após outro possível tema com alta frequência.

O reconhecimento de entidades nomeadas é um problema em aberto na área de PLN. Algumas técnicas foram desenvolvidas com relativo sucesso, porém a dificuldade na desambiguação das palavras é um desafio ainda a ser superado. Por este motivo, o processo de classificação das EN no EOP se deu manualmente.

Em resumo, o módulo 3, após o cálculo do índice de potenciação e seleção dos nós fora da cauda longa na distribuição do índice, gera um conjunto de palavras formadas por substantivos e entidades nomeadas que expressam os temas relevantes da coleção de textos.