• Nenhum resultado encontrado

6.6 Análise e Resultados da Avaliação do Extrator de Opinião Pública

6.6.3 Procedimento de Extração do EOP e a Caracterização da Rede

Para realizar a avaliação comparativa, os 50 tweets foram processados pelo EOP, segundo as etapas de tratamento de dados descritas na seção 5.7.4. Os módulos

foram sequencialmente aplicados, com exceção da etapa 5, a qual executa o algoritmo de Girvan e Newman. A pequena quantidade de palavras extraídas na seleção de temas levou à decisão de não aplicá-lo.

A Tabela 3 apresenta as características do banco de dados antes e depois do pré-processamento. Inicialmente, todos os tweets somavam um total de 787 palavras, distribuídas em 69 parágrafos. Após o pré-processamento e a retirada das stop-words, restaram 374 palavras, distribuídas em 69 parágrafos. A compressão do texto em relação ao número de palavras foi de 52,48%, sendo que o tamanho das sentenças passou de uma média de 11 para apenas 5 palavras por parágrafo. Finalizado o pré-processamento, a rede de co-ocorrência de palavras foi obtida e está ilustrada na Figura 41.

Tabela 3 – Características do banco de dados formado pelos 50 tweets antes e depois do pré-processamento.

Atributo Antes do pré-processamento Após o pré-processamento

Quantidade de palavras 787 374

Número de parágrafos 69 69

Média palavras/parágrafo 11 5

Segundo Cancho e Solé (2001), uma rede de co-ocorrência de palavras apresenta dois fenômenos de redes complexas: os efeitos mundo pequeno e livre de escala. Estas duas características permitem a investigação de comportamentos emergentes relacionados à lei de potência e clusterização (premissas do processo de seleção de temas do EOP). Por este motivo, faz-se necessária a validação do processo de geração da rede segundo a avaliação da presença destas características.

Figura 41 – Rede de co-ocorrência de palavras formada a partir dos 50 tweets.

Para verificar a presença do comportamento livre de escala e do efeito mundo pequeno, indicando que o processo de formação da rede complexa aconteceu de forma

Capítulo 6. Avaliação do Extrator de Opinião Pública 175

adequada, o coeficiente de clusterização médio ⟨𝐶⟩, o comprimento médio do caminho ⟨𝑙⟩ e o grau médio ⟨𝑘⟩ foram calculados, segundo as definições da seção 5.4, e em seguida confrontados com os valores esperados para os modelos de redes livres de escala e mundo pequeno. A Tabela 4 apresenta estas e outras métricas4 da rede de co-ocorrência da Figura 41.

Tabela 4 – Métricas da rede de co-ocorrência de palavras formada após o pré- processamento dos 50 tweets.

Métrica Valor

Número de vértices 212

Número de arestas 289

Diâmetro 19

Grau médio ⟨𝑘⟩ 1,44

Coeficiente de clusterização médio ⟨𝐶⟩ 0,025 Comprimento médio do caminho ⟨𝑙⟩ 5,8

De acordo com Newman (2018), em uma rede contendo 𝑁 nós e 𝑚 arestas, as arestas podem se rearranjar de forma que elas se reconectem aleatoriamente entre os nós com probabilidade 𝑝, indo de uma rede regular (𝑝 = 0) até uma rede completamente aleatória (𝑝 = 1), possibilitando a formação de uma topologia intermediária em que 0 < 𝑝 < 1. Nesta última encontram-se as redes mundo pequeno.

Desta forma, as redes mundo pequeno tratam de casos intermediários entre dois extremos. Conhecendo os valores esperados para ⟨𝑙⟩ e ⟨𝐶⟩ nos diferentes modelos de rede, é possível verificar o efeito mundo pequeno. Conforme ilustrado na seção 5.5.3, em uma rede regular em que 𝑝 = 0, o comprimento médio do caminho ⟨𝑙𝑟𝑒𝑔𝑢𝑙𝑎𝑟⟩ e o coeficiente de clusterização médio ⟨𝐶𝑟𝑒𝑔𝑢𝑙𝑎𝑟⟩ apresentam valores elevados com

⟨𝑙𝑟𝑒𝑔𝑢𝑙𝑎𝑟⟩ = 𝑁 2𝑘 >> 1 (6.4) ⟨𝐶𝑟𝑒𝑔𝑢𝑙𝑎𝑟⟩ = 3 4. (6.5)

Já no outro extremo, para 𝑝 = 1, o modelo converge para uma rede aleatória com o comprimento médio do caminho ⟨𝑙𝑎𝑙𝑒𝑎𝑡⟩ e o coeficiente de clusterização ⟨𝐶𝑎𝑙𝑒𝑎𝑡apresentando valores baixos, próximos de

⟨𝑙𝑎𝑙𝑒𝑎𝑡⟩ ≈ 𝑙𝑛𝑁 𝑙𝑛𝑘 (6.6) ⟨𝐶𝑎𝑙𝑒𝑎𝑡⟩ ≈ ⟨𝑘⟩ 𝑁 . (6.7)

Os valores intermediários ilustram as redes mundo pequeno, as quais, em ge- ral, apresentam elevado coeficiente de agrupamento e um baixo comprimento médio do caminho, com valor aproximado de 𝑙𝑛𝑁 .

A Tabela 5 apresenta uma comparação entre os valores esperados para ⟨𝑙⟩ e ⟨𝐶⟩, caso a rede apresentasse uma distribuição de arestas segundo os modelos regular e aleatório, e os valores reais encontrados.

Tabela 5 – Comparação entre as métricas da rede obtida pelo EOP e as métricas esperadas caso a distribuição das arestas seguisse um modelo de rede regular e de rede aleatória. Para os cálculos, utilizou-se as métricas da Tabela 4

Métrica Rede Regular1 Rede obtida pelo EOP Rede Aleatória2

Coeficiente de Clusterização 0,75 0,025 0,007

Comprimento Médio do Caminho 73,6 5,8 14,7

Analisando os dados da Tabela 5, é possível concluir que a rede apresenta o fenômeno mundo pequeno, uma vez que os valores de ⟨𝐶⟩ se encontram entre aqueles esperados para redes regulares e aleatórias; e o valor de ⟨𝑙⟩ aproxima-se do esperado para as redes mundo pequeno: ⟨𝑙⟩ = 5, 8 ≈ 𝑙𝑛𝑁 = 5, 36. Estes resultados corroboram as pesquisas que indicam que as redes de co-ocorrência de palavras apresentam o fenômeno mundo pequeno.

Já a segunda característica esperada é o comportamento livre de escala. Uma forma simples de verificar sua existência foi proposta por Bollobás e Riordan (2004), os quais constataram que redes livres de escala apresentam um comprimento médio do caminho próximo de 𝑙𝑛(𝑙𝑛𝑁 )𝑙𝑛𝑁 . Desta forma, considerando a rede em análise, o valor esperado para ⟨𝑙⟩ é de 3,19, o qual se aproxima ao valor real encontrado (5,8) ao comparar com o que se é esperado para redes regulares (73,6) e aleatórias (14,7), indicando a presença do efeito livre de escala.

A confirmação dos fenômenos mundo pequeno e livre de escala não apenas corroboram os achados na literatura sobre as redes de co-ocorrência de palavras, como também validam os procedimentos propostos para extração de temas pelo EOP, os quais consideram a distribuição do índice de potenciação como uma lei de potência, em que poucos nós são altamente representativos e muitos nós não possuem representatividade (motivo pelo qual a lei de Pareto é aplicada). De fato, uma análise da distribuição do índice de potenciação evidencia esta condição.

Obtida e caracterizada a rede, o procedimento de seleção de temas e extração de conteúdo foi executado. Os resultados da extração, bem como a avaliação comparativa,

1 O coeficiente de clusterização foi determinado a partir da equação 6.5 e o comprimento médio do

caminho a partir da equação 6.4.

2 O coeficiente de clusterização foi determinado a partir da equação 6.7 e o comprimento médio do

Capítulo 6. Avaliação do Extrator de Opinião Pública 177

estão apresentados nas próximas seções.