• Nenhum resultado encontrado

4.2 Passo 2: Análise de influência por contagem de Retuítes e Menções 43

4.4.1 Momento 1: base de dados preliminar

A princípio, o workflow definido na metodologia foi aplicado para dois dos cinco temas: “Copa do Mundo e FIFA” e “Big Brother Brasil”. Estes temas foram escolhidos por serem os temas com maior quantidade de tuítes coletados no momento de realização deste teste, que ocorreu em junho de 2014. Os resultados são divulgados a seguir, separados em três cenários:

1. Criação do modelo de árvore de decisão com a amostra equalizada em 50% de tuítes influentes e não-influentes;

2. Aplicação do modelo gerado no cenário 1 em 100% da amostra;

3. Aplicação do modelo de outro tema em 100% da amostra para verificar se o modelo de um tema pode ser utilizado em diferentes temas.

4.4.1.1 Copa do Mundo e FIFA

O processo de leitura da coleta dos tuítes e transformação em dados inseridos na tabela, que será utilizada na mineração de dados, resultou em 5.016.353 registros. Esses registros são todos os tuítes que tiverem pelo menos um retuíte. Os outros tuítes foram desprezados e não serão considerados no modelo. As colunas / variáveis selecionadas foram as citadas na metodologia.

Para definição do limiar, utilizou-se a visualização de gráfico em linha, ordenando os tuítes pelo mais retuitado ao menos retuitado. O objetivo é ver onde a curva de tuítes influentes se inicia e, em seguida, se transforma em exponencial. O valor escolhido para quantidade de retuítes foi de 390. Isso significa que todo tuíte com mais de 390 retuítes devem ser considerados influentes e o algoritmo de árvore de decisão deverá encontrar os padrões de comportamento comuns a estes tuítes. A figura 31exibe a curva de retuítes dessa amostra. O círculo marcado no gráfico informa o ponto em que a quantidade de retuítes é igual a 390, marcando a divisão da amostra em influente e não-influente.

Figura 31 – Gráfico de Limiar do tema Copa do Mundo e FIFA

Com a definição do limiar, somente 1.206 registros foram caracterizados como influentes, dos 5.016.353 anteriores. Sendo assim, para criação do modelo da árvore de decisão, foi necessário reduzir a amostra dos tuítes não influentes em 1.206 registros para que a amostra fique definida em 50% influente e 50% não-influentes e o modelo possa ser criado sem ser enviesado. Ainda, a escolha dos 50% não-influentes tem que ser feita de forma aleatória.

É necessário definir quantos registros serão utilizados para treinar o modelo e quantos serão utilizados para validar o modelo criado. O número escolhido foi de 70% da base para treino e os outros 30% para verificar quantos tuítes o modelo acertou como influente ou não-influente.

Neste primeiro cenário, o resultado da validação do modelo foi de 86,4%, sendo 44 tuítes falsos-positivos, ou seja, o modelo informou que o tuíte era influente, porém na base real eles não são influentes.

Foi testado um segundo cenário, exportando o modelo treinado no primeiro cenário e aplicado a todos os registros da base. Nesse caso, com mais de 5 milhões de tuítes, o modelo teve assertividade de 87%, acertando 1.135 tuítes como influentes e 68 como falsos-positivo.

Um terceiro cenário foi realizado, aplicando o modelo gerado no tema Big Brother Brasil - que será explicado na próxima subseção - em toda a base, assim como o cenário 2, e obteve assertividade de 76%, com 1.033 acertos de tuítes influentes e 158 falsos-positivo. Este resultado é importante para notar a necessidade de criar um modelo para cada tema, comprovando que os comportamentos dos tuítes mais retuitados são diferentes entre temas.

Tabela 2 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema Copa do Mundo e FIFA

Cenário Assertividade Acerto Falso-positivo

1 86,4% 308 44

2 87,2% 1135 68

3 76,0% 1033 158

4.4.1.2 Big Brother Brasil

Seguindo o mesmo modelo utilizado no tema anterior, o processo de leitura da coleta dos tuítes e transformação em dados inseridos na tabela, que será utilizada na mineração de dados, resultou em 3.989.067 registros. Esses registros são todos os tuítes que tiverem pelo menos um retuíte. Os outros tuítes foram desprezados e não serão considerados no modelo. As colunas / variáveis selecionadas foram as citadas na metodologia.

Para definição do limiar, utilizou-se a visualização de gráfico em linha, ordenando os tuítes pelo mais retuitado ao menos retuitado. O objetivo é ver onde a curva de tuítes influentes se inicia e, em seguida, se transforma em exponencial. O valor escolhido para quantidade de retuítes foi de 190. A figura 32 exibe a curva de retuítes dessa amostra e o círculo marcado no gráfico informa o ponto em que a quantidade de retuítes é igual a 190, marcando a divisão da amostra em influente e não-influente.

Figura 32 – Gráfico de Limiar do tema Big Brother Brasil

Com a definição do limiar, somente 1.025 registros foram caracterizados como influentes, dos 3.989.067 anteriores.

Foram aplicados os três cenários citados acima e já descritos no tema da Copa do Mundo e FIFA, e os resultados são sumarizados na tabela 3.

Tabela 3 – Tabela com o resultado dos 3 cenários da árvore de decisão para o tema Big Brother Brasil

Cenário Assertividade Acerto Falso-positivo

1 84,2% 270 40

2 86,1% 965 60

3 91,7% 624 394

de tuítes não-influentes e os falsos-negativos, que não estão demonstrados na tabela.

Com esses resultados preliminares, foi possível observar que aparentemente não é eficiente utilizar o modelo de um tema em temas diferentes, comprovando que o comporta-mento dos usuários e dos tuítes variam entre os temas. Apesar da assertividade de 91% no 3o cenário, o percentual de falsos-positivo é muito alto, mais de 50%. O acerto está alto porque o modelo está definindo a grande maioria dos tuítes como não-influentes, porém este resultado é enviesado.

A figura 33 exibe o modelo (árvore de decisão) criado para cada um dos temas, informando quais variáveis são analisadas para predizer se um tuíte é influente ou não.

(a) Copa do Mundo e FIFA (b) Big Brother Brasil

Figura 33 – Árvore de decisão gerada no KNIME para predição de tuítes influentes, por tema