Aplicação de técnicas de Machine Learning na combinação de pesquisas eleitorais

(1)

Jefferson Barbosa da Silva

Aplicação de Técnicas de Machine Learning na

Combinação de Pesquisas Eleitorais

Natal - RN

(2)

Jefferson Barbosa da Silva

Aplicação de Técnicas de Machine Learning na

Combinação de Pesquisas Eleitorais

Monografia de Graduação apresentada ao De-partamento de Estatística do Centro de Ci-ências Exatas e da Terra da Universidade Federal do Rio Grande do Norte como re-quisito parcial para a obtenção do grau de Bacharel em Estatística.

Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra

Departamento de Estatística

Orientador: Prof. Dr. Marcus Alexandre Nunes

Natal - RN

(3)

Silva, Jefferson Barbosa da.

Aplicação de técnicas de Machine Learning na combinação de pesquisas eleitorais / Jefferson Barbosa da Silva. - 2018. 26f.: il.

Monografia (Bacharelado em Estatística) - Universidade Federal do Rio Grande do Norte, Centro de Ciências Exatas e da Terra, Departamento de Estatística. Natal, 2018.

Orientador: Marcus Alexandre Nunes.

1. Estatística Monografia. 2. Support vector machine -Monografia. 3. Random forest - -Monografia. 4. Aprendizagem de máquinas - Monografia. I. Nunes, Marcus Alexandre. II. Título. RN/UF/CCET CDU 519.2

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

(4)

(5)

(6)

Agradecimentos

À minha mãe Josefa, ao meu meu irmão Ermando e à minha tia Joaquina. Sem a ajuda de vocês, com absoluta certeza, não teria sido possível chegar até aqui.

Ao professor Marcus Nunes, por ter aceitado me orientar, por toda compreensão e ajuda para que este trabalho fosse finalizado.

Aos professores André Pinho e Marcelo Bourguignon por aceitarem o convite para compor a banca.

A todos os professores desta instituição que contribuiram para a minha formação. Agradeço, em especial, a todos os professores do departamento de estatística.

A todos os amigos que fiz nesta instituição por terem tornado o ambiente acadêmico mais agradável.

(7)

“A dúvida é o princípio da sabedoria.” Aristóteles

(8)

Resumo

As pesquisas eleitorais brasileiras são feitas, em sua grande maioria, a partir de um plano amostral não-probabilístico por cotas. Sendo assim, há um acumulo de incertezas quanto às estimativas obtidas, visto que não há como garantir que a margem de erro está sendo respeitada e não há como calcular os intervalos de confiança. Como forma de reduzir o erro na estimação da intenção de votos, este trabalho propõe o uso de técnicas de Machine

Learning para combinar pesquisas eleitorais. Foram utilizadas as pesquisas eleitorais para

o primeiro turno da eleição presidencial de 2014 no Brasil, divulgadas pelos institutos Datafolha, Ibope, MDA, Sensus e Vox Populi. As combinações foram feitas utilizando a Regressão Local, Random Forest e Support Vector Machine (SVM). Com excessão do Random Forest e do SVM com kernel linear, as demais técnicas se apresentaram como boas opções para combinar as pesquisas eleitorais.

(9)

Abstract

The Brazilian electoral polls are made, mostly, from a non-probabilistic sample plan by quotas. Thus, there is an accumulation of uncertainties regarding the estimates obtained, since there is no way to guarantee that the margin of error is being respected and there is no way to calculate the confidence intervals. As a way to reduce the error in the estimation of the intention of votes, this work proposes the use of techniques of Machine Learning to combine electoral polls. We used the electoral polls for the first round of the presidential election of 2014 in Brazil, published by the institutes Datafolha, Ibope, MDA, Sensus and Vox Populi. The combinations were made using Local Regression, Random Forest and Support Vector Machine (SVM). With the exception of Random Forest and SVM with linear kernel, the other techniques presented as good options for combining the polls.

(10)

Lista de ilustrações

Figura 3.1 – Visualização do funcionamento da validação cruzada k-fold. . . . 19

Figura 4.1 – Resultado da combinação de modelos utilizando Loess. . . 22

Figura 4.2 – Resultado da combinação de modelos utilizando Random Forest. . . . . 22

Figura 4.3 – Resultado da combinação de modelos utilizando SVM Linear. . . 23

Figura 4.4 – Resultado da combinação de modelos utilizando o SVM Radial. . . 24

(11)

Lista de tabelas

Tabela 3.1 – Funções kernel para o SVM . . . . 19 Tabela 4.1 – RMSE dos modelos para as 5 últimas pesquisas publicadas. . . 23

(12)

Sumário

Lista de tabelas . . . 10 1 INTRODUÇÃO . . . 12 2 REVISÃO BIBLIOGRÁFICA . . . 13 3 METODOLOGIA . . . 16 3.1 Regressão Local . . . 16 3.2 Random Forest . . . 17

3.3 Support Vector Machine . . . 18

3.4 Validação Cruzada . . . 19

4 APLICAÇÃO . . . 21

4.1 Coleta dos dados . . . 21

4.2 Combinação de Modelos . . . 21

5 CONSIDERAÇÕES FINAIS . . . 25

(13)

12

1 Introdução

As pesquisas eleitorais brasileiras são feitas, em sua grande maioria, a partir de um plano amostral não-aleatório por cotas. A adoção do plano amostral se dá pela não disponibilidade do cadastro de eleitores aptos a votar por parte do Tribunal Superior Eleitoral (TSE), além de que a adoção de um plano amostral complexo retardaria a divulgação dos resultados, abrindo margem para que as pesquisas não mais retratassem a realidade no momento de sua divulgação.

Como as pesquisas são feitas com base em um plano amostral não-probabilístico, há um acumulo de incertezas quanto às estimativas obtidas. Não há como garantir que a margem de erro estabelecida esteja sendo respeitada e não é possível calcular os intervalos de confiança. Estes fatos colocam em cheque a eficácia das pesquisas eleitorais brasileiras.

A fim de minimizar este problema e obter melhores estimativas da intenção de voto do eleitorado brasileiro, neste trabalho propomos o uso da combinação de pesquisas eleitorais. Para testar a eficiência do método, utilizaremos as pesquisas eleitorais para o primeiro turno da eleição presidencial de 2014, divulgadas pelos institutos Datafolha, Ibope, MDA, Sensus e Vox Populi. A combinação de pesquisas eleitorais será feita com o uso de técninicas de Machine Learning. Serão utilizados a Regressão Local, Random

Forest e Support Vector Machine.

A combinação de pesquisas eleitorais já é bastante popular nos Estados Unidos da América. Iniciada na década de 1990, a divulgação da combinação de pesquisas eleitorais ganhou espaço entre os noticiários de análise política no país. Com o avanço da internet e com o aumento significativo no número de pesquisas eleitorais sendo divulgadas, vários sites surgiram com o proposito de divulgar combinações de pesquisas eleitorais. O mais famoso, o <www.fivethirtyeight.com> de Nate Silver, ganhou popularidade ao acertar o resultado da eleição presidencial de 2008.

No Brasil há duas fontes principais na área de combinação de pesquisas eleitorais. Os sites <www.jota.info> e <www.pollingdata.com> publicam combinações de pesquisas eleitorais divulgadas na mídia, utilizando modelos de regressão bayesianos. O intuito dos autores é o de combinar as pesquisas eleitorais divulgadas, extraindo informações de cada uma delas, obtendo assim estimativas mais precisas do cenário eleitoral.

A revisão bibliográfica e nossa motivação está descrita no Capítulo 2. Descrevemos os modelos estudados neste trabalho no Capítulo 3. O Capítulo 4 trata da coleta dos dados e dos resultados obtibos. As considerações finais são feitas no Capítulo 5.

(14)

13

2 Revisão Bibliográfica

A combinação de pesquisas, bem como a combinação de modelos de previsão, parte do princípio de que toda pesquisa pode conter erro e de que não há um único modelo estatístico para descrever um fenômeno, com cada modelo captando apenas um conjunto de informações dos dados. Sendo assim, ao combinar diferentes pesquisas e diferentes modelos, podemos obter previsões mais robustas, com menor erro e que são melhores aproximações para os fenômenos modelados.

Com as pesquisas eleitorais não é diferente. Como o Brasil é um país grande e há enormes dificuldades para a obtenção de um cadastro, os institutos de pesquisa precisam recorrer a métodos de amostragem não-probabilisticos, não podendo assim garantir que a margem de erro e o intervalo de confiança estabelecido estão sendo respeitados.

Há também o fato de que no Brasil poucas pesquisas eleitorais são divulgadas, sendo também pequeno o número de institutos que as divulgam. Pensando em todos estes fatos, este trabalho propões a combinação das pesquisas de intenção de voto para o primeiro turno da eleição presidencial de 2014 no Brasil, utilizando técnicas de Machine

Learning para tal, com o fim de reduzir o erro e obter melhores estimativas da intenção de

voto.

Neste capítulo são apresentados os príncipais resultados de artigos que embasam o uso da combinação de pesquisas e de modelos de previsão. Blumenthal (2014) conta a história do uso da combinação de pesquisas eleitorais nos Estados Unidos da América e Armstrong (2001) fez uma revisão da literatura em busca de evidências para o uso da combinação de previsões. Falamos também de outras iniciativas brasileiras para a combinação de pesquisas eleitorais.

No trabalho de Blumenthal (2014) foi estudada a história dos agregadores de pesquisa e a sua aceitação pela opinião pública. Blumenthal conta que as combinações de pesquisas tiveram sua primeira aparição na mídia no ano de 1992, quando o jornal The

Economist publicou a combinação das pesquisas para presidente encomendadas por outras

redes de notícias. A combinação foi feita por meio da média das proporções estimadas nas pesquisas.

Blumenthal também conta que no mesmo ano, Willian Schneider, analista político sênior da CNN, levou para a rede o conceito das combinações de pesquisas. Schneider, após anunciar o resultado da pesquisa encomendada pela rede CNN junto com o jornal USA

Today, disse que também havia feito a combinação dos resultados divulgados por outras

redes de notícias. A justificativa dada por ele foi a de que todos os tipos de pesquisa estão sujeitas a erro. Schneider usou a média entre as proporções estimadas. As combinações

(15)

Capítulo 2. Revisão Bibliográfica 14

feitas por Schneider continuaram a ser feitas na eleição seguinte, no ano de 1996.

Com a popularização do conceito de combinação de pesquisas eleitorais na mídia, Blumenthal cita que o site <www.realclearpolitics.com> estendeu o uso do método. Além da combinação de pesquisas eleitorais para a disputa presidencial, os proprietários do site também passaram a divulgar a combinação de pesquisas para a disputa pelo governo em 21 estados. Porém também utilizando dados coletados de forma primária, através de um sistema de chamada automática denominado de Interactive Voice Response (IVR).

Se beneficiando do avanço da internet e da demanda por combinações de pesquisas feitas com técnicas mais sofisticadas, Nate Silver criou o site <www.fivethirtyeight.com> em 2008. Blumenthal (2014) conta que Silver utilizou modelos probabilísticos, mais especificamente modelos de regressão, para combinar pesquisas eleitorais para presidente e governador, além de pesquisas de aprovação do presidente americano. O site de Silver ganhou notoriedade ao prever corretamente o resultado da eleição presidencial de 2008.

Atribuindo o aumento da popularidade das combinações de pesquisa nos Estados Unidos ao aumento no número de pesquisas eleitorais no âmbito estadual, Blumenthal (2014) citou que na eleição de 2000 apenas 49 pesquisas eleitorais no âmbito estadual tinham sido divulgadas durante toda a corrida presidencial. Já em 2012, o número aumentou para 1240. Ele atribui este aumento à disseminação do uso do IVR e também das pesquisas

online.

No trabalho de Armstrong (2001) foi feita uma revisão da literatura em busca de evidências para justificar o uso da combinação de previsões. Aqui citarei as principais descobertas feitas por Armostrong (2001).

Armstrong (2001) encontrou evidências na literatura estudada que a previsão combinada é quase sempre melhor do que cada um dos componentes utilizados para a combinação. Ele considera que o uso da combinação de previsões se torna ideal quando há incerteza sobre qual método é o mais efetivo e quando há um alto custo para o erro na previsão.

Armstrong (2001) recomenda que ao combinar diferentes previsões sejam utilizados diferentes tipos de modelos matemáticos, difentes fontes de dados ou até mesmo diferentes modelos ajustados utilizando diferentes conjuntos de dados. Armstrong (2001) cita que quanto mais os modelos utilizados para fazer a previsão, assim como os dados utilizados, diferirem entre si, melhor será o resultado da combinação final. É também recomendável buscar previsões feitas por outros pesquisadores, apesar que ele pondera pelo fato de nem sempre ser possível conhecer o método utilizado para fazer a previsão.

É recomendado utilizar ao menos cinco previsões quando possível. Armstrong (2001) encontrou evidências na literatura de que a redução no erro ocorre de forma exponencial, sendo que geralmente a partir da adição da sexta previsão à combinação, há reduções

(16)

Capítulo 2. Revisão Bibliográfica 15

pouco significativas no erro na maior parte da literatura estudada. Ele também encontrou evidências de que quando um dos componentes da previsão é uma combinação de previsões, também há redução no erro final.

Armstrong (2001) alerta que a combinação de previsões deve ser feita de forma automatizada. Se os pesos para a combinação são escolhidas de forma arbitrária, o pesqui-sador tem a possibilidade de incorrer em erros ao introduzir o seu vies ao método. Sendo assim, o pesquisador está mais protegido contra o viés ao escolher formas automatizadas de atribuição de pesos frente às arbitrárias.

Por fim, Armstrong (2001) alerta para que seja utilizado pesos iguais quando há incertezas sobre qual método é o mais eficiente. Porém, há evidências na literatura estudada por Armstrong (2001) de que se o pesquisador possui conhecimento sobre quais são as previsões mais eficientes e as menos eficientes, a atribuição de pesos diferentes para a combinação traz reduções mais significativas no erro da previsão final.

No Brasil há poucas iniciativas para a combinação de pesquisas eleitorais. Este fato pode estar ligado ao baixo número de pesquisas eleitorais divulgados. Entre as principais iniciativas brasileiras estão os sites <www.jota.info> e <www.pollingdata.com>. Ambos combinam as pesquisas divulgadas pelos princípais intitutos de pesquisas no Brasil, a fim de melhorar as estimativas de intenção de voto do eleitorado brasileiro.

O <www.jota.info> começou a divulgar combinação de pesquisas eleitorais para a eleição presidencial de 2018. Para este fim, os proprietarios do site desenvolveram um modelo de regressão bayesiano, dando a justificativa que o modelo bayesiano utiliza informações anteriores para aprender através dos dados e reduzir o grau de incerteza associado. Os proprietários do site também usam como justificativa para a utilização do modelo o fato da inferência bayesiana permitir que o modelo seja mais explicito quanto aos pressupostos assumidos.

O site <pollingdata.com> também utiliza um modelo bayesiano com o fim de combinar resultados e melhorar assim as estimativas obtidas. Criado em 2014, o autor publica resultados de combinações para eleições de presidente, governador, senador e prefeito no Brasil e também para outros cargos políticos pelo mundo. Além disso, são publicadas estatísticas relacionadas com futebol e combinação de pesquisas de avaliação do governo.

(17)

16

3 Metodologia

Neste capítulo descrevemos os modelos utilizados neste trabalho. Na seção 3.1 descrevemos a Regressão Local. Na seção 3.2 descrevemos o Random Forest. Na seção 3.3 descrevemos o Support Vector Machine. E por fim, a Validação Cruzada é descrita na seção 3.4.

3.1 Regressão Local

A Regressão Local (LOESS-locally weighted scatterplot smoothing) é uma técnica estatística não paramétrica utilizada para encontrar uma curva que suavize uma sequência de pontos (xi, yi), i = 1, · · · , n. A ideia principal do método consiste em ajustar um

polinômio localmente, fazendo com que os pontos mais próximos tenham maior influência que os demais.

O modelo de regressão local pode ser escrito, de acordo com (LOADER, 2006), como

Yi = µ (xi) + εi,

em que µ (x) é uma função desconhecida e ε representa um erro aleatório independende e identicamente distribuído com E (εi) = 0 e variância σ2 < ∞.

A função µ (x) pode ser aproximada pelo polinômio geral,

µ(x) = u(x,xi) = p X k=0 ak (xk− x)k k! ,

em que cada ai necessita ser estimado. Para isto será utilizado o estimador de mínimos

quadrados dado por

     a0 .. . ap      = (XTW X)−1XTW Y,

em que X é a matriz de planejamento de experimentos, ou observacional, dada por

X =      1 · · · (x0−x)n n! 1 . .. ... 1 · · · (xn−x)n n!     

(18)

Capítulo 3. Metodologia 17

e W uma matriz diagonal de pesos

W =      w(x0−x h ) · · · 0 .. . . .. ... 0 · · · w(xn−x h )      , em que w(xn−x

h ) representa a função de pesos com h sendo o número de pontos na

vizinhança de x que serão utilizados na suavização. Neste trabalho foi adotada a função cúbica, dada por

W (u) = (1 − |u|3)3.

Loader (2006) cita que quanto maior for o polinômio utilizado para aproximar

µ(xi), melhor será a aproximação. Porém Loader (2006) também cita que um polinômio de

maior grau também exigirá a estimação de um número maior de parâmetros, aumentando assim a variância. O polinômio do segundo grau foi o adotado neste trabalho por ser o maior suportado pelo software R. Ele é dado por

u(x,xi) = a0+ a1(xi− x) +

1

2a2(xi− x)

2

.

O valor de h será encontrado através de validação cruzada.

3.2 Random Forest

O Random Forest é uma técnica de Machine Learning derivada das Árvores de Classificação e Regressão (CART). O Random Forest é uma coleção de Árvores de Predição

h(X; θk), k = 1, · · · , n em que X representa o vetor de covariáveis de tamanho p e θ são

vetores independendes e identicamente distribuidos (SEGAL, 2004).

Por ser derivado do CART, o Random Forest também possui aplicações em proble-mas de regressão e classificação. No caso da regressão, o algoritmo utiliza como predição a média entre os valores preditos em cada árvore, dada por

h(x) = 1 k k X i=1 h(x; θk).

Para o caso da classificação, o algoritmo realiza um sistema de votação entre as árvores. A classe que recebe o maior número de votos se torna o valor predito pelo modelo. Em cada iteração do Random Forest, uma amostra bootstrap é selecionada. O algoritmo então determina um número de variáveis F para ser utilizado na divisão de cada nó. O algoritmo constrói k árvores de regressão selecionando aleatoriamente F variáveis para serem utilizadas na divisão de cada nó das árvores. O Random Forest construído desta forma é chamado de Forest-RI (HAN; PEI; KAMBER, 2011).

(19)

Já uma outra forma de Random Forest, chamado de Forest-RC, utiliza combinações lineares das variáveis. O algoritmo determina L, o número de variáveis utilizadas para formar a combinação linear. Os coeficientes da combinação são escolhidos de acordo com ocorrências de uma variável aleatória uniforme contínua em [-1, 1]. Para cada nó, F combinações são escolhidas (HAN; PEI; KAMBER, 2011).

3.3 Support Vector Machine

O Support Vector Machine (SVM) é uma técnica não-paramétrica de Machine

Learning. Suas aplicações variam entre problemas de classificação e problemas de regressão.

No caso da regressão, é dado o nome de Support Vector Regression (SVR). O princípio do SVR é o mesmo do SVM, com um ajuste apenas pelo fato da variável resposta ser um número real. No caso do SVR, uma função de perda é definida.

Huang, Kecman e Kopriva (2006) definem a função de perda -insensível, dada por

E(x,y,f ) = max(0, |y − f (x,w)| − ),

em que é o erro tolerado estabelecido.

Então para a regressão linear com a função de perda -insensível Huang, Kecman e Kopriva (2006) definem o hiperplano como

f (x,w) = wTx + b,

em que b é o viés calculado como a média dos vetores suporte. A função é obtida minimizando a expressão

Rw,ξ,ξ∗ = 1 2||w|| 2 + C n X i=1 ξi+ X i=1 nξ_i∗ ! , com as restrições            yi− wTxi− b 6 + ξi wTxi+ b − yi 6 + ξi∗ ξi > 0, ξi∗ > 0, i = 1, · · · , n, (3.1)

em que ξ = |y − f (x,w)| − , ξ∗ = |y − f (x,w)| − e a constante C é o quanto de erro maior que será tolerado. Neste trabalho, o valor de C foi encontrado por validação cruzada.

(20)

Nos casos em que não há uma relação linear entre as variáveis, a adição de uma função Kernel se faz necessário. A função kernel aplica uma transformação nas variáveis independentes, levando-as para um espaço de maior dimensão (Rk → Rs_{, s > k). Então, o}

mesmo problema da regressão linear no SVR é aplicado. Então a função alvo fica da forma

f (x,w) = wTK(xi, xj) + b,

sendo K(xi, xj) a função kernel. A função é minimizada da mesma forma mostrada em

(3.1). As funções kernel utilizadas neste trabalho são mostradas na Tabela 3.1. Tabela 3.1 – Funções kernel para o SVM

Kernel Fórmula Linear xT i xj Polinomial [γ(xT i xj) + c]d Radial exp(-γ||xi− xj||2)

Note que xi e xj são vetores de Rk, em que k ∈ N e γ, c e d são escalares.

3.4 Validação Cruzada

Um erro comum ao estimar um modelo estatístico com intuito de fazer previsão é o de estimar o modelo e testá-lo com o mesmo conjunto de dados. Este procedimento pode levar ao chamado overfitting, ou seja, um modelo é uma boa representação dos dados utilizados para sua estimação, mas pode ser um modelo ruim para a previsão de uma nova observação.

Figura 3.1 – Visualização do funcionamento da validação cruzada k-fold.

Fonte: Moura (2018).

A técnica de validação cruzada se apresenta como uma solução para este problema. O procedimento consiste na separação do conjunto de dados em um cojunto de treinamento, no qual o modelo será estimado, e em um conjunto de validação, em que o modelo terá a sua performance mensurada.

(21)

O procedimento chamado de k-fold retira k subamostras aleatoriamente dos dados. Então cada subamostra é utilizada como o conjunto de validação uma vez, enquanto as

k − 1 restantes são utilizadas como o conjunto de treinamento. Por fim é calculada a média

dos erros das k iterações. Na Figura 3.1 é mostrado a representação do funcionamento da validação cruzada k-fold.

Para fazer a validação cruzada k -fold, neste trabalho será utilizado o pacote caret (WING et al., 2018) na linguagem R (R Core Team, 2018). O caret foi implementado com o intuito de eliminar diferenças sintáticas entre os diferentes algoritmos de Machine

Learning na linguagem, padronizando assim o uso dos mesmos e também para ser utilizado

junto com o livro de Kuhn e Johnson (2013). Além disso, o pacote facilita a utilização de técnicas de reamostragem, cálculo da importância das variáveis e pré-processamento dos dados.

(22)

21

4 Aplicação

4.1 Coleta dos dados

Os dados utilizados neste trabalho foram coletados no site <www.pollingdata.com. br>. O proprietário do site coletou 51 pesquisas para as intenções de voto no primeiro turno da eleição presidencial de 2014, divulgadas no período de 15 de fevereiro a 05 de outubro, nos jornais eletrônicos das principais redes de notícias brasileiras.

Foram coletadas pesquisas dos institutos Datafolha, Ibope, MDA, Sensus e Vox Populi. Foram ouvidas de 2000 a 18116 pessoas, dependendo da pesquisa, além de uma pesquisa boca de urna feita pelo instituto Ibope, que entrevistou 64200 pessoas.

Devido ao grande número de candidatos, apenas as estimativas para os três primeiros colocados são apresentadas de forma separada. Os candidatos Luciana Genro, Pastor Everaldo, Eduardo Jorge, Levy Fidelix, Zé Maria, Eymael, Mauro Iasi e Rui Costa Pimenta tiveram as suas estimativas de intenção de voto agrupadas na categoria Outros. Como a candidata Marina Silva assumiu a chapa pelo Partido Socialista Brasileiro-(PSB) após o acidente com o candidato Eduardo Campos, as intenções de voto de ambos foi unificada neste trabalho.

Um modelo foi feito para cada candidato utilizando 46 pesquisas eleitorais e as 5 últimas pesquisas foram estimadas pelo modelo, sendo utilizado o RMSE (Root Mean

Square Error ) como métrica para avaliar o desempenho obtido, o RMSE é dado por

RM SE = v u u t 1 n n X j=1 (yi− ˆyi)2,

em que yi é o valor observado e ˆyi é o valor predito pelo modelo estimado.

4.2 Combinação de Modelos

A Figura 4.1 mostra o resultado da combinação de pesquisas eleitorais utilizando a regressão local. Os modelos conseguiram captar bem a intenção de voto dos eleitores, apresentando assim bons resultados para a combinação. Como pode ser visto na Tabela 4.1, a regressão local apresentou o menor RMSE entre os modelos para a candidata Dilma Rouseff e Não sabe/Não respondeu, apresentando diferenças muito pequenas no RMSE para os demais candidatos.

A Figura 4.2 mostra os resultados para a combinação de pesquisas eleitorais utilizando o Random Forest. Como pode ser visto na figura, as curvas para a intenção de

(23)

Capítulo 4. Aplicação 22

Figura 4.1 – Resultado da combinação de modelos utilizando Loess.

Figura 4.2 – Resultado da combinação de modelos utilizando Random Forest.

votos apresentam diversas quebras de continuidade ao longo do tempo, muito provavelmente causado por overfitting dos modelos. Como pode ser visto na Tabela 4.1, os modelos ajustados utilizando o Random Forest só obtiveram o menor RMSE para as categorias Outros e Brancos/Nulo/Nenhum. Entre os demais, só não obteve desempenho pior do que os modelos ajustados com o SVM linear.

A Figura 4.3 mostra o resultado da combinação de pesquisas eleitorais utilizando o SVM com kernel linear. Os modelos com kernel linear não se mostraram como um bom método para a combinação de pesquisas eleitorais deste trabalho, dado que a tendência das intenções de votos não segue uma relação linear com o tempo. Como também é mostrado

(24)

Figura 4.3 – Resultado da combinação de modelos utilizando SVM Linear.

na Tabela 4.1, o SVM com kernel linear apresenta o pior RMSE para os modelos com as intenções de voto para a Dilma, Aécio e Marina. Portanto, o SVM com kernel linear é o pior modelo para os dados utilizados neste trabalho.

Tabela 4.1 – RMSE dos modelos para as 5 últimas pesquisas publicadas.

Modelo Dilma Aécio Marina Outros

Brancos Nulo Nenhum Não sabe Não respondeu Loess 0,0076 0,0377 0,0305 0,0050 0,0176 0,0041 Random Forest 0,0096 0,0433 0,0335 0,0048 0,0111 0,0056 Svm linear 0,0373 0,0614 0,0627 0,0063 0,0087 0,0119 Svm radial 0,0077 0,0333 0,0169 0,0053 0,0185 0,0116 Svm polinomial 0,0089 0,0147 0,0086 0,0070 0,0299 0,0111

A Figura 4.4 apresenta o resultado da combinação de pesquisas eleitorais utilizando o SVM com kernel radial. Por ser capaz de modelar relações não-lineares, os modelos ajustados utilizando o kernel radial apresentam desempenho superior aos com kernel linear. Como mostrado na Tabela 4.1, o SVM com kernel radial não chegou a obter o menor RMSE para qualquer das categorias, porém obteve resultados mais equilibrados comparados aos outros métodos.

A Figura4.5 mostra o resultado da combinação de pesquisas eleitorais utilizando o SVM com kernel polinomial. Assim como o SVM com kernel radial, o SVM com kernel polinomial também é capaz de modelar relações não-lineares e por isto também apresentou bons resultados. Como mostrado na Tabela 4.1, o SVM com kernel polinomial obteve o menor RMSE com os modelos para os candidatos Aécio e Marina.

(25)

Figura 4.4 – Resultado da combinação de modelos utilizando o SVM Radial.

(26)

25

5 Considerações Finais

Este trabalho teve por objetivo aplicar técnicas de Machine Learning para combinar pesquisas eleitorais, obetendo assim estimativas de intenção de voto com menor erro. Foi aplicado a Regressão Local, Random Forest e Support Vector Machine para combinar as pesquisas de intenção de voto para o primeiro turno da eleição presidencial de 2014 no Brasil.

A Regressão Local foi uma boa aproximação para a têndencia de intenção de votos, obtendo o menor RMSE para a candidata Dilma e para a categoria Não Sabe/ Não Respondeu. O Random Forest apresentou diversas quebras de continuidade nas curvas ajustadas, muito provavelmente causadas por overfitting dos modelos. Apesar de ter obtido o menor RMSE para a categoria Outros, entre os demais só não obteve desempenho pior do que os modelos ajustados com o SVM com kernel linear.

O SVM com kernel linear apresentou o pior desempenho em quase todos os cenários, obtendo o menor RMSE apenas para o modelo da categoria Brancos/Nulo/Nenhum. Isto já era esperado, visto que a intenção de votos não segue uma relação linear com o tempo. O SVM com kernel radial não apresentou o menor RMSE para quaisquer dos modelos ajustados, porém foi a técnica com o desempenho mais equilibrado. O SVM com kernel polinomial obteve o melhor desempenho para os candidatos Aécio e Marina.

Exceto os modelos ajustados com o Random Forest e SVM com kernel linear, todos os demais modelos obtiveram bons resultados para o que se foi proposto. O modelo ajustado utilizando o SVM com kernel polinomial foi o que mais se destacou, modelando com menor erro as intenções de voto para os candidatos Aécio e Marina, no qual foram os de maior dificuldade para o processo de modelagem. Foi também o único modelo a acertar a ida do candidato Aécio para o segundo turno das eleições presidenciais. Portanto, o SVM kernel polinomial é o modelo mais recomendado para a combinação de pesquisas eleitorais entre as técnicas testadas.

Como sugestões para trabalhos futuros fica a utilização de pesquisas eleitorais em âmbito estadual na modelagem, bem como a utilização de covariáveis nos modelos. Outra sugestão é a utilização de outras funções kernel no SVM ou até mesmo o uso de outras técnicas de Machine Learning, como o Stochastic Gradient Boost ou o XGBoost.

(27)

26

Referências

ARMSTRONG, J. S. Combining forecasts. In: ARMSTRONG, J. S. (Ed.). Principles

of Forecasting: A Handbook for Researchers and Practitioners. New York, NY: Kluwer

Academic Publishers, 2001. p. 417–440.

BLUMENTHAL, M. Polls, forecasts, and aggregators. PS: Political Science & Politics, Cambridge University Press, v. 47, n. 2, p. 297–300, 2014.

HAN, J.; PEI, J.; KAMBER, M. Data mining: concepts and techniques. [S.l.]: Elsevier, 2011.

HUANG, T.-M.; KECMAN, V.; KOPRIVA, I. Kernel based algorithms for mining huge

data sets. [S.l.]: Springer, 2006. v. 1.

KUHN, M.; JOHNSON, K. Applied predictive modeling. [S.l.]: Springer, 2013. v. 26. LOADER, C. Local regression and likelihood. [S.l.]: Springer Science & Business Media, 2006.

MOURA, I. S. de. Combinação de modelos de previsão climática. 53 f. Monografia (Graduação) — Departamento de Estatística da Universidade Federal do Rio Grande do

Norte, Natal, 2018.

R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2018.

SEGAL, M. R. Machine learning benchmarks and random forest regression. Kluwer

Academic Publishers, Center for Bioinformatics & Molecular Biostatistics, University of

California, California, CA, p. 1 – 14, 2004.

WING, M. K. C. from J. et al. caret: Classification and Regression Training. [S.l.], 2018. R package version 6.0-80.