• Nenhum resultado encontrado

Existem diversas ferramentas disponíveis para a solução de questões estatísticas e aplicação de modelos de regressão. Entretanto, por ser relativamente simples e poderosa ao mesmo tempo, foi escolhida para este trabalho a linguagem de programação R junto à ferramenta gratuita RStudio. Todos os testes que precisaram ser feitos, e os modelos que foram construídos em cima desta linguagem são facilmente implementados por meio de scripts e pacotes públicos.

Este trabalho se concentrará na adaptação do modelo SARIMA criado por Adami e Ozaki (2012) e no uso das variáveis macroeconômicas sugeridas pelo estudo de regressão linear construído pela CNseg (2016). Além disso, serão feitos testes com modelos de redes neurais e SVM, com o intuito de comparar com os modelos dos estudos acadêmicos e determinar se é vantajoso aplicá-los em futuros estudos do mercado segurador.

Os dados relacionados aos valores de prêmios de seguro foram fornecidos pelo sistema SES da SUSEP. O início da série histórica é de Janeiro de 1995, atualizada mensalmente com novas observações conforme as empresas enviam suas informações contábeis e operacionais para o orgão regulador. Tais informações se encontram abertas por ramo de negócio, grupo de negócio, empresa e data. Por meio do uso de um script em R, foram extraídas da base SES as informações referentes aos prêmios de seguro direto rural, somando os valores de acordo com mês e ano.

A partir dessas informações, foi possível de se fazer uma análise do comportamento dos prêmios de seguro rural:

Tabela 4.1 - Prêmios de Seguro Rural - 1995 a 2016 (em R$ milhões)

Ano Prêmios

Diretos Var % Ano

Prêmios Diretos Var % 1995 50,2 - 2006 328,7 22,0% 1996 33,9 -32,5% 2007 452,8 37,8% 1997 39,4 16,4% 2008 713,8 57,6% 1998 46,6 18,1% 2009 901,9 26,3% 1999 56,0 20,1% 2010 866,6 -3,9% 2000 78,6 40,4% 2011 1.041,2 20,1% 2001 81,6 3,8% 2012 1.249,1 20,0% 2002 105,5 29,3% 2013 1.984,7 58,9% 2003 192,1 82,1% 2014 2.458,2 23,9% 2004 279,8 45,7% 2015 2.633,0 7,1% 2005 269,5 -3,7% 2016 2.966,2 12,7% Fonte: SUSEP

Como pode ser observado, com exceção dos anos de 1996, 2005 e 2010, os prêmios de seguro rural apresentaram uma tendência de crescimento. É também possível de se perceber um expressivo crescimento em 2003 (82,1%), ano de criação do programa de subvenção ao prêmio rural, como observado por Adami e Ozaki (2012, p. 64). A primeira década de observação atingiu um crescimento de 437% entre os anos de 1995 e 2005, enquanto foi registrado um aumento de 877% entre 2005 e 2015, duas vezes maior.

Outro fator importante de análise é a presença de valores atípicos (outliers) na série histórica, isto é, valores que são significantemente discrepantes em relação ao conjunto das observações. Sua detecção pode ser feita de algumas maneiras, entre elas é o uso do gráfico

boxplot, que “resume os dados para exibir a mediana, quartis e valores pontuais máximos e

mínimos.”. (NETO, SANTOS, et al., 2017, p. 1)

A análise dos outliers da base de prêmios de seguro revelou que, entre 1995 e 2016, há quinze valores discrepantes em relação ao resto da série histórica. Todos estes estavam concentrados a partir do ano de 2013, que, caso seja observada a tabela, revela ter sido um ano de grande crescimento para o mercado. Caso a análise de outliers se restrinja ao período entre os anos de 2006 e 2016, a quantidade de dados atípicos pode ser reduzida para apenas três observações, entre os meses de julho a setembro de 2015, demonstrado pelos gráficos abaixo:

Gráfico 4.1 - Outliers entre 1995 a 2016

Além da necessidade de analisar os dados discrepantes, é importante de se verificar a estacionariedade da série. Por meio de um teste Dickey-Fuller aumentado, foi indicado que deve-se aceitar a hipótese nula com um intervalo de confiança de 95%, o que significa que a série não é estacionária. Deve-se então diferenciar a série para que seja possível de identificar sua versão estacionária, que pôde ser encontrada após apenas uma diferenciação.

Em relação à mineiração das variáveis macroeconômicas que foram utilizadas pelo estudo da CNseg, que serviu como base para os modelos de regressão com mais de uma variável neste trabalho, foi utilizado o pacote “BETS” para R. A partir do uso desta biblioteca, é possível de se extrair informações das séries históricas disponíveis no Banco Central do Brasil, Instituto Brasileiro de Geografia e Estatística (IBGE) e Fundação Getúlio Vargas (FGV).

As variáveis econômicas utilizadas pelo estudo da CNseg e identificadas como explicativas para as variações nos prêmios de seguro do ramo rural foram o Produto Interno Bruto (PIB), Índice de Preços ao Consumidor Amplo (IPCA), produção de alimentos e saldo do crédito rural. Enquanto as duas primeiras foram extraídas por meio do BETS, a produção de alimentos e o saldo do crédito agrícola foram retirados a partir do Levantamento Sistemático da Produção Agrícola (LSPA), do IBGE, e do portal de dados abertos do Banco Central do Brasil, respectivamente. (CNseg, 2016, p. 6)

É possível de se fazer uma extração desde o período inicial da série histórica dos prêmios para o PIB e o IPCA, porém a produção de alimentos só começou a ser registrada a partir de setembro de 2006, e o saldo do crédito rural em março de 2007. Para que todos os modelos estivessem com o mesmo tamanho de observações, e que nenhuma das variáveis fossem sacrificadas, os modelos de regressão serão construídos com base no início desta última série histórica. Sendo assim, as análises posteriores começarão em março de 2007 e terminarão em dezembro de 2016. Além disso, foi utilizada uma semente inicial, para garantir que todos os testes terão o mesmo valor independente da tentativa.

Ao utilizar a base iniciada no período de março de 2007, a quantidade de outliers diminui para dois, sendo estes os períodos de agosto e setembro de 2015. Da mesma forma, o teste de estacionariedade revela que a primeira diferença é suficiente para que rejeitemos a hipótese nula e, consequentemente, aceitarmos que a série é estacionária no intervalo de confiança de 95%.

A partir dessa transformação e dessas análises, foi rodado o modelo SARIMA com base no estudo de Adami e Ozaki (2012), De acordo com estes, o melhor modelo para o período estudado por eles foi o SARIMA (1,0,1) (0,1,0)12. Para tal, foram utilizados no R os pacotes

A recriação do modelo de regressão linear de acordo com as variáveis determinadas pela CNseg foi por meio do pacote “caret”, a partir da função “train” com o método “lm”. Foram utilizadas todas as variáveis, retornando um valor F para o modelo de 262,6. De acordo com a tabela ANOVA, para a quantidade de variáveis e de observações, é possível de rejeitar a hipótese nula de que o conjunto das variáveis não é significantemente estatístico dentro do intervalo de confiança de 95%.

O modelo de redes neurais foi construído com o uso dos pacotes “nnet” e “caret”, utilizando o método de validações cruzadas e uma quantidade máxima 4000 de iterações na construção da rede. A partir desta configuração, foi possível de se encontrar uma rede neural com nove camadas escondidas e cinquenta e nove pesos diferentes para ajustar as variáveis explicativas à explicada.

Em relação ao modelo de SVR, foi utilizado o pacote “e1071” e a função kernel de base radial. Para os parâmetros gamma, epsilon e custo do método, foram utilizadas funções de busca, fazendo com que várias possibilidades de modelo fossem testadas e, consequentemente, o sistema retornasse o melhor entre estes. Aquele que apresentou os melhores resultados para as observações utilizou quarenta e três vetores de suporte, com os valores de gamma, epsilon e de custo respectivamente 4,28, 0,0625 e 0,4.

Após cada modelo ter sido selecionado por meio dos critérios escolhidos, foi gerada uma tabela com as métricas de avaliação, que consiste dos valores do REQM, R² e R² ajustado. Desta forma, será possível de analisar e comparar os diferentes modelos para que seja escolhido aquele que seja mais eficiente na previsão dos prêmios de seguro do segmento rural.

Documentos relacionados