• Nenhum resultado encontrado

Victor Gustavo Falquer da Costa. Prêmios Diretos do Seguro Rural: uma comparação entre quatro métodos de previsão de séries temporais

N/A
N/A
Protected

Academic year: 2021

Share "Victor Gustavo Falquer da Costa. Prêmios Diretos do Seguro Rural: uma comparação entre quatro métodos de previsão de séries temporais"

Copied!
43
0
0

Texto

(1)

Victor Gustavo Falquer da Costa. Prêmios Diretos do Seguro Rural: uma comparação entre quatro métodos de previsão de séries temporais

Victor Gustavo Falquer da Costa

Prêmios Diretos do Seguro Rural: uma comparação

entre quatro métodos de previsão de séries

temporais

Monografia de Final de Curso

05/08/2018

Monografia apresentada ao Departamento de Engenharia Elétrica da PUC/Rio como parte dos requisitos para a obtenção do título de Especialização em Business Intelligence.

Orientadores: Professor Dr. Iury Steiner

(2)

Agradeço a todos os meus amigos, novos e antigos, e familiares, que sempre estiveram do meu lado mesmo nos momentos mais difíceis. Aproveito também agradecer aos meus colegas de trabalho no IRB Brasil RE, pelo companheirismo e pela compreensão, assim como por todo o apoio que recebi durante o período de aulas e a confecção deste trabalho. Por fim, agradeço a todos os professores da equipe do curso BI Master, especialmente ao professor Dr. Iury Steiner, pela paciência e por todo aprendizado que foi passado.

(3)

RESUMO

O mercado de seguros está presente na vida de quase todos os agentes econômicos, seja por contratação direta de prêmios ou por efeitos indiretos. Uma dessas manifestações é por meio do seguro rural, que protege as atividades agropecuárias e afins dos riscos envolvidos, consequentemente afetando todo o setor de agronegócios. Por causa do impacto desta área na economia brasileira, é de interesse para as empresas e órgãos participantes do mercado segurador fazer previsões do comportamento deste negócio. Neste escopo, este trabalho tem como intuito demonstrar a possibilidade de utilizar métodos de previsão de séries temporais, tanto por métodos clássicos como ARIMA e Regressão Linear, quanto por modelos de aprendizado de máquina mais recentes como Redes Neurais e Artificiais e Support Vector

Machines. Estes modelos foram construídos por meio da linguagem de programação R para

prever os prêmios de seguro diretos do segmento rural para o ano de 2017, comparando os resultados dos métodos com os valores reais do período.

ABSTRACT

The insurance market is part of almost every economic agent’s life, either by direct premium issuing or by indirect effects. One of these manifestations happens through the rural line of business, which covers agriculture, livestock and related activities from their risks, therefore affecting the whole agribusiness. Because of this area’s impact over Brazil’s economy, it is in the best interest of the insurance market’s companies and organs to predict this field’s behavior. With all this considered, this paper has the objective of demonstrating the possibility of using time series prediction methods such as classic ARIMA and linear regression, and also more recent machine learning methods, like Artificial Neural Networks and Support Vector Machines. These models were built with R programming language to predict agriculture’s line of business direct issued premiums for the year of 2017, comparing the methods’ results with the real values for the period.

(4)

Sumário

1. INTRODUÇÃO ... 7 1.1. MOTIVAÇÃO ... 7 1.2. OBJETIVOS DO TRABALHO ... 9 1.3. DESCRIÇÃO DO TRABALHO ... 9 1.4. ORGANIZAÇÃO DA MONOGRAFIA ...10 2. DESCRIÇÃO DO PROBLEMA ... 11 3. METODOLOGIAS – 15/07 ... 19

3.1. DEFINIÇÕES BÁSICAS SOBRE SÉRIES HISTÓRICAS ...19

3.1.1. PROCESSOS ESTOCÁSTICOS ...19

3.2. MODELOS DE REGRESSÃO E PREVISÃO DE SÉRIES TEMPORAIS ...21

3.2.1. REGRESSÃO LINEAR ...21

3.2.2. MODELOS ARIMA ...23

3.2.3. REDES NEURAIS ARTIFICIAIS...25

3.2.4. SUPPORT VECTOR MACHINES (SVM) ...26

3.3. MÉTRICAS DE AVALIAÇÃO ...28

3.3.1. TESTES DE HIPÓTESE ...28

3.3.2. TESTE F ...30

3.3.3. CRITÉRIOS DE VERIFICAÇÃO DE AJUSTE ENTRE MODELOS ...31

4. ARQUITETURA DO SISTEMA PROPOSTO ... 33

5. RESULTADOS – ATÉ 22/07 ... 37

6. CONCLUSÕES E TRABALHOS FUTUROS ... 40

(5)

SIGLAS

ANN ... Redes Neurais Artificiais ARIMA ... Modelo Autoregressivo Integrado de Média Móvel ARMA ... Modelo Autoregressivo de Média Móvel CEPEA ... Centro de Estudos Avançados em Economia Aplicada CNSA ... Companhia Nacional de Seguro Agrícola CNSeg ... Confederação Nacional das Empresas de Seguros Gerais, Previdência Privada, Saúde Complementar e Capitalização CPR ... Cédula de Produto Rural EQM ... Erro Quadrático Médio FESA ... Fundo de Estabilidade do Seguro Agrário FESR ... Fundo de Estabilidade do Seguro Rural FGV ... Fundação Getúlio Vargas IBGE ... Instituto Brasileiro de Geografia e Estatística IPCA ... Índice de Preços ao Consumidor Amplo IRB ... Instituto de Resseguros Brasileiro MAPA ... Ministério da Agricultura, Pecuária e Abastecimento MDA ... Ministério do Desenvolvimento Agrário MQO ... Mínimos Quadrados Ordinários MSE ... Mean Squared Error MV ... Máxima Verosimilhança PIB ... Produto Interno Bruto PROAGRO ... Programa de Garantia de Atividade Agropecuária PSR ... Programa de Subvenção ao Prêmio do Segurador Rural REQM ... Erro Quadrático Médio RMSE ... Root Mean Squared Error SARIMA ... Modelo Autoregressivo Integrado de Média Móvel Sazonal SNSP ... Sistema Nacional de Seguros Privados SUSEP ... Superintendência de Seguros Privados SVM ... Máquina de Vetores de Suporte

(6)

ÍNDICE DE GRÁFICOS

Gráfico 3.1 – Gráfico ilustrativo de um problema de classificação binária linearmente separável

no espaço original ... 25

Gráfico 4.1 – Outliers entre 1995 e 2016 ... 32

Gráfico 4.2 – Outliers entre 2006 e 2016 ... 32

Gráfico 5.1 – Valor real e previsões para o ano de 2017 por modelo (em R$ milhões) ... 36

ÍNDICE DE TABELAS

Tabela 2.1 - Tipos de riscos presentes na atividade agropecuária a partir dos agentes envolvidos ... 12

Tabela 2.2 – Percentuais de subvenção e limites financeiros adotados em 2016 ... 15

Tabela 4.1 – Prêmios Diretos de Seguro Rural – 1995 a 2016 (em R$ milhões) ... 31

Tabela 5.1 – Métricas de Avaliação por modelo na etapa de treino ... 35

Tabela 5.2 – REQM das projeções por modelo ... 35

ÍNDICE DE FIGURAS

Figura 3.1 – Representação de uma rede neural artificial ... 23

(7)

1. INTRODUÇÃO

1.1. MOTIVAÇÃO

O mundo é repleto de incertezas, que são impossíveis de serem calculadas, e de riscos, que por sua vez podem ser mapeados por meio probabilidades estatísticas. Mesmo com todo o ferramental que já foi desenvolvido, é praticamente impossível de se prever com totalidade o que sucederá os momentos seguintes a uma decisão. Diante de um leque quase infinito de possibilidades, o investimento nos diversos setores econômicos pode variar bastante conforme a constante aversão dos agentes de se exporem a cenários adversos. Neste panorama complexo de escolhas e eventos aleatórios, surge como grande player um mercado capaz de aumentar a confiança: o mercado segurador.

O funcionamento deste mercado depende completamente de situações futuras e probabilísticas, e não se restringe apenas à segurança dos produtores, seja qual for o setor. Os seguros também se estendem para os consumidores, seja em relação a algum produto ou às suas próprias vidas.

Dessa forma, é um mercado que está presente em quase todas as relações entre os agentes econômicos, ainda que sua importância muitas vezes não seja percebida pela sociedade até a ocorrência de um sinistro. Não só neste sentido, o seguro também é importante para auxiliar o Estado ao reduzir suas preocupações com as situações de risco. (HOPPE, 2012, p. 1)

Com a existência do mercado segurador servindo como uma teia de proteção para a sociedade, tornando-a capaz de funcionar de maneira mais estável. Hoppe menciona em seu texto que, por causa dele, as pessoas podem investir em outros projetos sem precisarem manter uma reserva tão grande para se precaverem de eventos indesejados, fazendo com que a economia gire mais rapidamente e com menos gargalos. (HOPPE, 2012, p.2)

A presença e importância deste mercado pode ser percebida com mais clareza ao se observar o grande leque de modalidades de seguros. Em geral, os segmentos podem ser divididos em riscos de vida e não-vida, englobando diferentes sub-ramos. Enquanto o primeiro abarca riscos como vida em grupo e vida individual, o segundo, também conhecido como ramos elementares, tem um escopo maior, entre eles riscos de propriedade, habitacionais e agropecuários.

No Brasil o setor de seguros também tem grande importância, e demonstrou grande resiliência ao apresentar crescimento diante do cenário de crise econômica nos anos de 2015 e 2016, quando a economia fechou em forte recessão. Apesar de ter seu ritmo de crescimento

(8)

reduzido em relação a 2015 contra 2014, por causa da desaceleração ou queda real de algumas das suas modalidades, o mercado cresceu 10,5%. (CNseg, 2016, p. 28)

Entre os diversos segmentos de seguro, um dos que mais se destaca é o ramo agropecuário. Esta modalidade cresceu 11,3% entre 2016 e 2015, sendo a mais representativa dos ramos elementares após as coberturas de patrimônios e automóveis. Apesar de não ser a mais expressiva, é o que mais cresceu entre 2012 e 2016, apresentando 147% de variação, bem acima dos outros ramos. (CNseg, 2016, p. 49)

Tal crescimento é surpreendente dadas as condições adversas sob as quais a agropecuária opera. Segundo Ramos, seus riscos de produção são maiores do que os das demais atividades econômicas, pois não dependem apenas da alocação eficiente de recursos e do comportamento do mercado, mas também “das condições climáticas e suas imprevisíveis oscilações”, e de uma infraestrutura capaz de garantir que a produção poderá encontrar a sua demanda. (RAMOS, 2009, p.1)

Não obstante, apesar da participação da agropecuária no Produto Interno Bruto (PIB) de acordo com o IBGE ser de apenas 5% ao longo dos últimos 20 anos, o agronegócio, que depende diretamente da produção rural, representava em 2015 cerca de 21% do PIB e 46% das exportações brasileiras. De acordo com a CEPEA, mesma fonte de pesquisa utilizada por Buainain e Silveira (2017), em 2016 este percentual subiu para 22,8%. A importância do agronegócio pode ser também vista no mercado de trabalho: cerca de um terço dos empregados faz parte desta atividade econômica. (BUAINAIN e SILVEIRA, 2017, p. 13-21)

Dada a importância do agronegócio e do mercado segurador para a economia brasileira, as empresas que prestam este tipo de serviço precisam criar soluções para que seus planos de ação sejam eficazes, especialmente por fazerem parte de um mercado global competitivo. Não somente isto, com a existência das diversas modalidades de seguro, a limitação existente do tempo e do capital a ser investido leva as empresas a buscarem planejamentos cada vez mais minuciosos e precisos.

Sendo assim, surge para as empresas a questão de qual seria a melhor forma de planejar a estratégia operacional. Um dos métodos é a partir de modelos estatísticos, consolidado por meio de estudos feitos por órgãos oficiais, como a CNseg e artigos acadêmicos. Diante do crescimento da importância da área de ciência de dados, o uso de modelos cada vez mais avançados de previsão representa uma possibilidade preciosa para aumentar a eficiência de tais métodos.

Com base em estudos passados, tanto das próprias empresas pertencentes ao mercado de seguros, quanto na área de ciência de dados e estatística, torna-se interessante fazer uma

(9)

comparação entre alguns dos modelos existentes. Dessa forma, a motivação por trás deste trabalho é a de trazer para o debate de planejamento estratégico a utilização de ferramentas de aprendizado de máquina e discutir suas possíveis vantagens.

1.2. OBJETIVOS DO TRABALHO

• Utilizar os estudos feitos pela CNseg e outros artigos acadêmicos como embasamento teórico para a previsão de séries temporais;

• Comparar a eficiência de quatro sistemas de previsão, sendo estes os modelos de Autoregressivo Integrado de Média Móvel (ARIMA) e regressão linear, bem como Redes Neurais Artificiais (ANN) e Support Vector Machines (SVM);

• Empregar métodos estatísticos para definir qual é o modelo que melhor explica a evolução dos prêmios de seguro rurais, entre estes.

• Criar uma previsão utilizando como base de teste o ano de 2017, e em seguida comparar o previsto com a realidade. Desta forma será possível de verificar o ajuste e a capacidade de adequação de cada um deles diante de novos dados.

1.3. DESCRIÇÃO DO TRABALHO

Este trabalho tem como intuito aplicar métodos estatísticos de regressão e aprendizado de máquina para a previsão dos prêmios de seguro do ramo rural e consequente comparação entre tais modelos. Para tal, foi dividido em cinco etapas.

A primeira etapa consiste na apresentação do funcionamento do mercado segurador, mais especificamente o comportamento do segmento rural no Brasil. Há então uma breve explicação das idiossincrasias desta linha de negócios, bem como a influência do governo e estudos feitos anteriormente com o intuito de prever movimento dos prêmios de seguro deste ramo.

Em seguida, são expostas as metodologias utilizadas durante o trabalho. Nesta etapa, são apresentados os modelos de Regressão Linear, ARIMA, Redes Neurais Artificiais e SVM, e também das métricas de avaliação entre os modelos, para que sejam esclarecidas as decisões tomadas durante as etapas seguintes.

Na quarta etapa há a arquitetura do sistema, explicitando o método de construção dos modelos apresentados, bem como os testes referentes à influência das variáveis sobre o

(10)

Por fim, serão evidenciados os produtos em decorrência da aplicação dos modelos para a série histórica, tanto na etapa de treino, em que os modelos são criados, quanto na fase de testes, na qual novas observações são inseridas para a previsão. Desta forma, será possível de ser feita a comparação quanto ao comportamento de cada um deles em relação à capacidade de se adaptar aos valores existentes, quanto de operar em cenários com dados inéditos.

1.4. ORGANIZAÇÃO DA MONOGRAFIA

Esta monografia está dividida em quatro capítulos adicionais, descritos a seguir:

O capítulo 2 apresenta o funcionamento do mercado de seguros, mais especificamente de seu ramo rural, e as variáveis macroeconômicas que possuem influência sobre este.

O capítulo 3 apresenta as metodologias que serão utilizadas durante a verificação dos modelos estatísticos.

O capítulo 4 detalha a arquitetura e construção dos modelos de regressão.

O capítulo 5 retrata os resultados obtidos pelos modelos e os compara, de forma a encontrar aquele que melhor se ajusta a novos dados.

Finalmente, o capítulo 5 descreve as conclusões do trabalho e identifica possíveis trabalhos futuros.

(11)

2. DESCRIÇÃO DO PROBLEMA

De acordo com as informações disponibilizadas pela Superintendência de Seguros Privados (SUSEP), o mercado de seguros rural apresentou um crescimento surpreendente entre os anos de 1995 e 2016, crescendo mais de cem vezes o seu prêmio no ano inicial, e representando um total de prêmios emitidos de mais de quatro bilhões de reais em 2016, contra apenas trinta e oito milhões em 1995. Por causa disso, há um grande interesse por parte das empresas de seguro para entenderem melhor o funcionamento desta carteira, a fim de explorar este mercado que vem crescendo mais de 10% ao ano desde 2006.

O primeiro passo para o entendimento do problema enfrentado pelas seguradoras é descrever o funcionamento do mercado segurador, para então explicitar os tipos de cobertura que fazem parte, formalmente, do segmento agropecuário. Desta forma, será possível de compreender os riscos que as empresas correm ao emitir tais prêmios, dado que na ocorrência de um sinistro, há a presença de perdas reais, e também as motivações por trás das políticas públicas específicas para o ramo. Por último, há a importância de explicitar estudos que foram feitos o intuito de melhorar as técnicas de previsão em relação à variação dos prêmios de seguro rural.

Buainain define riscos “como a possibilidade de o resultado final ser diferente daquele esperado devido à interveniência de fatores aleatórios e imprevistos”. Além disso, é importante que sejam diferenciados de incertezas, sendo essas os riscos que não podem ser mensurados, ou como definido por Keynes, “cuja previsão está associada a estimativas subjetivas”. É importante de se ressaltar que, embora não esteja livre da influência das incertezas, o mercado segurador calcula os valores de seus prêmios com base nos riscos mensuráveis. (BUAINAIN e SILVEIRA, 2017, p. 28)

Quando uma seguradora oferece um prêmio de seguro para um cliente, ela está automaticamente aceitando um risco que previamente era de responsabilidade da outra parte. Este risco pode ser traduzido como a possibilidade de um determinado fato de ocorrer, chamado pelo mercado como sinistro. Caso os fatores contra os quais o segurado está protegido aconteçam, a seguradora deve ressarci-lo de alguma forma; no caso dos prêmios modernos de seguro, financeiramente. (CALDAS, CURVELLO e RODRIGUES, 2017, p. 35)

Este processo também pode ser chamado de socialização de riscos. Ao assumir as possibilidades de sinistro, a seguradora permite que o segurado invista parte do seu capital em outras atividades, que sinta menos temor de fatos inesperados que poderiam acontecer ou, pelo

(12)

menos, reduzir perdas que seriam muito maiores, por exemplo. (CALDAS, CURVELLO e RODRIGUES, 2017, p. 35-36)

O processo de seguro segue algumas normas legais, instituídas pelo artigo 757 do código civil, que define que “essa operação deve tomar a forma jurídica de um contrato(...)”. Dessa forma, há a proteção e sanção do Estado para que ocorra. Além disso, há uma série de normas instituídas pela SUSEP, que funciona como órgão regulador do mercado, que devem ser seguidas pelas seguradoras. De acordo com Caldas:

“Esse contrato deve ser bilateral (gera obrigações e direitos para ambas as partes), oneroso (implica dispêndio para ambas as partes), aleatório (segurador assume obrigação de indenizar ao segurado por acontecimento incerto), formal (emissão obrigatória de apólice ou bilhete), nominal (regulação em lei com padrão definido), de adesão (condições padronizadas e aprovadas pelo Estado) e de boa-fé (o risco é conhecido pela seguradora conforme informações prestadas pelo segurado, que deve agir de forma a não induzir a empresa a erro ou engano).”(CALDAS, CURVELLO e RODRIGUES, 2017, p.38)

Existem alguns elementos que são considerados necessários para que um contrato seja firmado, e que sem eles não há a possibilidade de um contrato ser firmado. Caldas os enumera como: “o segurado, o segurador, o risco, o objeto do seguro, o prêmio e a indenização”. Há, também, alguns outros que podem fazer parte, porém não são necessários, como um ressegurador, corretor e cossegurador. (CALDAS, CURVELLO e RODRIGUES, 2017, p. 39) O funcionamento da proteção segue alguns padrões. Entre eles, há o pagamento de um prêmio pelo segurado, que aceito pela seguradora, formaliza a aceitação do risco. Ao emitir a apólice, as empresas são legalmente obrigadas a cobrir os eventuais sinistros. Por exemplo: caso uma seguradora emita um prêmio de seguro de automóvel, e conste na apólice que ela deve pagar um novo carro para o segurado no caso de uma batida que o torne inutilizável, então isto deve ocorrer, sob a pena de ser processada judicialmente caso se recuse.

O respaldo jurídico e legal garante mais certeza aos segurados, reduzindo suas possíveis incertezas em relação aos riscos de pagarem um prêmio e a seguradora se recusar a pagar na ocasião do sinistro protegido. Além disso, há algumas normas criadas pela SUSEP Para evitar que isto aconteça, como um limite máximo que a seguradora pode manter de riscos em sua carteira de prêmios, e a possibilidade de pulverização de riscos, quando uma seguradora faz um resseguro de parte de seus riscos ou o divide com outras seguradoras. (CALDAS, CURVELLO e RODRIGUES, 2017, p. 47)

Sendo assim, pode-se entender que para cada cliente e, consequentemente cada tipo de risco, o prêmio terá um preço proporcional. Não só isso, como a quantidade de prêmios que será emitida depende diretamente da necessidade dos agentes econômicos de se protegerem de alguma espécie de risco. Da mesma forma, ao utilizarmos como escopo o mercado de seguros

(13)

rurais, é crucial que entendamos qual é o tipo de proteção que este segmento engloba, com todas as suas idiossincrasias.

O segmento rural surgiu em 1954 sob o nome de “seguro agrário”. De acordo com a SUSEP, o ramo de seguros rural diz respeito a um grupo de modalidades que está associada à atividade agropecuária do país. Sendo assim, ao falar deste segmento estão envolvidas as seguintes categorias, conforme explicitado por Ramos: “seguro agrícola; seguro pecuário; seguro de benfeitorias e produtos agropecuários; seguro de penhor rural; seguro de florestas; seguro da vida do produtor rural; e seguro da cédula do produto rural.” (RAMOS, 2009, p. 2)

O seguro agrícola tem como fim a cobertura de todas as atividades agrícolas referentes à vida da planta, protegendo o segurado contra perdas como incêndio, geada, chuva excessiva ou secas. Da mesma forma, o seguro pecuário tem como finalidade reduzir as perdas referentes às mortes dos animais pertencentes a um empreendimento, podendo ser tanto para animais terrestres criados para o abate quanto criados para reprodução. Enquanto isso, o ramo aquícola protege os produtores quanto a riscos referentes a morte de animais aquáticos, como peixes e crustáceos, por causas de acidentes e doenças. (RAMOS, 2009, p.2)

O segmento rural também compreende os riscos referentes à benfeitorias e produtos agropecuários; e seguro de penhor rural. Os primeiros envolvem “perdas e/ou danos causados a bens, diretamente relacionados às atividades agrícola, pecuária, aquícola ou florestal, que não tenham sido oferecidos em garantia de operações de crédito rural.”. O segundo tipo tem a mesma natureza, porém para atividades que não tenham sido oferecidos em garantia de operações de crédito rural. (RAMOS, 2009, p.2)

Engloba também os riscos referentes a possíveis prejuízos em áreas florestais plantadas. O seguro de vida do produtor rural também compõe a carteira, e cobre riscos referentes à vida dos trabalhadores rurais. Criada em 1994, a Cédula de Produto Rural (CPR), é “um título líquido, certo e exigível, contendo promessa de entrega de produtos rurais pela quantidade e qualidade nela descritos, ou apartado, com ou sem garantia cedularmente constituída.”. Em 2002, o Conselho Nacional de Seguros tornou a CPR uma das modalidades de seguro rural. (RAMOS, 2009, p.2-8)

Todas as atividades econômicas que compõe aquelas seguráveis pelo segmento rural estão sujeitas a uma série de riscos, não apenas humanos, porém também meteorológicos e naturais. Isso por causa da característica mais básica do negócio estar associada à sua dependência da natureza, o que a diferencia da produção industrial e do setor de serviços. Sendo assim, os empreendimentos estão constantemente expostos à possibilidade de excesso de chuva

(14)

ou períodos inesperados de estiagem, pragas e variações de temperaturas. (BUAINAIN e SILVEIRA, 2017, p. 23)

Para facilitar o entendimento dos tipos de riscos aos quais a atividade agropecuária está sujeita, o autor os separa em internos e externos. O primeiro está associado ao processo produtivo, e consequentemente às escolhas e gestão dos próprios produtores. O segundo relaciona-se às variáveis que não são influenciadas diretamente pelo negócio, como eventos “econômicos, políticos, sociais, setoriais e climáticos(...).”. (BUAINAIN e SILVEIRA, 2017, p. 29)

Sendo assim, o autor apresenta um quadro com os diferentes tipos de riscos de acordo com suas origens e seus efeitos. Também divide como cada tipo de risco pode se apresentar nos diferentes níveis de agregação (micro, meso e macro). (BUAINAIN e SILVEIRA, 2017, p. 32)

Tabela 2.1 - Tipos de riscos presentes na atividade agropecuária a partir dos agentes

envolvidos

Extraído de: BUAINAIN e SILVEIRA, 2017

Tais riscos, segundo o autor, possuem o potencial de se propagar por toda a cadeia produtiva do agronegócio, o que significa que não são exatamente isolados. Buainain cita como exemplo o acontecimento de um efeito climático que afete a safra, levando os empresários a terem uma produção mais baixa do que o esperado e, por reduzir o lucro, os impedindo de honrar todos os compromissos financeiros que assumem durante a cadeia. O impacto disso pode ser visto nos preços e na qualidade dos produtos ofertados, que consequentemente afetam tanto os consumidores diretos quanto as indústrias envolvidas no agronegócio. (BUAINAIN e SILVEIRA, 2017, p. 33)

Tipo de Risco Micro (Indivíduo) Meso (Comunidade) Macro (Região/país) Mercado/Preço Mudança no preço da terra, novas demandas da

indústria de alimentos

Mudanças nos preços dos insumos e do produto final (choques), novos mercados,

etc. Produção

Granizo, geada, doenças não contagiosas, riscos pessoais (doença, morte)

Poluição, chuvas, deslizamento de terras

Inundação, seca, pestes, doenças contagiosas,

tecnologia Financeiro Mudanças na renda

advinda de outros ativos

Mudanças nas taxas de juros/acesso ao crédito

Institucional/legal

Mudanças na política local e nas regulações

locais

Mudanças políticas/regulações/lei

(15)

Diante de todas essas possibilidades de riscos estão envolvidos, torna-se mais claro os problemas que os produtores ligados ao agronegócio enfrentam. Como consequência direta, as seguradoras também dependem destes fatores para precificarem seus prêmios. Por causa disso, os produtos ofertados pelo mercado de seguro tendem a ter valores elevados, que muitas vezes os agropecuários não possuem capacidade de cobrir.

Para reduzir esta situação e fomentar o mercado, protegendo os produtores destes riscos, surgiram algumas soluções por meio do setor público. Com a criação do seguro agrário, em 1954, foram instituídas também a Companhia Nacional de Seguro Agrícola (CNSA), e o Fundo de Estabilidade do Seguro Agrário (FESA), em 1954, com o intuito de desenvolver o mercado. (RAMOS, 2009, p. 7)

Ao longo dos anos, foram sendo criadas novas estratégias para facilitar o acesso a esta modalidade de prêmios. Em 1964, foi estabelecida uma lei que obrigava a adesão ao seguro agrícola nas operações em que os bancos que fossem propriedade ou controlados pela união realizassem financiamentos à agricultura e pecuária. (RAMOS, 2009, p. 7)

A partir de 1966 foi estabelecido o Fundo de Estabilidade do Seguro Rural (FESR), controlado pelo Instituto de Resseguros Brasileiro (IRB), pela lei que regulamentou as operações de seguros e resseguros, o Sistema Nacional de Seguros Privados (SNSP). A partir deste momento, a obrigatoriedade de contratação do seguro rural foi estendida para as operações de financiamento à agricultura e pecuária para todas as instituições financeiras do Sistema Nacional de Crédito Rural. Além disso, tal legislação tornava isenta de impostos ou tributos federais todas as operações de seguro rural. (RAMOS, 2009, p. 7)

No fim de 1973, foi criado o Programa de Garantia de Atividade Agropecuária (PROAGRO), com o intuito de reduzir as obrigações financeiras dos produtores rurais no caso da ocorrência de “fenômenos naturais, pragas e doenças.”. Tal iniciativa cobria “80% do crédito de custeio e investimento contratado junto ao agente financeiro (...)”, o que de acordo com Ramos, tinha como intuito proteger mais os fornecedores de crédito, e que “não estava sujeito às demais regras do seguro rural.”. (RAMOS, 2009, p.8)

Tal programa recebeu algumas modificações ao longo dos anos, como a mudança de 80% de cobertura para 100% do crédito em 1979 e também a inclusão da indenização ao produtor no caso de quebra de safra por motivos climáticos no ano de 1991. Entretanto, foi alvo de denúncias de fraude e considerado inviável financeiramente. Entre os anos de 1991 e 1995 acumulou um passivo muito alto, levando o programa ao descrédito e consequentemente as instituições pararam de usá-lo. (RAMOS, 2009, p.8)

(16)

No início de 2002 foi criado também o Fundo Seguro-Safra, cujo objetivo é proporcionar recursos para o Seguro-Safra. Tal modalidade tem como finalidade auxiliar produtores rurais de uma determinada região do país (Nordeste, semiárido do Estado de Minas Gerais e norte do Espírito Santo) no caso de quebra de safra em situações de estiagem em municípios que tenham declarado estado de calamidade pública ou situação de emergência, desde que reconhecidas pelo Governo Federal. É gerido pelo Ministério do Desenvolvimento Agrário (MDA), que possui autonomia para definir normas para a sua operacionalização, e é restrito à agricultura familiar em casos de perda de pelo menos 60% da lavoura. (RAMOS, 2009, p.8)

Entretanto, é muito possível que a medida pública que tenha levado a um maior sucesso tenha sido o Programa de Subvenção ao Prêmio do Segurador Rural (PSR). Tal instituição foi originalmente pelo governo de São Paulo em 21 de outubro de 2002, expandido para o resto do país pelo Governo Federal em 2003 e regulamentada em meados de 2004. Suas diretrizes são de: “promover a universalização do acesso do seguro rural; assegurar o papel do seguro rural como instrumento para a estabilidade da renda agropecuária; e induzir o uso de tecnologias adequadas e modernizar a gestão do empreendimento agropecuário.”. (RAMOS, 2009, p.9)

De acordo ADAMI e OZAKI, o programa de subvenção tem um importante papel na disseminação do seguro rural. Isso se dá porque reduz o preço dos prêmios, aumentando a demanda pelos prêmios e levando a um melhor gerenciamento por parte das seguradoras porque pulveriza os riscos. Ainda que compreenda apenas quatro dos ramos pertencentes ao segmento rural (agrícola, pecuário, aquícola e florestal), o aporte de capital feito pelo programa teve crescimento considerável. (ADAMI E OZAKI, 2012, p. 62)

O orçamento do programa de subvenção é decidido trienalmente pelo Plano Trienal do Seguro Rural, “com base na expectativa das seguradoras da demanda para subvenção por produto e modalidade de seguro rural”, com um ano de defasagem. Tal demanda teve seus valores crescentes desde a criação do programa. Com um orçamento de R$ 10 milhões em 2005, apenas R$2,3 milhões foram utilizados. Já em 2009, o aporte foi de R$190 milhões, enquanto a demanda foi de R$90 milhões a mais. (ADAMI E OZAKI, 2012, p.62-63)

De acordo com os dados fornecidos pelo Ministério da Agricultura, Pecuária e Abastecimento, estes valores apenas aumentaram nos anos subsequentes. Em 2016 o orçamento do PSR foi de R$400 milhões, que foram usufruídos por quarenta e oito mil produtores, levando ao seguro de 5,6 milhões de hectares e R$13,26 bilhões em importância segurada. É possível de se entender com mais clareza os limites de subvenção a partir da tabela abaixo. (MAPA, 2017, p. 7)

(17)

Tabela 2.2 - Percentuais de subvenção e limites financeiros adotados em 2016

Extraído de: MAPA, 2017 Notas:

(1) Exclusivamente até 31/12/2016. (2) Inclusive trigo

A partir do mapeamento de riscos que o mercado segurador corre, assim como as políticas governamentais que têm como objetivo beneficiá-lo, torna-se possível de discutir formas de previsão do crescimento dos prêmios. Para tal, serão utilizados como base dois estudos estatísticos, que se baseiam em métodos diferentes para tais cálculos.

O primeiro, realizado por Adami e Ozaki, empregou alguns modelos de previsão de séries temporais. Foram feitos testes inicialmente utilizando o modelo ARIMA (Autoregressivo Integrado de Média Móvel), que utiliza os próprios dados da série para a previsão. Além disso, foi utilizado também o modelo ARIMAX, com a inclusão de uma variável binária para isolar um fato específico, no caso o não-repasse dos recursos de subvenção nos três últimos meses de 2009 e no ano de 2010. (ADAMI E OZAKI, 2012, p. 64-66)

Também foram aplicados os métodos SARIMA, que inclui a sazonalidade dos dados, SARIMA-GARCH, que leva em consideração a heteroscedasticidade da série, ou seja, a possibilidade de a média dos erros variar ao longo do período, e o modelo estrutural. (ADAMI E OZAKI, 2012, p. 66-68)

Com o estudo formulado pelos autores, é possível de se retirar algumas conclusões referentes às possibilidades de métodos que podem ser utilizados. De acordo com eles o modelo com o menor erro quadrático médio, e também com melhor ajuste foi o SARIMA, enquanto o método SARIMA-GARCH não apresentou um bom nível de ajuste aos dados. É importante de

Modalidades de

Seguro Grupos de Atividades Tipo de Cobertura Nível de Cobertura Subvenção (%) Limites Anuais

Trigo¹ Multirisco >60% 55%

60%-65% 45%

70-75% 40%

>80% 35%

Riscos Nomeados² -- 35%

Frutas, Olerícolas, Café e

Cana-de-Açúcar -- -- 45%

Florestas Silvicultura (Florestas

Plantadas) R$24 mil

Pecuário

Aves, Bovinos, Bubalinos, Caprinos, Equinos, Ovinos

e Suínos

R$24 mil

Aquícola Carcinicultura, Maricultura

e Piscicultura R$24 mil

R$ 144 mil

R$ 72 mil

Valor Máximo Subvencionável (CPF/ano) Agrícola Grãos

-- -- 45%

(18)

se ressaltar que as previsões foram feitas apenas para dois ramos do seguro rural, que compreendem a modalidade agrícola. (ADAMI E OZAKI, 2012, p. 70)

Da mesma forma, o segundo artigo a ser utilizado foi produzido pela Confederação Nacional das Empresas de Seguros (CNseg). Neste, aplicou-se a técnica de regressão linear combinada com um ajuste ARIMA nos resíduos como projeção teórica. A previsão final, entretanto, se deu após a análise de especialistas do mercado. (CNseg, 2016, p. 1)

Para a aplicação deste modelo, é necessária a escolha de variáveis exógenas que determinam as variações na emissão dos prêmios, podendo ser tanto numéricas quanto qualitativas. No caso do estudo feito pela CNseg, foram utilizadas apenas variáveis macroeconômicas, sendo estas o Produto Interno Bruto (PIB), o Índice de Preços ao Consumidor Amplo (IPCA), a Produção de Alimentos e o Saldo de Crédito Rural. (CNseg, 2016, p. 6)

Utilizando a conjuntura econômica, bem como o entendimento dos riscos associados ao seguro rural, é possível de se entender a importância desses estudos. Entretanto, é necessário que os modelos utilizados sejam explicados com maior profundidade, assim como os métodos de avaliação quanto aos seus ajustes. Dessa forma, poderemos comparar os modelos e determinar qual deles se aproxima mais da realidade.

(19)

3. METODOLOGIAS – 15/07

3.1. DEFINIÇÕES BÁSICAS SOBRE SÉRIES HISTÓRICAS

Para que os modelos e as métricas estatísticas sejam utilizadas, é necessário que algumas definições sejam esclarecidas. Desta forma, serão trazidos à luz alguns termos que serão cruciais para o entendimento das metodologias escolhidas e para os testes que serão realizados posteriormente com base nelas. Ainda assim, não serão discutidas algumas das hipóteses mais básicas, por não se enquadrarem no escopo deste trabalho.

Conjuntos de dados podem ser divididos em algumas categorias, cada qual com suas especificidades. O escopo deste trabalho se concentra em séries históricas, que podem ser definidas como aquelas cujas variáveis estão distribuídas em um período de tempo. Diferente de dados de cortes transversais, que estão concentradas em um ponto temporal específico, existe uma cronologia que deve ser respeitada nos modelos de previsão. Desta forma, uma série histórica deve estar sempre organizada de acordo com a ordem em que as observações foram feitas. Além dessas duas categorias, os dados podem estar organizados também de forma combinada, tanto com dados históricos quanto transversais. (WOOLRIDGE, 2013, p.8-10)

Além disso, esta distribuição pode levar a observações importantes, como o comportamento dela em períodos específicos. Por causa disso, as séries temporais apresentam um outro fator que deve ser levado em consideração em sua análise: a frequência dos dados. Estes podem se apresentar mensalmente, anualmente, diariamente, etc. Isto dependerá de como cada série é medida. O PIB e o índice de inflação, por exemplo, são medidos mensalmente, enquanto o tempo em que uma sala está ocupada pode ser medido em horas. (WOOLRIDGE, 2013, p.8)

3.1.1. PROCESSOS ESTOCÁSTICOS

Gujarati define o termo estocástico como sinônimo de aleatório, sendo uma variável aleatória aquela que “pode assumir qualquer valor, positivo ou negativo, dentro de um conjunto de valores com uma dada probabilidade”. (GUJARATI E PORTER, 2011, p. 44)

As variáveis que estão distribuídas ao longo do tempo podem ser classificadas como um processo estocástico. Ainda que pareça abstrato o conceito de um dado como o PIB ser aleatório, Gujarati explica que em teoria esta variável em um dado período de tempo poderia tomar qualquer valor, dado um clima político e econômico que estivesse prevalecendo no mesmo. Dessa forma, os valores reais observados podem ser considerados uma amostra como resultados desse processo. (GUJARATI E PORTER, 2011, p. 734)

(20)

Os processos estocásticos podem ser classificados em estacionários ou não estacionários. O primeiro ocorre quando a média, variância e auto covariância1 se mantêm iguais em qualquer ponto que sejam medidas da série. De acordo com o autor, os valores em uma série estacionária tenderão a se manter em torno da sua média, tendo como limites a variância. Sendo assim, ela tende a ser mais previsível. (GUJARATI E PORTER, 2011, p. 734-735)

Em compensação, isso não ocorre em processos estocásticos não estacionárias. De acordo com os autores, seu exemplo clássico é o “modelo do passeio aleatório”, como os preços de ações de uma empresa. Estes podem ser sem deslocamento ou com deslocamento. No primeiro caso, a variação entre dois períodos de tempo é causada por um ruído branco, ou seja, um choque aleatório na série, e, portanto, sua variância aumenta conforme a passagem de tempo. No segundo caso, a série possui uma tendência, seja ela positiva ou negativa, o que junto aos choques aleatórios, levam não só a uma mudança na variância, mas também na média. (GUJARATI E PORTER, 2011, p. 736-737)

Podemos ilustrar melhor a forma como uma série com deslocamento se apresenta pela seguinte equação apresentada pelo autor:

𝑌𝑡= 𝑌𝑡−1+ 𝑢𝑡

Neste caso, a equação sugere que o valor de Y em um período t é definida pelo seu valor no período imediatamente anterior, somada a um termo de erro (µt), que neste caso é o choque

aleatório mencionado acima. Os autores definem esta equação como um modelo de AR (1), ou seja, com seu valor defasado em um período (GUJARATI E PORTER, 2011, p. 736)

Ao serem utilizadas em regressões, séries não estacionárias podem causar um efeito chamado pelos autores de “regressão espúria”. Supondo duas séries estocásticas não estacionárias X e Y, uma tentativa de fazer uma regressão em que X explique a variável Y pode levar a conclusões errôneas, mesmo por meio das métricas mais comuns de avaliação. Neste caso, a tendência poderia ser de que um dos testes revelasse uma relação estatística entre as variáveis, mesmo que não exista de fato. (GUJARATI E PORTER, 2011, p. 740-741)

Existem técnicas para lidar com a não estacionariedade de uma série, e consequentemente transformá-la em estacionária. O primeiro passo para isso, é identificar a estacionariedade, que pode ser feita de algumas formas. Entre estas, os métodos de raiz unitária possuem grande popularidade, de acordo com o autor. Segundo os autores, a equação de um modelo de passeio aleatório pode ser escrita da seguinte forma:

(21)

Em que ρ é um termo entre -1 e 1. Caso o módulo desta variável |ρ| = 1, então a série é não estacionária, e então estamos lidando com um problema de raiz unitária. Entretanto, caso |ρ| < 1, então a série Yt é estacionária. (GUJARATI E PORTER, 2011, p. 737-738)

Entre os testes de raiz unitária que podem ser utilizados, está o de Dickey-Fuller (DF). Este teste se baseia em um teste de hipóteses a partir da manipulação da segunda equação. Neste caso, a equação se torna:

𝑌𝑡= 𝛿 + 𝑌𝑡−1+ 𝑢𝑡

Em que δ = (ρ -1). De acordo com os autores, pode-se então tirar as primeiras diferenças de Yt, fazer a regressão dessas em Yt-1 e ver se este coeficiente é ou não igual a zero. É possível de

se detectar isto utilizando um teste tau (também conhecido como Dickey-Fuller), pois caso a hipótese nula de que δ = 0 seja real, o valor do teste t não seguirá a distribuição t de student, e sim uma estatística τ (tau). Neste caso, a hipótese é aceita caso esteja dentro do intervalo de confiança estabelecido, e então a série é não estacionária. Na alternativa de que δ < 0, pode-se assumir que a série é estacionária. (GUJARATI E PORTER, 2011, p. 748-749)

É possível de transformar uma série não estacionária para evitar os possíveis problemas causados por previsões a partir delas. Existem dois métodos possíveis, dependendo do tipo da série temporal. No caso de uma série estocástica com raiz unitária, as primeiras diferenças são estacionárias, devendo ser usada essa como base. Caso o processo seja estacionário em torno da linha de tendência, deve-se regredir a série no tempo para que seus resíduos sejam estacionário.

3.2. MODELOS DE REGRESSÃO E PREVISÃO DE SÉRIES TEMPORAIS

3.2.1. REGRESSÃO LINEAR

O termo regressão foi cunhado por Francis Galton em 1886, com o intuito de demonstrar que embora a estatura de uma pessoa tivesse relação com a altura dos pais, esta tendia a “regredir” para a altura média da população como um todo. De acordo com Gujarati e Porter (2011), o termo moderno para regressão tem a seguinte interpretação:

“A análise da regressão diz respeito ao estudo da dependência de uma variável, a variável dependente, em relação a uma ou mais variáveis, as variáveis explanatórias, visando estimar e/ou prever o valor médio (da população) da primeira em termos dos valores conhecidos ou fixados (em amostragens repetidas) das segundas.” (GUJARATI E PORTER, 2011, p. 39)

É importante de se ressaltar que no caso da análise das regressões, a preocupação é com as relações estatísticas entre as variáveis, e não necessariamente as determinísticas, embora as

(22)

duas possam ser verdadeiras concomitantemente. Isto se dá por causa da natureza estocástica dos dados, pois as variáveis possuem distribuições probabilísticas. Dessa forma, a existência de relações estatísticas não significam necessariamente que existe uma relação causal. Para isto, é necessário um embasamento teórico. (GUJARATI E PORTER, 2011, p. 42-43)

Para que uma regressão linear seja construída, é necessário o estabelecimento de algumas relações. O primeiro fator é a existência de uma variável (ou mais) que explique aquela que será prevista. Em seguida, supõe-se que existe uma relação linear entre essas variáveis. Pode-se dizer que, caso essa relação Pode-seja de fato verdadeira, de acordo com Gujarati e Porter (2011), ela pode ser expressa da seguinte forma, no caso de uma regressão com duas variáveis:

𝑌̂𝑖 = 𝛽̂1+ 𝛽̂2𝑋̂𝑖

Sendo, o símbolo ^ referente ao valor estimado de cada variável. Yi é a variável que será

explicada, Xi é a variável explicativa, β1 e β2 são parâmetros, sendo o primeiro o coeficiente

linear e o segundo o coeficiente angular. Entretanto, é possível que o valor esperado de Y seja diferente da realidade. Sendo assim, estima-se que o valor esperado de Y é Y acrescido de um resíduo, ou termo de erro, descrito da seguinte forma por Gujarati e Porter (2011):

𝑌𝑖 = 𝑌̂𝑖+ 𝑢̂𝑖

É importante de se ressaltar que o termo û é meramente a diferença entre os termos observados e aqueles estimados de Y. Sendo assim, Gujarati e Porter (2011) escrevem Y como a seguinte função:

𝑌𝑖 = 𝛽̂1+ 𝛽̂2𝑋̂𝑖+ 𝑢̂𝑖

É possível de se fazer uma regressão linear por alguns métodos matemáticos, sendo os mais comuns os de Mínimos Quadrados Ordinários (MQO) e Máxima Verosimilhança (MV). Enquanto os dois costumam ter resultados similares, o primeiro é o mais utilizado pela sua simplicidade e por ser mais intuitivo. (GUJARATI E PORTER, 2011, p. 78)

O método de MQO consiste em minimizar a soma do quadrado dos resíduos esperados (û). Quanto mais próximo de zero for este termo, mais próxima será a estimação da realidade. Para tal, assume-se que o resíduo é uma função dos parâmetros β1 e β2 esperados, estimando-os a

partir dos desvios em relação aos desvios da média das variáveis explicativas (Xi) e da variável

explicada (Y). (GUJARATI E PORTER, 2011, p. 78-81)

(23)

Entre estas restrições, estão o fato de que os parâmetros devem ser lineares, ainda que as variáveis (Xi e Y) não tenham esta limitação, que o termo de erro (û) não deve afetar as variáveis

explicativas (Xi), e que o valor médio do termo de erro é zero. (GUJARATI E PORTER, 2011,

p. 84-86)

Também não deve haver autocorrelação entre os termos de erro, a quantidade de observações deve ser maior do que o número de parâmetros a serem estimados e os valores das variáveis explicativas (X) não podem fixos ou serem muito discrepantes do restante das observações. Além disso, a variância dos resíduos seja constante independente dos valores de X, ou seja, é homoscedastica. (GUJARATI E PORTER, 2011, p. 86-89)

A questão da homoscedasticidade e sua contrapartida, a heteroscedasticidade, são um ponto de atenção em relação às regressões lineares. A heteroscedasticidade ocorre caso a hipótese básica de que a variãncia dos termos de erro ui é constante independente dos valores observados

não seja atendida. Neste caso, para cada valor diferente de X, os termos de erro terão uma variância diferente. Este tipo de situação pode ser vista comumente em situações em que há aprendizado ao longo do tempo, por exemplo no caso de erros de digitação por uma pessoa durante um período: estes tendem a reduzir. (GUJARATI E PORTER, 2011, p. 370-371)

No caso da presença de heteroscedasticidade, o método de MQO se torna viesado, e os estimadores não são mais os melhores disponíveis, reduzindo consideravelmente a qualidade da regressão, podendo torná-la equivocada. A heteroscedasticidade pode ser detectada por alguns métodos, como a análise gráfica dos resíduos ou o teste de White. Ao se admitir que a variância dos termos não é constante, deve-se utilizar o método de Mínimos Quadrados Generalizados, que é uma versão modificada da MQO para o caso de haver a presença de heteroscedasticidade, ou adotar outro método de previsão. (GUJARATI E PORTER, 2011, p. 375-392)

3.2.2. MODELOS ARIMA

Formulado inicialmente por Box e Jenkins em 1976, o método ARIMA tem como finalidade realizar a previsão de séries temporais utilizando como variável os valores passados, ou seja, é um modelo autoregressivo. Sua maior vantagem é a possibilidade de criar projeções mesmo com poucos dados, além de poder ser aplicada em séries não estacionárias. (GUJARATI E PORTER, 2011, p. 768)

Para que seja possível entender o modelo ARIMA, é possível de construí-lo a partir de suas partes. A primeira etapa é compreender o processo autoregressivo (AR). Por natureza, um processo autoregressivo envolve a hipótese de que a situação atual de uma variável pode ser

(24)

a dependência seja apenas de um período imediatamente anterior, mas pode também ser estendido para uma quantidade maior de tempo. Cada adição de períodos anteriores na fórmula aumenta a ordem do modelo. (GUJARATI E PORTER, 2011, p. 769)

Em contrapartida, o processo de média móvel (MA), assume que mudanças na variável explicada podem ser justificados pelo chamado “termo estocástico de ruído branco”. Neste caso, a fórmula de determinação da variável será baseada em uma constante mais uma média móvel desses termos de erro atuais e passados. Chama-se uma média movel de primeira ordem, MA(1), aquela que se estende até o tempo imediatamente anterior à observação atual (t-1). Da mesma forma que o processo AR, pode ser estendido para um passado mais distante, aumentando a sua ordem. (GUJARATI E PORTER, 2011, p. 770)

Combinando estes dois processos, surge o modelo ARMA, que consiste na utilização de uma constante, somada ao comportamento da variável explicada no passado e os ruídos brancos, tanto no presente quanto no passado. Chama-se um modelo ARMA (p,q) com p termos autoregressivos e q termos de média móvel. (GUJARATI E PORTER, 2011, p. 770)

O modelo Autoregressivo Integrado de Médias Móveis, ARIMA, inclui a possibilidade da série ser não estacionária. Dessa forma, o método encontra as suas diferenciações necessárias para torná-la estacionária. A partir disso, é possível de se aplicar um modelo ARMA (p,q). A nomenclatura de um modelo ARIMA segue o padrão (p,d,q), sendo d a quantidade de vezes que a série deve ser diferenciada para que seja transformada em estacionária. Dessa forma, uma série ARIMA (1,1,1) teria um termo autoregressivo, seria necessário diferenciá-la uma vez para torná-la estacionária e a observação dos ruídos se estende ao primeiro período anterior. (GUJARATI E PORTER, 2011, p. 770-771)

A metodologia Box-Jenkins para o uso dos modelos ARIMA se baseia em quatro etapas. A primeira consiste na identificação dos valores de p, d e q, que pode ser feita por meio da Função de Correlação Amostral, Função de Correlação Amostral Parcial e os correlogramas resultantes. A segunda é a estimação dos parâmetros dos termos autoregressivos e de média móvel por meio de algum método, seja ele linear ou não. Em seguida, há a verificação do modelo, e identificação do seu ajuste por meio da identificação dos ruídos brancos. Nesta parte, pode-se rodar outros modelos ARIMA para comparar sua eficiência. Os autores nesta etapa definem o processo como iterativo por se basear em diversos testes. Após a definição do modelo que melhor explica a variável escolhida, é possível de se criar sua previsão. (GUJARATI E PORTER, 2011, p. 771-772)

Existem algumas adaptações do modelo ARIMA para atender a algumas situações específicas. Entre elas, estão o modelo SARIMA, que adapta séries com comportamentos

(25)

sazonais, isto é, que se repetem constantemente em intervalos específicos. Ao incluir um termo de sazonalidade, tal método torna a previsão dessas séries mais confiáveis. Além deste, há também o modelo ARIMAX, cujo objetivo é incluir, além dos termos do modelo original, variáveis explicativas que possam explicar as variações da variável observada. (ADAMI E OZAKI, 2012, p. 65-66)

3.2.3. REDES NEURAIS ARTIFICIAIS

O modelo de Redes Neurais Artificiais (ANN) tem como objetivo simular a organização neural do cérebro humano. A pesquisa em torno do tema ocorre desde a década de 1940, com o trabalho de McCulloch e Pitts, em 1943. Para eles, a partir de fórmulas matemáticas, seria possível de imitar o método de funcionamento de um cérebro na tomada de decisões. (FERNEDA, 2006, p.25-26)

Por meio dos dendritos, do corpo e do axônio de um neurônio, este é capaz de captar estímulos elétricos, propagando-o por meio de sinapses para as células vizinhas e consequentemente traduzí-los em uma reação física. As redes neurais artificiais buscam se aproximar do funcionamento da área do córtex, a camada externa do cérebro, responsável pelo processamento cognitivo. (FERNEDA, 2006, p. 25)

Apesar da teoria das ANN ter surgido na década de 1940, as pesquisas tiveram poucos avanços até a década de 1980, retornando com os avanços dos recursos computacionais. Em 2001, foi apresentado um modelo de neurônio por Haykin (2001, p.36) composto por três elementos básicos: um conjunto de entradas, que serviriam de base para a tomada de decisão, e a existência de pesos para cada uma dessas entradas como coeficientes angulares, podendo ser positivos ou negativos. A partir disso, é possível de se criar uma fórmula matemática, chamada de função de ativação, que consiste na soma das entradas multiplicadas por seus devidos pesos, levando a uma resposta de saída. As redes neurais juntam vários desses neurônios, que unidos por “conexões sinápticas” geram um resultado. (FERNEDA, 2006, p. 26)

(26)

Figura 3.1 - Representação de uma rede neural artificial

Fonte: FERNEDA, 2006

Um dos diferenciais das redes neurais artificiais é a possibilidade de ajustar os devidos pesos. Isto se chama “processo de aprendizado”, em que a rede é ajustada conforme novas observações são inseridas no modelo. Tal processo pode ser supervisionado, em que alguns padrões de entrada são utilizados, com outras observações para que a rede encontre a relação entre as variáveis. Neste caso, os resultados obtidos pela rede são comparados com a realidade, e em seguida o modelo é ajustado para reduzir os erros. No caso de um modelo não supervisionado, a rede é capaz de inferir padrões a partir dos dados de entrada por meio das suas regularidades e em seguida criar agrupamentos e classificações para os mesmos. (FERNEDA, 2006, p. 26-27)

3.2.4. SUPPORT VECTOR MACHINES (SVM)

O método de Máquina de Vetores de Suporte (SVM) é uma das técnicas de aprendizado de máquina que vem recebendo crescendo atenção por parte dos pesquisadores da área. Isto ocorre por sua capacidade de gerar resultados tão bons ou superiores quanto aqueles encontrados por outros sistemas de aprendizado de máquina, como as redes neurais artificiais. (LORENA e CARVALHO, 2007, p. 43)

Seu surgimento pode ser traçado para o artigo de Cortes e Vapnik, “Support Vector Networks”, com o intuito de criar um classificador para problemas de dois grupos. A solução encontrada foi por meio do uso de hiperplanos, que conseguem generalizar as classificações a partir do uso de dimensões maiores. Um hiperplano é considerado ótimo quando representa a função de decisão linear com a maior margem entre vetores de duas classes. (CORTES e VAPNIK, 1995, p. 274-275, tradução nossa).

Entretanto, em muitos casos as classes não são perfeitamente separáveis de maneira linear por um hiperplano. Desta forma, foi introduzido por Cortes e Vapnik o conceito de variável de

(27)

pela distância da amostra ao hiperplano definido pelos vetores de suporte. (FILGUEIRAS, 2014, p. 11)

Este termo de erro pode ser ajustado por uma constante C, que funciona como uma forma de controle para a margem de erros. Sendo assim, quanto menor for este valor, maior é a admissão de erros de classificação. Da mesma forma, caso seja alto, pode levar à criação de um elevado número de vetores de suporte, e portanto deve ser ajustado de acordo com a situação. (FILGUEIRAS, 2014, p. 11-12)

Figura 3.2 - Gráfico ilustrativo de um problema de classificação binária linearmente

separável no espaço original

Fonte: FILGUEIRAS, 2014

Entretanto, o que impulsiona mais o uso do modelo de SVM é a sua capacidade de ser estendido para situações em que as variáveis não são linearmente separáveis, ou seja, que estejam dispostas de maneira que um modelo linear não seria capaz de classificar corretamente. Isto é feito por meio das chamadas funções kernel não linear, que consiste na elevação da dimensão original dos dados, tornando-as linearmente separáveis. (FILGUEIRAS, 2014, p. 12-13)

(28)

Figura 3.3 - Representação do funcionamento da aplicação de uma função kernel

Fonte: FILGUEIRAS, 2014

A figura 3.3 demonstra o funcionamento da aplicação de uma função kernel para possibilitar o uso do método SVM. Em (a), está uma amostra que não é linearmente separável. Em (b) utiliza-se a função kernel para aumentar a dimensão do espaço, o que torna possível a aplicação de um hiperplano ótimo. Ao retornar a amostra para o espaço original, há a delimitação entre as classificações. De acordo com Filgueiras, as funções “mais conhecidas são linear, polinomial, sigmoide e a função de base radial”, que é a mais aplicada. (FILGUEIRAS, 2014, p. 14)

Embora tenha sido criado originalmente para resolver problemas de classificação, o modelo de SVM também pode ser utilizado para desafios de regressões, pelo método de classificação binária. Isto pode ser feito a partir da criação duas variáveis dependentes da variável explica Y, ambas somando e reduzindo, respectivamente, um valor d para cada amostra das variáveis explicativas Xi. Desta forma, o problema se torna de classificação binária, e o algoritmo pode

ser aplicado, e é possível de se definir a função de regressão por meio do hiperplano. (FILGUEIRAS, 2014, p. 15-16)

3.3. MÉTRICAS DE AVALIAÇÃO

3.3.1. TESTES DE HIPÓTESE

Testes de hipóteses são constantemente utilizados em inferências estatísticas. Sua função é a de determinar se uma dada hipótese é ou não válida estatisticamente de acordo com os dados

(29)

observados. No caso, pode-se dizer que caso os valores estejam suficientemente próximos do pressuposto, a hipótese não é rejeitada. (GUJARATI E PORTER, 2011, p. 133)

A sua aplicação baseia-se na escolha de uma hipótese nula, chamada H0, que será testada

contra uma hipótese alternativa, H1. Pode-se, por exemplo, determinar a hipótese nula de que

um parâmetro de regressão 𝛽2 possui o valor de 0,5, e a hipótese alternativa de que possui β1

qualquer outro valor diferente deste. Para determinar se a hipótese é aceita ou não, existem dois testes que se complementam: o intervalo de confiança e o teste de significância. (GUJARATI E PORTER, 2011, p. 133-134)

O intervalo de confiança refere-se ao intervalo em que espera-se que uma determinada variável esteja definida. Este pode ser definido pela seguinte equação, utilizando como exemplo o parâmetro de uma regressão linear:

𝑡 = 𝛽̂2− 𝛽2 𝑒𝑝 (𝛽̂2)

Em que 𝛽̂2 é o estimador do parâmetro real 𝛽2, e 𝑒𝑝 (𝛽̂2) é o erro padrão do estimador.

Além disso, Gujarati e Porter (2011) demonstram que a variável t segue uma distribuição t para um nível de significância ∝/2 e n-2 graus de liberdade. Portanto, pode-se estabelecer um intervalo de confiança para 𝛽2 representado pela equação abaixo:

Pr(−𝑡∝/2≤ 𝑡 ≤ 𝑡∝/2 ) = 1 − α

Dessa forma, pode-se representar o intervalo de confiança 100(1-α)% para 𝛽2 com a

seguinte equação:

𝛽̂2 ± 𝑡∝/2 𝑒𝑝 (𝛽̂2)

Os valores de 𝑡∝/2 são determinados pela distribuição t e pela escolha do intervalo de confiança. No caso da escolha de um intervalo de confiança de 95%, pode-se ler da seguinte forma: em 95 de 100 casos, o intervalo irá conter o valor real de 𝛽2. (GUJARATI E PORTER, 2011, p. 130-131)

Um teste de hipótese envolvendo o intervalo de confiança pode então ser feito. Voltando ao caso de 𝛽2, podem ser feitas as seguintes hipóteses: de que 𝛽2 é 0,5 (H0) e consequentemente

a hipótese alternativa 𝛽2 ≠ 0,5 (H1). Após a escolha do intervalo de confiança, a fórmula de

intervalo será aplicada e, caso o valor estipulado esteja dentro deste, então a hipótese nula H0 é

aceita, caso contrário esta é rejeitada. (GUJARATI E PORTER, 2011, p. 134-135)

De acordo com Gujarati e Porter (2011), estatisticamente rejeitar a hipótese nula significa que os resultados foram estatisticamente significativos. Caso contrário, estes não são estatisticamente significativos. (GUJARATI E PORTER, 2011, p. 135)

(30)

Da mesma forma que o intervalo de confiança, o teste t se baseia no uso de uma variação da segunda equação com o intuito de determinar se uma hipótese nula é ou não aceita:

Pr( 𝛽2∗− 𝑡∝/2 𝑒𝑝 (𝛽̂2) ≤ 𝛽̂2 ≤ 𝛽2∗+ 𝑡∝/2 𝑒𝑝 (𝛽̂2) ) = 1 − α

Sendo 𝛽2∗ o valor estabelecido para 𝛽2 na hipótese nula H0. Dessa forma, o intervalo de

confiança estabelece a região em que a hipótese nula será aceita. Caso o valor estimado 𝛽̂2 esteja fora deste, então pode-se rejeitar a hipótese nula e considerar que o estimador é estatisticamente significativo. (GUJARATI E PORTER, 2011, p. 135)

Um teste bastante comum é o da hipótese nula “zero”. Neste caso, estabelece-se a hipótese nula H0: 𝛽̂2 = 0, sendo 𝛽̂2 o coeficiente angular de uma variável explicativa em um modelo de

regressão linear, por exemplo. Neste caso, se a hipótese nula fora aceita, então significa que a variável explanatória não é estatisticamente relevante no modelo, e portanto não afeta a variável explicada. (GUJARATI E PORTER, 2011, p. 139-140)

É importante de se ressaltar que o valor escolhido para α é relativamente arbitrário, mas tende a variar entre 1%, 5% e 10% nas aplicações práticas. Quanto maior for o seu valor, maior é a chance de se aceitar a hipótese nula quando é falsa, ou de recusá-la quando é verdadeira. Existe, entretanto, a possibilidade de se utilizar o valor p em vez de α. Este representa “o menor nível de significância em que uma hipótese nula pode ser rejeitada.”, e será inversamente proporcional ao valor de t. Sendo assim, quanto menor for o valor p, maior é a chance da hipótese nula ser corretamente rejeitada e de uma variável ser considerada como estatisticamente significante dentro de um modelo.

3.3.2. TESTE F

Em casos de regressões com mais de uma variável explicativa, o teste t pode ser utilizado apenas para responder para cada uma individualmente, mas não é capaz de explicar o modelo como um todo. Seguindo a mesma lógica que o teste de hipóteses usa para dizer se uma variável é ou não significante, os autores discorrem que a hipótese nula H0 teria que considerar que os todos os parâmetros fossem iguais a zero. Entretanto, existe a possibilidade de que os intervalos não sejam independentes quando os mesmos dados são utilizados na sua obtenção. (GUJARATI E PORTER, 2011, p. 251)

Sendo assim, o teste t não deve ser utilizado para avaliar um modelo como um todo em casos de mais de uma variável. Nestas situações, é recomendado que se use o teste F. De acordo com os procedimentos da ANOVA e sob a hipótese de normalidade dos erros, é possível de se

(31)

demonstrar que existe uma variável F dependente da fórmula de regressão e dos graus de liberdade que segue a distribuição F1. (GUJARATI E PORTER, 2011, p. 251-252)

O teste F é capaz de fornecer um teste para verificar se os parâmetros de uma regressão, excluso o intercepto, são diferentes de zero. A partir desta fórmula, é possível de se encontrar um valor de F que deve ser comparado com a tabela ANOVA para que seja decidido se a hipótese nula de que o modelo como um todo é estatisticamente significante deve ou não ser rejeitada. O procedimento de escolha do intervalo de confiança e de comparação é similar ao do teste t. Caso o valor encontrado para F supere o da tabela para a quantidade de graus de liberdade naquele intervalo de confiança, então a hipótese nula é rejeitada. (GUJARATI E PORTER, 2011, p. 252)

3.3.3. CRITÉRIOS DE VERIFICAÇÃO DE AJUSTE ENTRE MODELOS

Além dos testes de hipótese para determinação da significância estatística de um modelo, há também alguns importantes critérios para verificação do grau de ajustamento das variáveis explicativas em relação à explicada. Tais coeficientes podem ser comparados entre modelos para definir qual tem o melhor ajuste e, consequentemente tenderá a dar a melhor previsão. (GUJARATI E PORTER, 2011, p. 491)

Entre estes coeficientes, um dos mais utilizados é o R². De acordo com os autores, o coeficiente R² pode ser calculado da seguinte forma:

𝑅2 = 1 − ∑ 𝑢̂𝑖 2

∑ 𝑦̂𝑖2 = 1 − 𝑆𝑄𝑅

Em que ∑𝑦̂𝑖2 pode ser descrito como o somatório do quadrado das diferenças entre as observações reais da variável explicada e a sua média, e ∑𝑢̂𝑖2 como o somatório dos quadrados dos termos de erro gerados pela regressão. (GUJARATI E PORTER, 2011, p. 217)

Desta forma, quanto menores forem os resíduos, mais o valor de R² se aproximará de um. Sendo assim, quanto maior for este coeficiente, maior será a correlação entre as variáveis explicativas e a variável explicada. Isto pode ser aplicado na comparação entre diferentes modelos, em que o melhor é definido por aquele que tiver o maior valor de R². Entretanto, deve-se garantir que o número de parâmetros é o mesmo para que os diferentes valores de R² deve-sejam comparáveis. Além disso, é importante de se ressaltar que o coeficiente tem seus valores situados entre zero e um. (GUJARATI E PORTER, 2011, p. 217)

(32)

A verificação de modelos com diferentes quantidades de variáveis explicativas pode ser feita por meio do coeficiente R² ajustado. A diferença entre este e o R² comum é a adição dos graus de liberdade na fórmula, podendo esta ser escrita da seguinte forma:

𝑅̅2 = 1 − (1 − 𝑅2) 𝑛 − 1 𝑛 − 𝑘

Em que n é o número de observações da série utilizada, e k é o número de parâmetros, incluindo o do intercepto caso este seja diferente de zero. Desta forma, pode-se dizer que conforme a quantidade de variáveis explicativas aumentar, maior será o seu impacto sobre o R̅2. Além disso, o seu valor pode ser negativo, ainda que R² não o seja, e neste caso será considerado como zero. (GUJARATI E PORTER, 2011, p. 217-218)

É importante de se ressaltar que, embora seja utilizado com frequência para medir a qualidade de ajustamento de um modelo de regressão, o critério R² pode mudar caso a amostra de observações varie. Além disso, seu valor aumentará com a inclusão de novas variáveis, porém isso impactará também em um aumento na variância do erro de previsão. Como método de comparação entre modelos, é importante que isto seja feito apenas com modelos que contenham as mesmas variáveis. (GUJARATI E PORTER, 2011, p. 491)

Além desses critérios, são também muito utilizados o Erro Quadrático Médio (EQM) e a Raíz do Erro Quadrático Médio (REQM), que também são conhecidos por suas siglas em inglês, MSE e RMSE, respectivamente. O primeiro pode ser calculado pela soma dos quadrados dos resíduos dividida pelo número de observações da amostra, e o segundo é obtido pela raíz quadrada do EQM. (WILLMOTE E MATSUURA, 2005, p. 80, tradução nossa)

Por causa da sua relação com o tamanho da amostra, os dois coeficientes irão variar conforme a variância associada à frequência de distribuição de erro. Sendo assim, são medidas que penalizam aumentos na magnitude da variância dos resíduos. Além disso, quanto menores forem seus valores, melhor é o ajustamento do modelo em relação à realidade. (WILLMOTE E MATSUURA, 2005, p. 80-81, tradução nossa)

Referências

Documentos relacionados

As atividades realizadas no decorrer do projeto foram: levantamento bibliográfico sobre ensino de programação concorrente e teste de software, elaboração de alguns objetos de

a) O polícia disse um palavrão, após ter saído da casa de Adrian. Corrige as falsas.. A mãe também está com gripe. “Quase que não consegui ficar calado quando vi que não

No ano agrícola de 2015/2016, por exemplo, o crédito rural no Brasil tinha 21 fontes de recursos oferecendo crédito sob condições de financiamento diferentes. Uma comparação

Mussorgsky: Trepak from Song Cycle “ Songs and Dances of Death” , transcription for piano by Andrei Korobeinikov Russia K6P.4,V/RG?/E}0BV-.. Mussorgsky : Gopak, transcription for

O RKW é um método de custeio que consiste no rateio não só dos custos de produção como também de todas as despesas da empresa, inclusive financeiras, a todos

Habilitação de empresas autorizadas pela superintendência de seguros privados - susep para atuar como seguradora do contrato de financiamento estudantil - fies, ofertando

Por ocasião do jogo S.E. Palmeiras x Joinville E.C pelo Campeonato Brasileiro 2015, a realizar-se no Allianz Parque, será operacionalizado esquema especial de

Observação: Quando o telefone está configurado para Predefinição de Fone de ouvido, você também pode pres- sionar a tecla de linha que está piscando para atender uma chamada.