• Nenhum resultado encontrado

Aula 6 - Modelagem Preditiva

N/A
N/A
Protected

Academic year: 2021

Share "Aula 6 - Modelagem Preditiva"

Copied!
24
0
0

Texto

(1)

Modelagem Preditiva

Análise de Regressão

Prof. MSc. Danilo Scorzoni Ré

FMU – Estatística Aplicada

(2)

Análise de Regressão

Data Tópico Teórico Tópico Prático

04/05/2015 Conceitos Introdutórios Revisão do R, Análises Univariadas, Análises Bivariadas 11/05/2015 Regressão Linear Simples Regressão Linear Simples e Gráficos

18/05/2015 Premissas do Modelo Linear Análise de Resíduos e Transformações nas Variáveis 25/05/2015 Regressão Linear Múltipla Análise de Regressão Linear Múltipla 01/06/2015 Análise de Variância Análise de Variância e Comparações Múltiplas 08/06/2015 Não Haverá Exercícios de Fixação

12/06/2015 ATIVIDADE EXTRA CLASSE

15/06/2015 Modelos Lineares Generalizados Regressão Logística, Regressão de Poisson e Regressão Gama

22/06/2015 Análise Preditiva Análise Preditiva

29/06/2015 AVALIAÇÃO FINAL

(3)

Modelagem Preditiva

Análise de Regressão

Prof. MSc. Danilo Scorzoni Ré

FMU – Estatística Aplicada

(4)

Modelagem Preditiva

Modelagem Preditiva – Conceitos Gerais

• A modelagem preditiva (também conhecida como Machine Learning ou Aprendizado de Máquina ou reconhecimento de padrões) tem por objetivo gerar estimativas mais precisas sobre uma quantidade ou evento.

• Estes modelos normalmente não são descritivos (ou seja, não devem ser usados para explicar fenômenos) e não são adequados para se realizar inferências.

(5)

Modelagem Preditiva

Modelagem Preditiva – Conceitos Gerais

• A consequência disso está nas metodologias empregadas para avaliação do resultado do modelo:

• Na modelagem descritiva, as premissas devem ser atendidas para que a interpretação e inferências sobre os parâmetros sejam válidas.

• Na modelagem preditiva, o objetivo é conseguir o modelo de maior precisão nas estimativas, não se fixando em inferências.

(6)

Modelagem Preditiva

Modelagem Preditiva – Metodologia

• As etapas comuns na construção do modelo são:

• Estimação dos parâmetros do modelo (treinamento)

• Determinação de parâmetros que não podem ser calculados diretamente através dos dados (tuning) – mais comum em algoritmos de machine learning que não serão vistos neste curso.

(7)

Modelagem Preditiva

Modelagem Preditiva – Metodologia

• Para isso, precisamos dividir nossa base de dados em 2 conjuntos:

• Treinamento – observações utilizadas para estimar os parâmetros do modelo.

• Validação (ou teste) – estas observações são usadas para avaliar a

precisão das estimativas obtidas no conjunto de treinamento. Estas não devem ser usadas na fase de treinamento.

(8)

Modelagem Preditiva

Modelagem Preditiva – Metodologia

• Quanto ao % de divisão do conjunto de dados, algumas informações são importantes:

• Estatisticamente, o ideal é que 100% dos dados fossem utilizados para a estimação dos parâmetros (treinamento) mas isso pode causar um

over-fitting nos dados, ou seja, a adaptação do modelo ao conjunto de dados

em si, não permitindo generalizações.

• Se gastarmos um alto % na base de validação, não será possível adquirir

(9)

Modelagem Preditiva

Modelagem Preditiva – Metodologia

• Quanto à avaliação dos modelos, para variáveis contínuas, temos: • R² que é muito popular.

• Raiz quadrada do Erro quadrático médio (RMSE) – erro padrão da média • Correlação de Spearman

(10)

Modelagem Preditiva

Modelagem Preditiva – Exemplo

• Nossa base de dados extraída do Kaggle.com refere-se ao seguinte problema: • É possível realizar um modelo preditivo de quantas bicicletas serão

alugadas por hora em um sistema de aluguel?

• As variáveis preditoras são: • estação do ano

• flag de feriado

• flag de dia de trabalho (dia de semana) • condições climáticas

• temperatura

(11)

Modelagem Preditiva

(12)

Modelagem Preditiva

Modelagem Preditiva – Exemplo

(13)

Modelagem Preditiva

Modelagem Preditiva – Exemplo

1. Quebramos a base de dados em treinamento (70%) e validação (30%)

2. Ajustamos uma regressão linear, com seleção de variáveis pelo método

stepwise.

3. Aplicamos o modelo na base de validação. 4. Calculamos e avaliamos os indicadores.

(14)

Modelagem Preditiva

Modelagem Preditiva – Exemplo

Estimate Std, Error t value Pr(>|t|)

(Intercept) 128,299 9,928 12,923 < 2e-16 *** season2 -2,820 6,421 -0,439 0,6606 season3 -43,070 8,135 -5,294 0,0000 *** season4 64,763 5,373 12,053 < 2e-16 *** temp 11,104 0,381 29,181 < 2e-16 *** humidity -2,804 0,100 -28,169 < 2e-16 *** windspeed 0,533 0,230 2,319 0,0204 *

(15)

Modelagem Preditiva

Modelagem Preditiva – Exemplo

Comparando os indicadores nas bases de treinamento e validação:

Indicador Base de Treinamento Base de Validação

syx 153,7 155,8

r 0,53 0,52

R² 0,27 0,27

Garantir indicadores próximos entre as bases de treinamento e validação

indica estabilidade do modelo  característica positiva.

(16)

Modelagem Preditiva

Modelagem Preditiva – Metodologia

• Quando à avaliação de modelos de classificação, ou seja, quando a variável resposta é binária ou qualitativa, temos outras métricas:

• Sensibilidade – porção de indivíduos que foram identificados na classe de interesse em relação ao total que estão na classe de interesse (ex. proporção de indivíduos identificados como doentes em relação ao total de doentes). • Especificidade – proporção de indivíduos que não foram identificados na

classe de interesse em relação ao total que não estão na classe de interesse (ex. proporção de indivíduos identificados como sadios em relação ao total de sadios).

(17)

Modelagem Preditiva

Modelagem Preditiva – Metodologia

𝑺𝒆𝒏𝒔𝒊𝒃𝒊𝒍𝒊𝒅𝒂𝒅𝒆 = # 𝑖𝑛𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠 𝑝𝑟𝑒𝑑𝑖𝑡𝑜𝑠 𝑐𝑜𝑚𝑜 𝑖𝑛𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠 # 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑖𝑛𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠

𝑬𝒔𝒑𝒆𝒄𝒊𝒇𝒊𝒄𝒊𝒅𝒂𝒅𝒆 = # 𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠 𝑝𝑟𝑒𝑑𝑖𝑡𝑜𝑠 𝑐𝑜𝑚𝑜 𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠 # 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠

(18)

Modelagem Preditiva

Modelagem Preditiva – Metodologia

• A Curva ROC é um gráfico onde se plotam a sensibilidade (taxa de verdadeiro

positivo) e um menos a especificidade (taxa de falso positivo).

• Esta curva é plotada para diferentes pontos de corte de probabilidade para se considerar o evento estudado.

• A área sob a curva ROC é uma medida de acurácia do modelo, muito utilizado nos problemas de classificação (resposta binária ou qualitativa).

(19)

Modelagem Preditiva

(20)

Modelagem Preditiva

Modelagem Preditiva – Metodologia

• Uma medida muito importante na área de crédito é o KS.

• Em estatística não-paramétrica, o teste de Kolmogorov-Smirnov testa a aderência de distribuições empíricas em distribuições teóricas.

• O conceito parte da distribuição acumulada das variáveis, cuja estatística é o cálculo da maior distância entre as duas distribuições acumuladas.

• O valor da estatística KS quando analisado as distribuições de probabilidade de ocorrência e não ocorrência do evento é utilizado como critério de qualidade.

(21)

Modelagem Preditiva

Modelagem Preditiva – Metodologia

KS

Quanto maior o KS, melhor o modelo. Mas cuidado, KS’s muitos

altos indicam problema!

(22)

Modelagem Preditiva

Modelagem Preditiva – Exemplo

• O conjunto de dados GermanCredit do pacote caret possui uma série de variáveis de crédito e a resposta, se o cliente se tornou inadimplente, classifica o cliente em Bom ou Mau (não inadimplente ou inadimplente em um período de 12 meses).

• Variáveis: Quantidade de parcelas, valor do crédito, idade, tempo de residência, finalidade do crédito, economias, tempo de emprego, estado civil, entre outras. • O objetivo é desenvolver um modelo preditivo que dá a probabilidade da pessoa

se tornar inadimplente em um horizonte de 12 meses.

(23)

Modelagem Preditiva

Modelagem Preditiva – Exemplo

Estimate Std, Error z value Pr(>|z|)

(Intercept) 3,13600 0,3827 8,20 0,0000 *** Amount -0,00012 0,0000 -3,39 0,0007 *** InstallmentRatePercentage -0,30320 0,0906 -3,35 0,0008 *** CheckingAccountStatus,lt,0 -1,86400 0,2299 -8,11 0,0000 *** CheckingAccountStatus,0,to,200 -1,46100 0,2351 -6,22 0,0000 *** CreditHistory,NoCredit,AllPaid -0,97410 0,4198 -2,32 0,0203 * CreditHistory,ThisBank,AllPaid -0,92360 0,3844 -2,40 0,0163 * Purpose,NewCar -0,67890 0,2174 -3,12 0,0018 ** Personal,Male,Single 0,63560 0,1928 3,30 0,0010 ***

(24)

Modelagem Preditiva

Modelagem Preditiva – Exemplo

Indicador Base de Treinamento Base de Validação

Sensibilidade 0,6454 0,6324

Especificidade 0,7871 0,7974

ROC 0,7699 0,7733

KS 0,40 0,48

Indicadores de qualidade da predição

Garantir indicadores próximos entre as bases de treinamento e validação

indica estabilidade do modelo  característica positiva.

Referências

Documentos relacionados

Portanto, podemos afirmar que alcançamos o nosso objetivo, pois o resultado do estudo realizado nos forneceu dados importantes para a compreensão daquilo que nos

• Criação de um instrumento legal exigindo a implementação de medidas de gestão de urgência em caso dos valores limites de curto prazo para o Ozônio, PM10 e o NO2

Figura 30 – Composição isotópica do oxigênio (Histograma A) e hidrogênio (Histograma B) para o fluido em equilíbrio com as alterações de alta temperatura e veios de

As análises realizaram-se sobre as iluminâncias e a sua distribuição espacial no ambiente interno, tendo como variáveis: a tipologia da abertura, monitor e

Objetivou-se com este estudo avaliar a qualidade de leite pasteurizado com inspeção estadual pela pesquisa de estafilococos coagulase positiva, sua

A cinomose é uma doença que pode ter rápida progressão, com sintomatologia nervosa, levando animal a óbito em poucos dias, como no caso em questão. Quando

Na primeira, pesquisa teórica, apresentamos de modo sistematizado a teoria e normas sobre os meios não adversarias de solução de conflitos enfocados pela pesquisa, as características

À vista de tudo quanto foi dito, a forma mais adequada para compreender a questão parece ser a seguinte: (i) os direitos fundamentais são, em princípio,