Modelagem Preditiva
Análise de Regressão
Prof. MSc. Danilo Scorzoni Ré
FMU – Estatística Aplicada
Análise de Regressão
Data Tópico Teórico Tópico Prático
04/05/2015 Conceitos Introdutórios Revisão do R, Análises Univariadas, Análises Bivariadas 11/05/2015 Regressão Linear Simples Regressão Linear Simples e Gráficos
18/05/2015 Premissas do Modelo Linear Análise de Resíduos e Transformações nas Variáveis 25/05/2015 Regressão Linear Múltipla Análise de Regressão Linear Múltipla 01/06/2015 Análise de Variância Análise de Variância e Comparações Múltiplas 08/06/2015 Não Haverá Exercícios de Fixação
12/06/2015 ATIVIDADE EXTRA CLASSE
15/06/2015 Modelos Lineares Generalizados Regressão Logística, Regressão de Poisson e Regressão Gama
22/06/2015 Análise Preditiva Análise Preditiva
29/06/2015 AVALIAÇÃO FINAL
Modelagem Preditiva
Análise de Regressão
Prof. MSc. Danilo Scorzoni Ré
FMU – Estatística Aplicada
Modelagem Preditiva
Modelagem Preditiva – Conceitos Gerais
• A modelagem preditiva (também conhecida como Machine Learning ou Aprendizado de Máquina ou reconhecimento de padrões) tem por objetivo gerar estimativas mais precisas sobre uma quantidade ou evento.
• Estes modelos normalmente não são descritivos (ou seja, não devem ser usados para explicar fenômenos) e não são adequados para se realizar inferências.
Modelagem Preditiva
Modelagem Preditiva – Conceitos Gerais
• A consequência disso está nas metodologias empregadas para avaliação do resultado do modelo:
• Na modelagem descritiva, as premissas devem ser atendidas para que a interpretação e inferências sobre os parâmetros sejam válidas.
• Na modelagem preditiva, o objetivo é conseguir o modelo de maior precisão nas estimativas, não se fixando em inferências.
Modelagem Preditiva
Modelagem Preditiva – Metodologia
• As etapas comuns na construção do modelo são:
• Estimação dos parâmetros do modelo (treinamento)
• Determinação de parâmetros que não podem ser calculados diretamente através dos dados (tuning) – mais comum em algoritmos de machine learning que não serão vistos neste curso.
Modelagem Preditiva
Modelagem Preditiva – Metodologia
• Para isso, precisamos dividir nossa base de dados em 2 conjuntos:
• Treinamento – observações utilizadas para estimar os parâmetros do modelo.
• Validação (ou teste) – estas observações são usadas para avaliar a
precisão das estimativas obtidas no conjunto de treinamento. Estas não devem ser usadas na fase de treinamento.
Modelagem Preditiva
Modelagem Preditiva – Metodologia
• Quanto ao % de divisão do conjunto de dados, algumas informações são importantes:
• Estatisticamente, o ideal é que 100% dos dados fossem utilizados para a estimação dos parâmetros (treinamento) mas isso pode causar um
over-fitting nos dados, ou seja, a adaptação do modelo ao conjunto de dados
em si, não permitindo generalizações.
• Se gastarmos um alto % na base de validação, não será possível adquirir
Modelagem Preditiva
Modelagem Preditiva – Metodologia
• Quanto à avaliação dos modelos, para variáveis contínuas, temos: • R² que é muito popular.
• Raiz quadrada do Erro quadrático médio (RMSE) – erro padrão da média • Correlação de Spearman
Modelagem Preditiva
Modelagem Preditiva – Exemplo
• Nossa base de dados extraída do Kaggle.com refere-se ao seguinte problema: • É possível realizar um modelo preditivo de quantas bicicletas serão
alugadas por hora em um sistema de aluguel?
• As variáveis preditoras são: • estação do ano
• flag de feriado
• flag de dia de trabalho (dia de semana) • condições climáticas
• temperatura
Modelagem Preditiva
Modelagem Preditiva
Modelagem Preditiva – Exemplo
Modelagem Preditiva
Modelagem Preditiva – Exemplo
1. Quebramos a base de dados em treinamento (70%) e validação (30%)
2. Ajustamos uma regressão linear, com seleção de variáveis pelo método
stepwise.
3. Aplicamos o modelo na base de validação. 4. Calculamos e avaliamos os indicadores.
Modelagem Preditiva
Modelagem Preditiva – Exemplo
Estimate Std, Error t value Pr(>|t|)
(Intercept) 128,299 9,928 12,923 < 2e-16 *** season2 -2,820 6,421 -0,439 0,6606 season3 -43,070 8,135 -5,294 0,0000 *** season4 64,763 5,373 12,053 < 2e-16 *** temp 11,104 0,381 29,181 < 2e-16 *** humidity -2,804 0,100 -28,169 < 2e-16 *** windspeed 0,533 0,230 2,319 0,0204 *
Modelagem Preditiva
Modelagem Preditiva – Exemplo
Comparando os indicadores nas bases de treinamento e validação:
Indicador Base de Treinamento Base de Validação
syx 153,7 155,8
r 0,53 0,52
R² 0,27 0,27
Garantir indicadores próximos entre as bases de treinamento e validação
indica estabilidade do modelo característica positiva.
Modelagem Preditiva
Modelagem Preditiva – Metodologia
• Quando à avaliação de modelos de classificação, ou seja, quando a variável resposta é binária ou qualitativa, temos outras métricas:
• Sensibilidade – porção de indivíduos que foram identificados na classe de interesse em relação ao total que estão na classe de interesse (ex. proporção de indivíduos identificados como doentes em relação ao total de doentes). • Especificidade – proporção de indivíduos que não foram identificados na
classe de interesse em relação ao total que não estão na classe de interesse (ex. proporção de indivíduos identificados como sadios em relação ao total de sadios).
Modelagem Preditiva
Modelagem Preditiva – Metodologia
𝑺𝒆𝒏𝒔𝒊𝒃𝒊𝒍𝒊𝒅𝒂𝒅𝒆 = # 𝑖𝑛𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠 𝑝𝑟𝑒𝑑𝑖𝑡𝑜𝑠 𝑐𝑜𝑚𝑜 𝑖𝑛𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠 # 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑖𝑛𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠
𝑬𝒔𝒑𝒆𝒄𝒊𝒇𝒊𝒄𝒊𝒅𝒂𝒅𝒆 = # 𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠 𝑝𝑟𝑒𝑑𝑖𝑡𝑜𝑠 𝑐𝑜𝑚𝑜 𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠 # 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑎𝑑𝑖𝑚𝑝𝑙𝑒𝑛𝑡𝑒𝑠
Modelagem Preditiva
Modelagem Preditiva – Metodologia
• A Curva ROC é um gráfico onde se plotam a sensibilidade (taxa de verdadeiro
positivo) e um menos a especificidade (taxa de falso positivo).
• Esta curva é plotada para diferentes pontos de corte de probabilidade para se considerar o evento estudado.
• A área sob a curva ROC é uma medida de acurácia do modelo, muito utilizado nos problemas de classificação (resposta binária ou qualitativa).
Modelagem Preditiva
Modelagem Preditiva
Modelagem Preditiva – Metodologia
• Uma medida muito importante na área de crédito é o KS.
• Em estatística não-paramétrica, o teste de Kolmogorov-Smirnov testa a aderência de distribuições empíricas em distribuições teóricas.
• O conceito parte da distribuição acumulada das variáveis, cuja estatística é o cálculo da maior distância entre as duas distribuições acumuladas.
• O valor da estatística KS quando analisado as distribuições de probabilidade de ocorrência e não ocorrência do evento é utilizado como critério de qualidade.
Modelagem Preditiva
Modelagem Preditiva – Metodologia
KS
Quanto maior o KS, melhor o modelo. Mas cuidado, KS’s muitos
altos indicam problema!
Modelagem Preditiva
Modelagem Preditiva – Exemplo
• O conjunto de dados GermanCredit do pacote caret possui uma série de variáveis de crédito e a resposta, se o cliente se tornou inadimplente, classifica o cliente em Bom ou Mau (não inadimplente ou inadimplente em um período de 12 meses).
• Variáveis: Quantidade de parcelas, valor do crédito, idade, tempo de residência, finalidade do crédito, economias, tempo de emprego, estado civil, entre outras. • O objetivo é desenvolver um modelo preditivo que dá a probabilidade da pessoa
se tornar inadimplente em um horizonte de 12 meses.
Modelagem Preditiva
Modelagem Preditiva – Exemplo
Estimate Std, Error z value Pr(>|z|)
(Intercept) 3,13600 0,3827 8,20 0,0000 *** Amount -0,00012 0,0000 -3,39 0,0007 *** InstallmentRatePercentage -0,30320 0,0906 -3,35 0,0008 *** CheckingAccountStatus,lt,0 -1,86400 0,2299 -8,11 0,0000 *** CheckingAccountStatus,0,to,200 -1,46100 0,2351 -6,22 0,0000 *** CreditHistory,NoCredit,AllPaid -0,97410 0,4198 -2,32 0,0203 * CreditHistory,ThisBank,AllPaid -0,92360 0,3844 -2,40 0,0163 * Purpose,NewCar -0,67890 0,2174 -3,12 0,0018 ** Personal,Male,Single 0,63560 0,1928 3,30 0,0010 ***
Modelagem Preditiva
Modelagem Preditiva – Exemplo
Indicador Base de Treinamento Base de Validação
Sensibilidade 0,6454 0,6324
Especificidade 0,7871 0,7974
ROC 0,7699 0,7733
KS 0,40 0,48
Indicadores de qualidade da predição