Premissas do Modelo Linear
Análise de Regressão
Prof. MSc. Danilo Scorzoni Ré
FMU – Estatística Aplicada
Análise de Regressão
Data Tópico Teórico Tópico Prático
04/05/2015 Conceitos Introdutórios Revisão do R, Análises Univariadas, Análises Bivariadas
11/05/2015 Regressão Linear Simples Regressão Linear Simples e Gráficos
18/05/2015 Premissas do Modelo Linear Análise de Resíduos e Transformações nas Variáveis
25/05/2015 Regressão Linear Múltipla Análise de Regressão Linear Múltipla
01/06/2015 Análise de Variância Análise de Variância e Comparações Múltiplas
08/06/2015 Não Haverá Exercícios de Fixação
12/06/2015 ATIVIDADE EXTRA CLASSE
15/06/2015 Modelos Lineares Generalizados Regressão Logística, Regressão de Poisson e Regressão Gama
22/06/2015 Análise Preditiva Análise Preditiva
29/06/2015 AVALIAÇÃO FINAL
Regressão Linear Simples
Análise de Regressão
Prof. MSc. Danilo Scorzoni Ré
FMU – Estatística Aplicada
Regressão Linear Simples
Regressão – Conceitos Gerais
• A equação que representa a regressão linear simples é dado por:
𝒀
𝒊
= 𝜷
𝟎
+ 𝜷
𝟏
𝑿
𝒊
+ 𝜺
𝒊
Regressão Linear Simples
Regressão – Conceitos Gerais
• O objetivo do ajuste do modelo é estimar os parâmetros beta. Em termos práticos, é encontrar a reta que passa bem no meio da nuvem de pontos. • A distância entre cada ponto e a reta, é chamado de erro (𝜀𝑖).
• O algoritmo que minimiza a soma do quadrado dos erros é o mais utilizado para estimar os parâmetros da reta. Este algoritmo é conhecimento como Método dos Mínimos Quadrados.
Regressão Linear Simples
Regressão – Conceitos Gerais
• O Método de Mínimos Quadrados apresenta os seguintes estimadores para os betas, derivado da correlação:
𝜷
𝟏= 𝒓
𝑿𝒀𝑺
𝒀Regressão Linear Simples
Regressão – Conceitos Gerais
𝑟𝑥𝑦 = −0,8521 𝑆𝑦 = 6,0269 𝑆𝑥 = 1,7859 𝑌 = 20,09 𝑋 = 6,187
𝜷
𝟏= −𝟎, 𝟖𝟓𝟐𝟏
𝟔, 𝟎𝟐𝟔𝟗
𝟏, 𝟕𝟖𝟓𝟗
= −𝟐, 𝟖𝟕𝟔
𝜷
𝟎= 𝟐𝟎, 𝟎𝟗 − −𝟐, 𝟖𝟕𝟔 ∗ 𝟔, 𝟏𝟖𝟖 = 𝟑𝟕, 𝟖𝟖𝟓
Logo, a equação que melhor explica a relação é:
𝒀
𝒊
Regressão Linear Simples
Regressão – Coeficiente de Determinação
• O coeficiente de determinação é uma medida que mostra o quão bom um modelo explica uma relação. Também conhecido como percentual de
variância explicada.
𝑹
𝟐
= 𝟏 −
𝒚
− 𝒚
𝒊
𝒊
𝟐
Regressão Linear Simples
Regressão – Coeficiente de Determinação
Regressão Linear Simples
Regressão – Erro padrão residual
• O erro padrão residual é outra métrica de variação, baseada nos resíduos, que permite obter o percentual de variação em função da variável resposta:
𝒔
𝒚𝒙
=
𝒚
𝒊
− 𝒚
𝒊
𝟐
𝒏 − 𝟏
𝒔
𝒚𝒙
(%) =
𝒔
𝒚𝒙
𝒚
× 𝟏𝟎𝟎
Regressão Linear Simples
Regressão – Erro padrão residual
Premissas do Modelo Linear
Análise de Regressão
Prof. MSc. Danilo Scorzoni Ré
FMU – Estatística Aplicada
Premissas do Modelo Linear
Regressão – Inferências
• Um dos aspectos mais importantes dos modelos lineares é realizar inferências sobre as estimativas dos parâmetros.
• Na prática, isso significa realizar testes de hipóteses para comprovar a existência das relações entre as variáveis estudadas.
• Entretanto, para as inferências serem válidas, é preciso atestar que as
premissas dos modelos lineares são atendidas em uma análise estatística. Caso
contrário, todas as inferências realizadas podem estar equivocadas.
• As premissas são aplicadas devido à definição da distribuição dos dados, que recai sobre o erro do modelo. Em termos práticos, as premissas são testadas em cima dos resíduos.
Premissas do Modelo Linear
Regressão – Inferências
Os resíduos são calculados com os dados observados e estimados. Em termos estatísticos, quando se fala na teoria e definição do modelo, temos o erro do modelo, em termos práticos, ou seja, quando utilizamos os dados, temos os resíduos:
𝜺
𝒊= 𝒀
𝒊− 𝒀
𝒊𝒓
𝒊= 𝒀
𝒊− 𝒀
𝒊termos teóricos
Premissas do Modelo Linear
Regressão – Inferências
No fim das contas, em termos práticos, erros e resíduos são a mesma coisa.
Premissas do Modelo Linear
Regressão – Inferências
A primeira premissa é:
OS RESÍDUOS DEVEM APRESENTAR
DISTRIBUIÇÃO NORMAL.
Premissas do Modelo Linear
Regressão – Inferências
Premissas do Modelo Linear
Regressão – Inferências
O teste de Shapiro-Wilk também mostra se existe normalidade dos resíduos: • A hipótese nula (H0) deste teste indica normalidade.
• Se o p-valor for maior que 0,05 resíduos com normalidade • Se o p-valor for menor que 0,05 resíduos sem normalidade
Premissas do Modelo Linear
Premissas do Modelo Linear
Regressão – Inferências
Premissas do Modelo Linear
Premissas do Modelo Linear
Regressão – Inferências
Premissas do Modelo Linear
Premissas do Modelo Linear
Regressão – Inferências
Premissas do Modelo Linear
Regressão – Inferências
A segunda premissa é:
OS RESÍDUOS DEVEM APRESENTAR
VARIÂNCIA CONSTANTE.
Premissas do Modelo Linear
Regressão – Inferências
• A premissa da variância constante está relacionada ao estimador da variância dos parâmetros. Pelo método de mínimos quadrados ordinários, a variância deve ser constante.
• Para os casos de variância não constante, dependendo da forma que a variância se apresenta, pode-se utilizar o método de mínimos quadrados ponderados, explicitando a forma funcional da variância.
• Outra alternativa é utilizar uma transformação da variável resposta para garantir uma variância constante.
Premissas do Modelo Linear
Regressão – Inferências
Gráfico de Dispersão com a Reta da Regressão
Gráfico dos Resíduos em Função dos Valores Estimados
Premissas do Modelo Linear
Regressão – Inferências
Enfim, o que é uma variância constante?
Premissas do Modelo Linear
Regressão – Inferências
Enfim, o que é uma variância constante?
Premissas do Modelo Linear
Regressão – Inferências
A terceira premissa é:
OS RESÍDUOS NÃO DEVEM APRESENTAR
AUTO-CORRELAÇÃO
Premissas do Modelo Linear
Regressão – Inferências
• A existência de auto-correlação é uma violação grave das premissas do modelo linear, pois interfere diretamente na distribuição dos resíduos.
• Modelos que apresentam auto-correlação nos resíduos são claramente
identificados através da análise de resíduos e demonstram uma falha grave na especificação do modelo para o conjunto de dados.
Premissas do Modelo Linear
Premissas do Modelo Linear
Regressão – Inferências
Teste de Shapiro-Wilk:
Premissas do Modelo Linear
Regressão – Inferências
Premissas do Modelo Linear
Regressão – Inferências
• Estudar a forma funcional da relação entre Y e X pode nos dizer como podemos especificar o modelo corretamente.
• As tentativas podem ser a adição de mais graus polinomiais ou
transformações como o logaritmo e a raiz quadrada.
Premissas do Modelo Linear
Regressão – Inferências
𝒀
𝒊= 𝜷
𝟎+ 𝜷
𝟏𝑿
𝒊+ 𝜷
𝟐𝑿
𝒊𝟐+ 𝜺
𝒊Teste de Shapiro-Wilk p-valor = 0.2616
𝒀
𝒊Premissas do Modelo Linear
Regressão – Inferências
• Após checar as 3 premissas do modelo, podemos fazer as inferências:
𝜷
𝒌
𝝈
𝒌
~𝒕
(𝒏−𝟏)
A quantidade referente a divisão do valor da estimativa do parâmetro por seu desvio padrão tem uma distribuição t de Student,
com n-1 graus de liberdade.
Premissas do Modelo Linear
Regressão – Inferências
𝑯
𝟎
: 𝜷
= 𝟎
𝒌
𝑯
𝟏
: 𝜷
≠ 𝟎
𝒌
• Na prática, testamos cada uma das estimativas dos parâmetros para verificar se são diferentes de zero.
• Quando diferente de zero, significa que existe efeito significativo daquela variável.
• Novamente, a probabilidade calculada pelo teste deve ser inferior ao nível de significância especificado previamente (5%).
Premissas do Modelo Linear
Regressão – Inferências
Voltando ao exemplo da aula passada:
• Conjunto de dados mtcars.
Premissas do Modelo Linear
Regressão – Inferências
Voltando ao exemplo da aula passada:
• Conjunto de dados mtcars.
• Modelo apresentado mpg ~ drat
Premissas do Modelo Linear
Regressão – Inferências
Voltando ao exemplo da aula passada:
• Conjunto de dados mtcars.
• Modelo apresentado mpg ~ drat
Premissas do Modelo Linear
Premissas do Modelo Linear
Premissas do Modelo Linear
Premissas do Modelo Linear
Premissas do Modelo Linear
Premissas do Modelo Linear
Regressão – Inferências
Existe efeito
significativo da
variável drat neste
Premissas do Modelo Linear
Regressão – Inferências
Existe efeito
significativo da
variável drat neste
modelo?
Premissas do Modelo Linear
Regressão – Inferências
Portanto, a sequência lógica da análise de regressão é:
1. Estudar as relações utilizando a estatística descritiva. 2. Ajustar o modelo para estimar os parâmetros.
3. Observar a qualidade do ajuste utilizando o R² e o syx (%).
4. Observar as premissas através dos gráficos de resíduos e do teste de normalidade dos resíduos (Shapiro-Wilk).