Regressão
PRE-01 – Probabilidade e Estatística
Prof. Marcelo P. Corrêa
Regressão – Introdução
• Analisar a relação entre duas variáveis (x,y) através da
equação (equação de regressão) e do gráfico (gráfico de
regressão) que representa tal relação.
• Equação de regressão – Relação entre:
– x: variável independente (preditora, explanatória) – í: variável dependente (resposta)
• Hipóteses:
– Estudos de relações lineares – Cada valor de x:
• y é uma variável aleatória com distribuição normal • todas as distribuições de y têm a mesma variância
• a média da distribuição dos valores de y se localiza sobre a reta de regressão
Equação de Regressão
x
b
y
b
o=
−
1 1(
(
) ( )( )
2)
( )
2x
x
n
y
y
xy
n
b
∑
∑
∑
∑
∑
−
−
=
o 1ˆ
y
=
mx
+ ⇒ =
b
y
b
+
b x
intercepto de y inclinação bo b1 → estatísticas amostrais βo β1 → estatísticas populacionais o 1y
= β + β
x
Exemplo
(
) (
)( )
(
)
(
)
1 2 2 2n
xy
x
y
4(77) (14)(19)
b
1,1666666
4(58) (14)
n
x
x
−
−
=
=
=
−
−
∑
∑ ∑
∑
∑
x y x y xy x² y² 2 4 2 4 8 4 16 3 3 3 3 9 9 9 3 4 3 4 12 9 16 6 8 6 8 48 36 64 14 19 77 58 105 Σ o 1 ob
= −
y b x
⇒
b
=
4, 75 1,166667.3, 5
−
=
0, 667
ˆy
=
0, 667 1,167x
+
Estimativa dey=βExemplo
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 x y x y 2 4 3 3 3 4 6 8ˆy
=
0, 667 1,167x
+
Utilizando a equação de regressão
• Prevendo y com base em x
– Se existe correlação linear: usar a equação de regressão • Cuidados com a predição! Manter o valor da previsão de acordo
com valores reais (no alcance da amostra). • Usar a equação para a população da amostra.
• Verificar se a previsão é viável (datas, intervalos de valores, etc.)
– Se não existe correlação linear entre x e y: y (previsto) = y
• No 1° exemplo, podemos, portanto, prever qual seria y
para x = 5.
y = 3,865 + 2,168x
Avaliar a quantidade de hemoglobina para um paciente que apresente 5,5
unidades de medidas de glóbulos vermelhos
y = 3,865 + 2,168(5,5) y = 15,789
A média dos dados amostrais de hemoglobina é de 13,906
Resumindo, para prever uma variável, temos:
Calcular o valor de r
Testar a hipótese: ρ = 0
Há correlação linear significante ? (ρ = 0 é rejeitada ?) Predição pela Equação de Regressão Predição pela média amostral da variável a ser prevista sim não
Outras ferramentas para análise
• Mudança marginal (b
1) : variação de uma variável em
relação a variação, em uma unidade, da outra variável
emparelhada.
– No exemplo em que b1 = 2,168, temos que a taxa de
hemoglobina vai aumentar de 2,168 para cada aumento de uma unidade de glóbulos vermelhos.
0.00 0.20 0.40 0.60 0.80 1.00 1.20 1.40 1.60 1.80 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00
• Outliers e pontos influentes:
– Pontos que afetam
fortemente o gráfico da reta de regressão
• Resíduo: Diferença entre o valor amostral observado (y) e o valor previsto pela equação de regressão (í).
Resíduo = y – í
• Propriedade dos mínimos quadrados: Soma dos quadrados dos rezíduos deve ser mínima
Outras ferramentas para análise
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 x y x y y^ resíduo 2 4 3.0 1.0 3 3 4.2 -1.2 3 4 4.2 -0.2 6 8 7.7 0.3 Σ(res2) = 2,5
Outras ferramentas para análise
• Desvio total: Distância entre o ponto (x,y) e a reta horizontal quepassa pela média amostral.
• Desvio explicado: Distância entre o valor predito e a reta horizontal que passa pela média amostral.
• Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a reta de regressão.
Desvio total = Desvio explicado + Desvio não-explicado
Variação total = Variação explicada + Variação não-explicada
ˆ
ˆ
( y
−
y )
=
( y
−
y )
+
( y
−
y )
2 2 2ˆ
ˆ
( y
−
y )
=
( y
−
y )
+
( y
−
y )
∑
∑
∑
Exemplo
• No nosso primeiro exemplo, tínhamos:
– Admitiremos uma correlação linear significativa
– Equação da reta de regressão: í = 1.1667x + 0.6667 – A média dos valores de y é 4,75
– Um dos pares de dados amostrais é (3, 4)
– Substituindo x = 3 na equação, temos o ponto 4,1666... que é um dos pontos sobre a reta de regressão.
Desvio total: (y
y)
4 4, 75
0, 750
ˆ
Desvio explicado: (y
y)
4,1667 4, 75
0, 583
ˆ
Desvio não-explicado: (y
y)
4 4,1667
0,1667
−
= −
=
−
=
−
=
−
= −
=
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 x y Desvio explicado Desvio não-explicado
Exemplo
• No nosso primeiro exemplo, tínhamos:
– Admitiremos uma correlação linear significativa
– Equação da reta de regressão: í = 1.1667x + 0.6667 – A média dos valores de y é 4,75
– Um dos pares de dados amostrais é (3, 4)
– Substituindo x = 3 na equação, temos o ponto 4,1666... que é um dos pontos sobre a reta de regressão.
2 2 2
Variação total:
(y
y)
14,8
ˆ
Variação explicada:
(y
y)
12, 3
ˆ
Variação não-explicada:
(y
y)
2, 5
−
=
−
=
−
=
∑
∑
∑
Continuando nossa análise...
• Coeficiente de determinação (r
2): Quantidade de
variação em y, explicada pela reta de regressão.
r
2indica a % da variação total em y que pode ser
explicada pela relação linear (x,y).
No caso do exemplo: r
2= 12,3/14,8 = 0,831.
83,1% da variação total em y que pode ser explicada pela
relação linear (x,y).
total
Variação
explicada
Variação
)
y
y
(
)
y
yˆ
(
r
2 2 2=
−
−
=
∑
∑
Continuando nossa análise...
• Erro padrão da estimativa (s
e): Medida de como os
pontos amostrais se afastam da reta de regressão.
– se maiores: pontos mais afastados da reta de regressão – e vice-versa
No nosso exemplo:
2
n
xy
b
y
b
y
2
n
)
yˆ
y
(
s
o 1 2 2 e−
−
−
=
−
−
=
∑
∑
∑
∑
e105 0, 667(19) 1,1667(77)
s
1,1180 1,12
4 2
−
−
=
=
=
−
E mais...
• Intervalo de predição
No exemplo: Vimos que quando x = 5 a melhor predição para y é 6,50. No entanto, diz-se que ao se usar valores mais precisos de y, bo e b1, obtemos 6,47. Usando um NS de 95% determine o quão preciso é o valor 6,47. Se α = 0,05 Æ tα/2 = 4,303
(
)
(
)
2 o e 2 2 2n(x
x)
1
ˆ
ˆ
y E
y
y
E com E
t s
1
n
n
x
x
α−
− < < +
=
+ +
−
∑
∑
n–2 graus de liberdade( ) ( )
2 2 1 4(6, 5 3, 5) E 4, 303(1,12) 1 4, 303.1,12.1, 5 7, 22904 4 4 58 14 − = + + = = −Continuando...
ˆ
ˆ
y E
y
y
E
6, 47 7, 22904
y
6, 47 7, 22904
0, 76
y 13, 70
− < < +
−
< <
+
−
< <
Para x = 5, estamos 95% certos de que o valor de y está entre – 0,76 e 13,70. Vejam bem que, como o tamanho amostral é muito pequeno, o intervalo de predição é grande!
Regressão múltipla
• Relação linear entre uma variável dependente y e duas ou mais variáveis independentes (x1, x2,..., xk)
b1, b2,..., bk Æ estimativas amostrais de β1, β2,..., βk
β1, β2,..., βk Æ coeficientes das variáveis independentes x1, x2,..., xk βo Æ valor de y quando todas as variáveis são nulas (parâmetro populacional)
bo Æ estatística amostral e estimativa de βo
• Extremamente complicado. Exige o uso de pacotes estatísticos!
o 1 1 2 2 k k
Regressão múltipla
• Coeficiente de determinação múltipla (R2): Avalia o ajuste da
equação de regressão múltipla aos dados amostrais.
• Coeficiente de determinação múltipla ajustado: R2 modificado para
levar em conta o número de variáveis e o tamanho amostral.
k = número de variáveis independentes (x1, x2,..., xk) n = tamanho da amostra
• Valor P: Medida da significância da Eq. Reg. Múltipla
)
R
1
(
)]
1
k
(
n
[
)
1
n
(
1
R
2 2 ajustado−
+
−
−
−
=
Exemplo: Regressão Múltipla
• Dados
Colesterol522 Idade58 Altura180 Peso76127 22 168 65 740 32 182 81 49 31 174 79 230 28 172 69 316 46 176 75 590 41 169 61 466 56 171 91 121 20 173 79 578 54 167 63 78 17 160 70 265 73 173 84 250 52 186 86 265 25 172 68 273 29 173 94 272 17 180 107 972 41 156 80 75 52 194 99 138 32 168 75 139 20 177 62 Um estudo mostra os seguintes dados coletados no posto de saúde de um bairro da cidade. É possível predizer o nível de colesterol a partir da idade, altura e peso ?
Exemplo: Regressão Múltipla
y = 2010,28 + 6,45*idade – 11,67*altura + 1,25*peso
Será que o uso de outras variáveis poderíamos “melhorar” a predição ? Por exemplo, o uso de batimentos cardíacos (pulsação) ou o IMC.