CORRELAÇÃO E REGRESSÃO
Regressão
ASPECTOS GERAIS
Neste momento iremos descrever a relação entre variáveis traçando o gráfico e determinando a equação da reta que representa aquela relação.
DEFINIÇÕES
Dada uma coleção de dados amostrais emparelhados, a equação de regressão
Descreve a relação entre duas variáveis. O gráfico da equação de regressão é chamado de reta de regressão ou reta de mínimos quadrados.
x
b
b
y
^
0
1Variável dependente
SUPOSIÇÕES
• Estaremos investigando somente relações lineares.
RELAÇÕES
x
b
b
y
^
0
1
2
2 2 0
x
x
n
xy
x
x
y
b
intercepta y
2
2 1
x
x
n
y
x
xy
n
ARREDONDAMENTO
De um modo geral os valores de e são arredondados para 3 algarismos significativos. 0
EXEMPLO
Para o quadro a seguir determine a equação de regressão da reta que relaciona as variáveis x e y.
Comprimento (in) 53 67,5 72 72 73,5 68,5 73 37
Peso (Lb) 80 344 416 348 262 360 332 34
x y x . y x2 y2
53 80 4.240 2809 6.400
67,5 344 23.220 4556,25 118.336
72 416 29.952 5184 173.056
72 348 25.056 5184 121.104
73,5 262 19.257 5402,25 68.644
68,5 360 24.660 4692,25 129.600
73 332 24.236 5329 110.224
37 34 1.258 1369 1.156
34
.
525
,
75
516
,
5
9
,
66
8
2176
5
,
516
879
.
151
8
2 1
b
arredondado
34
.
525
,
75
516
,
5
352
8
879
.
151
5
,
516
75
,
525
.
34
2176
20
b
arredondadox
y
^
352
9
,
66
VARIAÇÃO MARGINAL
Com a equação de regressão, podemos ver o efeito sobre uma das variáveis, quando a outra sofre uma variação.
Definição:
Pontos Extremos (
Outliers
) e Pontos de
Influência
Definição:
Determinação do Ponto de influência:
• Trace a reta de regressão correspondente aos dados com o ponto incluído;
• trace a reta de regressão excluindo aquele ponto;
EXEMPLO
Comprimento (in) 53 67,5 72 72 73,5 68,5 73 37
Peso (Lb) 80 344 416 348 262 360 332 34
0 100 200 300 400 500
Inserindo no conjunto de dados mais um urso com 35 in. de comprimento e 400 lb de peso:
0 100 200 300 400 500
30 40 50 60 70 80
0 500 1000 1500 2000 2500
0 20 40 60 80
Inserindo no conjunto de dados mais um urso com 1 in. de comprimento e 2000 lb de peso (situação estranha):
OBSERVAÇÕES
• Se não há correlação linear significativa, não use a equação de regressão para fazer predições. Neste caso o melhor valor predito seria a própria média.
• Uma equação de regressão baseada em dados passados não é necessariamente válida hoje.
RESÍDUO E OS MÍNIMOS QUADRADOS
Definição:
Dado um par de dados amostrais (x, y), um resíduo é a diferença (y – ŷ) entre um valor amostral observado y e o valor ŷ predito com base na equação de regressão.
Definição:
EXEMPLO
Seja um conjunto de dados conforme o quadro a seguir:
x
1
2
4
5
y
4
24
8
32
0 5 10 15 20 25 30 35
0 1 2 3 4 5 6
X
Y
Temos a equação de regressão que é ŷ = 5 + 4x.
• Levando o valor x = 5 na equação de regressão, obtemos o valor predito ŷ = 25.
Encontrados todos os resíduos e somando os seus
quadrados, obtemos:
ŷ = 5 + 4x
x
ŷ
y
r
1 9 4 -5 2 13 24 11 4 21 8 -13 5 25 32 7
(-5)2 + 112 + (-13)2 + 72 = 364