AULA 7 – REGRESSÃO LINEAR SIMPLES
Autor: Anibal Tavares de Azevedo
ESTATÍSTICA I
REGRESSÃO LINEAR SIMPLES
Regressão Simples
Na regressão simples apenas duas variáveis são consideradas: uma dependente (y) e outra independente (x). A variável dependente y é aquela que esta sendo explicada e a independente x é aquela usada para explicar a variação em y.
EXEMPLO 1:
Suponha que um estudo sobre o impacto da renda nos gastos com alimentação está sendo conduzido e foram gerados 2 gráficos.
Gastos (y)
Renda (x) Linear
Gastos (y)
Renda (x)
Não-Linear
Regressão Linear
Utiliza a equação da reta para determinar a relação entre a variável independente (x) e a dependente (y).
Isto é:
y = a + bx (1)
É importante observar que a e b são parâmetros que determinam diferentes retas. O parâmetro a determina em que valor do eixo y ocorre a interseção da reta e o parâmetro b o coeficiente angular ou inclinação da reta. Na determinação dos parâmetros a e b é útil lembrar que 2 pontos determinam uma reta.
EXEMPLO 2:
Dados dois pontos (x
1,y
1) = (0,0) e (x
2,y
2) = (0,0), determinar os parâmetros a e b.
y
x
Linear
5 10
Pto 1: (x
1,y
1) = (0,0) y = a + bx → → → → 0 = a +b*0 → → → → a = 0 Pto 2: (x
2,y
2) = (5,10) y = a + bx → → → → 10 = 0 +b*5 → → → → b= 2 Pto2
0
Pto1
Assim:
y = a + bx → → → → y = 2x Observe que:
∆∆∆∆ x = x2 – x1 = 5
∆∆∆∆ y = y2 – y1 = 10 b
x
y = = =
∆
∆ 2
5
10 Inclinação da reta
ou variação de y em relação à x
REGRESSÃO LINEAR SIMPLES
O modelo dado pela eq. (1) é dito determinístico, isto é, fornece uma relação exata entre x e y. Mas, em muitos casos, é necessário considerar que existem variações provocadas por outras variáveis. Neste caso:
y = A + Bx + εεεε (2)
Como A e B são parâmetros da população e difíceis de serem obtidos, quase sempre são utilizadas estimativas de A e B:
Erro aleatório
bx (3) a y ˆ = +
Onde: corresponde ao valor estimado, ou previsto, de y. A equação (3) é chamada de modelo estimativo da regressão.
yˆ
Diagrama de dispersão
Para a obtenção de a e b da eq. (3), é útil construir um diagrama de dispersão dos dados, isto é, a disposição em pares dos valores (x,y).
REGRESSÃO LINEAR SIMPLES
EXEMPLO 3:
Dados vários pares de valores de renda(x) e gastos com alimentação (y), o seguinte diagrama de dispersão é obtido.
y
x
y
x
DIAGRAMA DE DISPERSÃO POSSÍVEIS RETAS
O diagrama de dispersão do Exemplo 3 mostra que é possível construir diversas retas a partir dos dados.
Estabelece-se como critério a determinação de a e b tais que a soma dos quadrados dos resíduos é minimizada.
∑
∑
=
=
−
=
=
ni
i i n
i
i
y y
e SQR
1
2 1
2
( ˆ ) (4)
y
x
Estimativa Erro y
iSubstituindo (3) em (4).
REGRESSÃO LINEAR SIMPLES
∑
=
−
−
=
ni
i
i
a bx
y SQR
1
)
2( (5)
Para minimizar (5):
0 ) (
2
1
=
−
−
−
∂ =
∂ ∑
= n
i
i
i a bx
a y SQR
0 ) (
2
1
=
−
−
−
∂ =
∂ ∑
= n
i
i i
i y a bx
b x
SQR
Dividindo a primeira equação por 2n.
n n
bx a y
n
i
i i
2 0 2
) (
2
1
− − =
− ∑
=
0
) (
1
=
−
−
− ∑
=
n bx a y
n
i
i i
n y n
bx n
a
n
i i n
i i n
i
∑
∑
∑
=
=
=1
+
1=
1n y n
x n b
na
n
i i n
i
i
∑
∑
=
=
=
+
1 1y x b a + =
x y
x (6)
b y a = −
Dividindo por 2 e aplicando o valor de a na segunda equação.
REGRESSÃO LINEAR SIMPLES
0 ) (
2
1
=
−
−
− ∑
= n
i
i i
i
y a bx
x ( ( ) ) 0
1
=
−
−
∑ −
= n
i
i i
i
y y b x bx
x
0 ) ( ) (
1
=
− +
∑ −
= n
i
i i
i
i
y y x b x x
x ( ) ( ) 0
1 1
=
− +
− ∑
∑
=
=
n
i
i i
n
i
i
i
y y x b x x
x
0 ) ( )
(
1 1
=
− +
− ∑
∑
=
=
n
i
i i n
i
i
i
y y b x x x
x ∑
∑
=
=
−
−
=
ni
i i n
i
i i
x x x
y y x b
1 1
) (
)
(
Separando cada um dos termos que compõe o coeficiente b.
∑
∑
=
=
−
−
=
ni
i i n
i
i i
x x x
y y x b
1 1
) (
) (
∑ ∑
∑
∑ ∑
∑
=
=
=
=
=
=
−
−
=
n
i
n
i n i
i i i
n
i n i
i i n
i i i
n x x x
n y x y
x b
1
1 1 2
1 1
1
SQxy
SQxx
SQxx (7) b = SQxy
Resumindo as equações obtidas para a e b:
REGRESSÃO LINEAR SIMPLES
Onde:
SQxx
b = SQxy y = a + b x
∑ ∑ ∑
=
=
=
−
=
ni
n
i i n
i i i
i
n
y x
y x SQxy
1
1 1
∑ ∑
=
=
−
=
ni
n
i i
i
n
x x
SQxx
1
2
1 2
EXEMPLO 4:
Obtenha a linha de regressão dos quadrados mínimos para os dados da tabela.
Renda (x) Gastos (y) xy x
210 2 20 100
20 5 100 400
30 6 180 900
40 8 320 1600
Soma 100 21 620 3000
EXEMPLO 4:
Calcular b.
REGRESSÃO LINEAR SIMPLES
19 , 500 0
95 =
=
= SQxx b SQxy
4 95 620 2100
1
1
1
= − =
−
= ∑ ∑ ∑
=
= n =
i
n
i i n
i i i
i
n
y x
y x SQxy
( ) 500
4 3000 100
2
1
2
1
2
= − =
−
= ∑ ∑
= n = i
n
i i
i
n
x x
SQxx
EXEMPLO 4:
Calcular a.
2868 , 0 28 , 14
* 19 , 0
1
3
1
= − =
−
=
−
= ∑ ∑
=
=
n x n
y x
b y a
n
i i n
i i
x b a y = +
Logo, a reta do modelo estimativo é:
x bx
a
y ˆ = + = 0 , 2868 + 0 , 19
EXEMPLO 4:
A reta anterior fornece a regressão de gasto com alimentação em relação a renda.
REGRESSÃO LINEAR SIMPLES
O parâmetro a pode ser interpretado como o gasto de alimentação (y) quando a renda (x) é zero. Mas, na verdade, é importante verificar que esta reta só é válida para o intervalo dos dados coletados (renda entre 1 e 4).
Já o parâmetro b indica a variação no gasto com alimentação
caso a renda seja incrementada em uma unidade. É importante
observar que quando b é positivo existe uma relação linear
positiva entre x e y, ou seja, o aumento na renda é
acompanhado de um aumento nos gastos.
Coeficiente de Determinação
No modelo de regressão, quanto a variável independente (x) explica a variável dependente (y)? Para responder a esta pergunta, usa-se o coeficiente de determinação r
2:
SQyy b SQxy
r 2 = * , 0 ≤≤≤≤ r ≤≤≤≤ 1 (6)
Onde:
∑ ∑
=
=
−
=
ni
n
i i
i
n
y y
SQyy
1
2
1 2
REGRESSÃO LINEAR SIMPLES
Uma alternativa para calcular r
2é dado por:
∑
=
−
=
ni
i
y
y STQ
1
)
2(
Onde:
STQ SQR r 2 = STQ −
Erro da previsão usando a media como estimação
Erro da previsão usando a media como estimação
∑
=−
=
ni
i
y
y SQR
1
)
2ˆ (
Assim, r
2indica o quanto o erro de previsão é
melhorado quando a regressão é usada no lugar da média.
EXEMPLO 5:
Calcular r
2do Exemplo 4.
Renda (x) Gastos (y) xy x
2y
210 2 20 100 4
20 5 100 400 25
30 6 180 900 36
40 8 320 1600 64
Soma 100 21 620 3000 129
( ) 129 110 , 25 18 , 75
4 129 21
1
2 2
1
2
= − = − =
−
= ∑ ∑
= n = i
n
i i
i