Bernardo Almada-Lobo
Regressão Linear
90 92 94 96 98 100 102 104 106 108 110 0 5 10 15 20A
regressão
é uma das técnicas estatísticas mais potentes e de
utilização mais frequente.
É um método matemático utilizado para descrever a relação entre
variáveis
• Regressão linear simples
• Regressão linear múltipla
• Regressão não linear
Para uma equação de uma recta y = b
0+ b
1x, ao valor b
0chama-se
ordenada na origem
e ao valor b
1chama-se
declive
.
Um modelo de regressão linear simples descreve uma relação entre
duas
variáveis quantitativas
X,
independente
, e Y,
dependente
(
)
0 0 α β β β (β α β ) n n n n n n Y = + ⋅ X − X + E ⇔ Y = + ⋅ X + E = − ⋅ X(
)
( )
n n n n Y a associado aleatório erro E estimar a fixos parâmetros , ) N , , 1 n ( Y , X de observação ésima n Y , X − − β α = − − L)
,
0
(
IN
E
nσ
2Aos valores observados Xn não estão associados quaisquer erros, devendo ser
encarados como constantes.
Os erros considerados no modelo de regressão linear simples incidem sobre os
valores observados de Y.
Na teoria da regressão admitem-se as seguintes hipóteses sobre os erros:
1. valor esperado nulo e variância constante
2. são mutuamente independentes
3. são normalmente distribuídos
Note que, a hipótese de que existe uma recta de regressão que se ajusta aos dados está implícita em todo o processo.
(
2)
Y n IN , Y n σ µSe as hipóteses referidas se verificarem, os valores de Ynsão independentes e
seguem uma distribuição normal:
(
X
nX
)
Yn
=
α
+
β
⋅
−
µ
A figura assinala a diferença entre a recta de regressão da população (que gostaríamos de conhecer mas não conhecemos) e a recta estimada a partir da amostra.
Logo,
β0 = α−β⋅Xtambém é constante
A figura ilustra o significado de
α e β
0X x1 x2 x3 x4 x5 x6 X Y 0 β α
(
)
0 α β β β n n n n Y X X Y X = + ⋅ − ⇔ = + ⋅Os parâmetros da recta de regressão podem ser estimados pelo método dos mínimos quadrados
(
)
[
]
{
}
∑
∑
= = − ⋅ β + α − = = N 1 n N 1 n 2 n n 2 n Y X X E SEQ MIN[
(
) (
)
]
(
)
= − − ⋅ − = = ⋅ = ⇒∑
∑
∑
= = = XX XY N 1 n 2 n N 1 n n n N 1 n n S S X X Y Y X X B Y Y N 1 A XX XY N 1 n n s s ˆ b y y N 1 ˆ a = β = = ⋅ = α =∑
=A partir de um conjunto particular de observações (xn, yn) obtêm-se as estimativas seguintes: 0 1 2 3 4 5 6 0 10 20 X 30 40 50 Y 0 1 2 3 4 5 6 0 10 20 X 30 40 50 Y x x− y y−
Note que, a recta estimada passa sempre pelo ponto
(X,Y) X X Y(
X X)
Yn = α+β⋅ n − Y(
X X)
y y Y y ˆ a n = +β⋅ − = = α =Se a relação entre Xn e µµµµYn for efectivamente linear e os erros forem
independentes, tiverem valor esperado nulo e variância constante, pode demonstrar-se que:
1. A e B são estimadores não-enviesados, eficientes e consistentes
2. A matriz de variância-covariância dos estimadores é
( )
( )
( )
( )
σ σ = XX 2 2 S 0 0 N B VAR A , B COV B , A COV A VARComo Cov(a,b)=0, conclui-se que A e B não são correlacionados, o que não
acontece com B0 e B1, uma vez que ββββ0 é função de ββββ.
Deste facto resulta a vantagem do modelo
(
n)
n nX
X
E
Y
=
α
+
β
⋅
−
+
relativamente a 0 β β n n n Y = + ⋅ X + E X 0 =α−β⋅ βXX S B Var 2 ) ( =
σ
Estimativa de β é melhorquando os valores de x estão mais espalhados.
(
)
[
]
2 1 1 2 22
1
ˆ
2
1
∑
∑
= =−
⋅
−
−
⋅
−
=
⋅
−
=
N n N n n n nY
A
B
X
X
N
E
N
S
3.
Um estimador não-enviesado de
σσσσ
2é
82 ) y y ( ) x x ( s 40 ) x x ( s 30 y 10 x 5 N n n n XY n 2 n XX
∑
∑
= − ⋅ − = = − = = = =Admitindo que a relação entre as variáveis X e Y é linear, pretende-se estimar os parâmetros do modelo de regressão correspondente:
n xn yn 1 12 33 2 8 24 3 14 39 4 10 31 5 6 23 n yn Y a b (xn x) n = + ⋅ − µ eˆn = yn −µˆyn 1 33 30 + 2.05⋅ 2 = 34.1 33 − 34.1 = −1.1 2 24 30 + 2.05⋅ (−2) = 25.9 24 − 25.9 = −1.9 3 39 30 + 2.05⋅ 4 = 38.2 39 − 38.2 = 0.8 4 31 30 + 2.05⋅ 0 = 30.0 31 − 30.0 = 1.0 5 23 30 + 2.05⋅ (−4) = 21.8 23 − 21.8 = 1.2
∑
= = ⋅ − = σ = N 1 n 2 n 2 2 63 . 2 eˆ 2 N 1 ˆ s 05 . 2 s s b 30 y a XX XY = = = = 0658 . 0 s s ˆ 527 . 0 N s ˆ XX 2 2 B 2 2 A = = σ = = σSe E
nIN(0,
σσσσ
2), é possível
especificar as distribuições dos estimadores
de
αααα
,
ββββ
e
σσσσ
2(
)
N 2 2 t N S A N , N A α σ ⇒ −α −(
B A X B)
t S X N 1 S B S X N 1 , N B N 2 0 XX 2 0 0 2 XX 2 0 0 = − ⋅ + ⋅ β − ⇒ σ ⋅ + β −(
)
N 2 XX XX 2 t S S B S , N B β σ ⇒ −β −A partir destas expressões é possível definir
I.C.
e
T.H
.
(
)
0 α β β β n n n n Y X X Y X = + ⋅ − ⇔ = + ⋅1.
2.
3.
Os intervalos de confiança bilaterais a (1- γγγγ) . 100% vêm
( )
2 S 1N t A : ± N 2 γ ⋅ ⋅ α −(
0.05 2)
3.18 t3 = EXEMPLO (CONT.)(
)
( )
XX 2 2 N 0 : A − X⋅B ±t γ 2 ⋅S⋅ 1N+ X S β −( )
XX 2 N 2 S 1S t B : ± γ ⋅ ⋅ β −[
1.23,2.87]
40 1 63 . 2 18 . 3 05 . 2 : ± ⋅ ⋅ ⇒ β(
30 10 2.05)
3.18 2.63 1 5 10 40[
1.05,17.95]
: 2 0 − ⋅ ± ⋅ ⋅ + ⇒ β[
27.69,32.31]
5 1 63 . 2 18 . 3 30 : ± ⋅ ⋅ ⇒ α 1. 2. 3.Testes de hipóteses para os parâmetros de regressão
Os testes de hipóteses relativos aos parâmetros podem ser realizados
recorrendo aos intervalos de confiança. Alternativamente, os testes podem ser
efectuados pelo método clássico:
( )
( )
( )
( )
( )
N 2 XX 2 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 t S X N 1 S B X A ET : . VERD H , , : H : H − + ⋅ β − ⋅ − = ⇒ β < β β > β β ≠ β β = β 2 N XX 0 0 0 0 0 1 0 0 t S S B ET : . VERD H , , : H : H − β − = ⇒ β < β β > β β ≠ β β = β 2 N 0 0 0 0 0 1 0 0 t N S A ET : . VERD H , , : H : H − α − = ⇒ α < α α > α α ≠ α α = α1.
2.
3.
Quando se pretende realizar um teste bilateral à hipótese nula H0: ββββ=0, pode recorrer-se a um procedimento baseado na ANOVA
(
)
{
[
(
)
]
}
{
[
(
)
]
}
4 4 4 4 4 3 4 4 4 4 4 2 1 4 4 4 4 3 4 4 4 4 2 1 4 43 4 42 1 XX 2 YY XX 2 YY VR S B S RESIDUAL . V n 2 n n S B VDR REGRESSÃO À DEVIDA . V n 2 n S VT TOTAL . V n 2 n Y A B X X Y Y A B X X Y ⋅ − = ⋅ = =∑
∑
∑
− = + ⋅ − − + − + ⋅ −2 N , 1 0 1 0 F DQMR DQMDR ET : . VERD H 0 : H 0 : H − = ⇒ ≠ β = β
O procedimento de teste ANOVA tem a seguinte estrutura:
Tabela ANOVA para o modelo de regressão linear simples
FONTES DE VARIAÇÃO VARIAÇÕES (Somas de quadrados) GRAUS DE LIBERDADE (Número de termos independentes) DESVIOS QUADRÁTICOS MÉDIOS VALORES ESPERADOS DEVIDA À REGRESSÃO (DR)
(Variação explicada pela regressão) VDR = B2 · SXX = B · SXY GL1 = 1 DQMDR = VDR E [DQMDR] = σσσσ2 + ββββ2 ·S XX RESIDUAL (R)
(Variação residual, não explicada)
VR = SYY - B · SXY GL2 = N−−−− 2 DQMR = VR/GL2 E [DQMR] = σσσσ2
TOTAL (T)
(Variação total)
Exemplo (anterior)
Admitindo que a relação entre as variáveis X e Y é linear, pretende-se
estimar os parâmetros do modelo de regressão correspondente
n xn yn 1 12 33 2 8 24 3 14 39 4 10 31 5 6 23 05 . 2 s s b 30 y a XX XY = = = =
Exemplo (cont.)
% 5 0 : H 0 : H0 β = 1 β ≠ α = FONTES VARIAÇÕES G.L. DQM DR 168.1 1 168.1 R 7.9 3 2.633 T 176.0 4(
)
(
)
0 3 , 1 H Rejeitar 0.41% P prova de Valor 13 . 10 05 . 0 F 84 . 63 633 . 2 1 . 168 ET = = > = =[
1.23,2.87]
40 1 63 . 2 18 . 3 05 . 2 ± ⋅ ⋅ ⇒ ∈ βI.C.:
(
0.05 2)
3.18(
Valor de prova P 0.41%)
t 99 . 7 40 62 . 1 05 . 2 ET = = > 3 = =T.H.:
ANOVA:
Dado que cada novo valor Y se admite independente dos anteriores, são constantes e A e B são independentes, pode-se mostrar que a variância do erro de previsão vem:
Previsões com base no modelo de regressão linear simples
(
X X)
B A ˆ Yˆ = µY = + ⋅ −(
)
[
X X E]
[
A B(
X X)
]
Yˆ Y − = α +β⋅ − + − + ⋅ − = δ( )
(
)
2 XX 2 S X X N 1 1 ) Yˆ ( VAR ) Y ( VAR VAR ⋅σ − + + = + = δO erro que se comete na previsão vem
X X e , , ββββ αααα Y µ µ µ µ y f (y| x) X x 1 x 2 σσσσ µ µ µ µ Y 2 µ µ µ µ Y 1 σσσσ
Para cada valor de X, a melhor previsão de Y é dada por
( ) ( ) ( ) ( ) σ σ = XX 2 2 S 0 0 N B VAR A , B COV B , A COV A VAR
( )
(
)
XX 2 2 N S X X N 1 1 S 2 t Yˆ ± − γ ⋅ ⋅ + + −Admitindo a normalidade dos erros En , temos que seguem também
distribuições Normais.
Assim, o intervalo de previsão a (1- γγγγ).100% será:
δδδδ e ˆ , Y Y
(
)
XX 2 S X X N 1 1 S Yˆ ± ⋅ + + −Se tn-2(γ/2)=1 a banda de previsão a (1-γγγγ).100% é definida por:
Quando se considera todos os valores possíveis de X, os intervalos formam uma banda de previsão.
N 1 1 S Yˆ : B BANDA ± ⋅ +
Banda A - tem apenas a ver com a estimativa do desvio-padrão do erro E
Banda B - acrescenta, relativamente à banda A, o termo correspondente ao erro
de estimação de αααα
Banda C - acrescenta, relativamente à banda B, o termo correspondente ao erro
de estimação de ββββ Y x y = a + b (x - x) i . i A B C X ) (x x b a yn = + ⋅ n − 1 S Yˆ : A BANDA ± ⋅
(
)
XX 2 S X X N 1 1 S Yˆ : C BANDA ± ⋅ + + −Uma relação que pareça linear dentro da gama de valores observados Xn, pode ter um comportamento não-linear numa gama mais alargada.
Apesar de a banda de previsão definida alargar à medida que as observações se afastam da média de X, esta não contempla esse tipo de situações,
assentando no pressuposto de que a relação é efectivamente linear.
X Y
Gama de valores observados
Relação linear ajustada Relação verdadeira (não linear)
Valor extrapo- lado de Y
Novo valor de X
Regressão linear simples e correlação entre variáveis
Embora a análise de correlação seja uma técnica menos potente do que a
regressão linear simples, pois apenas revela o grau de relacionamento linear
entre variáveis sem especificar a forma que ele assume, ambas estão intimamente ligadas.
Na regressão linear simples, os valores observados de X são encarados como
constantes, podendo não ser representativos de uma qualquer distribuição populacional
Na análise de correlação, para que a partir do coeficiente de correlação
amostral se possam fazer inferências relativas ao coeficiente de correlação populacional, é preciso que as observações (Xn,Yn) sejam representativas da
(
) (
)
∑
= − ⋅ − ⋅ − = N n n n XY x x y y N c 1 1 1(
) (
)
(
)
(
)
(
1 1)
1 1 1 1 1 1 1 2 1 2 1 − ≤ ≤ ⋅ = − ⋅ − ⋅ − ⋅ − − ⋅ − ⋅ − =∑
∑
∑
= = = XY Y X XY N n n N n n N n n n XY r s s c y y N x x N y y x x N rCovariância amostral (permite inferir acerca da população)
Coeficiente de correlação amostral (medida adimensional)
0 1 2 3 4 5 6 0 10 20 X 30 40 50 Y x x − y y −
Se os valores Xn não forem obrigatoriamente representativos da população de
X, podem situar-se numa zona restrita dessa população, provocando o
enviesamento do coeficiente de correlação amostral
Y
Zona central
X
Enviesamentodo coeficiente de correlação amostral calculado a partir de observações pertencentes à zona central da população de x
Na análise de correlação
não se faz qualquer distinção entre variável
dependente e variável independente
A existência de correlação implica que
• X é causa de Y, ou
• Y é causa de X, ou ainda
• Uma outra variável é causa simultânea de X e Y
Que sentido fará, no contexto da regressão, calcular o coeficiente
de correlação amostral ?
RXY(
)
(
)
∑
∑
−
−
⋅
=
⋅
=
n 2 n n 2 n 2 YY XX 2 2 XYY
Y
X
X
B
S
S
B
R
Se X for claramente assumida como variável predeterminada, o cálculo do
quadrado do coeficiente de correlação amostral, o coeficiente de
determinação, representa a proporção da variação de y que é explicada pela
regressão
(
)
[
(
) (
)
]
(
)
∑
∑
∑
∑
= = = = − ⋅ + = = − + − = − = N n n N n n N n n n n N n n YY x x b e y y y y y y s 1 2 2 1 2 1 2 1 2 ˆ ˆ L Não--explicada Explicadadeterminado país depende do rendimento anual do agregado familiar. Na tabela seguinte apresentam-se os valores destas variáveis, expressas em unidades monetárias do país em causa, para um conjunto de 12 famílias considerado representativo da população.
Estime a relação entre as duas variáveis e o intervalo de previsão do montante global de seguros de vida efectuados por uma família com um rendimento anual agregado de 20 000 [u.m] Rendimento anual [1000 u.m.] Capital seguro [1000 u.m.] 14 31 19 40 23 49 12 20 9 21 15 34 22 54 25 52 15 28 10 21 12 24 16 34
• O modelo de regressão linear múltipla é uma extensão do modelo de regressão linear simples.
• Permite descrever uma relação entre um conjunto de variáveis
quantitativas independentes, Xj (j=1,2,...,J), e uma variável, Y, quantitativa dependente.
• O objectivo será o de construir um modelo que se ajuste melhor aos dados do que o modelo de regressão linear simples.
y =
β
0+
β
1x
X
Y
X
21
O modelo de regressão linear simples considera
apenas uma variável independente, “X”
Y =β0 + β 1X + E
O modelo de regressão linear múltipla considera duas, ou mais, variáveis independentes, X1 e X2.
Y = b0 + b1x1 + b2x2 + E
Agora, a recta é
transformada num plano
y =
β
0+
β
1x
1+
β
2O modelo de regressão linear múltipla :
n J Jn J 1 n 1 1 n(
X
X
)
(
X
X
)
E
Y
=
α
+
β
⋅
−
+
L
+
β
⋅
−
+
) Y , X , , X( 1n L Jn n
n-ésima observação das variáveis X
1
,...,X
Je Y
j
X
média das observações da variável X
j
J 1, ,
,β β
α L
parâmetros fixos a estimar
n
E
erro aleatório associado a Y
Modelo de regressão linear
populacional
bivariado
X
2Y
X
1µ
µµ
µ
YX=
ββββ
0+
ββββ
1X
1i+
ββββ
2X
2i ββββ0Y
i=
ββββ
0+
ββββ
1X
1i+
ββββ
2X
2i+
εεεε
iResponse
Plane
(X
1i,X
2i)
(Observed Y)εεεε
iX
2Y
X
1µ
µµ
µ
YX=
ββββ
0+
ββββ
1X
1i+
ββββ
2X
2i ββββ0Y
i=
ββββ
0+
ββββ
1X
1i+
ββββ
2X
2i+
εεεε
iResponse
Plane
(X
1i,X
2i)
(Observed Y)εεεε
iX
2
Y
X
1
b
0Y
i= b
0+ b
1X
1i+ b
2X
2i+ e
iResponse
Plane
(X
1i,X
2i)
(Observed Y)^
e
iY
i= b
0+ b
1X
1i+ b
2X
2iX
2
Y
X
1
b
0Y
i= b
0+ b
1X
1i+ b
2X
2i+ e
iResponse
Plane
(X
1i,X
2i)
(Observed Y)^
e
iY
i= b
0+ b
1X
1i+ b
2X
2iE
nIN (0,
σ
2)
A este modelo
estão subjacentes as seguintes hipóteses
:
1.
Os valores X
jn, e portanto, os seus valores esperados são
encarados como constantes predeterminadas, sem erro
2.
Os erros E
nsão mutuamente independentes, têm valor
esperado nulo, variância constante e são normalmente
distribuídos, isto é,
Os parâmetros podem ser
estimados recorrendo ao método
dos mínimos quadrados
minimizando a seguinte função:
J 1
,
,
,
β
β
α
L
[
]
{
}
2 n J Jn J 1 n 1 1 n n 2 n Y (X X ) (X X ) E SEQ =∑
=∑
− α+β ⋅ − +L+β ⋅ − 0 )] ( ) ( [ ) 2 (− ⋅ − − 1⋅ 1 − 1 −⋅ ⋅⋅− ⋅ − = =∑
n J Jn J n n X X X X Y SEQ α β β ∂α ∂ 0 )] ( ) ( [ ) ( ) 2 ({
1 1 1 1 1}
1 = − ⋅ − ⋅⋅ ⋅ − − ⋅ − − ⋅ − ⋅ − =∑
n J Jn J n n n X Y X X X X X SEQ α β β ∂β ∂ 0 )] ( ) ( [ ) ( ) 2 (− ⋅ { − ⋅ − − 1⋅ 1 − 1 −⋅ ⋅⋅− ⋅ − }= =∑
n J Jn J n n J Jn J X X X X Y X X SEQ α β β ∂β ∂ (...)A primeira equação permite obter o
estimador de
, que é idêntico ao
que foi definido para o modelo de regressão linear simples:
α
Y Y N 1 A n n = ⋅ =∑
Desenvolvendo as restantes equações, obtém-se o seguinte sistema cuja
resolução permite obter
os estimadores de
β
1,
L
,
β
JY X X X J X X 2 X X 1 Y X X X J X X 2 X X 1 Y X X X J X X 2 X X 1 J J J 2 J 1 J 2 J 2 2 2 1 2 1 J 1 2 1 1 1 S S B S B S B ) ( S S B S B S B S S B S B S B = ⋅ + + ⋅ + ⋅ = ⋅ + + ⋅ + ⋅ = ⋅ + + ⋅ + ⋅ L L L L ) X X ( ) X X ( S 2 2 1 1 2 j 1 j jn j j n j n X X =
∑
− ⋅ −onde
S (Xjn Xj) (Yn Y ) n Y Xj =∑
− ⋅ −e
1 X X X X X X X X 2 J 1 J J J 1 1 1 J 1 J J 1 J J 1 1 1 S S 0 S S 0 0 0 N ) B ( Var ) B , B ( Cov ) A , B ( Cov ) B , B ( Cov ) B ( Var ) A , B ( Cov ) B , A ( Cov ) B , A ( Cov ) A ( Var − ⋅ σ = L L L L L L L L L L L L L L
Se a relação entre as variáveis Xj e µy for linear e se os erros En forem independentes, tiverem valor esperado nulo e variância constante pode demonstrar-se que:
1. Os estimadores A e B1,...,Bj são não-enviesados, eficientes e consistentes.
3.
Um
estimador
não-enviesado de
σ
é definido pela expressão
: 2 J Jn J n 1 n 1 1 n n 2 2 )] X X .( B ) X X .( B A Y [ 1 J N 1 Eˆ 1 J N 1 S − − − − − − ⋅ − − = = ⋅ − − =∑
∑
LExemplo
Considerem-se as observações das variáveis X1, X2 e Y que constam da tabela. Admitindo que o valor esperado de Y é uma função linear de X1 e X2, estimem-se os parâmetros do modelo de regressão correspondente.
n x1n x2n yn 1 5.0 7.2 51.7 2 5.8 7.8 56.4 3 4.2 8.1 49.3 4 6.0 8.7 60.7 5 4.8 6.6 48.9 6 5.6 7.5 54.1 7 4.4 9.0 54.9 8 5.2 6.3 49.8 9 5.4 8.4 57.9 10 4.6 6.9 50.4 10 . 5 ) 6 . 4 8 . 5 0 . 5 ( 10 1 x1 = ⋅ + +⋅ ⋅⋅+ = 10 N= 65 . 7 ) 9 . 6 8 . 7 2 . 7 ( 10 1 x2 = ⋅ + +⋅ ⋅⋅+ = 41 . 53 ) 4 . 50 4 . 56 7 . 51 ( 10 1 y= ⋅ + +⋅ ⋅⋅+ = 3 . 3 ) 1 . 5 6 . 4 ( ) 1 . 5 0 . 5 ( ) x x ( S 2 2 i 2 1 i 1 x x1 1 =
∑
− = − +⋅ ⋅⋅+ − = 42 . 7 ) 65 . 7 9 . 6 ( ) 65 . 7 2 . 7 ( ) x x ( S 2 2 i 2 2 i 2 x x2 2 =∑
− = − +⋅ ⋅⋅+ − = 45 . 0 ) 65 . 7 9 . 6 ( ) 1 . 5 6 . 4 ( ) 65 . 7 2 . 7 ( ) 1 . 5 0 . 5 ( ) x x ( ) x x ( S S i 2 i 2 1 i 1 x x x x1 2 = 2 1=∑
− ⋅ − = − ⋅ − +⋅ ⋅⋅+ − ⋅ − = 67 . 15 ) 41 . 53 4 . 50 ( ) 1 . 5 6 . 4 ( ) 41 . 53 7 . 51 ( ) 1 . 5 0 . 5 ( ) y y ( ) x x ( S i i 1 i 1 y x1 =∑
− ⋅ − = − ⋅ − +⋅ ⋅⋅+ − ⋅ − = 16 . 24 ) 41 . 53 4 . 50 ( ) 65 . 7 9 . 6 ( ) 41 . 53 7 . 51 ( ) 65 . 7 2 . 7 ( ) y y ( ) x x ( S i i 2 i 2 y x2 =∑
− ⋅ − = − ⋅ − +⋅ ⋅⋅+ − ⋅ − = 19 . 147 ) 41 . 53 4 . 50 ( ) 41 . 53 7 . 51 ( ) y y ( S 2 2 i 2 i y y =∑
− = − +⋅ ⋅⋅+ − =As
estimativas dos parâmetros de regressão
podem então obter-se
nos seguintes termos:
41 . 53 y ˆ a=α = = = ⋅ + ⋅ = ⋅ + ⋅ ⇒ 16 . 24 b 42 . 7 b 45 . 0 67 . 15 b 45 . 0 b 3 . 3 2 1 2 1 = β = = β = ⇒ 99 . 2 ˆ b 34 . 4 ˆ b 2 2 1 1 = ⋅ + ⋅ = ⋅ + ⋅ Y X X X 2 X X 1 Y X X X 2 X X 1 2 2 2 1 2 1 2 1 1 1 S S b S b S S b S b
Exemplo (cont.)
) 65 . 7 ( 99 . 2 ) 10 . 5 ( 34 . 4 41 . 53 ˆY = + ⋅ x1i − + ⋅ x2i − i µ
A partir de pode-se calcular a estimativa de σ2
n yn µˆYn eˆi =yi−µˆYn 1 51.7 51.630 0.070 2 56.4 56.897 -0.497 3 49.3 50.850 -1.550 4 60.7 60.458 0.242 5 48.9 48.967 -0.067 6 54.1 55.132 -1.032 7 54.9 54.410 0.490 8 49.8 49.306 -0.006 9 57.9 56.956 0.944 10 50.4 48.996 1.404 983 . 0 ] 404 . 1 07 . 0 [ 1 2 10 1 eˆ 1 J N 1 ˆ s 2 2 n 2 n 2 2 ⋅ +⋅ ⋅⋅+ = − − = ⋅ − − = σ =
∑
1 2 2 1 2 2 1 1 1 x x x x x x x x 2 2 ^ 1 2 ^ 2 1 ^ 1 ^ S S S S ˆ ) B ( Var ) B , B ( Cov ) B , B ( Cov ) B ( Var − ⋅ σ = − − = − ⋅ = 133 . 0 018 . 0 018 . 0 300 . 0 1 42 . 7 45 . 0 45 . 0 30 . 3 983 . 0 548 . 0 ˆ 300 . 0 ) B ( Var 1 B 1 ^ = σ ⇒ = Var(B ) 0.133 ˆ 0.365 2 B 2 ^ = σ ⇒ = 090 . 0 365 . 0 548 . 0 018 . 0 ˆ 018 . 0 ) B , B ( Cov 2 1,B B 2 1 ^ − = ⋅ − = ρ ⇒ − =Onde var(B1),...,Var(Bj) são definidos a partir da matriz variância-covariância.
Se , é possível especificar as distribuições dos estimadores A e
B1,...,BJ
)
,
0
(
σ
IN
E
n ... A N (α
,σ
2/N) B1 N [β
1,Var(B1)] BJ N [β
J,Var(BJ)] 1 J N t N / S A − − α − 1 J N J J J t ) B ( r aˆ V B − − β − 1 J N 1 1 1 t ) B ( r aˆ V B − − β −A partir das expressões anteriores é possível definir intervalos de confiança e
testes de hipóteses envolvendo os parâmetros de regressão.
Intervalos de Confiança:
N
/
1
S
)
2
/
(
t
A
:
±
N J 1γ
⋅
⋅
α
− −)
B
(
r
aˆ
V
)
2
/
(
t
B
:
j N J 1 j j±
γ
⋅
β
− − Teste de Hipóteses:O teste relativo ao parâmetro αααα será: H0: α =α0
H1: α ≠ α0 , α < α0 ouα > α0 S/ N
A ET = −α0
H0 verdadeira ⇒
ET
t
N−J−1Note que, os intervalos assim definidos estão correctamente especificados quando considerados individualmente. No entanto, o nível de confiança para o conjunto dos intervalos definidos para A e Bj (j=1,...,J) é, de facto, diferente do considerado.
Relativamente aos parâmetros ββββj deverá primeiro ser testada a hipótese de que todos eles são nulos contra a hipótese de que pelo menos um dele é diferente de zero. 4 4 4 4 4 4 4 4 4 3 4 4 4 4 4 4 4 4 4 2 1 L 4 4 4 4 4 4 4 4 4 3 4 4 4 4 4 4 4 4 4 2 1 L 4 4 3 4 4 2 1 L L ) S B S B ( S VR 2 J Jn J n 1 n 1 1 n S B S B VDR 2 J Jn J n 1 n 1 1 S VT n 2 n Y J X J Y 1 X 1 YY Y J X J Y 1 X 1 YY )] X X .( B ) X X .( B A Y [ ] Y ) X X .( B ) X X .( B A [ ) Y Y ( ⋅ + + ⋅ − = ⋅ + + ⋅ = = − − − − − − + + − − + + − + = −
∑
∑
∑
Teste de Hipóteses (cont.):
Tal teste será realizado recorrendo à técnica de Análise de Variância que se fundamenta na seguinte decomposição:
FONTES DE VARIAÇÃO VARIAÇÕES (Somas de quadrados) GRAUS DE LIBERDADE (Número de termos independentes) DESVIOS QUADRÁTICOS MÉDIOS VALORES ESPERADOS DEVIDA À REGRESSÃO (DR) Y X J Y X 1 S 1 B S J B = = VDR ⋅ ⋅ ++++⋅ ++++⋅⋅ GL1 = J DQMDR = VDR/GL1 E [DQMDR] = =σσσσ2 + + + + f B1 ,( ⋅⋅⋅, BJ)
[
]
2 RESIDUAL (R)(Variação residual "não explicada")
VR = SYY - VDR GL2 = N – J – 1 DQMR = VR/GL2 E [DQMR] = σσσσ2
TOTAL (T)
(Variação total)
VT = SYY GL = GL1 + GL2 = N- 1
Na ANOVA referente à regressão linear múltipla adopta-se esta decomposição.
Donde decorre a estrutura do teste ANOVA
H0: β1 = β2=....= βJ =0
H1: algum βj ≠ 0
DQMR
DQMDR
Utilizando os dados do
exemplo
anterior, vamos testar as hipóteses
H
0:
β
1=
β
2= 0
H
1:
β
1ou
β
2≠
0.
A
tabela ANOVA
correspondente vem:
F O N T E S V A R IA Ç Õ E S G .L . D Q M D R 1 4 0 .3 2 7 0 .1 5 R 6 .9 7 0 .9 8 3 T 1 4 7 .2 9
Exemplo (cont.)
74 . 4 ) 05 . 0 ( F 34 . 71 983 . 0 15 . 70 ET = = > 2,7 α = =Quando a hipótese nula é rejeitada é necessário verificar quais os βj que são diferentes de zero. Uma via possível consiste na realização dos seguintes testes individuais aos parâmetros.
H0: βj =0 H1: βj ≠ 0, βj > 0 ou βj < 0,
)
B
(
r
aˆ
V
ET
j jβ
=
H0 verdadeira ⇒ET
t
N−J−1Das expressões anteriores relativas aos estimadores de Bj decorre a seguinte estrutura para os testes:
365 . 2 ) 025 . 0 ( t 92 . 7 548 . 0 34 . 4 ) B ( Var b ET 7 1 ^ 1 = = > = = 365 . 2 ) 025 . 0 ( t 19 . 8 365 . 0 99 . 2 ) B ( Var b ET 7 2 ^ 2 = = > = = 548 . 0 ˆ 1 B = σ ˆ 0.365 2 B = σ
Sabendo que b
1= 4.34 b
2= 2.99
H
0:
β
1= 0 é rejeitada
ao nível de significância de 5% (valor de prova
quase nulo)
H
0:
β
1= 0
e
H
0:
β
2= 0
H
1:
β
1≠
0
H
1:
β
2≠
0
H
0:
β
2= 0
também
é rejeitada
ao nível de significância de 5%
(igualmente com valor de prova praticamente nulo).
Exemplo.
Estime e teste o modelo de regressão para as seguintes variáveis:
18 230 83 9 80 38 9 85 45 22 180 117 13 100 62 11 95 56 9 90 49 19 60 69 X2 X1 Y
69 60 19 17.0 3025.0 27.6 -288.8 -226.9 21.7 49 90 9 252.0 625.0 22.6 118.8 396.9 75.4 56 95 11 78.8 400.0 7.6 55.0 177.5 24.4 62 100 13 8.3 225.0 0.6 11.3 43.1 2.2 117 180 22 2717.0 4225.0 68.1 536.3 3388.1 430.0 45 85 9 395.0 900.0 22.6 142.5 596.3 94.4 38 80 9 722.3 1225.0 22.6 166.3 940.6 127.7 83 230 18 328.5 13225.0 18.1 488.8 2084.4 77.0 64.9 115.0 13.8 4518.9 23850.0 189.5 1230.0 7400.0 852.8 a= 64.88 23850 b1 + 1230 b2 = 7400 1230 b1 + 189.5 b2 = 852.75 b1= 0.12 b2= 3.74 ANOVA FV Var GL DQM ET= 21.93798 DR 4056.595 2 2028.298 F2,5= 5.786135 R 462.2799 5 92.45598 T 4518.875 7 R2xy= 89.77%
O
problema associado
à realização destes testes reside no facto de o
nível de significância do conjunto
dos testes ser diferente daquele que
foi especificado.
Esta dificuldade pode ser contornada com o método de
selecção de
regressores
.
• No modelo de regressão múltipla admitiu-se que as variáveis independentes (os regressores) eram designadas à partida.
• Na maioria das situações práticas não é possível especificar à partida, com segurança, o conjunto ideal de regressores.
• Num cenário real podem existir uma multiplicidade de regressores potencialmente úteis na explicação do comportamento da variável
dependente, havendo que seleccionar de entre eles aqueles que devem figurar no modelo.
• De seguida serão discutidos diferentes métodos de selecção de regressores.
1. Construir os modelos de regressão que combinem de todas as maneiras possíveis os regressores potenciais.
2. Ordenar os modelos de regressão de acordo com um critério de qualidade
(por exemplo, minimizar os DQMR).
3. Avaliar em detalhe um número restrito de modelos considerados melhores,
de acordo com o critério fixado em (2).
Método Exaustivo
O ponto (3) está associado à incapacidade de definir um critério único que, em todas as circunstâncias, permita comparar objectivamente a qualidade dos modelos.
Se o número de regressores potenciais for J, o número de modelos alternativos a construir é 2J-1.
1. Ajustar tantos modelos de regressão linear simples quantos os regressores potenciais. Incluir no modelo aquele que explica a maior proporção da variação da variável dependente. Se nenhum regressor explicar uma proporção
significativa da variação o método termina.
2. Construir modelos de regressão dupla que associem o regressor seleccionado em (1) e cada um dos restantes regressores potenciais.
De entre os novos regressores que explicam uma proporção adicional significativa da variação total, incluir no modelo aquele que explica a maior proporção.
3. Prosseguir a tentativa de construção de modelos de ordem superior adoptando um procedimento idêntico ao descrito.
4. O método termina quando nenhum dos regressores potenciais explica um proporção adicional significativa da variação total ou quando todos os regressores forem incluídos no modelo.
. rejeitada H 41 . 4 ) 05 . 0 ( F 0 . 22 18 / 90 110 ET 0 : H0 2 1,18 ⇒ 0 = > = = → = β
Considere-se o problema da selecção de regressores admitindo que se dispõe de
20 observações de uma variável dependente (Y) e de três variáveis candidatas a
figurarem como regressores num modelo de regressão múltipla (X1, X2 e X3).
Exemplo
Passo (1): construir três modelos de regressão linear simples
Modelo Y = Y(X1): Fontes Variações G.L. DQM DR (X1) 60 1 60 R 140 18 140/18 T 200 19 Modelo Y = Y(X2): Fontes Variações G.L. DQM DR (X2) 110 1 110 R 90 18 90/18 T 200 19 Modelo Y = Y(X3): Fontes Variações G.L. DQM DR (X3) 20 1 20 R 180 18 180/18 T 200 19
O regressor que explica a maior proporção da variação total é X2.
O teste ANOVA permite verificar que a proporção da variação explicada é
Modelo Y = Y(X2, X1): Fontes Variações G.L. DQM DR (X2,X1) 120 2 120/2 R 80 17 80/17 T 200 19 Modelo Y = Y(X2, X3): Fontes Variações G.L. DQM DR (X2,X3) 135 2 135/2 R 65 17 65/17 T 200 19
Vamos agora de testar se o contributo adicional de X3 para a explicação da
variação de Y é significativo. Para tal tem-se de alterar a tabela ANOVA
correspondente decompondo: VDR(X2, X3) = VDR(X2) + VDR(X3|X2) Fontes Variações G.L. DQM DR (X2,X3) 135 2 135/2 DR (X2) (110) (1) DR (X3|X2) (25) (1) 25 R 65 17 65/17 T 200 19 2 1 Y = Y(X2, X3)
O teste ANOVA a realizar tem a seguinte estrutura: H0: β3 = 0 H1: β3 ≠ 0 DQMDR ) X | X ( DQMDR ET= 3 2 H 0 verdadeira ⇒ ET F1,N-3. 45 . 4 ) 05 . 0 ( F 54 . 6 17 / 65 25 DQMR ) X | X ( DQMDR ET= 3 2 = = > 1,17 =
Nestas condições, é incluído no modelo o regressor X3, que assim se junta ao
regressor X2
Passo (3) construir o modelo de regressão linear tripla Y = Y(X2, X3, X1)
Fontes Variações G.L. DQM DR (X2,X3,X1) 140 3 135/2 DR (X2,X3) (135) (2) DR (X1|X2,X3) (5) (1) 5 R 60 16 60/16 T 200 19 . rejeitada ão 50 . 4 ) 05 . 0 ( 33 . 1 16 / 60 5 ) , | ( 0 16 , 1 3 2 1 n H F DQMR X X X DQMDR ET ⇒ = < = = =
Neste caso, o teste ANOVA permite verificar que, a proporção adicional da variação total que é explicada por X1 não é significativa
1. Incluir no modelo todos os regressores potenciais.
2. Retirar do modelo, um a um, regressores cuja presença não contribua
para explicar uma proporção significativa da variação total
3. Prosseguir a tentativa de construção de modelos de ordem inferior
adoptando um procedimento idêntico ao descrito.
Método Regressão Passo a Passo
Consistem em versões dos métodos progressivo e regressivo nas
quais os regressores que tenham sido incorporados no modelo ou dele excluídos em passos anteriores são reexaminados
2. Utilize o método de selecção de regressores para o exemplo:
Y 69 49 56 62 117 45 38 83
X1 60 90 95 100 180 85 80 230
ANOVA y=f(X1) ANOVA y=f(X1,X2)
df SS MS F V.P. df SS MS F V.P.
DR(X1) 1 2296.0 2296.0 6.2 0.047 DR(X1,X2) 2 4056.6 2028.3 21.9 0.003
R 6 2222.9 370.5 R 5 462.3 92.5
Total 7 4518.9 Total 7 4518.9
ANOVA y=f(X2) ANOVA y=f(X1,X2)
df SS MS F V.P. df SS MS F V.P. DR(X2) 1 3837.4 3837.4 33.8 0.001 DR(X1,X2) 2 4056.6 2028.3 R 6 681.5 113.6 DR(X2) 1 3837.4 Total 7 4518.9 DR(X1|X2) 1 219.2 219.2 2.4 0.184 Residual 5 462.3 92.5 Total 7 4518.9
Incorporação de regressores qualitativos: variáveis mudas
As variáveis mudas são incorporadas nos modelos de regressão com o objectivo de representar o efeito de factores qualitativos.
Exemplo
Numa determinada empresa de artes gráficas existe uma secção dedicada ao fabrico de um tipo de cartões. Na figura representam-se, para essa secção, observações das variáveis
X: dimensões de diferentes encomendas de cartões
Y: custos de produção associados à satisfação das encomendas. Y X - com urgência + - normal + + + + + + +
As observações foram classificadas em encomendas satisfeitas em regime
normal e encomendas satisfeitas com urgência.
n n n n n n N (X X) (Z Z) E ' X Z E Y =α+β⋅ − +γ⋅ − + = α+β⋅ +γ⋅ +
Em que Zn represente um variável muda que toma os seguintes valores
= urgente regime o para , 1 normal regime o para , 0 Zn
Para representar adequadamente um factor com k níveis devem ser incluídas
no modelo de regressão k - 1 variáveis mudas, por exemplo, para considerar
três regimes de satisfação de encomendas
regime normal: Z1 = 0, Z2 = 1 regime urgente: Z1 = 1, Z2 = 0 regime muito urgente: Z1 = 1, Z2 = 1.
= normal for não regime o se , 1 normal for regime o se , 0 Z1 = urgente for não regime o se , 1 urgente for regime o se , 0 Z2
No exemplo γ representa o valor esperado do custo adicional associado ao
regime urgente. n n 2 2 n 1 1 n n ' X Z Z E Y =α+β⋅ +γ ⋅ +γ ⋅ +
• A técnica de regressão linear simples pode ser utilizada em modelos não-lineares desde que os modelos sejam convertíveis em modelos não-lineares por aplicações de transformações às variáveis.
• Vamos considerar alguns exemplos de aplicação frequente.
Regressão Não-Linear
Método:
1. Transformar a variável X
2. Transformar a variável Y
Uma relação deste tipo pode ser
linearizada recorrendo à seguinte
transformação da variável independente
n n X 1 U = n n n E X ' Y : Modelo = α+ β + X Y n n n ' U E Y : o linearizad . Mod = α +β⋅ +
Exemplo 1
Linearização através de uma
transformação logarítmica
da variável
dependente
Zn =ln(Yn) n n n ' X E Z : o linearizad . Mod = α +β⋅ + n n E X ' n e Y : l exponencia Modelo = α+β⋅ + X YExemplo 2
n n n ' U E Z : o linearizad Mod. = α+β⋅ +
linearização:
) Y ln( Zn = n n n X 1 U = ) 0 e 0 ' com ( e Y : S curva Modelo ' /Xn En n = α > β < + β + αXXXX
YYYY
Exemplo 3
Entre uma variável dependente Y e uma variável independente X pode existir uma relação polinomial de grau J, que pode ser representada por um modelo do tipo:
Regressão Polinomial
n J J n J 2 2 n 2 n 1 n (X X) (X X ) (X X ) E Y = α +β ⋅ − +β ⋅ − +L+β ⋅ − + Onde = ⋅∑ n n X N 1 X = ⋅∑ n 2 n 2 X N 1 X = ⋅∑ n J n J X N 1 X ...Este modelo designa-se por modelo de regressão polinomial simples e pode
ser convertido num modelo de regressão linear múltipla fazendo corresponder
a cada potência uma nova variável substituindo:
jn j n X X J , , 1 j PARA = L =
n J Jn J 1 n 1 1 n (X X ) (X X ) E Y =α+β ⋅ − +L+β ⋅ − +
O problema da escolha do grau do polinómio é equivalente ao problema da selecção de regressores anteriormente abordado.
Exemplo X Y 1 55 2 70 3 75 4 65 5 60 2 n 2 n 1 n X X Y =α+β ⋅ +β ⋅ MODELO: 40 45 50 55 60 65 70 75 80 0 1 2 3 4 5 6 X Y
n n 2 2 1 1 n X X Y =α+β ⋅ +β ⋅
obtendo-se o seguinte modelo:
≡ ≡ 2 2 1 X X X X
Vamos definir as seguintes variáveis:
− = = ⇔ ⇔ − = ⋅ + ⋅ = ⋅ + ⋅ ⇔ = ⋅ + ⋅ = ⋅ + ⋅ 9 . 3 b 1 . 24 b 25 374 b 60 b 5 60 b 10 b S S b S b S S b S b 2 1 2 1 2 1 y x x x 2 x x 1 y x x x 2 x x 1 2 2 2 1 2 1 2 1 1 1 0 . 36 11 9 . 3 3 1 . 24 65 X X ' ˆ a=α =α−β1⋅ 1−β2 ⋅ 2 = − ⋅ + ⋅ = 2 1 Y 36.0 24.1 x 3.9 x ˆ n = + ⋅ + ⋅ µ X1=X X2=X2 Y 1 1 55 2 4 70 3 9 75 4 16 65 5 25 60 3 x1= 5 N= 65 y= 11 x2 = 10 S 1 1x x = 374 S 2 2x x = 60 S 2 1x x = 5 Sxy 1 = 25 Sxy 2 =− 40 45 50 55 60 65 70 75 80 0 1 2 3 4 5 6 X Y
O coeficiente de determinação ( ), que traduz a proporção da variação total de
Y explicada pela regressão ajustada, corresponde ao coeficiente de correlação r
elevado ao quadrado;
Este coeficiente apresenta uma limitação: o denominador da expressão que lhe está subjacente tem um valor fixo, enquanto que o numerador só pode aumentar. Assim, ao adicionar-se uma nova variável na equação da regressão, o numerador aumentará, no mínimo, ligeiramente, resultando num aumento do coeficiente de determinação, mesmo que a introdução da nova variável resulte numa equação menos eficiente;
Em teoria, usando um número infinito de variáveis independentes para explicar a variação da variável dependente, resulta num igual a 1. Por outras palavras, o coeficiente de determinação pode ser manipulado, logo deve ser suspeitado;
2 XY R 2 XY R
VR da liberdade de graus de n.º : 1 -K -N VT da liberdade de graus de total n.º : 1 -N regressão da grau : K s observaçõe de n.º : N
(
)
− − − − − = 1 1 . R 1 1 R2XY 2 K N NCoeficiente de Determinação Ajustado ( )R2XY
Dado que a introdução de um regressor irrelevante aumentará ligeiramente o , é desejável tentar corrigi-lo, reduzindo-o de uma forma apropriada;
O coeficiente de determinação ajustado, , é uma tentativa de tentar corrigir o , ajustando o numerador e o denominador da expressão através dos respectivos graus de liberdade;
Contrariamente ao coeficiente de determinação, o coeficiente de determinação ajustado pode diminuir em valor se a contribuição da variável adicional na explicação da VT, for inferior ao impacto que essa adição acarreta nos graus de liberdade. 2 XY R 2 XY R 2 XY R
3. Considere a seguinte série temporal, com 10 observações:
Com base nestes dados, efectue previsões dos valores de Zt (para t = 2007, 2008,
2009 e 2010), recorrendo aos seguintes métodos: i) regressão polinomial;
ii) regressão linear de variáveis transformadas.
Entre as previsões efectuadas pelos dois métodos quais adoptaria?
t 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006