Métodos Estatísticos de Previsão MÉTODOS ESTATÍSTICOS DE PREVISÃO. Regressão Linear. Bernardo Almada-Lobo

(1)

Bernardo Almada-Lobo

Regressão Linear

90 92 94 96 98 100 102 104 106 108 110 0 5 10 15 20

(2)

A

regressão

é uma das técnicas estatísticas mais potentes e de

utilização mais frequente.

É um método matemático utilizado para descrever a relação entre

variáveis

• Regressão linear simples

• Regressão linear múltipla

• Regressão não linear

(3)

(4)

Para uma equação de uma recta y = b

₀

+ b

₁

x, ao valor b

₀

chama-se

ordenada na origem

e ao valor b

₁

chama-se

declive

.

(5)

(6)

Um modelo de regressão linear simples descreve uma relação entre

duas

variáveis quantitativas

X,

independente

, e Y,

dependente

(

)

0 0 α β β β (β α β ) n n n n n n Y = + ⋅ X − X + E ⇔ Y = + ⋅ X + E = − ⋅ X

(

)

( )

n n n n Y a associado aleatório erro E estimar a fixos parâmetros , ) N , , 1 n ( Y , X de observação ésima n Y , X − − β α = − − L

(7)

)

,

0 (

IN

E

_n

σ

2

Aos valores observados X_n não estão associados quaisquer erros, devendo ser

encarados como constantes.

Os erros considerados no modelo de regressão linear simples incidem sobre os

valores observados de Y.

Na teoria da regressão admitem-se as seguintes hipóteses sobre os erros:

1. valor esperado nulo e variância constante

2. são mutuamente independentes

3. são normalmente distribuídos

Note que, a hipótese de que existe uma recta de regressão que se ajusta aos dados está implícita em todo o processo.

(8)

(9)

(10)

(

2

)

Y n IN , Y n σ µ

Se as hipóteses referidas se verificarem, os valores de Y_nsão independentes e

seguem uma distribuição normal:

(

X

_n

X

)

Y_n

=

α

+

β

⋅

−

µ

(11)

A figura assinala a diferença entre a recta de regressão da população (que gostaríamos de conhecer mas não conhecemos) e a recta estimada a partir da amostra.

(12)

Logo,

β₀ = α−β⋅X

_{também é constante}

A figura ilustra o significado de

α e β

0

X x1 x2 x3 x4 x5 x6 X Y 0 β α

(

)

0 α β β β n n n n Y X X Y X = + ⋅ − ⇔ = + ⋅

(13)

Os parâmetros da recta de regressão podem ser estimados pelo método dos mínimos quadrados

(

)

[

]

{

}

∑

= = − ⋅ β + α − = = N 1 n N 1 n 2 n n 2 n Y X X E SEQ MIN

[

(

) (

)

]

(

)

          = − − ⋅ − = = ⋅ = ⇒

∑

= = = XX XY N 1 n 2 n N 1 n n n N 1 n n S S X X Y Y X X B Y Y N 1 A XX XY N 1 n n s s ˆ b y y N 1 ˆ a = β = = ⋅ = α =

∑

=

A partir de um conjunto particular de observações (x_n, y_n) obtêm-se as estimativas seguintes: 0 1 2 3 4 5 6 0 10 20 X 30 40 50 Y 0 1 2 3 4 5 6 0 10 20 X 30 40 50 Y x x− y y−

(14)

Note que, a recta estimada passa sempre pelo ponto

(X,Y) X X Y

(

X X

)

Y_n = α+β⋅ _n − Y

(

X X

)

y y Y y ˆ a n = +β⋅ − = = α =

(15)

Se a relação entre X_n e µµµµ_Yn for efectivamente linear e os erros forem

independentes, tiverem valor esperado nulo e variância constante, pode demonstrar-se que:

1. A e B são estimadores não-enviesados, eficientes e consistentes

2. A matriz de variância-covariância dos estimadores é

( )

     σ σ =       XX 2 2 S 0 0 N B VAR A , B COV B , A COV A VAR

Como Cov(a,b)=0, conclui-se que A e B não são correlacionados, o que não

acontece com B₀ e B₁, uma vez que ββββ₀ é função de ββββ.

Deste facto resulta a vantagem do modelo

(

n

)

n n

X

E

Y

=

α

+

β

⋅

−

+

relativamente a 0 β β n n n Y = + ⋅ X + E X 0 =α−β⋅ β

(16)

XX S B Var 2 ) ( =

σ

Estimativa de β é melhor

quando os valores de x estão mais espalhados.

(17)

(

)

[

]

2 1 1 2 2

2

1 ˆ

2

1 ∑

∑

= =

−

⋅

−

⋅

−

=

⋅

−

=

N n N n n n n

Y

A

B

X

N

E

N

S

3. Um estimador não-enviesado de

σσσσ

2

_é

(18)

82 ) y y ( ) x x ( s 40 ) x x ( s 30 y 10 x 5 N n n n XY n 2 n XX

∑

= − ⋅ − = = − = = = =

Admitindo que a relação entre as variáveis X e Y é linear, pretende-se estimar os parâmetros do modelo de regressão correspondente:

n x_n y_n 1 12 33 2 8 24 3 14 39 4 10 31 5 6 23 n y_n _Y a b (x_n x) n = + ⋅ − µ eˆn = yn −µˆy_n 1 33 30 + 2.05⋅ 2 = 34.1 33 − 34.1 = −1.1 2 24 30 + 2.05⋅ (−2) = 25.9 24 − 25.9 = −1.9 3 39 30 + 2.05⋅ 4 = 38.2 39 − 38.2 = 0.8 4 31 30 + 2.05⋅ 0 = 30.0 31 − 30.0 = 1.0 5 23 30 + 2.05⋅ (−4) = 21.8 23 − 21.8 = 1.2

∑

= = ⋅ − = σ = N 1 n 2 n 2 2 63 . 2 eˆ 2 N 1 ˆ s 05 . 2 s s b 30 y a XX XY = = = = 0658 . 0 s s ˆ 527 . 0 N s ˆ XX 2 2 B 2 2 A = = σ = = σ

(19)

Se E

_n

IN(0,

σσσσ

2

_{), é possível}

_{especificar as distribuições dos estimadores}

de

αααα

,

ββββ

e

σσσσ

2

(

)

N 2 2 t N S A N , N A α σ ⇒ −α ₋

(

B A X B

)

t S X N 1 S B S X N 1 , N B _N ₂ ₀ XX 2 0 0 2 XX 2 0 0 = − ⋅ + ⋅ β − ⇒         σ ⋅       + β ₋

(

)

N 2 XX XX 2 t S S B S , N B β σ ⇒ −β ₋

A partir destas expressões é possível definir

I.C.

e

T.H

.

(

)

0 α β β β n n n n Y X X Y X = + ⋅ − ⇔ = + ⋅

1.

2.

3.

(20)

Os intervalos de confiança bilaterais a (1- γγγγ) . _{100% vêm}

( )

2 S 1N t A : ± _N ₂ γ ⋅ ⋅ α ₋

(

0.05 2

)

3.18 t₃ = EXEMPLO (CONT.)

(

)

( )

XX 2 2 N 0 : A − X⋅B ±t γ 2 ⋅S⋅ 1N+ X S β ₋

( )

XX 2 N 2 S 1S t B : ± γ ⋅ ⋅ β ₋

[

1.23,2.87

]

40 1 63 . 2 18 . 3 05 . 2 : ± ⋅ ⋅ ⇒ β

(

30 10 2.05

)

3.18 2.63 1 5 10 40

[

1.05,17.95

]

: 2 0 − ⋅ ± ⋅ ⋅ + ⇒ β

[

27.69,32.31

]

5 1 63 . 2 18 . 3 30 : ± ⋅ ⋅ ⇒ α 1. 2. 3.

(21)

Testes de hipóteses para os parâmetros de regressão

Os testes de hipóteses relativos aos parâmetros podem ser realizados

recorrendo aos intervalos de confiança. Alternativamente, os testes podem ser

efectuados pelo método clássico:

( )

N 2 XX 2 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 t S X N 1 S B X A ET : . VERD H , , : H : H − + ⋅ β − ⋅ − = ⇒     β < β β > β β ≠ β β = β 2 N XX 0 0 0 0 0 1 0 0 t S S B ET : . VERD H , , : H : H − β − = ⇒     β < β β > β β ≠ β β = β 2 N 0 0 0 0 0 1 0 0 t N S A ET : . VERD H , , : H : H − α − = ⇒     α < α α > α α ≠ α α = α

1.

2.

3.

(22)

Quando se pretende realizar um teste bilateral à hipótese nula H₀: ββββ=0, pode recorrer-se a um procedimento baseado na ANOVA

(

)

{

[

(

)

]

}

{

[

(

)

]

}

4 4 4 4 4 3 4 4 4 4 4 2 1 4 4 4 4 3 4 4 4 4 2 1 4 43 4 42 1 XX 2 YY XX 2 YY VR S B S RESIDUAL . V n 2 n n S B VDR REGRESSÃO À DEVIDA . V n 2 n S VT TOTAL . V n 2 n Y A B X X Y Y A B X X Y ⋅ − = ⋅ = =

∑

− = + ⋅ − − + − + ⋅ −

(23)

2 N , 1 0 1 0 F DQMR DQMDR ET : . VERD H 0 : H 0 : H − = ⇒     ≠ β = β

O procedimento de teste ANOVA tem a seguinte estrutura:

Tabela ANOVA para o modelo de regressão linear simples

FONTES DE VARIAÇÃO VARIAÇÕES (Somas de quadrados) GRAUS DE LIBERDADE (Número de termos independentes) DESVIOS QUADRÁTICOS MÉDIOS VALORES ESPERADOS DEVIDA À REGRESSÃO (DR)

(Variação explicada pela regressão) VDR = B2 · SXX = B · SXY GL₁ = 1 DQMDR = VDR _{E [DQMDR] =}_σσσσ2₊_ββββ2 _·_S XX RESIDUAL (R)

(Variação residual, não explicada)

VR = S_YY- B · SXY GL2 = N−−−− 2 DQMR = VR/GL2 E [DQMR] = σσσσ2

TOTAL (T)

(Variação total)

(24)

Exemplo (anterior)

Admitindo que a relação entre as variáveis X e Y é linear, pretende-se

estimar os parâmetros do modelo de regressão correspondente

n x_n y_n 1 12 33 2 8 24 3 14 39 4 10 31 5 6 23 05 . 2 s s b 30 y a XX XY = = = =

(25)

Exemplo (cont.)

% 5 0 : H 0 : H₀ β = ₁ β ≠ α = FONTES VARIAÇÕES G.L. DQM DR 168.1 1 168.1 R 7.9 3 2.633 T 176.0 4

(

)

(

)

0 3 , 1 H Rejeitar 0.41% P prova de Valor 13 . 10 05 . 0 F 84 . 63 633 . 2 1 . 168 ET = = > = =

[

1.23,2.87

]

40 1 63 . 2 18 . 3 05 . 2 ± ⋅ ⋅ ⇒ ∈ β

I.C.:

(

0.05 2

)

3.18

(

Valor de prova P 0.41%

)

t 99 . 7 40 62 . 1 05 . 2 ET = = > ₃ = =

T.H.:

ANOVA:

(26)

Dado que cada novo valor Y se admite independente dos anteriores, são constantes e A e B são independentes, pode-se mostrar que a variância do erro de previsão vem:

Previsões com base no modelo de regressão linear simples

(

X X

)

B A ˆ Yˆ = µ_Y = + ⋅ −

(

)

[

X X E

]

[

A B

(

X X

)

]

Yˆ Y − = α +β⋅ − + − + ⋅ − = δ

( )

(

)

2 XX 2 S X X N 1 1 ) Yˆ ( VAR ) Y ( VAR VAR ⋅σ         ₋ + + = + = δ

O erro que se comete na previsão vem

X X e , , ββββ αααα Y µ µ µ µ y f (y| x) X x 1 x ₂ σσσσ µ µ µ µ _Y 2 µ µ µ µ _Y 1 σσσσ

Para cada valor de X, a melhor previsão de Y é dada por

( ) ( ) ( ) ( )       σ σ =       XX 2 2 S 0 0 N B VAR A , B COV B , A COV A VAR

(27)

( )

(

)

XX 2 2 N S X X N 1 1 S 2 t Yˆ ± ₋ γ ⋅ ⋅ + + −

Admitindo a normalidade dos erros E_n, temos que seguem também

distribuições Normais.

Assim, o intervalo de previsão a (1- γγγγ)._100% _será:

δδδδ e ˆ , Y Y

(

)

XX 2 S X X N 1 1 S Yˆ ± ⋅ + + −

Se t_n-2(γ/2)=1 a banda de previsão a (1-γγγγ)._{100% é definida por:}

Quando se considera todos os valores possíveis de X, os intervalos formam uma banda de previsão.

(28)

N 1 1 S Yˆ : B BANDA ± ⋅ +

Banda A - tem apenas a ver com a estimativa do desvio-padrão do erro E

Banda B - acrescenta, relativamente à banda A, o termo correspondente ao erro

de estimação de αααα

Banda C - acrescenta, relativamente à banda B, o termo correspondente ao erro

de estimação de ββββ Y x y = a + b (x - x) _i . _i A B C X ) (x x b a y_n = + ⋅ _n − 1 S Yˆ : A BANDA ± ⋅

(

)

XX 2 S X X N 1 1 S Yˆ : C BANDA ± ⋅ + + −

(29)

Uma relação que pareça linear dentro da gama de valores observados X_n, pode ter um comportamento não-linear numa gama mais alargada.

Apesar de a banda de previsão definida alargar à medida que as observações se afastam da média de X, esta não contempla esse tipo de situações,

assentando no pressuposto de que a relação é efectivamente linear.

X Y

Gama de valores observados

Relação linear ajustada Relação verdadeira (não linear)

Valor extrapo- lado de Y

Novo valor de X

(30)

(31)

Regressão linear simples e correlação entre variáveis

Embora a análise de correlação seja uma técnica menos potente do que a

regressão linear simples, pois apenas revela o grau de relacionamento linear

entre variáveis sem especificar a forma que ele assume, ambas estão intimamente ligadas.

Na regressão linear simples, os valores observados de X são encarados como

constantes, podendo não ser representativos de uma qualquer distribuição populacional

Na análise de correlação, para que a partir do coeficiente de correlação

amostral se possam fazer inferências relativas ao coeficiente de correlação populacional, é preciso que as observações (X_n,Y_n) sejam representativas da

(32)

(

) (

)

∑

= − ⋅ − ⋅ − = N n n n XY x x y y N c 1 1 1

(

) (

)

(

)

(

)

(

1 1

)

1 1 1 1 1 1 1 2 1 2 1 − ≤ ≤ ⋅ = − ⋅ − ⋅ − ⋅ − − ⋅ − ⋅ − =

∑

= = = XY Y X XY N n n N n n N n n n XY r s s c y y N x x N y y x x N r

Covariância amostral (permite inferir acerca da população)

Coeficiente de correlação amostral (medida adimensional)

0 1 2 3 4 5 6 0 10 20 X 30 40 50 Y x x − y y −

(33)

Se os valores X_n não forem obrigatoriamente representativos da população de

X, podem situar-se numa zona restrita dessa população, provocando o

enviesamento do coeficiente de correlação amostral

Y

Zona central

X

Enviesamentodo coeficiente de correlação amostral calculado a partir de observações pertencentes à zona central da população de x

(34)

Na análise de correlação

não se faz qualquer distinção entre variável

dependente e variável independente

A existência de correlação implica que

• X é causa de Y, ou

• Y é causa de X, ou ainda

• Uma outra variável é causa simultânea de X e Y

Que sentido fará, no contexto da regressão, calcular o coeficiente

de correlação amostral ?

R_XY

(35)

(

)

(

)

∑

−

⋅

=

⋅

=

n 2 n n 2 n 2 YY XX 2 2 XY

Y

X

B

S

B

R

Se X for claramente assumida como variável predeterminada, o cálculo do

quadrado do coeficiente de correlação amostral, o coeficiente de

determinação, representa a proporção da variação de y que é explicada pela

regressão

(

)

[

(

) (

)

]

(

)

∑

= = = = − ⋅ + = = − + − = − = N n n N n n N n n n n N n n YY x x b e y y y y y y s 1 2 2 1 2 1 2 1 2 ˆ ˆ L Não--explicada Explicada

(36)

determinado país depende do rendimento anual do agregado familiar. Na tabela seguinte apresentam-se os valores destas variáveis, expressas em unidades monetárias do país em causa, para um conjunto de 12 famílias considerado representativo da população.

Estime a relação entre as duas variáveis e o intervalo de previsão do montante global de seguros de vida efectuados por uma família com um rendimento anual agregado de 20 000 [u.m] Rendimento anual [1000 u.m.] Capital seguro [1000 u.m.] 14 31 19 40 23 49 12 20 9 21 15 34 22 54 25 52 15 28 10 21 12 24 16 34

(37)

• O modelo de regressão linear múltipla é uma extensão do modelo de regressão linear simples.

• Permite descrever uma relação entre um conjunto de variáveis

quantitativas independentes, X_j (j=1,2,...,J), e uma variável, Y, quantitativa dependente.

• O objectivo será o de construir um modelo que se ajuste melhor aos dados do que o modelo de regressão linear simples.

(38)

y =

β

₀

+

β

₁

x

X

Y

X

₂

1

O modelo de regressão linear simples considera

apenas uma variável independente, “X”

Y =β₀ + β ₁X + E

O modelo de regressão linear múltipla considera duas, ou mais, variáveis independentes, X₁ e X₂.

Y = b₀ + b₁x₁ + b₂x₂ + E

Agora, a recta é

transformada num plano

y =

β

0

+

β

1

x

1

+

β

2

(39)

O modelo de regressão linear múltipla :

n J Jn J 1 n 1 1 n

(

X

)

(

X

)

E

Y

=

α

+

β

⋅

−

+

L

+

β

⋅

−

+

) Y , X , , X

( ₁_n L _Jn _n

_{n-ésima observação das variáveis X}

1

,...,X

J

e Y

j

X

_{média das observações da variável X}

j

J 1, ,

,β β

α L

_{parâmetros fixos a estimar}

n

E

_{erro aleatório associado a Y}

(40)

Modelo de regressão linear

populacional

bivariado

X

₂

Y

X

₁

µ

µµ

µ

_YX

=

ββββ

₀

+

ββββ

₁

X

_1i

+

ββββ

₂

X

_2i ββββ₀

Y

_i

=

ββββ

₀

+

ββββ

₁

X

_1i

+

ββββ

₂

X

_2i

+

εεεε

_i

Response

Plane

(X

_1i

,X

_2i

)

(Observed Y)

εεεε

_i

X

₂

Y

X

₁

µ

µµ

µ

_YX

=

ββββ

₀

+

ββββ

₁

X

_1i

+

ββββ

₂

X

_2i ββββ₀

Y

_i

=

ββββ

₀

+

ββββ

₁

X

_1i

+

ββββ

₂

X

_2i

+

εεεε

_i

Response

Plane

(X

_1i

,X

_2i

)

(Observed Y)

εεεε

_i

(41)

X

₂

Y

X

₁

b

₀

Y

_i

= b

₀

+ b

₁

X

_1i

+ b

₂

X

_2i

+ e

_i

Response

Plane

(X

_1i

,X

_2i

)

(Observed Y)

^

e

_i

Y

_i

= b

₀

+ b

₁

X

_1i

+ b

₂

X

_2i

X

₂

Y

X

₁

b

₀

Y

_i

= b

₀

+ b

₁

X

_1i

+ b

₂

X

_2i

+ e

_i

Response

Plane

(X

_1i

,X

_2i

)

(Observed Y)

^

e

_i

Y

_i

= b

₀

+ b

₁

X

_1i

+ b

₂

X

_2i

(42)

E

_n

IN (0,

σ

2

₎

A este modelo

estão subjacentes as seguintes hipóteses

:

1. Os valores X

_jn

, e portanto, os seus valores esperados são

encarados como constantes predeterminadas, sem erro

2. Os erros E

_n

são mutuamente independentes, têm valor

esperado nulo, variância constante e são normalmente

distribuídos, isto é,

(43)

Os parâmetros podem ser

estimados recorrendo ao método

dos mínimos quadrados

minimizando a seguinte função:

J 1

,

β

α

L

[

]

{

}

2 n J Jn J 1 n 1 1 n n 2 n Y (X X ) (X X ) E SEQ =

∑

=

∑

− α+β ⋅ − +L+β ⋅ − 0 )] ( ) ( [ ) 2 (− ⋅ − − ₁⋅ ₁ − ₁ −⋅ ⋅⋅− ⋅ − = =

∑

_n _J _Jn _J n n X X X X Y SEQ _α _β _β ∂α ∂ 0 )] ( ) ( [ ) ( ) 2 (

{

₁ ₁ ₁ ₁ ₁

}

1 = − ⋅ − ⋅⋅ ⋅ − − ⋅ − − ⋅ − ⋅ − =

∑

_n _J _Jn _J n n n X Y X X X X X SEQ _α _β _β ∂β ∂ 0 )] ( ) ( [ ) ( ) 2 (− ⋅ { − ⋅ − − ₁⋅ ₁ − ₁ −⋅ ⋅⋅− ⋅ − }= =

∑

_n _J _Jn _J n n J Jn J X X X X Y X X SEQ _α _β _β ∂β ∂ (...)

(44)

A primeira equação permite obter o

estimador de

, que é idêntico ao

que foi definido para o modelo de regressão linear simples:

α

Y Y N 1 A n n = ⋅ =

∑

Desenvolvendo as restantes equações, obtém-se o seguinte sistema cuja

resolução permite obter

os estimadores de

β

₁

,

L

,

β

_J

Y X X X J X X 2 X X 1 Y X X X J X X 2 X X 1 Y X X X J X X 2 X X 1 J J J 2 J 1 J 2 J 2 2 2 1 2 1 J 1 2 1 1 1 S S B S B S B ) ( S S B S B S B S S B S B S B = ⋅ + + ⋅ + ⋅ = ⋅ + + ⋅ + ⋅ = ⋅ + + ⋅ + ⋅ L L L L ) X X ( ) X X ( S 2 2 1 1 2 j 1 j jn j j n j n X X =

∑

− ⋅ −

onde

S (X_jn X_j) (Y_n Y ) n Y Xj =

∑

− ⋅ −

e

(45)

1 X X X X X X X X 2 J 1 J J J 1 1 1 J 1 J J 1 J J 1 1 1 S S 0 S S 0 0 0 N ) B ( Var ) B , B ( Cov ) A , B ( Cov ) B , B ( Cov ) B ( Var ) A , B ( Cov ) B , A ( Cov ) B , A ( Cov ) A ( Var −               ⋅ σ =             L L L L L L L L L L L L L L

Se a relação entre as variáveis X_j e µ_y for linear e se os erros E_n forem independentes, tiverem valor esperado nulo e variância constante pode demonstrar-se que:

1. Os estimadores A e B₁,...,B_j são não-enviesados, eficientes e consistentes.

(46)

3. Um

estimador

não-enviesado de

σ

é definido pela expressão

: 2 J Jn J n 1 n 1 1 n n 2 2 )] X X .( B ) X X .( B A Y [ 1 J N 1 Eˆ 1 J N 1 S − − − − − − ⋅ − − = = ⋅ − − =

∑

L

(47)

Exemplo

Considerem-se as observações das variáveis X₁, X₂ e Y que constam da tabela. Admitindo que o valor esperado de Y é uma função linear de X₁ e X₂, estimem-se os parâmetros do modelo de regressão correspondente.

n x1n x2n yn 1 5.0 7.2 51.7 2 5.8 7.8 56.4 3 4.2 8.1 49.3 4 6.0 8.7 60.7 5 4.8 6.6 48.9 6 5.6 7.5 54.1 7 4.4 9.0 54.9 8 5.2 6.3 49.8 9 5.4 8.4 57.9 10 4.6 6.9 50.4 10 . 5 ) 6 . 4 8 . 5 0 . 5 ( 10 1 x₁ = ⋅ + +⋅ ⋅⋅+ = 10 N= 65 . 7 ) 9 . 6 8 . 7 2 . 7 ( 10 1 x₂ = ⋅ + +⋅ ⋅⋅+ = 41 . 53 ) 4 . 50 4 . 56 7 . 51 ( 10 1 y= ⋅ + +⋅ ⋅⋅+ = 3 . 3 ) 1 . 5 6 . 4 ( ) 1 . 5 0 . 5 ( ) x x ( S 2 2 i 2 1 i 1 x x₁ ₁ =

∑

− = − +⋅ ⋅⋅+ − = 42 . 7 ) 65 . 7 9 . 6 ( ) 65 . 7 2 . 7 ( ) x x ( S 2 2 i 2 2 i 2 x x2 2 =

∑

− = − +⋅ ⋅⋅+ − = 45 . 0 ) 65 . 7 9 . 6 ( ) 1 . 5 6 . 4 ( ) 65 . 7 2 . 7 ( ) 1 . 5 0 . 5 ( ) x x ( ) x x ( S S i 2 i 2 1 i 1 x x x x₁ ₂ = ₂ ₁=

∑

− ⋅ − = − ⋅ − +⋅ ⋅⋅+ − ⋅ − = 67 . 15 ) 41 . 53 4 . 50 ( ) 1 . 5 6 . 4 ( ) 41 . 53 7 . 51 ( ) 1 . 5 0 . 5 ( ) y y ( ) x x ( S i i 1 i 1 y x₁ =

∑

− ⋅ − = − ⋅ − +⋅ ⋅⋅+ − ⋅ − = 16 . 24 ) 41 . 53 4 . 50 ( ) 65 . 7 9 . 6 ( ) 41 . 53 7 . 51 ( ) 65 . 7 2 . 7 ( ) y y ( ) x x ( S i i 2 i 2 y x2 =

∑

− ⋅ − = − ⋅ − +⋅ ⋅⋅+ − ⋅ − = 19 . 147 ) 41 . 53 4 . 50 ( ) 41 . 53 7 . 51 ( ) y y ( S 2 2 i 2 i y y =

∑

− = − +⋅ ⋅⋅+ − =

(48)

As

estimativas dos parâmetros de regressão

podem então obter-se

nos seguintes termos:

41 . 53 y ˆ a=α = =     = ⋅ + ⋅ = ⋅ + ⋅ ⇒ 16 . 24 b 42 . 7 b 45 . 0 67 . 15 b 45 . 0 b 3 . 3 2 1 2 1     = β = = β = ⇒ 99 . 2 ˆ b 34 . 4 ˆ b 2 2 1 1     = ⋅ + ⋅ = ⋅ + ⋅ Y X X X 2 X X 1 Y X X X 2 X X 1 2 2 2 1 2 1 2 1 1 1 S S b S b S S b S b

Exemplo (cont.)

(49)

) 65 . 7 ( 99 . 2 ) 10 . 5 ( 34 . 4 41 . 53 ˆ_Y = + ⋅ x₁_i − + ⋅ x₂_i − i µ

A partir de pode-se calcular a estimativa de σ2

n yn µˆ_Yn eˆ_i =y_i−µˆ_Yn 1 51.7 51.630 0.070 2 56.4 56.897 -0.497 3 49.3 50.850 -1.550 4 60.7 60.458 0.242 5 48.9 48.967 -0.067 6 54.1 55.132 -1.032 7 54.9 54.410 0.490 8 49.8 49.306 -0.006 9 57.9 56.956 0.944 10 50.4 48.996 1.404 983 . 0 ] 404 . 1 07 . 0 [ 1 2 10 1 eˆ 1 J N 1 ˆ s 2 2 n 2 n 2 2 ⋅ +⋅ ⋅⋅+ = − − = ⋅ − − = σ =

∑

1 2 2 1 2 2 1 1 1 x x x x x x x x 2 2 ^ 1 2 ^ 2 1 ^ 1 ^ S S S S ˆ ) B ( Var ) B , B ( Cov ) B , B ( Cov ) B ( Var −       ⋅ σ =               − − = −       ⋅ = 133 . 0 018 . 0 018 . 0 300 . 0 1 42 . 7 45 . 0 45 . 0 30 . 3 983 . 0 548 . 0 ˆ 300 . 0 ) B ( Var 1 B 1 ^ = σ ⇒ = Var(B ) 0.133 ˆ 0.365 2 B 2 ^ = σ ⇒ = 090 . 0 365 . 0 548 . 0 018 . 0 ˆ 018 . 0 ) B , B ( Cov 2 1,B B 2 1 ^ − = ⋅ − = ρ ⇒ − =

(50)

Onde var(B₁),...,Var(B_j) são definidos a partir da matriz variância-covariância.

Se , é possível especificar as distribuições dos estimadores A e

B₁,...,B_J

)

,

0 (

σ

IN

E

_n ... A N (

α

,

σ

2_/N) B₁ N [

β

₁,Var(B₁)] B_J N [

β

_J,Var(B_J)] 1 J N t N / S A − − α − 1 J N J J J _t ) B ( r aˆ V B − − β − 1 J N 1 1 1 _t ) B ( r aˆ V B − − β −

(51)

A partir das expressões anteriores é possível definir intervalos de confiança e

testes de hipóteses envolvendo os parâmetros de regressão.

Intervalos de Confiança:

N

/

1 S

)

2 /

(

t

A

:

±

_N _J ₁

γ

⋅

α

₋ ₋

)

B

(

r

aˆ

V

)

2 /

(

t

B

:

_j _N _J ₁ _j j

±

γ

⋅

β

₋ ₋ Teste de Hipóteses:

O teste relativo ao parâmetro αααα será: H₀: α =α₀

H₁: α ≠ α₀ , α < α₀ ouα > α₀ S/ N

A ET = −α0

H₀ verdadeira ⇒

_ET

t

_N₋_J₋₁

Note que, os intervalos assim definidos estão correctamente especificados quando considerados individualmente. No entanto, o nível de confiança para o conjunto dos intervalos definidos para A e B_j (j=1,...,J) é, de facto, diferente do considerado.

(52)

Relativamente aos parâmetros ββββ_j deverá primeiro ser testada a hipótese de que todos eles são nulos contra a hipótese de que pelo menos um dele é diferente de zero. 4 4 4 4 4 4 4 4 4 3 4 4 4 4 4 4 4 4 4 2 1 L 4 4 4 4 4 4 4 4 4 3 4 4 4 4 4 4 4 4 4 2 1 L 4 4 3 4 4 2 1 L L ) S B S B ( S VR 2 J Jn J n 1 n 1 1 n S B S B VDR 2 J Jn J n 1 n 1 1 S VT n 2 n Y J X J Y 1 X 1 YY Y J X J Y 1 X 1 YY )] X X .( B ) X X .( B A Y [ ] Y ) X X .( B ) X X .( B A [ ) Y Y ( ⋅ + + ⋅ − = ⋅ + + ⋅ = = − − − − − − + + − − + + − + = −

∑

Teste de Hipóteses (cont.):

Tal teste será realizado recorrendo à técnica de Análise de Variância que se fundamenta na seguinte decomposição:

(53)

FONTES DE VARIAÇÃO VARIAÇÕES (Somas de quadrados) GRAUS DE LIBERDADE (Número de termos independentes) DESVIOS QUADRÁTICOS MÉDIOS VALORES ESPERADOS DEVIDA À REGRESSÃO (DR) Y X J Y X 1 S 1 B S J B = = VDR ⋅ ⋅ ++++⋅ ++++⋅⋅ GL1 = J DQMDR = VDR/GL1 E [DQMDR] = =σσσσ2 + + + + f B1 ,( ⋅⋅⋅, BJ)

[

]

2 RESIDUAL (R)

(Variação residual "não explicada")

VR = SYY - VDR GL2 = N – J – 1 DQMR = VR/GL2 E [DQMR] = σσσσ2

TOTAL (T)

(Variação total)

VT = SYY GL = GL1 + GL2 = N- 1

Na ANOVA referente à regressão linear múltipla adopta-se esta decomposição.

Donde decorre a estrutura do teste ANOVA

H₀: β₁ = β₂=....= β_J =0

H₁: algum β_j ≠ 0

_DQMR

DQMDR

(54)

Utilizando os dados do

exemplo

anterior, vamos testar as hipóteses

H

₀

:

β

₁

=

β

₂

= 0

H

₁

:

β

₁

ou

β

₂

≠

0. A

tabela ANOVA

correspondente vem:

F O N T E S V A R IA Ç Õ E S G .L . D Q M D R 1 4 0 .3 2 7 0 .1 5 R 6 .9 7 0 .9 8 3 T 1 4 7 .2 9

Exemplo (cont.)

74 . 4 ) 05 . 0 ( F 34 . 71 983 . 0 15 . 70 ET = = > ₂_,₇ α = =

(55)

Quando a hipótese nula é rejeitada é necessário verificar quais os β_j que são diferentes de zero. Uma via possível consiste na realização dos seguintes testes individuais aos parâmetros.

H₀: β_j =0 H₁: β_j ≠ 0, β_j > 0 ou β_j < 0,

)

B

(

r

aˆ

V

ET

j j

β

=

_H₀ _verdadeira⇒

_ET

_t

_N₋_J₋₁

Das expressões anteriores relativas aos estimadores de B_j decorre a seguinte estrutura para os testes:

(56)

365 . 2 ) 025 . 0 ( t 92 . 7 548 . 0 34 . 4 ) B ( Var b ET ₇ 1 ^ 1 = = > = = 365 . 2 ) 025 . 0 ( t 19 . 8 365 . 0 99 . 2 ) B ( Var b ET ₇ 2 ^ 2 = = > = = 548 . 0 ˆ 1 B = σ ˆ 0.365 2 B = σ

Sabendo que b

₁

= 4.34 b

₂

= 2.99

H

₀

:

β

₁

= 0 é rejeitada

ao nível de significância de 5% (valor de prova

quase nulo)

H

₀

:

β

₁

= 0

e

H

₀

:

β

₂

= 0

H

₁

:

β

₁

≠

0 H

₁

:

β

₂

≠

0 H

₀

:

β

₂

= 0

também

é rejeitada

ao nível de significância de 5%

(igualmente com valor de prova praticamente nulo).

(57)

Exemplo.

Estime e teste o modelo de regressão para as seguintes variáveis:

18 230 83 9 80 38 9 85 45 22 180 117 13 100 62 11 95 56 9 90 49 19 60 69 X2 X1 Y

(58)

69 60 19 17.0 3025.0 27.6 -288.8 -226.9 21.7 49 90 9 252.0 625.0 22.6 118.8 396.9 75.4 56 95 11 78.8 400.0 7.6 55.0 177.5 24.4 62 100 13 8.3 225.0 0.6 11.3 43.1 2.2 117 180 22 2717.0 4225.0 68.1 536.3 3388.1 430.0 45 85 9 395.0 900.0 22.6 142.5 596.3 94.4 38 80 9 722.3 1225.0 22.6 166.3 940.6 127.7 83 230 18 328.5 13225.0 18.1 488.8 2084.4 77.0 64.9 115.0 13.8 4518.9 23850.0 189.5 1230.0 7400.0 852.8 a= 64.88 23850 b1 + 1230 b2 = 7400 1230 b1 + 189.5 b2 = 852.75 b1= 0.12 b2= 3.74 ANOVA FV Var GL DQM ET= 21.93798 DR 4056.595 2 2028.298 F2,5= 5.786135 R 462.2799 5 92.45598 T 4518.875 7 R2xy= 89.77%

(59)

O

problema associado

à realização destes testes reside no facto de o

nível de significância do conjunto

dos testes ser diferente daquele que

foi especificado.

Esta dificuldade pode ser contornada com o método de

selecção de

regressores

.

(60)

• No modelo de regressão múltipla admitiu-se que as variáveis independentes (os regressores) eram designadas à partida.

• Na maioria das situações práticas não é possível especificar à partida, com segurança, o conjunto ideal de regressores.

• Num cenário real podem existir uma multiplicidade de regressores potencialmente úteis na explicação do comportamento da variável

dependente, havendo que seleccionar de entre eles aqueles que devem figurar no modelo.

• De seguida serão discutidos diferentes métodos de selecção de regressores.

(61)

1. Construir os modelos de regressão que combinem de todas as maneiras possíveis os regressores potenciais.

2. Ordenar os modelos de regressão de acordo com um critério de qualidade

(por exemplo, minimizar os DQMR).

3. Avaliar em detalhe um número restrito de modelos considerados melhores,

de acordo com o critério fixado em (2).

Método Exaustivo

O ponto (3) está associado à incapacidade de definir um critério único que, em todas as circunstâncias, permita comparar objectivamente a qualidade dos modelos.

Se o número de regressores potenciais for J, o número de modelos alternativos a construir é 2J_-1.

(62)

1. Ajustar tantos modelos de regressão linear simples quantos os regressores potenciais. Incluir no modelo aquele que explica a maior proporção da variação da variável dependente. Se nenhum regressor explicar uma proporção

significativa da variação o método termina.

2. Construir modelos de regressão dupla que associem o regressor seleccionado em (1) e cada um dos restantes regressores potenciais.

De entre os novos regressores que explicam uma proporção adicional significativa da variação total, incluir no modelo aquele que explica a maior proporção.

3. Prosseguir a tentativa de construção de modelos de ordem superior adoptando um procedimento idêntico ao descrito.

4. O método termina quando nenhum dos regressores potenciais explica um proporção adicional significativa da variação total ou quando todos os regressores forem incluídos no modelo.

(63)

. rejeitada H 41 . 4 ) 05 . 0 ( F 0 . 22 18 / 90 110 ET 0 : H₀ ₂ ₁_,₁₈ _ ⇒ ₀      = > = = → = β

Considere-se o problema da selecção de regressores admitindo que se dispõe de

20 observações de uma variável dependente (Y) e de três variáveis candidatas a

figurarem como regressores num modelo de regressão múltipla (X₁, X₂ e X₃).

Exemplo

Passo (1): construir três modelos de regressão linear simples

Modelo Y = Y(X1): Fontes Variações G.L. DQM DR (X1) 60 1 60 R 140 18 140/18 T 200 19 Modelo Y = Y(X2): Fontes Variações G.L. DQM DR (X2) 110 1 110 R 90 18 90/18 T 200 19 Modelo Y = Y(X3): Fontes Variações G.L. DQM DR (X₃) 20 1 20 R 180 18 180/18 T 200 19

O regressor que explica a maior proporção da variação total é X₂.

O teste ANOVA permite verificar que a proporção da variação explicada é

(64)

Modelo Y = Y(X₂, X₁): Fontes Variações G.L. DQM DR (X₂,X₁) 120 2 120/2 R 80 17 80/17 T 200 19 Modelo Y = Y(X2, X3): Fontes Variações G.L. DQM DR (X₂,X₃) 135 2 135/2 R 65 17 65/17 T 200 19

Vamos agora de testar se o contributo adicional de X3 para a explicação da

variação de Y é significativo. Para tal tem-se de alterar a tabela ANOVA

correspondente decompondo: VDR(X2, X3) = VDR(X2) + VDR(X3|X2) Fontes Variações G.L. DQM DR (X₂,X₃) 135 2 135/2 DR (X₂) (110) (1) DR (X₃|X₂) (25) (1) 25 R 65 17 65/17 T 200 19 2 1 Y = Y(X₂, X₃)

(65)

O teste ANOVA a realizar tem a seguinte estrutura: H₀: β₃ = 0 H₁: β₃ ≠ 0 DQMDR ) X | X ( DQMDR ET= 3 2 _H 0 verdadeira ⇒ ET F1,N-3. 45 . 4 ) 05 . 0 ( F 54 . 6 17 / 65 25 DQMR ) X | X ( DQMDR ET= 3 2 = = > ₁_,₁₇ =

Nestas condições, é incluído no modelo o regressor X₃, que assim se junta ao

regressor X₂

Passo (3) construir o modelo de regressão linear tripla Y = Y(X₂, X₃, X₁)

Fontes Variações G.L. DQM DR (X₂,X₃,X₁) 140 3 135/2 DR (X₂,X₃) (135) (2) DR (X₁|X₂,X₃) (5) (1) 5 R 60 16 60/16 T 200 19 . rejeitada ão 50 . 4 ) 05 . 0 ( 33 . 1 16 / 60 5 ) , | ( 0 16 , 1 3 2 1 n H F DQMR X X X DQMDR ET _ ⇒      = < = = =

Neste caso, o teste ANOVA permite verificar que, a proporção adicional da variação total que é explicada por X₁ não é significativa

(66)

1. Incluir no modelo todos os regressores potenciais.

2. Retirar do modelo, um a um, regressores cuja presença não contribua

para explicar uma proporção significativa da variação total

3. Prosseguir a tentativa de construção de modelos de ordem inferior

adoptando um procedimento idêntico ao descrito.

Método Regressão Passo a Passo

Consistem em versões dos métodos progressivo e regressivo nas

quais os regressores que tenham sido incorporados no modelo ou dele excluídos em passos anteriores são reexaminados

(67)

2. Utilize o método de selecção de regressores para o exemplo:

Y 69 49 56 62 117 45 38 83

X1 60 90 95 100 180 85 80 230

(68)

ANOVA y=f(X1) ANOVA y=f(X1,X2)

df SS MS F V.P. df SS MS F V.P.

DR(X1) 1 2296.0 2296.0 6.2 0.047 DR(X1,X2) 2 4056.6 2028.3 21.9 0.003

R 6 2222.9 370.5 R 5 462.3 92.5

Total 7 4518.9 Total 7 4518.9

ANOVA y=f(X2) ANOVA y=f(X1,X2)

df SS MS F V.P. df SS MS F V.P. DR(X2) 1 3837.4 3837.4 33.8 0.001 DR(X1,X2) 2 4056.6 2028.3 R 6 681.5 113.6 DR(X2) 1 3837.4 Total 7 4518.9 DR(X1|X2) 1 219.2 219.2 2.4 0.184 Residual 5 462.3 92.5 Total 7 4518.9

(69)

Incorporação de regressores qualitativos: variáveis mudas

As variáveis mudas são incorporadas nos modelos de regressão com o objectivo de representar o efeito de factores qualitativos.

Exemplo

Numa determinada empresa de artes gráficas existe uma secção dedicada ao fabrico de um tipo de cartões. Na figura representam-se, para essa secção, observações das variáveis

X: dimensões de diferentes encomendas de cartões

Y: custos de produção associados à satisfação das encomendas. Y X - com urgência + - normal + + + + + + +

As observações foram classificadas em encomendas satisfeitas em regime

normal e encomendas satisfeitas com urgência.

(70)

n n n n n n N (X X) (Z Z) E ' X Z E Y =α+β⋅ − +γ⋅ − + = α+β⋅ +γ⋅ +

Em que Z_n represente um variável muda que toma os seguintes valores

   = urgente regime o para , 1 normal regime o para , 0 Z_n

Para representar adequadamente um factor com k níveis devem ser incluídas

no modelo de regressão k - 1 variáveis mudas, por exemplo, para considerar

três regimes de satisfação de encomendas

regime normal: Z₁ = 0, Z₂ = 1 regime urgente: Z₁ = 1, Z₂ = 0 regime muito urgente: Z₁ = 1, Z₂ = 1.

   = normal for não regime o se , 1 normal for regime o se , 0 Z₁    = urgente for não regime o se , 1 urgente for regime o se , 0 Z₂

No exemplo γ representa o valor esperado do custo adicional associado ao

regime urgente. n n 2 2 n 1 1 n n ' X Z Z E Y =α+β⋅ +γ ⋅ +γ ⋅ +

(71)

• A técnica de regressão linear simples pode ser utilizada em modelos não-lineares desde que os modelos sejam convertíveis em modelos não-lineares por aplicações de transformações às variáveis.

• Vamos considerar alguns exemplos de aplicação frequente.

Regressão Não-Linear

Método:

1. Transformar a variável X

2. Transformar a variável Y

(72)

Uma relação deste tipo pode ser

linearizada recorrendo à seguinte

transformação da variável independente

n n X 1 U = n n n E X ' Y : Modelo = α+ β + X Y n n n ' U E Y : o linearizad . Mod = α +β⋅ +

Exemplo 1

(73)

Linearização através de uma

transformação logarítmica

da variável

dependente

Z_n =ln(Y_n) n n n ' X E Z : o linearizad . Mod = α +β⋅ + n n E X ' n e Y : l exponencia Modelo = α+β⋅ + X Y

Exemplo 2

(74)

n n n ' U E Z : o linearizad Mod. = α+β⋅ +

linearização:

) Y ln( Z_n = _n n n X 1 U = ) 0 e 0 ' com ( e Y : S curva Modelo ' /Xn En n = α > β < + β + α

XXXX

YYYY

Exemplo 3

(75)

Entre uma variável dependente Y e uma variável independente X pode existir uma relação polinomial de grau J, que pode ser representada por um modelo do tipo:

Regressão Polinomial

n J J n J 2 2 n 2 n 1 n (X X) (X X ) (X X ) E Y = α +β ⋅ − +β ⋅ − +L+β ⋅ − + Onde = ⋅∑ n n X N 1 X = ⋅∑ n 2 n 2 X N 1 X = ⋅∑ n J n J X N 1 X ...

Este modelo designa-se por modelo de regressão polinomial simples e pode

ser convertido num modelo de regressão linear múltipla fazendo corresponder

a cada potência uma nova variável substituindo:

jn j n X X J , , 1 j PARA = L =

(76)

n J Jn J 1 n 1 1 n (X X ) (X X ) E Y =α+β ⋅ − +L+β ⋅ − +

O problema da escolha do grau do polinómio é equivalente ao problema da selecção de regressores anteriormente abordado.

Exemplo X Y 1 55 2 70 3 75 4 65 5 60 2 n 2 n 1 n X X Y =α+β ⋅ +β ⋅ MODELO: 40 45 50 55 60 65 70 75 80 0 1 2 3 4 5 6 X Y

(77)

n n 2 2 1 1 n X X Y =α+β ⋅ +β ⋅

obtendo-se o seguinte modelo:

    ≡ ≡ 2 2 1 X X X X

Vamos definir as seguintes variáveis:

    − = = ⇔ ⇔     − = ⋅ + ⋅ = ⋅ + ⋅ ⇔     = ⋅ + ⋅ = ⋅ + ⋅ 9 . 3 b 1 . 24 b 25 374 b 60 b 5 60 b 10 b S S b S b S S b S b 2 1 2 1 2 1 y x x x 2 x x 1 y x x x 2 x x 1 2 2 2 1 2 1 2 1 1 1 0 . 36 11 9 . 3 3 1 . 24 65 X X ' ˆ a=α =α−β₁⋅ ₁−β₂ ⋅ ₂ = − ⋅ + ⋅ = 2 1 Y 36.0 24.1 x 3.9 x ˆ n = + ⋅ + ⋅ µ X₁=X X₂=X2 Y 1 1 55 2 4 70 3 9 75 4 16 65 5 25 60 3 x₁= 5 N= 65 y= 11 x₂ = 10 S 1 1x x = 374 S 2 2x x = 60 S 2 1x x = 5 S_x_y 1 = 25 S_x_y 2 =− 40 45 50 55 60 65 70 75 80 0 1 2 3 4 5 6 X Y

(78)

O coeficiente de determinação ( ), que traduz a proporção da variação total de

Y explicada pela regressão ajustada, corresponde ao coeficiente de correlação r

elevado ao quadrado;

Este coeficiente apresenta uma limitação: o denominador da expressão que lhe está subjacente tem um valor fixo, enquanto que o numerador só pode aumentar. Assim, ao adicionar-se uma nova variável na equação da regressão, o numerador aumentará, no mínimo, ligeiramente, resultando num aumento do coeficiente de determinação, mesmo que a introdução da nova variável resulte numa equação menos eficiente;

Em teoria, usando um número infinito de variáveis independentes para explicar a variação da variável dependente, resulta num igual a 1. Por outras palavras, o coeficiente de determinação pode ser manipulado, logo deve ser suspeitado;

2 XY R 2 XY R

(79)

VR da liberdade de graus de n.º : 1 -K -N VT da liberdade de graus de total n.º : 1 -N regressão da grau : K s observaçõe de n.º : N

(

)

      − − − − − = 1 1 . R 1 1 R2XY 2 K N N

Coeficiente de Determinação Ajustado ( )R2XY

Dado que a introdução de um regressor irrelevante aumentará ligeiramente o , é desejável tentar corrigi-lo, reduzindo-o de uma forma apropriada;

O coeficiente de determinação ajustado, , é uma tentativa de tentar corrigir o , ajustando o numerador e o denominador da expressão através dos respectivos graus de liberdade;

Contrariamente ao coeficiente de determinação, o coeficiente de determinação ajustado pode diminuir em valor se a contribuição da variável adicional na explicação da VT, for inferior ao impacto que essa adição acarreta nos graus de liberdade. 2 XY R 2 XY R 2 XY R

(80)

3. Considere a seguinte série temporal, com 10 observações:

Com base nestes dados, efectue previsões dos valores de Z_t (para t = 2007, 2008,

2009 e 2010), recorrendo aos seguintes métodos: i) regressão polinomial;

ii) regressão linear de variáveis transformadas.

Entre as previsões efectuadas pelos dois métodos quais adoptaria?

t 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006