Y em função de X, onde Y é a variável explicada por X. Y - variável explicada ou dependente de X X - variável explicativa ou independente

(1)

XII- REGRESSÃO E CORRELAÇÃO

12.1. REGRESSÃO LINEAR SIMPLES:

12.1.1.Introdução:

1. Relacionamento entre variáveis : - requer conhecimento

Y = ϕ( X ) + ψ

Ex: 1.

Y = Produção agrícola X = Fertilizante

Y em função de X, onde Y é a variável explicada por X . Y - variável explicada ou dependente de X

X - variável explicativa ou independente 12.1.2. Diagrama de Dispersão:

X (lb/acre)

Y (bushel/acre)

100 40

200 45

300 50

400 65

500 70

600 70

700 80

termo estocástico

(2)

0 20 40 60 80

0 200 400 600 800

2.

X = distância de entrega de uma carga Y= tempo de entrega

Carregamento Amostrado

Distânica (em Km)

Tempo de Entrega (em dias)

1 825 3,5

2 215 1

3 1070 4

4 550 2

5 480 1

6 920 3

7 1350 4,5

8 325 1,5

9 670 3

10 1215 5

3.

X= idade da casa Y= valor do aluguel

1900ral 1900ral 1900ral 1900ral 1900ral 1900ral 1900ral

1900ral 1901ral 1902ral 1904ral

Tempo (dias)

Distância (Km)

Gráfico de Dispersão

(3)

(anos) (dolar)

1a. 3 500

2a. 12 320

3a. 5 400

4a. 7 330

5a. 8 450

6a. 19 130

7a. 10 300

8a. 22 140

9a. 15 280

10a. 25 260

12.1.3. Correlação Linear:

cov(X Y, ) E{[X_i E X( )].[Y_i E Y( )]} (X_i X)(Y Y )

i N

= − − = − i −

=

∑

1

YY XX

XY N

i i N

i

i i N

i i

i N

i i XY

Y X XY

S S

S y

x y x

Y Y X

X

Y Y X X r

Y X

Y X Y

X

. . )

( ) (

) )(

(

) var(

).

var(

) , cov(

1 2 1

2 1

1 1

1 = =

−

=

∑

=

σ ρ σ

onde varia entre − ≤1 r_{X Y} ≤ 1 no caso do exemplo 1:

1900ral 1900ral 1900ral 1900ral 1901ral 1901ral 1901ral

1900ral 1900ral 1900ral 1900ral

VaLor Aluguel (R$)

Idade (anos)

Diagrama de Dispersão

(4)

r

XY = (x . ) =

( ).( . )

19 000 , 28 10 1 350

0 977

8

No segundo: rXY = 0,948942768

No terceiro: rXY = -0,83355

Estudaremos o relacionamento linear entre as variáveis, assim:

Y = α + β X + ε

Suposições:

1. A relação de X e Y é linear e há efeito causal entre elas.

2. X é uma variável não estocástica e conhecida 3. Considerações a cerca do erro:

3.1. ε_i _∼ ^{N 0}

( )

^,σ²

donde vemos que:

( )

E ε =_i 0 ∀i

e Var(ε_i)=σ² (constante, por isto não é indexada) Modelo Homoscedático

Modelo Homoscedástico Modelo Heteroscedástico 3.2. Não há correlação serial entre o erro aleatório, isto é, os erros são independentes. ^E

[ ]

^{ε ε =}ⁱ ^j ^{0 i}^{∀ ≠} ^j

di

Y

X Xi

(5)

12.1.4. Least Square Solution ( Solução dos Mínimos Quadrados) ou Ordinary Least Square (OLS) (Mínimos Quadrados Ordinários):

Seja a equação da reta:

Y = +α βX

A idéia é estimar os parâmetros _α e _β de tal maneira que a soma dos quadrados dos desvios seja mínima, isto é;

minimizar

( )

^dⁱ

(

^Y ^Y

)

i N

i i

i 2 N

1

2

= =1

∑

=

∑

− $

substituindo Y^$_i = +a bX e derivando em relação a a e b, e igualando as expressões a zero, temos:

Y Na b X

X Y a X b X

i i

i i i i

= +







∑

∑ ∑ ∑

²

Resolvendo o sistema temos:

a a

Y X

X Y X

N X

X X

i i

i i i

i

i i

= =

∑ ∑

∑

∑ ∑

∆

2

b b

N Y

X X Y

N X

X X

i

i i i

i

i i

= =

∑

∑ ∑

∑ ∑ ∑

∆

2

No caso do exemplo 1 teremos:

a = 32,857143 e b = 0,0678571 Ex2: (exercício).

Resolução com transferência de origem:(exercício)

a₀ = −Y bX e b x y x

S S

i i i

XY XX

=

∑

=

∑

²

(6)

12.1.5. Propriedades dos estimadores OLS:

1. E(ε) = 0.

2. Var(εi) = σ² Demo:

( ) [ ( ) ]

{ }

( ) ( ) ( )

Var E E

E E

como E

Var E

i i i

i i i i

i

i i

ε ε ε

ε ε ε ε

ε

ε ε σ

= −

− +

=

= =

2

2 2

2 0 = E

3. Cov(εiεj) = 0 Demo:

cov(εiεj)=E{[εi - E(εi)][εj – E(εj)]}

como: E(εi)=E(εj)=0

cov(εiεj)=E{[εi – 0][εj – 0]=E(εiεj) como εi e εj são independentes, então E(εiεj)=E(εi)E(εj)=0 assim,

cov(εiεj)=0 4. E(a) = α

Demo:

( )

^a ^E

(

^Y ^b^X

)

E = −

( )

^Y ^X^E

( )

^b

E −

= ^E

(

^α ⁺ ^β^X ⁺^ε

)

⁻ ^X^β

=

β β

α + ^X/ +⁰− ^X/

=

= α 5. Var(a) = ^σ

2 2

2

X

N x

i i

∑

6. E(b) = β 7. Var(b)= ^σ

2

x_i2

∑

8. E(Y_i) = α + βX_i 9. Var(Y_i) = σ²

(7)

Proposição:

β$∼^N

x_i ( ,β σ²₂ )

∑

α$∼^N ^X

x

i i

( ,α σ² ² )

2

∑

Como estimar _σ² ₌Var(_ε_i):

Var Var Y Y Var Y X

Y X

i i i i i N

i i

i N

( ) ( $ ) [ ($ $

)]

( $ $

)

ε α β

α β

= − = − + =

− −

−

=

∑

1

2

12.1.6- Teorema de Gauss-Markov:

Na classe dos estimadores lineares e não tendenciosos de α e β, o estimador de mínimos quadrados, tem mínima variância.

Sobre as hipóteses estudadas os estimadores α e β são BLUE (Best Linear Umbiased Estimator) são obtidos pelo método dos mínimos quadrados.

1- Provar que são lineares:

$ $

$

α β

β

= −

=

∑

Y X

x y x

i i i

2

2- E(β^$) = β

3- Var(β^$) ≤ Var(θ^$)

outro estimador

3 1 2

(8)

12.1.7- Decomposição da Soma dos Quadrados:

.

^Yi

(Y_i −Y) (Y_i −Yˆ_i)

(Yˆ_i −Y)

Propriedade Aditiva:

(

^Yⁱ ⁻^Y

)

⁼

(

^Y^$ⁱ ⁻^Y

) (

⁺ ^Yⁱ ⁻^Y^$ⁱ

)

Variação Total:

TSS =

( )

yy

n

i

i Y S

Y − =

∑

=1

Variação Explicada pelo Modelo:

RSS = ⁿ

( )

^xx ^xy

i

i Y b S bS

Y − = =

∑

=

2 1

ˆ

Variação Residual:

ESS = TSS – RSS = S_yy – bS_xy Obs:

TSS ∼

χ

n²−1

RSS ∼

χ

1 2

ESS ∼

χ

n²−2

X Y

(9)

Coeficiente de Determinação:

TSS = ESS + RSS 1 = ESS

TSS

RSS + TSS Assim:

R ESS

TSS

RSS TSS

2 = −1 =

Que é a proporção do total de variação de Y explicada pela regressão de Y em X.

0 ≤ R²≤ 1 Quando:

- R² = 0 o modelo de regressão linear não explica a variação de Y - R² = 1 a posição de todos os pontos amostrados estão na linha de regressão.

R² = 0 R² = 1 Erro de Estimativa da Regressão:

( )

2 2

ˆ

1

2 2

−

= −

−

=

∑

=

n bS S n

Y Y

S ^YY ^XY

N

i

i i R

(10)

12.1.8. Teste de Hipóteses:

Ho: β = 0 Não existe regressão H1: β ≠ 0 Existe regressão

Fixa o nível de significância: λ (5 ou 1%).

b ∼ ^N

S_XX ( ,β σ² )

t b

S S

c

XX

= − β

onde

−2

= −

=

n S S S

S b S

XY YY XX XY

Compara com t_n₋₂_,_λ_/₂. Análise da Variância.

Fonte de Variação Soma deQuad.

Graus de Lib.

Quadrado Médio

F_calc. F_tab.

Devido à regressão RSS 1 RSS/1

Residual ESS n-2 S²=ESS/n-2 F=RSS/S² F_1,n-2,λ

Total TSS n-1

Hipóteses: H_o: β = 0 H₁: β≠ 0

(11)

11.1.9. Intervalo de Confiança;

Para

α

^:

(

^α

)

^λ

α λ α

λ

α λ λ

−

= +

≤

−

=







− ≤ − ≤

−

1 .

. ˆ 1

2 ˆ / , ˆ 2

2 / , 2

2 / , 2 ˆ

2 / , 2

S t

a S

t a P

S t t

P

n n

onde:

∑

=

∑

₂

2

ˆ . _i

i

x n S X S_α

Para

β :

(

^β

)

^λ

β λ β

λ β λ β

λ β

λ

−

= +

≤

−

=











− ≤ − ≤

−

1 .

.

1 ˆ

2 ˆ / , ˆ 2

2 / , 2

2 / , 2 ˆ

2 / , 2

S t

b S

t b P

S t t

P

n n

onde: S S x

S

i SXX

β$ = =

∑

²

(12)

12.1.10. Predição:

Seja Y_i = +α βX_i +ε_i e Y^$_i = +α β^$ ^$X_i

Seja, ainda X=X₀ queremos prever um Y₀ relativo a um X₀. Y^$₀ = +α β^$ ^$X₀

ε_f = forecast error (erro de previsão) ε_f = Y_o −Y$_o

E(ε_f ) = E(Y_o −Y$_o) = 0

σ

²_f= Var(ε_f ) = E[(Y_o −Y$_o) - E(Y_o −Y$_o)]²

Então:

(Y_o −Y$_o) ∼ N(0,σ_f²)

$ $

, ,

Y_o t S Y Y t S

N f o o N f

− ₋₂ ≤ ≤ + ₋

2 2 2

λ λ

X Y

X_o

(13)

12.2. REGRESSÃO MÚLTIPLA Seja a notação matricial:

ε + β

=X Y

Onde:













=

nk 1

n

k 2 21

k 1 11

X X

1

X X

1

X X

1 X

K M O M M

K K

















=

n 1

Y Y

Y M















 β

β

= β

K 1

M















 ε ε

= ε

n 1

M

Assim temos que:

(

⁻ ^β

)(

⁻ ^β

)

⁼ ⁻ ^β⁻^β ⁺^β ^β⁼ ⁻ ^β ⁺^β ^β

= ε ε

=

∑

ε

=

X ' X ' Y ' X ' 2 Y ' Y X ' X ' Y ' X ' X ' Y Y ' Y X Y ' X Y '

n

1 i

i

) 0 '

( =

β

∂ ε ε

∂ temos:

-2X’Y+2X’Xβ = 0 então: ^β^ˆ ⁼

(

^X^'^X

)

⁻¹^X^'^Y

Hipóteses:

1) ε ~ N(0,σ²I) I = matriz identidade 2) E (ε) = 0

3) E (εε‘) = σ²I

(14)

Propriedades:

1. E($

β)=β

2. ^Var⁽^β^$⁾⁼^σ²

(

^{X X}^′

)

⁻¹

Por analogia ao modelos de regressão linear simples temos:

k n ˆ ˆ

2 2 i

−

= ε

σ

∑

onde k é o número de parâmetros

Verificar a qualidade de aderência para βj

Testes de Hipóteses:

1) Para cada βj j=1,2,...,k

H_o: _β_j = 0 ou _β_j = _β_j₀ H_a: βj ≠ 0 ou βj ≠ βj0

Estatística:

S j

ˆ t_n _k_, _/₂ ^j ^j⁰

β α

−

β

−

=β

2) Teste F de Snedecor:

H_o : β1 = β2 = ... = βk = 0 H_a : pelo menos um βj ≠ 0 Fonte de Variação Soma

deQuad.

Graus de Lib.

Quadrado Médio

F_calc. F_tab.

Devido a regressão RSS k-1 RSS/k-1

k n ESS

k F RSS

−

= − /

1 /

F_k-1,n-k;λ

Residual ESS n-k ESS/n-k

Total TSS n-1

(15)

OBS: A seleção de variáveis pode ser feita por:

Forward Selection Backward Selection

Stepwise Regression: Calcula a correlação entre as variáveis mais correlacionadas e depois vai inserindo ou retirando variáveis do modelo utilizando o teste F até atingir o ideal. Só se usa quando o número de variáveis for grande, caso contrário é melhor fazer todas as combinações possíveis.

Coeficiente de Determinação:

R ESS

TSS

RSS TSS

2 = −1 =

Obs: Quanto mais variáveis se introduz no modelo maior o coeficiente de determinação.

Correlação Parcial:

Suponha que se tenha 3 variáveis Y, X₁ e X₂ pode-se medir a as correlações simples entre Y e X₁ , Y e X₂ e X₁ e X₂ .

O coeficiente de correlação parcial mede a correlação entre 2 variáveis, incluindo os efeitos que a terceira possa ter causado sobre o comportamento delas, isto é, considerando que a terceira fosse constante.

2 1. X

rYX é o coeficiente de correlação parcial entre Y e X₁ em presença de X₂

(

¹ ²

)(

² ¹ ²¹ ²

)

2

1. 2 2

1

1 YX X X

X X YX YX X

YX r r

r r r r

−

= −

Multicolinearidade:

Se 2 variáveis cuja concepção são de independência, mas podem alguma linearidade entre elas (correlação entre elas).

Deve-se olhar a matriz de correlação e verificar se 2 variáveis

(16)

retirar uma delas para eliminar a multicolinearidade, pois vai dar problema no modelo.

Heteroscedasticidade:

Para detectar a heteroscedaticidade deve-se plotar o valor previsto versus resíduos ao quadrado. Se a reta estiver inclinada indica heteroscedasticidade.

12.3 REGRESSÃO NÃO LINEAR

- Regressão com Variáveis Transformadas:

Uma função que relaciona Y a X é intrinsecamente linear se, por meio de uma transformação em X e/ou em Y ela puder ser expressa linearmente. A tabela a seguir mostra alguns exemplos.

Função Transformação Forma Linear

e

X

Y = α

^β (Exponencial) ^Y′=^ln

( )

^Y Y′=ln(α)+βX α^Xβ

Y = (Potência) Y′=log(Y), X′=log(X) Y′=log(α)+βX′

Y X1

β α +

= (Recíproca)

X X1

′= Y =α +βX′

Quando o modelo transformado satisfaz as hipóteses, o método dos mínimos quadrados fornece os melhores resultados.

- Regressão Polinomial

Os modelos polinomiais são não lineares, mas intrinsecamente lineares.

A equação do modelo de regressão polinomial de k-ésimo grau é:

Y = β0 + β1X + β2X² + ...+ βkX^k

(17)

A estimativa usando mínimos quadrados é a apropriada, entretanto o modelo polinomial com k grande é muito improvável e, na maioria das aplicações usa-se k=2 (quadrático) ou k=3 (cúbico).

- Regressão Logística

Quando Y for uma variável dicotômica com os possíveis valores 1 e 0 correspondentes a sucesso e fracasso usa-se a Regressão Logística para prever o resultado.

A forma específica do modelo logístico usado será

1x 0 β eβ 1

1x 0 β eβ π(x) E(Y/x)

+ +

= +

=

A transformação logit

( )

_x

β1 β0 e 1

1x 0 β eβ ln ln π x

+ +

= +

que pode ser colocada na forma

1x 0 β π(x) β 1

ln π(x)

g(x)= − = +



 





Estimação dos parâmetros:

• Método Quase-Newton

• Método da Função Discriminante

• Modelo de Locação de Variáveis Mistas

O Modelo de Regressão Logística Múltipla é dada por:

eg(x) 1

eg(x) π(x)= + onde: g(x) = β0 + β1x₁ + β2x₂ + ... + βpx_p