• Nenhum resultado encontrado

Y em função de X, onde Y é a variável explicada por X. Y - variável explicada ou dependente de X X - variável explicativa ou independente

N/A
N/A
Protected

Academic year: 2021

Share "Y em função de X, onde Y é a variável explicada por X. Y - variável explicada ou dependente de X X - variável explicativa ou independente"

Copied!
17
0
0

Texto

(1)

XII- REGRESSÃO E CORRELAÇÃO

12.1. REGRESSÃO LINEAR SIMPLES:

12.1.1.Introdução:

1. Relacionamento entre variáveis : - requer conhecimento

Y = ϕ( X ) + ψ

Ex: 1.

Y = Produção agrícola X = Fertilizante

Y em função de X, onde Y é a variável explicada por X . Y - variável explicada ou dependente de X

X - variável explicativa ou independente 12.1.2. Diagrama de Dispersão:

X (lb/acre)

Y (bushel/acre)

100 40

200 45

300 50

400 65

500 70

600 70

700 80

termo estocástico

(2)

0 20 40 60 80

0 200 400 600 800

2.

X = distância de entrega de uma carga Y= tempo de entrega

Carregamento Amostrado

Distânica (em Km)

Tempo de Entrega (em dias)

1 825 3,5

2 215 1

3 1070 4

4 550 2

5 480 1

6 920 3

7 1350 4,5

8 325 1,5

9 670 3

10 1215 5

3.

X= idade da casa Y= valor do aluguel

1900ral 1900ral 1900ral 1900ral 1900ral 1900ral 1900ral

1900ral 1901ral 1902ral 1904ral

Tempo (dias)

Distância (Km)

Gráfico de Dispersão

(3)

(anos) (dolar)

1a. 3 500

2a. 12 320

3a. 5 400

4a. 7 330

5a. 8 450

6a. 19 130

7a. 10 300

8a. 22 140

9a. 15 280

10a. 25 260

12.1.3. Correlação Linear:

cov(X Y, ) E{[Xi E X( )].[Yi E Y( )]} (Xi X)(Y Y )

i N

= = i

=

1

YY XX

XY N

i i N

i i N

i

i i N

i i N

i i

i N

i i XY

Y X XY

S S

S y

x y x

Y Y X

X

Y Y X X r

Y X

Y X Y

X

. . )

( ) (

) )(

(

) var(

).

var(

) , cov(

) , cov(

1 2 1

2 1

1 1

1 = =

=

=

=

=

=

=

=

=

=

σ ρ σ

onde varia entre − ≤1 rX Y ≤ 1 no caso do exemplo 1:

1900ral 1900ral 1900ral 1900ral 1901ral 1901ral 1901ral

1900ral 1900ral 1900ral 1900ral

VaLor Aluguel (R$)

Idade (anos)

Diagrama de Dispersão

(4)

r

XY = (x . ) =

( ).( . )

19 000 , 28 10 1 350

0 977

8

No segundo: rXY = 0,948942768

No terceiro: rXY = -0,83355

Estudaremos o relacionamento linear entre as variáveis, assim:

Y = α + β X + ε

Suposições:

1. A relação de X e Y é linear e há efeito causal entre elas.

2. X é uma variável não estocástica e conhecida 3. Considerações a cerca do erro:

3.1. εi N 0

( )

2

donde vemos que:

( )

E ε =i 0 i

e Var(εi)=σ2 (constante, por isto não é indexada) Modelo Homoscedático

Modelo Homoscedástico Modelo Heteroscedástico 3.2. Não há correlação serial entre o erro aleatório, isto é, os erros são independentes. E

[ ]

ε ε =i j 0 i∀ ≠ j

di

Y

X Xi

(5)

12.1.4. Least Square Solution ( Solução dos Mínimos Quadrados) ou Ordinary Least Square (OLS) (Mínimos Quadrados Ordinários):

Seja a equação da reta:

Y = +α βX

A idéia é estimar os parâmetros α e β de tal maneira que a soma dos quadrados dos desvios seja mínima, isto é;

minimizar

( )

di

(

Y Y

)

i N

i i

i 2 N

1

2

= =1

=

$

substituindo Y$i = +a bX e derivando em relação a a e b, e igualando as expressões a zero, temos:

Y Na b X

X Y a X b X

i i

i i i i

= +

= +



∑ ∑ ∑

2

Resolvendo o sistema temos:

a a

Y X

X Y X

N X

X X

i i

i i i

i

i i

= =

∑ ∑

∑ ∑

∑ ∑

2

2

b b

N Y

X X Y

N X

X X

i

i i i

i

i i

= =

∑ ∑

∑ ∑ ∑

2

No caso do exemplo 1 teremos:

a = 32,857143 e b = 0,0678571 Ex2: (exercício).

Resolução com transferência de origem:(exercício)

a0 = −Y bX e b x y x

S S

i i i

XY XX

=

=

2

(6)

12.1.5. Propriedades dos estimadores OLS:

1. E(ε) = 0.

2. Var(εi) = σ2 Demo:

( ) [ ( ) ]

( ) [ ( ) ]

{ }

( ) ( ) ( )

Var E E

E E

como E

Var E

i i i

i i i i

i

i i

ε ε ε

ε ε ε ε

ε

ε ε σ

=

+

=

= =

2

2 2

2 2

2 0 = E

3. Cov(εiεj) = 0 Demo:

cov(εiεj)=E{[εi - E(εi)][εj – E(εj)]}

como: E(εi)=E(εj)=0

cov(εiεj)=E{[εi – 0][εj – 0]=E(εiεj) como εi e εj são independentes, então E(εiεj)=E(εi)E(εj)=0 assim,

cov(εiεj)=0 4. E(a) = α

Demo:

( )

a E

(

Y bX

)

E =

( )

Y XE

( )

b

E

= E

(

α + βX +ε

)

Xβ

=

β β

α + X/ +0X/

=

= α 5. Var(a) = σ

2 2

2

X

N x

i i

6. E(b) = β 7. Var(b)= σ

2

xi2

8. E(Yi) = α + βXi 9. Var(Yi) = σ2

(7)

Proposição:

β$N

xi ( ,β σ22 )

α$N X

x

i i

( ,α σ2 2 )

2

Como estimar σ2 =Var(εi):

Var Var Y Y Var Y X

Y X

i i i i i N

i i

i N

( ) ( $ ) [ ($ $

)]

( $ $

)

ε α β

α β

= = + =

− −

=

1

2

12.1.6- Teorema de Gauss-Markov:

Na classe dos estimadores lineares e não tendenciosos de α e β, o estimador de mínimos quadrados, tem mínima variância.

Sobre as hipóteses estudadas os estimadores α e β são BLUE (Best Linear Umbiased Estimator) são obtidos pelo método dos mínimos quadrados.

1- Provar que são lineares:

$ $

$

α β

β

= −

=

Y X

x y x

i i i

2

2- E(β$) = β

3- Var(β$) ≤ Var(θ$)

outro estimador

3 1 2

(8)

12.1.7- Decomposição da Soma dos Quadrados:

.

Yi

(Yi Y) (Yi Yˆi)

(Yˆi Y)

Propriedade Aditiva:

(

Yi Y

)

=

(

Y$i Y

) (

+ Yi Y$i

)

Variação Total:

TSS =

( )

yy

n

i

i Y S

Y − =

=1

Variação Explicada pelo Modelo:

RSS = n

( )

xx xy

i

i Y b S bS

Y − = =

=

2 1

ˆ

Variação Residual:

ESS = TSS – RSS = Syy – bSxy Obs:

TSS ∼

χ

n21

RSS ∼

χ

1 2

ESS ∼

χ

n22

X Y

(9)

Coeficiente de Determinação:

TSS = ESS + RSS 1 = ESS

TSS

RSS + TSS Assim:

R ESS

TSS

RSS TSS

2 = −1 =

Que é a proporção do total de variação de Y explicada pela regressão de Y em X.

0 ≤ R2≤ 1 Quando:

- R2 = 0 o modelo de regressão linear não explica a variação de Y - R2 = 1 a posição de todos os pontos amostrados estão na linha de regressão.

R2 = 0 R2 = 1 Erro de Estimativa da Regressão:

( )

2 2

ˆ

1

2 2

=

=

=

n bS S n

Y Y

S YY XY

N

i

i i R

(10)

12.1.8. Teste de Hipóteses:

Ho: β = 0 Não existe regressão H1: β ≠ 0 Existe regressão

Fixa o nível de significância: λ (5 ou 1%).

b ∼ N

SXX ( ,β σ2 )

t b

S S

c

XX

= − β

onde

2

=

=

n S S S

S b S

XY YY XX XY

Compara com tn2,λ/2. Análise da Variância.

Fonte de Variação Soma deQuad.

Graus de Lib.

Quadrado Médio

Fcalc. Ftab.

Devido à regressão RSS 1 RSS/1

Residual ESS n-2 S2=ESS/n-2 F=RSS/S2 F1,n-2,λ

Total TSS n-1

Hipóteses: Ho: β = 0 H1: β≠ 0

(11)

11.1.9. Intervalo de Confiança;

Para

α

:

(

α

)

λ

α λ α

α λ α

λ

α λ λ

= +

=



− ≤ − ≤

1 .

. ˆ 1

2 ˆ / , ˆ 2

2 / , 2

2 / , 2 ˆ

2 / , 2

S t

a S

t a P

S t t

P

n n

n n

onde:

=

2

2

ˆ . i

i

x n S X Sα

Para

β :

(

β

)

λ

β λ β

λ β λ β

λ β

λ

= +

=



− ≤ − ≤

1 .

.

1 ˆ

2 ˆ / , ˆ 2

2 / , 2

2 / , 2 ˆ

2 / , 2

S t

b S

t b P

S t t

P

n n

n n

onde: S S x

S

i SXX

β$ = =

2

(12)

12.1.10. Predição:

Seja Yi = +α βXi +εi e Y$i = +α β$ $Xi

Seja, ainda X=X0 queremos prever um Y0 relativo a um X0. Y$0 = +α β$ $X0

εf = forecast error (erro de previsão) εf = Yo Y$o

E(εf ) = E(Yo Y$o) = 0

σ

2f= Var(εf ) = E[(Yo Y$o) - E(Yo Y$o)]2

Então:

(Yo Y$o) ∼ N(0,σf2)

$ $

, ,

Yo t S Y Y t S

N f o o N f

2 ≤ ≤ +

2 2 2

λ λ

X Y

Xo

(13)

12.2. REGRESSÃO MÚLTIPLA Seja a notação matricial:

ε + β

=X Y

Onde:

=

nk 1

n

k 2 21

k 1 11

X X

1

X X

1

X X

1 X

K M O M M

K K

=

n 1

Y Y

Y M

β

β

= β

K 1

M

ε ε

= ε

n 1

M

Assim temos que:

(

β

)(

β

)

= ββ +β β= β +β β

= ε ε

=

ε

=

X ' X ' Y ' X ' 2 Y ' Y X ' X ' Y ' X ' X ' Y Y ' Y X Y ' X Y '

n

1 i

i

) 0 '

( =

β

ε ε

temos:

-2X’Y+2X’Xβ = 0 então: βˆ =

(

X'X

)

1X'Y

Hipóteses:

1) ε ~ N(0,σ2I) I = matriz identidade 2) E (ε) = 0

3) E (εε‘) = σ2I

(14)

Propriedades:

1. E($

β)=β

2. Var(β$)=σ2

(

X X

)

1

Por analogia ao modelos de regressão linear simples temos:

k n ˆ ˆ

2 2 i

= ε

σ

onde k é o número de parâmetros

Verificar a qualidade de aderência para βj

Testes de Hipóteses:

1) Para cada βj j=1,2,...,k

Ho: βj = 0 ou βj = βj0 Ha: βj ≠ 0 ou βjβj0

Estatística:

S j

ˆ tn k, /2 j j0

β α

β

=β

2) Teste F de Snedecor:

Ho : β1 = β2 = ... = βk = 0 Ha : pelo menos um βj ≠ 0 Fonte de Variação Soma

deQuad.

Graus de Lib.

Quadrado Médio

Fcalc. Ftab.

Devido a regressão RSS k-1 RSS/k-1

k n ESS

k F RSS

= /

1 /

Fk-1,n-k;λ

Residual ESS n-k ESS/n-k

Total TSS n-1

(15)

OBS: A seleção de variáveis pode ser feita por:

Forward Selection Backward Selection

Stepwise Regression: Calcula a correlação entre as variáveis mais correlacionadas e depois vai inserindo ou retirando variáveis do modelo utilizando o teste F até atingir o ideal. Só se usa quando o número de variáveis for grande, caso contrário é melhor fazer todas as combinações possíveis.

Coeficiente de Determinação:

R ESS

TSS

RSS TSS

2 = −1 =

Obs: Quanto mais variáveis se introduz no modelo maior o coeficiente de determinação.

Correlação Parcial:

Suponha que se tenha 3 variáveis Y, X1 e X2 pode-se medir a as correlações simples entre Y e X1 , Y e X2 e X1 e X2 .

O coeficiente de correlação parcial mede a correlação entre 2 variáveis, incluindo os efeitos que a terceira possa ter causado sobre o comportamento delas, isto é, considerando que a terceira fosse constante.

2 1. X

rYX é o coeficiente de correlação parcial entre Y e X1 em presença de X2

(

1 2

)(

2 1 21 2

)

2

1. 2 2

1

1 YX X X

X X YX YX X

YX r r

r r r r

=

Multicolinearidade:

Se 2 variáveis cuja concepção são de independência, mas podem alguma linearidade entre elas (correlação entre elas).

Deve-se olhar a matriz de correlação e verificar se 2 variáveis

(16)

retirar uma delas para eliminar a multicolinearidade, pois vai dar problema no modelo.

Heteroscedasticidade:

Para detectar a heteroscedaticidade deve-se plotar o valor previsto versus resíduos ao quadrado. Se a reta estiver inclinada indica heteroscedasticidade.

12.3 REGRESSÃO NÃO LINEAR

- Regressão com Variáveis Transformadas:

Uma função que relaciona Y a X é intrinsecamente linear se, por meio de uma transformação em X e/ou em Y ela puder ser expressa linearmente. A tabela a seguir mostra alguns exemplos.

Função Transformação Forma Linear

e

X

Y = α

β (Exponencial) Y=ln

( )

Y Y=ln(α)+βX αXβ

Y = (Potência) Y=log(Y), X=log(X) Y=log(α)+βX

Y X1

β α +

= (Recíproca)

X X1

= Y =α +βX

Quando o modelo transformado satisfaz as hipóteses, o método dos mínimos quadrados fornece os melhores resultados.

- Regressão Polinomial

Os modelos polinomiais são não lineares, mas intrinsecamente lineares.

A equação do modelo de regressão polinomial de k-ésimo grau é:

Y = β0 + β1X + β2X2 + ...+ βkXk

(17)

A estimativa usando mínimos quadrados é a apropriada, entretanto o modelo polinomial com k grande é muito improvável e, na maioria das aplicações usa-se k=2 (quadrático) ou k=3 (cúbico).

- Regressão Logística

Quando Y for uma variável dicotômica com os possíveis valores 1 e 0 correspondentes a sucesso e fracasso usa-se a Regressão Logística para prever o resultado.

A forma específica do modelo logístico usado será

1x 0 β eβ 1

1x 0 β eβ π(x) E(Y/x)

+ +

= +

=

A transformação logit

( )

x

β1 β0 e 1

1x 0 β eβ ln ln π x

+ +

= +

que pode ser colocada na forma

1x 0 β π(x) β 1

ln π(x)

g(x)= − = +

Estimação dos parâmetros:

• Método Quase-Newton

• Método da Função Discriminante

• Modelo de Locação de Variáveis Mistas

O Modelo de Regressão Logística Múltipla é dada por:

eg(x) 1

eg(x) π(x)= + onde: g(x) = β0 + β1x1 + β2x2 + ... + βpxp

Referências

Documentos relacionados

Deliberações: Examinando os itens constantes da ordem do dia, os acionistas presentes tomaram a seguinte deliberação: foi examinada, discutida e aprovada, pela unanimidade de votos

• Nos limitaremos neste curso ao estudo de regressão com a formulação mais simples, relacionando uma variável Y, chamada de variável resposta ou dependente, com uma variável

Com um aumento de 0,85% verificado em março, o Custo de Vida em Florianópolis registrou uma elevação de 2,44% no primeiro trimestre do ano, segundo o estudo mensal realizado pela

Caso o conjunto com as opera¸ c˜ oes correspondentes n˜ ao seja um espa¸ co vetorial, diga algum axioma que falha e prove o porquˆ e ele falha.. Generalize provando que

As variáveis independentes (X) foram definidas levando em consideração a relação direta de cada uma delas com a variável dependente (Y), sendo essas variáveis:

[r]

O polígono é o octógono regular que determina sobre a circunferência oito arcos congruentes de medida 45º assim como os ângulos centrais correspondentes.. (UFF) As manifestações

Por exemplo, considere o problema a seguir, onde temos uma coluna contendo valores de uma variável x, e queremos calcular y= x^2 para cada valor de x, inserindo os