Modelos de regressão linear

(1)

Modelos de regressão linear

Prof. José Francisco Moreira Pessanha

(2)

Análise de Regressão

Objetivo: Determinar uma função matemática que

descreva a relação entre uma variável contínua

(variável explicada ou dependente) e uma ou mais

variáveis explicativas ou independentes.

y = f(x

₁

,x

₂

,...,x

_K

) +

εεεε

y denota a variável dependente.

x

₁

,x

₂

,...,x

_K

denotam as variáveis independentes.

f(x

₁

,x

₂

,...,x

_K

) descreve a variação sistemática

εεεε

representa a variação não sistemática (erro aleatório)

Modelos de regressão (função f) podem ser lineares

ou não lineares.

(3)

Exemplo 1

O gerente de vendas de uma empresa varejista está interessado

em obter uma equação que sintetize a relação existente entre o

investimento em propaganda e o volume de vendas da empresa

com o objetivo de realizar projeções do volume de vendas.

Amostra de tamanho n=10 obtida no departamento de vendas (milhões de R$)

Diagrama de dispersão

representação gráfica que permite visualizar a relação/associação entre duas variáveis

0 10 20 30 40 50 60 0 10 20 30 40 50 Investimento em propaganda (X) V o lu m e d e v e n d a s ( Y ) Um incremento no investimento em propaganda produz um

aumento nas vendas

A relação entre as variáveis não é precisa (estocástica)

(4)

Exemplo 1

A boa aderência da nuvem de pontos ao redor de um reta

imaginária indica que a relação entre as duas variáveis pode ser

aproximada por uma relação linear.

0 10 20 30 40 50 60 0 5 10 15 20 25 30 35 40 45 Investimento em propaganda (X) V o lu m e d e v e n d a s ( Y )

A essência da relação entre o investimento em propaganda e o

volume de vendas pode ser expressa por uma reta.

A identificação desta reta pode ser efetuada por meio de um

modelo de regressão linear simples.

(5)

Exemplo 1

0 10 20 30 40 50 60 0 5 10 15 20 25 30 35 40 45 Investimento em propaganda (X) V o lu m e d e v e n d a s ( Y )

Para um investimento de R$ 25 milhões em propaganda espera-se um volume de vendas da ordem de R$ 37 milhões (valor ajustado)

(6)

Exemplo 1

Neste caso o nível de vendas (y) é explicado pelo investimento

em propaganda (x), então, y=f(x):

x = nível de vendas = variável dependente

y = investimento em propaganda = variável independente

A relação estocástica entre as duas variáveis pode ser modelada

da seguinte forma:

y =

β

₀

+

β

₁

x +

ε

Onde:

β

0

e

β

1

são coeficientes desconhecidos da reta que relaciona as

variáveis x e y (estimados a partir dos dados da amostra).

ε

é um termo aleatório (erro) que representa a imprecisão na

relação entre x e y.

(7)

Modelos de regressão linear

Modelo de regressão linear simples:

uma

variável

dependente

explicada

por

uma

variável

independente.

y =

β

₀

+

β

₁

x +

ε

Modelo de regressão linear múltipla:

Uma variável dependente explicada por pelo menos duas

variáveis independentes.

y =

β

₀

+

β

₁

x

₁

+ ... +

β

_K

x

_K

+

ε

(K

≥

2)

Objetivo: Identificar uma função y=f(x) que permita explicar uma

variável dependente (y) em função das variáveis explicativas (x),

ou seja, como y varia de acordo com mudanças em x.

(8)

Significado do erro

εεεε

O erro

ε

representa:

Todos os outros fatores que afetam a variável dependente Y,

mas que não estão contempladas nas variáveis explicativas X.

Erros de medição.

Forma funcional inadequada, por exemplo,

y =

β

₀

+

β

₁

x ou y =

β

₀

+

β

₁

x +

β

₁

x

2

_?

Inerente

variabilidade

no

comportamento

dos

agentes

econômicos.

(9)

Modelo de Regressão Linear Simples

Equação de regressão populacional:

y =

β

₀

+

β

₁

x +

ε

(apenas uma variável independente)

Os coeficientes

ββββ

₀

e

ββββ

₁

não são conhecidos e devem ser

estimados a partir de uma amostra aleatória de tamanho n da

população:

Amostra aleatória

⇒

(x

_i

, y

_i

), i=1,n

Em cada unidade amostrada tem-se que

y

_i

=

β

₀

+

β

₁

x

_i

+

ε

_i

i=1,n

Variável aleatória não-observável Componente

(10)

Hipóteses assumidas pelo modelo

H1) A relação entre as variáveis é linear y

_i

=

β

₀

+

β

₁

x

_i

+

ε

_i

i=1,n:

H2) Média nula: E(

ε

_i

) = 0 para todo i=1,n

H3) Variância constante: V(

ε

_i

) =

σ

2

_{para todo i=1,n}

H4) Erros não correlacionados: Cov(

ε

_i

,

ε

_k

) = 0 para todo i

≠

k

H5) Distribuição Normal:

ε

_i

~ N(0,

σ

2

_{) para todo i=1,n}

ε

_i

são independentes e identicamente distribuídos N(0,

σσσσ

2

₎

H6) A variável explicativa X é fixa, i.e., não é estocástica

(11)

( )

=

σ

2

y

V

ε

+

β

+

β

=

x

y

₀ ₁

Como o valor esperado do erro é zero E(εεεε)=0, o valor esperado de y condicionado ao valor de x é igual a:

(

y

x

)

=

E

(

β

+

β

x

+

ε

)

E

|

₀ ₁

(

y

x

)

=

β

+

β

x

+

E

( )

ε

E

|

₀ ₁

(

y

x

)

x

E

|

=

β

₀

+

β

₁

Por hipótese a variável independente não é aleatória, assim tem-se:

(

2

)

1

0

,

~

N

β

+

β

x

σ

y

Como o erro tem distribuição Normal com média 0 e variância σσσσ2

(12)

( )

y

x

E

=

β

₀

+

β

₁

Modelo de Regressão Linear Simples

(13)

Estimador de mínimos quadrados

Modelo de Regressão Linear Simples

y

_i

=

β

₀

+

β

₁

x

_i

+

ε

_i

⇒

ε

_i

= y

_i

-

β

₀

-

β

₁

x

_i

(

)

[

]

∑

= =

β

+

β

−

=

ε

=

n i i i n i i

y

x

f

1 2 1 0 1 2

(

)

[

]

∑

= β β

=

−

β

+

β

n i i i

x

y

f

Min

1 2 1 0 , ₁ 0

(

)

[

]

0

1 1 0 0

=

β

+

β

−

⇒

=

β

∂

_∑

= n i i i

x

y

f

(

)

[

]

0

1 1 0 1

=

β

+

β

−

⇒

=

β

∂

_∑

= n i i i i

y

x

f

∑

= =

=

β

+

β

n i i n i i

y

x

n

1 1 1 0

∑

= = =

=

β

+

β

n i i i n i i n i i

x

y

x

1 1 2 1 1 0

Soma dos quadrados dos erros

As estimativas de ββββ₀ e ββββ₁ devem minimizar a soma sos quadrados dos desvios

No ponto de mínimo as

derivadas parciais são nulas

Sistema de equações normais A solução deste sistema fornece os estimadores de ββββ₀ e ββββ₁

(14)

Estimador de mínimos quadrados

Modelo de Regressão Linear Simples

∑

= =

=

β

+

β

n i i n i i

y

x

n

1 1 1 0

∑

= = =

=

β

+

β

n i i i n i i n i i

x

y

x

1 1 2 1 1 0

Solução do sistema de equações normais

x

y

₁ 0

ˆ

₌

₋

_β

β

( )( )

( )

∑

= =

−

=

β

_n i i n i i i

x

y

x

1 2 1 1

ˆ

Sistema de equações normais

(15)

Estimador de mínimos quadrados

Modelo de Regressão Linear Simples

i

x

y

ˆ

=

β

ˆ

₀

+

β

ˆ

₁

Valor estimado da variável dependente y dado que x é igual a x_i

Resíduo da i-ésima observação é igual a diferença entre o valor observado e o

valor estimado da variável y_i

(

)

i

x

y

1

0 ˆ

ˆ

β

+

β

−

=

ε

−

=

ε

Equação de regressão estimada

y

E

( )

y

x

1

0 ˆ

ˆ

|

(16)

( )

∑

= = β

−

σ

=

σ

_n i i n i i

x

n

x

1 2 1 2 2 2 ˆ 0

∑

= β

−

σ

=

σ

_n i i

x

1 2 2 2 2 ˆ 1

Se as hipóteses H1 até H6 forem satisfeitas, os estimadores de mínimos

quadrados são estimadores lineares não tendenciosos de variância

mínima (Teorema de Gauss Markov)

( )

β

ˆ

0

=

β

0

E

( )

β

ˆ

1

=

β

1

E

(

2

)

ˆ 0 0 0

,

~

ˆ

β

σ

β

N

( )

2 ˆ 1 1 1

,

~

ˆ

β

σ

β

N

(

)

2 ˆ

ˆ

2 ˆ

ˆ

1 2 1 0 1 2 2

−

β

−

β

−

=

−

=

σ

∑

=

∑

=

n

x

y

n

u

n i i i n i i

Modelo de regressão linear simples

Estimador da variância do

(17)

Exemplo modelo de regressão linear simples

O gerente de uma empresa varejista está interessado em obter uma

equação que sintetize a relação entre o investimento em propaganda (X) e

o volume de vendas (Y) da empresa, com a finalidade de projetar o nível

de vendas em função do investimento no programa de marketing da

empresa.

Histórico (dados anuais)

Diagrama de dispersão

Relação linear entre as variáveis

(18)

Exemplo modelo de regressão linear simples

ε

+

β

+

β

=

X

Y

₀ ₁

Modelo de regressão linear

Estimação dos coeficientes por mínimos quadrados

03823 , 12 5 , 26 975916 , 0 9 , 37 ˆ ˆ 1 0 = − β = − ⋅ = β Y X 97916 , 0 265 8019 10 379 265 11016 10 ˆ 2 2 1 1 2 1 1 1 1 = − ⋅ ⋅ − ⋅ =       − − = β

∑

= = = = = N i i N i i N i N i i N i i i i X X N Y X Y X N Equação de projeção

X

Y

ˆ

=

12 ,

0382

+

0 ,

9792

(19)

Modelo de regressão linear simples

Decomposição do erro:

Y

X

Y

Y = b

^

₀

+ b

₁

X

*

Y

_{i (valor observado)}

Y

_i

- Y

_Y

i (valor estimado)

^

Y

^

_i

- Y

Y

_i

(20)

-Decomposição da soma de quadrados total

( )

Y

_i

Y

( )

Y

_i

Y

_i

( )

Y

i N i N i i i N

−

=

−

+

−

= = =

∑

2 2

∑

1 1 2 1

$

SQT = SQE + SQR

SQT = Soma dos Quadrados dos Resíduos

SQE = Soma dos Quadrados Explicados pela Regressão

SQR = Soma dos Quadrados dos Resíduos

(21)

(

)

(

)

SQT

SQR

Y

SQT

SQE

R

_N i i N i i i

−

=

−

=

∑

= =

₁

ˆ

1 2 1 2 2

Coeficiente de determinação

Modelo de regressão linear simples

1

0 ≤

R

2

≤

Se R estiver próximo de 1, a variável x explica a maior parte das variações de y. Neste caso, a variável x é uma boa preditora da variável y.

Se R estiver próximo de 0, a variável x explica muito pouco das variaçães de y. Neste caso, a variável x não é uma boa preditora da variável y.

(22)

Análise da variância (ANOVA)

Modelo de regressão linear simples

Inferência Estatística no Modelo de Regressão Linear

2

ˆ

σ

Estimador da _{variância do erro}

SQT SQE R2 =

(

−2

)

= N SQR SQE F

Causas de variação Graus de liberdade Soma dos quadrados Quadrados médios

Regressão 1

∑

(

)

= − = N i i X x SQE 1 2 2 1 ˆ

β

QME = SQE 1 Resíduos N - 2

∑

(

)

= − = N i i i y y SQR 1 2 ˆ _QMR = _SQR

(

_N −₂

)

Total N-1

∑

= − = N i i NY y SQT 1 2 2

(23)

2 , 1

~

2

1

−

=

F

_N

N

SQR

SQE

F

Testa o efeito conjunto das variáveis explicativas sobre a variável

dependente, No caso do modelo linear simples testa o efeito de X

sobre Y

H

₀

:

ββββ

₁

= 0 ( ausência do efeito )

H

₁

:

ββββ

₁

≠≠≠≠

0 ( presença do efeito )

F > F

_tabelado

rejeita H

₀

F < F

_tabelado

aceita H

₀

Modelo de regressão linear simples

Teste F

Inferência Estatística no Modelo de Regressão Linear

(24)

2 ˆ 1

_~

ˆ

1 −

=

b

t

_N

t

β

σ

H

₀

:

ββββ

₁

= 0

H

₁

:

ββββ

₁

≠≠≠≠

0 Testa o efeito individual de X e do termo constante

Modelo de regressão linear simples

Inferência Estatística no Modelo de Regressão Linear

Teste t

Testa a significância do coeficiente de regressão linear associado

com uma determinada variável explicativa.

Sob H

₀

t > t

_tabelado

rejeita H

₀

t < t

_tabelado

aceita H

₀

(25)

2 1 1 1 2 1 1 1

ˆ

₁

ˆ

α β α β

β

σ

β

− −

≤

+

⋅

−

t

Modelo de regressão linear simples

Inferência Estatística no Modelo de Regressão Linear

(26)

Previsor

E

ˆ

(

Y

_h

|

X

_h

)

=

β

ˆ

₀

+

β

ˆ

₁

X

_h

Erro de previsão

(

) (

)

(

) ( )

h h h h h h

E

Y

|

X

E

ˆ

Y

|

X

β

ˆ

0

β

0

β

ˆ

1

β

1

X

ε

=

−

=

−

+

−

( )

(

)

(

)

$

_$

V

N

X

h h i i N

ε

=

σ

+

−





















=

∑

2 2 2 1

1 Intervalo de previsão

(

)

( ) (

)

( )

[

$

]

|

,

$

|

E Y X

_h _h

−

t V

_c

ε

_h

E Y X

_h _h

+

t V

_c

ε

_h

Modelo de regressão linear simples

(27)

Dado

X

_T+h

prever

Y

_T+h

Previsor

h h

X

Y

ˆ

₁ 0

β

+

=

Erro de previsão

ε

_h

=

Y

_h

−

Y

ˆ

_h

=

(

β

₀

−

β

~

₀

)

+

( )

β

₁

−

β

ˆ

₁

X

_h

+

u

_h

( )

(

)

(

)

$

_$

V

N

X

h h i i N

ε

=

σ

+

−





















=

∑

2 2 2 1

1

1 Intervalo de previsão

( )

[

$

]

,

$

Y t V

_h

−

_c

ε

_h

Y t V

_h

+

_c

ε

_h

Modelo de regressão linear simples

(28)

Exemplo modelo de regressão linear simples

Construção da ANOVA para o exemplo anterior Soma dos quadrados dos resíduos SQR Soma dos quadrados explicados pela regressão SQE Soma dos quadrados totais SQT resíduos

X

Y

ˆ

=

12 ,

0382

+

0 ,

9792

Equação estimada

X

Y

ˆ

=

12 ,

0382

+

0 ,

9792

(29)

Exemplo modelo de regressão linear simples

N-1=9 SQT 1260,90 Total 38,98 N-2=8 SQR 311,82 Resíduo 949,08 / 38,98=24,35 949,08 1 SQE 949,08 Regressão F Quadrado médio (C=A/B) Graus de liberdade (B) Soma dos quadrados (A) Fonte de variação ANOVA 1 variável explicativa 2 coeficientes estimados α e β Por isso N - 2 O quadrado médio do resíduo é uma estimativa da variância do erro

2 ˆ

σ

Coeficiente de determinação R2

75 ,

0

90 .

1260

08 .

949

2

=

SQT

SQE

R

Construção da ANOVA para o exemplo anterior

(30)

Exemplo modelo de regressão linear simples

Estimativas dos erros padrão de e

(

)

8019

10

26 ,

5

31 ,

3661

5 ,

26 9778

,

38

10

1 ˆ

ˆ

₂ 2 1 2 1 2 2 2 ˆ 0

−

⋅

=

⋅

=

−

σ

=

σ

∑

= = β N i i N i i

X

N

X

0391

,

0

5 ,

26

10 8019

9778

,

38 ˆ

ˆ

₂ 2 1 2 2 2 ˆ 1

=

−

⋅

=

−

σ

=

σ

∑

= β

X

N

X

N i i 0

ˆ

β

ˆ

₁

6 ,

5 3661

,

31 ˆ

ˆ

_ˆ 2_ˆ 0 0

=

σ

=

σ

_β _β

1978

,

0 0391

,

0 ˆ

ˆ

_ˆ 2_ˆ 1

=

σ

=

σ

_β _β Erro padrão Erro padrão

(31)

Exemplo modelo de regressão linear simples

Inferência no modelo

H

₀

:

ββββ

₁

= 0 ( ausência do efeito )

H

₁

:

ββββ

₁

≠≠≠≠

0 ( presença do efeito )

2 , 1

~

2

1

−

=

F

_N

N

SQR

SQE

F

F > F

_tabelado

rejeita H

₀

Sob H

₀

35 .

24 =

F

Ao nível de significância de 5% o valor tabelado (F_tabelado) de uma F com 1 grau de

liberdade no numerador e 8 graus de liberdade no denominador é 5,3177 =FINV(0,05;1;8) Distribuição F Testes de hipóteses

Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y

(32)

Exemplo modelo de regressão linear simples

H

₀

:

ββββ

₀

= 0 ( ausência do efeito )

H

₁

:

ββββ

₀

≠≠≠≠

0 ( presença do efeito )

t < t

_tabelado

aceita H

₀

Sob H

₀

1495

,

2 3661

,

31 0382

.

12 =

=

t

Ao nível de significância de 5% o valor tabelado (t_tabelado) de uma t com 8 graus de liberdade no numerador é 2,31 =TINV(0,05;8) Distribuição t 2 ˆ

~

ˆ

−

=

t

_N

t

α

σ

α

Testes de hipóteses

Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa.

(33)

Exemplo modelo de regressão linear simples

H

₀

:

ββββ

₁

= 0 ( ausência do efeito )

H

₁

:

ββββ

₁

≠≠≠≠

0 ( presença do efeito )

t > t

_tabelado

rejeita H

₀

Sob H

₀

9354

,

4 0391

,

0 9792

.

0 =

=

t

Ao nível de significância de 5% o valor tabelado (t_tabelado) de uma t com 8 graus de liberdade no numerador é 2,31 =TINV(0,05;8) Distribuição t 2 ˆ

~

ˆ

−

=

t

_N

t

β

σ

β

(34)

9531

,

24 8766

,

0

31 ,

2

6 ,

5 0382

,

12

31 ,

2 ≤

−

β

0

≤

⇒

−

≤

β

₀

≤

−

Exemplo modelo de regressão linear simples

Intervalos de confiança com 95% de confiança

2 0 0

_~

ˆ

0 − β

σ

β

−

β

N

t

2 ˆ 1 1

_~

ˆ

1 − β

σ

β

−

β

N

t

95 ,

0

31 ,

2 ˆ

ˆ

31 ,

2

0 0 0

=













≤

σ

β

−

β

≤

−

β

P

Distribuição t 95%

95 ,

0

31 ,

2 ˆ

ˆ

31 ,

2

1 ˆ 1 1

=













≤

σ

β

−

β

≤

−

β

P

4320

,

1 5198

,

0

31 ,

2 1978

,

0 9792

,

0

31 ,

2 ≤

−

β

1

≤

⇒

≤

β

₁

≤

−

(35)

Exemplo modelo de regressão linear simples no Excel

1) Matriz de dados para regressão linear simples 1 variável dependente

1 variável independente 2) No menu Ferramentas escolha a _{opção Análise de dados}

3) Na caixa de diálogo escolha a opção Regressão e clique em Ok

4) Informe os dados para regressão na caixa de diálogo

(36)

Exemplo modelo de regressão linear simples no Excel

Caixa de diálogo regressão Intervalo com os valores da

variável dependente Intervalo com os valores da

variável independente Rótulos:

nomes das

variáveis _{Marque se tem}

rótulo

Grava resultados da regressão em uma nova planilha

Apresenta a série de resíduos

Y

−

ˆ

Gráfico com os valores observados e previstos Gráfico dos resíduos contra a variável explicativa

Gráfico para avaliar se a hipótese de normalidade do erro é satisfeita

(37)

Exemplo modelo de regressão linear simples no Excel

Planilha de Resultados R2 2 R Valor P P(F>24,3492) = 0,0011 Valor P < 5% rejeito H0 no teste F

α

β

Valor P P( |t| >2,1495) = 0,0638 Valor P P( |t| >4,9345) = 0,0011 Intervalo de confiança 4,9345 - 4,9345 Valor P < 5% rejeito H0 no teste F

Y

ˆ

Y

−

Y

ˆ

Valores para a plotagem de probabilidade normal

(38)

Exemplo modelo de regressão linear simples no Excel

Gráficos na planilha de Resultados

X Plotagem de resíduos -20 0 20 0 10 20 30 40 50 X R e s íd u o s

X Plotagem de ajuste de linha

0 10 20 30 40 50 60 0 10 20 30 40 50 X Y Y Previsto(a) Y

Plotagem de probabilidade normal

0 10 20 30 40 50 60 0 20 40 60 80 100 Percentil da amostra Y

Útil na verificação da hipótese de variância constante do erro

Útil na verificação da hipótese de normalidade do erro (valores ao

redor de uma reta imaginária indicam que a hipótese de normalidade não foi violada)

(39)

Mais sobre regressão linear simples no Excel

1) Matriz de dados para regressão linear simples

1 variável dependente Y 1 variável independente X

2) Escolha a opção Inserir no menu de ferramentas e em seguida selecione a opção Gráficos

3) Na caixa de diálogo Assistente de

gráfico escolha a opção Diagrama (XY)

e clique em Avançar

(40)

Mais sobre regressão linear simples no Excel

4) Insira os dados do gráfico na caixa de diálogo Dados de Origem (use a pasta seqüência)

(41)

Mais sobre regressão linear simples no Excel

3.000 4.000 5.000 6.000 7.000 8.000 9.000 10.000 11.000 15 17 19 21 23 25 27 29 31 33 35

PIB em bilhões de dólares

C o n s u m o d e e n rg ia e lé tr ic a G W h

6) Ao final, escolha a opção Como nova planilha Para visualizar o diagrama de dispersão

(42)

Mais sobre regressão linear simples no Excel

Ajuste da linha de tendência (reta de regressão)

1) Com o botão direito do mouse clique sobre uma observação (ponto) no gráfico e escolha a opção Adicionar linha de tendência.

3.000 4.000 5.000 6.000 7.000 8.000 9.000 10.000 11.000 15 17 19 21 23 25 27 29 31 33 35

PIB em bilhões de dólares

C o n s u m o d e e n rg ia e lé tr ic a G W h

(43)

Mais sobre regressão linear simples no Excel

Ajuste da linha de tendência (reta de regressão)

2) Na caixa de diálogo Adicionar linha de tendência escolha a opção Linear e marque as opções Exibir equação no gráfico e Exibir valor de R-quadrado no

(44)

Regressões que se tornam lineares por anamorfose

i X i i

Y

=

β

₀

β

₁

ε

(exponencial) i i i

X

Y

β

β1

ε

0

=

(potência) i i i

X

Y

=

β

₀

+

β

₁

1 +

ε

(hipérbole) i i i i

X

Y

=

β

₀

+

β

₁

+

β

₁ 2

+

ε

(polinomial)

As especificações a seguir são não-lineares, mas podem se tornar lineares por anamorfose, ou seja, mediante alguma transformação das variáveis.

i i i

X

Y

ln

β

ln

β

ln

ε

ln

=

₀

+

₁

⋅

+

i i i

X

v

Y

*

=

β

₀*

+

β

₁*

⋅

+

i i Y Y* = ln 0 * 0 lnβ β = 1 * 1 lnβ β = i i v = lnε i i i

X

Y

ln

β

ln

ε

ln

=

₀

+

₁

+

i i i

X

v

Y

*

=

β

₀*

+

β

₁

⋅

*

+

i i Y Y* = ln 0 * 0 lnβ β = i i v = lnε i i X X* = ln i i i

X

Y

=

β

₀

+

β

₁ *

+

ε

i i _X X* = 1 i i i i

X

Y

=

β

₀

+

β

₁ ₁

+

β

₁ ₂

+

ε

i i

X

₁

=

2 2 i i

X

=

Modelo linear Modelo linear Modelo linear

Modelo regressão linear múltipla A substituição de variáveis é válida, pois a

(45)

Regressões que se tornam lineares por anamorfose

O Excel permite ajustar linhas de tendências segundo estas especificações não lineares.

A identificação da especificação adequada deve se basear em algum conhecimento a priori do fenômeno que esta sendo modelado. Na ausência deste conhecimento a escolha baseia-se nos dados, ou seja, na especificação que melhor se ajusta aos dados.

linear

potência

polinomial

exponencial hipérbole

(46)

Regressões que se tornam lineares por anamorfose

A especificação potência, também conhecida por especificação Cobb-Douglas é muito utilizada, pois o coeficiente da variável explicativa é a elasticidade de Y em relação a X, um importante parâmetro econômico.

Considere a especificação potência

Neste caso,

Da teoria microeconômica temos a seguinte definição para o coeficiente de elasticidade de Y em relação a X:

Substituindo os resultados anteriores nesta fórmula tem-se que:

i i i

X

Y

β

β1

ε

0

=

1 i 0 1 1

X

dX

dY

_β ₋

β

=

Y

X

dX

dY

⋅

=

η

(

0

)

1 1 1 0 1

1

1 1

β

η

₌

β −

_⋅

₌

β

₌

Y

X

Y

X

(47)

Modelo de regressão linear múltipla

A variável dependente é uma função linear de duas ou mais variáveis

independentes

i Ki k i i i

X

Y

=

β

₀

+

β

₁ ₁

+

β

₂ ₂

+

K

+

β

+

ε

Notação matricial

i=1,N amostras

ε

β

+

=

X

Y

_N

=













1 2

M













=

kN N k k

X

1 2 12 1 11

1

1 M

L

β

=













0 1

M

k













=

N

ε

M

2 1 K variáveis explicativas

ββββ1, ββββ2,ββββ3,...,ββββk, σσσσ2 são parâmetros do modelo que devem ser estimados

N x 1 N x (k+1) k x 1 N x 1

(48)

Hipóteses assumidas pelo modelo de regressão linear múltipla

H1) A relação entre as variáveis é linear y_i = β₀ + β₁x_i1 + β₂x_2i +...+ β_kx_ki + ε_i i=1,n.

H2) A variável explicativa X é fixa, ou seja, não é aleatória.

H3) As colunas da matriz X são linearmente independentes, ou seja, não há uma

relação linear perfeita entre duas ou mais as variáveis explicativas.

H4) Erros tem média nula: E(ε_i) = 0 para todo i=1,n.

H5) Variância do erro é constante (homocedasticidade):

V(ε_i) = σ2 _{para todo i=1,n.}

H6) Erros não correlacionados: Cov(ε_i,ε_k) = 0 para todo i

≠

k.

H7) Erros tem distribuição Normal: ε_i ~ N(0,σ2_{) para todo i=1,n.}

H2,H3,H4 e H5 ⇒⇒⇒⇒ εεεε_isão independentes e identicamente distribuídos N(0,σσσσ2₎

(49)

Hipótese H7: vetor de erros tem distribuição

Normal multivariada com vetor média nula e

matriz de covariãncias

ΣΣΣΣ

_εεεε













=

N

ε

M

2 1 Vetor aleatório N

I

2 2 2 2

0

0 σ

σ

ε

=













=

Σ

L

M

O

M

L

Matriz de covariãncias do vetor εεεε

Matriz identidade de ordem N

Hipóteses

H5:

V(

εεεε

_i

)=

σσσσ

2

_{é constante}

H6:

COV(

εεεε

_i

,

εεεε

_j

)=0

erros não correlacionados

( )













=

0

0 M

ε

E

Hipótese

H4:

E(

εεεε

)=0

















































=

2 2 2 2 1

,

0

0 ~

σ

ε

O

M

N N

N

(50)

Estimador de Mínimos Quadrados (MQ)

Modelo de regressão linear múltipla

(

X

)

X

Y

k

'

ˆ

₁ 1 0 −

=













=

β

M

                        =

∑

= = = = = = = = = = = = = = = N i Ki N i Ki i N i Ki i N i Ki N i ki i N i i N i i i N i i N i ki i N i i i N i i N i i N i Ki N i i N i i X X X X X X X X X X X X X X X X X X X X X N X X 1 2 1 2 1 1 1 1 2 1 2 2 1 2 1 1 2 1 1 1 2 1 1 2 1 1 1 1 1 2 1 1 ' O M L                         =

∑

= = = = N i i Ki N i i i N i i i N i i y x y x y x y Y X 1 1 2 1 1 1 ' M (k+1) x (k+1) (k+1) x 1

(51)

( )

(

)

1 2

'

ˆ

σ

β

₌

−

X

V

$

'

σ

2

=

−

u u

N

k

(

j jj

)

j

N

a

2

,

~

ˆ

β

σ

β

a

jj

elemento da diagonal principal

da inversa de X’X

Modelo de regressão linear múltipla

(52)

Teste t

_H

0

:

ββββ

j

= 0

H

₁

:

ββββ

_j

≠≠≠≠

0

( )1

~

ˆ

− +

=

j _N _k

t

b

t

j β

σ

(

)

F

S Q

gr k

S Q

s N

k

=

− +

. . Re

1 H

₀

:

ββββ

₁

=

ββββ

₂

=

ββββ

₃

=...=

ββββ

_k

=0

H

₁

: pelo menos um

ββββ

_j

≠≠≠≠

0 Teste F

t

≥

t

_{ta b ela d o}

⇒

rejeita H

₀

F

≥

F

_{ta b ela d o}

⇒

rejeita H

₀

Modelo de regressão linear múltipla

(53)

Análise da variância

(

)

(

)

∑

= = − − = = _N i i N i i i Y Y Y Y SQT SQE R 1 2 1 2 2 ˆ

(

)

R

N

k

2 ₂

1

1 = − −

−

(

)

[

−

+

1 ]

=

k

N

SQR

k

SQE

QMR

QME

F

Modelo de regressão linear múltipla

Inferência Estatística no Modelo de Regressão Linear

Causas de variação

Graus de

liberdade Soma dos quadrados Quadrados médios

Regressão K SQE X Y y N N i i T T 2 1 ˆ _      − =

∑

= β QME = SQE K Resíduos N - (K+1) SQR =YTY −βˆT XTY QMR = SQR

[

N −

(

K +1

)

]

Total N-1 SQT Y Y y N N i i T 2 1       − =

∑

=

(54)

[

]

x

'

_h

=

1 X

₁_h

X

₂_h

L

X

_kh

Previsão

Dado

$

'

Y

_h

=

x b

_h

estima

E Y

( )

_h

=

β

₀

+

β

₁

X

₁_h

+ +

K

β

_k

X

_kh

( )

(

)

$ $

'

$

V Y

_h

=

x

_h

X X

−1

x

_h

σ

2

$

'

Y

_h

=

x b

_h

estima

Y

_h

=

β

₀

+

β

₁

X

₁_h

+ +

K

β

_k

X

_kh

+

u

_h

( )

[

(

)

]

$ $

'

$

V Y

_h

= +

1 x

_h

X X

−1

x

_h

σ

2

(55)

Exemplo modelo de regressão linear múltipla

X1 X2 Y 68,5 16,7 174,4 45,2 16,8 164,4 91,3 18,2 244,2 47,8 16,3 154,6 46,9 17,3 181,6 66,1 18,2 207,5 49,5 15,9 152,8 52 17,2 163,2 48,9 16,6 145,4 38,4 16 137,2 87,9 18,3 241,9 72,8 17,1 191,1 88,4 17,4 232 42,9 15,8 145,3 52,5 17,8 161,1 85,7 18,4 209,7 41,3 16,5 146,4 51,7 16,3 144 89,6 18,1 232,6 82,7 19,1 224,1 52,3 16 166,5

Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa está analisando a possibilidade de expansão em outras cidades de médio porte e para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas com base no número de pessoas com até 16 anos de idades (X₁) e a renda per capita na localidade (X₂).

Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são apresentados na tabela abaixo:

i

X

u

Y

=

β

₀

+

β

₁

+

β

₂

+

Modelo de regressão linear múltipla a ser estimado

0 50 100 150 200 250 300 30 40 50 60 70 80 90 100 X1 Y 0 50 100 150 200 250 300 15 16 17 18 19 20 X2 Y

(56)

Exemplo modelo de regressão linear múltipla

Estimação dos coeficientes de regressão por mínimos quadrados

i i i i

X

u

Y

=

β

₀

+

β

₁

+

β

₂

+

1 68,5 16,7 1 45,2 16,8 1 91,3 18,2 1 47,8 16,3 1 46,9 17,3 1 66,1 18,2 1 49,5 15,9 1 52 17,2 1 48,9 16,6 1 38,4 16 1 87,9 18,3 1 72,8 17,1 1 88,4 17,4 1 42,9 15,8 1 52,5 17,8 1 85,7 18,4 1 41,3 16,5 1 51,7 16,3 1 89,6 18,1 1 82,7 19,1 1 52,3 16 X = 174,4 164,4 244,2 154,6 181,6 207,5 152,8 163,2 145,4 137,2 241,9 191,1 232 145,3 161,1 209,7 146,4 144 232,6 224,1 166,5 Y = 21,00 1.302,40 360,00 1.302,40 87.707,94 22.609,19 360,00 22.609,19 6.190,26

=

X

T 3.820,00 249.643,35 66.072,75

=

Y

X

T 29,7289 0,0722 -1,9926 0,0722 0,0004 -0,0055 -1,9926 -0,0055 0,1363

(

)

−1

=

X

T

(

X

T

X

)

1

X

T

Y

ˆ

₌

−

β













−

=

















3655

,

9 4546

,

1 8571

,

68 ˆ

ˆ

2 1 0

β

(57)

Exemplo modelo de regressão linear múltipla

Construção da ANOVA i i i

X

Y

ˆ

=

−

68 ,

8571

+

1 ,

4546

₁

+

9 ,

3655

₂ SQR SQE SQT

(58)

Exemplo modelo de regressão linear múltipla

Construção da ANOVA N-1=20 SQT 26196,21 Total 121,1626 N-3=18 SQR 2180,93 Resíduo 12007,64 / 121.1626 = 99,1035 12007,64 2 SQE 24015,28 Regressão F Quadrado médio (C=A/B) Graus de liberdade (B) Soma dos quadrados (A) Fonte de variação ANOVA 2 variáveis explicativas 3 coeficientes estimados Por isso N – 3 O quadrado médio do resíduo é uma estimativa da variância do erro

2 ˆ

σ

Coeficiente de determinação R2

917 ,

0

21 ,

26196

28 .

24015

2

=

SQT

SQE

R

(59)

Exemplo modelo de regressão linear múltipla

u

X

Y

=

α

+

β

+

Estimativas dos erros padrão dos coeficientes de regressão

(

)

1 2 2 ˆ ˆ ˆ ˆ ˆ ˆ ˆ 2 ˆ ˆ ˆ ˆ ˆ ˆ ˆ 2 ˆ

ˆ

2 2 1 2 0 2 1 1 1 0 2 0 1 0 0 −

⋅

=













=

Σ

σ

X

T

X

σ

β β β β β β β β β β β β β β β β

α

ˆ

β

ˆ

0170

,

60 0347

,

3602

ˆ

_ˆ 2_ˆ 0 0

=

β

=

β

σ

Erro padrão Resultado na ANOVA = 121,1626 29,7289 0,0722 -1,9926 0,0722 0,0004 -0,0055 -1,9926 -0,0055 0,1363

=

Σ

_β 3.602,03478,7459 8,74590,0449 -241,4230-0,6724 -241,4230 -0,6724 16,5158

2118

,

0 0449

,

0 ˆ

ˆ

_ˆ 2_ˆ 1 1

=

β

=

β

σ

0640

,

4 5158

,

16 ˆ

ˆ

_ˆ 2_ˆ 2 2

=

β

=

β

σ

Variâncias na diagonal principal

(60)

Exemplo modelo de regressão linear múltipla

H

₀

:

ββββ

₁

=

ββββ

₂

=

0 ( ausência do efeito )

H

₁

:

ββββ

₁

≠≠≠≠

0 ou

ββββ

₂

≠≠≠≠

0 ( presença do efeito )

3 , 2

~

3

2

−

=

F

_N

N

SQR

SQE

F

F > F

_tabelado

rejeita H

₀

Sob H

₀

1035

,

99 =

F

Ao nível de significância de 5% o valor tabelado (F_tabelado) de uma F com 2 graus de liberdade no numerador e 18 graus de liberdade no denominador é 3,5546 =FINV(0,05;2;18) Distribuição F Testes de hipóteses

Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y

(61)

Exemplo modelo de regressão linear múltipla

H

₀

:

ββββ

₀

= 0 ( ausência do efeito )

H

₁

:

ββββ

₀

≠≠≠≠

0 ( presença do efeito )

t < t

_tabelado

aceita H

₀

Sob H

₀

1473

,

1 0170

,

60 8571

,

68 −

=

−

=

t

Ao nível de significância de 5% o valor tabelado (t_tabelado) de uma t com 18 graus de liberdade no numerador é 2,1009 =TINV(0,05;18) Distribuição t 3 ˆ 0

_~

ˆ

0 −

=

t

_N

t

β

σ

β

(62)

Exemplo modelo de regressão linear múltipla

t > t

_tabelado

rejeita H

₀

Sob H

₀ Distribuição t Testes de hipóteses

H

₀

:

ββββ

₁

= 0 ( ausência do efeito )

H

₁

:

ββββ

₁

≠≠≠≠

0 ( presença do efeito )

3 ˆ 1

_~

ˆ

1 −

=

t

_N

t

β

σ

β

8682

,

6 2118

,

0 4546

,

1 =

=

t

Ao nível de significância de 5% o valor tabelado (t_tabelado) de uma t com 18 graus de liberdade no numerador é 2,1009

(63)

Exemplo modelo de regressão linear múltipla

t > t

_tabelado

rejeita H

₀

Sob H

₀ Distribuição t Testes de hipóteses

H

₀

:

ββββ

₂

= 0 ( ausência do efeito )

H

₁

:

ββββ

₂

≠≠≠≠

0 ( presença do efeito )

3 ˆ 2

_~

ˆ

2 −

=

t

_N

t

β

σ

β

3045

,

2 0640

,

4 3655

,

9 =

=

t

Ao nível de significância de 5% o valor tabelado (t_tabelado) de uma t com 18 graus de liberdade no numerador é 2,1009