Modelos de regressão linear
Modelos de regressão linear
Prof. José Francisco Moreira Pessanha
Análise de Regressão
Objetivo: Determinar uma função matemática que
descreva a relação entre uma variável contínua
(variável explicada ou dependente) e uma ou mais
variáveis explicativas ou independentes.
y = f(x
1,x
2,...,x
K) +
εεεε
y denota a variável dependente.
x
1,x
2,...,x
Kdenotam as variáveis independentes.
f(x
1,x
2,...,x
K) descreve a variação sistemática
εεεε
representa a variação não sistemática (erro aleatório)
Modelos de regressão (função f) podem ser lineares
ou não lineares.
Exemplo 1
O gerente de vendas de uma empresa varejista está interessado
em obter uma equação que sintetize a relação existente entre o
investimento em propaganda e o volume de vendas da empresa
com o objetivo de realizar projeções do volume de vendas.
Amostra de tamanho n=10 obtida no departamento de vendas (milhões de R$)
Diagrama de dispersão
representação gráfica que permite visualizar a relação/associação entre duas variáveis
0 10 20 30 40 50 60 0 10 20 30 40 50 Investimento em propaganda (X) V o lu m e d e v e n d a s ( Y ) Um incremento no investimento em propaganda produz um
aumento nas vendas
A relação entre as variáveis não é precisa (estocástica)
Exemplo 1
A boa aderência da nuvem de pontos ao redor de um reta
imaginária indica que a relação entre as duas variáveis pode ser
aproximada por uma relação linear.
0 10 20 30 40 50 60 0 5 10 15 20 25 30 35 40 45 Investimento em propaganda (X) V o lu m e d e v e n d a s ( Y )
A essência da relação entre o investimento em propaganda e o
volume de vendas pode ser expressa por uma reta.
A identificação desta reta pode ser efetuada por meio de um
modelo de regressão linear simples.
Exemplo 1
0 10 20 30 40 50 60 0 5 10 15 20 25 30 35 40 45 Investimento em propaganda (X) V o lu m e d e v e n d a s ( Y )Para um investimento de R$ 25 milhões em propaganda espera-se um volume de vendas da ordem de R$ 37 milhões (valor ajustado)
Exemplo 1
Neste caso o nível de vendas (y) é explicado pelo investimento
em propaganda (x), então, y=f(x):
x = nível de vendas = variável dependente
y = investimento em propaganda = variável independente
A relação estocástica entre as duas variáveis pode ser modelada
da seguinte forma:
y =
β
0+
β
1x +
ε
Onde:
β
0e
β
1são coeficientes desconhecidos da reta que relaciona as
variáveis x e y (estimados a partir dos dados da amostra).
ε
é um termo aleatório (erro) que representa a imprecisão na
relação entre x e y.
Modelos de regressão linear
Modelo de regressão linear simples:
uma
variável
dependente
explicada
por
uma
variável
independente.
y =
β
0+
β
1x +
ε
Modelo de regressão linear múltipla:
Uma variável dependente explicada por pelo menos duas
variáveis independentes.
y =
β
0+
β
1x
1+ ... +
β
Kx
K+
ε
(K
≥
2)
Objetivo: Identificar uma função y=f(x) que permita explicar uma
variável dependente (y) em função das variáveis explicativas (x),
ou seja, como y varia de acordo com mudanças em x.
Significado do erro
εεεε
O erro
ε
representa:
Todos os outros fatores que afetam a variável dependente Y,
mas que não estão contempladas nas variáveis explicativas X.
Erros de medição.
Forma funcional inadequada, por exemplo,
y =
β
0+
β
1x ou y =
β
0+
β
1x +
β
1x
2?
Inerente
variabilidade
no
comportamento
dos
agentes
econômicos.
Modelo de Regressão Linear Simples
Equação de regressão populacional:
y =
β
0+
β
1x +
ε
(apenas uma variável independente)
Os coeficientes
ββββ
0e
ββββ
1não são conhecidos e devem ser
estimados a partir de uma amostra aleatória de tamanho n da
população:
Amostra aleatória
⇒
(x
i, y
i), i=1,n
Em cada unidade amostrada tem-se que
y
i=
β
0+
β
1x
i+
ε
ii=1,n
Variável aleatória não-observável Componente
Hipóteses assumidas pelo modelo
H1) A relação entre as variáveis é linear y
i=
β
0+
β
1x
i+
ε
ii=1,n:
H2) Média nula: E(
ε
i) = 0 para todo i=1,n
H3) Variância constante: V(
ε
i) =
σ
2para todo i=1,n
H4) Erros não correlacionados: Cov(
ε
i,
ε
k) = 0 para todo i
≠
k
H5) Distribuição Normal:
ε
i~ N(0,
σ
2) para todo i=1,n
ε
isão independentes e identicamente distribuídos N(0,
σσσσ
2)
H6) A variável explicativa X é fixa, i.e., não é estocástica
( )
=
σ
2y
V
ε
+
β
+
β
=
x
y
0 1Como o valor esperado do erro é zero E(εεεε)=0, o valor esperado de y condicionado ao valor de x é igual a:
(
y
x
)
=
E
(
β
+
β
x
+
ε
)
E
|
0 1(
y
x
)
=
β
+
β
x
+
E
( )
ε
E
|
0 1(
y
x
)
x
E
|
=
β
0+
β
1Por hipótese a variável independente não é aleatória, assim tem-se:
(
2)
1
0
,
~
N
β
+
β
x
σ
y
Como o erro tem distribuição Normal com média 0 e variância σσσσ2
( )
y
x
E
=
β
0+
β
1Modelo de Regressão Linear Simples
Estimador de mínimos quadrados
Modelo de Regressão Linear Simples
y
i=
β
0+
β
1x
i+
ε
i⇒
ε
i= y
i-
β
0-
β
1x
i(
)
[
]
∑
∑
= =β
+
β
−
=
ε
=
n i i i n i iy
x
f
1 2 1 0 1 2(
)
[
]
∑
= β β=
−
β
+
β
n i i ix
y
f
Min
1 2 1 0 , 1 0(
)
[
]
0
0
1 1 0 0=
β
+
β
−
⇒
=
β
∂
∂
∑
= n i i ix
y
f
(
)
[
]
0
0
1 1 0 1=
β
+
β
−
⇒
=
β
∂
∂
∑
= n i i i iy
x
x
f
∑
∑
= ==
β
+
β
n i i n i iy
x
n
1 1 1 0∑
∑
∑
= = ==
β
+
β
n i i i n i i n i ix
x
y
x
1 1 2 1 1 0Soma dos quadrados dos erros
As estimativas de ββββ0 e ββββ1 devem minimizar a soma sos quadrados dos desvios
No ponto de mínimo as
derivadas parciais são nulas
Sistema de equações normais A solução deste sistema fornece os estimadores de ββββ0 e ββββ1
Estimador de mínimos quadrados
Modelo de Regressão Linear Simples
∑
∑
= ==
β
+
β
n i i n i iy
x
n
1 1 1 0∑
∑
∑
= = ==
β
+
β
n i i i n i i n i ix
x
y
x
1 1 2 1 1 0Solução do sistema de equações normais
x
y
1 0ˆ
ˆ
=
−
β
β
( )( )
( )
∑
∑
= =−
−
−
=
β
n i i n i i ix
x
y
y
x
x
1 2 1 1ˆ
Sistema de equações normais
Estimador de mínimos quadrados
Modelo de Regressão Linear Simples
i
i
x
y
ˆ
=
β
ˆ
0
+
β
ˆ
1
Valor estimado da variável dependente y dado que x é igual a xi
Resíduo da i-ésima observação é igual a diferença entre o valor observado e o
valor estimado da variável yi
(
)
i
i
i
i
i
i
x
y
y
y
1
0
ˆ
ˆ
ˆ
ˆ
ˆ
β
+
β
−
=
ε
−
=
ε
Equação de regressão estimada
y
E
( )
y
x
x
1
0
ˆ
ˆ
|
( )
∑
∑
= = β−
σ
=
σ
n i i n i ix
x
n
x
1 2 1 2 2 2 ˆ 0∑
= β−
σ
=
σ
n i ix
x
1 2 2 2 2 ˆ 1Se as hipóteses H1 até H6 forem satisfeitas, os estimadores de mínimos
quadrados são estimadores lineares não tendenciosos de variância
mínima (Teorema de Gauss Markov)
( )
β
ˆ
0=
β
0E
( )
β
ˆ
1=
β
1E
(
2)
ˆ 0 0 0,
~
ˆ
βσ
β
β
N
( )
2 ˆ 1 1 1,
~
ˆ
βσ
β
β
N
(
)
2
ˆ
ˆ
2
ˆ
ˆ
1 2 1 0 1 2 2−
β
−
β
−
=
−
=
σ
∑
=∑
=n
x
y
n
u
n i i i n i iModelo de regressão linear simples
Estimador da variância do
Exemplo modelo de regressão linear simples
O gerente de uma empresa varejista está interessado em obter uma
equação que sintetize a relação entre o investimento em propaganda (X) e
o volume de vendas (Y) da empresa, com a finalidade de projetar o nível
de vendas em função do investimento no programa de marketing da
empresa.
Histórico (dados anuais)
Diagrama de dispersão
Relação linear entre as variáveis
Exemplo modelo de regressão linear simples
ε
+
β
+
β
=
X
Y
0 1Modelo de regressão linear
Estimação dos coeficientes por mínimos quadrados
03823 , 12 5 , 26 975916 , 0 9 , 37 ˆ ˆ 1 0 = − β = − ⋅ = β Y X 97916 , 0 265 8019 10 379 265 11016 10 ˆ 2 2 1 1 2 1 1 1 1 = − ⋅ ⋅ − ⋅ = − − = β
∑
∑
∑
∑
∑
= = = = = N i i N i i N i N i i N i i i i X X N Y X Y X N Equação de projeçãoX
Y
ˆ
=
12
,
0382
+
0
,
9792
Modelo de regressão linear simples
Decomposição do erro:
Y
X
Y
Y = b
^
0+ b
1X
*
Y
i (valor observado)Y
i- Y
Y
i (valor estimado)^
Y
^
i- Y
Y
i-Decomposição da soma de quadrados total
( )
Y
iY
( )
Y
iY
i( )
Y
Y
i N i N i i i N−
=
−
+
−
= = =∑
∑
2 2∑
1 1 2 1$
$
SQT = SQE + SQR
SQT = Soma dos Quadrados dos Resíduos
SQE = Soma dos Quadrados Explicados pela Regressão
SQR = Soma dos Quadrados dos Resíduos
(
)
(
)
SQT
SQR
Y
Y
Y
Y
SQT
SQE
R
N i i N i i i−
=
−
−
=
=
∑
∑
= =1
ˆ
1 2 1 2 2Coeficiente de determinação
Modelo de regressão linear simples
1
0
≤
R
2≤
Se R estiver próximo de 1, a variável x explica a maior parte das variações de y. Neste caso, a variável x é uma boa preditora da variável y.
Se R estiver próximo de 0, a variável x explica muito pouco das variaçães de y. Neste caso, a variável x não é uma boa preditora da variável y.
Análise da variância (ANOVA)
Modelo de regressão linear simples
Inferência Estatística no Modelo de Regressão Linear
2
ˆ
σ
Estimador da variância do erroSQT SQE R2 =
(
−2)
= N SQR SQE FCausas de variação Graus de liberdade Soma dos quadrados Quadrados médios
Regressão 1
∑
(
)
= − = N i i X x SQE 1 2 2 1 ˆβ
QME = SQE 1 Resíduos N - 2∑
(
)
= − = N i i i y y SQR 1 2 ˆ QMR = SQR(
N −2)
Total N-1∑
= − = N i i NY y SQT 1 2 22 , 1
~
2
1
−−
=
F
NN
SQR
SQE
F
Testa o efeito conjunto das variáveis explicativas sobre a variável
dependente, No caso do modelo linear simples testa o efeito de X
sobre Y
H
0:
ββββ
1= 0 ( ausência do efeito )
H
1:
ββββ
1≠≠≠≠
0 ( presença do efeito )
F > F
tabelado
rejeita H
0
F < F
tabelado
aceita H
0
Modelo de regressão linear simples
Teste F
Inferência Estatística no Modelo de Regressão Linear
2 ˆ 1
~
ˆ
1 −=
b
t
Nt
βσ
H
0:
ββββ
1= 0
H
1:
ββββ
1≠≠≠≠
0
Testa o efeito individual de X e do termo constante
Modelo de regressão linear simples
Inferência Estatística no Modelo de Regressão Linear
Teste t
Testa a significância do coeficiente de regressão linear associado
com uma determinada variável explicativa.
Sob H
0t > t
tabelado
rejeita H
0
t < t
tabelado
aceita H
0
2 1 1 1 2 1 1 1
ˆ
ˆ
ˆ
1ˆ
α β α ββ
β
σ
σ
β
− −≤
≤
+
⋅
⋅
−
t
t
Modelo de regressão linear simples
Inferência Estatística no Modelo de Regressão Linear
Previsor
E
ˆ
(
Y
h|
X
h)
=
β
ˆ
0+
β
ˆ
1X
hErro de previsão
(
) (
)
(
) ( )
h h h h h hE
Y
|
X
E
ˆ
Y
|
X
β
ˆ
0β
0β
ˆ
1β
1X
ε
=
−
=
−
+
−
( )
(
)
(
)
$
$
V
N
X
X
X
X
h h i i Nε
=
σ
+
−
−
=∑
2 2 2 11
Intervalo de previsão
(
)
( ) (
)
( )
[
$
]
|
,
$
|
E Y X
h h−
t V
cε
hE Y X
h h+
t V
cε
hModelo de regressão linear simples
Dado
X
T+hprever
Y
T+hPrevisor
h hX
Y
ˆ
ˆ
ˆ
1 0β
β
+
=
Erro de previsão
ε
h=
Y
h−
Y
ˆ
h=
(
β
0−
β
~
0)
+
( )
β
1−
β
ˆ
1X
h+
u
h( )
(
)
(
)
$
$
V
N
X
X
X
X
h h i i Nε
=
σ
+
+
−
−
=∑
2 2 2 11
1
Intervalo de previsão
( )
( )
[
$
]
,
$
Y t V
h−
cε
hY t V
h+
cε
hModelo de regressão linear simples
Exemplo modelo de regressão linear simples
Construção da ANOVA para o exemplo anterior Soma dos quadrados dos resíduos SQR Soma dos quadrados explicados pela regressão SQE Soma dos quadrados totais SQT resíduos
X
Y
ˆ
=
12
,
0382
+
0
,
9792
Equação estimadaX
Y
ˆ
=
12
,
0382
+
0
,
9792
Exemplo modelo de regressão linear simples
N-1=9 SQT 1260,90 Total 38,98 N-2=8 SQR 311,82 Resíduo 949,08 / 38,98=24,35 949,08 1 SQE 949,08 Regressão F Quadrado médio (C=A/B) Graus de liberdade (B) Soma dos quadrados (A) Fonte de variação ANOVA 1 variável explicativa 2 coeficientes estimados α e β Por isso N - 2 O quadrado médio do resíduo é uma estimativa da variância do erro2
ˆ
σ
Coeficiente de determinação R275
,
0
90
.
1260
08
.
949
2=
=
=
SQT
SQE
R
Construção da ANOVA para o exemplo anterior
Exemplo modelo de regressão linear simples
Estimativas dos erros padrão de e
(
)
8019
10
26
,
5
31
,
3661
5
,
26
9778
,
38
10
1
ˆ
ˆ
2 2 1 2 1 2 2 2 ˆ 0−
⋅
=
⋅
⋅
=
−
σ
=
σ
∑
∑
= = β N i i N i iX
X
N
X
0391
,
0
5
,
26
10
8019
9778
,
38
ˆ
ˆ
2 2 1 2 2 2 ˆ 1=
−
⋅
=
−
σ
=
σ
∑
= βX
N
X
N i i 0ˆ
β
β
ˆ
16
,
5
3661
,
31
ˆ
ˆ
ˆ 2ˆ 0 0=
σ
=
=
σ
β β1978
,
0
0391
,
0
ˆ
ˆ
ˆ 2ˆ 1=
σ
=
=
σ
β β Erro padrão Erro padrãoExemplo modelo de regressão linear simples
Inferência no modeloH
0:
ββββ
1= 0 ( ausência do efeito )
H
1:
ββββ
1≠≠≠≠
0 ( presença do efeito )
2 , 1~
2
1
−−
=
F
NN
SQR
SQE
F
F > F
tabelado
rejeita H
0
Sob H
035
.
24
=
F
Ao nível de significância de 5% o valor tabelado (Ftabelado) de uma F com 1 grau deliberdade no numerador e 8 graus de liberdade no denominador é 5,3177 =FINV(0,05;1;8) Distribuição F Testes de hipóteses
Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y
Exemplo modelo de regressão linear simples
Inferência no modeloH
0:
ββββ
0= 0 ( ausência do efeito )
H
1:
ββββ
0≠≠≠≠
0 ( presença do efeito )
t < t
tabelado
aceita H
0
Sob H
01495
,
2
3661
,
31
0382
.
12
=
=
t
Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 8 graus de liberdade no numerador é 2,31 =TINV(0,05;8) Distribuição t 2 ˆ~
ˆ
ˆ
−=
t
Nt
ασ
α
Testes de hipótesesTeste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa.
Exemplo modelo de regressão linear simples
Inferência no modeloH
0:
ββββ
1= 0 ( ausência do efeito )
H
1:
ββββ
1≠≠≠≠
0 ( presença do efeito )
t > t
tabelado
rejeita H
0
Sob H
09354
,
4
0391
,
0
9792
.
0
=
=
t
Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 8 graus de liberdade no numerador é 2,31 =TINV(0,05;8) Distribuição t 2 ˆ~
ˆ
ˆ
−=
t
Nt
βσ
β
Testes de hipótesesTeste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa.
9531
,
24
8766
,
0
31
,
2
6
,
5
0382
,
12
31
,
2
≤
−
β
0≤
⇒
−
≤
β
0≤
−
Exemplo modelo de regressão linear simples
Inferência no modelo
Intervalos de confiança com 95% de confiança
2 0 0
~
ˆ
ˆ
0 − βσ
β
−
β
Nt
2 ˆ 1 1~
ˆ
ˆ
1 − βσ
β
−
β
Nt
95
,
0
31
,
2
ˆ
ˆ
31
,
2
0 0 0=
≤
σ
β
−
β
≤
−
βP
Distribuição t 95%95
,
0
31
,
2
ˆ
ˆ
31
,
2
1 ˆ 1 1=
≤
σ
β
−
β
≤
−
βP
4320
,
1
5198
,
0
31
,
2
1978
,
0
9792
,
0
31
,
2
≤
−
β
1≤
⇒
≤
β
1≤
−
Exemplo modelo de regressão linear simples no Excel
1) Matriz de dados para regressão linear simples 1 variável dependente
1 variável independente 2) No menu Ferramentas escolha a opção Análise de dados
3) Na caixa de diálogo escolha a opção Regressão e clique em Ok
4) Informe os dados para regressão na caixa de diálogo
Exemplo modelo de regressão linear simples no Excel
Caixa de diálogo regressão Intervalo com os valores da
variável dependente Intervalo com os valores da
variável independente Rótulos:
nomes das
variáveis Marque se tem
rótulo
Grava resultados da regressão em uma nova planilha
Apresenta a série de resíduos
Y
Y
−
ˆ
Gráfico com os valores observados e previstos Gráfico dos resíduos contra a variável explicativaGráfico para avaliar se a hipótese de normalidade do erro é satisfeita
Exemplo modelo de regressão linear simples no Excel
Planilha de Resultados R2 2 R Valor P P(F>24,3492) = 0,0011 Valor P < 5% rejeito H0 no teste Fα
β
Valor P P( |t| >2,1495) = 0,0638 Valor P P( |t| >4,9345) = 0,0011 Intervalo de confiança 4,9345 - 4,9345 Valor P < 5% rejeito H0 no teste FY
ˆ
Y
−
Y
ˆ
Valores para a plotagem de probabilidade normalExemplo modelo de regressão linear simples no Excel
Gráficos na planilha de Resultados
X Plotagem de resíduos -20 0 20 0 10 20 30 40 50 X R e s íd u o s
X Plotagem de ajuste de linha
0 10 20 30 40 50 60 0 10 20 30 40 50 X Y Y Previsto(a) Y
Plotagem de probabilidade normal
0 10 20 30 40 50 60 0 20 40 60 80 100 Percentil da amostra Y
Útil na verificação da hipótese de variância constante do erro
Útil na verificação da hipótese de normalidade do erro (valores ao
redor de uma reta imaginária indicam que a hipótese de normalidade não foi violada)
Mais sobre regressão linear simples no Excel
1) Matriz de dados para regressão linear simples
1 variável dependente Y 1 variável independente X
2) Escolha a opção Inserir no menu de ferramentas e em seguida selecione a opção Gráficos
3) Na caixa de diálogo Assistente de
gráfico escolha a opção Diagrama (XY)
e clique em Avançar
Mais sobre regressão linear simples no Excel
4) Insira os dados do gráfico na caixa de diálogo Dados de Origem (use a pasta seqüência)
Mais sobre regressão linear simples no Excel
3.000 4.000 5.000 6.000 7.000 8.000 9.000 10.000 11.000 15 17 19 21 23 25 27 29 31 33 35PIB em bilhões de dólares
C o n s u m o d e e n rg ia e lé tr ic a G W h
6) Ao final, escolha a opção Como nova planilha Para visualizar o diagrama de dispersão
Mais sobre regressão linear simples no Excel
Ajuste da linha de tendência (reta de regressão)
1) Com o botão direito do mouse clique sobre uma observação (ponto) no gráfico e escolha a opção Adicionar linha de tendência.
3.000 4.000 5.000 6.000 7.000 8.000 9.000 10.000 11.000 15 17 19 21 23 25 27 29 31 33 35
PIB em bilhões de dólares
C o n s u m o d e e n rg ia e lé tr ic a G W h
Mais sobre regressão linear simples no Excel
Ajuste da linha de tendência (reta de regressão)
2) Na caixa de diálogo Adicionar linha de tendência escolha a opção Linear e marque as opções Exibir equação no gráfico e Exibir valor de R-quadrado no
Regressões que se tornam lineares por anamorfose
i X i iY
=
β
0β
1ε
(exponencial) i i iX
Y
β
β1ε
0=
(potência) i i iX
Y
=
β
0+
β
11
+
ε
(hipérbole) i i i iX
X
Y
=
β
0+
β
1+
β
1 2+
ε
(polinomial)As especificações a seguir são não-lineares, mas podem se tornar lineares por anamorfose, ou seja, mediante alguma transformação das variáveis.
i i i
X
Y
ln
β
ln
β
ln
ε
ln
=
0+
1⋅
+
i i iX
v
Y
*=
β
0*+
β
1*⋅
+
i i Y Y* = ln 0 * 0 lnβ β = 1 * 1 lnβ β = i i v = lnε i i iX
Y
ln
β
β
ln
ln
ε
ln
=
0+
1+
i i iX
v
Y
*=
β
0*+
β
1⋅
*+
i i Y Y* = ln 0 * 0 lnβ β = i i v = lnε i i X X* = ln i i iX
Y
=
β
0+
β
1 *+
ε
i i X X* = 1 i i i iX
X
Y
=
β
0+
β
1 1+
β
1 2+
ε
i iX
X
1=
2 2 i iX
X
=
Modelo linear Modelo linear Modelo linearModelo regressão linear múltipla A substituição de variáveis é válida, pois a
Regressões que se tornam lineares por anamorfose
O Excel permite ajustar linhas de tendências segundo estas especificações não lineares.
A identificação da especificação adequada deve se basear em algum conhecimento a priori do fenômeno que esta sendo modelado. Na ausência deste conhecimento a escolha baseia-se nos dados, ou seja, na especificação que melhor se ajusta aos dados.
linear
potência
polinomial
exponencial hipérbole
Regressões que se tornam lineares por anamorfose
A especificação potência, também conhecida por especificação Cobb-Douglas é muito utilizada, pois o coeficiente da variável explicativa é a elasticidade de Y em relação a X, um importante parâmetro econômico.
Considere a especificação potência
Neste caso,
Da teoria microeconômica temos a seguinte definição para o coeficiente de elasticidade de Y em relação a X:
Substituindo os resultados anteriores nesta fórmula tem-se que:
i i i
X
Y
β
β1ε
0=
1 i 0 1 1X
dX
dY
β −β
β
=
Y
X
dX
dY
⋅
=
η
(
0)
1 1 1 0 11
1 1β
β
β
β
β
η
=
β −⋅
=
β=
Y
X
Y
X
X
Modelo de regressão linear múltipla
A variável dependente é uma função linear de duas ou mais variáveis
independentes
i Ki k i i iX
X
X
Y
=
β
0+
β
1 1+
β
2 2+
K
+
β
+
ε
Notação matricial
i=1,N amostras
ε
β
+
=
X
Y
Y
Y
Y
Y
N=
1 2M
=
kN N k kX
X
X
X
X
X
X
1 2 12 1 111
1
1
M
L
β
β
β
β
=
0 1M
k
=
Nε
ε
ε
ε
M
2 1 K variáveis explicativasββββ1, ββββ2,ββββ3,...,ββββk, σσσσ2 são parâmetros do modelo que devem ser estimados
N x 1 N x (k+1) k x 1 N x 1
Hipóteses assumidas pelo modelo de regressão linear múltipla
H1) A relação entre as variáveis é linear yi = β0 + β1xi1 + β2x2i +...+ βkxki + εi i=1,n.
H2) A variável explicativa X é fixa, ou seja, não é aleatória.
H3) As colunas da matriz X são linearmente independentes, ou seja, não há uma
relação linear perfeita entre duas ou mais as variáveis explicativas.
H4) Erros tem média nula: E(εi) = 0 para todo i=1,n.
H5) Variância do erro é constante (homocedasticidade):
V(εi) = σ2 para todo i=1,n.
H6) Erros não correlacionados: Cov(εi,εk) = 0 para todo i
≠
k.H7) Erros tem distribuição Normal: εi ~ N(0,σ2) para todo i=1,n.
H2,H3,H4 e H5 ⇒⇒⇒⇒ εεεεi são independentes e identicamente distribuídos N(0,σσσσ2)
Hipótese H7: vetor de erros tem distribuição
Normal multivariada com vetor média nula e
matriz de covariãncias
ΣΣΣΣ
εεεε
=
Nε
ε
ε
ε
M
2 1 Vetor aleatório NI
2 2 2 20
0
0
0
0
0
σ
σ
σ
σ
ε=
=
Σ
L
M
O
M
L
Matriz de covariãncias do vetor εεεε
Matriz identidade de ordem N
Hipóteses
H5:
V(
εεεε
i)=
σσσσ
2é constante
H6:
COV(
εεεε
i,
εεεε
j)=0
erros não correlacionados
( )
=
0
0
0
M
ε
E
Hipótese
H4:
E(
εεεε
)=0
=
2 2 2 2 1,
0
0
0
~
σ
σ
σ
ε
ε
ε
ε
O
M
M
N NN
Estimador de Mínimos Quadrados (MQ)
Modelo de regressão linear múltipla
(
X
X
)
X
Y
k'
'
ˆ
ˆ
ˆ
ˆ
1 1 0 −=
=
β
β
β
β
M
=∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
∑
= = = = = = = = = = = = = = = N i Ki N i Ki i N i Ki i N i Ki N i ki i N i i N i i i N i i N i ki i N i i i N i i N i i N i Ki N i i N i i X X X X X X X X X X X X X X X X X X X X X N X X 1 2 1 2 1 1 1 1 2 1 2 2 1 2 1 1 2 1 1 1 2 1 1 2 1 1 1 1 1 2 1 1 ' O M L =∑
∑
∑
∑
= = = = N i i Ki N i i i N i i i N i i y x y x y x y Y X 1 1 2 1 1 1 ' M (k+1) x (k+1) (k+1) x 1( )
(
)
1 2'
ˆ
σ
β
=
−X
X
V
$
'
σ
2=
−
u u
N
k
(
j jj)
jN
a
2,
~
ˆ
β
σ
β
a
jjelemento da diagonal principal
da inversa de X’X
Modelo de regressão linear múltipla
Teste t
H
0:
ββββ
j= 0
H
1:
ββββ
j≠≠≠≠
0
( )1~
ˆ
− +=
j N kt
b
t
j βσ
(
)
F
S Q
gr k
S Q
s N
k
=
− +
. . Re
. . Re
1
H
0:
ββββ
1=
ββββ
2=
ββββ
3=...=
ββββ
k=0
H
1: pelo menos um
ββββ
j≠≠≠≠
0
Teste F
t
≥
t
ta b ela d o⇒
rejeita H
0F
≥
F
ta b ela d o⇒
rejeita H
0Modelo de regressão linear múltipla
Análise da variância
(
)
(
)
∑
∑
= = − − = = N i i N i i i Y Y Y Y SQT SQE R 1 2 1 2 2 ˆ(
)
R
R
N
N
k
2 21
1
1
= − −
−
−
(
)
[
−
+
1
]
=
=
k
N
SQR
k
SQE
QMR
QME
F
Modelo de regressão linear múltipla
Inferência Estatística no Modelo de Regressão Linear
Causas de variação
Graus de
liberdade Soma dos quadrados Quadrados médios
Regressão K SQE X Y y N N i i T T 2 1 ˆ − =
∑
= β QME = SQE K Resíduos N - (K+1) SQR =YTY −βˆT XTY QMR = SQR[
N −(
K +1)
]
Total N-1 SQT Y Y y N N i i T 2 1 − =∑
=[
]
x
'
h=
1
X
1hX
2hL
X
khPrevisão
Dado
$
'
Y
h=
x b
hestima
E Y
( )
h=
β
0+
β
1X
1h+ +
K
β
kX
kh( )
(
)
$ $
'
'
$
V Y
h=
x
hX X
−1x
hσ
2$
'
Y
h=
x b
hestima
Y
h=
β
0+
β
1X
1h+ +
K
β
kX
kh+
u
h( )
[
(
)
]
$ $
'
'
$
V Y
h= +
1
x
hX X
−1x
hσ
2Exemplo modelo de regressão linear múltipla
X1 X2 Y 68,5 16,7 174,4 45,2 16,8 164,4 91,3 18,2 244,2 47,8 16,3 154,6 46,9 17,3 181,6 66,1 18,2 207,5 49,5 15,9 152,8 52 17,2 163,2 48,9 16,6 145,4 38,4 16 137,2 87,9 18,3 241,9 72,8 17,1 191,1 88,4 17,4 232 42,9 15,8 145,3 52,5 17,8 161,1 85,7 18,4 209,7 41,3 16,5 146,4 51,7 16,3 144 89,6 18,1 232,6 82,7 19,1 224,1 52,3 16 166,5Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa está analisando a possibilidade de expansão em outras cidades de médio porte e para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas com base no número de pessoas com até 16 anos de idades (X1) e a renda per capita na localidade (X2).
Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são apresentados na tabela abaixo:
i
i
i
i
X
X
u
Y
=
β
0
+
β
1
+
β
2
+
Modelo de regressão linear múltipla a ser estimado
0 50 100 150 200 250 300 30 40 50 60 70 80 90 100 X1 Y 0 50 100 150 200 250 300 15 16 17 18 19 20 X2 Y
Exemplo modelo de regressão linear múltipla
Modelo de regressão linear
Estimação dos coeficientes de regressão por mínimos quadrados
i i i i
X
X
u
Y
=
β
0+
β
1+
β
2+
1 68,5 16,7 1 45,2 16,8 1 91,3 18,2 1 47,8 16,3 1 46,9 17,3 1 66,1 18,2 1 49,5 15,9 1 52 17,2 1 48,9 16,6 1 38,4 16 1 87,9 18,3 1 72,8 17,1 1 88,4 17,4 1 42,9 15,8 1 52,5 17,8 1 85,7 18,4 1 41,3 16,5 1 51,7 16,3 1 89,6 18,1 1 82,7 19,1 1 52,3 16 X = 174,4 164,4 244,2 154,6 181,6 207,5 152,8 163,2 145,4 137,2 241,9 191,1 232 145,3 161,1 209,7 146,4 144 232,6 224,1 166,5 Y = 21,00 1.302,40 360,00 1.302,40 87.707,94 22.609,19 360,00 22.609,19 6.190,26=
X
X
T 3.820,00 249.643,35 66.072,75=
Y
X
T 29,7289 0,0722 -1,9926 0,0722 0,0004 -0,0055 -1,9926 -0,0055 0,1363(
)
−1=
X
X
T(
X
TX
)
1X
TY
ˆ
=
−β
−
=
3655
,
9
4546
,
1
8571
,
68
ˆ
ˆ
ˆ
2 1 0β
β
β
Exemplo modelo de regressão linear múltipla
Construção da ANOVA i i iX
X
Y
ˆ
=
−
68
,
8571
+
1
,
4546
1+
9
,
3655
2 SQR SQE SQTExemplo modelo de regressão linear múltipla
Construção da ANOVA N-1=20 SQT 26196,21 Total 121,1626 N-3=18 SQR 2180,93 Resíduo 12007,64 / 121.1626 = 99,1035 12007,64 2 SQE 24015,28 Regressão F Quadrado médio (C=A/B) Graus de liberdade (B) Soma dos quadrados (A) Fonte de variação ANOVA 2 variáveis explicativas 3 coeficientes estimados Por isso N – 3 O quadrado médio do resíduo é uma estimativa da variância do erro2
ˆ
σ
Coeficiente de determinação R2917
,
0
21
,
26196
28
.
24015
2=
=
=
SQT
SQE
R
Exemplo modelo de regressão linear múltipla
u
X
Y
=
α
+
β
+
Modelo de regressão linear
Estimativas dos erros padrão dos coeficientes de regressão
(
)
1 2 2 ˆ ˆ ˆ ˆ ˆ ˆ ˆ 2 ˆ ˆ ˆ ˆ ˆ ˆ ˆ 2 ˆˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
ˆ
2 2 1 2 0 2 1 1 1 0 2 0 1 0 0 −⋅
=
=
Σ
σ
X
TX
σ
σ
σ
σ
σ
σ
σ
σ
σ
β β β β β β β β β β β β β β β βα
ˆ
β
ˆ
0170
,
60
0347
,
3602
ˆ
ˆ
ˆ 2ˆ 0 0=
β=
=
βσ
σ
Erro padrão Resultado na ANOVA = 121,1626 29,7289 0,0722 -1,9926 0,0722 0,0004 -0,0055 -1,9926 -0,0055 0,1363=
Σ
β 3.602,03478,7459 8,74590,0449 -241,4230-0,6724 -241,4230 -0,6724 16,51582118
,
0
0449
,
0
ˆ
ˆ
ˆ 2ˆ 1 1=
β=
=
βσ
σ
0640
,
4
5158
,
16
ˆ
ˆ
ˆ 2ˆ 2 2=
β=
=
βσ
σ
Variâncias na diagonal principal
Exemplo modelo de regressão linear múltipla
Inferência no modeloH
0:
ββββ
1=
ββββ
2=
0 ( ausência do efeito )
H
1:
ββββ
1≠≠≠≠
0 ou
ββββ
2≠≠≠≠
0
( presença do efeito )
3 , 2~
3
2
−−
=
F
NN
SQR
SQE
F
F > F
tabelado
rejeita H
0
Sob H
01035
,
99
=
F
Ao nível de significância de 5% o valor tabelado (Ftabelado) de uma F com 2 graus de liberdade no numerador e 18 graus de liberdade no denominador é 3,5546 =FINV(0,05;2;18) Distribuição F Testes de hipótesesTeste F: Testa o efeito conjunto das variáveis explicativas sobre a variável dependente, No caso do modelo linear simples testa o efeito de X sobre Y
Exemplo modelo de regressão linear múltipla
Inferência no modeloH
0:
ββββ
0= 0 ( ausência do efeito )
H
1:
ββββ
0≠≠≠≠
0 ( presença do efeito )
t < t
tabelado
aceita H
0
Sob H
01473
,
1
0170
,
60
8571
,
68
−
=
−
=
t
Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é 2,1009 =TINV(0,05;18) Distribuição t 3 ˆ 0~
ˆ
ˆ
0 −=
t
Nt
βσ
β
Testes de hipótesesTeste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa.
Exemplo modelo de regressão linear múltipla
Inferência no modelot > t
tabelado
rejeita H
0
Sob H
0 Distribuição t Testes de hipótesesTeste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa.
H
0:
ββββ
1= 0 ( ausência do efeito )
H
1:
ββββ
1≠≠≠≠
0 ( presença do efeito )
3 ˆ 1~
ˆ
ˆ
1 −=
t
Nt
βσ
β
8682
,
6
2118
,
0
4546
,
1
=
=
t
Ao nível de significância de 5% o valor tabelado (ttabelado) de uma t com 18 graus de liberdade no numerador é 2,1009Exemplo modelo de regressão linear múltipla
Inferência no modelot > t
tabelado
rejeita H
0
Sob H
0 Distribuição t Testes de hipótesesTeste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa.