UnB/CCA - Prof. Otávio Medeiros 1
Econometria Parte I
Introdução à Regressão Linear
Métodos Quantitativos Aplicados à
Contabilidade (MQAC)
UnB/CCA - Prof. Otávio Medeiros 2
Regressão
Regressão
• Tem como objetivo a descrição e a avaliação da relação entre uma
UnB/CCA - Prof. Otávio Medeiros 3
Notação
•
Denota-se a variável dependente por
y
e
as
variáveis
independentes por
x
1, x
2, ... , x
konde
k
é o número de variáveis
independentes.
•
Nomes alternativos para as variáveis
y
e
x
:
y
x
variável dependente
variáveis independentes
regressando
regressores
variável efeito
variáveis causais
UnB/CCA - Prof. Otávio Medeiros 4
Diferença entre Regressão e Correlação
• Quando dizemos que y e x são correlacionadas, significa que estamos
tratando y e x de uma maneira completamente simétrica.
• Na regressão, tratamos a variável dependente (y) e as independentes
(x’s) de modo muito diferente.
• A variável y é supostamente aleatória ou “estocástica”, i.e. possui uma
distribuição de probabilidades.
• As variáveis x têm supostamente valores fixos (“não-estocásticos”) em
UnB/CCA - Prof. Otávio Medeiros 5
Regressão Linear Simples
• Por simplicidade, digamos que k = 1. Nesta situação, y depende somente de
uma variável x.
• Exemplos do tipo de relação que podem ser tratadas dessa forma:
– Relação entre o lucro líquido das empresas e o retorno de uma ação. – Relação entre o retorno em excesso de uma ação e o retorno em
excesso da carteira de mercado.
UnB/CCA - Prof. Otávio Medeiros 6
Regressão Linear Simples
• Se dispomos de uma amostra com valores passados (históricos) para y e x,
podemos construir um gráfico de pontos tendo esses valores como coordenadas.
• A regressão consiste em encontrar uma reta que passe pelos pontos com o
UnB/CCA - Prof. Otávio Medeiros 7
Regressão Linear Simples
• Se temos de valores passados para y e x, podemos construir um
gráfico de pontos com esses valores como coordenadas.
• A regressão consiste em encontrar uma reta que passe pelos pontos
com o melhor ajustamento possível.
• • • • • • • •
• • • • • • • •
y
UnB/CCA - Prof. Otávio Medeiros 8
Regressão Linear Simples
• • • • • • • •
• • • • • • • •
y
x
a
b
= tg
q
q
a = intercepto ou constante; q = ângulo
UnB/CCA - Prof. Otávio Medeiros 9
População e Amostra
• População é a coleção total de todos os objetos ou indivíduos a serem
estudados, por exemplo:
• Estamos interessados em População
prever o resultado o eleitorado todo
de uma eleição
• Uma amostra é uma seleção de alguns itens da população.
• Uma amostra aleatória e uma amostra em que cada item individual tem a
mesma probabilidade de ser escolhido.
• Censo: quando amostra = população
• Notação: por convenção, os coeficientes da verdadeira regressão
(população) são chamados de e , enquanto os coeficientes da regressão
estimada (amostral) são chamados de e ).
UnB/CCA - Prof. Otávio Medeiros 10
FRP e FRA
• A função de regressão populacional (FRP) é uma descrição do modelo que
está supostamente gerando os dados reais e que representa a verdadeira relação entre as variáveis (os valores verdadeiros de e ).
• A função de regressão amostral (FRA) é o modelo obtido com base nos
dados amostrais
• A FRP é
• A FRA é
• Usamos a FRA para inferir os parâmetros da FRP.
t
t x
yˆ ˆ ˆ
t t
t
x
u
y
t t
t y y
UnB/CCA - Prof. Otávio Medeiros 11
Regressão Linear Simples: Exemplo CAPM
•
CAPM: Modelo de Precificação de Ativos de Capital
•
O CAPM pressupõe que, para investidores com carteiras
diversificadas, existe uma relação linear entre o retorno em
excesso de uma ação e o retorno em excesso da carteira de
mercado:
( ) ou ( )
R = retorno do ativo; R =retorno da carteira de mercado; R = retorno do ativo livre de risco.
O coeficiente (risco sistemático) pode ser estimado através da reg
a f m f a f m f
a m
f
R R R R R R R R
ressão:
( )
a f m f
t t t t t
UnB/CCA - Prof. Otávio Medeiros 12
Regressão Simples: Exemplo CAPM
• Sejam os seguintes dados sobre os retornos em excesso de um fundo de
investimentos e os retornos em excesso de um índice de mercado:
• Conforme indica a teoria do CAPM, queremos saber se há uma relação entre x e y com base nos dados disponíveis e se o beta é positivo. O primeiro passo seria construir um gráfico de dispersão.
ano, t
Retorno em excesso do fundo
= Ra – Rf
Retorno em excesso do índice de mercado
= Rm - Rf
1 17.8 13.7
2 39.0 23.2
3 12.8 6.9
4 24.2 16.8
UnB/CCA - Prof. Otávio Medeiros 13
Gráfico
Retorno em excesso da carteira de mercado (Rm-Rf)
R et or no e m e xc es so d o fu nd o (R i -R f ) 0 5 10 15 20 25 30 35 40 45
0 5 10 15 20 25
Excess return on market portfolio
UnB/CCA - Prof. Otávio Medeiros 14
A Equação da Reta de Regressão
• Podemos usar a equação geral da linha reta,
y=a+bx
para encontrar a linha que melhor se ajusta aos dados.
• Entretanto, essa equação (y=a+bx) é determinística: os pontos teriam
de estar exatamente sobre a reta.
• A posição dos pontos em relação à reta é estocástica. Então, é
necessário acrescentar um erro aleatório, u na equação.
yt = + xt + ut
UnB/CCA - Prof. Otávio Medeiros 15
O erro aleatório
• O erro pode capturar vários aspectos:
- Um modelo é uma simplificação do mundo real - Sempre haverá variáveis faltantes para explicar yt
UnB/CCA - Prof. Otávio Medeiros 16
Determinação dos coeficientes da regressão
• Como determinar e ?
• Escolhemos e de modo que as distâncias verticais entre os pontos e a
reta sejam minimizadas, de modo que a reta se ajuste aos dados o melhor
possível: y
UnB/CCA - Prof. Otávio Medeiros 17
Método dos Mínimos Quadrados (MMQ = OLS)
•
O método mais comum para ajustar uma reta aos dados é
conhecido como mínimos quadrados ou “ordinary least
squares” (OLS).
•
As distâncias entre cada ponto e a reta são elevadas ao
quadrado e somadas. Essa soma é então minimizada.
•
Notação:
y
tsão os dados reais
t
são os pontos correspondentes sobre a reta
são os resíduos,
y
t-
yˆtt yˆ
Método dos Mínimos Quadrados (MMQ)
•
O Método dos mínimos quadrados foi proposto pelo
matemático alemão Carl Friedrich Gauss em 1795.
UnB/CCA - Prof. Otávio Medeiros 20
Método dos Mínimos Quadrados (MMQ)
•
2 5 2 4 2 3 2 2 21
ˆ
ˆ
ˆ
ˆ
ˆ
u
u
u
u
u
5 1 2 ˆ t t u
ˆ
2
yt yt
2
ˆt
21
Dedução do estimador de MQ
•
0
ˆ
ˆ
0
)
ˆ
ˆ
(
t tt t t
x
T
y
x
y
yt Ty
xt Tx
t t t i t t
x
y
y
y
L
(
ˆ
)
2(
ˆ
ˆ
)
2t
t
x
y
ˆ
ˆ
ˆ
t t tx
y
L
0
)
ˆ
ˆ
(
2
ˆ
t t t t
x y x L 0 ) ˆ ˆ ( 2
ˆ
Dedução do estimador de MQ
•
UnB/CCA - Prof. Otávio Medeiros 23
Dedução do estimador de MQ
• De (2), (4)
• De (3), (5)
• Substituindo (5) em (4),
t t t t
x y
x ( ˆ ˆ ) 0
x
y
ˆ ˆ
t t t t
t t t t t t
t t t t
UnB/CCA - Prof. Otávio Medeiros 24
Dedução do estimador de MQ
•
x
tT
y
x
x
ty
tx
T
)
(
ˆ
2 2
2 2
ˆ
t te
ˆ
ˆ
tx y
Txy
y
x
x
Tx
Fórmula alternativa para
•
Utilizando os operadores de covariância e variância,
podemos escrever:
(1)
(2)
•
Dividindo (1) por (2) obtemos:
que é equivalente à formula do na página anterior.
•
Exemplo 1
•
Considere uma amostra com 5 observações (T=5), sendo y
uma variável dependente e x uma variável explanatória,
conforme tabela abaixo:
•
Usando o método de mínimos quadrados, calcule os
coeficientes e , escreva a equação da reta de regressão e
faça um gráfico da reta.
•
Solução Exemplo 1
•
Cálculos:
Solução: gráfico
UnB/CCA - Prof. Otávio Medeiros 28
0.5 1 1.5 2 2.5 3 3.5 4 4.5
0 0.5 1 1.5 2 2.5 3 3.5
f(x) = 0.31 x + 1.46
Regressão
x
UnB/CCA - Prof. Otávio Medeiros 29
Exemplo em finanças: CAPM
• No exemplo do CAPM mostrado anteriormente, utilizar as 5
observações para estimar a regressão produz as estimativas = -1.74 e = 1.64.
• A equação da reta será:
• Pergunta: se uma analista afirma que espera que o mercado produzirá um
retorno 20% maior que a taxa livre de risco no próximo ano, qual será o retorno esperado do fundo X?
• Solução: valor esperado de y = -1.74 + 1.64*x, portanto, fazendo x = 20
obtem-se o valor esperado de y:
06 . 31 20 64 . 1 74 . 1ˆi
y
t
t
x
Exemplo em finanças: CAPM
•
Modelo econométrico:
•
Fórmulas:
•
Solução:
•
Equação:
30 t tx
y
ˆ
1
.
74
1
.
64
( )
a f m f
t t t t t
R R R R u
2 2
ˆ t t e ˆ ˆ
t
x y Txy
Exemplo contábil: relação lucro x
retorno da ação
•
Desejamos saber se a empresa X apresenta uma relação
significante entre o retorno da sua ação e a taxa de
crescimento dos seus lucros trimestrais. Os lucros são
divulgados com 3 meses de defasagem e, portanto, o
mercado só é informado sobre o lucro 3 meses após o
encerramento do período. A amostra é de 5 observações,
conforme abaixo:
Exemplo contábil: relação lucro x
retorno da ação
•
32
2 2
ˆ t t e ˆ ˆ
t
x y Txy
y x x Tx
UnB/CCA - Prof. Otávio Medeiros 33
Linearidade
• No método de mínimos quadrados, precisamos de um modelo que seja
linear nos parâmetros ( e ), mas nao necessariamente linear nas
variáveis (y e x).
• Linear nos parâmetros significa que os parâmetros não estão multiplicados
entre si, divididos, elevados ao quadrado ou ao cubo, etc.
• Alguns modelos podem ser transformados em modelos lineares através de
uma substituição ou manipulação adequada, por exemplo, o modelo de regressão exponencial
• Fazendo y
t=ln Yt e xt=ln Xt
t t
t
x
u
y
t t
t u
t
t
e
X
e
Y
X
u
UnB/CCA - Prof. Otávio Medeiros 34
Modelos Lineares e Não-lineares
• Isso é conhecido como modelo de regressão exponencial, onde os
coeficientes são interpretados como elasticidades.
• Similarmente, se uma teoria sugere que y e x devem ser inversamente
relacionados:
então a regressão pode ser estimada por mínimos quadrados, substituindo
• Alguns modelos são intrinsicamente não-lineares, e.g.
t t
t u
x y
t t
x
z
1
t t
t
x
u
UnB/CCA - Prof. Otávio Medeiros 35
Premissas da Regressão Linear
•
Os resíduos têm média zero
A variância dos resíduos é constante e finita
Os resíduos são estatisticamente
UnB/CCA - Prof. Otávio Medeiros 36
Premissas da Regressão Linear
• Uma premissa alternativa à 4, ligeiramente mais forte, é que os xt’s
são variáveis não-estocásticas ou fixas em amostras repetidas ou, ainda, exógenas.
• Uma 5a premissa é necessária se quisermos fazer inferências sobre os
parâmetrosda população (os verdadeiros e ) a partir dos parâmetros
amostrais ( e ).
UnB/CCA - Prof. Otávio Medeiros 37
Propriedades do estimador de mínimos quadrados
•
UnB/CCA - Prof. Otávio Medeiros 38
Estimativa da variância dos erros (resíduos)
•
2 t
u
22
1
t
u
T
s
22
1
ˆ
t
u
T
UnB/CCA - Prof. Otávio Medeiros 39
Estimativa da Variância dos erros (resíduos)
•
• Graus de liberdade = tamanho da amostra menos parâmetros a serem
estimados
2 2 ˆ
2
t
u s
T
Confiabilidade de
•
Qualquer conjunto de estimativas de regressão é específico
para a amostra usada em sua estimativa.
•
Se uma amostra diferente de dados foi selecionada a partir
da população, os dados serão diferentes, levando a
diferentes valores das estimativas de OLS.
•
Seria desejável ter uma ideia de quão boas essas
estimativas de α e β são, para termos alguma medida da
confiabilidade ou precisão.
•
Assim, é útil saber se podemos confiar nas estimativas, e
se elas variam muito de uma amostra para outra amostra
dentro da população dada.
•
Confiabilidade de (cont.)
•
Uma ideia da variabilidade amostral e, portanto, da
precisão das estimativas pode ser calculada usando apenas
os dados amostrais disponíveis.
•
Esta estimativa é dada pelo erro padrão.
•
Considerando as premissas 1 a 4 acima, pode-se
demonstrar que os estimadores dos erros-padrão são:
Exemplo 1 (slide 26): Cálculo dos
erros padrões de e
1. Cálculo dos resíduos, da variância e do desvio-padrão dos
resíduos:
•
Cálculo dos erros padrões de e (cont.)
•
Cálculo de e :
•
Uma Introdução à Inferência Estatística
•
A estimação dos parâmetros da regressão por si só não nos
informa qual é o grau de confiabilidade dessas estimativas
•
Para quantificar esse grau de confiabilidade, é necessário
UnB/CCA - Prof. Otávio Medeiros 45
Uma Introdução à Inferência
Estatística
• Queremos fazer inferências sobre os valores prováveis da população dos
parâmetros da regressão.
Exemplo: Suponhamos os seguintes resultados de uma regressão:
• é uma estimativa pontual do parâmetro populacional . Quão confiável é essa
estimativa?
• A confiabilidade da estimativa pontual é medida pelo erro padrão do
coeficiente.
•
ˆt 20,3 0,5091 t
UnB/CCA - Prof. Otávio Medeiros 46 Testes de Hipóteses: teste bicaudal
• Podemos usar a informação contida na amostra para fazer inferências sobre a
população.
• Há sempre 2 hipóteses feitas em conjunto: a hipótese nula (H0) e a hipótese
alternativa (H1).
• A hipótese nula é a afirmação que está realmente sendo testada. A hipótese
alternativa representa o que ocorre se a hipótese nula for rejeitada.
• Por exemplo, suponhamos que na regressão anterior, estamos interessados na
hipótese de que o verdadeiro valor de é na verdade 0.5. Usaríamos a notação:
H0 : = 0,5
H1 : 0,5
UnB/CCA - Prof. Otávio Medeiros 47 Testes de Hipótese Unicaudais
• Algumas vezes, podemos ter alguma informação prévia de que, por exemplo, devemos esperar
> 0,5 ao invés de < 0,5. Nesses casos, faríamos um teste unicaudal:
H0 : = 0,5
H1 : > 0,5
ou, ao contrário, poderíamos ter H0 : = 0,5
H1 : < 0,5
• Entretanto, para realizar esses testes de hipóteses precisamos conhecer os erros-padrões dos
UnB/CCA - Prof. Otávio Medeiros 48
A Distribuição de Probabilidade dos Estimadores de MQ
• Distribuições de probabilidades normais são
caracterizadas por dois parâmetros: média e variância
• Assumimos na premissa 5 que os resíduos têm média
zero e variância igual a 2, isto é, ut N(0,2)
• Os estimadores de MQ são combinações lineares das
variáveis aleatórias y e x.
• Combinações lineares de variáveis normalmente
distribuídas são também normalmente distribuídas, logo
N(, Var()) N(, Var())
A Distribuição de Probabilidade dos Estimadores de MQ
•
Essas distribuições de probabilidades normais não são
padronizadas.
•
Assim, para utilizá-las, teríamos de ter infinitas
distribuições normais para infinitas possibilidades de
valores de
e var(
) e de
e var(
).
•
Entretanto, é possível converter qualquer distribuição
normal em uma distribuição normal padrão, subtraindo-se
do parâmetro a sua média e dividindo-se esse resultado
pelo desvio-padrão do parâmetro.
•
Essas distribuições normais padrões terão média igual a 0
UnB/CCA - Prof. Otávio Medeiros 50 A Distribuição de Probabilidade dos Estimadores de MQ
• Variáveis normais padronizadas podem ser construídas para e :
• Mas var() e var() são desconhecidas, então as variâncias populacionais
têm de ser substituídas pelas variâncias amostrais
• Com isso, em vez da distribuição normal, é necessário utilizar a distribuição t-Student:
e
• A perda de 2 graus de liberdade ocorre porque é necessário estimar 2
parâmetros: e
•
~ 0,1
var ˆ N
~ 0,1
UnB/CCA - Prof. Otávio Medeiros 51 Teste de Hipóteses: O Enfoque do Teste de Significância
• Seja a equação de regressão:
• As etapas para a realização de um teste de significância são:
1) Estimar e , e SE(
2) Calcular as estatísticas-teste t() e t(), dadas pelas fórmulas:
e
onde * e * são respectivamente os valores de e sob a hipótese nula.
•
t t t x u
UnB/CCA - Prof. Otávio Medeiros 52
O Enfoque do Teste de Significância
3) Precisamos de uma distribuição tabulada para comparar a estatística teste estimada. Pode-se demonstrar que na regressão linear simples as estatísticas teste seguem uma distribuição t com T-2 graus de liberdade.
4) Precisamos escolher um “nível de significância”, geralmente denominado (não é o intercepto da regressão!). É também
chamado de “tamanho do teste” e ele determina a região onde rejeitaremos ou não a hipótese nula que estamos testando.
UnB/CCA - Prof. Otávio Medeiros 53 Determinando a Região de Rejeição de um Teste de Significância
5) Dado um nível de significância (), podemos determinar a região de
rejeição e a região de não rejeição. Para um teste bicaudal com = 5%:
f(x)
95% non-rejection region
2.5%
rejection region rejection region2.5%
Região de
rejeiçã o
Região de
rejeiçã o
Região de
UnB/CCA - Prof. Otávio Medeiros 54 Região de Rejeição para um teste unicaudal (cauda superior) a 5%
f(x)
95% non-rejection
regionRegião de 5% rejection region
não-rejeição
Região de
UnB/CCA - Prof. Otávio Medeiros 55 Região de Rejeição para um teste uni-caudal (cauda inferior) a 5%
f(x)
95% non-rejection region 5% rejection region
Região de
rejeição
Região de
UnB/CCA - Prof. Otávio Medeiros 56
Teste de Significância: Conclusão
6) Use as tabelas da distribuição t para obter o valor crítico com o qual comparar a estatística teste.
Estatísticas-teste
•
As estatísticas-teste são obtidas com as seguintes fórmulas:
•
) e )
•
Para realizar o teste, valores críticos da distribuição
t
estão
disponíveis na tabela da distribuição
t
para diferentes graus
de liberdade e níveis de significância
Exemplo (1) de teste de significância
•
Suponhamos que no exemplo 1 (pag. 26), queremos testar:
•
H
0:
= 0 (o intercepto da regressão é igual a zero)
•
H
1:
0 (o intercepto da regressão é diferente de zero)
•
Trata-se de um teste bicaudal, pois H
1compreende
> 0 ou
<0.
•
Temos que escolher um nível de significância, geralmente 5%
•
A estatística-teste de
é ) = = 0,882
•
O valor crítico para um nível de significância de 5% terá um nível
de significância efetivo de 2,5% = 0,025. Há 5-2=3 graus de
liberdade
•
Valores críticos na tabela da distribuição
t
: -3,182 e +3,182.
Exemplo (1) de teste de significância
f(x)
95% non-rejection region
2.5%
rejection region rejection region2.5%
-3,18 2 3,18 2 0,88 2
Exemplo (1) de teste de significância
•
Interpretação do resultado do teste:
•
A estatística-teste cai na região de não rejeição.
•
Ao nível de significância de 5%, não podemos rejeitar a
hipótese nula H
0de que
= 0.
•
O nível de significância de 5% pode ser interpretado
Exemplo (2) de teste de significância
•
Suponhamos agora que no mesmo exemplo 1, queremos testar:
•
H
0:
= 0,5 (a inclinação da reta de regressão é igual a 0,5)
•
H
1:
> 0,5 (a inclinação da reta de regressão é maior que 0,5)
•
Trata-se de um teste unicaudal, pois H
1considera apenas a cauda
direita da distribuição.
•
Vamos manter o nível de significância de 5%
•
A estatística-teste de
é ) = = 0
•
O valor crítico para um nível de significância de 5% com 5-2=3
graus de liberdade terá apenas um valor crítico: 2,353
Exemplo (2) de teste de significância
2,35 3 0
Resultado do teste: não
rejeitamos H0, pois 0 cai dentro da região de não rejeição.
f(x)
95% non-rejection
region 5% rejection region
Região de rejeição não