Análise de Regressão Múltipla
com informação qualitativa:
variáveis binárias (dummy)
variáveis binárias (dummy)
Como descrever informações
qualitativas?
Fatores qualitativos podem ser incorporados a modelos de regressão.
Neste caso, classificamos os dados conforme algumas características qualitativas.
Exemplos: ser homem ou ser mulher; ser branco ou negro; morar no Rio ou em Niterói.... etc.
Estas variáveis qualitativas podem ser regressores ou variáveis dependentes.
Existem formas de incorporá-las ao modelo econométrico.
Variáveis binárias ou dummy
Nestes casos, as informações relevantes
podem ser captadas pela definição de uma
variável binária (variável zero-um)
Definição de uma dummy: identificar o
Definição de uma dummy: identificar o
evento que assumirá o valor um e o evento
que assumirá o valor zero.
É sempre bom denominar a variável pelo
evento que é igual a um:
Ser homem é igual a 1 – chamar a variável de
Variáveis binárias ou dummy
Como fica o banco de dados?
Exemplo: com uma variável
binária
Somente dois fatores afetam os salários:
gênero e escolaridade
Qual a diferença entre o salário hora do
homem e da mulher, dado o mesmo nível
educacional?
Exemplo 2:
Se educação, experiência e permanência
foram características relevantes para a
produtividade, a hipótese nula para não
existência de diferença entre homens e
mulheres seria:
A alternativa seria que existe discriminação
contra mulheres:
0
:
δ
0=
oH
0
:
δ
0<
oH
Banco de dados: wage1.gdt
Rode o modelo acima
Quanto a mulher ganha , em média, a
menos que o homem?
menos que o homem?
Rode o mesmo modelo acima, mas
excluindo todos controles com exceção da
dummy feminino.
Qual o salário hora médio dos homens? O que é o intercepto?
Banco de dados: GPA1.gdt
Efeitos de se possuir computadores na avaliação de cursos superiores
PC = 1 se o aluno tem computador em casa. hsGPA: nota no final do ensino médio
ACT: nota do exame vestibular ACT: nota do exame vestibular
Qual o efeito sobre a nota média final prevista no curso superior?
O que acontece com o efeito se retirar hsGPA e ACT? Interprete o significado do coeficiente de PC.
Defina uma variável semPC e inclua acima excluindo PC. O que acontece com o intercepto na equação estimada? Qual o coeficiente de semPC?
Avaliação de políticas
Qual efeito de um programa econômico ou
social sobre os indivíduos, empresas, etc...
Dois grupos de estudo:
Dois grupos de estudo:
Grupo de controle: não participa do programa Grupo de tratamento: participa do programa
Escolha dos grupos de controle e tratamento
não é aleatória.
Avaliação de políticas
Definição do grupo de controle e
tratamento:
Grupo de Tratamento: pessoas (do público- alvo)
que serão atendidas pelo projeto. que serão atendidas pelo projeto.
Grupo de Controle: pessoas com características
similares, mas que não serão atendidas pelo projeto.
Banco de dados. JTRAIN.GDT
Efeitos da concessão de subsídios sobre as
horas de treinamento
Dados de 1988 indústrias de Michigan
hrsemp: horas de treinamento por empregado
no nível da empresa.
Variável dependente na forma log
Regressão dos preços dos imóveis
Banco de dados Hprice1.gdt
Dummy colonial: igual a 1 se o imóvel tiver
estilo colonial. Qual a sua interpretação?
Reestimar o exemplo 2
Use log(salário hora)
Inclua termos quadráticos para experiência
e tempo de permanência.
e tempo de permanência.
Quanto as mulheres ganham a menos que
os homens?
Qual a diferença percentual exata entre
homens e mulheres?
Reestimar o exemplo 2
)
297
,
0
exp(
/
)
297
,
0
exp(
))
/
exp(log(
297
,
0
)
/
log(
297
,
0
)
log(
)
log(
−
=
−
=
−
=
−
=
−
salarioh
salariom
salarioh
salariom
salarioh
salariom
salarioh
salariom
257
,
0
1
)
297
,
0
exp(
1
)
297
,
0
exp(
/
−
=
−
−
=
−
−
=
−
−
=
salarioh
salarioh
salariom
salarioh
salariom
salarioh
salarioh
salariom
salarioh
salariom
Dummies
para múltiplas
categorias
Suponha que seus dados sejam sobre pessoas que trabalham nos setores primário, secundário e
terciário da economia.
Para compará-los, inclua 2 variáveis dummies: Para compará-los, inclua 2 variáveis dummies: prim = 1 se a pessoa trabalha no setor primário e = 0 caso contrário; e sec = 1 se ela trabalha no setor secundário e = 0 caso contrário.
Dummies
para múltiplas
categorias
Suponha que seus dados sejam sobre pessoas que trabalham nos setores primário, secundário e
terciário da economia.
Para compará-los, inclua 2 variáveis dummies: Para compará-los, inclua 2 variáveis dummies: prim = 1 se a pessoa trabalha no setor primário e = 0 caso contrário; e sec = 1 se ela trabalha no setor secundário e = 0 caso contrário.
Categorias múltiplas (cont.)
Qualquer variável expressa em categorias
pode ser transformada em uma variável
dummy.
Como o caso base é representado pelo
Como o caso base é representado pelo
intercepto, se há n categorias, devem haver
n
– 1 dummies.
Se há muitas categorias, pode-se agrupar
algumas delas.
Exemplo: Equação do log salário hora
Modelo que considere as diferenças
salariais entre quatro grupos:
Homens casados (marrmale)
Homens solteiros (grupo base)
Homens solteiros (grupo base) Mulheres casadas (marrfem) Mulheres solteiras (singfem)
O “prêmio” por ser casado não é o mesmo
para homens e mulheres!!!
Exemplo: Equação do log salário
hora
Lembre do grupo base!!!!
As estimativas das três variáveis medem a diferença
Exemplo: Equação do log salário hora
Os homens casados ganham cerca de 21,3% mais que os homens solteiros.
Uma mulher casada deve ganhar 19,8% a menos que um homem solteiro.
que um homem solteiro.
Diferença proporcional estimada entre as
mulheres solteiras e as casadas é (-0,110-(-0,198)) = 0,088.
Mulheres solteiras ganham 8,8% a mais que as mulheres casadas.
Interação entre dummies
Interagir dummies é como subdividir o grupo. Exemplo: ter dummies para homens assim como para prim e sec.
Adicione homem*prim e homem*sec, para um total de 5 dummies e 6 categorias.
total de 5 dummies e 6 categorias. O caso base é: mulher no terciário.
prim é para mulheres no setor primário e sec é para mulheres no setor secundário.
As interações refletem homens no primário e homens no secundário.
Mais sobre dummies de interação
Formalmente, o modelo é y =
β
0 +δ
1homem +δ
2prim +δ
3sec +δ
4homem*prim +δ
5homem*sec +β
1x + u. Então, por exemplo:Se homem = 0, prim = 0 e sec = 0:
y =
β
+β
x + u y =β
0 +β
1x + uSe homem = 0, prim = 1 e sec = 0:
y =
β
0 +δ
2prim +β
1x + uSe homem = 1, prim = 0 e sec = 1:
y =
β
0 +δ
1homem +δ
3prim +δ
5homem*sec +Exemplo:
Outra forma de encontramos diferencias de
salário entre homens casados, homens solteiros, mulheres casadas e mulheres solteiras.
Outras interações com dummies
Podemos também interagir uma dummy, d,
com uma variável contínua, x:
y =
β
0+
δ
1d +
β
1x +
δ
2d*x + u.
y =
β
0+
δ
1d +
β
1x +
δ
2d*x + u.
Se d = 0, então y =
β
0+
β
1x + u.
Se d = 1, então y = (
β
0+
δ
1) + (
β
1+
δ
2) x +
u.
y
y =
β
0+
β
1x
Exemplo de δ
0
> 0 e δ
1
< 0
d
= 0
x
y =
(
β
0+
δ
0) + (
β
1+
δ
1) x
d
= 1
Exemplo:
Queremos verificar se o retorno da educação é o mesmo para homens e mulheres:
mede a diferença nos interceptos entre homens e mulheres
δ
ohomens e mulheres
mede a diferença no retorno da educação entre homens e mulheres.1
δ
• O retorno estimado da educação dos homens é 8,2%.
• Para as mulheres, o retorno é 0,082-0,0056 = 0,0764 (7,6%). • Esta diferença de retorno é pouco significativa. Logo, não
podemos rejeitar a hipótese nula de que o retorno para homens e mulheres é igual.
Teste para diferenças entre
grupos
Testar se uma função de regressão é diferente para um grupo em relação a outro pode ser
pensado simplesmente como um teste para a
significância conjunta da dummy e suas interações com todas as outras variáveis x.
com todas as outras variáveis x.
A hipótese nula é que os modelos não são diferentes para os grupos.
Então, estimam-se os modelos com e sem todas as interações e calcula-se a estatística F.
Mas quando há muitas interações, há um procedimento mais fácil.
Teste para diferenças entre
grupos
Suponha que temos dois grupos e queremos testar se interceptos e inclinações são diferentes para estes dois grupos:
u
x
x
x
x
y
=
β
g,0+
β
g,1.
1+
β
g,2.
2+
β
g,3.
3
+
...
+
β
g,k.
k+
Temos k+1 restrições.O teste de Chow
É possível calcular a estatística F sem estimarmos o modelo irrestrito completo.
Estima-se o SQR do modelo irrestrito, estimando o modelo para cada grupo: obtenha a SQR1;
depois, faça o mesmo para o outro grupo e depois, faça o mesmo para o outro grupo e obtenha a SQR2:
Estima-se o modelo restrito considerando todos os grupos juntos e obtenha a SQR. Então:
(
)
[
]
[
(
)
]
1
1
2
2 1 2 1+
+
−
+
+
−
=
k
k
n
SQR
SQR
SQR
SQR
SQR
F
O teste de Chow (cont.)
O teste de Chow é apenas um teste F usual de exclusão de variáveis, se você observar que SQRir = SQR1 + SQR2.
Observe que há k + 1 restrições (cada uma das Observe que há k + 1 restrições (cada uma das inclinações e o intercepto).
Observe que o modelo irrestrito estimaria dois diferentes interceptos e duas inclinações
diferentes, logo temos n – 2k – 2 graus de liberdade no denominador.