3.2 Inclus˜ ao de Vari´ aveis Qualitativas
3.2.1 Vari´ aveis Qualitativas com 2 Classes
Primeiro vejamos o caso mais simples, onde a vari´avel qualitativa possui apenas duas classes. Por exemplo, suponha que o interesse seja explicar o ´ındice de satisfa¸c˜ao dos funcion´arios de uma empresa (y) a partir do lucro dessa empresa (x1). Para realizar esse
estudo foram coletadas informa¸c˜oes referentes a empresas tanto do Rio quanto de S˜ao Paulo. Se ajustarmos os dados para o modelo simples
yi = β0+ β1xi,1+ εi
estamos assumindo que o ´ındice m´edio de satisfa¸c˜ao dos funcion´arios de uma empresa depende apenas do lucro dessa empresa e n˜ao da sua cidade. Mas ser´a que, em m´edia, o ´ındice de satisfa¸c˜ao de empresas com mesmo lucro, sendo uma no Rio e a outra em SP, ´e o mesmo? Talvez a vari´avel cidade seja uma vari´avel importante e devesse ser incorporada ao modelo.
Para incorporar uma vari´avel qualitativa no modelo de regress˜ao linear vamos utili- zar vari´aveis indicadoras, tamb´em chamadas de dummy ou bin´arias. Nesse caso, como a vari´avel qualitativa cidade tem apenas duas classes ser´a criada apenas uma vari´avel indicadora, definida por:
x2 =
1 , se RJ 0 , se SP.
O modelo com essa nova vari´avel passa a ser definido por:
yi = β0 + β1xi,1+ β2xi,2+ εi (3.2)
Vejamos alguns coment´arios importantes:
• N˜ao devemos criar uma vari´avel indicadoras para cada classe. Se fizermos isso a matriz (XTX) n˜ao ser´a invers´ıvel e por isso n˜ao teremos estimadores para β por m´ınimos quadrados. Vamos criar apenas uma nova vari´avel indicadora, que representa as duas classes ao mesmo tempo.
• Veja que a matriz X para o modelo com x1 e x2 ter´a a ´ultima coluna com entradas
iguais a 0’s ou 1’s.
Interpreta¸c˜ao dos Parˆametros
Para interpretar os parˆametros desse modelo vamos continuar com o exemplo citado acima, onde y indica um ´ındice de satisfa¸c˜ao dos funcion´arios de uma empresa, x1 o lucro
dessa empresa (medido em milh˜oes de reais) e x2 a vari´avel que indica se a empresa ´e do
Rio de Janeiro ou de S˜ao Paulo. Suponha que 30 empresas tenham sido avaliadas e os valores de y e x1 para essas empresas sejam os apresentados na Figura 3.1(a).
(a) Gr´afico de Dispers˜ao (b) Reta de Regress˜ao Estimada
Figura 3.1: Ajuste sem incluir a vari´avel x2 que define a cidade
Se ajustarmos um modelo de regress˜ao linear simples considerando apenas a vari´avel x1, a fun¸c˜ao de regress˜ao ser´a E[yi] = β0+ β1xi,1 e os parˆametros tˆem as interpreta¸c˜oes
j´a conhecidas: β0 representa a m´edia do ´ındice de satisfa¸c˜ao de funcion´arios em empresas
com lucro zero e β1 a quantidade que esse ´ındice cresce (ou decresce) quando o lucro da
empresa cresce em 1 milh˜ao de reais. Nesse caso a nossa reta de regress˜ao estimada seria como na Figura 3.1(b).
Depois de uma observa¸c˜ao mais detalhada percebemos que a vari´avel cidade parece importante na descri¸c˜ao do ´ındice de satisfa¸c˜ao, veja o gr´afico de dispers˜ao da Figura 3.2(a), onde as empresas do Rio de Janeiro s˜ao representadas pelas bolinhas cheias e as empresas de S˜ao Paulo pelas bolinhas vazias. Baseado nesse gr´afico decidimos ent˜ao incorporar ao modelo a vari´avel cidade e isso ser´a feito a partir da cria¸c˜ao de uma vari´avel indicadora x2, como definida anteriormente. Ent˜ao o modelo de regress˜ao linear adotado
´
e aquele definido na Equa¸c˜ao 3.2 e a fun¸c˜ao de regress˜ao ser´a E[yi] = β0+ β1xi,1+ β2xi,2.
Para melhor interpretar os parˆametros desse modelo vamos separ´a-lo em dois casos: primeiro considerando x2 = 0, empresas de S˜ao Paulo; e depois x2 = 1, empresas no Rio
de Janeiro. A fun¸c˜ao de regress˜ao para as empresas de S˜ao Paulo ´e definida por E[yi] = β0+ β1xi,1,
uma vez que nesse caso x2 = 0. Ent˜ao β0 representa a m´edia do ´ındice de satisfa¸c˜ao
dos funcion´arios de empresas localizadas na cidade de S˜ao Paulo com lucro zero e β1
representa o acr´escimo (ou decr´escimo) na m´edia do ´ındice de satisfa¸c˜ao dos funcion´ario quanto o lucro da empresa de S˜ao Paulo aumenta em 1 milh˜ao de reais.
Vejamos agora para as empresas do Rio de Janeiro. Para essas empresas a fun¸c˜ao de regress˜ao ser´a definida por:
E[yi] = β0+ β1xi,1+ β2 = (β0+ β2) + β1xi,1,
uma vez que nesse caso x2 = 1. Veja que para as empresas do Rio de Janeiro a m´edia
do ´ındice de satisfa¸c˜ao dos funcion´arios quando a empresa tem lucro zero ´e representado por β0 + β2 e, assim como em S˜ao Paulo, β1 representa o acr´escimo (ou decr´escimo) na
m´edia do ´ındice de satisfa¸c˜ao dos funcion´arios quanto o lucro da empresa aumenta em 1 milh˜ao de reais.
Para esse exemplo a fun¸c˜ao de regress˜ao estimada ser´a representada por duas retas, uma para as empresas o Rio de Janeiro e outra para as de S˜ao Paulo. Ambas encontram- se na Figura 3.2(b). Veja que a partir desse gr´afico ´e poss´ıvel afirmar que ˆβ2 > 0, uma vez
que a reta referente `as empresas do Rio de Janeiro encontra-se acima da reta referente `as empresas de S˜ao Paulo.
(a) Gr´afico de Dispers˜ao (b) Reta de Regress˜ao Estimada
Figura 3.2: Ajuste incluindo a vari´avel x2 que define a cidade
Assim conclu´ımos que o modelo definido pela Equa¸c˜ao 3.2 considera um comporta- mento diferente entre as empresas do Rio de Janeiro e S˜ao Paulo, mas essa diferen¸ca ´e apenas no ´ındice m´edio quando o lucro ´e zero. Nesse modelo a taxa na mudan¸ca do ´ındice de satisfa¸c˜ao dos funcion´arios (β1) ´e a mesma para as empresas nas duas cidades.
Modelo com o Termo Cruzado
Continuando ainda com o exemplo em que y indica um ´ındice de satisfa¸c˜ao dos funcio- n´arios de uma empresa, x1 o lucro e x2 a cidade, podemos perceber, observando a Figura
3.2(a), que a taxa de crescimento ´e diferente para as empresas do Rio de Janeiro e de S˜ao Paulo. Aparentemente o aumento de 1 milh˜ao de reais no lucro das empresas gera um aumento maior no ´ındice de satisfa¸c˜ao dos funcion´arios do Rio de Janeiro do que em S˜ao Paulo.
Para incorporar essa diferen¸ca no modelo de regress˜ao linear podemos optar pela inclus˜ao do termo cruzado x1x2e definir um novo modelo com mais uma vari´avel preditiva:
yi = β0+ β1xi,1+ β2xi,2+ β3xi,1xi,2+ εi. (3.3)
A interpreta¸c˜ao de cada parˆametro para esse novo modelo ser´a feita novamente se- parando os casos x2 = 0 e x2 = 1. Considerando o modelo definido na Equa¸c˜ao 3.3, a
fun¸c˜ao de regress˜ao para as empresas de S˜ao Paulo continuar´a sendo E[yi] = β0+ β1xi,1,
j´a a fun¸c˜ao de regress˜ao para as empresas do Rio de Janeiro ser´a
E[yi] = β0+ β1xi,1+ β2+ β3xi,1 = (β0+ β2) + (β1+ β3) xi,1.
Veja que agora as fun¸c˜oes de regress˜ao para cada uma das duas cidades se diferem n˜ao somente no coeficiente linear como tamb´em no coeficiente angular. Isso significa que para esse novo modelo o ´ındice de satisfa¸c˜ao m´edio dos funcion´arios em empresas com lucro zero s˜ao diferentes para empresas de diferentes cidades: β0 para as empresas de S˜ao Paulo
e β0+β2 para as empresas do Rio de Janeiro. Al´em disso o novo modelo tamb´em considera
m´edia do ´ındice de satisfa¸c˜ao dos funcion´arios para empresas de diferentes cidades: β1
para as empresas de S˜ao Paulo e β1+ β3 para as empresas do Rio de Janeiro.
A fun¸c˜ao de regress˜ao estimada continua sendo representada por duas retas, mas agora estas retas n˜ao s˜ao paralelas como no caso anterior. A Figura 3.3(b) apresenta o ajuste dos dados para o modelo da Equa¸c˜ao 3.3.
(a) Gr´afico de Dispers˜ao (b) Reta de Regress˜ao Estimada
Figura 3.3: Ajuste incluindo a vari´avel x2 e o termo cruzado x1x2.
A partir do gr´afico da Figura 3.3(b) ´e poss´ıvel concluir que o ajuste dos dados para o modelo apresentado na Equa¸c˜ao 3.3 gerou ˆβ2 < 0, pois quando x = 0 a reta referente `as
empresas do Rio de Janeiro encontra-se abaixo da reta de S˜ao Paulo. Al´em disso tamb´em podemos afirmar que para esse ajuste ˆβ3 > 0, uma vez que a reta referente `as empresas
do Rio de Janeiro ´e mais inclinada que a reta de S˜ao Paulo.
A Figura 3.4 resume a diferen¸ca entre os dois modelos: o apresentado na Equa¸c˜ao 3.2, sem o termo cruzado, e o apresentado na Equa¸c˜ao 3.3, com o termo cruzado.
(a) Modelo sem o termo cruzado (b) Modelo com o termo cruzado
Figura 3.4: Compara¸c˜ao entro os modelos com e sem o termo cruzado.
A escolha de qual dos dois modelos usar depende se queremos ou n˜ao diferenciar o coeficiente angular das duas retas de regress˜ao. Em geral iniciamos com o modelo completo (Equa¸c˜ao 3.3) e depois realizamos o teste t para testar se H0 : β3 = 0 contra
H1 : β3 6= 0. Se a conclus˜ao do teste for rejeitar H0 ficamos com o modelo completo. Se a
conclus˜ao for aceitar H0 ficamos com o modelo simplificado (Equa¸c˜ao 3.2). Veremos esse