• Nenhum resultado encontrado

Vari´ aveis Qualitativas com 2 Classes

No documento Notas de Aula Modelos Lineares I - GET00138 (páginas 66-70)

3.2 Inclus˜ ao de Vari´ aveis Qualitativas

3.2.1 Vari´ aveis Qualitativas com 2 Classes

Primeiro vejamos o caso mais simples, onde a vari´avel qualitativa possui apenas duas classes. Por exemplo, suponha que o interesse seja explicar o ´ındice de satisfa¸c˜ao dos funcion´arios de uma empresa (y) a partir do lucro dessa empresa (x1). Para realizar esse

estudo foram coletadas informa¸c˜oes referentes a empresas tanto do Rio quanto de S˜ao Paulo. Se ajustarmos os dados para o modelo simples

yi = β0+ β1xi,1+ εi

estamos assumindo que o ´ındice m´edio de satisfa¸c˜ao dos funcion´arios de uma empresa depende apenas do lucro dessa empresa e n˜ao da sua cidade. Mas ser´a que, em m´edia, o ´ındice de satisfa¸c˜ao de empresas com mesmo lucro, sendo uma no Rio e a outra em SP, ´e o mesmo? Talvez a vari´avel cidade seja uma vari´avel importante e devesse ser incorporada ao modelo.

Para incorporar uma vari´avel qualitativa no modelo de regress˜ao linear vamos utili- zar vari´aveis indicadoras, tamb´em chamadas de dummy ou bin´arias. Nesse caso, como a vari´avel qualitativa cidade tem apenas duas classes ser´a criada apenas uma vari´avel indicadora, definida por:

x2 =

 1 , se RJ 0 , se SP.

O modelo com essa nova vari´avel passa a ser definido por:

yi = β0 + β1xi,1+ β2xi,2+ εi (3.2)

Vejamos alguns coment´arios importantes:

• N˜ao devemos criar uma vari´avel indicadoras para cada classe. Se fizermos isso a matriz (XTX) n˜ao ser´a invers´ıvel e por isso n˜ao teremos estimadores para β por m´ınimos quadrados. Vamos criar apenas uma nova vari´avel indicadora, que representa as duas classes ao mesmo tempo.

• Veja que a matriz X para o modelo com x1 e x2 ter´a a ´ultima coluna com entradas

iguais a 0’s ou 1’s.

Interpreta¸c˜ao dos Parˆametros

Para interpretar os parˆametros desse modelo vamos continuar com o exemplo citado acima, onde y indica um ´ındice de satisfa¸c˜ao dos funcion´arios de uma empresa, x1 o lucro

dessa empresa (medido em milh˜oes de reais) e x2 a vari´avel que indica se a empresa ´e do

Rio de Janeiro ou de S˜ao Paulo. Suponha que 30 empresas tenham sido avaliadas e os valores de y e x1 para essas empresas sejam os apresentados na Figura 3.1(a).

(a) Gr´afico de Dispers˜ao (b) Reta de Regress˜ao Estimada

Figura 3.1: Ajuste sem incluir a vari´avel x2 que define a cidade

Se ajustarmos um modelo de regress˜ao linear simples considerando apenas a vari´avel x1, a fun¸c˜ao de regress˜ao ser´a E[yi] = β0+ β1xi,1 e os parˆametros tˆem as interpreta¸c˜oes

j´a conhecidas: β0 representa a m´edia do ´ındice de satisfa¸c˜ao de funcion´arios em empresas

com lucro zero e β1 a quantidade que esse ´ındice cresce (ou decresce) quando o lucro da

empresa cresce em 1 milh˜ao de reais. Nesse caso a nossa reta de regress˜ao estimada seria como na Figura 3.1(b).

Depois de uma observa¸c˜ao mais detalhada percebemos que a vari´avel cidade parece importante na descri¸c˜ao do ´ındice de satisfa¸c˜ao, veja o gr´afico de dispers˜ao da Figura 3.2(a), onde as empresas do Rio de Janeiro s˜ao representadas pelas bolinhas cheias e as empresas de S˜ao Paulo pelas bolinhas vazias. Baseado nesse gr´afico decidimos ent˜ao incorporar ao modelo a vari´avel cidade e isso ser´a feito a partir da cria¸c˜ao de uma vari´avel indicadora x2, como definida anteriormente. Ent˜ao o modelo de regress˜ao linear adotado

´

e aquele definido na Equa¸c˜ao 3.2 e a fun¸c˜ao de regress˜ao ser´a E[yi] = β0+ β1xi,1+ β2xi,2.

Para melhor interpretar os parˆametros desse modelo vamos separ´a-lo em dois casos: primeiro considerando x2 = 0, empresas de S˜ao Paulo; e depois x2 = 1, empresas no Rio

de Janeiro. A fun¸c˜ao de regress˜ao para as empresas de S˜ao Paulo ´e definida por E[yi] = β0+ β1xi,1,

uma vez que nesse caso x2 = 0. Ent˜ao β0 representa a m´edia do ´ındice de satisfa¸c˜ao

dos funcion´arios de empresas localizadas na cidade de S˜ao Paulo com lucro zero e β1

representa o acr´escimo (ou decr´escimo) na m´edia do ´ındice de satisfa¸c˜ao dos funcion´ario quanto o lucro da empresa de S˜ao Paulo aumenta em 1 milh˜ao de reais.

Vejamos agora para as empresas do Rio de Janeiro. Para essas empresas a fun¸c˜ao de regress˜ao ser´a definida por:

E[yi] = β0+ β1xi,1+ β2 = (β0+ β2) + β1xi,1,

uma vez que nesse caso x2 = 1. Veja que para as empresas do Rio de Janeiro a m´edia

do ´ındice de satisfa¸c˜ao dos funcion´arios quando a empresa tem lucro zero ´e representado por β0 + β2 e, assim como em S˜ao Paulo, β1 representa o acr´escimo (ou decr´escimo) na

m´edia do ´ındice de satisfa¸c˜ao dos funcion´arios quanto o lucro da empresa aumenta em 1 milh˜ao de reais.

Para esse exemplo a fun¸c˜ao de regress˜ao estimada ser´a representada por duas retas, uma para as empresas o Rio de Janeiro e outra para as de S˜ao Paulo. Ambas encontram- se na Figura 3.2(b). Veja que a partir desse gr´afico ´e poss´ıvel afirmar que ˆβ2 > 0, uma vez

que a reta referente `as empresas do Rio de Janeiro encontra-se acima da reta referente `as empresas de S˜ao Paulo.

(a) Gr´afico de Dispers˜ao (b) Reta de Regress˜ao Estimada

Figura 3.2: Ajuste incluindo a vari´avel x2 que define a cidade

Assim conclu´ımos que o modelo definido pela Equa¸c˜ao 3.2 considera um comporta- mento diferente entre as empresas do Rio de Janeiro e S˜ao Paulo, mas essa diferen¸ca ´e apenas no ´ındice m´edio quando o lucro ´e zero. Nesse modelo a taxa na mudan¸ca do ´ındice de satisfa¸c˜ao dos funcion´arios (β1) ´e a mesma para as empresas nas duas cidades.

Modelo com o Termo Cruzado

Continuando ainda com o exemplo em que y indica um ´ındice de satisfa¸c˜ao dos funcio- n´arios de uma empresa, x1 o lucro e x2 a cidade, podemos perceber, observando a Figura

3.2(a), que a taxa de crescimento ´e diferente para as empresas do Rio de Janeiro e de S˜ao Paulo. Aparentemente o aumento de 1 milh˜ao de reais no lucro das empresas gera um aumento maior no ´ındice de satisfa¸c˜ao dos funcion´arios do Rio de Janeiro do que em S˜ao Paulo.

Para incorporar essa diferen¸ca no modelo de regress˜ao linear podemos optar pela inclus˜ao do termo cruzado x1x2e definir um novo modelo com mais uma vari´avel preditiva:

yi = β0+ β1xi,1+ β2xi,2+ β3xi,1xi,2+ εi. (3.3)

A interpreta¸c˜ao de cada parˆametro para esse novo modelo ser´a feita novamente se- parando os casos x2 = 0 e x2 = 1. Considerando o modelo definido na Equa¸c˜ao 3.3, a

fun¸c˜ao de regress˜ao para as empresas de S˜ao Paulo continuar´a sendo E[yi] = β0+ β1xi,1,

j´a a fun¸c˜ao de regress˜ao para as empresas do Rio de Janeiro ser´a

E[yi] = β0+ β1xi,1+ β2+ β3xi,1 = (β0+ β2) + (β1+ β3) xi,1.

Veja que agora as fun¸c˜oes de regress˜ao para cada uma das duas cidades se diferem n˜ao somente no coeficiente linear como tamb´em no coeficiente angular. Isso significa que para esse novo modelo o ´ındice de satisfa¸c˜ao m´edio dos funcion´arios em empresas com lucro zero s˜ao diferentes para empresas de diferentes cidades: β0 para as empresas de S˜ao Paulo

e β0+β2 para as empresas do Rio de Janeiro. Al´em disso o novo modelo tamb´em considera

m´edia do ´ındice de satisfa¸c˜ao dos funcion´arios para empresas de diferentes cidades: β1

para as empresas de S˜ao Paulo e β1+ β3 para as empresas do Rio de Janeiro.

A fun¸c˜ao de regress˜ao estimada continua sendo representada por duas retas, mas agora estas retas n˜ao s˜ao paralelas como no caso anterior. A Figura 3.3(b) apresenta o ajuste dos dados para o modelo da Equa¸c˜ao 3.3.

(a) Gr´afico de Dispers˜ao (b) Reta de Regress˜ao Estimada

Figura 3.3: Ajuste incluindo a vari´avel x2 e o termo cruzado x1x2.

A partir do gr´afico da Figura 3.3(b) ´e poss´ıvel concluir que o ajuste dos dados para o modelo apresentado na Equa¸c˜ao 3.3 gerou ˆβ2 < 0, pois quando x = 0 a reta referente `as

empresas do Rio de Janeiro encontra-se abaixo da reta de S˜ao Paulo. Al´em disso tamb´em podemos afirmar que para esse ajuste ˆβ3 > 0, uma vez que a reta referente `as empresas

do Rio de Janeiro ´e mais inclinada que a reta de S˜ao Paulo.

A Figura 3.4 resume a diferen¸ca entre os dois modelos: o apresentado na Equa¸c˜ao 3.2, sem o termo cruzado, e o apresentado na Equa¸c˜ao 3.3, com o termo cruzado.

(a) Modelo sem o termo cruzado (b) Modelo com o termo cruzado

Figura 3.4: Compara¸c˜ao entro os modelos com e sem o termo cruzado.

A escolha de qual dos dois modelos usar depende se queremos ou n˜ao diferenciar o coeficiente angular das duas retas de regress˜ao. Em geral iniciamos com o modelo completo (Equa¸c˜ao 3.3) e depois realizamos o teste t para testar se H0 : β3 = 0 contra

H1 : β3 6= 0. Se a conclus˜ao do teste for rejeitar H0 ficamos com o modelo completo. Se a

conclus˜ao for aceitar H0 ficamos com o modelo simplificado (Equa¸c˜ao 3.2). Veremos esse

No documento Notas de Aula Modelos Lineares I - GET00138 (páginas 66-70)