Vari´ aveis Qualitativas com 2 Classes - Inclus˜ ao de Vari´ aveis Qualitativas

3.2 Inclus˜ ao de Vari´ aveis Qualitativas

3.2.1 Vari´ aveis Qualitativas com 2 Classes

Primeiro vejamos o caso mais simples, onde a variável qualitativa possui apenas duas classes. Por exemplo, suponha que o interesse seja explicar o ´ındice de satisfa¸cão dos funcionários de uma empresa (y) a partir do lucro dessa empresa (x1). Para realizar esse

estudo foram coletadas informa¸c˜oes referentes a empresas tanto do Rio quanto de S˜ao Paulo. Se ajustarmos os dados para o modelo simples

yi = β0+ β1xi,1+ εi

estamos assumindo que o ´ındice médio de satisfa¸cão dos funcionários de uma empresa depende apenas do lucro dessa empresa e não da sua cidade. Mas será que, em média, o ´ındice de satisfa¸cão de empresas com mesmo lucro, sendo uma no Rio e a outra em SP, é o mesmo? Talvez a variável cidade seja uma variável importante e devesse ser incorporada ao modelo.

Para incorporar uma variável qualitativa no modelo de regressão linear vamos utili- zar variáveis indicadoras, também chamadas de dummy ou binárias. Nesse caso, como a variável qualitativa cidade tem apenas duas classes será criada apenas uma variável indicadora, definida por:

x2 =

1 , se RJ 0 , se SP.

O modelo com essa nova vari´avel passa a ser definido por:

yi = β0 + β1xi,1+ β2xi,2+ εi (3.2)

Vejamos alguns coment´arios importantes:

• Não devemos criar uma variável indicadoras para cada classe. Se fizermos isso a matriz (XTX) não será invers´ıvel e por isso não teremos estimadores para β por m´ınimos quadrados. Vamos criar apenas uma nova variável indicadora, que representa as duas classes ao mesmo tempo.

• Veja que a matriz X para o modelo com x1 e x2 ter´a a ´ultima coluna com entradas

iguais a 0’s ou 1’s.

Interpreta¸c˜ao dos Parˆametros

Para interpretar os parâmetros desse modelo vamos continuar com o exemplo citado acima, onde y indica um ´ındice de satisfa¸cão dos funcionários de uma empresa, x1 o lucro

dessa empresa (medido em milhões de reais) e x2 a variável que indica se a empresa é do

Rio de Janeiro ou de S˜ao Paulo. Suponha que 30 empresas tenham sido avaliadas e os valores de y e x1 para essas empresas sejam os apresentados na Figura 3.1(a).

(a) Gráfico de Dispersão (b) Reta de Regressão Estimada

Figura 3.1: Ajuste sem incluir a vari´avel x2 que define a cidade

Se ajustarmos um modelo de regressão linear simples considerando apenas a variável x1, a fun¸cão de regressão será E[yi] = β0+ β1xi,1 e os parâmetros têm as interpreta¸cões

já conhecidas: β0 representa a média do ´ındice de satisfa¸cão de funcionários em empresas

com lucro zero e β1 a quantidade que esse ´ındice cresce (ou decresce) quando o lucro da

empresa cresce em 1 milh˜ao de reais. Nesse caso a nossa reta de regress˜ao estimada seria como na Figura 3.1(b).

Depois de uma observa¸cão mais detalhada percebemos que a variável cidade parece importante na descri¸cão do ´ındice de satisfa¸cão, veja o gráfico de dispersão da Figura 3.2(a), onde as empresas do Rio de Janeiro são representadas pelas bolinhas cheias e as empresas de São Paulo pelas bolinhas vazias. Baseado nesse gráfico decidimos então incorporar ao modelo a variável cidade e isso será feito a partir da cria¸cão de uma variável indicadora x2, como definida anteriormente. Então o modelo de regressão linear adotado

e aquele definido na Equa¸cão 3.2 e a fun¸cão de regressão será E[yi] = β0+ β1xi,1+ β2xi,2.

Para melhor interpretar os parâmetros desse modelo vamos separá-lo em dois casos: primeiro considerando x2 = 0, empresas de São Paulo; e depois x2 = 1, empresas no Rio

de Janeiro. A fun¸cão de regressão para as empresas de São Paulo é definida por E[yi] = β0+ β1xi,1,

uma vez que nesse caso x2 = 0. Então β0 representa a média do ´ındice de satisfa¸cão

dos funcion´arios de empresas localizadas na cidade de S˜ao Paulo com lucro zero e β1

representa o acréscimo (ou decréscimo) na média do ´ındice de satisfa¸cão dos funcionário quanto o lucro da empresa de São Paulo aumenta em 1 milhão de reais.

Vejamos agora para as empresas do Rio de Janeiro. Para essas empresas a fun¸cão de regressão será definida por:

E[yi] = β0+ β1xi,1+ β2 = (β0+ β2) + β1xi,1,

uma vez que nesse caso x2 = 1. Veja que para as empresas do Rio de Janeiro a m´edia

do ´ındice de satisfa¸cão dos funcionários quando a empresa tem lucro zero é representado por β0 + β2 e, assim como em São Paulo, β1 representa o acréscimo (ou decréscimo) na

média do ´ındice de satisfa¸cão dos funcionários quanto o lucro da empresa aumenta em 1 milhão de reais.

Para esse exemplo a fun¸cão de regressão estimada será representada por duas retas, uma para as empresas o Rio de Janeiro e outra para as de São Paulo. Ambas encontram- se na Figura 3.2(b). Veja que a partir desse gráfico é poss´ıvel afirmar que ˆβ2 > 0, uma vez

que a reta referente às empresas do Rio de Janeiro encontra-se acima da reta referente às empresas de São Paulo.

(a) Gráfico de Dispersão (b) Reta de Regressão Estimada

Figura 3.2: Ajuste incluindo a vari´avel x2 que define a cidade

Assim conclu´ımos que o modelo definido pela Equa¸cão 3.2 considera um comporta- mento diferente entre as empresas do Rio de Janeiro e São Paulo, mas essa diferen¸ca é apenas no ´ındice médio quando o lucro é zero. Nesse modelo a taxa na mudan¸ca do ´ındice de satisfa¸cão dos funcionários (β1) é a mesma para as empresas nas duas cidades.

Modelo com o Termo Cruzado

Continuando ainda com o exemplo em que y indica um ´ındice de satisfa¸c˜ao dos funcio- n´arios de uma empresa, x1 o lucro e x2 a cidade, podemos perceber, observando a Figura

3.2(a), que a taxa de crescimento é diferente para as empresas do Rio de Janeiro e de São Paulo. Aparentemente o aumento de 1 milhão de reais no lucro das empresas gera um aumento maior no ´ındice de satisfa¸cão dos funcionários do Rio de Janeiro do que em São Paulo.

Para incorporar essa diferen¸ca no modelo de regressão linear podemos optar pela inclusão do termo cruzado x1x2e definir um novo modelo com mais uma variável preditiva:

yi = β0+ β1xi,1+ β2xi,2+ β3xi,1xi,2+ εi. (3.3)

A interpreta¸cão de cada parâmetro para esse novo modelo será feita novamente se- parando os casos x2 = 0 e x2 = 1. Considerando o modelo definido na Equa¸cão 3.3, a

fun¸cão de regressão para as empresas de São Paulo continuará sendo E[yi] = β0+ β1xi,1,

já a fun¸cão de regressão para as empresas do Rio de Janeiro será

E[yi] = β0+ β1xi,1+ β2+ β3xi,1 = (β0+ β2) + (β1+ β3) xi,1.

Veja que agora as fun¸cões de regressão para cada uma das duas cidades se diferem não somente no coeficiente linear como também no coeficiente angular. Isso significa que para esse novo modelo o ´ındice de satisfa¸cão médio dos funcionários em empresas com lucro zero são diferentes para empresas de diferentes cidades: β0 para as empresas de São Paulo

e β0+β2 para as empresas do Rio de Janeiro. Al´em disso o novo modelo tamb´em considera

média do ´ındice de satisfa¸cão dos funcionários para empresas de diferentes cidades: β1

para as empresas de S˜ao Paulo e β1+ β3 para as empresas do Rio de Janeiro.

A fun¸cão de regressão estimada continua sendo representada por duas retas, mas agora estas retas não são paralelas como no caso anterior. A Figura 3.3(b) apresenta o ajuste dos dados para o modelo da Equa¸cão 3.3.

(a) Gráfico de Dispersão (b) Reta de Regressão Estimada

Figura 3.3: Ajuste incluindo a vari´avel x2 e o termo cruzado x1x2.

A partir do gráfico da Figura 3.3(b) é poss´ıvel concluir que o ajuste dos dados para o modelo apresentado na Equa¸cão 3.3 gerou ˆβ2 < 0, pois quando x = 0 a reta referente às

empresas do Rio de Janeiro encontra-se abaixo da reta de São Paulo. Além disso também podemos afirmar que para esse ajuste ˆβ3 > 0, uma vez que a reta referente às empresas

do Rio de Janeiro ´e mais inclinada que a reta de S˜ao Paulo.

A Figura 3.4 resume a diferen¸ca entre os dois modelos: o apresentado na Equa¸c˜ao 3.2, sem o termo cruzado, e o apresentado na Equa¸c˜ao 3.3, com o termo cruzado.

(a) Modelo sem o termo cruzado (b) Modelo com o termo cruzado

Figura 3.4: Compara¸c˜ao entro os modelos com e sem o termo cruzado.

A escolha de qual dos dois modelos usar depende se queremos ou não diferenciar o coeficiente angular das duas retas de regressão. Em geral iniciamos com o modelo completo (Equa¸cão 3.3) e depois realizamos o teste t para testar se H0 : β3 = 0 contra

H1 : β3 6= 0. Se a conclus˜ao do teste for rejeitar H0 ficamos com o modelo completo. Se a

conclus˜ao for aceitar H0 ficamos com o modelo simplificado (Equa¸c˜ao 3.2). Veremos esse

No documento Notas de Aula Modelos Lineares I - GET00138 (páginas 66-70)