Ap´os realizar a an´alise de multicolinearidade devemos partir para a sele¸c˜ao do modelo, que consiste em selecionar quais vari´aveis preditivas far˜ao parte do nosso modelo de regress˜ao linear. A ideia principal da sele¸c˜ao do modelo ´e que as vari´aveis que agregam
informa¸c˜ao para o modelo devem ser inclu´ıdas e as vari´aveis que agregam pouca ou nenhuma informa¸c˜ao devem ser exclu´ıdas. Veremos dois m´etodos de sele¸c˜ao do modelo, o m´etodo da compara¸c˜ao entre todos os poss´ıveis modelos e o m´etodo da sele¸c˜ao passo- a-passo.
3.4.1
Compara¸c˜ao entre todos os modelos poss´ıveis
Uma maneira para fazer a sele¸c˜ao de quais vari´aveis deve ou n˜ao entrar no modelo de regress˜ao linear ´e a compara¸c˜ao entre todos os poss´ıveis modelos a partir da compara¸c˜ao das medidas de bom ajustamento de cada modelo. Algumas dessas medidas ser˜ao discuti- das a seguir, como por exemplo, o Coeficiente de Determina¸c˜ao Ajustado e a Informa¸c˜ao de Akaike.
Todos os modelos poss´ıveis s˜ao definidos por todas as poss´ıveis combina¸c˜oes das va- ri´aveis preditivas. Por exemplo, se temos trˆes vari´aveis preditivas, x1, x2 e x3, todos os
modelos poss´ıveis com essas vari´aveis s˜ao: yi = β0+ β1xi,1+ εi yi = β0+ β2xi,2+ εi yi = β0+ β3xi,3+ εi yi = β0+ β1xi,1+ β2xi,2+ εi yi = β0+ β1xi,1+ β3xi,3+ εi yi = β0+ β2xi,2+ β3xi,3+ εi
yi = β0+ β1xi,1+ β2xi,2+ β3xi,3+ εi
O principal problema desse m´etodo ´e que se tivermos muitas vari´aveis preditivas o n´umero de modelos poss´ıveis pode ser invi´avel de se comparar. Se temos N vari´aveis preditivas o n´umero de diferentes modelos poss´ıveis ser´a 2N − 1. Para o exemplo acima
como temos N = 3 vari´aveis preditivas o n´umero de poss´ıveis modelos ´e 23 − 1 = 7. Se tivermos 4 vari´aveis preditivas o n´umero de diferentes modelos ser´a 24 − 1 = 15 e se
N = 5 teremos 25 − 1 = 31. O crescimento ´e exponencial e r´apido chegamos em um
n´umero muito grande de poss´ıveis modelos para um n´umero n˜ao t˜ao grande de vari´aveis preditivas.
Mesmo com esse problema a compara¸c˜ao entre todos os poss´ıveis modelos ´e um cri- t´erio muito comum para sele¸c˜ao das vari´aveis. Nesse caso podemos usar como crit´erio de compara¸c˜ao algumas medidas de compara¸c˜ao, como por exemplo, o Coeficiente de De- termina¸c˜ao Ajustado e a Informa¸c˜ao de Akaike. Cada uma dessas medidas ser´a definida agora.
Uma recomenda¸c˜ao para melhor visualizar a compara¸c˜ao dessas medidas de compa- ra¸c˜ao ´e fazer o gr´afico da medida em quest˜ao versus o parˆametro p de cada modelo. Esse gr´afico vai permitir encontrar para cada valor do parˆametro p, ou seja, para cada n´umero de vari´aveis preditivas o melhor modelo de acordo com a medida.
Coeficiente de Determina¸c˜ao Ajustado J´a definimos o coeficiente de determina¸c˜ao R2 por
R2 = 1 − SSE SST O.
O problema de usar esse crit´erio como compara¸c˜ao entre todos os poss´ıveis modelos ´e que sempre termos o maior R2 no modelo com mais vari´aveis preditivas, uma vez que SSE
sempre diminui com a inclus˜ao de vari´aveis e SST O ´e o mesmo para todos os poss´ıveis modelos. Ent˜ao esse n˜ao ´e um crit´erio compara¸c˜ao.
Motivado por esse problema criou-se o Coeficiente de Determina¸c˜ao Ajustado, R2, que
leva em considera¸c˜ao n˜ao s´o o bom ajuste do modelo dentro da amostra como tamb´em o n´umero de vari´aveis preditivas no modelo. Esse novo coeficiente ´e definido por
R2a= 1 − (n − 1)SSE
(n − p)SST O (3.8)
Veja que a inclus˜ao de uma nova vari´avel reduz SSE mas reduz tamb´em n − p. Dessa forma para que o valor de R2
a cres¸ca com a inclus˜ao de uma nova vari´avel ´e preciso que
o SSE reduza significativamente a ponto da raz˜ao SSE/(n − p) reduzir com a inclus˜ao dessa nova vari´avel.
Dessa forma R2
a pode ser um crit´erio de compara¸c˜ao entre todos os poss´ıveis modelos
e o modelo escolhido sera aquele com maior R2a. Crit´erios da Informa¸c˜ao de Akaike
No Crit´erio da Informa¸c˜ao de Akaike o melhor modelo entre todos os poss´ıveis modelos ´
e escolhido a partir da medida AIC definida por:
AIC = n ln(SSE) − n ln(n) + 2p (3.9) Veja que quanto menor for SSE menor ser´a o valor de AIC. Al´em disso quanto menor for p, isto ´e, quanto menos vari´aveis preditivas tiver o modelo, menor ser´a o valor de AIC. Dessa forma queremos modelos com medida AIC pequena, uma vez que queremos modelos com poucas vari´aveis preditivas e com SSE pequeno.
A partir do crit´erio da Informa¸c˜ao de Akaike o modelo escolhido ser´a aquele com menor valor de AIC.
Crit´erios da Informa¸c˜ao Bayesiana
No Crit´erio da Informa¸c˜ao Bayesiana o melhor modelo entre todos os poss´ıveis modelos ´
e escolhido a partir da medida BIC definida por:
BIC = n ln(SSE) − n ln(n) + p ln(n) (3.10) Veja que assim como a medida AIC, quanto menor for SSE menor ser´a o valor de BIC e quanto menor for p menor ser´a o valor de BIC. Dessa forma tamb´em queremos modelos com medida BIC pequenas.
A partir do crit´erio da Informa¸c˜ao Bayesiana o modelo escolhido ser´a aquele com menor valor de AIC.
3.4.2
M´etodos de sele¸c˜ao passo-a-passo
O m´etodo da sele¸c˜ao passo-a-passo ´e recomendado para realizar a sele¸c˜ao do modelo quando o n´umero de modelos poss´ıveis ´e muito grande e a compara¸c˜ao entre todos eles passa a ser invi´avel. Podemos escolher entre dois m´etodos: inclus˜ao progressiva de va- ri´aveis ou elimina¸c˜ao progressiva de vari´aveis. O primeiro come¸ca com o modelo com
nenhuma vari´avel preditiva e vai incluindo as vari´aveis, uma a uma, come¸cando pela mais explicativa. O segundo come¸ca com o modelo completo, com todas as vari´aveis preditivas, e vai eliminando as vari´aveis, uma a uma, come¸cando pela menos explicativa.
M´etodo da Inclus˜ao Progressiva
Vamos definir o passo-a-passo desse m´etodo. Para isso suponha que temos N vari´aveis preditivas para fazer a sele¸c˜ao do modelo.
Passo 1) Ajuste os N modelos lineares simples para cada uma das N vari´aveis preditivas. Para cada modelo ajustado determine o p-valor do teste t, que defini se a vari´avel em quest˜ao deve ou n˜ao ser inclu´ıda no modelo.
Passo 2) Se todos os p-valores forem maiores que α, nenhuma vari´avel ser´a inclu´ıda no modelo e FIM do algoritmo. Caso contr´ario, se algum p-valor for menor que α, inclua no modelo a vari´avel preditiva referente ao menor p-valor. Essa ´e a vari´avel mais explicativa para a vari´avel resposta em quest˜ao. Vamos cham´a-la de x(1).
Passo 3) Ajuste agora todos os N − 1 modelos lineares com duas vari´aveis preditivas, sendo uma delas x(1). Para cada modelo ajustado determine o p-valor do teste
t para a vari´avel do modelo diferente de x(1), que defini se essa a vari´avel deve
ou n˜ao ser inclu´ıda no modelo.
Passo 4) Se todos os p-valores forem maiores que α, nenhuma vari´avel nova ser´a inclu´ıda no modelo, o modelo final ser´a y = β0+β1x(1)+ε e FIM do algoritmo. Caso con-
tr´ario, se algum p-valor for menor que α, inclua no modelo a vari´avel preditiva referente ao menor p-valor. Vamos cham´a-la de x(2).
Passo 5) Ajuste agora todos os N − 2 modelos lineares com trˆes vari´aveis preditivas, sendo duas delas x(1) e x(2). Para cada modelo ajustado determine o p-valor do
teste t para a vari´avel do modelo diferente de x(1) ou x(2), que defini se essa a
vari´avel deve ou n˜ao ser inclu´ıda no modelo.
Passo 6) Se todos os p-valores forem maiores que α, nenhuma vari´avel nova ser´a inclu´ıda no modelo, o modelo final ser´a y = β0+ β1x(1)+ β2x(2)+ ε e FIM do algoritmo.
Caso contr´ario, se algum p-valor for menor que α, inclua no modelo a vari´avel preditiva referente ao menor p-valor. Vamos cham´a-la de x(3). . . .
O algoritmo continua at´e que todas as vari´aveis sejam inclu´ıdas no modelo ou at´e que todos os p-valores para a inclus˜ao de uma nova vari´avel sejam todos maiores que α.
Um recomenda¸c˜ao para melhorar ainda mais esse algoritmo ´e, logo ap´os a inclus˜ao de uma nova vari´avel no modelo, realizar um teste t com todas as vari´aveis j´a inclu´ıdas, considerando inclusive essa ´ultima que acabou se entrar, para verificar se alguma das vari´aveis j´a inclu´ıda deve ser retirada.
M´etodo da Elimina¸c˜ao Progressiva
Vamos definir o passo-a-passo desse m´etodo. Para isso suponha novamente que temos N vari´aveis preditivas para fazer a sele¸c˜ao do modelo.
Passo 1) Ajuste o modelo linear completo com todas as N vari´aveis preditivas. Determine o p-valor do teste t para cada uma das N vari´aveis preditivas do modelo. Passo 2) Se todos os p-valores forem menores que α, nenhuma vari´avel ser´a eliminada
do modelo e FIM do algoritmo. Caso contr´ario, se algum p-valor for maior que α, elimine do modelo a vari´avel preditiva referente ao maior p-valor. Vamos cham´a-la de x(1).
Passo 3) Ajuste agora o modelo com todas as N −1 vari´aveis preditivas que restaram, isto ´
e, todas as N vari´aveis iniciais menos x(1). Para o modelo ajustado determine
o p-valor do teste t para cada uma das N − 1 vari´aveis preditivas do modelo. Passo 4) Se todos os p-valores forem menores que α, mais nenhuma vari´avel ser´a elimi-
nada do modelo e FIM do algoritmo. Caso contr´ario, se algum p-valor for maior que α, elimine do modelo a vari´avel preditiva referente ao maior p-valor. Vamos cham´a-la de x(2).
Passo 5) Ajuste agora o modelo com todas as vari´aveis preditivas que restaram. Para o modelo ajustado determine o p-valor do teste t para cada uma das N − 2 vari´aveis preditivas.
Passo 6) Se todos os p-valores forem menores que α, mais nenhuma vari´avel ser´a elimi- nada do modelo e FIM do algoritmo. Caso contr´ario, se algum p-valor for maior que α, elimine do modelo a vari´avel preditiva referente ao maior p-valor. . . . O algoritmo continua at´e que todas as vari´aveis sejam eliminadas do modelo ou at´e que os p-valores do teste t sejam todos menores que α.