Sele¸c˜ ao do Modelo - Notas de Aula Modelos Lineares I

Após realizar a análise de multicolinearidade devemos partir para a sele¸cão do modelo, que consiste em selecionar quais variáveis preditivas farão parte do nosso modelo de regressão linear. A ideia principal da sele¸cão do modelo é que as variáveis que agregam

informa¸cão para o modelo devem ser inclu´ıdas e as variáveis que agregam pouca ou nenhuma informa¸cão devem ser exclu´ıdas. Veremos dois métodos de sele¸cão do modelo, o método da compara¸cão entre todos os poss´ıveis modelos e o método da sele¸cão passo- a-passo.

3.4.1 Compara¸c˜ao entre todos os modelos poss´ıveis

Uma maneira para fazer a sele¸cão de quais variáveis deve ou não entrar no modelo de regressão linear é a compara¸cão entre todos os poss´ıveis modelos a partir da compara¸cão das medidas de bom ajustamento de cada modelo. Algumas dessas medidas serão discuti- das a seguir, como por exemplo, o Coeficiente de Determina¸cão Ajustado e a Informa¸cão de Akaike.

Todos os modelos poss´ıveis são definidos por todas as poss´ıveis combina¸cões das va- riáveis preditivas. Por exemplo, se temos três variáveis preditivas, x1, x2 e x3, todos os

modelos poss´ıveis com essas vari´aveis s˜ao: yi = β0+ β1xi,1+ εi yi = β0+ β2xi,2+ εi yi = β0+ β3xi,3+ εi yi = β0+ β1xi,1+ β2xi,2+ εi yi = β0+ β1xi,1+ β3xi,3+ εi yi = β0+ β2xi,2+ β3xi,3+ εi

yi = β0+ β1xi,1+ β2xi,2+ β3xi,3+ εi

O principal problema desse método é que se tivermos muitas variáveis preditivas o número de modelos poss´ıveis pode ser inviável de se comparar. Se temos N variáveis preditivas o número de diferentes modelos poss´ıveis será 2N _{− 1. Para o exemplo acima}

como temos N = 3 variáveis preditivas o número de poss´ıveis modelos é 23 − 1 = 7. Se tivermos 4 variáveis preditivas o número de diferentes modelos será 24 _{− 1 = 15 e se}

N = 5 teremos 25 _{− 1 = 31. O crescimento ´e exponencial e r´}_{apido chegamos em um}

número muito grande de poss´ıveis modelos para um número não tão grande de variáveis preditivas.

Mesmo com esse problema a compara¸cão entre todos os poss´ıveis modelos é um cri- tério muito comum para sele¸cão das variáveis. Nesse caso podemos usar como critério de compara¸cão algumas medidas de compara¸cão, como por exemplo, o Coeficiente de De- termina¸cão Ajustado e a Informa¸cão de Akaike. Cada uma dessas medidas será definida agora.

Uma recomenda¸cão para melhor visualizar a compara¸cão dessas medidas de compara¸cão é fazer o gráfico da medida em questão versus o parâmetro p de cada modelo. Esse gráfico vai permitir encontrar para cada valor do parâmetro p, ou seja, para cada número de variáveis preditivas o melhor modelo de acordo com a medida.

Coeficiente de Determina¸cão Ajustado Já definimos o coeficiente de determina¸cão R2 _por

R2 = 1 − SSE SST O.

O problema de usar esse critério como compara¸cão entre todos os poss´ıveis modelos é que sempre termos o maior R2 _{no modelo com mais vari´}_{aveis preditivas, uma vez que SSE}

sempre diminui com a inclusão de variáveis e SST O é o mesmo para todos os poss´ıveis modelos. Então esse não é um critério compara¸cão.

Motivado por esse problema criou-se o Coeficiente de Determina¸c˜ao Ajustado, R2_{, que}

leva em considera¸cão não só o bom ajuste do modelo dentro da amostra como também o número de variáveis preditivas no modelo. Esse novo coeficiente é definido por

R2_a= 1 − (n − 1)SSE

(n − p)SST O (3.8)

Veja que a inclusão de uma nova variável reduz SSE mas reduz também n − p. Dessa forma para que o valor de R2

a cres¸ca com a inclusão de uma nova variável é preciso que

o SSE reduza significativamente a ponto da razão SSE/(n − p) reduzir com a inclusão dessa nova variável.

Dessa forma R2

a pode ser um crit´erio de compara¸c˜ao entre todos os poss´ıveis modelos

e o modelo escolhido sera aquele com maior R2_a. Crit´erios da Informa¸c˜ao de Akaike

No Crit´erio da Informa¸c˜ao de Akaike o melhor modelo entre todos os poss´ıveis modelos ´

e escolhido a partir da medida AIC definida por:

AIC = n ln(SSE) − n ln(n) + 2p (3.9) Veja que quanto menor for SSE menor será o valor de AIC. Além disso quanto menor for p, isto é, quanto menos variáveis preditivas tiver o modelo, menor será o valor de AIC. Dessa forma queremos modelos com medida AIC pequena, uma vez que queremos modelos com poucas variáveis preditivas e com SSE pequeno.

A partir do critério da Informa¸cão de Akaike o modelo escolhido será aquele com menor valor de AIC.

Crit´erios da Informa¸c˜ao Bayesiana

No Crit´erio da Informa¸c˜ao Bayesiana o melhor modelo entre todos os poss´ıveis modelos ´

e escolhido a partir da medida BIC definida por:

BIC = n ln(SSE) − n ln(n) + p ln(n) (3.10) Veja que assim como a medida AIC, quanto menor for SSE menor será o valor de BIC e quanto menor for p menor será o valor de BIC. Dessa forma também queremos modelos com medida BIC pequenas.

A partir do critério da Informa¸cão Bayesiana o modelo escolhido será aquele com menor valor de AIC.

3.4.2 M´etodos de sele¸c˜ao passo-a-passo

O método da sele¸cão passo-a-passo é recomendado para realizar a sele¸cão do modelo quando o número de modelos poss´ıveis é muito grande e a compara¸cão entre todos eles passa a ser inviável. Podemos escolher entre dois métodos: inclusão progressiva de va- riáveis ou elimina¸cão progressiva de variáveis. O primeiro come¸ca com o modelo com

nenhuma variável preditiva e vai incluindo as variáveis, uma a uma, come¸cando pela mais explicativa. O segundo come¸ca com o modelo completo, com todas as variáveis preditivas, e vai eliminando as variáveis, uma a uma, come¸cando pela menos explicativa.

M´etodo da Inclus˜ao Progressiva

Vamos definir o passo-a-passo desse método. Para isso suponha que temos N variáveis preditivas para fazer a sele¸cão do modelo.

Passo 1) Ajuste os N modelos lineares simples para cada uma das N variáveis preditivas. Para cada modelo ajustado determine o p-valor do teste t, que defini se a variável em questão deve ou não ser inclu´ıda no modelo.

Passo 2) Se todos os p-valores forem maiores que α, nenhuma variável será inclu´ıda no modelo e FIM do algoritmo. Caso contrário, se algum p-valor for menor que α, inclua no modelo a variável preditiva referente ao menor p-valor. Essa é a variável mais explicativa para a variável resposta em questão. Vamos chamá-la de x(1).

Passo 3) Ajuste agora todos os N − 1 modelos lineares com duas vari´aveis preditivas, sendo uma delas x(1). Para cada modelo ajustado determine o p-valor do teste

t para a vari´avel do modelo diferente de x(1), que defini se essa a vari´avel deve

ou n˜ao ser inclu´ıda no modelo.

Passo 4) Se todos os p-valores forem maiores que α, nenhuma variável nova será inclu´ıda no modelo, o modelo final será y = β0+β1x(1)+ε e FIM do algoritmo. Caso con-

trário, se algum p-valor for menor que α, inclua no modelo a variável preditiva referente ao menor p-valor. Vamos chamá-la de x(2).

Passo 5) Ajuste agora todos os N − 2 modelos lineares com trˆes vari´aveis preditivas, sendo duas delas x(1) e x(2). Para cada modelo ajustado determine o p-valor do

teste t para a vari´avel do modelo diferente de x(1) ou x(2), que defini se essa a

vari´avel deve ou n˜ao ser inclu´ıda no modelo.

Passo 6) Se todos os p-valores forem maiores que α, nenhuma variável nova será inclu´ıda no modelo, o modelo final será y = β0+ β1x(1)+ β2x(2)+ ε e FIM do algoritmo.

Caso contrário, se algum p-valor for menor que α, inclua no modelo a variável preditiva referente ao menor p-valor. Vamos chamá-la de x(3). . . .

O algoritmo continua até que todas as variáveis sejam inclu´ıdas no modelo ou até que todos os p-valores para a inclusão de uma nova variável sejam todos maiores que α.

Um recomenda¸cão para melhorar ainda mais esse algoritmo é, logo após a inclusão de uma nova variável no modelo, realizar um teste t com todas as variáveis já inclu´ıdas, considerando inclusive essa última que acabou se entrar, para verificar se alguma das variáveis já inclu´ıda deve ser retirada.

M´etodo da Elimina¸c˜ao Progressiva

Vamos definir o passo-a-passo desse método. Para isso suponha novamente que temos N variáveis preditivas para fazer a sele¸cão do modelo.

Passo 1) Ajuste o modelo linear completo com todas as N variáveis preditivas. Determine o p-valor do teste t para cada uma das N variáveis preditivas do modelo. Passo 2) Se todos os p-valores forem menores que α, nenhuma variável será eliminada

do modelo e FIM do algoritmo. Caso contrário, se algum p-valor for maior que α, elimine do modelo a variável preditiva referente ao maior p-valor. Vamos chamá-la de x(1).

Passo 3) Ajuste agora o modelo com todas as N −1 vari´aveis preditivas que restaram, isto ´

e, todas as N vari´aveis iniciais menos x(1). Para o modelo ajustado determine

o p-valor do teste t para cada uma das N − 1 variáveis preditivas do modelo. Passo 4) Se todos os p-valores forem menores que α, mais nenhuma variável será elimi-

nada do modelo e FIM do algoritmo. Caso contrário, se algum p-valor for maior que α, elimine do modelo a variável preditiva referente ao maior p-valor. Vamos chamá-la de x(2).

Passo 5) Ajuste agora o modelo com todas as vari´aveis preditivas que restaram. Para o modelo ajustado determine o p-valor do teste t para cada uma das N − 2 vari´aveis preditivas.

Passo 6) Se todos os p-valores forem menores que α, mais nenhuma variável será eliminada do modelo e FIM do algoritmo. Caso contrário, se algum p-valor for maior que α, elimine do modelo a variável preditiva referente ao maior p-valor. . . . O algoritmo continua até que todas as variáveis sejam eliminadas do modelo ou até que os p-valores do teste t sejam todos menores que α.

No documento Notas de Aula Modelos Lineares I - GET00138 (páginas 74-78)