• Nenhum resultado encontrado

3. Ajuste todos os p − 1 modelos com 2 preditores que contenham o preditor selecionado no passo anterior e escolha o melhor (M2).

4. De forma análoga, ajuste os modelos com 3, 4, ..., p preditores, mantendo sempre como base o modelo obtido anteriormente, e em cada passo escolha o melhor (M3, M4, . . . , Mp).

5. Escolha o melhor modelo entre M0, M1, . . . , Mp utilizando erro preditivo, AIC, BIC ou R2

ajustado.

Repare que o foward stepwise diminui o número de modelos ajustados de 2p para 1 + p(p + 1)/2.

Para p = 20, o número de modelos diminui de 1.048.576 para 211.

A ideia do método backward stepwise é parecida com a do foward. A diferença é que começamos no passo 1 com o modelo completo (Mp), com todos os preditores, e nos passos seguintes retiramos

cada um dos preditores e ajustamos os modelos correspondentes, selecionando sempre aquele com

maior R2 (M

p−1, Mp−2, . . . , M0). Ao m, escolhemos o melhor entre os modelos M0, M1, . . . , Mp

utilizando erro preditivo, AIC, BIC ou R2 ajustado. O número de modelos ajustados nesse caso é

igual ao do foward stepwise.

Ainda existem métodos stepwise híbridos, nos quais os preditores são adicionados sequencial- mente, assim como no foward stepwise, mas em cada etapa avalia-se se um dos preditores já incluídos deve ou não sair do modelo. Essa estratégia tenta considerar mais modelos, chegando mais perto da seleção do melhor subconjunto discutida na seção anterior. Para mais informações, consultar Nelder e Wedderburn (1972).

4.4 Regularização

Os métodos de seleção de subconjuntos de preditores apresentados na seção anterior dimin- uem a complexidade do modelo eliminando variáveis que não contribuem signicativamente com a diminuição do viés, potencialmente diminuindo a variância. As técnicas de regularização apresen- tam uma ideia similar: diminuir a variância do modelo a partir de suavizações que introduzem um pouco de viés. Essas técnicas envolvem o ajuste de um único modelo e introduzem penalizações no processo de estimação que limitam as estimativas dos coecientes, encolhendo seus valores em direção a zero.

A utilização da regularização pode levar a uma redução substancial da variância do modelo, sendo uma boa estratégia para evitar o sobreajuste. Apresentaremos nesta seção as formas mais utilizadas de regularização: a regressão ridge e o LASSO (least absolute shrinkage and selection operator).

Regressão Ridge

De uma forma geral, o processo de estimação dos parâmetros de um modelo consiste na mini- mização de uma função de perda L(y, f(x)) que depende dos dados observados (x, y) e do modelo escolhido (f(·)). As técnicas de regularização consistem em adicionar uma penalidade nessa função de perda, de tal forma que os coecientes dos preditores pouco associados à variável resposta sejam encolhidos em direção a zero.

L(y, f (x)) + λ

p

X

j=1

βj2,

sendo β1, . . . , βp os parâmetros do modelo f(·) e λ um hiperparâmetro7 que controla o impacto da

penalização nas estimativas dos coecientes. Quando λ = 0, o termo é anulado e as estimativas são calculadas sem penalização. Conforme λ −→ ∞, os coecientes βj passam a ser penalizados,

encolhendo seus valores em direção a zero. A vantagem disso está na potencial redução da variância do modelo, em troca de um pequeno aumento do viés, já que os coecientes menos importantes recebem cada vez menos peso. Assim, a regularização é uma alternativa para lidarmos com o balanço entre viés e variância discutido na Seção 4.1.

No caso da regressão ridge, é possível mostrar que, para qualquer i = 1, . . . , p, βi = 0 apenas se

λ = ∞. Isso signica que não estamos fazendo seleção de variáveis, isto é, o modelo ajustado sempre terá todos os preditores. Apesar de estarmos melhorando a performance do modelo diminuindo o peso dos preditores menos importantes, isso pode não ser o ideal quando quisermos de fato eliminar variáveis do modelo. Nesses casos, uma boa alternativa é utilizar o LASSO.

Least absolute shrinkage and selection operator (LASSO)

O LASSO (least absolute shrinkage and selection operator) é uma técnica análoga à regressão ridge, mas com função de perda penalização dada por

L(y, f (x)) + λ

p

X

j=1

j|.

Para λ sucientemente grande, essa penalização força alguns dos coecientes sejam estimados ex- atamente como 0 e os correspondentes preditores associados serão eliminados do ajuste. Assim, ao utilizarmos o LASSO, estamos ao mesmo tempo reduzindo a variância do modelo e executando seleção de variáveis.

Um ponto importante sobre a aplicação das técnicas de regularização é a escala dos preditores. A maioria dos processos de estimação usuais é invariante à escala em que os preditores foram medidos, isto é, ajustar o modelo usando o preditor X1 ou cX1, c um número real, não mudará a interpre-

tação dos resultados. No caso da regressão ridge e do LASSO, a escala dos preditores inuencia não só a estimativa dos próprios coecientes, mas também a estimativa dos outros parâmetros do modelo. Dessa forma, um passo importante anterior à aplicação dessas técnicas é a padronização dos preditores, de tal forma que todos quem com a mesma média e variância. Essa padronização pode ser feita a partir da expressão

˜ Xij = Xij− ¯Xj q 1 n Pn i=1(Xij− ¯Xj)2 , (4.1)

sendo o denominador dessa expressão a estimativa do desvio-padrão do j-ésimo preditor. Conse- quentemente, todos os preditores terão média 0 desvio-padrão igual a 1.

Embora haja muita discussão sobre a validade de testes de hipóteses do tipo β = 0 para

4.6 QUANTIFICANDO A IMPORTÂNCIA DOS PREDITORES 67

o LASSO, já que o algoritmo zera automaticamente os coecientes menos importantes, alguns trabalhos vêm surgindo nos últimos anos sobre o cálculo do erro-padrão e sobre o desenvolvimento de testes paras as estimativas (Javanmard e Montanari, 2014; Lockhart et al., 2014). Uma boa alternativa para avaliar a variabilidade das estimativas dos coecientes é utilizar o bootstrapping.

Para uma discussão mais aprofundada sobre a interpretação da regressão ridge e do LASSO, consulte o Capítulo 6 deJames et al. (2013). Para o desenvolvimento matemático dessas técnicas, o Capítulo 5 de Hastie et al. (2008) é uma ótima referência.

Documentos relacionados