Least Angle Regression, LASSO e multicolinearidade

(1)

Least Angle Regression, LASSO e multicolinearidade

Lucas Damiani [email protected] , Paulo Hubert [email protected]

6 de Maio de 2016

(2)

Se¸c˜ oes

Motiva¸c˜ao

Least Angle Regression Geometria do m´etodo LARS LARS no R

LARS e LASSO Referˆencias

(3)

Motiva¸c˜ ao

I O LASSO (Least absolute shrinkage and selection operator) é uma técnica de regressão multivariada, baseada numa

penaliza¸cão simples sobre a fun¸cão de erros quadráticos.

f(β) = 1

2||Y −Xβ||²₂+λ||β||₁ (1)

I O parâmetroλcontrola a esparsidade do modelo. Seu valor é calculado tipicamente via técnicas de cross validation.

I A medida que o valor de λé aumentado, novas variáveis vão sendo eliminadas do modelo.

(4)

Motiva¸c˜ ao

I O problema do LASSO ´e formulado como um problema de otimiza¸c˜ao.

I Não fica imediatamente claro quais as propriedades das variáveis preditoras que são mantidas no modelo mesmo quando restringimos fortemente a norma-1 do vetor de coeficientes.

(5)

Sele¸c˜ ao de vari´ aveis

(6)

Least Angle Regression

I Para entender como o método LASSO seleciona variáveis, vamos estudar a técnica relacionada LARS:Least Angle Regression (Efron et al, (2004)).

I Esta técnica permite a estima¸cão simultânea de todas as estimativas do modelo LASSO. Além disso, ela lan¸ca luz às propriedades do mesmo LASSO, fornecendo uma interpreta¸cão geométrica para o procedimento de sele¸cão de variáveis.

(7)

Least Angle Regression - Algoritmo

1. Sejay a variável dependente, x_i,i = 1, ... ,n as variáveis preditoras. Fa¸ca β₁ = 0, ... , β_n= 0 e calculer₀ =y−y.¯ 2. Escolha o preditor x_i que tem maior correla¸cão com r₀.

Chamemos este preditor dex_k.

3. Mova β_x_k na dire¸cão de seu estimador de quadrados m´ınimos hx_k,r0i, até que alguma outra variávelxi tenha correla¸cão com r1=r0−βx_k·x_k tão grande quanto x_k. Seja x_j esta variável.

4. Mova βxk e βxj em conjunto na dire¸cão de seu estimador de quadrados m´ınimoshx_k,x_ji até que outra variável tenha correla¸cão comr₂=r₁−β_x_k ·x_k+β_x_j·x_j tão grande quanto xk e xj.

5. Prossiga incluindo novas variáveis segundo esse método até que todos os preditores tenham sido inclu´ıdos.

(8)

Least Angle Regression

I Partindo do vetor nulo, o método LARS come¸ca por aumentar o coeficiente relacionado à variável preditoramais

correlacionada com a vari´avel dependente.

I O coeficiente caminha na dire¸cão do estimador de m´ınimos quadrados, até que um novo candidato tenha correla¸cão alta com o atual res´ıduo.

I As vari´aveis preditoras entram no modelo conforme suas correla¸c˜oes com o res´ıduo do passo anterior.

I A dire¸cão de crescimento dos coeficientes é alterada quando uma nova variável entra no modelo.

(9)

LAR e Forward Stepwise

I O LAR funciona de maneira similar ao método simples do Forward stepwise para sele¸cão de variáveis.

I No método forward stepwise, a variável candidata a entrar no modelo também é escolhida a partir da correla¸cão desta variável com o res´ıduo do passo anterior.

I A diferen¸ca ´e que, ao contr´ario do LAR, o forward stepwise estima o coeficiente de m´ınimos quadrados inteiro antes de avaliar o res´ıduo.

(10)

Geometria do LARS

I SejaA_k o conjunto das vari´aveis ativas no modelo no in´ıcio do passo k. Seja βAk o vetor de coeficientes associados a Ak.

I O vetorβ_A_k tem k−1 entradas n˜ao-nulas. A k-´esima

entrada, referente à variável que acabou de entrar no modelo, também terá valor 0.

I r_k =y−X_A_k ·β_A_k é o res´ıduo no in´ıcio do passo k. Então, a dire¸cão para os coeficientes nesse passo será

δ_k = X_A^T

kX_A_k−1

X_A^T

k ·r_k (2)

(11)

Geometria do LARS

I O vetor de coeficientes no passo k ´e dado por

β_A_k(α) =β_A_k+α·δ_k. O vetor de valores ajustados ´e fˆ_k(α) = ˆf_k +α·u_k, com u_k =X_A_kδ_k.

I O vetoru_k faz omenor ângulo(e igual) com todas as variáveis preditoras emA_k. É desta observa¸cão que surge o nome do método.

I E f´´ acil verificar que a dire¸cão δ_k mantém as correla¸cões fixas e decrescentes.

(12)

Geometria do LARS

Não é necessário realizar a busca linear iterativa para encontrar o novo vetor de coeficientes. O tamanho exato do passoαé dado por

α=min⁺_j∈A_C

k

( Cˆ−cˆ_j

V_A_k−a_j, Cˆ−cˆ_j V_A_k +a_j

)

(3) com ˆc =X^T(y−fˆ_k), ˆC =max_j{|ˆc_j|},a=X^Tfˆ_k. Aqui, o min⁺ representa o m´ınimo tomado apenas entre os componentes positivos dentro de cada escolha dej.

(13)

Geometria do LARS

Além disso, pode-se também verificar que as novas correla¸cões (das variáveis que já estão no modelo) são dadas por

ˆ

c_j(α) =x_j^T(y−fˆ(α)) = ˆc_j −αa_j (4) Ou seja, as correla¸cões decrescem de maneira uniforme (note que a cada passo todas as variáveis no conjunto ativo têm correla¸cão igual com o res´ıduo do passo anterior).

(14)

Exemplo: LARS usando R

I A biblioteca lars do R faz ajustes do Least Angle Regression.

I Vamos utilizar dados simulados para ilustrar o comportamento do LARS.

I Primeiro conjunto de dados: quatro preditores independentes.

Y = 4X1+ 3X2+ 2X3+X4+ (5) com ∼N(0; 0.1).

I ρ_x₁_,y > ρ_x₂_,y > ρ_x₃_,y > ρ_x₄_,y.

(15)

Exemplo: LARS usando R

A sintaxe da fun¸c˜aolars´e a seguinte:

mod1 =lars(x, y, type = c(“lasso”, “lar”, “forward.stepwise”,

“stepwise”), intercept = T, normalize = T, ...)

(16)

Exemplo: LARS usando R

plot(mod1)

(17)

Exemplo: LARS usando R

Tabela:Coeficientes do m´etodo LARS (ordem de entrada no modelo:

x₁,x₂,x₃,x₄)

Passo X₁ X₂ X₃ X₄

1 0.8143 0.0000 0.0000 0.0000 2 1.9100 1.0597 0.0000 0.0000 3 2.9391 2.0443 0.9781 0.0000 4 3.9955 3.0042 1.9959 1.0014

(18)

Exemplo: LARS usando R

Tabela:Correla¸c˜oes do m´etodo LARS (ordem de entrada no modelo:

x₁,x₂,x₃,x₄)

Passo X₁ X₂ X₃ X₄

0 0.7499 0.5449 0.3881 0.1765 1 0.6336 0.6336 0.4430 0.2057 2 0.5685 0.5684 0.5686 0.2723 3 0.5080 0.5080 0.5081 0.5083

(19)

Exemplo: LARS usando R

I Conforme esperado, as vari´aveis foram inclu´ıdas no modelo na ordem decrescente de seu poder explicativo.

I Além disso, verificamos que as correla¸cões no conjunto ativo se mantêm iguais a cada passo. Os coeficientes aumentam progressivamente até atingir o valor da estimativa de quadrados m´ınimos (shrinkage).

(20)

LARS e LASSO

I Ainda em Efron et al (2004), os autores mostram como uma simples modifica¸c˜ao no algoritmo do LARS faz com que seus resultados coincidam exatamente com os resultados do LASSO.

I A partir dessa modifica¸cão, pode-se verificar que uma rodada completa do algoritmo LARS resulta na simula¸cão de todos os modelos LASSO pára todos os poss´ıveis valores de λ.

I Para entender como funciona essa modifica¸c˜ao, vamos analisar as propriedades do LARS.

(21)

LARS e LASSO

I Se Aé o conjunto de variáveis ativas num determinado momento do algoritmo LARS, sabemos que todas as variáveis nesse conjunto têm correla¸cão de mesmo valor absoluto com o res´ıduo atual do modelo, y−XAβA.

I Admitindo que todas as variáveis estão normalizadas, essa afirma¸cão é equivalente a

x_j^T(y−XAβA) =γ·sj ∀j ∈A (6) onde γ é o valor absoluto da correla¸cão, e s_j ∈ {−1,1}é o seu respectivo sinal

(22)

LARS e LASSO

I Al´em disso, sabemos que |x_k^T(y−X_Aβ_A)|< γ para k ∈/A.

I Avaliando o crit´erio do LASSO em forma vetorial, temos f(β) = 1

2||y−Xβ||²₂+λ||β||₁ (7)

I SejaB o conjunto de variáveis ativas para um dado valor de λ no algoritmo LASSO. Temos então que, sexk ∈/ B, o critério de estacionariedade para f(β) é

|x_k^T(y−Xβ)| ≤λ∀k ∈/B (8) o que concorda com a equa¸c˜ao acima para γ.

(23)

LARS e LASSO

I No caso das variáveis ativas, o critério do LASSO é diretamente diferenciável, e resulta na condi¸cão de estacionariedade

x_j^T(y−Xβ) =λ·sgn(β_j) ∀j ∈B (9)

I Este crit´erio concorda com a propriedade 6 se e somente se sgn(β_j) =s_j.

I No método LARS, se um coeficiente muda de sinal, a dire¸cão de busca permanece a mesma. No caso do LASSO, porém, quando um coeficiente atinge o valor 0, ele é descartado do conjunto de variáveis ativas.

(24)

LARS e LASSO

I E apenas neste ponto que os dois m´´ etodos diferem. A corre¸c˜ao para este problema ´e simples.

I Para tornar os resultados do método LARS idêntico aos do LASSO, basta fazer a seguinte altera¸cão:

Se em algum ponto do algoritmo LARS um coeficiente tornar-se 0, descarte a vari´avel correspondente e recalcule a dire¸c˜ao de busca.

(25)

LARS e LASSO

(26)

LAR/LASSO e multicolinearidade

I A solu¸cão de m´ınimos quadrados considerando variáveis explicativas colineares entre si possui alto erro padrão. (p:

n´umero de parˆametros)

E( ˆβ−β)² ↑,p ↑ (10)

I Para avaliar o efeito da multicolinearidade fizemos algumas simula¸c˜oes.

(27)