Stacked Regressions

4.3 MÉTODOS DE ALOCAÇÃO

4.3.2 Stacked Regressions

Uma alternativa à escolha de um único cluster consiste em prover a predição para uma nova observação como uma ponderação das predições nos diferentes clusters. O mé- todo de Stacked Regressions (BREIMAN, 1996), originalmente desenvolvido para oferecer uma combinação linear de diferentes preditores para oferecer obter maior acurácia das predições, pode ser adaptado ao contexto de Clusterwise Regression. Neste caso, o lugar dos preditores é assumido pelos modelos obtidos pelo algoritmo em cada cluster.

Em linhas gerais, o que se obtém é uma predição a partir da combinação linear das predições em cada cluster. Para obter os valores preditos, a ideia central é utilizar vali- dação cruzada e o método de Mínimos Quadrados sob a restrição de não negatividade para obter os coeficientes da combinação linear dos preditores (clusters).

Suponha-se que estejam disponíveis K preditores v1(x), . . . , vK(x)para uma variá- veis dependente y em termos do vetor x. Wolpert (WOLPERT, 1992) propôs a seguinte abordagem: dispondo de K preditores, um preditor com maior acurácia pode ser obtido não escolhendo um dos preditores, mas combinando v1, . . . , vk. O método pode ser resumido da seguinte forma: reajustar os preditores, utilizando o mesmo conjunto de dados, excluindo a n-ésima observação. Como notação, v(−_k n)(x) representa os K preditores obtidos ao excluir o n-ésimo caso. Assim, obtém-se o vetor com K entradas zn dado por

zkn =v

(−n)

k (xn) (4.20)

Desta forma, um novo conjunto de dados é criado, representado por{(yn, zn), n = 1, . . . , N}. Uma alternativa para selecionar um único preditor seria escolher k que mini- mize_∑_k(yn−zkn)2. No entanto, o novo conjunto de dados possui informação adicional que pode ser utilizada para combinar os preditor e melhorar a acurácias da predição. A predição final seria dada pela seguinte combinação linear:

v(x) =

∑

Capítulo 4. Modelo de Regressão Clusterwise Geral para Dados Tipo-Intervalo 45

Obter os coeficientes α de modo a minimizar o erro de predição apresenta-se como um problema de regressão linear. O objetivo, portanto, seria minimizar

∑

n yn−

∑

k αkvk(xn) !2 (4.21) No entanto, como os preditores foram treinados no mesmo conjunto de aprendiza- gem e os coeficientes α foram obtidos minimizando o erro sobre este mesmo conjunto, estes coeficientes podem causar overfit, fazendo com que a generalização seja pobre. Este problema pode ser atacado por meio de validação cruzada, excluindo-se do conjunto de treinamento a observação a ser predita. Assim, a função objetivo (4.21) seria modificada para

∑

n yn−

∑

k αkzkn !2 (4.22) em que zkn =v (−n)

k (xn). Há um segundo problema, a saber, os preditores vk(xn)serão altamente correlacionados, uma vez que tentam predizer os mesmos valores. O método para estimar coeficientes de regressão para variáveis altamente correlacionadas é a ridge regression, que consiste em minimizar (4.22) adicionando a restrição de que∑ α2_k =

s em que o valor de s seria escolhido por validação cruzada.

Em seu trabalho, Breiman obteve resultados consistentes minimizando (4.22) sob as restrições αk ≥ 0, k = 1, . . . , K. Além disso, também foi apresentada evidência em dados sintéticos de que a a validação cruzada 10-folds, muito menos custosa em termos computacionais, é mais efetiva do que o método leave-one-out. Estas recomendações foram seguidas neste trabalho.

Para o caso em tela, em que se trata da alocação de observações em clusters de dados tipo-intervalo, algumas adaptações ao método de Stacked Regressions são necessárias. Em primeiro lugar, o protótipo de cada cluster é considerado um possível preditor para a amostra. Estes protótipos são os modelos selecionados pelo algoritmo iCRCNLR. Além disso, como são tratados dados do tipo-intervalo, as predições devem ser feitas tanto para o centro quanto para a amplitude.

Considere-se que o algoritmo fornece K clusters, cada um deles com um modelo ajustado para o centro f₍c₁₎(xi), . . . , f₍c_K₎(xi)e para a amplitude f₍r₁₎(xi), . . . , f₍r_K₎(xi). As- sim, utilizando validação cruzada N-folds1, o conjunto de dados (4.20) torna-se

zc_kn = f_kc(−n)(xc_n) (4.23) zr_kn = f_kr(−n)(xr_n) (4.24) 1 _{Normalmente utiliza-se a notação K-folds, foi utilizada a letra N para não causar confusão com o K}

Capítulo 4. Modelo de Regressão Clusterwise Geral para Dados Tipo-Intervalo 46

para o centro e amplitude, respectivamente, em que 1 ≤ n ≤ N Note que cada zcn e zr_n é uma matriz de dimensão |f| ×K, em que |f| representa a cardinalidade do fold excluído n.

Seguindo o método de Breiman, o objetivo final será encontrar αc = (αc₁, . . . , αc_K) e

αr = (αr₁, . . . , αr_K)que minimizem

∑

n   yc_n−

∑

k αc_kzc_kn !2 + yr_n−

∑

k αr_kzr_kn !2  (4.25)

Desta forma, a predição final será dada por

fc(x) =

∑

k αc_kf_kc(x) (4.26) fr(x) =

∑

k αr_kf_kr(x) (4.27)

Em termo de intervalos, tem-se que ZL = fc(x) − fr(x)e ZU = fc(x) + fr(x). Em um experimento de validação cruzada para a regressão clusterwise para dados intervalo, os seguintes passos devem ser adotados para executar Stacked Regressions:

1. Particionar o conjunto de dados em L-folds;

2. Separar um dos folds para teste e o restante para treino;

3. Fazer outra validação cruzada dentro dos dados de treino, ou seja, particionar o treino em Ltreino folds;

4. Utilizar Ltreino−1 folds para treinar o modelo e prever os resultados do fold ex- cluído.

5. Para cada observação do fold excluído, obter ˆync₁, . . . , ˆync_K, yne ˆynr₁, . . . , ˆynr_K, yn, n = 1, . . . , Nf, em que Nf é o número de elementos dentro do fold excluído;

6. Repetir o procedimento acima para todos os Ltreinofolds do conjunto de treino; 7. A partir dos dados obtidos em todos os folds, estimar αce αr;

8. Utilizar as equações (4.26) e (4.27) para prever os valores do fold separado para teste no passo 2.

9. Repetir o procedimento para os outros L−1 folds do conjunto de dados.

O conjunto de dados obtido pelo método de Stacked regressions para estimar os pa- râmetros αc e αr é representado na Tabela 1, em que ∑_iL=1Nf i = N. As entradas na Tabela 1 possuem índices que devem ser interpretados como no exemplo abaixo:

Capítulo 4. Modelo de Regressão Clusterwise Geral para Dados Tipo-Intervalo 47

Tabela 1 – Conjunto de dados gerado pelo método Stacked Regressions para estimar αc e αr.

y ˆy1 ˆy2 . . . ˆyK Fold

y₁(1) hˆy(₁₁1)c, ˆy(₁₁1)ri hˆy₁₂(1)c, ˆy₁₂(1)ri . . . hˆy_1K(1)c, ˆy(_1K1)ri

1 y₂(1) hˆy(₂₁1)c, ˆy(₂₁1)ri hˆy₂₂(1)c, ˆy₂₂(1)ri . . . hˆy_2K(1)c, ˆy(_2K1)ri

.. . ... ... ... ... y(_N1) f 1 h ˆy(_N1)c f 11, ˆy (1)r N_{f 1}1 i h ˆy(_N1)c f 12, ˆy (1)r N_{f 1}2 i . . . hˆy(_N1)c f 1K, ˆy (1)r N_{f 1}K i .. . ... ... ... ... ...

y₁(L) hˆy(₁₁L)c, ˆy(₁₁L)ri hˆy₁₂(L)c, ˆy₁₂(L)ri . . . hˆy_1K(L)c, ˆy(_1KL)ri

L y₂(L) hˆy(₂₁L)c, ˆy(₂₁L)ri hˆy₂₂(L)c, ˆy₂₂(L)ri . . . hˆy_2K(L)c, ˆy(_2KL)ri

.. . ... ... ... ... y(_NL) f L h ˆy(_NL)c f L1, ˆy (L)r Nf L1 i h ˆy(_NL)c f L2, ˆy (L)r Nf L2 i . . . hˆy(_NL)c f LK, ˆy (L)r Nf LK i

ˆy

₁₂(1)c

Índice no fold Preditor

Fold Centro ou amplitude

Neste capítulo foi apresentado o método proposto, iCRCNLR, seu algoritmo e prova de convergência da série por ele originada. Além disso, foram definidos os métodos de alocação de novas observações, já que a tarefa de predição pressupõe que o (i) objeto seja alocado a um cluster - Alocação aleatório ou KNN - ou que (ii) seja possível forne- cer uma predição para o objeto resultante de uma combinação linear de K predições - Stacked Regressions.

Com o algoritmo iCRCNLR definido, procede-se a análise experimental tendo como objetivo mensurar seu desempenho frente ao caso linear, aqui chamado de iCRCLR. Tal tarefa é feita no capítulo seguinte. São executadas duas simulações em 24 cenários sintéticos, construídos de acordo com diferentes estruturas de clusters.

A primeira simulação mensura a capacidade de estimação do método, ao utilizar heurísticas de otimização, dado uma função conhecida. Deve-se salientar que a con- vergência do método depende da qualidade das estimativas, pois são elas quem mi- nimizam a função objetivo no primeiro passo do algoritmo. A segunda simulação tem

Capítulo 4. Modelo de Regressão Clusterwise Geral para Dados Tipo-Intervalo 48

como função mensurar a capacidade de predição do método iCRCNLR comparativa- mente ao iCRCLR. Aplicações seis conjuntos de dados tipo-intervalo são executadas, também comparando a capacidade de predição dos algoritmos em questão.

5 ANÁLISE EXPERIMENTAL

Neste capítulo, é investigado o comportamento do algoritmo iCRCNLR no que diz respeito à estimação de parâmetros e capacidade de predição de novas observações. Foram feitas simulações em 24 diferentes cenários, cada um representando uma es- trutura de clusters de centro e amplitudes para dados intervalo. Estes cenários foram construídos de acordo com as seguintes características: a posição relativa dos clusters, denominado configuração; o tipo de função utilizado para gerar os dados, podendo ser linear ou não linear e o número de classes k = 2, 3. Em relação à configuração, foram gerados cenários com classes disjuntas (D-D), com interseção (I-I) e sobrepostas (U-U) na variável dependente X.

No documento Clusterwise regression para dados tipo-intervalo (páginas 45-50)

4.3 MÉTODOS DE ALOCAÇÃO

4.3.2 Stacked Regressions

∑

∑

∑

∑

∑

∑

∑

∑

∑

∑

ˆy

12(1)c

₁₂(1)c