O método CLR é atrativo em sua concepção simples e de fácil implementação. No entanto, como observado em (BRUSCO et al., 2008; VICARI; VICHI, 2013;MANWANI;
SASTRY, 2015), ele apresenta sérios problemas em termos de convergência em soluções
não-ótimas, suscetibilidade a ruído, falta de validação dos grupos formados, e falta de uma função de afetação para novas observações.
3.5.1
Convergência em soluções subótimas
O método CLR tende a convergir em soluções subótimas no sentido que falha ao tentar recuperar os modelos reais contidos nos dados. Devido à inicialização aleatória da par- tição inicial, mesmo quando o conjunto de dados é gerado a partir de vários grupos/modelos lineares diferentes, os algoritmos descritos nas sessões 3.3.1e 3.3.2frequentemente falham em capturar a estrutura subjacentes dos dados.
3.5.2
Sobreajuste dos dados
O método CLR é sensível à adição de ruído na variável de predição, com desempenho cada vez pior à medida que a quantidade de ruído aumenta.
Como visto na seção 3.4, o método CLR pode explicar a variação da variável resposta por BCSSY (P ) mesmo quando o valor de SSRY (P ) é pequeno. Isto aumenta possibilidade para o sobreajuste (do inglês, overfitting) dos dados, principalmente nas situações onde os relacionamento de regressão não estão presentes.
3.5.3
Validação dos grupos formados
Validar, no contexto da análise de agrupamentos, significa avaliar se o sistema de aprendizagem de máquina entrega o que realmente deveria entregar, no caso de agrupamento partitivo: um conjunto de dados particionado em grupos homogêneos em relação a algum critério predeterminado (DIDAY; SIMON, 1976).
O método CLR não produz grupos homogêneos em relação às variáveis explicativas. Os grupos são formados apenas em relação ao critério de menor resíduo, dessa forma uma observação pode fazer parte de um grupo apenas por ter o menor resíduo em relação aos outros modelos de regressão intra-grupo mesmo estando, possivelmente, muito longe das outras observações do mesmo grupo.
3.5.4
Falta de uma função de afetação
A saída dos algoritmos CLR é formada por um conjunto de hiperplanos de regressão ajustados aos dados referentes aos seus respectivos grupos. Porém, com apenas os modelos
de regressão, não existe uma forma óbvia de utilizá-los para prever os valores de uma nova observação. Em outras palavra, o algoritmo CLR não possui um modelo de função para fazer predição.
3.5.5
Outros problemas/características
Além dos problemas já citados, é importante lembrar dos problemas (ou caracterís- ticas, dependendo do ponto de vista) decorrentes dos algoritmos descritos nas sessões 3.3.1
e3.3.2 para a minimização do critério Jclr (equação 3.2). Por exemplo, a convergência para
soluções em relação apenas a partição aleatória inicial utilizada; e, no caso do algoritmo
3.3.1, a forma como os objetos são trocados entre os grupos (BRUSCO et al., 2008).
Outra característica dos algoritmos propostos é que o número de grupos, K, deve ser fixado a priori, o que pode ser considerado uma deficiência em uma tarefa de análise de dados quando não se tem uma indicação do real número de grupos contidos nos dados. No entanto, como se trata de um problema supervisionado, pode-se usar validação cruzada para, dentro de uma faixa de valores de K, determinar o seu melhor valor.
3.6
Considerações Finais
Neste capítulo foi apresentado os conceitos da regressão linear clusterwise, sua definição, algoritmos e problemas como o overfitting dos dados e a dificuldade encontrada na escolha de um modelo linear em uma tarefa de previsão.
O desenvolvimento de procedimentos efetivos de modelagem para capturar a heterogeneidade em um conjunto de dados é um problema importante nas ciências sociais e comportamentais (BRUSCO et al., 2008). O método cluserwise é uma técnica capaz de capturar esta heterogeneidade particionando o conjunto de dados de forma a melhorar a capacidade de explicação da variável resposta. Devido à grande possibilidade de overfitting o método clusterwise deve ser utilizado com muito cuidado em uma tarefa de modelagem. Se o objetivo é apenas previsão então o overfitting é menos importante, no entanto ainda permanece o problema da escolha do melhor modelo a ser utilizado.
O próximo capítulo apresenta dois métodos de regressão linear do tipo clusterwise que tem por objetivo minimizar alguns dos problemas discutidos na seção 3.5.
4 COMBINANDO REGRESSÃO LINEAR
CLUSTERWISE E K-MEANS COM PON-
DERAÇÃO AUTOMÁTICA DAS VARIÁ-
VEIS EXPLICATIVAS
O objetivo deste capítulo é apresentar o método de Regressão Linear Clusterwise com Ponderação Automática da Variáveis Explicativas (WCLR). Também, os conceitos sobre regressão K-plane, do qual o método proposto é derivado, é demostrado em detalhes.
O capítulo está organizado como segue: na primeira parte, está contextualizado o problema de regressão K-plane e a formação de grupos homogêneos em relação as variáveis explicativas; na segunda parte o método de regressão WCLR é descrito em detalhes; por fim, são feitas as considerações finais.
4.1
Introdução
Uma das formas de modelar uma função não linear é utilizar uma aproximação a partir de uma função linear piecewise. Utilizar uma função linear piecewise facilita o entendimento do comportamento do hiperplano de regressão. Nas abordagens que utilizam uma função linear piecewise o espaço dos dados é particionado em regiões disjuntas (em relação às variáveis explicativas) e, para cada região, uma função de regressão linear é ajustada.
Os métodos existentes para a modelagem de funções lineares piecewise podem ser classificados em dois grandes grupos: no primeiro, se utiliza modelos paramétricos de regressão, onde a variável de predição é modelada a partir de uma forma predeterminada; no outro, a variável preditora não toma uma forma predeterminada, e o modelo de regressão é construído de acordo com as informações derivadas dos dados.
No grupo das funções paramétricas, da mesma forma que na regressão linear tradicional (seção 2.3), o objetivo é otimizar o conjunto de parâmetros de uma função piecewise suposta para os dados. Este conjunto de parâmetros é geralmente estimado a partir da solução de algum problema de otimização, normalmente, a minimização da soma dos quadrados dos erros (critério2.3). Dois exemplos desse tipo de método são: a regressão por misturas de experts; e a regressão por mistura hierárquica de experts (JACOBS et al.,
Dentre as abordagens não paramétricas, os métodos de Árvores de Regressão
(STEINBERG; COLLA, 2009; ALPAYDIN, 2014) são os mais utilizados (MANWANI;
SASTRY, 2015). Uma árvore de regressão é construída a partir de uma partição binária
do conjunto de dados de uma forma gulosa (do inglês, greedy). No caso de uma árvore univariada, apenas uma dimensão (atributo) é utilizado no seu particionamento. Em uma árvore multivariada todas as variáveis de entrada podem ser utilizadas na sua divisão, sendo uma abordagem mais genérica. As árvores de regressão dividem as observações do conjunto de dados em seus nós de forma a ajustar um modelo de regressão linear em cada nó, minimizando a soma dos quadrados dos erros. Diferente de uma árvore de decisão onde os nós folha representam rótulos de classes, os nós folhas em uma árvore de regressão estão associados a um modelo de regressão linear. A maioria dos algoritmos de aprendizagem de árvores de regressão são gulosos por natureza. Em qualquer nó da árvore, uma vez que um hiperplano de regressão é ajustado, ele não pode ser alterado depois. A natureza gulosa desse tipo de método pode acarretar em árvores subótimas. Outras abordagens não paramétricas para a modelagem de uma função linear piecewise são: hinging hyperplanes
(BREIMAN, 1993); e bounded error approach (BEMPORAD et al., 2003).
A maioria das abordagens existentes para a modelagem de funções de regressão encontram uma aproximação contínua para o hiperplano de regressão, mesmo quando a superfície modelada é descontínua. Os métodos de regressão que estão descritos nas próximas seções, Regressão K-plane e Regressão Linear Clusterwise com Ponderação Automática das Variáveis Explicativas, são capazes de modelar um hiperplano de regressão descontínuo a partir do particionamento do conjunto de variáveis explicativas presentes nos dados.