Combinando regressão linear clusterwise e k-means com ponderação automática das variáveis explicativas

(1)

Combinando Regressão Linear Clusterwise e

K-Means com Ponderação Automática das

Variáveis Explicativas

Universidade Federal de Pernambuco [email protected]

<www.cin.ufpe.br/~posgraduacao>

RECIFE

2017

(2)

Combinando Regressão Linear Clusterwise e

K-Means com Ponderação Automática das

Variáveis Explicativas

Dissertação apresentada ao Programa de

Pós-Graduação em Ciência da Computação da Univer-sidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre em Ciência da Computação.

ORIENTADOR: Prof. Dr. Francisco de Assis

Tenório de Carvalho

RECIFE

2017

(3)

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

S586c Silva, Ricardo Azevedo Moreira da

Combinando regressão linear clusterwise e k-means com ponderação automática das variáveis explicativas / Ricardo Azevedo Moreira da Silva. – 2017.

93 f.:il., fig., tab.

Orientador: Francisco de Assis Tenório de Carvalho.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn, Ciência da Computação, Recife, 2017.

Inclui referências e apêndices.

1. Inteligência artificial. 2. Regressão linear. I. Carvalho, Francisco de Assis Tenório de (orientador). II. Título.

006.3 CDD (23. ed.) UFPE- MEI 2017-173

(4)

Combinando Regressão Linear Clusterwise e K-Means

com Ponderação Automática das Variáveis Explicativas

Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre em Ciência da Computação.

Aprovado em: 21/07/2017

BANCA EXAMINADORA

Prof. Dr. George Darmiton da Cunha Cavalcanti Centro de Informática - UFPE

Prof. Dr. Eufrásio de Andrade Lima Neto Departamento de Estatística - UFPB

Prof. Dr. Francisco de Assis Tenório de Carvalho Centro de Informática - UFPE

(orientador)

Recife

2017

(5)

(6)

Agradeço a todos os que me acompanharam e me incentivaram durante o desenvol-vimento deste trabalho. Agradeço aos meus amigos e colegas do Centro de Informática da UFPE cujas conversas enriqueceram a minha imaginação e me motivaram a continuar neste caminho.

Gostaria de agradecer especialmente ao meu orientador, Prof. Dr. Francisco de A. T. de Carvalho, não apenas por ter sido meu mentor durante os dois anos deste trabalho de mestrado mas também pela sua enorme paciência e estímulo até a sua conclusão. Agradeço aos professores e professoras do Centro de Informática que me ajudaram com idéias e reflexões sobre os diversos temas estudados.

Agradeço acima de tudo à minha família cujo apoio foi decisivo para o término deste trabalho.

(7)

alimentarão a esperança de muitos e correrão o doce risco de um dia ver os sonhos realizados.” (Dom Helder Camara)

(8)

Este trabalho propõe um método de regressão linear do tipo clusterwise cujo objetivo é fornecer modelos de regressão linear baseados em grupos homogêneos de observações em relação às variáveis explicativas e que são bem ajustados em relação à variável de resposta. Para atingir esse objetivo, este método combina o método regressão linear do tipo clusterwise padrão e o método de agrupamento K-means com a ponderação automática das variáveis explicativas. Os pesos das variáveis explicativas mudam em cada iteração do algoritmo e são diferentes de uma variável para outra. Assim, este método é capaz de selecionar as variáveis relevantes na busca por clusters homogêneos em relação às variáveis explicativas. Por fim, uma vez que ele aprende simultaneamente um protótipo de grupo e um modelo de regressão linear para cada cluster, ele é capaz de atribuir um modelo de regressão apropriado para uma observação desconhecida com base na sua descrição através de suas variáveis explicativas. Experimentos com conjuntos de dados sintéticos e reais corroboram a utilidade do método proposto.

Palavras-chave: Regressão linear. Regressão clusterwise. Agrupamento K-means. Regres-são K-plane. Distância adaptativa.

(9)

This work gives a linear regression method of the clusterwise type aiming to provide linear regression models that are based on homogeneous clusters of observations w.r.t. the explanatory variables and that are well fitted w.r.t. the response variable. To achieve this goal, this method combines the standard clusterwise linear regression method and the K-means clustering method with the automatic weighting of the explanatory variables. The relevance weights of the explanatory variables change in each iteration of the algorithm and are different from one variable to another. Thus, this method is able to select the relevant variables in the search for homogeneous clusters w.r.t. the explanatory variables. Finally, since it simultaneously learns a prototype and a linear regression model for each cluster, this method is able to assign an appropriate regression model to an unknown observation based on its description through its explanatory variables. Experiments with synthetic and real datasets corroborate the utility of the proposed method.

Keywords: Linear regression. Clusterwise regression. K-means Clustering. K-plane re-gression. Adaptive distance.

(10)

Figura 1 – Interpolação e Extrapolação . . . 24

Figura 2 – Tipos de relacionamentos lineares intra-grupo e inter-grupos . . . 33

Figura 3 – Problema com o método clusterwise . . . 47

Figura 4 – Ilustração gráfica do viés e da variância . . . 58

Figura 5 – Conjuntos de dados sintéticos 1 . . . 70

Figura 6 – Conjuntos de dados sintéticos 2 . . . 71

Figura 7 – Boxplots para os conjuntos de dados sintéticos . . . 75

(11)

Tabela 1 – Representação tabular de uma amostra de dados . . . 21

Tabela 2 – Conjuntos de hiper-parâmetros . . . 67

Tabela 3 – Seleção de modelos para os conjuntos de dados sintéticos . . . 72

Tabela 4 – Avaliação dos modelos para os conjuntos de dados sintéticos . . . 74

Tabela 5 – Conjuntos de dados de benchmark . . . 78

Tabela 6 – Seleção de modelos para os conjuntos de dados de benchmark . . . 79

(12)

BCSSY soma dos quadrados entre clusters (do inglês, Between-cluster Sum of Squares)

CLR regressão linear clusterwise (do inglês, Clusterwise Linear Regression)

LS mínimos quadrados (do inglês, Least-squares)

MLR regressão linear múltipla (do inglês, Multiple Linear Regression) OLS mínimos quadrados ordinário (do inglês, Ordinary Least-square)

PRESS soma dos quadrados das previsões (do inglês, Prediction Sum of Squares) RMSE raiz do erro quadrado médio (do inglês, Root Mean Square Error )

R2 coeficiente de determinação

R2_clr coeficiente de determinação para o método CLR

SSEX soma dos quadrados dos erros em X (do inglês, Sum of Squares of the Error with relation to X )

SSEY soma dos quadrados dos erros em Y (do inglês, Sum of Squares of the Error with relation to Y )

SSRY soma dos quadrados dos resíduos (do inglês, Sum of Squares of the Residual)

TSSY soma dos quadrados total (do inglês, Total Sum of Squares)

WCSSY soma dos quadrados intra-cluster (do inglês, Within-cluster Sum of Squares)

WCLR regressão linear clusterwise ponderada (do inglês, Weighted Clusterwise Linear Regression)

(13)

B conjunto dos coeficientes de regressão

Ck um grupo (elemento de P )

E conjunto de observações (objetos, pontos, instâncias)

e um elemento de E

ei o i-ésimo elemento de E

G conjunto dos protótipos de grupos

gk protótipo do k-ésimo grupo

g(·) função representando um modelo (processo) paramétrico

i índice utilizado na indexação dos elementos de E

J (·) função objetivo (de custo, de erro)

j índice utilizado na indexação das variáveis explicativas

K número de grupos (clusters)

k índice utilizado na indexação dos grupos

L conjunto dos pesos de ponderação

n número de elementos de E

P uma partição sobre E

p número de variáveis explicativas

x lista de variáveis explicativas (preditoras)

xj j-ésima variável explicativa

xij valor da j-ésima variável preditora da i-ésima observação

y variável resposta

yi valor da variável resposta da i-ésima observação

ˆ

(14)

ˆ

yik valor predito da i-ésima observação do k-ésimo grupo

α parâmetro definido pelo usuário

βj j-ésimo coeficiente de regressão

ˆ

βj valor estimado para o j-ésimo coeficiente de regressão

βjk j-ésimo coeficiente de regressão do k-ésimo grupo

ˆ

βjk valor estimado para o j-ésimo coeficiente de regressão do k-ésimo grupo

γ parâmetro definido pelo usuário

(15)

1 INTRODUÇÃO . . . 17

1.1 Objetivo do Trabalho . . . 18

1.2 Produção Bibliográfica . . . 19

1.3 Organização do Trabalho . . . 19

2 REGRESSÃO LINEAR MÚLTIPLA . . . 20

2.1 Análise de Regressão. . . 20

2.2 Notação Básica e Definições . . . 20

2.3 Regressão Linear Múltipla . . . 21

2.3.1 Método dos Mínimos Quadrados . . . 22

2.4 Coeficiente de Determinação . . . 28

2.5 Utilização e Interpretação de um Modelo de Regressão . . . 28

2.5.1 A Relação entre Causa e Efeito . . . 28

2.5.2 Interpretação dos Coeficientes de Regressão . . . 29

2.5.3 Principais Usos para as Técnicas de Regressão . . . 29

2.6 Considerações Finais . . . 30

3 REGRESSÃO LINEAR CLUSTERWISE . . . 31

3.1 Heterogeneidade em um Conjunto de Dados . . . 31

3.2 Regressão Linear Clusterwise . . . 33

3.3 Algoritmo CLR . . . 34

3.3.1 Algoritmo Sequencial . . . 35

3.3.2 Algoritmo em Lote . . . 36

3.3.3 Demais Algoritmos . . . 40

3.4 Análise de Variância . . . 41

3.5 Problemas com o Método Clusterwise . . . 43

3.5.1 Convergência em soluções subótimas. . . 43

3.5.2 Sobreajuste dos dados . . . 43

3.5.3 Validação dos grupos formados . . . 43

3.5.4 Falta de uma função de afetação . . . 43

3.5.5 Outros problemas/características . . . 44

3.6 Considerações Finais . . . 44

4 COMBINANDO REGRESSÃO LINEAR CLUSTERWISE E K-MEANS COM PONDERAÇÃO AUTOMÁTICA DAS VARIÁVEIS EXPLICA-TIVAS. . . 45

(16)

4.2 Regressão K-plane . . . 46

4.2.1 Algoritmo K-plane . . . 48

4.2.2 Previsão . . . 50

4.3 Distâncias Adaptativas. . . 51

4.4 Regressão Linear Clusterwise com Ponderação Automática das Va-riáveis Explicativas . . . 52 4.4.1 Método WCLR . . . 52 4.5 Algoritmo WCLR . . . 53 4.5.1 Passo de Representação . . . 53 4.5.2 Passo de Ponderação . . . 53 4.5.3 Passo de Modelagem . . . 54 4.5.4 Passo de Alocação . . . 54 4.5.5 Algoritmo em Lote . . . 54 4.5.6 Previsão . . . 56 4.6 Considerações finais . . . 56 5 ANÁLISE EXPERIMENTAL . . . 57

5.1 O Compromisso entre o Viés e a Variância . . . 57

5.2 Metodologia Experimental . . . 59

5.2.1 Método de Validação Cruzada . . . 60

5.2.2 Seleção de Modelos . . . 61

5.2.3 Avaliação de Modelos. . . 62

5.2.4 Medidas de Performance . . . 64

5.2.5 Outros Métodos Utilizados para Teste . . . 65

5.2.6 Critério de Alocação . . . 66

5.2.7 Hiper-parâmetros . . . 66

5.2.8 Implementação dos Métodos . . . 67

5.3 Conjuntos de Dados Sintéticos . . . 68

5.4 Conjuntos de Dados de Benchmark . . . 74

5.5 Considerações finais . . . 83

6 CONCLUSÃO . . . 84

(17)

DE DADOS DE BENCHMARK . . . 89

(18)

1 INTRODUÇÃO

A Análise de Regressão compreende uma coleção de métodos estatísticos utilizados na investigação e modelagem de um grupo de observações descritas por duas ou mais variá-veis de interesse (MONTGOMERY; PECK; VINING,2001). A modelagem por Regressão inclui um conjunto de metodologias bem conhecidas utilizadas para descrever uma variável dependente (variável resposta) estimando os parâmetros de um modelo estatístico teórico aos dados disponíveis de forma que a sua relação com uma ou mais variáveis independentes (variável explicativa ou preditiva) possa ser explicada empiricamente, ao menos de forma razoável. O método de regressão mais utilizado é a Regressão Linear (MONTGOMERY;

PECK; VINING, 2001). Nele, uma ou mais variáveis explicativas estão relacionadas à uma

variável resposta através de um modelo linear em relação aos seus parâmetros.

Um conjunto de dados é dito homogêneo se for constituído por observações que possuam traços semelhantes (de mesma natureza) entre si. Um conjunto de dados cujas observações possuam traços diversos (composto por partes distintas) é chamado de he-terogêneo. Conjuntos de dados heterogêneos são extremamente comuns na prática. Na Regressão, o problema da heterogeneidade existe pelo potencial que diferentes preditores (variáveis explicativas) têm de serem importantes para diferentes grupos, sendo necessário um modelo de regressão linear para cada grupo de forma que o conjunto de dados seja corretamente modelado.

A abordagem clássica para resolver o problema de se estabelecer vários modelos de regressão linear múltipla para um conjunto de dados heterogêneo é chamada de Regressão Linear Clusterwise (CLR) (SPÄTH,1979; SPÄTH,1982) que utiliza uma abordagem bem conhecida da Análise de Agrupamentos, o critério da mínima variância (SPATH, 1977), cujo objetivo é encontrar uma partição dos dados de forma que a soma dos quadrados dos resíduos de cada grupo seja mínima. O resíduo de regressão é definido como a diferença entre o valor observado e o valor previsto por uma reta de regressão ajustada aos dados disponíveis. Dessa forma, o método de regressão linear clusterwise pode ser visto como uma combinação entre a análise de agrupamentos partitivo e a regressão linear de forma que os grupos são obtidos de forma supervisionada.

Embora de concepção simples, o critério de minimização da soma dos quadrados dos resíduos para cada grupo pode levar a alguns problemas bem conhecidos em termos de convergência e qualidade dos modelos de regressão, como, por exemplo, o sobreajuste dos dados. Também, o método regressão linear clusterwise não é capaz de identificar relacionamentos lineares em grupos homogêneos, em relação às variáveis explicativas, que possuam uma coesão interna e uma separação externa. O processo de agrupamento segue

(19)

apenas o requisito de resíduo mínimo, o que pode atribuir observações muito distantes, em termos de suas variáveis explicativas, ao mesmo grupo, apenas porque elas têm o menor resíduo em relação ao modelo de regressão associado a este grupo. Em consequência, torna-se difícil a escolha do modelo de regressão apropriado para uma obtorna-servação desconhecida a partir das medidas de suas variáveis explicativas.

Apesar de alguns métodos existentes cumprirem esses requisitos, eles não levam em conta a relevância das variáveis explicativas, ou seja, esses métodos consideram que todas as variáveis explicativas são igualmente importantes para o processo de agrupamento, no sentido de que todas as variáveis explicativas têm a mesma relevância. No entanto, na maioria das áreas, normalmente temos que lidar com conjuntos de dados de alta dimensionalidade. Portanto, algumas variáveis explicativas podem ser irrelevantes e, entre as relevantes, algumas podem ser mais ou menos relevantes do que outras (DIDAY;

GOVAERT, 1977;HUANG et al.,2005;MODHA; SPANGLER,2003).

Uma estratégia melhor é considerar que podem existir diferenças na relevância entre as variáveis explicativas. Ao considerar essas relevâncias o desempenho do processo de agrupamento pode ser melhorado. Utilizamos uma métrica de distância adaptativa

(DIDAY; GOVAERT, 1977) para avaliar a relevância das variáveis explicativas durante o

processo de agrupamento. Esta abordagem permite-nos agrupar o conjunto de dados em grupos homogêneos em relação às variáveis explicativas relevantes.

Em resumo, o método proposto combina o método de regressão linear clusterwise padrão e o método de agrupamento K-means com a computação automática da relevância para as variáveis explicativas com o objetivo de formar grupos homogêneos baseados simultaneamente nas variáveis explicativas relevantes e na minimização da soma dos quadrados dos resíduos da variável resposta. Por aprender simultaneamente um protótipo de grupo e um modelo de regressão linear para cada grupo ele é capaz de fornecer um modelo de regressão apropriado para uma observação desconhecida com base na sua descrição através de suas variáveis explicativas.

1.1 Objetivo do Trabalho

O objetivo deste trabalho é propor um método de regressão do tipo clusterwise para a modelagem de um conjunto de dados heterogêneo, cujo objetivo é fornecer modelos de regressão linear baseados em agrupamentos homogêneos de observações, em relação às suas variáveis explicativas, e que sejam bem ajustados em relação à variável resposta, definindo um critério que possa identificar as variáveis explicativas relevantes da estrutura de agrupamento presente nos dados.

(20)

1.2 Produção Bibliográfica

Este trabalho resultou, como produção bibliográfica, no artigo de título “On Combining Clusterwise Linear Regression and K-means with Automatic Weighting of the Explanatory Variables” aceito para o vigésimo sexto International Conference on Artificial Neural Networks (ICANN) a ser realizado entre os dias 11-15 de setembro de 2017 e, dessa forma, ainda não publicado durante a finalização de sua redação. No Anexo A estão a primeira página do artigo aceito assim como o e-mail comprovando a sua aceitação na conferência.

1.3 Organização do Trabalho

Este trabalho está organizado como segue.

Os capítulos 2 e 3 apresentam os conceitos preliminares sobre regressão linear múltipla e regressão linear clusterwise. O capítulo sobre regressão linear clusterwise também apresenta os conceitos sobre a análise de agrupamentos, no contexto de regressão linear clusterwise, necessários para o entendimento e desenvolvimento do restante do texto.

O capítulo seguinte é dedicado à combinação entre os conceitos de regressão linear clusterwise e do método de agrupamento K-means. O método de regressão K-plane é descrito. Também, o método proposto de regressão linear clusterwise com ponderação automática das variáveis explicativas (WCLR) é apresentado.

No quinto capítulo está a análise experimental feita comparando o desempenho relativo entre todos os métodos de regressão apresentados durante o desenvolvimento do texto

Por fim, no último capítulo, é apresentada a conclusão deste trabalho, suas principais contribuições e os trabalhos futuros.

(21)

2 REGRESSÃO LINEAR MÚLTIPLA

O objetivo deste capítulo é apresentar os conceitos sobre Regressão Linear Múltipla necessários para o entendimento do restante do texto.

O capítulo está organizado como segue: na primeira parte está contextualizado o problema de regressão linear seguido pela apresentação da notação básica utilizada durante o texto; na segunda parte é apresentado o método de regressão linear por mínimos quadrados; por fim, são feitas algumas observações sobre a utilização e interpretação do modelo de regressão, seguido pelas considerações finais.

2.1 Análise de Regressão

A Análise de Regressão compreende uma coleção de métodos estatísticos utilizados na investigação e modelagem de um grupo de observações descritas por duas ou mais variá-veis de interesse (MONTGOMERY; PECK; VINING,2001). A modelagem por Regressão inclui um conjunto de metodologias bem conhecidas utilizadas para descrever uma variável dependente (variável resposta) estimando os parâmetros de um modelo estatístico teórico aos dados disponíveis de forma que a sua relação com uma ou mais variáveis independentes (variável explicativa ou preditiva) possa ser explicada empiricamente, ao menos de forma

razoável.

A partir dos dados disponíveis é possível inferir a relação entre uma variável resposta e uma ou mais variáveis explicativas por meio de suas relações empíricas, ou seja, por meio do relacionamento existente na amostra coletada para estudos. O modelo estatístico de regressão deve representar, da melhor forma possível, o relacionamento funcional entre as variáveis dependente e independentes. Isto significa que, dado um conjunto de valores para as variáveis preditivas, o modelo deve retornar o valor mais próximo possível ao mensurado experimentalmente.

2.2 Notação Básica e Definições

De forma a permitir o entendimento do restante do texto, nesta seção, é estabelecida a notação básica utilizada durante o seu desenvolvimento assim como alguns conceitos utilizados na análise de regressão.

(22)

Conjunto de Dados

Seja E = {e1, e2, . . . , en : ei = (yi, xi) ∈ R × Rp} um conjunto com n

observa-ções (também chamadas de objetos, pontos ou instâncias) indexadas por i = 1, 2, . . . , n. Assume-se, de forma tácita, que uma observação é descrita por um conjunto de variáveis (características, atributos, propriedades). Neste trabalho, todas as variáveis são quanti-tativas (medidas). Cada observação e é representada por uma tupla e = (y, x) onde y representa uma variável resposta e x = (x1, x2, . . . , xp) representa uma lista de p variáveis

explicativas indexadas por j = 1, 2, . . . , p. O valor da j-ésima variável explicativa, xj, da

i-ésima observação, ei, é denotado como xij ∈ R e o valor valor da i-ésima variável resposta

como yi ∈ R.

O conjunto de observações pode ser representado na forma tabular como na Tabela 1.

Tabela 1 – Representação tabular de uma amostra de dados observação variável resposta variáveis explicativas

i y x1 x2 . . . xp 1 y1 x11 x12 . . . x1p 2 y2 x21 x12 . . . x2p .. . ... ... ... ... ... n yn xn1 xn2 . . . xnp

Erro e Resíduo

Na estatística e na otimização, os erros e os resíduos são duas medidas intimamente relacionadas, e facilmente confundidas. O erro (ou perturbação) é a diferença entre o valor observado e o seu valor real (não observável) de uma quantidade de interesse (por exemplo, uma média populacional) enquanto que o resíduo é a diferença entre o valor observado e o valor estimado da quantidade de interesse (por exemplo, uma média amostral).

Dessa forma, em um contexto de regressão, o erro de regressão pode ser definido como a diferença entre o valor observado (mensurado) e o seu valor real de uma reta ideal dos dados. Enquanto que o resíduo de regressão é definido como a diferença entre o valor observado e o valor previsto por uma reta de regressão ajustada aos dados disponíveis.

2.3 Regressão Linear Múltipla

Na Regressão, o objetivo é inferir (aprender empiricamente) o relacionamento entre uma variável resposta, y, e um conjunto de variáveis explicativas, X, de forma que a soma

(23)

dos resíduos de regressão seja minimizado. Na regressão paramétrica, este relacionamento pode ser modelado, de forma genérica, como um processo (uma função) cuja entrada são as variáveis explicativas e a saída o valor mensurado, ou seja

y = g(x; Θ) (2.1)

onde Θ representa o conjunto de parâmetros de um modelo de regressão teórico qualquer g(·).

Na Regressão Linear Múltipla, abreviado MLR, o modelo matemático g(·) é definido como um relacionamento linear entre os seus parâmetros, Θ = {β0, β1, β2, . . . , βp}, e as

variáveis explicativas, na forma

g(x; θ) = β0+ x1β1+ x2β2+ . . . + xpβp = β0+ p X j=1 xjβj. (2.2)

Por definição, dado um conjunto de dados E, com n p, na regressão linear múltipla, o conjunto de parâmetros Θ = {β0, β1, β2, . . . , βp} é ajustado (estimado) aos

dados disponíveis de forma a minimizar a função de custo

Jmlr(E; Θ) = n X i=1 e2_i = n X i=1  y_i − β₀− p X j=1 xijβj   2 (2.3)

em relação ao conjunto de parâmetros Θ = {β0, β1, β2, . . . , βp}.

J (·) é chamada de função de erro (do inglês, loss function) (função de custo ou função objetivo) e deve ser otimizada (minimizada) através de um determinado procedimento (algébrico ou iterativo) de forma a melhor se ajustar a amostra de dados disponível para treinamento. Na MLR por mínimos quadrados, esta otimização é feita através do método dos Mínimos Quadrados como descrito na próxima seção.

2.3.1 Método dos Mínimos Quadrados

Nota Histórica

Não está inteiramente claro quem desenvolveu o método dos mínimos quadrados. A maioria dos autores o atribui à Karl Friedrich Gauss (1777-1855), que publicou pela primeira vez sobre o assunto em 1809. Mas o francês Adrien Marie Legendre (1752-1833)

(24)

"publicou uma explicação clara do método, com um exemplo trabalhado, em 1805", de acordo com Stephen Stigler em Statistics on the Table (Cambridge, Massachusetts, Harvard University Press, 1999). Ao longo do tempo, o conceito matemático de mínimos quadrados se tornou a base de vários métodos que têm por objetivo ajustar curvas e superfícies a um conjunto de observações. Por exemplo, na determinação da forma e tamanho do corpos celestes e de suas trajetórias (NIEVERGELT,2000): ao configurar o novo sistema métrico de medição, o medidor deve ser fixado em uma dez-milionésima da distância do Pólo Norte através de Paris ao Equador; os topógrafos tinham medido porções desse arco, e Legendre desenvolveu o método dos mínimos quadrados para obter a melhor medida para todo o arco.

Apesar da longa história e múltiplas aplicações, nas próximas seções são vistos apenas os conceitos sobre Mínimos Quadrados necessários para a sua aplicação em um problema de Regressão Linear Múltipla.

Ajuste de Curvas

De forma a entender melhor o método dos mínimos quadrados é interessante apresentar, antes, alguns conceitos gerais sobre o ajuste de curvas.

O ajuste de curvas é o processo de construir uma curva, ou função matemática, que possui o melhor ajuste em relação a um conjunto de pontos. A curva ajustada pode ter, basicamente, dois objetivos: interpolação, quando é necessário um ajuste exato aos dados; ou suavização (do inglês, smoothing), quando uma função “suave” é construída, que se ajusta apenas de forma aproximada aos dados. As curvas ajustadas podem ser utilizadas como um auxílio para a visualização dos dados; para inferir valores a partir de uma função cujos dados não estão disponíveis; e para resumir (modelar) o relacionamento entre duas ou mais variáveis. A extrapolação refere-se à utilização de uma curva ajustada para além do intervalo dos dados observados, e está sujeita a um grau de incerteza, uma vez que pode refletir o método utilizado para construir a curva tanto quanto reflete os dados observados. Por exemplo, na Figura 1, a linha de regressão ajustada a partir dos dados (círculos em azul) deve ser utilizada como uma aproximação da função de regressão verdadeira apenas no intervalo contido nos dados. Uma nova observação (quadrado azul), que não pertence a este intervalo, vai refletir o método de regressão utilizado, neste caso uma regressão linear, com um valor previsto (estrela azul) visivelmente dispare em relação ao seu valor real.

Intuitivamente, é possível pensar que o melhor ajuste é um ajuste “próximo”, ou seja, uma curva com o menor espaço entre a curva e os pontos que ela deve modelar (as medições reais). Supondo que os dados estão em um espaço R2, há três maneiras de medir o espaço entre um ponto e uma curva: verticalmente na direção y; horizontalmente na direção x; e de forma perpendicular à curva.

(25)

Figura 1 –Interpolação e Extrapolação

valor de uma determinada observação. As distâncias verticais indicam exatamente o quão longe as previsões (dadas pela curva ajustada) estão das medições reais. Dessa forma, na regressão, o melhor ajuste é minimizar o espaço vertical entre a curva ajustada e um ponto qualquer.

Definido o tipo de ajuste desejado, é necessário encontrar uma forma de minimizar o desvio entre o valor predito e o valor real de todas as observações coletadas. Este desvio pode ser um valor positivo, caso o valor predito seja maior que o valor real; ou negativo, caso o valor predito seja menor que o valor real. Em geral, o desvio (intervalo vertical) entre um ponto qualquer (y, x) e uma curva g(·), é mensurado através do resíduo de regressão: r = y − g(x) = y − ˆy.

Cada desvio pode ser positivo ou negativo, dependendo se a curva estiver acima ou abaixo do ponto. Não é conveniente simplesmente somar os desvios, porque então uma curva seria considerada boa caso estivesse abaixo de alguns poucos pontos com grandes desvios positivos, e acima de muitos pontos com pequenos desvios negativos de forma que a soma dos desvios, positivos e negativos, esteja próxima a zero; o que indicaria, erroneamente, um bom ajuste da curva. A forma mais utilizada de superar este problema é utilizar o quadrado do desvio calculado. Assim, o objetivo é ajustar uma curva a um conjunto de observações de forma a minimizar a soma dos quadrados dos desvios:

Jls(E; Θ) = X i=1 e2_i = n X i=1 (y − g(x; Θ))2 (2.4)

(26)

adequada para minimizar, a utilização do valor absoluto,

n

X

i=1

|y −g(x)|, resulta em derivadas descontínuas que não podem ser tratadas analiticamente.

De forma resumida, a curva de melhor ajuste para uma tarefa de Regressão é calculada em relação aos desvios na direção y. Uma vez que é uma soma dos quadrados dos desvios este método é chamado de Método dos Mínimos Quadrados.

Método dos Mínimos Quadrados Linear

Os Mínimos Quadrados Linear é o problema de resolver aproximadamente um sistema sobredeterminado de equações lineares, onde a melhor aproximação é definida como aquela que minimiza a soma de diferenças quadráticas entre os valores coletados e seus correspondentes valores modelados. A abordagem é chamada de mínimos quadrados linear, uma vez que a função assumida é linear nos parâmetros a serem estimados. Os problemas de mínimos quadrados linear é convexo e têm uma solução de forma fechada que é única, desde que o número de observações de dados utilizados para a estimação seja igual ou superior ao número de parâmetros desconhecidos (exceto em situações especiais degeneradas).

Na Regressão Linear Múltipla, o método dos Mínimos Quadrados é utilizado para estimar os valores dos coeficientes de regressão β0, β1, β2, . . . , βp da função objetivo Jmlr

(equação 2.3).

A técnica dos mínimos quadrados linear é uma das formas mais simples e mais comumente aplicadas de regressão linear múltipla pois fornece uma solução algébrica para o problema de ajustar o melhor hiperplano de regressão (desde que os pressupostos necessários estejam satisfeitos) a um conjunto de observações.

Do Cálculo sabe-se que, se uma função f possui um extremo relativo em um ponto c, então c é um ponto crítico para f . c é um ponto crítico para a uma função f quando f é definida em c e a sua derivada é nula. Assim, a função quadrática 2.3 pode ser minimizada de forma algébrica igualando-se a derivada parcial de Jmlr em relação a β0

e, separadamente, as derivadas parciais de Jmlr em relação a β1, β2, . . . , βp, todas iguais

a zero. Substituindo β0, β1, . . . , βp por seus valores estivamos ˆβ0, ˆβ1, . . . , ˆβp, se obtém o

sistema de equações parciais

∂Jmlr ∂β0 = −2 n X i=1 (yi− ˆβ0− p X j=1 ˆ βjxij) = 0 (2.5) ∂Jmlr ∂βj = −2 n X i=1 (yi− ˆβ0− p X l=1 ˆ βlxil)xij = 0 (j = 1, 2, . . . , p)

(27)

β, como a primeira derivada é 0 e a segunda derivada é um valor positivo então se tem um ponto de mínimo relativo definido para a função objetivo 2.3.

Cada equação é então dividida pelo fator comum 2, e os termos não envolvendo β0 ou βj são movidos para o lado direto da equação resultando no sistema de equações

normais por mínimos quadrados:

ˆ β0n + ˆβ1 n X i=1 xi1+ ˆβ2 n X i=1 xi2+ . . . + ˆβp n X i=1 xip = n X i=1 yi (2.6) ˆ β0 n X i=1 xij + ˆβ1 n X i=1 xijxi1+ ˆβ2 n X i=1 xijxi2+ . . . + ˆβp n X i=1 xijxip = n X i=1 xijyi (j = 1, 2, . . . , p)

Neste sistema os somatórios são todos números (constantes), o resultado de somar x e y em várias combinações.

A solução do sistema de p + 1 equações2.6nos dá os valores calculados (estimados) por mínimos quadrados ˆβ0, ˆβ1, ˆβ2, . . . , ˆβp para os coeficientes da regressão (parâmetros)

β0, β1, β2, . . . , βp.

O sistema 2.6 pode ser resolvido diretamente através de algum método conhecido como: eliminação gaussiana, decomposição LU, decomposição de Cholesky, etc.

Também é possível colocá-lo na forma matricial como:

A ˆβ = b (2.7)               n n X i=1 xi1 n X i=1 xi2 . . . n X i=1 xip n X i=1 xi1 n X i=1 x2_i1 n X i=1 xi1xi2 . . . n X i=1 xi1xip .. . ... ... ... n X i=1 xip n X i=1 xipxi1 n X i=1 xipxi2 . . . n X i=1 x2_ip                       ˆ β0 ˆ β1 .. . ˆ βp         =               n X i=1 yi n X i=1 xi1yi .. . n X i=1 xipyi               (2.8)

e, supondo que A seja inversível, então resolver o sistema 2.7 algebricamente como

ˆ

β = A−1b (2.9)

Propriedades do Ajuste por Mínimos Quadrados

Na análise de regressão linear é comum supor algumas premissas sobre a amostra de dados. São elas: a amostra é representativa da população; o erro é entendido como uma variável aleatória com média zero e variância σ2; as variáveis independentes não contêm

(28)

erros em suas medições; as variáveis independentes são linearmente independentes; os erros não são correlacionados; e a variância dos erros é constante para todas as observações (homocedasticidade).

Assumindo que todas as premissas listadas no parágrafo anterior são verdadeiras é possível afirmar que o método dos mínimos quadrados estima os parâmetros de um modelo de regressão linear múltipla de forma não enviesada, consistente, e eficiente com as seguintes propriedades:

1. a soma dos resíduos é sempre nula

n X i=1 ri = n X i=1 (yi− ˆyi) = 0; (2.10)

2. A soma dos valores observados yi é igual a soma dos valores ajustados ˆyi n X i=1 yi = n X i=1 ˆ yi; (2.11)

3. o hiperplano de regressão por mínimos quadrados passa pelo ponto (¯y, ¯x). De fato,

yi = β0+β1x1+εi = β0+β1(xi−¯x)+β1x+ε¯ i = (β0+β1x)+β¯ 1(xi−¯x)+εi = β0∗+β1(xi−¯x)+εi,

(2.12) com β₀∗ = β0+ β1x. Assim, a reta de regressão ajustada é dada por¯

ˆ y = ˆβ₀∗+ ˆβ1(xi−¯x) = ˆβ0+ ˆβ1x+ ˆ¯ β1(xi−¯x) = (¯y− ˆβ1x)+ ˆ¯ β1x+ ˆ¯ β1(xi−¯x) = ¯y+ ˆβ1(xi−¯x). (2.13) Logo, ˆ y = ¯y + ˆβ1(¯x − ¯x) = ¯y (2.14)

e portanto, temos que a reta ajustada passa por (¯y, ¯x);

4. a soma dos resíduos ponderados pelo correspondente valor da variável regressora é sempre nula

n

X

i=1

xiri = 0; (2.15)

5. a soma dos resíduos ponderado pelo correspondente valor ajustado é sempre zero

n

X

i=1

ˆ

(29)

2.4 Coeficiente de Determinação

O coeficiente de determinação, R2, é uma medida descritiva da qualidade do ajuste obtido. Ele pode ser entendido como a quantidade de variabilidade nos dados que é explicada pelo modelo de regressão ajustado, ou seja, o quanto o modelo foi capaz de explicar os dados coletados. O valor do coeficiente de determinação depende do número de observações, n, tendendo a crescer quando n diminui. Por exemplo, com n = 2, tem-se sempre R2 = 1.

O coeficiente de determinação é dado pela expressão

R2 = b β1 n X i=1 (xi− ¯x)Yi n X i=1 (Yi− ¯Y )2 (2.17)

ou seja, é a razão entre a soma de quadrados da regressão e a soma de quadrados total. No modelo com intercepto, podemos escrever

R2 = b β1 n X i=1 (xi− ¯x)Yi n X i=1 (Yi− ¯Y )2 = n X i=1 (xi− ¯x)Yi n X i=1 (xi− ¯x)Yi n X i=1 (xi− ¯x)2 n X i=1 (Yi− ¯Y )2 = n X i=1 (xi− ¯x)Yi !2 n X i=1 (xi− ¯x)2 n X i=1 (Yi − ¯Y )2 . (2.18)

Dessa forma o coeficiente de determinação contém valores no intervalo 0 ≤ R2 ≤ 1.

2.5 Utilização e Interpretação de um Modelo de Regressão

A utilização de um modelo de regressão requer algum cuidado na interpretação dos coeficientes de regressão estimados assim como no seu uso para modelagem e/ou previsão. Nesta seção são feitas algumas observações sobre estes temas.

2.5.1 A Relação entre Causa e Efeito

Causalidade é a condição segundo a qual uma causa produz um efeito. É a relação necessária entre um evento A (a causa) e um segundo evento B (o efeito) de forma que o segundo evento seja uma consequência do primeiro. O princípio da causalidade pode ser enunciado como: todo fato tem uma causa, e as mesmas causas produzem, nas mesmas condições, os mesmos efeitos.

Um modelo de regressão não implica uma relação de causa e efeito entre as variáveis de interesse (MONTGOMERY; PECK; VINING,2001). Apesar de um forte relacionamento

(30)

empírico (a partir dos dados disponíveis) que possa existir entre duas ou mais variáveis, isto não pode ser considerado uma evidência de que as variáveis explicativas e a variável resposta estejam relacionadas de alguma forma por causa e efeito. Para se estabelecer o nexo de causalidade o relacionamento entre as variáveis deve ter uma base fora dos dados coletados, por exemplo, a partir de considerações teóricas. Um modelo de regressão ajustado pode ser utilizado com o objetivo de se confirmar o relacionamento de causa e efeito, mas não pode, por si só, ser a base de tal reivindicação.

2.5.2 Interpretação dos Coeficientes de Regressão

Em quase todas as aplicações de regressão linear a equação de regressão estimada por mínimos quadrados é apenas uma aproximação do verdadeiro relacionamento fun-cional entre as variáveis analisadas. Sendo assim, é necessário algum cuidado quanto à interpretação dos valores estimados para os coeficientes de regressão.

Suponha um conjunto de observações no espaço R3 com uma variável resposta, y, e duas variáveis explicativas, x = (x1, x2). O coeficiente β0 pode ser interpretado como o

intercepto do plano com o eixo z. Se (x1, x2) = (0.0, 0.0) o parâmetro β0 fornece a resposta

média nesse ponto. Caso contrário, não é possível interpretar o parâmetro β0.

O coeficiente β1 indica a mudança na resposta média a cada unidade de mudança em

x1, quando as demais variáveis são mantidas fixas. De forma semelhante é a interpretação

para o parâmetro β2 que indica uma mudança na resposta média a cada unidade de

mudança em x2, quando x1 é mantido constante.

2.5.3 Principais Usos para as Técnicas de Regressão

Os modelos de regressão podem ser construídos para diversos fins como, por exemplo

(MONTGOMERY; PECK; VINING,2001; ALPAYDIN, 2014):

Previsão Uma vez que esperamos que grande parte da variação da variável de saída (resposta) seja explicada pelas variáveis de entrada (explicativas), podemos utilizar o modelo ajustado aos dados para obter valores de saída correspondentes aos valores de entrada que não estavam entre os dados nos quais os modelo de regressão foi ajustado. Esse procedimento é chamado de predição e, em geral, usamos valores de entrada que estão dentro do intervalo de variação estudado. A utilização de valores fora desse intervalo recebe o nome de extrapolação e deve ser usada com muito cuidado pois o modelo adotado pode não ser correto fora do intervalo estudado; Modelagem Engenheiros e cientistas geralmente utilizam equações para resumir ou

descrever um conjunto de dados. As técnicas estatísticas de regressão são úteis para o desenvolvimento destes modelos;

(31)

Estimação de parâmetros Dado um modelo teórico e um conjunto de dados, é possível utilizar as técnicas de regressão de forma a se ajustar os parâmetros livres do modelo aos dados;

Seleção de variáveis Frequentemente não se tem ideia de quais são as variáveis que afetam significativamente a variação da variável dependente. Para responder a esse tipo de questão estudos são realizados com um grande número de variáveis. A análise de regressão pode auxiliar no processo de seleção de variáveis eliminando aquelas cuja contribuição para explicar a sua variação não sejam importantes;

Inferência O ajuste de um modelo de regressão em geral tem por objetivos básicos, além de estimar os seus parâmetros, realizar inferências sobre eles tais como: testes de hipóteses e intervalos de confiança.

Na literatura de regressão existem diversos métodos cujo único objetivo é fazer previsão: regressão K-NN e Kernel (ALTMAN, 1992), Redes Neurais (MONTGOMERY;

PECK; VINING, 2001), dentre outros. Estes métodos de regressão podem desempenhar

melhor em várias situações para as quais foram propostos, ou seja, em uma tarefa de previsão apenas, não é possível utilizá-los de forma simples para a modelagem de dados ou estimação de parâmetros. Apesar de a predição ser a aplicação mais comum para os modelos de regressão, quando se utiliza modelos (paramétricos) de regressão linear

(MONTGOMERY; PECK; VINING, 2001), o objetivo é, geralmente, utilizá-los de forma

a se fazer a descrição (modelagem) dos dados em estudo e/ou algum teste de hipóteses em relação aos seus parâmetros.

2.6 Considerações Finais

A regressão linear por mínimos quadrados é um dos mais antigos métodos de regressão. Devido à sua simplicidade matemática e de interpretação dos modelos obtidos ainda é, hoje em dia, uma das técnicas de regressão mais utilizadas na análise dos relacionamentos entre múltiplas variáveis, sendo aplicada nas ciências e engenharias de forma pervasiva.

Neste capítulo foi apresentada o método de Regressão Linear por Mínimos Quadra-dos: sua forma de ajuste; propriedades e características; assim como a interpretação dos modelos obtidos.

(32)

3 REGRESSÃO LINEAR CLUSTERWISE

O objetivo deste capítulo é apresentar o método de regressão linear clusterwise. Tam-bém, os conceitos sobre análise de agrupamentos importantes para a regressão clusterwise são discutidos durante o desenvolvimento do capítulo.

O capítulo está organizado como segue: na primeira é tratado é problema da heterogeneidade de um conjunto de dados; na segunda parte, o método de regressão clusterwise é descrito e a sua solução algorítmica é descrita em detalhe; por fim, são feitas algumas observações sobre a utilização e interpretação do modelo de regressão clusterwise, seguido pelas considerações finais.

3.1 Heterogeneidade em um Conjunto de Dados

Um conjunto de dados é dito homogêneo se for constituído por observações que possuam traços semelhantes (de mesma natureza) entre si. Um conjunto de dados cu-jas observações possuam traços diversos (composto por partes distintas) é chamado de heterogêneo. Conjuntos de dados heterogêneos são extremamente comuns na prática.

Identificar a heterogeneidade dos dados é um problema formidável, pervasivo nas ciências sociais e na psicologia (BRUSCO et al.,2008). Por exemplo, na psicologia clínica, há evidências de que os indivíduos com histórico de depressão possuem uma heterogeneidade considerável em relação aos padrões apresentados em seus sintomas quando param de fumar (BURGESS et al., 2002). Na psicologia do desenvolvimento, meninos rejeitados pelos pais, classificados de acordo com o nível de agressividade e comportamento social, diferem em relação aos padrões de aceitação social e adequação emocional à sociedade

(HASELAGER et al., 2002).

Uma questão relevante é como a heterogeneidade dos dados pode influenciar os relacionamentos entre uma variável resposta e as variáveis explicativas (VICARI; VICHI, 2013).

A suposição de homoscedasticidade (que significa "homogeneidade da variância") é central para os modelos de regressão linear. A homoscedasticidade descreve uma situação em que o termo de erro (ou seja, o “ruído” ou o distúrbio aleatório na relação entre as variáveis independentes e a variável dependente) é o mesmo em todos os valores das variáveis independentes. Heteroscedasticidade (a violação da homoscedasticidade) está presente quando a variância do erro difere entre os valores de uma variável independente.

(33)

outros efeitos de interação entre as variáveis em estudo. O problema surge da violação do pressuposto de que tais diferenças não existem ou já foram incorporadas no modelo. Estas diferenças podem existir devido a existência de vários grupos de dados entre as variáveis explicativas, de modo que mais de um modelo de regressão linear deve ser ajustado, um para cada grupo, de forma a ser possível descrever totalmente todos os relacionamentos presentes nos dados.

O problema da heterogeneidade existe pelo potencial que diferentes preditores (variáveis explicativas) têm de serem importantes para diferentes grupos, sendo necessário um modelo de regressão linear para cada grupo de forma que o conjunto de dados seja corretamente modelado. Brusco et al, (BRUSCO et al., 2008), exemplificaram este fenômeno da seguinte forma. Considere uma coleção de observações medidas em relação a três variáveis preditoras e uma variável resposta. Assumindo que as observações podem ser classificadas em três grupos (A, B e C) e que para cada grupo foi ajustado um modelo de regressão múltipla e assumindo que o resultado dos modelos ajustados foram: para o grupo A, (+, −, +); para o grupo B, (−, +, +); e para o grupo C, (+, +, −). Um sinal + indica um efeito significativo positivo e um sinal − indica um efeito significativo negativo. Para cada par de grupos, dois dos três sinais são diferentes, indicando uma diferença nos modelos de relacionamento para cada par. Dessa forma, se apenas um modelo de regressão for ajustado para todo o conjunto de observações é possível que nenhum dos três preditores seja estatisticamente significativo.

Na Figura 2é possível observar como Vicari e Vichi (VICARI; VICHI, 2013) classi-ficaram algumas formas de relacionamento linear em um conjunto de dados heterogêneo particionado em grupos homogêneos: (a) relacionamento linear entre os grupos e nenhum relacionamento linear intra-grupo;(b) relacionamento linear apenas inter-grupo e nenhum relacionamento linear entre grupos; (c) relacionamentos lineares diferentes em cada grupo e um relacionamento linear entre os grupos; (d) nenhum relacionamento linear intra ou entre os grupos; e (e) mesmo relacionamento linear intra e entre os grupos.

Devido à heterogeneidade inerente a maioria dos conjuntos de dados encontrados na prática não é possível utilizar de forma eficiente o método de regressão linear múltipla por mínimos quadrados (seção 2.3.1) para a sua modelagem. Dessa forma, faz-se necessário um novo método de regressão capaz de agrupar e identificar o relacionamento linear contido em cada grupo. Um dos métodos mais utilizados para o agrupamento de conjunto de dados heterogêneo em grupos distintos de forma que um modelo de regressão linear possa ser ajustado para cada grupo é conhecido como Regressão Linear Clusterwise e é apresentado na próxima seção.

(34)

(a) (b) (c)

(d) (e)

Figura 2 – Tipos de relacionamentos lineares intra-grupo e inter-grupos

3.2 Regressão Linear Clusterwise

Na regressão linear múltipla, um único modelo de regressão é ajustado para todo o conjunto de dados. Dados não coletados, não coletáveis ou valores desconhecidos para outras variáveis independentes (SPÄTH,1979) podem gerar grupos distintos de observações que serão melhor modelados individualmente.

O conjunto de dados pode estar particionado em vários grupos, chamado, de forma genérica, de um conjunto de dados heterogêneo (BRUSCO et al.,2008; VICARI; VICHI, 2013). Como consequência da heterogeneidade dos dados, supõem-se que existam vários relacionamentos entre as variáveis preditiva e explicativas, de modo que um número de modelos de regressão linear deve ser ajustado, um para cada grupo, para descrever completamente todos os relacionamentos presentes nos dados.

No caso de as observações estarem distribuídas em grupos diferentes então a seguinte formulação do problema parece ser mais adequada.

(35)

que Ck⊂ E; |Ck| > 0; Ck∩ Cl= ∅, ∀k 6= l; e K [ k=1 Ck = E , (3.1)

ou seja, um conjunto, P , composto por K conjuntos não vazios, Ck, disjuntos dois a dois

cuja união é E, tal que a função objetivo

Jclr(P ; B) = K X k=1 Jmlr(Ck; Bk) = K X k=1 X ei∈Ck  y_i− β_0k− p X j=1 xijβjk   2 (3.2)

seja minimizada em relação ao conjunto de coeficientes de regressão Bk= {β0k, β1k, β2k, . . . , βpk}

(k = 1, 2, . . . , K).

De forma a garantir as condições necessárias para a solução do problema 3.2 é necessário adicionar a condição (SPÄTH, 1979)

|Ck| ≥ p (k = 1, 2, . . . , K) (3.3)

as já citadas no critério de partição 3.1. Onde p é o número de variáveis explicativas. Na área de análise de agrupamentos um grupo Ck é tradicionalmente chamado de

cluster (plural, clusters). Daqui em diante estes dois termos serão utilizados indistintamente neste trabalho para representar os grupos contidos em uma k-partição P .

Em suma, a Regressão Linear Clusterwise, abreviado CLR, compreende uma coleção de métodos estatísticos cujo objetivo é capturar a heterogeneidade das funções de regressão particionando um conjunto de dados em um número predeterminado de grupos e ajustando um modelo de regressão linear para cada grupo. Dessa forma, a CLR pode ser caracterizada como uma combinação entre as áreas de análise de agrupamentos (partitivos) e de regressão, estando intimamente relacionado ao critério de mínima variância da análise de agrupamentos. Seu desenvolvimento se iniciou com os trabalhos independentes de Spath

(SPÄTH,1979;SPÄTH,1982) e Bock (BOCK, 1969) durante a década de setenta e início

dos oitenta.

3.3 Algoritmo CLR

Apesar do cálculo das equações de regressão em cada grupo ser trivial (por meio de mínimos quadrados 2.3.1), o aspecto combinatório do problema de agrupamento partitivo

(36)

apresenta um desafio imenso. O número de partições factíveis de n objetos em K grupos é um número de Stirling do segunda espécie, sendo muito grande para ser enumerado em um tempo computacional razoável para valores realísticos de n e K. Uma fórmula possível para o número de partições factíveis para um conjunto de dados qualquer E com n objetos particionado em K grupos foi dada por Hand (HAND, 1995) como:

1 K! K X k=0 (−1)k K k ! (K − k)n. (3.4)

Mesmo para um problema modesto, por exemplo n = 60 e K = 3, o número de partições factíveis é maior que 7.06 × 1027. Dessa forma, como na maioria dos problemas de agrupamento partitivo, a solução para o critério Jclr (equação 3.2) é obtido através de

algum método heurístico cuja solução seja útil apesar de não ser, na maioria dos casos, ótima.

3.3.1 Algoritmo Sequencial

Na área de agrupamento partitivo existem dois (DIDAY; GOVAERT, 1977) algo-ritmo comumente utilizados no particionamento de um conjunto de dados em um número K de clusters: sequencial; e em lote. Nesta seção um algoritmo sequencial para a regressão CLR é definido. Na próxima seção um algoritmo em lote é descrito em detalhes.

Dentre os algoritmos clássicos utilizados na análise de agrupamentos partitivos, Spath em seu trabalho inicial sobre CLR (SPÄTH, 1979), utilizou uma variação do algoritmo sequencial baseado em trocas, utilizado também no método K-means original proposto por MacQueen (MACQUEEN, 1967).

O algoritmo sequencial baseado em trocas é inicializado com uma partição aleatória inicial. Esta partição pode ser obtida a partir de um procedimento heurístico (BRUSCO

et al., 2008) como, por exemplo, o próprio algoritmo K-means (MACQUEEN, 1967). Um

processo iterativo de realocação de objetos em novos grupos é implementado. Cada objeto é considerado para realocação em todos os grupos do qual ele não é membro. Se nenhuma realocação do objeto causa uma melhoria da função objetivo Jclr (critério 3.2) então o

objeto permanece no cluster em que já está; caso contrário, o objeto é atribuído ao cluster que produz a maior melhoria. O algoritmo continua até que nenhum objeto possa ser realocado de forma a se obter uma melhoria.

O algoritmo sequencial baseado em trocas para a regressão linear clusterwise pode ser descrito de forma algorítmica como segue:

(1) inicialização: aleatoriamente, selecione K-partição inicial P . (2) iteração:

(37)

- teste ← 0

- para i ← 1 até n faça

- modelagem: calcule os parâmetros dos modelos de regressão linear, ˆβ0k, ˆβ1k, ˆβ2k, . . . , ˆβpk

(k = 1, 2, . . . , K), como descrito em 2.3.1.

- calcule o grupo vencedor Chtal que h ← arg min

1≤h≤K  y_i− ˆβ_0h− p X j=1 xijβˆjh   2 - alocação: se ei ∈ Ck e |Ck| > p e h 6= k então - teste ← 1 - Ch ← Ch∪ {ei} - Ck ← Ck\ {ei}

(3) critério de parada: se teste = 0 então PARE, senão vá para o passo (2).

Segundo Spath(SPÄTH,1979), da mesma forma que nos problemas de agrupamento tradicionais que utilizam um algoritmo semelhante, empiricamente após 6 ou mais passagens pelo conjunto de observações ocorre a convergência e uma solução útil é obtida. Como este algoritmo parte de uma solução inicial aleatória, é indicada a repetição de todo o processo várias vezes a partir de diferentes partições iniciais aleatórias, selecionando a solução de menor valor da função objetivo.

Spath, em (SPÄTH, 1979) e posteriormente em (SPÄTH, 1982), apresenta em detalhes uma implementação em FORTRAN do algoritmo sequencial baseado em trocas apresentado nesta seção, e o aplica em conjunto de dados sintético, demonstrando a sua efetividade na solução do problema 3.2.

Na literatura de regressão linear clusterwise é possível encontrar variações heu-rísticas desse algoritmo, por exemplo, Wedel e Kistemaker (WEDEL; KISTEMAKER, 1989) utilizaram uma heurística originalmente proposta por Banfield e Bassil (BANFIELD;

BASSILL, 1977) que incorpora ambas uma fase de realocação simples como considerado

por Spath e uma fase de troca em pares. Nesta última fase, todas as possíveis trocas entre os elementos dos grupos em pares que não estão no mesmo grupo são avaliados em relação ao critério Jclr (3.2). Ambas as fases são aplicadas até a convergência. Brusco

et al, (BRUSCO et al.,2008), compararam o resultado obtido a partir desse método em duas fases com o algoritmo original CLR de Spath e concluiu que a adição do passo extra adiciona um tempo computacional considerável sem grandes melhorias no resultado obtido.

3.3.2 Algoritmo em Lote

No algoritmo CLR em lote, o conjunto dos coeficientes de regressão B e a k-partição P são obtidas iterativamente em dois passos (modelagem e alocação) pela minimização da função de custo Jclr (critério 3.2).

(38)

Passo de Modelagem

Este passo fornece a solução ótima para a computação do conjunto de coeficientes de regressão ˆBk = { ˆβ0k, ˆβ1k, ˆβ2k, . . . , ˆβpk} (k = 1, 2, . . . , K).

Durante o passo de modelagem do algoritmo em lote, a k-partição P é mantida fixa. Então, de ∂Jclr

∂β0k

= 0, e de ∂Jclr ∂βjk

= 0, e após alguma algebra, obtemos o seguinte sistema de equações: β0knk+ β1k X ei∈Ck xi1+ β2k X ei∈Ck xi2+ . . . + βpk X ei∈Ck xip = X ei∈Ck yi β0k X ei∈Ck xij + β1k X ei∈Ck xijxi1+ β2k X ei∈Ck xijxi2+ . . . + βpk X ei∈Ck xijxip = X ei∈Ck xijyi k = 1, 2, . . . , K e j = 1, 2, . . . , p (3.5) Este sistema pode ser resolvido de forma semelhante ao encontrado no método dos mínimos quadrados linear na seção 2.3.1.

Passo de Alocação

Este passo fornece a solução ótima para a k-partição P = {C1, C2, . . . , CK}.

Durante o passo de alocação do algoritmo CLR, a lista de parâmetros do modelo de regressão linear ˆBk = ( ˆβ0k, ˆβ1k, ˆβ2k, . . . , ˆβpk) (k = 1, 2, . . . , K) é mantida fixa.

Para o algoritmo CLR, a k-partição P que minimiza o critério Jclr é atualizada de

acordo com a seguinte regra de alocação:

Ck =      ei ∈ E : k = arg min 1≤h≤K  y_i− ˆβ_0h− p X j=1 xijβˆjh   2     . (3.6)

Estes dois passos podem ser resumidos de forma algorítmica como: (1) inicialização: aleatoriamente, selecione uma partição inicial P

(2) modelagem: calcule os parâmetros dos modelos de regressão linear, ˆβ0k, ˆβ1k, ˆβ2k, . . . , ˆβpk

(k = 1, 2, . . . , K), como descrito em 2.3.1. (3) alocação:

- teste ← 0

- para i ← 1 até n faça

- calcule o grupo vencedor Chtal que h ← arg min

1≤h≤K  y_i− ˆβ_0h− p X j=1 xijβˆjh   2

(39)

- se ei ∈ Ck e |Ck| > p e h 6= k então

- teste ← 1 - Ch ← Ch∪ {ei}

- Ck ← Ck\ {ei}

(4) critério de Parada: se teste = 0 então PARE, senão vá para o passo (2).

Este algoritmo pode ser resumido da seguinte forma: a partir de uma partição inicial aleatória; os coeficientes de regressão são calculados para cada grupo de acordo com a equação 2.3.1; depois, mantido fixo o conjunto de parâmetros de todos os modelos de regressão, cada observação é alocada ao grupo que minimiza o critério Jclr(P ; B)

definido pela equação 3.2. Estes dois passos são repetidos até que não haja um decremento significativo no valor da função de custo Jclr(P ; B). O valor de Jclr(P ; B) não se altera

quando o seu conjunto de parâmetros B ou os grupos C1, C2, . . . , CK não são alterados,

esta característica também pode ser utilizada como um critério de parada durante a sua execução.

Prova de Convergência

Nesta seção é provado que, por construção, o algoritmo da seção3.3.2 minimiza a função objetivo Jclr (3.2) (em inglês, chamado de um método stepwise optimal) em cada

passo até a convergência.

Teorema 3.3.1. O algoritmo 3.3.2 decrementa monotonicamente a função de custo Jclr

dada pela equação 3.2 após cada iteração.

Demonstração. Temos a função objetivo da regressão CLR definida como

Jclr(Pt; Bt) = K X k=1 X ei∈Ct_k  yi− β0kt − p X j=1 xijβjkt   2

onde o índice t representa a iteração atual do algoritmo.

Dada uma k-partição Pt= {C₁t, C₂t, . . . , C_Kt }, o conjunto de coeficientes de regressão B_kt = { ˆβ0k, ˆβ1k, ˆβ2k, . . . , ˆβpk} (k = 1, 2, . . . , K) é calculado a partir da equação 2.6 como

B_kt+1= arg min Bk X ei∈Ck  y_i− β_0kt − p X j=1 xijβjkt   2

(40)

Então, temos X ei∈Ct_k  y_i− β_0kt − p X j=1 xijβjkt   2 ≥ X ei∈C_kt  y_i− β_0kt+1− p X j=1 xijβjkt+1   2 (k = 1, 2, . . . , K) que resulta em K X k=1 X ei∈C_kt  y_i− β_0kt − p X j=1 xijβjkt   2 ≥ K X k=1 X ei∈C_kt  y_i− β_0kt+1− p X j=1 xijβjkt+1   2 que implica Jclr(Pt; Bt) ≥ Jclr(Pt; Bt+1). (3.7)

Dado Bt+1, a k-partição Pt+1 = {C₁t+1, C₂t+1, . . . , C_Kt+1} (k = 1, 2, . . . , K) é calcu-lada como C_kt+1 =      ei ∈ E : k = arg min 1≤h≤K  y_i− β_0ht+1− p X j=1 xijβjht+1   2     .

Utilizando a nova partição calculada Pt+1 podemos calcular Jclr(Pt+1; Bt+1) como

Jclr(Pt+1; Bt+1) = K X k=1 X ei∈Ct+1_k  y_i− β_0kt+1− p X j=1 xijβjkt+1   2

que pode ser reescrita como

Jclr(Pt+1; Bt+1) = K X h,k=1 X ei∈Cth∩C t+1 k  yi− β0kt+1− p X j=1 xijβjkt+1   2

já que C_ht (h = 1, 2, . . . , K) forma uma partição sobre E. Pela definição da k-partição Pt+1, ∀ei ∈ Ckt+1, ∀h 6= k, temos  y_i− β_0kt+1− p X j=1 xijβjkt+1   2 ≤  y_i− β_0ht+1− p X j=1 xijβjht+1   2

que também é verdadeiro para qualquer ei ∈ Ckt+1∩ C t

(41)

Jclr(Pt+1; Bt+1) = K X h,k=1 X ei∈Cth∩C t+1 k  yi− β0kt+1− p X j=1 xijβjkt+1   2 ≤ K X h,k=1 X ei∈C_ht∩Ct+1_k  y_i− β_0ht+1− p X j=1 xijβjht+1   2 = K X h=1 X ei∈Cht+1  y_i− β_0ht+1− p X j=1 xijβjht+1   2 = Jclr(Pt; Bt+1) (3.8)

onde a terceira igualdade é verdade porque Pt+1 é uma partição de E. Combinando as equações 3.7e3.8, temos Jclr(Pt; Bt) ≥ Jclr(Pt; Bt+1) ≥ Jclr(Pt+1; Bt+1). Isto implica que,

após uma iteração completa, o algoritmo 3.3.2 decrementa monotonamente a função de custo 3.2.

Observação 1. O teorema 3.3.1 demostra que o algoritmo 3.3.2 decrementa monotonica-mente o critétio definido pela equação 3.2. Esta é uma propriedade importante para um algoritmo de otimização. Porém, ele não prova que o algoritmo converge, a partir de uma k-partição qualquer, para o mínimo da sua função de custo. No entanto, apesar de não ser demostrado aqui, é plausível dizer que, utilizando o teorema de Zangwill, o algoritmo apresentado converge para o mínimo de sua função de custo (MANWANI; SASTRY, 2015). Observação 2. Esta prova também não demonstra que o algoritmo é capaz de inferir as funções lineares corretas de um conjunto de dados gerado a partir de várias funções lineares (MANWANI; SASTRY, 2015).

Observação 3. Este algoritmo depende de uma partição inicial qualquer (geralmente obtida de forma aleatória). Dessa forma, é necessário a sua execução, múltiplas vezes, a partir de k-partições iniciais diferentes onde o modelo de melhor ajuste (menor valor da função de custo) é selecionado.

3.3.3 Demais Algoritmos

Além dos algoritmos sequencial e em lote descritos, respectivamente, nas seções

3.3.1 e 3.3.2, existem outros algoritmos heurísticos cujo objetivo é solucionar o problema

de otimização combinatória Jclr (critério 3.2). Eles incluem uma solução utilizando um

algoritmo Simulated Annealing (DESARBO; OLIVER; RANGASWAMY, 1989) e outra utilizando Algoritmos Genéticos (AURIFEILLE,2000). No entanto, a melhoria nos resul-tados obtida por estes métodos mais refinados é acompanhada pelo aumento significativo no tempo computacional necessário para se chegar a uma solução útil (BRUSCO et al., 2008). Também, uma versão estocástica de regressão linear clusterwise é apresentada por Bishop em seu livro (BISHOP, 2006).

(42)

A norma `2 (soma dos quadrados dos resíduos) utilizada em Jclr pode ser alterada

para a norma `1 (soma dos resíduos absolutos) ou a norma `∞ (resíduo absoluto máximo).

Estas soluções são geralmente obtidas através de técnicas de Programação Linear e foram detalhadas nos trabalhos de Barrodale (BARRODALE; YOUNG,1966; BARRODALE;

ROBERTS, 1973) e Spath (SPÄTH, 1974). Apesar de ser possível a troca da norma

utilizada, e o algoritmo de otimização subjacente, neste trabalho foi utilizada apenas a norma `2 como definido em Jclr (critério 3.2).

3.4 Análise de Variância

Uma das formas de avaliar a qualidade do ajuste de um modelo de regressão linear múltipla é através do coeficiente de determinação, R2 (seção 2.4). Basicamente, este coeficiente indica o quanto o modelo foi capaz de explicar os dados coletados. Brusco et al, (BRUSCO et al., 2008), definiram um coeficiente de determinação para o método clusterwise como segue.

A variação total da variável resposta, y, em relação a sua média é definida como:

T SSY = n X i=1 (yi − ¯y)2. (3.9) onde ¯y = 1 n n X i=1

yi é a média aritmética de todos os yi.

Ignorando, no momento, o uso das variáveis preditoras para explicar a variação da variável resposta, é possível observar que a k-partição, P , pode ser expressa como a decomposição da soma de quadrados total, T SSY , entre duas componentes:

T SSY = BCSSY (P ) + W CSSY (PK), (3.10)

onde BCSSY (P ) = K X k=1 |Ck| (¯yk− ¯y)2, (3.11) e W CSSY (P ) = K X k=1 X ei∈Ck (yi− ¯yk)2 (3.12) onde ¯yk = 1 |Ck| n X ei∈Ck