Agrupamento baseado em kernel com ponderação automática das variáveis via distâncias adaptativas

(1)

“Agrupamento Baseado em Kernel com

Ponderação Automática das Variáveis via

Distâncias Adaptativas”

Por

Marcelo Rodrigo Portela Ferreira Tese de Doutorado

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

(2)

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

MARCELO RODRIGO PORTELA FERREIRA

“AGRUPAMENTO BASEADO EM KERNEL COM

PONDERAÇÃO AUTOMÁTICA DAS VARIÁVEIS VIA

DISTÂNCIAS ADAPTATIVAS”

ESTE TRABALHO FOI APRESENTADO À PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO DO CENTRO DE INFORMÁTICA DA UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITO PARCIAL PARA OBTENÇÃO DO GRAU DE DOUTOR EM CIÊNCIA DA COMPUTAÇÃO.

ORIENTADOR(A): PROF. DR. FRANCISCO DE A. T. DE CARVALHO

(3)

Catalogação na fonte

Bibliotecária Jane Souto Maior, CRB4-571

Ferreira, Marcelo Rodrigo Portela

Agrupamento baseado em kernel com ponderação automática das variáveis via distâncias adaptativas / Marcelo Rodrigo Portela Ferreira. - Recife: O Autor, 2013.

162 p.: il., fig., tab.

Orientador: Francisco de Assis Tenório de Carvalho.

Tese (doutorado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2013.

Inclui referências e apêndice.

1. Inteligência Artificial. 2. Inteligência Computacional. I. Carvalho, Francisco de Assis Tenório de (orientador). II. Título.

(4)

Ponderação Automática das Variáveis via Distâncias Adaptativas” orientada pelo Prof. Francisco de Assis Tenório de Carvalho e aprovada pela Banca Examinadora

formada pelos professores:

__________________________________________ Prof. George Darmiton da Cunha Cavalcanti

Centro de Informática / UFPE

___________________________________________ Prof. Adriano Lorena Inácio de Oliveira

Centro de Informática / UFPE

___________________________________________ Profa. Marley Maria Bernardes Rebuzzi Velasco Departamento de Engenharia Elétrica / PUC-RJ ___________________________________________ Profa. Heloisa de Arruda Camargo

Departamento de Computação / UFSCar

____________________________________________ Prof. Manoel Raimundo de Sena Júnior

Departamento de Estatística / UFPE

Visto e permitida a impressão. Recife, 22 de julho de 2013.

___________________________________________________

Profa. Edna Natividade da Silva Barros

Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

(6)

pessoas que eu gostaria e deveria citar, espero que se sintam reconhecidos todos os que colaboraram com o meu progresso até este ponto. Agradeço...

• aos meus pais, Arlindo e Edileuza, e às minhas irmãs, Maristela e Mariana, e ao meu sobrinho Arthur, pelo amor incondicional, carinho, dedicação, conança, paciência, amizade e por terem me ensinado os valores e princípios que até hoje norteiam a formação do meu caráter.

• à minha esposa, Juliana, pelo amor, carinho, amizade, apoio, cumplicidade, dedica-ção, conança e (muita) paciência, com os quais pude sempre contar.

• à minha avó, Helena, pelo amor, carinho, conança e apoio que sempre meu deu. • ao professor Francisco de Assis Tenório de Carvalho, pela orientação sólida,

con-ança, apoio, motivação e por ter se mostrado mais do que um orientador, um parceiro de trabalho e um exemplo de prossional.

• a todos os meus familiares, em especial minhas tias, Iracema, Mazé, Iracy, Edlenúzia e Edilúzia, e meus primos Tiago, José Carlos e André, pelo amor, carinho, motivação e apoio durante toda a minha vida.

• ao meu amigo Hemílio, pela amizade, motivação e apoio, pelos momentos de des-contração compartilhados e por ser um exemplo de ser humano e de prossional. • aos meus amigos de Palmares, Fernando, Rodrigo, André e Rallison, pela amizade,

motivação, apoio e pelos bons momentos compartilhados, apesar da minha ausência. • aos meus amigos Carlos, Larissa, Lídia, Lígia e Raphael, pela amizade, motivação,

apoio, conança e pelos bons momentos vivenciados juntos.

• aos meus amigos Eufrásio, Ulisses e José Carlos, pelo apoio e pela acolhida inicial em João Pessoa e na UFPB, pela amizade e conança.

• aos professores do Departamento de Estatística da UFPE, em especial aos profes-sores Getúlio José Amorim do Amaral e Klaus Leite Pinto Vasconcellos.

• ao grupo de caronas João Pessoa/Recife, em especial a Yuri Malheiros e Bruno Moreno.

• aos colegas do Departamento de Estatística da UFPB. • à banca examinadora, pelas valiosas críticas e sugestões.

(7)

Ninguém baterá tão forte quanto a vida. Porém, não se trata de quão forte pode bater, se trata de quão forte pode ser atingido e continuar seguindo em frente. É assim que a vitória é conquistada.

(8)

(9)

1 Introdução 1

1.1 Introdução . . . 1

1.2 Organização da tese . . . 7

2 Métodos de agrupamento baseados em kernel convencionais 9 2.1 Introdução . . . 9

2.2 Kernel K-médias baseado em kernelização da métrica . . . 12

2.3 Kernel K-médias no espaço de características . . . 14

2.4 Kernel K-médias difuso baseado em kernelização da métrica . . . 16

2.5 Kernel K-médias difuso no espaço de características . . . 18

2.6 Síntese do capítulo . . . 21

3 Agrupamento baseado em kernel com ponderação automática das vari-áveis via distâncias adaptativas 23 3.1 Introdução . . . 23

(10)

3.3 Agrupamento rígido no espaço de características com ponderação

automá-tica das variáveis . . . 39

3.4 Convergência dos métodos de agrupamento rígido baseados em kernel com ponderação automática das variáveis . . . 46

3.5 Agrupamento difuso baseado em kernelização da métrica com ponderação automática das variáveis . . . 49

3.6 Agrupamento difuso no espaço de características com ponderação automá-tica das variáveis . . . 58

3.7 Convergência dos métodos de agrupamento difuso baseados em kernel com ponderação automática das variáveis . . . 65

4 Ferramentas de interpretação de partições e grupos 71 4.1 Introdução . . . 71

4.2 Medidas de dispersão denidas para os métodos de agrupamento rígido ba-seados em kernelização da métrica com ponderação automática das variáveis 72 4.3 Medidas de dispersão denidas para os métodos de agrupamento rígido no espaço de características com ponderação automática das variáveis . . . 74

4.4 Medidas de dispersão denidas para os métodos de agrupamento difuso ba-seados em kernelização da métrica com ponderação automática das variáveis 76 4.5 Medidas de dispersão denidas para os métodos de agrupamento difuso no espaço de características com ponderação automática das variáveis . . . 78

4.6 Índices de interpretação . . . 80

4.6.1 Índices de interpretação de partições . . . 81

(11)

5 Avaliação experimental 87

5.1 Introdução . . . 87

5.1.1 Conjuntos de dados simulados . . . 88

5.1.2 Conjuntos de dados reais . . . 92

5.1.3 Índices de avaliação . . . 93

5.2 Avaliação experimental dos métodos de agrupamento rígido baseados em kernel com ponderação automática das variáveis . . . 97

5.3 Avaliação experimental dos métodos de agrupamento difuso baseados em kernel com ponderação automática das variáveis . . . 114

6 Conclusões 139 6.1 Contribuições . . . 139

6.2 Pesquisas futuras . . . 144

Referências Bibliográcas 145

A Conjunto de dados utilizado como exemplo 153

B Resultados dos testes t para amostras pareadas 155

(12)

(13)

1.1 Principais diferenças entre os métodos de agrupamento baseados em kernel

propostos nesta tese e o método desenvolvido por Shen et al. (2006). . . 6

3.1 Síntese dos métodos de agrupamento desenvolvidos no Capítulo 3 . . . 69

5.1 Conguração do conjunto de dados simulados 1. . . 89

5.2 Conguração do conjunto de dados simulados 2. . . 90

5.3 Dimensões dos conjuntos de dados reais. . . 92

5.4 Matriz de confusão. . . 93

5.5 Desempenho dos algoritmos de agrupamento rígido no conjunto de dados simulados 1: média e desvio-padrão (entre parênteses) dos índices CR, F-measure e OERC. . . 99

5.6 Desempenho dos algoritmos de agrupamento rígido no conjunto de dados simulados 2: média e desvio-padrão (entre parênteses) dos índices CR, F-measure e OERC. . . 100

(14)

(entre parênteses) dos índices CR, F-measure e OERC. . . 102 5.8 Desempenho dos algoritmos de agrupamento rígido no conjunto de dados

simulados 2 com 10 variáveis irrelevantes adicionais: média e desvio-padrão (entre parênteses) dos índices CR, F-measure e OERC. . . 103 5.9 Desempenho dos métodos de agrupamento rígido nos conjuntos de dados

reais considerados: índice CR das melhores soluções de acordo com o cri-tério de adequação entre grupos e protótipos. . . 106 5.10 Desempenho dos métodos de agrupamento rígido nos conjuntos de dados

reais considerados: F-measure das melhores soluções de acordo com o cri-tério de adequação entre grupos e protótipos. . . 107 5.11 Desempenho dos métodos de agrupamento rígido nos conjuntos de dados

reais considerados: OERC das melhores soluções de acordo com o critério de adequação entre grupos e protótipos. . . 108 5.12 Classicação de desempenho média dos algoritmos de agrupamento rígido

de acordo com os índices CR, F-measure e OERC e de acordo com o tipo de normalização adotado. . . 109 5.13 Classicação de desempenho média dos algoritmos de agrupamento rígido

de acordo com o tipo de normalização adotado. . . 110 5.14 Matriz de confusão obtida para a partição dada pelo algoritmo VKKM-K-LS.111 5.15 Matriz de confusão obtida para a partição dada pelo algoritmo VKKM-K-LP.112 5.16 Pesos das variáveis em cada grupo ajustados pelos algoritmos VKKM-K-LS

e VKKM-K-LP aplicados ao conjunto de dados Iris plant em sua versão original. . . 112

(15)

5.18 Índice de heterogeneidade dos grupos para o algoritmo VKKM-K-LS (%). . 113 5.19 Índice de heterogeneidade dos grupos para o algoritmo VKKM-K-LP (%). 113 5.20 Índice de heterogeneidade dos grupos com relação a cada variável para o

algoritmo VKKM-K-LS (%). . . 113 5.21 Índice de heterogeneidade dos grupos com relação a cada variável para o

algoritmo VKKM-K-LP (%). . . 114 5.22 Desempenho dos algoritmos de agrupamento difuso no conjunto de dados

simulados 1: média e desvio-padrão (entre parênteses) dos índices CR, F-measure, OERC e FR. . . 116 5.23 Desempenho dos algoritmos de agrupamento difuso no conjunto de dados

simulados 2: média e desvio-padrão (entre parênteses) dos índices CR, F-measure, OERC e FR. . . 117 5.24 Desempenho dos algoritmos de agrupamento difuso no conjunto de dados

simulados 1 com 10 variáveis irrelevantes adicionais: média e desvio-padrão (entre parênteses) dos índices CR, F-measure, OERC e FR. . . 119 5.25 Desempenho dos algoritmos de agrupamento difuso no conjunto de dados

simulados 2 com 10 variáveis irrelevantes adicionais: média e desvio-padrão (entre parênteses) dos índices CR, F-measure, OERC e FR. . . 119 5.26 Desempenho dos algoritmos de agrupamento difuso no conjunto de dados

simulados 1 com 10 variáveis irrelevantes adicionais e utilizando m = (2 + p)/p: média e desvio-padrão (entre parênteses) dos índices CR, F-measure, OERC e FR. . . 121

(16)

p)/p: média e desvio-padrão (entre parênteses) dos índices CR, F-measure, OERC e FR. . . 122 5.28 Desempenho dos métodos de agrupamento difuso nos conjuntos de dados

reais considerados: índice CR das melhores soluções de acordo com o cri-tério de adequação entre grupos e protótipos. . . 125 5.29 Desempenho dos métodos de agrupamento difuso nos conjuntos de dados

reais considerados: F-measure das melhores soluções de acordo com o cri-tério de adequação entre grupos e protótipos. . . 126 5.30 Desempenho dos métodos de agrupamento difuso nos conjuntos de dados

reais considerados: OERC das melhores soluções de acordo com o critério de adequação entre grupos e protótipos. . . 127 5.31 Desempenho dos métodos de agrupamento difuso nos conjuntos de dados

reais considerados: índice FR das melhores soluções de acordo com o cri-tério de adequação entre grupos e protótipos. . . 128 5.32 Classicação de desempenho média dos algoritmos de agrupamento difuso

de acordo com os índices CR, F-measure e OERC e de acordo com o tipo de normalização adotado. . . 129 5.33 Classicação de desempenho média dos algoritmos de agrupamento difuso

de acordo com o tipo de normalização adotado. . . 130 5.34 Classicação de desempenho média dos algoritmos de agrupamento difuso

para o índice FR de acordo com o tipo de normalização adotado. . . 130 5.35 Matriz de confusão obtida para a partição dada pelo algoritmo

(17)

5.37 Pesos das variáveis em cada grupo ajustados pelos algoritmos VKFKM-K-LS e VKFKM-K-LP aplicados ao conjunto de dados Iris plant em sua versão original. . . 134 5.38 Qualidade das partições, Q(P ) (%) e qualidade das partições com relação

a cada variável, Qj(P ) (%). . . 135 5.39 Índice de heterogeneidade dos grupos para o algoritmo VKFKM-K-LS (%). 135 5.40 Índice de heterogeneidade dos grupos para o algoritmo VKFKM-K-LP (%). 135 5.41 Índice de heterogeneidade dos grupos com relação a cada variável para o

algoritmo VKFKM-K-LS (%). . . 136 5.42 Índice de heterogeneidade dos grupos com relação a cada variável para o

algoritmo VKFKM-K-LP (%). . . 136 A.1 Conjunto de dados exemplo . . . 154 B.1 Comparação entre os métodos de agrupamento rígido nos conjuntos de

da-dos simulada-dos 1 e 2 de acordo com testes t pareada-dos a um nível signicância de 5%. . . 156 B.2 Comparação entre os métodos de agrupamento rígido nos conjuntos de

dados simulados 1 e 2 com 10 variáveis irrelevantes adicionais de acordo com testes t pareados a um nível signicância de 5%. . . 157 B.3 Comparação entre os métodos de agrupamento difuso nos conjuntos de

da-dos simulada-dos 1 e 2 de acordo com testes t pareada-dos a um nível signicância de 5%. . . 158 B.4 Comparação entre os métodos de agrupamento difuso nos conjuntos de

dados simulados 1 e 2 com 10 variáveis irrelevantes adicionais de acordo com testes t pareados a um nível signicância de 5%. . . 159

(18)

m = (2 + p)/p de acordo com testes t pareados a um nível signicância de 5%. . . 160

(19)

1.1 Conjunto de dados exemplo: grácos de x1 contra x2 e de x3 contra x4. . . 5 5.1 Conjunto de dados simulados 1. . . 89 5.2 Conjunto de dados simulados 2. . . 91

(20)

Nesta tese de doutorado, propomos métodos de agrupamento baseados em funções kernel com ponderação automática das variáveis através de distâncias adaptativas onde medidas de dissimilaridade são obtidas como somas de distâncias Euclidianas entre padrões e protótipos calculadas individualmente para cada variável através de funções kernel. A principal vantagem da abordagem proposta sobre os métodos de agrupamento baseados em kernel convencionais é a possibilidade do uso de distâncias adaptativas, as quais mudam a cada iteração do algoritmo e podem ser a mesma para todos os grupos ou diferentes de um grupo para outro. Este tipo de medida de dissimilaridade é adequado ao aprendizado dos pesos das variáveis dinamicamente durante o processo de agrupamento, levando a uma melhora do desempenho dos algoritmos. Outra vantagem da abordagem proposta é que ela permite a introdução de diversas ferramentas para interpretação de partições e grupos. Experimentos com conjuntos de dados simulados e reais mostram a utilidade dos algoritmos propostos e o mérito das ferramentas de interpretação de partições e grupos.

Palavras-chave: Kernel K-médias; Ponderação automática das variáveis; Distâncias adaptativas; Índices de interpretação.

(21)

This doctoral thesis presents variable-wise kernel-based clustering methods in which dis-similarity measures are obtained as sums of Euclidean distances between patterns and prototypes computed individually for each variable by means of kernel functions. The main advantage of the proposed approach over the conventional kernel-based clustering methods is that it allow us to use adaptive distances which change at each algorithm ite-ration and can either be the same for all clusters or dierent from one cluster to another. This kind of dissimilarity measure is suitable to learn the weights of the variables during the clustering process, improving the performance of the algorithms. Another advantage of this approach is that it allows the introduction of various partition and cluster inter-pretation tools. Experiments with synthetic and benchmark datasets show the usefulness of the proposed algorithms and the merit of the partition and cluster interpretation tools. Keywords: Kernel K-means; Automatic variable weighting; Adaptive distances; Inter-pretation indexes.

(22)

Introdução

1.1 Introdução

Métodos de agrupamento são ferramentas úteis para explorar estruturas em conjuntos de dados e têm sido muito utilizados para reconhecimento não-supervisionado de padrões. A tarefa de agrupar signica organizar um conjunto de padrões (indivíduos, objetos, etc.) em grupos de tal forma que padrões pertencentes a um dado grupo têm um alto grau de similaridade, enquanto que padrões pertencentes a grupos diferentes têm um alto grau de dissimilaridade (Gordon, 1999, Jain et al., 1999, Xu & Wunusch, 2005). Esses métodos vêm sendo largamente aplicados em diversas áreas da ciência, tais como, taxonomia, processamento de imagens, mineração de dados, recuperação de informação, dentre outras. As técnicas de agrupamento mais populares podem ser divididas em métodos hie-rárquicos e métodos particionais. Os métodos hiehie-rárquicos produzem uma resposta re-presentada por uma estrutura completa de hierarquia, i.e., uma sequência aninhada de

(23)

partições do conjunto de padrões de entrada; sua saída é uma estrutura hierárquica de grupos conhecida como dendrograma. Por outro lado, nos métodos particionais o objetivo é obter uma partição única do conjunto de padrões de entrada em um número xo de grupos, tipicamente através da otimização (geralmente local) de uma função objetivo; o resultado é a criação de hipersuperfícies de separação entre os grupos. Os métodos de agrupamento particionais foram desenvolvidos sob dois diferentes paradigmas: agrupa-mento rígido (hard) e agrupaagrupa-mento difuso (fuzzy). Nos métodos de agrupaagrupa-mento do tipo rígido, os grupos são naturalmente disjuntos e não se sobrepõem. Nesse caso, cada padrão pode pertencer a um, e somente um, grupo. No caso dos métodos de agrupamento do tipo difuso, um padrão pode pertencer a todos os grupos com um certo grau de pertinên-cia. Uma exposição detalhada dos principais métodos de agrupamento difuso pode ser encontrada em Höppner et al. (1999). Adicionalmente, uma boa revisão sobre os vários métodos de agrupamento pode ser encontrada, por exemplo, em Jain (2010) ou em Jain et al. (1999).

Um componente importante de qualquer método de agrupamento é a medida de dis-similaridade (ou de dis-similaridade). Medidas de distância são exemplos básicos de medidas de dissimilaridade e a distância Euclidiana é a mais comumente utilizada em métodos de agrupamento particionais (rígido e difuso). Métodos de agrupamento baseados na distân-cia Euclidiana apresentam bom desempenho quando aplicados a conjuntos de dados nos quais os grupos são aproximadamente hiperesféricos e aproximadamente linearmente se-paráveis. Contudo, quando a estrutura dos dados é complexa, i.e., grupos com formas não hiperesféricas e/ou padrões não-linearmente separáveis, esses métodos podem não apre-sentar desempenho satisfatório. Por causa dessa limitação, diversos métodos capazes de lidar com dados cuja estrutura é complexa têm sido propostos, dentre os quais, métodos de agrupamento baseados em funções kernel.

(24)

não-linear arbitrário Φ do espaço original p-dimensional X ⊂ Rp _{para um espaço de} di-mensão mais alta (possivelmente innita), chamado espaço de características, F. A razão para passarmos a dimensões mais altas é que em tais dimensões pode ser possível obter grupos bem denidos e linearmente separáveis. Métodos baseados em kernel possuem a vantagem de que produtos internos no espaço de características podem ser expressos por um kernel de Mercer K, dado por K(x, x0_{) = Φ(x)}>_Φ(x0₎_{, onde x, x}0 _{∈ X}_{, X ⊂ R}p (Mer-cer, 1909).

Desde o desenvolvimento do algoritmo kernel K-médias (Girolami, 2002), diversos mé-todos de agrupamento tais como K-médias difuso (Bezdek, 1981), mapas auto-organizáveis (SOM) (Kohonen, 1982, 1990, 2001, 2013), método mountain (Yager & Filev, 1994) e mé-todo neural gas (Martinetz et al., 1993) têm sido modicados de modo a incorporarem funções kernel. Além disso, uma grande variedade de métodos de agrupamento baseados em kernel têm sido propostos (Filippone et al., 2008). Tais modicações vêm sendo de-senvolvidas sob duas abordagens principais: kernelização da métrica, onde os protótipos dos grupos são obtidos no espaço original dos padrões de entrada e as distâncias dos pa-drões aos protótipos dos grupos são calculadas através de funções kernel; e agrupamento no espaço de características, no qual os protótipos dos grupos são obtidos no espaço de características. Algoritmos de agrupamento rígido baseados em kernel foram desenvolvi-dos nas Refs. Chen & Zhang (2004), Zhang & Chen (2002, 2004), Zhang et al. (2003). Os autores das Refs. Inokuchi & Miyamoto (2004), Macdonald & Fyfe (2000) desenvol-veram uma versão kernelizada do algoritmo SOM. Versões kernelizadas dos algoritmos mountain e neural gas foram apresentadas, respectivamente, em Kim et al. (2005b) e Qi-nand & Suganthan (2004). Outrossim, diversos estudos demonstraram que os métodos de agrupamento baseados em kernel, por produzirem hipersuperfícies não-lineares de sepa-ração entre grupos, apresentam desempenhos melhores do que os métodos convencionais de agrupamento quando a estrutura dos conjuntos de dados é complexa (Ben-Hur et al.,

(25)

2001, Borer & Gerstner, 2002, Camastra & Verri, 2005, Chiang & Hao, 2003, Filippone et al., 2008, Graves & Pedrycz, 2010, Kim et al., 2005a).

Em análise de agrupamentos, os padrões a serem agrupados são usualmente represen-tados como vetores nos quais cada componente é uma medição referente a uma variável. Nos algoritmos de agrupamento convencionais, tais como K-médias, K-médias difuso, SOM, etc., assim como em suas contrapartidas kernelizadas, é considerado que todas as variáveis são igualmente importantes, no sentido de que todas possuem o mesmo peso para a denição dos grupos. Não obstante, na maioria das áreas do conhecimento, e, especialmente se estivermos lidando com conjuntos de dados de alta dimensão, algumas variáveis podem ser irrelevantes. Além disso, dentre aquelas que são relevantes, algumas podem ter uma importância maior do que outras na construção dos grupos. Ainda, a contribuição de cada variável para cada grupo pode ser diferente, i.e., cada grupo pode ter um conjunto diferente de variáveis importantes. Diversas modicações do algoritmo K-médias têm sido propostas na literatura para aprender automaticamente os pesos das variáveis e melhorar seu desempenho (Chan et al., 2004, de Amorim & Mirkin, 2012, Hu-ang et al., 2005, Jing et al., 2007, Lu et al., 2011, Tsai & Chiu, 2008). A Figura 1.1 ilustra uma situação onde um conjunto de quarenta padrões descritos por quatro variáveis (x1, x2, x3 e x4) se divide em quatro grupos. Observando a Figura 1.1a, podemos notar que as variáveis x1 e x2 são relevantes para a denição dos grupos 1 e 4. Além disso, como pode ser visto na Figura 1.1b, as variáveis x3 e x4 são relevantes para a denição dos grupos 2 e 3. Esse conjunto de dados está disponível no Apêndice A.

Shen et al. (2006) desenvolveu um método de agrupamento difuso baseado em kernel capaz de aprender os pesos das variáveis dinamicamente durante o processo de agrupa-mento. Esse método de agrupamento difuso foi desenvolvido sob a abordagem de kerne-lização da métrica e pode ser visto como um esquema de agrupamento baseado em uma distância adaptativa local, que muda em cada iteração do algoritmo e pode ser diferente

(26)

de um grupo para outro. Os autores também provaram a convergência do algoritmo de-senvolvido e propuseram uma versão ligeiramente modicada adequada ao agrupamento de conjuntos de dados com observações faltantes.

● ● ● ● ● ● ● ● ● ● 2 4 6 8 2 4 6 8 x1 x2 ●Grupo 1 Grupo 2 Grupo 3 Grupo 4 (a) ● ● ● ● ● ● ● ● ● ● 2 4 6 8 2 4 6 8 x3 x4 ●Grupo 1 Grupo 2 Grupo 3 Grupo 4 (b)

Figura 1.1: Conjunto de dados exemplo: grácos de x1 contra x2 e de x3 contra x4. Nesta tese de doutorado, propomos métodos de agrupamento baseados em kernel com ponderação automática das variáveis através de distâncias adaptativas onde medidas de dissimilaridade são obtidas como somas de distâncias Euclidianas entre padrões e protóti-pos calculadas individualmente para cada variável através de funções kernel. A principal vantagem da abordagem proposta sobre os métodos de agrupamento baseados em kernel convencionais é a possibilidade do uso de distâncias adaptativas, as quais mudam a cada iteração do algoritmo e podem ser a mesma para todos os grupos (distâncias adaptativas globais) ou diferentes de um grupo para outro (distâncias adaptativas locais). Este tipo de medida de dissimilaridade é adequado ao aprendizado dos pesos das variáveis dinami-camente durante o processo de agrupamento, levando a uma melhora no desempenho dos algoritmos. O método proposto em Shen et al. (2006) foi desenvolvido com base apenas

(27)

em uma distância adaptativa local com a restrição de que a soma dos pesos das variáveis em cada grupo deve ser igual a um, e, além disso, apenas a abordagem de kernelização da métrica foi considerada. Em algumas situações, distâncias adaptativas locais podem não ser apropriadas porque podem levar o algoritmo a pontos de mínimos locais, produzindo, assim, soluções sub-ótimas. Por este motivo, nesta tese nós desenvolvemos métodos de agrupamento baseados em kernel considerando ambos os tipos de distâncias adaptativas: distâncias adaptativas locais e distâncias adaptativas globais. Ademais, os métodos pro-postos nesta tese foram desenvolvidos considerando tanto a abordagem de kernelização da métrica quanto a abordagem de agrupamento no espaço de características. Em am-bas as abordagens, a derivação das expressões matemáticas para a obtenção dos pesos das variáveis foi feita considerando dois tipos de restrição: no primeiro, assumimos que a soma dos pesos das variáveis deve ser igual a um, enquanto que no segundo, assumi-mos que o produto dos pesos das variáveis deve ser igual a um (de Carvalho et al., 2006, Diday & Govaert, 1977, Gustafson & Kessel, 1978). A Tabela 1.1 resume as principais diferenças entre os métodos de agrupamento baseados em kernel propostos nesta tese e o método desenvolvido por Shen et al. (2006). A abordagem proposta também possibilitou a introdução de diversas ferramentas para interpretação de partições e grupos.

Tabela 1.1: Principais diferenças entre os métodos de agrupamento baseados em kernel propostos nesta tese e o método desenvolvido por Shen et al. (2006).

Característica Shen et al. (2006) Esta tese

Agrupamento hard √

Agrupamento fuzzy √ √

Kernelização da Métrica √ √

Agrupamento no espaço de características √

Distância adaptativa local √ √

Distância adaptativa global √

Restrição de que a soma dos pesos √ √

das variáveis deve ser igual a um

Restrição de que o produto dos pesos √ √

(28)

1.2 Organização da tese

Além deste capítulo introdutório, esta tese de doutorado está organizada em mais cinco capítulos, como segue.

• No Capítulo 2 apresentamos uma breve revisão sobre a teoria básica das funções kernel e os principais métodos de agrupamento baseados em kernel convencionais são descritos;

• O Capítulo 3 introduz a principal contribuição deste trabalho: os métodos de agru-pamento baseados em kernel com ponderação automática das variáveis, conside-rando ambos os paradigmas, kernelização da métrica e agrupamento no espaço de características. A convergência dos métodos propostos é demonstrada nas Seção 3.4, para os algoritmos rígidos, e na Seção 3.7, para os algoritmos difusos;

• No Capítulo 4 propomos ferramentas adicionais baseadas em medidas de dispersão adequadas para a interpretação de partições e de grupos: índices para avaliar a qualidade total de uma partição, a homogeneidade dentro dos grupos, assim como o papel das diferentes variáveis na qualidade e na homogeneidade dos grupos formados; • O Capítulo 5 traz um conjunto de experimentos numéricos, realizados tanto com conjuntos de dados simulados considerando diferentes cenários, quanto com diversos conjuntos de dados reais, com a nalidade de demonstrar a efetividade dos méto-dos propostos e o mérito das ferramentas de interpretação de partições e grupos. Os resultados obtidos demonstram a superioridade dos métodos de agrupamento propostos nesta tese com relação aos métodos de agrupamento baseados em kernel convencionais;

• No Capítulo 6, apresentamos as conclusões desta tese de doutorado e listamos pon-tenciais tópicos de pesquisas relacionadas;

(29)

• Um conjunto de dados utilizado como exemplo no Capítulo 1, resultados adicionais do Capítulo 5, e uma lista dos artigos publicados, submetidos ou em preparação podem ser encontrados, respectivamente, nos Apêndices A, B e C.

(30)

Métodos de agrupamento baseados em kernel convencionais

2.1 Introdução

Desde o início da última década, muitos pesquisadores têm demonstrado interesse em métodos de agrupamento baseados em kernel (Ben-Hur et al., 2001, Filippone et al., 2008). A principal ideia por trás desses métodos é o uso de um mapeamento não-linear arbitrário Φ do espaço original dos padrões de entrada para um espaço de mais alta dimensão (possivelmente innita), chamado espaço de características, F.

Neste capítulo nós apresentamos uma breve revisão acerca da teoria básica sobre fun-ções kernel e sobre as versões convencionais do algoritmos kernel K-médias.

Seja X = {x1, . . . , xn} um conjunto não-vazio, onde xi ∈ Rp, ∀i. Uma função K : X × X → R é dita um kernel positivo-denido (ou kernel de Mercer) se, e somente se, K

(31)

é simétrica (i.e. K(xi, xk) = K(xk, xi)) e a seguinte desigualdade é válida (Mercer, 1909): n X i=1 n X k=1 cickK(xi, xk) ≥ 0 ∀n ≥ 2, (2.1) onde cr∈ R ∀r = 1, . . . , n.

Um conjunto de padrões de entrada não-linearmente separável pode tornar-se sepa-rável linearmente através de um mapeamento não-linear arbitrário para um espaço de características de alta dimensão (Haykin, 1998). Seja Φ : X → F um mapeamento não-lienar arbitrário do espaço original X para um espaço de características de alta dimensão F. Aplicando o mapeamento não-linear Φ, o produto interno x>

i xk no espaço original é mapeado para Φ(xi)>Φ(xk)no espaço de características. A essência dos métodos baseados em kernel é que o mapeamento não-linear Φ não precisa ser explicitamente especicado porque todo kernel de Mercer pode ser expresso como

K(xi, xk) = Φ(xi)>Φ(xk), (2.2) que é usualmente referida como kernel trick (Müller et al., 2001, Schölkopf et al., 1998).

Seja K ∈ Rn×n _{uma matriz chamada de matriz kernel onde cada elemento κ} il = K(xi, xl), i = 1, . . . , n, l = 1, . . . , n.

Por causa da Eq. (2.2), é possível calcular distâncias Euclidianas em F da seguinte maneira (Müller et al., 2001, Schölkopf et al., 1998):

||Φ(xi) − Φ(xk)||2 = (Φ(xi) − Φ(xk))>(Φ(xi) − Φ(xk))

= Φ(xi)>Φ(xi) − 2Φ(xi)>Φ(xk) + Φ(xk)>Φ(xk)

= K(xi, xi) − 2K(xi, xk) + K(xk, xk). (2.3) Exemplos de funções kernel tipicamente utilizadas são:

(32)

• Linear: K(xi, xk) = x>i xk, • Polinomial de grau d: K(xi, xk) = (γx>i xk+ θ)d, γ > 0, θ ≥ 0, d ∈ N, • Gaussiana: K(xi, xk) = e− ||xi−xk||2 2σ2 , σ > 0, • Laplaciana: K(xi, xk) = e−γ||xi−xk||, γ > 0, • Sigmóide: K(xi, xk) = tanh(γx>i xk+ θ), γ > 0, θ ≥ 0, onde γ, σ, θ e d são parâmetros do kernel.

Existem duas grandes variações dos métodos de agrupamento baseados em kernel, as quais são baseadas, respectivamente, em: kernelização da métrica e agrupamento no espaço de características. Métodos de agrupamento baseados em kernelização da métrica buscam por protótipos no espaço original dos padrões e a distância entre um padrão xi e o protótipo do k-ésimo grupo vk é calculada por meio de funções kernel:

||Φ(xi) − Φ(vk)||2 = K(xi, xi) − 2K(xi, vk) + K(vk, vk).

Por outro lado, algoritmos de agrupamento no espaço de características realizam um mapeamento de cada padrão por meio de uma função não-linear Φ e então obtêm os protótipos dos grupos no espaço de características. Seja vΦ

k o protótipo do k-ésimo grupo no espaço de características. Nós veremos que é possível calcular ||Φ(xi) − vkΦ||

2 _sem a necessidade de se obter vΦ

k, através do uso do kernel trick (Eq. (2.2)). A principal vantagem é que, ao passarmos para um espaço de mais alta dimensão, um conjunto de padrões de entrada não-linearmente separável pode tornar-se separável linearmente, e, embora não conheçamos o mapeamento não-linear Φ e não possamos obter os protótipos dos grupos, as distâncias entre os padrões e os protótipos dos grupos podem ser calculadas através de funções kernel.

(33)

2.2 Kernel K-médias baseado em kernelização da

mé-trica

Seja Ω = {1, . . . , n} um conjunto de n padrões indexado por i e descrito por p variáveis. Seja P = {P1, . . . , PK} uma partição de Ω em K grupos. A ideia básica no algoritmo kernel K-médias baseado em kernelização da métrica (rotulado nesta tese como KKM-K) é minimizar a seguinte função objetivo (Filippone et al., 2008, Zhang & Chen, 2003, 2004):

J = K X k=1 X i∈Pk ||Φ(xi) − Φ(vk)||2 = K X k=1 X i∈Pk {K(xi, xi) − 2K(xi, vk) + K(vk, vk)} , (2.4) onde vk∈ Rp é o protótipo do k-ésimo grupo (k = 1, . . . , K).

A derivação dos protótipos dos grupos depende da escolha da função kernel. Se consi-derarmos o kernel Gaussiano, que é o mais comumente utilizado na literatura em virtude ser ser facilmente tratável analiticamente, então, K(xi, xi) = 1 ∀i, e a função objetivo, dada pela Eq. (2.4), pode ser expressa por (Graves & Pedrycz, 2010):

J = 2 K X k=1 X i∈Pk (1 − K(xi, vk)). (2.5)

Igualando a primeira derivada da Eq. (2.5) com relação ao protótipo do k-ésimo grupo vk ao vetor nulo, obtemos a equação de atualização dos protótipos dos grupos expressa da seguinte forma: vk= P i∈PkK(xi, vk)xi P i∈PkK(xi, vk) , k = 1, . . . , K. (2.6)

Na denição da melhor partição do conjunto de padrões de entrada Ω, os protótipos dos grupos vk (k = 1, . . . , K) estão xos. Os grupos Pk (k = 1, . . . , K), que minimizam a função objetivo J dada na Eq. (2.5) são então atualizados de acordo com a seguinte regra

(34)

de alocação:

Pk =i ∈ Ω : ||Φ(xi) − Φ(vk)||2 ≤ ||Φ(xi) − Φ(vh)||2, ∀h 6= k, h = 1, . . . , K . (2.7) O algoritmo kernel K-médias baseado em kernelização da métrica é executado de acordo com os seguintes passos:

(1) Inicialização

Fixe K (o número de grupos), 2 ≤ K < n; escolha aleatoriamente uma partição inicial P de Ω em K grupos P1, . . . , PK ou, alternativamente, escolha K padrões distintos v1, . . . , vK pertencendo a Ω como protótipos iniciais e aloque cada padrão i de acordo com o protótipo mais próximo vh (h = arg min1≤k≤K||Φ(xi) − Φ(vk)||2) para obter a partição inicial P = {P1, . . . , PK}.

(2) Etapa 1: Denição dos melhores protótipos dos grupos

Atualize os protótipos dos grupos vk (k = 1, . . . , K) de acordo com a Eq. (2.6). (3) Etapa 2: Denição da melhor partição

test ← 0

para i = 1 até n faça

dena o grupo vencedor Ph tal que h = arg min_1≤k≤K||Φ(xi) − Φ(vk)||2 se i ∈ Pk e h 6= k test ← 1 Ph ← Ph∪ {i} Pk ← Pk\ {i} (4) Critério de parada

(35)

Note que, na etapa de denição da melhor partição, cada padrão i é alocado a um grupo Ph se a distância entre o padrão e o protótipo do grupo Ph é mínima. O processo se repete até que não ocorram mudanças.

2.3 Kernel K-médias no espaço de características

O algoritmo kernel K-médias no espaço de características (rotulado nesta tese como KKM-F) busca iterativamente por K grupos através da minimização da seguinte função objetivo (Chiang & Hao, 2003, Filippone et al., 2008, Graepel & Obermayer, 1998, Zhang & Chen, 2002): J = K X k=1 X i∈Pk ||Φ(xi) − vΦk|| 2 , (2.8) onde vΦ

k é o protótipo do k-ésimo grupo no espaço de características.

A minimização da função objetivo dada pela Eq. (2.8) com respeito ao protótipo do k-ésimo grupo vΦ

k fornece a seguinte equação de atualização para os protótipos dos grupos no espaço de características (Chiang & Hao, 2003, Filippone et al., 2008, Graepel & Obermayer, 1998, Zhang & Chen, 2002):

vΦ_k = 1 |Pk|

X

i∈Pk

Φ(xi), k = 1, . . . , K. (2.9) O mapeamento não-linear Φ não é conhecido explicitamente, então, o protótipo no espaço de características vΦ

k (k = 1, . . . , K) não pode ser obtido diretamente. Contudo, a distância entre Φ(xi) e vΦk no espaço de características é calculada através de funções

(36)

kernel no espaço original dos padrões: ||Φ(xi) − vΦk|| 2 _{= Φ(x} i)>Φ(xi) − 2Φ(xi)>(vΦk) + (v Φ k) > (v_kΦ) = Φ(xi)>Φ(xi) − 2P l∈PkΦ(xl) >_Φ(x i) |Pk| + P r∈Pk P s∈PkΦ(xr) >_Φ(x s) |Pk|2 = K(xi, xi) − 2P l∈PkK(xl, xi) |Pk| + P r∈Pk P s∈PkK(xr, xs) |Pk|2 . (2.10)

Adicionalmente, o critério J dado pela Eq. (2.8) pode ser reescrito como J = K X k=1 X i∈Pk K(xi, xi) − 2P l∈PkK(xl, xi) |Pk| + P r∈Pk P s∈PkK(xr, xs) |Pk|2 . (2.11)

O algoritmo kernel K-médias no espaço de características não possui a etapa em que os protótipos dos grupos são atualizados. A atualização da partição P pode ser feita sem o cálculo dos protótipos devido ao mapeamento implícito realizado através na função kernel na Eq. (2.10).

Os grupos Pk (k = 1, . . . , K), que minimizam a função objetivo J dada pela Eq. (2.8) são atualizados de acordo com a seguinte regra de alocação:

Pk=i ∈ Ω : ||Φ(xi) − vΦk||

2 _{≤ ||Φ(x}

i) − vhΦ||

2_{, ∀h 6= k, h = 1, . . . , K .} _(2.12) O algoritmo kernel K-médias no espaço de características é executado de acordo com os seguintes passos:

(1) Inicialização

Fixe K (o número de grupos), 2 ≤ K < n; escolha aleatoriamente uma partição inicial P de Ω em K grupos P1, . . . , PK; escolha uma função kernel adequada K e

(37)

calcule a matriz kernel K.

(2) Etapa 1: Denição da melhor partição test ← 0

dena o grupo vencedor Ph tal que h = arg min_1≤k≤K||Φ(xi) − vΦk||2 se i ∈ Pk e h 6= k test ← 1 Ph ← Ph∪ {i} Pk← Pk\ {i} (3) Critério de parada

Se test = 0, então, PARE, caso contrário, volte ao passo (2).

2.4 Kernel K-médias difuso baseado em kernelização

da métrica

A ideia básica no algoritmo kernel K-médias difuso baseado em kernelização da mé-trica (rotulado nesta tese como KFKM-K) é minimizar a seguinte função objetivo:

J = K X k=1 n X i=1 (uki)m||Φ(xi) − Φ(vk)||2 = K X k=1 n X i=1 (uki)m{K(xi, xi) − 2K(xi, vk) + K(vk, vk)} , (2.13)

(38)

sob as restrições        uki ∈ [0, 1] ∀k, i, K X k=1 uki = 1 ∀i, (2.14) onde vk ∈ Rp é o protótipo do k-ésimo grupo (k = 1, . . . , K), uki é o grau de pertinência difuso do padrão i ao k-ésimo grupo (k = 1, . . . , K, i = 1, . . . , n) e m ∈ (1, ∞) é um parâmetro que controla o grau de imprecisão da pertinência para cada padrão i. Seja U = (uki), k = 1, . . . , K, i = 1, . . . , n. U é chamada de matriz de partição difusa.

Como no caso do algoritmo kernel K-médias rígido baseado em kernelização da mé-trica, a derivação dos protótipos dos grupos depende da escolha da função kernel. Consi-derando novamente o kernel Gaussiano, a função objetivo dada pela equação Eq. (2.13) ca reescrita da forma (Graves & Pedrycz, 2010):

J = 2 K X k=1 n X i=1 (uki)m(1 − K(xi, vk)). (2.15) Assim, a equação de atualização dos protótipos dos grupos ca expressa como:

vk= Pn i=1(uki) m_K(x i, vk)xi Pn i=1(uki)mK(xi, vk) , k = 1, . . . , K. (2.16)

Na etapa de atualização da matriz de partição difusa U, os protótipos dos grupos vk (k = 1, . . . , K) são mantidos xos. Precisamos então encontrar os graus de pertinência difusos uki (k = 1, . . . , K, i = 1, . . . , n) que minimizam a função objetivo J sob as restrições dadas em (2.14). Através do método dos multiplicadores de Lagrange, chegamos à seguinte solução (Filippone et al., 2008, Graves & Pedrycz, 2010):

uki = " _K X h=1 1 − K(xi, vk) 1 − K(xi, vh) _m−11 #−1 . (2.17)

(39)

de acordo com os seguintes passos: (1) Inicialização

Fixe K (o número de grupos), 2 ≤ K < n; xe m, 1 < m < ∞; xe T (um número máximo de iterações); e xe 0 < ε << 1; inicialize os graus de pertinência difusos uki (k = 1, . . . , K, i = 1, . . . , n) de tal forma que uki ≥ 0 ∀k, i e PK_k=1uki = 1 ∀i; faça t = 1.

Atualize os protótipos dos grupos vk (k = 1, . . . , K) de acordo com a Eq. (2.16). (3) Etapa 2: Denição da melhor partição difusa

Atualize os graus de pertinência difusos uki (k = 1, . . . , K, i = 1, . . . , n) de acordo com a Eq. (2.17).

(4) Critério de parada

Se |Jt+1_{− J}t_{| ≤ ε} _{ou t > T , então, PARE, caso contrário, faça t = t + 1 e volte ao} passo (2).

2.5 Kernel K-médias difuso no espaço de

característi-cas

O algoritmo kernel K-médias difuso no espaço de características (rotulado nesta tese como KFKM-F) busca iterativamente por K grupos através da minimização da seguinte função objetivo (Chiang & Hao, 2003, Filippone et al., 2008, Graepel & Obermayer, 1998, Zhang & Chen, 2002):

J = K X k=1 n X i=1 (uki)m||Φ(xi) − vΦk|| 2_, _(2.18)

sujeita às restrições dadas na Eq. (2.14), onde uki (k = 1, . . . , K, i = 1, . . . , n) e m são denidos como anteriormente e vΦ

(40)

características.

A minimização da função objetivo dada pela Eq. (2.18) com respeito a vΦ

k fornece a seguinte expressão de atualização dos protótipos dos grupos no espaço de característi-cas (Chiang & Hao, 2003, Filippone et al., 2008, Graepel & Obermayer, 1998, Zhang & Chen, 2002): vΦ_k = Pn i=1(uki)mΦ(xi) Pn i=1(uki)m , k = 1, . . . , K. (2.19) O próximo passo é minimar a Eq. (2.18) com respeito a uki (k = 1, . . . , K, i = 1, . . . , n) sob as restrições dadas em (2.14). Novamente, a utilização do método dos multiplicadores de Lagrange leva à seguinte solução (Chiang & Hao, 2003, Filippone et al., 2008, Graepel & Obermayer, 1998, Zhang & Chen, 2002):

uki = " _K X h=1 ||Φ(x_i) − vΦ k||2 ||Φ(xi) − vΦ_h||2 _m−11 #−1 . (2.20)

Como no caso rígido, a distância entre Φ(xi) e vΦk no espaço de características é calculada através de funções kernel no espaço original dos padrões:

||Φ(xi) − vΦk|| 2 _{= Φ(x} i)>Φ(xi) − 2Φ(xi)>(vΦk) + (v Φ k) > (v_kΦ) = Φ(xi)>Φ(xi) − 2Pn l=1(ukl)mΦ(xl)>Φ(xi) Pn l=1(ukl)m + Pn r=1 Pn s=1(ukr) m_(u ks)mΦ(xr)>Φ(xs) (Pn r=1(ukr)m) 2 = K(xi, xi) − 2Pn l=1(ukl) m_K(x l, xk) Pn l=1(ukl)m + Pn r=1 Pn s=1(ukr)m(uks)mK(xr, xs) (Pn r=1(ukr)m) 2 . (2.21)

(41)

Adicionalmente, a função objetivo J dada pela Eq. (2.18) ca reescrita da forma: J = K X k=1 n X i=1 (uki)m K(xi, xi) − 2Pn l=1(ukl) m_K(x l, xi) Pn l=1(ukl)m + Pn r=1 Pn s=1(ukr)m(uks)mK(xr, xs) (Pn r=1(ukr)m) 2 ) . (2.22)

O algoritmo kernel K-médias difuso no espaço de características também não possui a etapa em que os protótipos dos grupos são atualizados. A atualização da matriz de partição difusa U pode ser feita sem o cálculo dos protótipos devido ao mapeamento implícito realizado através na função kernel na Eq. (2.21).

O algoritmo kernel K-médias difuso no espaço de características é executado de acordo com os seguintes passos:

(1) Inicialização

Fixe K (o número de grupos), 2 ≤ K < n; xe m, 1 < m < ∞; xe T (um número máximo de iterações); e xe 0 < ε << 1; inicialize os graus de pertinência difusos uki (k = 1, . . . , K, i = 1, . . . , n) de tal forma que uki ≥ 0 ∀k, i e PK_k=1uki = 1 ∀i; escolha uma função kernel adequada K e calcule a matriz kernel K; faça t = 1. (2) Etapa 1: Denição da melhor partição difusa

Atualize os graus de pertinência difusos uki (k = 1, . . . , K, i = 1, . . . , n) de acordo com a Eq. (2.20).

(3) Critério de parada

Se |Jt+1_{− J}t_{| ≤ ε} _{ou t > T , então, PARE, caso contrário, faça t = t + 1 e volte ao} passo (2).

(42)

2.6 Síntese do capítulo

Foi apresentada a teoria básica sobre funções kernel e as principais versões do algoritmo kernel K-médias foram descritas: kernel K-médias rígido baseado em kernelização da métrica (KKM-K), kernel K-médias rígido no espaço de características (KKM-F), kernel K-médias difuso baseado em kernelização da métrica (KFKM-K) e, por m, kernel K-médias difuso no espaço de características (KFKM-F).

(43)

(44)

Agrupamento baseado em kernel com ponderação automática das

variáveis via distâncias adaptativas

3.1 Introdução

Os métodos de agrupamento baseados em funções kernel convencionais (por exemplo, kernel K-médias, kernel K-médias difuso, etc.) não levam em consideração os pesos ou a relevância das variáveis para a construção dos grupos, i.e., esses métodos consideram que todas as variáveis são igualmente importantes para o processo de agrupamento, no sentido de que todas possuem o mesmo peso. Entretanto, na maioria das áreas do conhe-cimento, temos tipicamente que lidar com conjuntos de dados de alta dimensão. Dessa forma, algumas variáveis podem ter um peso pequeno para o processo de agrupamento, ou até mesmo serem irrelevantes, e, dentre as variáveis relevantes, algumas podem ter pesos maiores do que outras. Além disso, o peso de cada variável na construção de cada grupo pode ser diferente, i.e., cada grupo pode ter um conjunto diferente de variáveis

(45)

tes. Se considerarmos que podem existir diferenças nos pesos das variáveis e pudermos mensurar a relevância de cada variável para o processo de construção dos grupos, então, o desempenho dos métodos de agrupamento baseados em kernel pode ser melhorado.

Este capítulo trata da principal contribuição desta tese de doutorado. São introdu-zidos métodos de agrupamento baseados em funções kernel com ponderação automática das variáveis. Tal ponderação foi obtida através de uma denição adequada de distâncias adaptativas, as quais são obtidas como somas de distâncias Euclidianas entre os padrões e os protótipos dos grupos calculadas em um espaço de características por meio de fun-ções kernel. Para ambos os paradigmas, agrupamento rígido e difuso, assim como para ambas as abordagens, kernelização da métrica e agrupamento no espaço de característi-cas, distâncias adaptativas foram propostas considerando parametrização por um único e igual vetor de pesos para todos os grupos (distâncias adaptativas globais) e considerando parametrização por um vetor de pesos para cada grupo (distâncias adaptativas locais). Para as distâncias adaptativas locais, quanto mais próximos os padrões estão do protó-tipo de um dado grupo com relação a uma dada variável, maior será a relevância dessa variável para esse grupo. Por outro lado, para as distâncias adaptativas globais, quanto mais próximos os padrões estão do conjunto de protótipos dos grupos com relação a uma dada variável, maior a relevância global dessa variável. Além disso, a derivação dos pesos foi realizada considerando dois tipos de restrições: a primeira, assumindo que a soma dos pesos das variáveis deve ser igual a um; e a segunda, assumindo que o produto dos pesos das variáveis deve ser igual a um. Este último tipo de restrição foi motivado pelo trabalho de Diday & Govaert (1977) em agrupamento rígido baseado em distâncias adaptativas e pelo algoritmo difuso proposto por Gustafson & Kessel (1978), que é baseado em uma distância quadrática denida por uma matriz positiva-denida simétrica Mk(de dimensão p × p) associada com o k-ésimo grupo (k = 1, . . . , K), sob a restrição det(Mk) = 1. Se Mk (k = 1, . . . , K) é uma matriz diagonal, então, o j-ésimo elemento da diagonal representa o

(46)

peso da j-ésima variável para o k-ésimo grupo e temos distâncias adaptativas locais com a restrição de que o produto dos pesos em cada grupo deve ser igual a um. Se Mk é uma matriz diagonal e é também a mesma para todos os grupos (Mk = M, k = 1, . . . , K), então, o j-ésimo elemento da diagonal representa o peso da j-ésima variável e temos dis-tâncias adaptativas globais com a restrição de que o produto dos pesos deve ser igual a um.

A principal ideia por trás da abordagem proposta é que uma função kernel pode ser escrita como uma soma de funções kernel aplicadas a cada variável.

Proposição 3.1. Se K1 : X1× X1 → R e K2 : X2× X2 → R são funções kernel, então, a soma K1(x1, x01) + K2(x2, x02) é uma função kernel denida em (X1× X1) × (X2× X2), onde x1, x01 ∈ X1 e x2, x02 ∈ X2, X1, X2 ⊂ Rp.

Demonstração. A demonstração pode ser obtida em Schölkopf & Smola (2002).

A Proposição 3.1 pode ser particularmente útil se os padrões são representados por conjuntos de variáveis com signicados diferentes, e que, por esse motivo, devem ser tratadas diferentemente. Mais especicamente, se um padrão é representado por um vetor p-dimensional (p variavéis), nós podemos particionar esse vetor em até p partes e considerar p diferentes funções kernel, uma para cada parte.

Seja Φ : X → F um mapeamento não linear do espaço original X para um es-paço de características F. De acordo com a Proposição 3.1, temos que K(xi, xk) = Pp

j=1Kj(xij, xkj), onde K : X × X → R e Kj : Xj × Xj → R são funções kernel, X é o espaço original dos padrões e Xj é o espaço da j-ésima variável. Dessa forma, a distância baseada em kernelização da métrica entre um padrão xi e um protótipo vk com relação à j-ésima variável pode ser calculada como

(47)

onde φ1, φ2, . . . , φp são mapeamentos não-lineares, sendo que cada φj, j = 1, . . . , p, mapeia a j-ésima dimensão de um vetor xi ∈ X, X ⊂ Rp, como φj(xij) em um espaço de características Fj.

Note que, calcular distâncias com relação a variáveis individuais como dado pela Eq. (3.1) nos permite introduzir pesos representando a relevância de cada variável. A utilização desses pesos pode levar a uma melhora no desempenho dos algoritmos. Seja ϕ2_(x

i, vk) uma medida de distância baseada em kernelização da métrica entre um padrão xi e protótipo do k-ésimo grupo vk. De acordo com a distância ϕ2, existem diferentes métodos de agrupamento baseados em funções kernel. As distâncias baseadas em kerne-lização da métrica propostas nesta tese de doutorado são:

(a) Distância não-adaptativa:

ϕ2(xi, vk) = p X

j=1

||φj(xij) − φj(vkj)||2. (3.2)

(b) Distância adaptativa local com a restrição de que a soma dos pesos das variáveis em cada grupo deve ser igual a um:

ϕ2(xi, vk) = ϕ2λk(xi, vk) = p X j=1 (λkj)β||φj(xij) − φj(vkj)||2, (3.3) onde λk = (λk1, . . . , λkp), sujeito a        λkj ∈ [0, 1] ∀k, j, p X j=1 λkj = 1 ∀k, (3.4)

é o vetor de pesos relativo ao k-ésimo grupo, e β ∈ (1, ∞) é um parâmetro que controla o grau de inuência do peso de cada variável para cada grupo de tal forma que, se β é grande o suciente, então, todas as variáveis terão a mesma importância

(48)

para todos os grupos; por outro lado, se β → 1, então, a inuência dos pesos das variáveis será máxima.

(c) Distância adaptativa global com a restrição de que a soma dos pesos das variáveis deve ser igual a um:

ϕ2(xi, vk) = ϕ2λ(xi, vk) = p X j=1 (λj)β||φj(xij) − φj(vkj)||2, (3.5) onde λ = (λ1, . . . , λp), sujeito a        λj ∈ [0, 1] ∀j, p X j=1 λj = 1, (3.6)

é o vetor de pesos e β é denido como anteriormente.

(d) Distância adaptativa local com a restrição de que o produto dos pesos das variáveis em cada grupo deve ser igual a um:

ϕ2(xi, vk) = ϕ2λk(xi, vk) = p X j=1 λkj||φj(xij) − φj(vkj)||2, (3.7) onde λk = (λk1, . . . , λkp), sujeito a        λkj > 0 ∀k, j, p Y j=1 λkj = 1 ∀k, (3.8)

é o vetor de pesos relativo ao k-ésimo grupo.

(49)

deve ser igual a um: ϕ2(xi, vk) = ϕ2λ(xi, vk) = p X j=1 λj||φj(xij) − φj(vkj)||2, (3.9) onde λ = (λ1, . . . , λp), sujeito a        λj > 0 ∀j, p Y j=1 λj = 1, (3.10) é o vetor de pesos.

De maneira similar, na abordagem de agrupamento no espaço de características esta-mos assumindo que os protótipos são obtidos para cada variável individualmente em um espaço de características, i.e., vΦ

k = (v φ1

k1, . . . , v φp

kp) (k = 1, . . . , K). Seja ϕ2(xi, vΦk) uma medida de distância entre um padrão xi e o protótipo do k-ésimo grupo no espaço de características vΦ

k. Neste caso, as medidas de distância propostas nesta tese de doutorado são:

(a) Distância não-adaptativa:

ϕ2(xi, vΦk) = p X j=1 ||φj(xij) − v φj kj|| 2 . (3.11)

(b) Distância adaptativa local com a restrição de que a soma dos pesos das variáveis em cada grupo deve ser igual a um:

ϕ2(xi, vΦk) = ϕ 2 λk(xi, v Φ k) = p X j=1 (λkj)β||φj(xij) − v φj kj|| 2 , (3.12)

onde λk = (λk1, . . . , λkp), sujeito às restrições dadas pela Eq. (3.4), é o vetor de pesos relativo ao k-ésimo grupo, e β é denido como anteriormente.

(50)

(c) Distância adaptativa global com a restrição de que a soma dos pesos das variáveis deve ser igual a um:

ϕ2(xi, vΦk) = ϕ 2 λ(xi, vΦk) = p X j=1 (λj)β||φj(xij) − v φj kj|| 2_, _(3.13)

onde λ = (λ1, . . . , λp), sujeito às restrições dadas pela Eq. (3.6), é o vetor de pesos β é denido como anteriormente.

(d) Distância adaptativa local com a restrição de que o produto dos pesos das variáveis em cada grupo deve ser igual a um:

ϕ2(xi, vΦk) = ϕ2λk(xi, v Φ k) = p X j=1 λkj||φj(xij) − v φj kj|| 2_, _(3.14)

onde λk = (λk1, . . . , λkp), sujeito às restrições dadas pela Eq. (3.8), é o vetor de pesos relativo ao k-ésimo grupo.

(e) Distância adaptativa global com a restrição de que o produto dos pesos das variáveis deve ser igual a um:

ϕ2(xi, vΦk) = ϕ 2 λ(xi, vkΦ) = p X j=1 λj||φj(xij) − v φj kj|| 2_, _(3.15)

onde λ = (λ1, . . . , λp), sujeito às restrições dadas pela Eq. (3.10), é o vetor de pesos. É importante observar que, no caso das distâncias adaptativas locais (Eqs. (3.3) e (3.7) na abordagem de kernelização da métrica, Eqs. (3.12) e (3.14) na abordagem de agrupa-mento no espaço de características), o conjunto de variáveis importantes pode não ser o mesmo para todos os grupos, i.e., cada grupo pode ter um conjunto diferente de variáveis importantes, enquanto que, no caso das distâncias adaptativas globais (Eqs. (3.5) e (3.9) na abordagem de kernelização da métrica, Eqs. (3.13) e (3.15) na abordagem de

(51)

agru-pamento no espaço de características), estamos assumindo que o conjunto de variáveis importantes é o mesmo para todos os grupos.

3.2 Agrupamento rígido baseado em kernelização da

métrica com ponderação automática das variáveis

Nesta seção, nós apresentamos métodos de agrupamento rígido baseados em kernel com ponderação automática das variáveis considerando a abordagem de kernelização da métrica.

Os algoritmos introduzidos nesta seção otimizam uma função objetivo J que mede o ajuste entre os grupos e os seus protótipos, a qual pode ser denida genericamente como

J = K X k=1 X i∈Pk ϕ2(xi, vk), (3.16) onde ϕ2_(x

i, vk) é uma medida de distância adequada entre um padrão xi e o protótipo do k-ésimo grupo vk calculada por meio de funções kernel.

De acordo com a escolha da medida de distância ϕ2_{, temos diferentes métodos de} agrupamento rígido baseados em kernelização da métrica, otimizando diferentes funções objetivo. Considerando as medidas de distância dadas pelas Eqs. (3.2), (3.3), (3.5), (3.7) e (3.9) introduzidas na Seção 3.1, temos:

(a) Kernel K-médias baseado na distância não-adaptativa kernelizada, dada pela Eq. (3.2) (VKKM-K): J = K X k=1 X i∈Pk p X j=1 ||φj(xij) − φj(vkj)||2. (3.17) (b) Kernel K-médias baseado na distância adaptativa local kernelizada sob a restrição de que a soma dos pesos das variáveis em cada grupo deve ser igual a um, dada pela

(52)

Eq. (3.3) (VKKM-K-LS): J = K X k=1 X i∈Pk p X j=1 (λkj)β||φj(xij) − φj(vkj)||2. (3.18) (c) Kernel K-médias baseado na distância adaptativa global kernelizada sob a restrição de que a soma dos pesos das variáveis deve ser igual a um, dada pela Eq. (3.5) (VKKM-K-GS): J = K X k=1 X i∈Pk p X j=1 (λj)β||φj(xij) − φj(vkj)||2. (3.19) (d) Kernel K-médias baseado na distância adaptativa local kernelizada sob a restrição de que o produto dos pesos das variáveis em cada grupo deve ser igual a um, dada pela Eq. (3.7) (VKKM-K-LP): J = K X k=1 X i∈Pk p X j=1 λkj||φj(xij) − φj(vkj)||2. (3.20)

(e) Kernel K-médias baseado na distância adaptativa global kernelizada sob a restrição de que o produto dos pesos das variáveis deve ser igual a um, dada pela Eq. (3.9) (VKKM-K-GP): J = K X k=1 X i∈Pk p X j=1 λj||φj(xij) − φj(vkj)||2. (3.21) Como no algoritmo Kernel K-médias baseado em kernelização da métrica tradicional, a derivação dos protótipos depende da escolha da função kernel. Considerando o kernel Gaussiano, Kj(xij, xij) = 1 (i = 1, . . . , n, j = 1, . . . , p) e ||φj(xij) − φj(vkj)||2 = 2(1 − Kj(xij, vkj)).

O algoritmo se inicia a partir de uma partição inicial P = {P1, . . . , PK} de Ω em K grupos e alterna entre uma etapa de representação e uma etapa de alocação, até a conver-gência do algoritmo, quando o critério de ajuste entre grupos e protótipos J alcança um

(53)

valor estacionário representando um ponto de mínimo local. Para os algoritmos baseados em distâncias adaptativas (Eqs. (3.3), (3.5), (3.7) e (3.9)) a etapa de representação tem dois estágios. No primeiro estágio, a partição P de Ω em K grupos e os pesos das variáveis são mantidos xos.

Proposição 3.2. Qualquer que seja a medida de distância adotada (Eqs. (3.2), (3.3), (3.5), (3.7) e (3.9)), e se Kj(·, ·) é o kernel Gaussiano (j = 1, . . . , p), então, o protótipo do k-ésimo grupo vk = (vk1, . . . , vkp) (k = 1, . . . , K), que minimiza a função objetivo J, dada pela Eq. (3.16), tem seus componentes vkj (j = 1, . . . , p) atualizados de acordo com a seguinte equação: vkj = P i∈PkKj(xij, vkj)xij P i∈PkKj(xij, vkj) . (3.22)

Demonstração. Temos que encontrar o componente vkj que minimiza o critério J. Se nos restringirmos ao kernel Gaussiano, então, Kj(xij, xij) = 1 (i = 1, . . . , n, j = 1, . . . , p) e ||φj(xij) − φj(vkj)||2 = 2(1 − Kj(xij, vkj)) e J será minimizado quando Kj(xij, vkj) for maximizado para todo i ∈ Pk. Dessa forma, para o k-ésimo grupo e para a j-ésima variável, o problema se torna encontrar o componente vkj que maximiza o termo

X

i∈Pk

Kj(xij, vkj). (3.23)

(54)

zero, temos, para k = 1, . . . , K, j = 1, . . . , p: ∂J ∂vkj = X i∈Pk ∂e−(xij−vkj)2/2σj2 ∂vkj = 0 X i∈Pk (xij − vkj) σ2 j e−(xij−vkj)2/2σ2j = 0 vkj X i∈Pk Kj(xij, vkj) = X i∈Pk Kj(xij, vkj)xij vkj = P i∈PkKj(xij, vkj)xij P i∈PkKj(xij, vkj) .

Para os algoritmos baseados em distâncias adaptativas, o próximo passo é determinar os pesos das variáveis. Agora a partição P de Ω em K grupos e os protótipos dos grupos vk, k = 1, . . . , K, são mantidos xos e o problema se torna encontrar os pesos das variáveis que minimizam o critério J sob restrições apropriadas.

Proposição 3.3. Os pesos das variáveis, que minimizam o critério J dado pela Eq. (3.16), são calculados de acordo com a medida de distância kernelizada considerada:

(a) Se a distância adaptativa kernelizada é dada pela Eq. (3.3), então, o vetor de pesos λk = (λk1, . . . , λkp) que minimiza o critério J dado pela Eq. (3.16) sob λkj ∈ [0, 1] ∀k, j e Pp_j=1λkj = 1 ∀k, tem seus componentes λkj (k = 1, . . . , K, j = 1, . . . , p) atualizadas de acordo com a sequinte equação:

λkj =   p X l=1 P i∈Pk||φj(xij) − φj(vkj)|| 2 P i∈Pk||φl(xil) − φl(vkl)|| 2 !_β−11   −1 . (3.24)

(b) Se a distância adaptativa kernelizada é dada pela Eq. (3.5), então, o vetor de pesos λ = (λ1, . . . , λp) que minimiza o critério J dado pela Eq. (3.16) sob λj ∈ [0, 1] ∀j e Pp

(55)

sequinte equação: λj =   p X l=1 PK k=1 P i∈Pk||φj(xij) − φj(vkj)|| 2 PK k=1 P i∈Pk||φl(xil) − φl(vkl)|| 2 !_β−11   −1 . (3.25)

(c) Se a distância adaptativa kernelizada é dada pela Eq. (3.7), então, o vetor de pesos λk = (λk1, . . . , λkp) que minimiza o critério J dado pela Eq. (3.16) sob λkj > 0 ∀k, j e Qp_j=1λkj = 1 ∀k, tem seus componentes λkj (k = 1, . . . , K, j = 1, . . . , p) atualizadas de acordo com a sequinte equação:

λkj = Qp l=1 P i∈Pk||φl(xil) − φl(vkl)|| 2 1_p P i∈Pk||φj(xij) − φj(vkj)|| 2 . (3.26)

(d) Se a distância adaptativa kernelizada é dada pela Eq. (3.9), então, o vetor de pesos λ = (λ1, . . . , λp) que minimiza o critério J dado pela Eq. (3.16) sob λj > 0 ∀j e Qp

j=1λj = 1, tem seus componentes λj (j = 1, . . . , p) atualizadas de acordo com a sequinte equação: λj = n Qp l=1 PK k=1 P i∈Pk||φl(xil) − φl(vkl)|| 2o 1 p PK k=1 P i∈Pk||φj(xij) − φj(vkj)|| 2 . (3.27)

Demonstração. (a) Nós queremos minimizar J com respeito a λkj (k = 1, . . . , K, j = 1, . . . , p) sob a restrição de que λkj ∈ [0, 1] ∀k, j e P

p

j=1λkj = 1 ∀k. Como a partição P de Ω em K grupos, os protótipos vk (k = 1, . . . , K), e o parâmetro β estão xos, podemos reescrever J da forma J (λ1, . . . , λK) = K X k=1 Jk(λk) = K X k=1 p X j=1 (λkj)β X i∈Pk ||φj(xij) − φj(vkj)||2 (3.28) onde Jk(λk) = Jk(λk1, . . . , λkp) = Pp j=1(λkj)βJkj, Jkj = P i∈Pk||φj(xij) − φj(vkj)|| 2.

(56)

Como o critério J é aditivo, o problema se torna minimizar Jk, k = 1, . . . , K. Seja gk(λk1, . . . , λkp) =

Pp

j=1λkj − 1. Queremos determinar os extremos de Jk(λk1, . . . , λkp) com a restrição gk(λk1, . . . , λkp) = 0. Para tanto, devemos aplicar o método dos multipli-cadores de Lagrange para resolver o seguinte sistema

∇Jk(λk1, . . . , λkp) = µ∇gk(λk1, . . . , λkp).

Então, para k = 1, . . . , K e j = 1, . . . , p, temos ∂Jk(λk1, . . . , λkp) ∂λkj = µ∂gk(λk1, . . . , λkp) ∂λkj β(λkj)β−1Jkj = µ λkj = µ β _β−11 · 1 (Jkj) 1 β−1 (3.29) Como sabemos que Pp

l=1λkl = 1, ∀k, temos p X l=1 µ β _β−11 · 1 (Jkl) 1 β−1 = 1. (3.30) Resolvendo (3.30) paraµ β _β−11

e substituindo em (3.29), temos que um extremo de Jk é alcançado quando λkj = " _p X l=1 Jkj Jkl _β−11 #−1 =   p X l=1 P i∈Pk||φj(xij) − φj(vkj)|| 2 P i∈Pk||φl(xil) − φl(vkl)|| 2 !_β−11   −1 . Temos que, ∂Jk ∂λkj = β(λkj)β−1Jkj então, ∂2_J k ∂(λkj)2 = β(β − 1)(λkj)β−2Jkj e ∂2_J k ∂λkj∂λkl = 0 ∀l 6= j.

(57)

A matriz Hessiana de Jk avaliada em λk= (λk1, . . . , λkp)é H(λk) =          β(β−1)Jk1 Pp l=1 Jk1 Jkl β−2 β−1 0 · · · 0 ... ... ... ... 0 0 · · · β(β−1)Jkp Pp l=1 _Jkp Jkl β−2 β−1          ,

onde H(λk) é positiva-denida, de modo que podemos concluir que esse extremo é um mínimo.

(b) Seguindo um raciocínio similar ao utilizado na parte (a) concluímos que

λj =   p X l=1 PK k=1 P i∈Pk||φj(xij) − φj(vkj)|| 2 PK k=1 P i∈Pk||φl(xil) − φl(vkl)|| 2 !_β−11   −1 .

(c) Nós queremos minimizar J com respeito a λkj, k = 1, . . . , K, j = 1, . . . , p, sob a restrição de que λkj > 0 ∀k, j e Qp_j=1λkj = 1 ∀k. Como a partição P de Ω em K grupos, e os protótipos dos grupos vk (k = 1, . . . , K) estão xos, podemos reescrever o critério J da forma J (λ1, . . . , λK) = K X k=1 Jk(λk) = K X k=1 p X j=1 λkj X i∈Pk ||φj(xij) − φj(vkj)||2 (3.31) onde Jk(λk) = Jk(λk1, . . . , λkp) = Pp j=1λkjJkj, com Jkj = P i∈Pk||φj(xij) − φj(vkj)|| 2. Como o critério J é aditivo, o problema se torna minimizar Jk, k = 1, . . . , K. Seja gk(λk1, . . . , λkp) =

Qp

j=1λkj − 1 = λk1× · · · × λkp− 1. Queremos determinar os extremos de Jk(λk1, . . . , λkp) com a restrição gk(λk1, . . . , λkp) = 0. Para tanto devemos aplicar o método dos multiplicadores de Lagrange para resolver o seguinte sistema

(58)

Mas, ∇Jk(λk1, . . . , λkp) = (Jk1, . . . , Jkp) e ∇gk(λk1, . . . , λkp) = _λ1 k1, . . . , 1 λkp, então, (Jk1, . . . , Jkp) = µ 1 λk1, . . . , 1 λkp. Assim, para j = 1, . . . , p, Jkj = µ λkj ⇒ λkj = µ Jkj. Como sabemos que Qp l=1λkl = 1 ∀k, temos Q p l=1 µ Jkl = 1 ⇒ µp Qp l=1Jkl = 1 ⇒ µ = ( Qp l=1Jkl) 1/p e segue que um valor extremo de Jk é alcançado quando

λkj = {Qp l=1Jkl} 1/p Jkj = Qp l=1 P i∈Pk||φl(xil) − φl(vkl)|| 2 1_p P i∈Pk||φj(xij) − φj(vkj)|| 2 . Esse extremo é Jk(λk1, . . . , λkp) = P_j=1p λkjJkj = p {Jk1× · · · × Jkp} 1

p. Como temos que

Jk(1, . . . , 1) =Pp_j=1Jkj = Jk1+ · · · + Jkp, e como se sabe que a média aritmética é maior do que a média geométrica, i.e., 1

p{Jk1+ · · · + Jkp} > {Jk1× · · · × Jkp}

1

p (a igualdade

vale somente se Jk1 = · · · = Jkp), podemos concluir que esse extremo é um mínimo. (d) Seguindo um raciocínio similar ao utilizado na parte (c) concluímos que

λj = n Qp l=1 PK k=1 P i∈Pk||φl(xil) − φl(vkl)|| 2o 1 p PK k=1 P i∈Pk||φj(xij) − φj(vkj)|| 2 .

Dessa forma, a Proposição 3.3 está demonstrada.

Na etapa de alocação dos padrões aos grupos, os protótipos dos grupos vk, k = 1, . . . , K, e os pesos das variáveis são mantidos xos.

Proposição 3.4. Qualquer que seja a medida de distância (Eqs. (3.2), (3.3), (3.5), (3.7) e (3.9)), os grupos Pk (k = 1, . . . , K), que minimizam o critério J dado pela Eq. (3.16), são atualizados de acordo com a seguinte regra de alocação:

Pk=i ∈ Ω : ϕ2(xi, vk) ≤ ϕ2(xi, vh), ∀h 6= k, h = 1, . . . , K . (3.32) Demonstração. A demonstração da Proposição 3.4 é direta.

(59)

métrica propostos nessa seção consiste dos seguintes passos: (1) Inicialização

Fixe K (o número de grupos), 2 ≤ K < n; xe β, 1 < β < ∞ (se a restrição considerada para as distâncias adaptativas for a de que a soma dos pesos das vari-áveis deve ser igual a um); escolha aleatoriamente uma partição inicial P de Ω em K grupos P1, . . . , PK ou, alternativamente, escolha K padrões distintos v1, . . . , vK pertencendo a Ω como protótipos iniciais e aloque cada padrão i de acordo com o pro-tótipo mais próximo vh (h = arg min1≤k≤Kϕ2(xi, vk), onde ϕ2 é dada por uma das Eqs. (3.2), (3.3), (3.5), (3.7) ou (3.9)) para obter a partição inicial P = {P1, . . . , PK}; inicialize todos os pesos iguais a 1/p, se a restrição considerada para as distâncias adaptativas for a de que a soma dos pesos das variáveis deve ser igual a um, ou todos os pesos iguais a um, se a restrição considerada para as distâncias adaptativas for a de que o produto dos pesos das variáveis deve ser igual a um.

Atualize os protótipos dos grupos vk (k = 1, . . . , K) de acordo com a Eq. (3.22). (3) Etapa 2: Denição das melhores medidas de distância

Se a distância considerada for a não-adaptativa (Eq. (3.2)), então, vá para o passo (4). Caso contrário, atualize os pesos das variáveis, dependendo da distância adap-tativa considerada (Eqs. (3.3), (3.5), (3.7) e (3.9)), de acordo com as Eqs. (3.24), (3.25), (3.26) ou (3.27).

(4) Etapa 3: Denição da melhor partição test ← 0

dena o grupo vencendor Ph tal que h =arg min1≤k≤Kϕ2(xi, vk), onde ϕ2