Mapas auto-organizáveis com topologioa variante no tempo para categorização em subespaços em dados de alta dimensionalidade e vistas múltiplas

(1)

Victor Oliveira Antonino

MAPAS AUTO-ORGANIZÁVEIS COM TOPOLOGIA VARIANTE NO

TEMPO PARA CATEGORIZAÇÃO EM SUBESPAÇOS EM DADOS DE

ALTA DIMENSIONALIDADE E VISTAS MÚLTIPLAS

Dissertação de Mestrado

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

RECIFE 2016

(2)

Victor Oliveira Antonino

MAPAS AUTO-ORGANIZÁVEIS COM TOPOLOGIA VARIANTE NO

TEMPO PARA CATEGORIZAÇÃO EM SUBESPAÇOS EM DADOS DE

ALTA DIMENSIONALIDADE E VISTAS MÚLTIPLAS

Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Univer-sidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.

Orientador: Aluizio Fausto Ribeiro Araujo

RECIFE 2016

(3)

Catalogação na fonte

Bibliotecário Jefferson Luiz Alves Nazareno CRB 4-1758

A635m Antonino, Victor Oliveira.

Mapas auto-organizáveis com topologioa variante no tempo para categorização em subespaços em dados de alta dimensionalidade e vistas múltiplas./ Victor Oliveira Antonino – 2016.

81f.: fig., tab.

Orientador: Aluizio Fausto Ribeiro Araújo.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn. Ciência da Computação, Recife, 2016.

Inclui referências.

1. Inteligência artificial 2. Redes neurais (Computação). 3. Mapas auto-organizáveis I. Araújo, Aluizio Fausto Ribeiro (Orientador). II. Titulo.

(4)

(5)

Dedico esta dissertação a todos os meus familiares, amigos e professores que deram-me o apoio necessário para chegar aqui.

(6)

Agradecimentos

Ao final de mais uma etapa que se conclui em minha vida, sinto-me feliz em poder agradecer a todos aqueles que de alguma forma contribuíram para que este trabalho pudesse ser realizado. Assim como são inúmeras as pessoas que de alguma forma contribuíram, serão também inúmeras as faltas que cometerei com aqueles não mencionados. Sendo assim, inicio direcionando a estes a minha gratidão e desejando que saibam que tiveram espaço cativo em meus pensamentos e certamente ainda o terão, em minhas memórias desta época de esforço e vitória.

Gostaria de agradecer ao meu professor e orientador, Aluizio Araújo, que me instruiu atenciosamente, com notória sabedoria, mas ao mesmo tempo, com a acessibilidade de um amigo.

Por fim, gostaria de agradecer a Crystal de Menezes Santos pela mais absoluta paciência. Sem seu suporte, este trabalho teria levado outro rumo.

(7)

Ninguém pode construir em teu lugar as pontes que precisarás passar, para atravessar o rio da vida - ninguém, exceto tu, só tu.

(8)

Resumo

Métodos e algoritmos em aprendizado de máquina não supervisionado têm sido empregados em diversos problemas significativos. Uma explosão na disponibilidade de dados de várias fontes e modalidades está correlacionada com os avanços na obtenção, compressão, armazenamento, transferência e processamento de grandes quantidades de dados complexos com alta dimensiona-lidade, como imagens digitais, vídeos de vigilância e microarranjos de DNA. O agrupamento se torna difícil devido à crescente dispersão desses dados, bem como a dificuldade crescente em discriminar distâncias entre os pontos de dados. Este trabalho apresenta um algoritmo de agrupamento suave em subespaços baseado em um mapa auto-organizável (SOM) com estrutura variante no tempo, o que significa que o agrupamento dos dados pode ser alcançado sem qualquer conhecimento prévio, tais como o número de categorias ou a topologia dos padrões de entrada, nos quais ambos são determinados durante o processo de treinamento. O modelo também atribui diferentes pesos a diferentes dimensões, o que implica que cada dimensão contribui para o descobrimento dos aglomerados de dados. Para validar o modelo, diversos conjuntos de dados reais foram utilizados, considerando uma diversificada gama de contextos, tais como mineração de dados, expressão genética, agrupamento multivista e problemas de visão computacional. Os resultados são promissores e conseguem lidar com dados reais caracterizados pela alta dimensionalidade.

Palavras-chave: Dados em Alta Dimensionalidade. Campo Receptivo Local. Aprendizagem por Relevância. Mapas Auto-Organizáveis. Agrupamento em Subespaços.

(9)

Abstract

Unsupervised learning methods have been employed on many significant problems. A blast in the availability of data from multiple sources and modalities is correlated with advancements in how to obtain, compress, store, transfer, and process large amounts of complex high-dimensional data, such as digital images, surveillance videos, and DNA microarrays. Clustering becomes challenging due to the increasing sparsity of such data, as well as the increasing difficulty in discriminating distances between data points. This work presents a soft subspace clustering algorithm based on a self-organizing map (SOM) with time-variant structure, meaning that clustering data can be achieved without any prior knowledge such as the number of categories or input data topology, in which both are determined during the training process. The model also assigns different weights to different dimensions, this implies that every dimension contributes to uncover clusters. To validate the model, we used a number of real-world data sets, considering a diverse range of contexts such as data mining, gene expression, multi-view and computer vision problems. The promising results can handle real-world data characterized by high dimensionality.

Keywords: High-Dimensional Data. Local Receptive Field. Relevance Learning. Self-Organizing Maps (SOMs). Subspace Clustering.

(10)

Lista de Figuras

2.1 Amostra de dados com quatro grupos, cada um em duas dimensões com a terceira dimensão ruidosa. Pontos de dois aglomerados podem ser muito próximos uns dos outros, confundindo muitos algoritmos de agrupamento tradicionais. . . 31 2.2 Amostra de um conjunto de pontos em R3resultante da união de três subespaços:

duas linhas e um plano. . . 32 2.3 Ilustração do objetivo geral dos algoritmos de agrupamento em dados de alta

dimensão. . . 36 2.4 Diferentes tipos de agrupamento. (a) O agrupamento por projeção (b)

Agru-pamento de subespaços paralelos ao eixo. (c) AgruAgru-pamento de subespaços arbitrariamente orientados. (d) Agrupamento de subespaços arbitrariamente orientados de diferentes dimensionalidades. . . 37 2.5 Taxonomia geral das abordagens. . . 39

5.3 Análise feita na base Digits. Figura superior esquerda: Acurácia do LARFDS-SOM2 vs parâmetros eb, eb, s e lp. Figura superior direita: Acurácia do LARFDS-SOM2 vs parâmetros at. Figura central inferior: Acurácia do LARFDSSOM2 vs parâmetros beta e c. . . 69 5.4 Análise feita na base Movies617. Figura superior esquerda: Acurácia do

LARFDSSOM2 vs parâmetros e_b, e_b, s e lp. Figura superior direita: Acu-rácia do LARFDSSOM2 vs parâmetros at. Figura central inferior: Acurácia do LARFDSSOM2 vs parâmetros beta e c. . . 69 5.5 Análise feita na base WebKB. Figura superior esquerda: Acurácia do

LARFDS-SOM2 vs parâmetros eb, eb, s e lp. Figura superior direita: Acurácia do LARFDS-SOM2 vs parâmetros at. Figura central inferior: Acurácia do LARFDSSOM2 vs parâmetros beta e c. . . 70 5.6 Análise feita para mostrar a convergência dos nodos restantes disponíveis no

mapa final do LARFDSSOM2 e sua influência sobre a acurácia. . . 70

6.3 Resultados de agrupamento pelo LARFDSSOM2. A linha superior de imagens correspondem a vídeos com 3 objetos em movimento e a linha inferior de imagens correspondem aos vídeos segmentados com 2 objetos em movimento. 75

(11)

Lista de Tabelas

2.1 Resultados de categorizaçao em termos acurácia para a base de dados WebKB em modelos de redução de dimensionalidade, seleção de características e agru-pamento em subespaços. . . 29

3.1 Resumo dos principais modelos tratados nesta dissertação. . . 42

5.1 Detalhes dos conjuntos de dados de mineração de dados. As colunas n; d; k; r referem-se ao número de padrões de entrada, o número de atributos, o número de aglomerados, e o contexto da aplicação, respectivamente . . . 58 5.2 Os valores dos parâmetros para cada um dos contextos de aplicação. Detalhes

podem ser vistos na seção 5.7. . . 58 5.3 Resumo dos resultados de agrupamento em doze conjuntos de dados por nove

algoritmos. A acurácia é medida pelo Adjusted Rand Index. Os números em parênteses são os desvios-padrão de 100 rodadas. Campos em negrito indicam os melhores resultados. . . 62 5.4 Resumo dos resultados de agrupamento em quatro conjuntos de dados por seis

algoritmos. A acurácia é medida pelo Adjusted Rand Index. Os números em parênteses são os desvios-padrão de 100 rodadas. Campos em negrito indicam os melhores resultados. . . 63 5.5 Resultados de agrupamento em termos de acurácia nas bases de dados Digits,

WebKB, Movies617 e Animal. Percentual médio de acerto e desvio-padrão são relatados. . . 63 5.6 Resultados de agrupamento em termos de NMI nas bases de dados Digits,

WebKB, Movies617 e Animal. Percentual médio de acerto e desvio-padrão são relatados. . . 64 5.7 Resultados de categorizaçao em termos de CE em vídeos do tipo Xadrez, Tráfego,

Articulado e todos os vídeos com 2 objetos em movimento. Os valores médios em CE e suas respectivas medianas são informadas. . . 65 5.8 Resultados de categorizaçao em termos de CE em vídeos do tipo Xadrez, Tráfego,

Articulado e todos os vídeos com 3 objetos em movimento. Os valores médios em CE e suas respectivas medianas são informadas. . . 65 5.9 Resultados de categorizaçao em todo o conjunto de vídeos da base Hopkins. Os

valores médios em CE e suas respectivas medianas são informadas. . . 66 5.10 A porcentagem média de erros de categorização ao agrupar a base de dados Yale

(12)

6.1 Resultados de categorização em termos de acurácia para alguns conjuntos de dados oriundos dos resultados apresentados emBASSANI; ARAUJO(2015). Nesta tabela, o LARFDSSOM é comparado com o LARFDSSOM2. . . 73 6.2 Comparativo do tempo de execução (em segundos) do LARFDSSOM2 com

(13)

Lista de Acrônimos

NCuts Normalized Cuts . . . 43

NMF Non-Negative Matrix Factorization . . . 44

RANSAC Random Sample Consensus . . . 44

MSL Multi-Stage Learning Algorithm . . . 44

CK Coast e Kanade . . . 45

SS Separação de Subespaços . . . 45

EM Expectation-Maximization . . . 45

GPCA Generalized Principal Component Analysis . . . 45

ALC The Agglomerative Lossy Compression . . . 45

SSC Sparse Subspace Clustering . . . 45

LSA Local Subspace Affinity . . . 45

SCC Spectral Curvature Clustering . . . 45

MPC Model-based Method for Projective Clustering . . . 45

AWA Attributes-Weighting Algorithm . . . 45

FWKM Fuzzy Weighting K-means . . . 45

EWKM Entropy Weighting K-means . . . 45

LAC Locally Adaptative Metrics for Clustering . . . 45

FSC Fuzzy Subspace Clustering . . . 45

CKS-EWFC-K Entropy Weighting Fuzzy Clustering in Composite Kernel Space for Kernel Space . . . 46

CKS-EWFC-F Entropy Weighting Fuzzy Clustering in Composite Kernel Space for Feature Space . . . 46

AFG-K-means Feature Groups K-means . . . 46

AFG-K-means Automatic Feature Grouping K-means . . . 46

DSSOM Dimension Selective Self-Organizing Map . . . 46

LARFSOM Local Adaptive Receptive Field Self-Organizing Map . . . 46

LARFDSSOM Local Adaptive Receptive Field Dimension Selective Self-Organizing Map 46 SOM Self-Organizing Maps . . . 47

(14)

NMI Normalized Mutual Information . . . 59

CA Clustering Accuracy . . . 59

CE Clustering Error . . . 59

RI Rand Index . . . 59

ARI Adjusted Random Index . . . 59

CAT Category Label . . . 59

CLS Cluster Label . . . 59

LHS Latin Hypercube Sampling . . . 67

BARTMAP Biclustering ARTMAP . . . 26

(15)

Sumário

1 Introdução 23

2 Descrição do Problema 27

2.1 Definição de Agrupamento em Subespaços . . . 27

2.2 A Maldição da Dimensionalidade . . . 28

2.3 Definição de Agrupamento em Subespaços e Seus Tipos . . . 29

2.3.1 Agrupamento em Subespaços Paralelos ao Eixo . . . 33

2.3.2 Agrupamento em Subespaços Orientados Arbitrariamente . . . 35

2.4 Desafios em Agrupamento em Subespaços . . . 37

2.5 Taxonomia Geral de Agrupamento em Subespaços . . . 38

3 Agrupamento em Subespaços para Diferentes Casos de Problemas 41 3.1 Resumo dos Algoritmos e Abordagens . . . 41

3.2 Agrupamento Multivista: Abordagens e Algoritmos . . . 43

3.3 Agrupamento em Subespaços: Abordagens e Algoritmos . . . 44

4 LARFDSSOM2 47 4.1 Processo de Crescimento . . . 48

4.2 Procedimento de Competição dos Nodos . . . 48

4.3 Processo de Adaptação dos Vetores de Pesos . . . 49

4.4 Procedimento de Atualização da Topologia . . . 51

4.5 LARFDSSOM2 em Resumo . . . 52

5 Experimentos 57 5.1 Medidas de Qualidade . . . 59

5.2 Experimentos de Mineração de Dados com Bases do UCI . . . 60

5.3 Experimentos com Dados de Expressão Genética . . . 61

5.4 Experimentos com Dados Multivista . . . 61

5.5 Experimentos com Dados de Visao Computacional . . . 64

5.6 Experimentos de Agrupamento de Imagens Faciais . . . 66

5.7 Ajustes Paramétricos . . . 67

6 Conclusão 71

(16)

23 23 23

1

Introdução

Criar, arquivar e acessar grandes quantidades de dados é uma atividade comum para uma grande variedade de indústrias, tais como e-commerce e bioinformática. A maior parte dos dados armazenados existe em formato digital, um contexto atraente para o desenvolvimento de ferramentas para análise de dados, categorização e técnicas de recuperação. Além do crescimento dos dados, a variedade de dados disponíveis (texto, imagem e vídeo) também aumentou. A coleta de dados avança na metodologia de compreender, processar e resumir dados. Um bom exemplo desta tendência é a internet das coisas, em que sensores e atuadores conectados a objetos físicos estão inseridos em redes sem fios e/ou com fio produzindo grandes volumes de dados (LAKSHMINARAYAN,2013). Tal disponibilidade de dados causou um processamento contínuo de grandes quantidades de dados científicos em ciências físicas, bioinformática, meios de comunicação social, e uma infinidade de outras áreas. As estimativas mostram que mais de 30 bilhões de dispositivos com 200 bilhões de links de rede intermitente estarão conectados até 2020 (GUBBI et al.,2013). Com base nesse contexto, algumas tarefas consideradas não triviais foram caracterizadas e são esses problemas nos quais visamos contribuir:

1. Fontes Heterogêneas de Dados e Agrupamento Multivista: Em muitos problemas de análise de dados científicos, que envolvem diferentes áreas do conhecimento, os dados são coletados de diversas fontes ou obtida a partir de extratores de características distintos. Logo, os dados muitas vezes apresentam propriedades heterogêneas e os atributos dos padrões de entrada do modelo são naturalmente agrupados. Cada grupo de atributos considera um ponto de vista particular, e as diversas vistas de um problema em particular podem assumir diferentes formas. Por exemplo, podemos identificar diferentes vistas nos dados sobre palavras em documentos, informação que descrevem documentos (por exemplo, título, autor, e revistas), e um grafo de rede de citações para o gerenciamento de trabalhos científicos. Em contraste com a aprendizagem de vista única, a aprendizagem multivista introduz uma função para modelar uma visão particular que em conjunto com outras funções representando outras vistas, redundantes ou não, do mesmo conjunto de dados, visam sinergicamente melhorar o desempenho de aprendizagem (SAHA,2013).

(17)

24 CAPÍTULO 1. INTRODUÇÃO

2. Videovigilância, Segmentação de Movimentos e Agrupamento de Faces: Como um tema de pesquisa em visão computacional, a vigilância em cenas dinâmicas deman-dam esforços na identificação, reconhecimento e rastreamento de objetos individuais em sequências de imagens, são etapas necessárias para compreender e determinar o comportamento de tais objetos. Em suma, o objetivo do monitoramento visual implica em realizar tarefas de inspeção de maneira mais automática possível. Consi-derada uma etapa necessária para o rastreamento e modelagem de comportamentos dos objetos em sequências de imagens, a detecção de movimentos visa identificar regiões nos quais esses objetos em movimento estão inseridos. O processo de detec-ção de movimentos envolve segmentadetec-ção do movimentos e categorizadetec-ção de objetos. Sistemas de monitoramento em vídeo muitas vezes rastreiam entidades em movi-mento quadro a quadro. No contexto das investigações forenses, os pesquisadores geralmente fazem a triagem de imagens manualmente, filtrando e organizando-as de tal maneira que seja permitido a marcação indivíduos com sua identidade (Ali; Veldhuis; Spreeuwers,2010). Agrupamento de faces consiste do problema de agrupar um conjunto de imagens faciais de vários indivíduos para reconhecer cada pessoa, sendo um sistema útil para a identificação (VIDAL,2011a).

3. Mineração de Dados e Expressão Genética: Dentro deste contexto, os dados são normalmente expressos por uma matriz, em que as linhas correspondem a genes, e as colunas correspondem a condições, tais como processos biológicos ou um conjunto de amostras de tecido diferentes. Esse nível de representação de um gene em cada condição que pode ser expresso de forma absoluta, relativa, ou normalizada. Cada coluna apresenta os resultados obtidos a partir de um único array em uma condição ou experiência particular e é chamado perfil. Cada vetor linha é a expressão padrão de um determinado gene sobre todos os ensaios. Interpretar os padrões ocultos nos dados de expressão genética oferece uma enorme oportunidade para aprofundar os conhecimentos sobre genómica funcional. Além disso, o número substancial de genes e a complexidade das redes biológicos aumenta significativamente os desafios mencionados.

Há dois princípios fundamentais no agrupamento multivista: o princípio do consenso (visa maximizar o acordo sobre diversas vistas distintas) e o princípio complementar (cada vista de dados pode conter algum conhecimento distinto de outros pontos de vista). Descobrir estruturas em tal conhecimento multirelacional representa um grande desafio devido à dificuldade em integrar informações de diferentes vistas, muitas vezes conflitantes. Isso implica que uma solução ingênua de concatenação de vetores de diferentes vistas em um novo vetor e depois aplicá-lo em algoritmos de aprendizagem de vista única pode causar overfitting em uma amostra pequena de treinamento, e a propriedade estatística específica de cada vista será ignorada (XU; TAO; XU,2013).

(18)

25

Para algoritmos de segmentação de movimentos, um problema comum é o fato de que objetos em movimento nem sempre estão completamente visíveis. A capacidade para lidar com dados faltantes também é um dos problemas mais difíceis. Para obter uma categorização ótima em agrupamento facial, o modelo deve apresentar resiliência em relação a qualidade das imagens (falta de foco), problemas de iluminação (brilho e contraste inapropriado), variação de poses, entre outros.

Dados de alta dimensão é um problema comum em todos os três contextos abordados aqui, especialmente com dados de expressão genética. Atualmente, um experimento de microarray típico contém cerca de 104genes e este número deve chegar próximo dos 106genes. No entanto, o número de amostras envolvidas numa experiência de microarray é geralmente inferior a 100, tornando-se um problema desafiador em mineração de dados.

Frequentemente em dados de alta dimensionalidade, muitos atributos são desnecessários e podem mascarar aglomerados existentes em dados ruidosos. Além disso, algumas amostras contendo dados faltosos são normalmente substituídos por valores oriundos de uma distribuição que acaba gerando mais ruído. Soluções ingênuas residem em algoritmos de transformação de características que se esforçam para sumarizar um conjunto de dados através da criação de combinações lineares de seus atributos originais (KRIEGEL; KRöGER; ZIMEK,2009). Por-tanto, as informações contidas em dimensões irrelevantes é preservada, tornando esses métodos ineficientes ao revelar aglomerados. Seleção de características tenta identificar atributos de dados que são mais relevantes para a tarefa de mineração de dados. É uma técnica poderosa para a redução de dimensionalidade, mas apresentam dificuldades quando encontram aglomerados em diferentes subespaços. Agrupamento em subespaços tenta resolver este problema identificando automaticamente aglomerados pertencentes a subespaços distintos a partir de um espaço de dados de alta dimensionalidade, permitindo um melhor agrupamento dos padrões de entrada do que no espaço de dados original.

Neste trabalho, apresentamos uma avaliação bem organizada de agrupamento em subespa-ços com um mapa auto-organizável de estrutura variante no tempo. Os resultados experimentais foram analisados por meio de métricas de qualidade de categorização e resultados fornecidos por pesquisadores em artigos recentes. Nós usamos uma extensa coleção de conjuntos de dados reais públicos que vão de um grande número de padrões de entrada, com um número limitado de atributos e aglomerados ocultos, para um pequeno número de amostras, com um número alto de dimensões e uma quantidade média de aglomerados latentes.

Agrupamento em subespaços é um importante problema em aprendizagem não supervisi-onada com um grande número de métodos concebidos para aplicações em visão computacional e análise de dados. Existem mapas auto-organizáveis especialmente concebidos para agrupa-mento em subespaços. Por exemplo, mapas auto-organizáveis com estrutura variável no tempo (ARAUJO; REGO,2013), que determinam o número de nodos durante o processo de formação e aprendem a topologia do mapa. Dimension Selective Self-Organizing Map (DSSOM) ( BAS-SANI; ARAUJO,2012) e Local Adaptive Receptive Field Dimension Selective Self-organizing

(19)

26 CAPÍTULO 1. INTRODUÇÃO

Map (LARFDSSOM) (BASSANI; ARAUJO,2015) foram os primeiros desta abordagem. Teoria de ressonância adaptativa também serve como base para agrupamento em subespaços, como visto em Biclustering ARTMAP (BARTMAP) (XU; II,2011) e Projective Adaptive Resonance Theory for Categorical Data (PARTCAT) (GAN; WU; YANG,2006).

Vale ressaltar que o LARFDSSOM possui características importantes, tais como os nodos adicionados e removidos dinamicamente do mapa, um campo receptivo ajustado para cada nodo com base na sua variância local e vizinhança do nodo formada através de subespaços semelhantes das dimensões de entrada. Além disso, LARFDSSOM atribui pesos para atributos e identifica subespaços com alta densidade, sendo classificado como um algoritmo de agrupamento suave em subespaços. Finalmente, LARFDSSOM tem provado ser muito robusto para diferentes tipos de dados de alta dimensionalidade e bons resultados experimentais foram obtidos.

LARFDSSOM2 é um modelo de aprendizado não supervisionado que será apresentado neste trabalho. Foram introduzidas modificações na fórmula de relevância das dimensões e três novos vetores foram acrescentados para capturar a máxima, mínima e média variância dos valores dos atributos em cada época, em cada nodo. Isso faz com que LARFDSSOM2 seja mais sensível às mudanças bruscas de valor e robusto quando se lida com dados esparsos. Também colocamos LARFDSSOM2 sob avaliação real, uma vez que rodamos o algoritmo com conjuntos de dados oriundos de todos os contextos discutidos até agora. Os resultados experimentais mostram que LARFDSSOM2 categoriza bem independentemente da natureza dos dados (expressão genética, multivista, vídeo ou imagens) e também fornece informações importantes sobre a relevância dos atributos com valores que variam entre 0 e 1, não fornecendo apenas um resultado binário como saída (dimensão relevante ou irrelevante).

O restante do trabalho está organizado da seguinte forma. No Capítulo 2, os problemas de agrupamento em subespaços e multivista são definidos. No Capítulo 3, fazemos uma revi-são dos principais algoritmos de agrupamento em subespaços e multivista. No Capítulo 4, o LARFDSSOM2 proposto é discutido. No Capítulo 5, apresentamos os resultados experimentais e suas análises. Por fim, o Capítulo 6 conclui o trabalho.

(20)

27 27 27

2

Descrição do Problema

Milhões de câmeras foram instaladas em edifícios, ruas, aeroportos e cidades ao redor do mundo. Isso tem gerado avanços extraordinários sobre como adquirir, comprimir, armazenar, transmitir e processar grandes quantidades de dados complexos. Os avanços tecnológicos fizeram a coleta de dados mais fácil e mais rápida, resultando em conjuntos de dados maiores, mais complexos, com muitos objetos e dimensões. Como os conjuntos de dados tornam-se maiores e mais variados, adaptações em algoritmos existentes são necessárias para manter a qualidade dos aglomerados e a velocidade na realização dessa tarefa.

Muitos destes avanços têm confiado na constatação de que, mesmo que estes conjuntos de dados sejam de dimensão elevada, a sua dimensão intrínseca é muitas vezes muito menor do que a dimensão do espaço de ambiente. Em visão computacional, por exemplo, o número de pixelsem uma imagem pode ser muito alto, mas a maioria dos modelos de visão computacional usam apenas alguns parâmetros para descrever a aparência, geometria e dinâmica de uma cena. Isto motivou o desenvolvimento de técnicas que buscam encontrar de um conjunto de dados de alta dimensão, sua representação em baixa dimensão.

O restante do capítulo está organizado da seguinte forma. Na Seção 2.1, apresentamos a definição formal de agrupamento em subespaços. Na Seção 2.2, faremos uma discussão sobre o problema da maldição da dimensionalidade. Na Seção 2.3, faremos uma discussão sobre o agrupamento em subespaços e suas subcategorias. Na Seção 2.4, os principais problemas e desafios presentes no agrupamento em subespaços. Por fim, Seção 2.5 introduz a taxonomia geral.

2.1 Definição de Agrupamento em Subespaços

Algoritmos tradicionais de agrupamento consideram todas as dimensões de um conjunto de dados de entrada em uma tentativa de aprender o máximo possível sobre cada objeto descrito. Em dados de dimensão elevada, no entanto, muitas destas dimensões são frequentemente irrelevantes, o que pode confundir algoritmos de agrupamento, ocultando clusters. Em dados de alta dimensão também é comum que todos os objetos sejam relativamente equidistante uns

(21)

28 CAPÍTULO 2. DESCRIÇÃO DO PROBLEMA

dos outros, mascarando completamente os clusters. É nesse contexto que entramos com mais detalhes no maior desafio de clustering de maneira geral, a "maldição da dimensionalidade".

Agrupamento visa dividir os conjuntos de dados em subconjuntos (clusters), onde os objetos no mesmo subconjunto são semelhantes entre si, enquanto os objetos em diferentes clusters são dessemelhantes. Os objetos são geralmente representados como um vetor de medidas, ou um ponto no espaço multidimensional. A semelhança entre os objetos é muitas vezes determinada utilizando medidas de distância sobre as várias dimensões do conjunto de dadosJAIN; MURTY; FLYNN(1999);HAN; KAMBER; PEI(2012).

2.2 A Maldição da Dimensionalidade

BELLMAN; BELLMAN(1961) é frequentemente citado devido ao termo "maldição da dimensionalidade", que ele descreve como "uma maldição que tem atormentado os cientistas desde os primeiros dias". No entanto, Bellman apenas descreve o fato de que mais dimen-sões resultam em mais possibilidades de valores e, finalmente, inviabiliza uma abordagem de enumeração completa simplesmente porque a visualização de funções torna-se cada vez mais difícil, ou mesmo impossível, com mais variáveis. Este problema é conhecido principalmente no reconhecimento de padrões e é mais elaborado nos livros didáticos recentes (BISHOP,2006).

Naturalmente, este problema está relacionado com o problema de agrupamento em geral: buscar um agrupamento de um conjunto de dados supõe que os dados estão sendo gerados por várias funções. Idealmente, um modelo de agrupamento permitiria ao usuário identificar as dependências funcionais resultantes do conjunto de dados mais rapidamente e, assim, eventualmente, encontrar idéias novas e interessantes nas leis da natureza, economia, sociedade, ou qualquer domínio que o conjunto de dados descreve. Estas funções tornam-se mais complexas à medida que mais atributos contribuem para as relações reais.

Conceitos como proximidade ou distância tornam-se menos significativos com o au-mento da dimensionalidade de um conjunto de dados (BEYER et al., 1999; HINNEBURG; AGGARWAL; KEIM,2000;AGGARWAL; HINNEBURG; KEIM,2001). Grosso modo, os resultados nestes trabalhos afirmam que a distância relativa do ponto mais distante e o ponto mais próximo no espaço de dados converge a 0 a medida que aumentamos a dimensão d.

lim d→∞

dist_max− distmin dist_min → 0, 2.1

ou seja, a discriminação entre o mais próximo e o vizinho mais distante torna-se bastante pobre no espaço de alta dimensão.

A fim de descobrir leis que descrevem alguns fenômenos da natureza, uma grande quantidade de dados é coletada por pesquisadores ou entidades são descritas através de atributos possivelmente relacionados entre sí. Entre estas características, muitos atributos irrelevantes podem estar presentes. A relevância de certos atributos pode ser diferente para diferentes grupos

(22)

2.3. DEFINIÇÃO DE AGRUPAMENTO EM SUBESPAÇOS E SEUS TIPOS 29

de objetos dentro do mesmo conjunto de dados. Assim, uma vez que os grupos de dados são definidos apenas por alguns dos atributos disponíveis, muitos destes, irrelevantes podem interferir negativamente na tarefa de encontrar esses grupos. Atributos irrelevantes também pode estar relacionados a ruído. Métodos globais de redução de características podem ser inadequados em face do problema da relevância das características locais. No entanto, do ponto de vista do cientista do domínio a ser categorizado, pode ser interessante saber que existem relações inicialmente desconhecidas entre categorias e seus atributos relevantes.

Soluções de agrupamento em dados de alta dimensão consistem geralmente de técnicas de redução de dimensionalidade e seleção de características. Técnicas de redução de dimensi-onalidade tentam resumir um conjunto de dados em menos dimensões, criando combinações dos atributos originais. Estas técnicas são muito bem sucedidas em descobrir estrutura latente em conjuntos de dados. No entanto, uma vez que eles preservam as distâncias relativas entre objetos, seu desempenho cai quando há um grande número de atributos irrelevantes. Além disso, os novos atributos são combinações dos originais e podem ser muito difícil interpretar as novas características.

Métodos de seleção de características fazem a seleção das dimensões mais relevantes em um conjunto de dados. São relativamente bem sucedidos em muitos conjuntos de dados, o problema desses algorítmos é quando os aglomerados se encontram em subespaços diferentes. Esse é o contexto da motivação para o uso de algorítmos de agrupamento em subespaços. A Tabela 2.1 apresenta os resultados de categorização da base de dados WebKB utilizando modelos de redução de características (PCA e LDA), seleção de características (Mutual Information e Association Factor) e agrupamento em subespaços (K-Subspace). O K-Subspace se mostra mais eficiente. Os resultados completos podem ser vistos em (YANG; QU; LIU,2014) e (WANG; DING; LI,2009).

Tabela 2.1: Resultados de categorizaçao em termos acurácia para a base de dados WebKB em modelos de redução de dimensionalidade, seleção de características e

agrupamento em subespaços.

Acurácia WebKB

PCA+K-means 0.3925

LDA-Km 0.51421

MI + Naıve Bayes 0.6082

DIA + Naive Bayes 0.6465

K-Subspace 0.8583

2.3 Definição de Agrupamento em Subespaços e Seus Tipos

Vamos supor um conjunto de dados com quatrocentas amostras de três dimensões. O conjunto de dados é dividido em quatro grupos de 100 instâncias, cada grupo existe em duas

(23)

das três dimensões existentes. Os dois primeiros grupos existem nas dimensões x e y. Os dados formam uma distribuição normal com médias de 0,5 e -0,5 na dimensão x, e 0,5 na dimensão y, e desvios-padrão de 0,2. Na dimensão z, µ = 0 e σ = 1. Os outros dois aglomerados nas dimensões y e z foram gerados de mesmo modo. Os dados podem ser vistos na Figura 2.1. Quando k-means é usado para agrupar esses dados, ele realiza um trabalho pobre porque cada aglomerado é distribuído ao longo de alguma dimensão irrelevante. Em conjuntos de dados de dimensões mais elevadas este problema se torna ainda pior e os aglomerados se tornam impossíveis de encontrar, o que sugere se considerar menos dimensões.

Pode-se empregar seleção de características removendo apenas uma dimensão, produ-zindo os gráficos da Figura 2.1. No entanto, é importante notar que os dois primeiros conjuntos (vermelho e verde) são facilmente separáveis do restante dos dados, quando vistos nas dimensões x e y (Figura 2.1 (b)). Isto acontece porque esses aglomerados de dados foram criados nestas mesmas dimensões. Sendo assim, no contexto de mineração de dados, definiremos ruído nesta dissertação como todo atributo que não possui importância na determinação de um aglomerados de dados. Porém, ao falarmos de problemas de visão computacional, o ruído estará mais relacio-nado a problemas de iluminação e qualidade dos sinais de vídeo e imagem. Ainda na Figura 2.1 (b), os outros dois aglomerados (azul e roxo) se sobrepõem completamente, uma vez que foram criados nas dimensões y e z e a remoção de z os fez indistinguíveis. Logo, estes dois últimos grupos estão mais visíveis nas dimensões y e z (Figura 2.1 (d)). Assim, a chave para encontrar cada um dos aglomerados neste conjunto de dados é realizar a busca nos subespaços adequados. Considere o problema da modelagem de uma coleção de pontos de dados com a união de subespaços, como no exemplo mostrado na Figura 2.2. Formalmente, dado {xi∈ RD}N_j=1 um conjunto de pontos pertencentes a uma união de n ≥ 1 subespaços lineares {Si}ni=1 de dimensões desconhecidas di= dim(Si), 0 < di< D, i = 1, ..., n. De acordo comVIDAL(2011b), os subespaços podem ser descritos como:

S_i = {xi ∈ RD : x = µi+ Uiy}, i= 1, ..., n, (1)

onde µi ∈ RD é um ponto aleatório no subespaço Si que pode ser escolhido como µi = 0 para subespaços lineares, Ui∈ RDé uma base para o subespaço Si, e y ∈ Rdi é uma representação de baixa dimensão do ponto x. O objetivo do agrupamento em subespaços é de encontrar o número de subespaços n, suas dimensões {di}n_i=1, as bases dos subespaços {Ui}n_i=1, os pontos {µi}n_i=1, e a segmentação dos pontos de acordo com os subespaços.

Uma solução ingênua para o propósito geral dos algoritmos de agrupamento em dados de alta dimensão, seria testar todos os possíveis subespaços orientados arbitrariamente nos aglomerados. Obviamente, há um número infinito de subespaços orientados arbitrariamente, então essa solução ingênua é inviável.

A variância dos valores de um atributo relevante sobre todos os padrões de entrada pertencentes a um aglomerado de dados é muitas vezes menor, se comparado com a variância deste mesmo atributo com relação a todo o espaço de dados. Enquanto que a variância dos atributos irrelevantes dentro de um aglomerado de dados é alta (ou indistinguível se compararmos

(24)

Figura 2.1: Amostra de dados com quatro grupos, cada um em duas dimensões com a terceira dimensão ruidosa. Pontos de dois aglomerados podem ser muito próximos uns

dos outros, confundindo muitos algoritmos de agrupamento tradicionais.

(25)

os valores de um atributo irrelevante em outros aglomerados de dados) (AGGARWAL; REDDY, 2013). Por exemplo, pode-se assumir um atributo relevante para um aglomerado de dados sendo uniformemente distribuído com um desvio padrão pequeno enquanto os valores dos atributos irrelevantes são uniformemente distribuídos sobre o espaço de dados total. A intuição geométrica dessas premissas está relacionada com os pontos de um aglomerado sendo amplamente disper-sos na direção dos eixos irrelevantes enquanto densamente agrupáveis ao longo dos atributos relevantes. Quando apenas atributos relevantes são selecionados (por projeção no subespaço correspondente, como um subespaço prolongado por esses atributos), o aglomerado de dados iria aparecer como um agrupamento dimensionalmente completo dentro desse subespaço. Em espaços dimensionalmente completos, incluindo os atributos irrelevantes, os pontos do aglome-rado formam um hiperplano paralelo aos eixos irrelevantes. Devido a essa aparência geométrica, essse tipo de aglomerado é comumente dirigido por agrupamento em subespaços paralelos ao eixo.

Figura 2.2: Amostra de um conjunto de pontos em R3resultante da união de três

subespaços: duas linhas e um plano.

Fonte: O autor.

Se dois atributos a e b são linearmente dependentes de um conjunto de pontos, espalhados ao longo de um hiperplano definido por alguma dependência linear entre ambos os atributos que corresponde a correlação. O subespaço ortogonal para com esse hiperplano é então um subespaço onde os pontos do aglomerado são densamente independentes da variância dos valores combinados de a e b. Esse subespaço é arbitrariamente orientado e consequentemente esse é o caso mais geral comparado aos subespaços paralelos ao eixoKRIEGEL; KRöGER; ZIMEK (2009).

(26)

2.3.1 Agrupamento em Subespaços Paralelos ao Eixo

Uma abordagem muito comum para reduzir o espaço de busca de todos os subespaços possíveis é se concentrar em apenas subespaços paralelos ao eixoKRIEGEL; KRöGER; ZIMEK (2009). Esta abordagem ainda é bastante relevante no contexto de diferentes aplicações. A grande vantagem é que o espaço de busca é agora restrito ao número de todos os possíveis subespaços paralelos ao eixo. No entanto, o limite é ainda bastante elevado: em um conjunto de dados de dimensão d, o número de subespaços de dimensão k é d_k(1 ≤ k ≤ d) e, portanto, o número de todos os subespaços possíveis é de:

d

∑

k=1 d k = 2d− 1 2.2

Na literatura, o problema de encontrar aglomerados em subespaços paralelos ao eixo, tem sido referido como o "agrupamento projetado"e "agrupamento em subespaços". No entanto, estes termos não estão correntemente utilizada na literatura, causando potenciais equívocos. KRIEGEL; KRöGER; ZIMEK(2009), conseguem categorizar o problema de maneira eficaz:

• Algoritmos de agrupamento projetado. A primeira classe de algoritmos visa atribuir unicamente cada amostra para unicamente um aglomerado do subespaço. Geralmente, eles tentam encontrar a projeção em que um conjunto de pontos considerado melhor se aglomera. Eles são referidos como algoritmos de agrupamento projetado.

• Algoritmos de agrupamento suave projetado. Alguns algoritmos de agrupamento em projeção supõem que o número k de aglomerados de dados é conhecido de antemão, de tal forma que uma função objetivo pode ser definida e otimizada para retirar o melhor conjunto de k aglomerados. Nestes casos, normalmente os aglomerados não são atribuídos de maneira rígida aos seus respectivos subespaços. Diferentes atributos são apenas ponderados de forma variada, mas todos os atributos contribuem para o agrupamento, caracterizando agrupamento suave projetado. Este grupo também pode ser visto como uma sub-classe dos algoritmos de agrupamento projetado.

• Algoritmos de agrupamento em subespaços. Uma terceira classe de algoritmos visa encontrar todos os subespaços onde os aglomerados podem ser identificados. Assim, estes algoritmos são dedicados a encontrar todos os grupos em todos os subespaços. Isto significa que um ponto pode ser membro de vários aglomerados, cada um existente em um subespaço diferente. Eles são denominados agrupamento em subespaços.

• Algoritmos híbridos. Uma quarta classe de algoritmos visa encontrar um equilíbrio entre as duas principais categorias. Normalmente, esses algoritmos visam encontrar aglome-rados que podem se sobrepor. Por outro lado, esses algoritmos não visam encontrar todos os aglomerados em todos os subespaços. Alguns dos algoritmos híbridos buscam apenas computar subespaços relevantes em vez de um agrupamento subespacial completo.

(27)

paralelos ao eixo, podem ser dividido em duas categorias: bottom-up e top-down (PARSONS; HAQUE; LIU,2004).

Os modelos de busca bottom-up tiram proveito da propriedade de segmento inicial da densidade para reduzir o espaço de busca, utilizando uma abordagem APRIORI: Se o subespaço S contém um aglometado, em seguida, qualquer subespaço T ⊆ S deve também conter um aglomerado. A implicação inversa, se um subespaço T não contém um aglomerado, então qualquer superespaço S⊇ T também não contém um aglomerado de dados. Isso significa que se houver unidades densas de k dimensões, existem unidades densas em todas k − 1 dimensões. Os algoritmos basicamente criam um histograma para cada dimensão e selecionam os bins com densidades acima de um determinado limiar. O algoritmo prossegue até que não haja mais unidades densas encontradas. Unidades densas adjacentes são então combinadas para formar aglomerados. Isso nem sempre é fácil, e um aglomerado pode ser erroneamente categorizado em dois aglomerados menores. A natureza da abordagem bottom-up leva a aglomerados sobrepostos.

A abordagem top-down tenta encontrar uma aproximação inicial dos aglomerados no espaço de características com suas dimensões igualmente ponderadas. Ao final, é assinalado em cada dimensão, um peso associado a cada aglomerado. Esta abordagem requer múltiplas iterações de algoritmos de agrupamento de elevado tempo de execução em um completo conjunto de dimensões.

Se apenas problemas de agrupamento em subespaços voltados para visão computacional ou processamento de imagens forem considerados, uma divisão diferente da apresentada acima existirá. Para as pesquisas voltadas a essas duas áreas, o primeiro grupo de algorítmos mais utilizados são os algorítmos algébricos. São algorítmos baseados em álgebra linear, especifi-camente com fatorização de matrizes, esse subgrupo apresenta bons resultados em subespaços independentes. Outros algorítmos dentro deste mesmo grupo, possuem uma abordagem diferente, mais voltada a álgebra polinomial. Mostram-se bastante úteis em subespaços dependentes e independentes. Uma limitação relevante deste grupo de algorítmos está na premissa de que os dados não devem apresentar ruidos.

Para o segundo grupo, uma forma muito simples de melhorar o desempenho dos algorit-mos algébricos, no caso de dados ruidosos, é a utilização de refinamento iterativo. Intuitivamente, dada uma segmentação inicial, é possível encaixar um subespaço para cada grupo usando PCA. Em seguida, dado um modelo de PCA para cada subespaço, pode-se atribuir cada amostra ao seu subespaço mais próximo. Integrando estas duas etapas, podemos obter uma estimativa refinada dos subespaços e da segmentação, algo próximo de uma generalização do algorítmo k-means.

Os modelos iterativos não fazem suposições explícitas sobre a distribuição dos dados den-tro dos subespaços ou sobre a distribuição de ruídos. Portanto, as estimativas que eles fornecem não são precisas. Esta questão pode ser abordada através da definição de um modelo generativo adequada para os dados. Os método estatísticos fazem o uso de máxima verossimilhança e misturas gaussianas. Por este motivo, esse grupo de algorítmos tem uma limitação em relação a uma boa inicialização e a convergência em ótimos locais que pode ser custosa em tempo.

(28)

Algoritmos de agrupamento espectrais são uma técnica muito popular para agrupamento de dados de alta-dimensional. Estes algoritmos constróem uma matriz de afinidade A ∈ RN×N, onde o elemento de entrada ( j, k) mede a similaridade entre os pontos j e k. Idealmente, Ajk= 1 se os pontos j e k pertencem ao mesmo grupo e Ajk= 0 se os pontos j e k pertencem a grupos diferentes. Uma medida típica de similaridade é Ajk = exp(−dist2_jk), onde dist2_jk é alguma medida de distância entre j e k. Dado a matriz A, a segmentação dos dados é obtida fazendo o uso de algum algorítmo de agrupamento, como o k-means, em autovetores da matriz L ∈ RN×N formada por A. Especificamente, se {Uj}N_j=1 são autovetores de L, então n N autovetores são escolhidos e empilhados em uma matriz V ∈ RN×n. O algorítmo do k-means é aplicado às linhas de V . A formação de L é tipicamente feita fazendo L = A, o Laplaciano L = diag(A1) − A, onde 1 é um vetor de uns, e o Laplaciano normalizado, Lsym= diag(A1)−

1

2Adiag(A1)− 1

2. As escolhas

comuns para os autovetores são os n mais altos da matriz de afinidade ou os n autovetores mais baixos do Laplaciano normalizado, onde n é o número de grupos.

Um dos principais desafios do agrupamento espectral em subespaços é a definição de uma boa matriz de afinidade. Não obstante esta necessidade, dois pontos podem ser muito próximos um do outro e pertencer a diferentes subespaços (por exemplo, perto da intersecção de dois subespaços), enquanto dois pontos distantes um do outro podem pertencer a um mesmo subespaço. Como consequência, não se pode usar uma matriz de afinidade geral baseada apenas em distância.

2.3.2 Agrupamento em Subespaços Orientados Arbitrariamente

Amostras que formam um aglomerado podem ser localizados em um hiperplano arbitra-riamente orientado (isto é, subespaço). Estes padrões ocorrem se alguns atributos apresentam correlações complexas e lineares entre si, isto é, um atributo pode ser a combinação linear dos vários outros atributos. Uma abordagem mais geral e intuitiva é adotada neste tipo de situação por uma família de algoritmos conhecida por agrupamento orientado ou subespaço generalizado/algoritmos agrupamento por correlação.

De fato, descrever aglomerados por correlação, em termos de um subespaço (hiperplano) que acomodam os pontos, ao invés de considerar onde os pontos demonstram alta densidade, abre portas para diversas possibilidades. Considere o exemplo da Figura 2.3, se alguns subes-paços orientados arbitrariamente fossem escolhidos para projetar e buscar conjuntos de pontos altamente densos, todos os dados iriam se agrupar densamente em todos os três subespaços. Nota-se que os aglomerados 1 e 2 estão dispostos em diferentes hiperplanos, ortogonais aos subespaços escolhidos. Em abordagem diferente, na qual as correlações complexas entre os subconjuntos de atributos são levados em conta, constata-se que os pontos iriam se aglomerar densamente em alguma projeção de baixa dimensão, os chamados "subespaços de interesse", mas sem pertencer ao mesmo aglomerado.

(29)

Figura 2.3: Ilustração do objetivo geral dos algoritmos de agrupamento em dados de alta dimensão.

Fonte: O autor.

afinidade (os chamados hiperplanos de aglomerados por correlação, ou seja, subespaços orien-tados arbitrariamente onde um conjunto de pontos apresenta alta variância) permite discernir significativamente diferentes aglomerados que teriam sido mescladas se apenas o "subespaço de interesse"de alta densidade fosse considerado.

A grande maioria das abordagens de agrupamento por correlação é baseada na aplicação de PCA em subconjuntos dos dados (como range queries ou range k-nearest neighbor queries). A aplicação de PCA domina em grande parte a complexidade destes algoritmos, sendo geralmente cúbica ao número de dimensões. A complexidade no que diz respeito ao número de pontos de dados é diferente devido a diferentes metodologias de agrupamento, mas em geral é em O(n) ou, no máximo, O(n2).

A transformada de Hough foi projetada originalmente para mapear os pontos de um espaço bidimensional de coordenadas euclidianas (por exemplo, os pixels de uma imagem) em um espaço de parâmetros. O espaço de parâmetros representa todas as possíveis linhas unidimensionais no espaço bidimensional original dos dados. A princípio, cada ponto do espaço de dados é mapeado para um número infinito de pontos no espaço de parâmetros, que não é consentida como um conjunto infinito mas como uma função trigonométrica no espaço de parâmetros. Cada função no espaço de parâmetros representa todas as linhas da imagem que atravessam o ponto correspondente no espaço de dados. A interseção de duas curvas no espaço de parâmetros indica uma linha através de ambos os pontos correspondentes no espaço imagem.

O objetivo do algoritmo de agrupamento é encontrar interseções de muitas curvas no espaço de parâmetros representando linhas através de muitos objetos do banco de dados. A

(30)

2.4. DESAFIOS EM AGRUPAMENTO EM SUBESPAÇOS 37

característica-chave da transformada de Hough é que a distância entre os pontos no espaço de dados original não é mais considerada. Os objetos podem ser identificados como estando associados a uma linha comum, mesmo se eles estiverem distantes no espaço de características original. Por fim, a Figura 2.4 resume bem os diferentes tipos de agrupamento abordados até então.

Figura 2.4: Diferentes tipos de agrupamento. (a) O agrupamento por projeção (b) Agrupamento de subespaços paralelos ao eixo. (c) Agrupamento de subespaços arbitrariamente orientados. (d) Agrupamento de subespaços arbitrariamente orientados de

diferentes dimensionalidades.

Fonte: O autor.

2.4 Desafios em Agrupamento em Subespaços

Em primeiro lugar, há uma forte ligação entre segmentação de dados e estimação do modelo. Especificamente, se a segmentação dos dados é conhecida, pode-se ajustar facilmente um único subespaço para cada grupo de pontos usando PCA. Por outro lado, se os parâmetros subespaciais fossem conhecidos, pode-se facilmente saber quais pontos dos dados melhor se encaixam em cada subespaço. Na prática, nem a segmentação dos dados nem os parâmetros do subespaço são conhecidos, e é preciso resolver os dois problemas simultaneamente (KRIEGEL; KRöGER; ZIMEK,2009).

Em segundo lugar, a distribuição dos dados no interior dos subespaços geralmente é desconhecida. Se os dados dentro de cada subespaço são distribuidos em torno de um centróide e centróides de diferentes subespaços estão distantes entre sí, o problema de agrupamento em subespaços se reduz ao problema das centróides. No entanto, se a distribuição dos pontos de dados nos subespaços é arbitrária, os problemas não podem ser resolvidos através técnicas de agrupamento central. Além disso, o problema se torna mais difícil quando diversos pontos se encontram próximos das interseções de dois ou mais subespaços.

Em terceiro lugar, a posição e orientação dos subespaços relativas entre eles, podem ser arbitrárias. Quando os subespaços são disjuntos ou independentes, o problema de agrupamento em subespaços pode ser resolvido mais facilmente. Como sempre, quando os subespaços são

(31)

dependentes, o problema se torna muito mais difícil1.

O quarto desafio é que os dados podem ser corrompidos por ruído, dados faltosos, e outliers. Embora técnicas robustas de estimação que tratam destas perturbações tenham sido desenvolvidas para os casos de um único subespaço, no caso de vários subespaços, não existe nada formulado.

O quinto desafio é a seleção do modelo. No clássico PCA, o único parâmetro é a dimensão do subespaço, que pode ser encontrada através da busca pelo subespaço de menor dimensão que encaixa os dados com uma determinada precisão. No caso de múltiplos subespaços, pode-se ajustar os dados com N subespaços diferentes de dimensão 1, ou seja, um subespaço por amostra, ou com um único subespaço de dimensão D. Obviamente, nenhuma destas soluções é satisfatória. O desafio é encontrar um critério de seleção de modelo que favorece um pequeno número de subespaços de pequenas dimensões.

2.5 Taxonomia Geral de Agrupamento em Subespaços

A família dos algoritmos de agrupamento em subespaços paralelos ao eixo e algoritmos de agrupamento projetado assume que os padrões de entrada que pertencem ao mesmo aglo-merado de dados estão próximos uns dos outros no espaço Euclidiano. Eles também permitem avaliar a distância correspondente dos objetos, no que diz respeito aos seus subconjuntos de atri-butos, levando em consideração o problema crescente da pobre separação dos pontos próximos e distantes, em dados de alta dimensionalidade e em problemas de atributos irrelevantes. Aborda-gens baseadas em padrões, muitas vezes desconsideram a premissa de que um aglomerado de dados consiste em objetos que estão próximos uns dos outros no espaço ou subespaço euclidiano e, em vez disso, visam a coleta de objetos seguindo padrões comportamentais semelhantes sobre um subconjunto de atributos. Estes padrões se referem a simples correlações positivas dentre os atributos considerados. Agrupamento por correlação generaliza esta abordagem para correlações complexas positivas ou negativas, embora algumas vezes considerar a densidade de pontos no espaço euclidiano. As relações gerais entre as diferentes famílias de abordagens estão representados na Figura 2.5. Observa-se que as diferentes noções de similaridade empregadas pelas diferentes classes de algoritmos pesquisados neste estudo geralmente não podem ser usadas alternadamente. Porém, algoritmos de cada classe são mais ou menos adaptados às noções específicas de similaridade de cada uma.

1_{Subespaços n linear são disjuntos se cada dois subespaços se intersecionam apenas na origem. Subespaços n} lineares são independentes se a dimensão das suas somas é igual a soma das suas dimensões.

(32)

2.5. TAXONOMIA GERAL DE AGRUPAMENTO EM SUBESPAÇOS 39

Figura 2.5: Taxonomia geral das abordagens.

(33)

41 41 41

3

Agrupamento em Subespaços para

Diferen-tes Casos de Problemas

Neste capítulo, os algoritmos de agrupamento em subespaços e em multivistas mais populares são revistos. Eles compõem uma base para o nosso modelo proposto e eles foram selecionados utilizando os critérios de relevância e noticiabilidade. A Tabela 3.1 mostra uma lista de todos os métodos cobertos aqui e suas respectivas metodologias e aplicabilidade. Os detalhes serão fornecidos ao longo desta seção.

3.1 Resumo dos Algoritmos e Abordagens

Neste trabalho, os algoritmos de aprendizagem multivista existentes serão classificados em quatro grupos: Co-Formação, Co-Regularização, Aprendizagem em Esparsidade e Aprendiza-gem em Subespaços. Co-Formação (BLUM; MITCHELL,1998) é um dos métodos mais antigos e mais aclamados para a Aprendizagem Multivista. É uma abordagem semi-supervisionada em que dois classificadores fracos aprendem a partir de duas vistas distintas sobre uma pequena amostra de dados rotulados. Esses classificadores são iterativamente treinados em dados não rotulados até o momento em que ambos entram em consenso sobre resto das vistsa. Co-Formação é fortemente baseado em pressupostos de que padrões não rotulados no contexto multivista podem ser compatíveis (vistas que concordam entre si sobre a maioria dos padrões de entrada) ou independentes, no qual as vistas discordam entre si.

Co-regularização (KUMAR; RAI; DAUME,2011) é basicamente uma versão estendida do modelo de Co-Formação no qual formalmente se mede o consenso sobre duas vistas distintas através de uma função objetivo. Em uma análise mais aprofundada, Aprendizagem em Espar-sidade é baseada em representações esparsas. Nela, há diversos tipos de normas de indução de esparsidade, tais como: `1-norm (YUAN; LIN,2006), `2,1-norm (OBOZINSKI; TASKAR;

JORDAN,2010) entre outras (WANG et al.,2011). Na Aprendizagem Multivista, esses termos de regularização são usados para explorar as informações armazenadas em todas as diferentes vistas.

(34)

42 CAPÍTULO 3. AGRUPAMENTO EM SUBESPAÇOS PARA DIFERENTES CASOS DE PROBLEMAS T abela 3.1: Resumo dos principais modelos tratados nesta dissertação. Algoritmo Abordagem Aplicação Normalized Cuts Agrupamento Espectral em Subespaços Agrupamento Mu lti vista Co-re gularized Multi vie w Spectral Clustering Co-Re gularização Agrupamento Mul ti vista Co-training Approach for Multi-vie w Spectral Clustering Co-F ormação Agrupamento M ulti vista Non-ne g ati v e Matrix F actorization Agrupamento Algébrico em Subespaços Agrupamento Mul ti vista Multi-V ie w Clustering and Feature Learning via Structured Sparsity Aprendizagem em Esparsidade Agrupamento M ulti vista Multi-V ie w Clustering via P airwise Sparse Subspace Representation Spectral Subspace Clustering Agrupamento Mul ti vista RANSA C Agrupamento Estatístico em Subespaços V isão Comput acional Multi-Stage Learning Algorithm Agrupamento Estatístico em Subespaços V isão Computa cional GPCA Agrupamento Algébrico em Subespaços V isão Comp utacional Agglomerati v e Lossy Compression Agrupamento Estatístico em Subespaços V isão Computa cional Sparse Subspace Clustering Agrupamento Espectral em Subespaços V isão Computa cional Local Subspace Af finity Agrupamento Espectral em Subespaços V isão Comput acional Spectral Curv ature Clustering Agrupamento Espectral em Subespaços V isão Computa cional Model-Based Method for Projecti v e Clustering Agrupamento Sua v e em Subespaços Mineração de Dados e Expressão Genética The Attrib utes-W eighting Algorithm Agrupamento Sua v e em Subespaços Mineração de Da dos e Expressão Genética Fuzzy W eighting K-means Agrupamento Sua v e em Subespaços Mineração de Dados e Expressão Genética CKS-EWFC-K and CKS-EWFC-F Agrupamento Sua v e em Subespaços Mineração de D ados e Expressão Genética Locally Adapti v e Metrics for Clustering Agrupamento Sua v e em Subespaços Mineração de Dado s e Expressão Genética Fuzzy Subspace Clustering Agrupamento Sua v e em Subespaços Mineração de Dados e Expressão Genética EWKM Agrupamento Sua v e em Subespaços Mineração de Dados e Expressão Genética AFG-k-means Agrupamento Sua v e em Subespaços Mineração de Dados e Expressão Genética FG-k-means Agrupamento Sua v e em Subespaços Mineração de Dados e Expressão Genética

(35)

3.2. AGRUPAMENTO MULTIVISTA: ABORDAGENS E ALGORITMOS 43

No âmbito do agrupamento multivista, a aprendizagem em subespaços visa obter um subespaço latente compartilhado por várias vistas diferentes, partindo da premissa de que as vistas de entrada são geradas a partir deste subespaço latente. A dimensionalidade do subespaço latente é menor que a de qualquer padrão de entrada, de modo que a aprendizagem em subespaços é eficaz na redução da "maldição da dimensionalidade". Dado um subespaço, é simples realizar a tarefa subsequente de agrupamento.

Agrupamento em subespaços é uma abordagem ampla que vai além do agrupamento multivista e contém uma taxonomia de alto nível. De acordo comVIDAL(2011b), podemos classificar algoritmos de agrupamento em subespaços (especialmente para aplicações de visão computacional) como: modelos algébricos, iterativos, estatísticos e espectrais. Métodos algé-bricos são baseadas em álgebra linear, decomposição de matrizes e álgebra polinomial. Eles geralmente são construídas a partir de subespaços lineares, eles não são adequados em dados ruidosos e, em geral, apresentam baixa complexidade computacional. Métodos iterativos podem ser definidos como aproximações sucessivas para obter soluções mais precisas em um sistema linear. Na verdade, esses métodos são considerados como uma forma de melhorar o desempe-nho de algoritmos algébricos. Métodos estatísticos explicitam premissas sobre a distribuição dos dados nos subespaços ou sobre a distribuição do ruído. Por fim, algoritmos baseados em agrupamento espectral constroem uma matriz de afinidade para medir a similaridade subespacial entre os padrões de entrada.

Agrupamento projetado e agrupamento em subespaços são geralmente referidos na literatura como a mesma coisa. Uma taxonomia padrão foi estabelecida porKRIEGEL; KRöGER; ZIMEK(2009) onde agrupamento projetado é uma classe de algoritmos que tenta atribuir um padrão de entrada a um aglomerado pertencente a um único subespaço e agrupamento em subespaços tenta encontrar todos os subespaços onde um aglomerado pode pertencer.

Dentro de ambos os contextos de agrupamento projetado e em subespaços, podemos definir outra subclasse de categorização. Agrupamento suave em subespaços ou agrupamento suave projetado atribui pesos para dimensões e identificam subespaços com alta densidade. É uma abordagem que vem sendo utilizada em muitas aplicações de expressão genética, uma vez que mede a importância de cada atributo para um determinado aglomerado.

3.2 Agrupamento Multivista: Abordagens e Algoritmos

Normalized Cuts (NCuts) é um método de agrupamento espectral (SHI; MALIK,2000) estendido para lidar com agrupamento multivista. Métodos de agrupamento espectral são abordagens de aprendizagem não supervisionada baseada em grafos. No qual um conjunto de pontos no espaço de características pode ser representado por um grafo ponderado não direcionado. Os nodos do grafo são os pontos ponderados no espaço de características e arestas são formadas por todos os pares de nós com o objetivo de exprimir uma medida de semelhança/afinidade. NCuts pode ser usado para agrupar cada vista ou uma representação

(36)

44 CAPÍTULO 3. AGRUPAMENTO EM SUBESPAÇOS PARA DIFERENTES CASOS DE PROBLEMAS

subespacial esparsa das vistas é aplicada antes de construir a matriz de afinidade. No entanto, definir um aspecto de similaridade não é uma tarefa trivial.

Co-regularized Multiview Spectral Clustering (KUMAR; RAI; DAUME,2011) e Co-training Approach for Multi-view Spectral Clustering (KUMAR; DAUMé,2011) também são algoritmos de agrupamento espectrais. O aprendizado semi-supervisionado é aplicado a fim de melhorar o desempenho do agrupamento com as técnicas de co-regularização e co-formação para alcançar uma coerência entre as vistas. No entanto, estes modelos não tratam explicitamente dados em falta. De acordo com LIU et al. (2013), a complexidade computacional da co-regularização é alta por causa das matrizes intermediárias não-esparsas presentes no processo de decomposiçao.

Non-Negative Matrix Factorization (NMF) foi utilizado em agrupamento de vista única no passado. Multi-View Clustering via Joint Nonnegative Matrix Factorization (LIU et al.,2013) estende esta técnica para problemas multivista. Os autores relataram alcançar desempenho competitivo em comparação com outros algoritmos não supervisionados. Apesar dos resultados promissores, não há dados em larga escala sendo utilizados nos experimentos (tais como o conjunto de dados "Animal"que veremos adiante).

Multi-View Clustering and Feature Learning via Structured Sparsity (WANG; NIE; HUANG,2013) utiliza normas de indução de esparsidade conjuntas e estruturadas para distinguir a relevância dos atributos nas vistas. O modelo tem complexidade computacional linear e manipula dados em larga escala. Por outro lado, nenhum dados esparso foi utilizado nos experimentos.

Multi-View Clustering via Pairwise Sparse Subspace Representation (YIN et al.,2015) estende o Sparse Subspace Clustering do contexto de visão computacional para o contexto de dados multivista. A principal contribuição deste modelo trata-se da sua função objetivo, na qual se tenta casar informações prévias dos dados para obter a representação esparsa de cada ponto. A premissa é de que cada ponto pode ser escrito como uma combinação linear de outros pontos que estão incorporados na mesma vista. Finalmente, maximiza-se a correlação entre cada representação esparsa das vistas. O modelo apresenta eficácia em conjuntos de dados reais, mas os resultados experimentais em dados esparsos ainda tem espaço para melhorias.

3.3 Agrupamento em Subespaços: Abordagens e Algoritmos

Random Sample Consensus (RANSAC) é um algoritmo robusto introduzido por FIS-CHLER; BOLLES (1981). O algoritmo é aplicado a uma ampla gama de problemas como estimativa de parâmetros, visão computacional e detecção de primitivas geométricas. RANSAC possui duas principais limitações: Em primeiro lugar, a complexidade cresce exponencialmente com a quantidade e a dimensionalidade dos subespaços; Por fim, ele requer que o número de subespaços seja previamente conhecido.

(37)

SU-3.3. AGRUPAMENTO EM SUBESPAÇOS: ABORDAGENS E ALGORITMOS 45

GAYA; KANATANI, 2004). Baseia-se na fatoração do método de Coast e Kanade (CK) e o método de Separação de Subespaços (SS). Como a maioria dos algoritmos baseados em Expectation-Maximization (EM), o método MSL sofre na convergência para um mínimo local. Assim, se a inicialização não é adequada, muitas vezes acontece do modelo tomar muito tempo ao convergir para um ótimo global.

Generalized Principal Component Analysis (GPCA) é um método de agrupamento algébrico introduzido porVIDAL; MA; SASTRY(2005). A principal idéia por trás do GPCA é que você pode ajustar a união de n subespaços em um conjunto de polinômios de grau n, onde suas respectivas derivadas de um ponto resultam em um vetor normal ao subespaço contendo este ponto. O GPCA é computacionalmente barato e permite que cada subespaço seja representado por um hiperplano, logo, interseções de subespaços podem ocorrer. Finalmente, o GPCA lida bem com dados faltantes. A principal desvantagem do GPCA é que a sua complexidade aumenta exponencialmente quando o número de subespaços e dimensões aumenta.

O algoritmo The Agglomerative Lossy Compression (ALC) introduzido em (MA et al., 2007) assume que os dados são extraídos a partir de uma mistura de distribuições gaussianas degeneradas. O ALC lida bem com ruído e valores extremos nos dados. O modelo não requer que o número de subespaços e as suas dimensões sejam conhecidas previamente. No entanto, ajustar seu principal parâmetro δ provoca um aumento significativo na complexidade computacional.

Sparse Subspace Clustering (SSC) (ELHAMIFAR; VIDAL,2009a), Local Subspace Affinity (LSA) (YAN; POLLEFEYS,2006) e Spectral Curvature Clustering (SCC) (CHEN; LERMAN,2008) baseiam-se no princípio da construção de um ponto (xj) como uma combinação afim ou linear de seus pontos vizinhos nos dados. SSC utiliza o princípio da esparsidade ao escolher qualquer um dos pontos de dados restantes como um possível vizinho. SSC apresenta robustez quando existem dados faltantes e valores discrepantes quando aplicado a problemas de visão computacional, tais como a segmentação movimentos e agrupamento de faces. A principal desvantagem do SCC e LSA é que eles exigem que o número de subespaços sejam conhecidos. Já o SSC pode cair na armadilha de um ponto pertencente a um conjunto de dados ruidosos ser escrito como uma combinação linear de outros pontos ruidosos (VIDAL; FAVARO,2014). Model-based Method for Projective Clustering (MPC) (CHEN; JIANG; WANG,2012) é um modelo Gaussiano estendido que atende aos requisitos gerais do agrupamento projetado. No entanto, se o MPC não é inicializado adequadamente, degrada o desempenho do agrupamento consideravelmente.

Attributes-Weighting Algorithm (AWA) (CHAN et al.,2004), Fuzzy Weighting K-means (FWKM) (JING et al., 2005), Entropy Weighting K-means (EWKM) (JING; NG; HUANG, 2007), Locally Adaptative Metrics for Clustering (LAC) (DOMENICONI et al.,2004) e Fuzzy Subspace Clustering (FSC) (GAN; WU,2008) são modelos do tipo K- means que realizam a ponderação de variáveis. Um passo adicional em cada iteração é introduzido para calcular os valores dos pesos, permitindo o agrupamento em subespaços. A principal diferença entre estes algoritmos reside nas fórmulas de atribuição de pesos que resultam em diferentes funções

(38)

46 CAPÍTULO 3. AGRUPAMENTO EM SUBESPAÇOS PARA DIFERENTES CASOS DE PROBLEMAS

objetivo a serem minimizadas no processo de agrupamento.

No que diz respeito ao AWA, se todas as amostras em um agrupamento têm os mesmos valores ou um valor não existir em um determinada dimensão, isso acarretará numa dispersão nula nos respectivos atributos, tornando assim o peso correspondente infinito. Além disso, LAC, FWKM e EWKM não levam em conta propriedades de volume e forma que não são considerados ou distinguíveis entre os aglomerados, pois esses causam atribuições erradas em regiões de fronteira.

Dois algoritmos de agrupamento suave em subespaços, Entropy Weighting Fuzzy Cluste-ring in Composite Kernel Space for Kernel Space (CKS-EWFC-K) e Entropy Weighting Fuzzy Clustering in Composite Kernel Space for Feature Space (CKS-EWFC-F) propostos porWANG et al.(2016) têm um mecanismo de aprendizagem métrica de distância, onde a distância entre os padrões de entrada com respeito a cada atributo pode ser aprendida de forma adaptativa através de uma combinação linear de um conjunto de mapeamentos de bases kernel. Embora ter apresentado resultados promissores, o modelo não foi testado com dados esparsos.

Automatic Feature Grouping K-means (AFG-K-means) proposto porGAN; NG(2015) é um dos algoritmos mais recentes que supera o Feature Groups K-means (AFG-K-means) (CHEN et al.,2012). Ele estende o K-means incorporando seleção de grupos por caracterizaçao automática. Apesar dos bons resultados, o modelo requer conhecimento prévio sobre o número de aglomerados que não é adequado, dependendo da aplicação.

Outro grupo distinto de métodos de aprendizagem não supervisionada foi projetado para lidar com o agrupamento em subespaços. Dimension Selective Self-Organizing Map (DSSOM) (BASSANI; ARAUJO, 2012) tem uma topologia fixa, na qual é preciso ter conhecimento prévio sobre o número de categorias dos dados e não representaram adequadamente aglome-rados pertencentes a diferentes subespaços. Local Adaptive Receptive Field Self-Organizing Map (LARFSOM) (ARAUJO; COSTA,2009) possui nodos com campos receptivos adapta-dos durante o processo de auto-organização, tornando-se uma estrutura variável no tempo. LARFSOM também possui um limiar de ativação na etapa de inserção do nodo. Com base nestes dois modelos, Local Adaptive Receptive Field Dimension Selective Self-Organizing Map (LARFDSSOM) (BASSANI; ARAUJO,2015) tenta melhorar o desempenho do agrupa-mento através do agrupaagrupa-mento suave em subespaços.

(39)

47 47 47

4

LARFDSSOM2

Self-Organizing Maps (SOM), proposto por (KOHONEN, 1988) pretende extrair e visualizar estruturas essenciais em dados de alta dimensão através de um mapa. A topologia deste mapa é o resultado de um processo de aprendizagem nao supervisionado que segue a distribuição de dados no espaço de entrada.

SOM tem uma topologia fixa que limita os mapeamentos produzidos (ARAUJO; REGO, 2013), isso porque o número de conexões e nodos precisam ser definidos com antecedência, uma tarefa complexa que exige conhecimento do espaço de dados. Isto induziu pesquisadores a melhorar o modelo com uma estrutura construída de forma dinâmica para eliminar a vizinhança e o número máximo de nodos predefinidos (ARAUJO; REGO,2013).

Um arcabouço que descreve qualquer mapa auto-organizável de estrutura variável no tempo foi proposta porARAUJO; REGO(2013). LARFDSSOM2 será introduzido seguindo os principais procedimentos deste arcabouço. Sua principal diferença em relação ao LARFDSSOM original (BASSANI; ARAUJO, 2015) está em sua nova fórmula de relevância, que captura a variância nos valores de cada dimensão. Anteriormente, uma alteração brusca no valor de um atributo com relação a todos os outros atributos de um padrão de entrada. Com isso, o modelo apresenta uma melhor sensibilidade na variação inter/intra classes. Por fim, a Figura 4.1 apresenta a visão geral deste arcabouço.

Figura 4.1: Visão geral do arcabouço que descreve qualquer mapa auto-organizável de estrutura variante no tempo.