Análise de Agrupamentos Com Base na Teoria da Informação: Uma Abordagem Representativa

(1)

UNIVERSIDADE_FEDERALDO RIO GRANDE DO NORTE

DECOMPUTAÇÃO

Análise de Agrupamentos Com Base na Teoria

da Informação: Uma Abordagem

Representativa

Daniel Sabino Amorim de Araújo

(2)

UNIVERSIDADE_FEDERALDO RIO GRANDE DO NORTE

DECOMPUTAÇÃO

Análise de Agrupamentos Com Base na Teoria

da Informação: Uma Abordagem

Representativa

Daniel Sabino Amorim de Araújo

Orientador: Prof. Dr. Adrião Duarte Dória Neto

Co-orientador: Prof. Dr. Allan de Medeiros Martins

Tese de Doutorado apresentada ao

Pro-grama de Pós-Graduação em Engenharia Elétrica e de Computação da UFRN (área de concentração: Engenharia de Computação) como parte dos requisitos para obtenção do título de Doutor em Ciências.

(3)

UFRN / Biblioteca Central Zila Mamede Catalogação da Publicação na Fonte

Araújo, Daniel Sabino Amorim de.

Análise de agrupamentos com base na teoria da informação: uma abordagem representativa. / Daniel Sabino Amorim de Araújo. – Natal, RN, 2013.

196 f. : il.

Orientador: Prof. Dr. Adrião Duarte Dória Neto. Co-orientador: Prof. Dr. Allan de Medeiros Martins.

Tese (Doutorado) – Universidade Federal do Rio Grande do Norte. Centro de Tecnologia. Programa de Pós-Graduação em Engenharia Elétrica e da Computação.

1. Teoria da informação – Computação - Tese. 2. Análise de agrupamentos - Computação - Tese. 3. Entropia - Computação - Tese. 4. Potencial de informação cruzado - Computação - Tese. 5. Dados complexos - Tese. I. Dória Neto, Adrião Duarte. II. Martins, Allan de Medeiros. III. Universidade Federal do Rio Grande do Norte. V. Título.

(4)

(5)

(6)

Primeiramente, gostaria de agradecer aos meus orientadores, o Prof. Adrião Dória Neto e o Prof. Allan Martins, que não só me acolheram como orientando e me ajudaram durante todo o desenvolvimento deste trabalho, mas pelo grande exemplo de pessoas e profissio-nais que são. Hoje, posso afirmar que possuo uma inspiração para minha vida acadêmica.

À minha família, em especial, meus pais, Geraldo e Cristina, meu irmão, Diego e minhas irmãs, Patrícia e Priscilla, que sempre me apoiaram incondicionalmente em qualquer es-colha que eu tenha feito durante minha vida.

À minha namorada, Thalita Mendes, pela compreensão e companhia ao longo dos dias e noites utilizados na construção deste doutorado. Agradeço a ela, também, pelas palavras de apoio e incentivo que foram essenciais nos momentos turbulentos.

Aos amigos do LSI, pelos agradáveis dias, regados a café, cappuccino e bolo, que passei dentro do departamento. Aos também amigos da UFERSA que sempre deram força e viabilizaram a continuidade do doutorado.

Ao PPGEEC e UFRN pelo apoio acadêmico e financeiro obtido na criação e divulgação dos trabalhos científicos.

Ao Dr. José Carlos Príncipe pelas observações e discussões feitas durante sua estadia em Natal. Através de sua experiência, foi possível direcionar o trabalho e definir os rumos que levaram a sua conclusão.

(7)

Atualmente, um dos maiores desafios para o campo de mineração de dados é realizar a análise de agrupamentos em dados complexos. Até o momento, diversas técnicas foram propostas mas, em geral, elas só conseguem atingir bons resultados dentro de domínios específicos, não permitindo, dessa maneira, que exista um consenso de qual seria a melhor forma para agrupar dados. Essas técnicas costumam falhar por fazer suposições nem sem-pre realistas sobre a distribuição de probabilidade que modela os dados. Com base nisso, o trabalho proposto neste documento cria uma nova medida baseada no Potencial de In-formação Cruzado que utiliza pontos representativos do conjunto de dados e a estatística extraída diretamente deles para medir a interação entre grupos. A abordagem proposta permite usar todas as vantagens desse descritor de informação e contorna as limitações impostas a ele pela sua própria forma de funcionamento. A partir disso, duas funções custo de otimização e três algoritmos foram construídos para realizar a análise de agrupa-mentos. Como o uso de Teoria da Informação permite capturar a relação entre diferentes padrões, independentemente de suposições sobre a natureza dessa relação, a abordagem proposta foi capaz de obter um desempenho superior aos principais algoritmos citados na literatura. Esses resultados valem tanto para o contexto de dados sintéticos desenvol-vidos para testar os algoritmos em situações específicas quanto em dados extraídos de problemas reais de diferentes naturezas.

Palavras-chave: Análise de agrupamentos, Teoria da Informação, Entropia,

(8)

Currently, one of the biggest challenges for the field of data mining is to perform cluster analysis on complex data. Several techniques have been proposed but, in general, they can only achieve good results within specific areas providing no consensus of what would be the best way to group this kind of data. In general, these techniques fail due to non-realistic assumptions about the true probability distribution of the data. Based on this, this thesis proposes a new measure based on Cross Information Potential that uses representative points of the dataset and statistics extracted directly from data to measure the interaction between groups. The proposed approach allows us to use all advantages of this information-theoretic descriptor and solves the limitations imposed on it by its own nature. From this, two cost functions and three algorithms have been proposed to perform cluster analysis. As the use of Information Theory captures the relationship between diffe-rent patterns, regardless of assumptions about the nature of this relationship, the proposed approach was able to achieve a better performance than the main algorithms in literature. These results apply to the context of synthetic data designed to test the algorithms in specific situations and to real data extracted from problems of different fields.

Keywords: Cluster Analysis, Information Theory, Entropy, Cross Information

(9)

Sumário i

Lista de Figuras iv

Lista de Tabelas ix

Lista de Símbolos e Abreviaturas x

1 Introdução 1

1.1 Motivação . . . 2

1.2 Objetivos . . . 4

1.3 Organização do Trabalho . . . 6

2 Revisão da Literatura 7 2.1 Agrupamento com Teoria da Informação . . . 7

2.2 Considerações Finais . . . 9

3 Fundamentação Teórica 10 3.1 Análise de Agrupamentos. . . 10

3.2 Distribuição Gaussiana . . . 13

3.3 Algoritmos Clássicos de Agrupamento . . . 15

3.3.1 Algoritmos Hierárquicos de Agrupamento . . . 17

3.3.2 k-means . . . 19

(10)

3.4 Validação de Agrupamentos . . . 23

3.5 Estimativa de Distribuição de Probabilidades . . . 24

3.5.1 Janelas de Parzen . . . 25

3.6 Teoria da Informação . . . 28

3.6.1 Origens . . . 29

3.6.2 Entropia . . . 30

3.6.3 Entropia Conjunta e Entropia Condicional . . . 33

3.6.4 Entropia Relativa ou Divergência de Kullback-Leibler . . . 34

3.6.5 Informação Mútua . . . 35

3.6.6 Variáveis Aleatórias Contínuas . . . 37

3.6.7 Entropia de Rényi . . . 38

3.6.8 Potencial de Informação . . . 40

3.6.9 Entropia Relativa de Rényi . . . 42

3.6.10 Entropia Cruzada de Rényi . . . 45

3.6.11 Potencial de Informação Cruzado . . . 46

4 Trabalho Desenvolvido 50 4.1 Potencial de Informação Cruzado Representativo . . . 50

4.2 Análise de Funcionamento do PICr . . . 57

4.2.1 Mudança nas Médias . . . 57

4.2.2 Mudança nas Covariâncias . . . 60

4.2.3 Tempo de Execução . . . 63

(11)

4.4 Algoritmos de Agrupamento . . . 72

4.4.1 Algoritmo Genético com base na Teoria da Informação - AGTI. . 74

4.4.2 Algoritmo Hierárquico com base na Teoria da Informação - AHTI 77 4.4.2.1 Corte de Dendrograma Automático . . . 82

4.4.3 Algoritmo de Programação Linear com base na Teoria da Infor-mação - APLTI . . . 83

5 Material e Métodos 90 5.1 Conjuntos de Dados. . . 90

5.1.1 Conjuntos de Dados Sintéticos . . . 91

5.1.2 Conjuntos de Dados Reais . . . 98

5.1.2.1 Dados de Imagens . . . 100

5.2 Metodologia dos Experimentos . . . 102

5.2.1 Determinação da Quantidade de Regiões Auxiliares. . . 104

6 Resultados 108 6.1 Análise dos Conjuntos de Dados Sintéticos . . . 108

6.1.1 Estudo de Caso:oa . . . 114

6.1.2 Estudo de Caso:md . . . 118

6.2 Análise com Conjuntos de Dados Reais . . . 121

6.2.1 Segmentação de Imagens . . . 126

6.2.2 Estudo de caso:g3 . . . 129

(12)

7.2 Perspectivas . . . 143

A Deduções 145

A.1 Integral do Produto de Duas Gaussianas . . . 145

A.2 Produto de Duas Gaussianas Multivariadas. . . 146

A.3 Expansão do TermoCno Produto de Duas Gaussianas . . . 148

B Análise das Regiões Auxiliares 151

C Visualizações das Partições 157

(13)

3.1 Distribuição Gaussiana para uma variável aleatória. . . 14

3.2 Distribuição Gaussiana bivariada. . . 15

3.3 Dendrograma formado a partir de um conjunto de dados . . . 17

3.4 k-means: dados contendo classes com diferentes tamanhos. . . 20

3.5 k-means: dados contendo classes com formato convexo.. . . 21

3.6 Construção da FDP a partir de cada ponto do conjunto de dados. . . 27

3.7 Exemplo da estimativa usando as janelas de Parzen com diferentes valores deh. . . 27

3.8 Volume de informação e entropia para uma variável aleatória de Bernoulli com probabilidade₋pe 1₋p. . . 32

3.9 Diagrama ilustrando a relação entre informação mútua e entropia. . . 37

3.10 Forças de informação entre objetos dentro de um mesmo grupo. . . 43

3.11 Comparativo entre medidas de divergência. . . 47

3.12 Forças de informação entre objetos pertencentes a diferentes grupos. . . . 48

4.1 Análise sobre o tamanho do modelo base. . . 51

4.2 Conjuntos de dados contendo grupos com diferentes dispersões. . . 52

4.3 Particionamento baseado em compacticidade. . . 53

4.4 Exemplo de quantização vetorial. . . 54

4.5 Nova representação dos dados através de centros e dispersões. . . 55

4.6 Conjuntos de dados usados nos testes de mudança de médias. . . 58

4.7 Análise do PICp na mudança de médias. . . 59

(14)

4.10 Resultados dos testes de variância para o PICp usando diferentes modelos

base. . . 62

4.11 Resultados do teste de variância para o PICr.. . . 63

4.12 Comparativo entre os tempos de execução para dois grupos isotrópicos. . 64

4.13 Representatividade de conjuntos de dados equivalentes. . . 64

4.14 Comparativo de agrupamentos usando matrizes de associação e ligação. . 65

4.15 Exemplo de conjunto de dados e sua representação após a quantização vetorial. . . 68

4.16 Partição equivalente a configuração ótima daFCA1. . . 69

4.17 Dois grupos gerados por seis ligações de regiões auxiliares. . . 72

4.18 Dados depois de passarem por uma quantização vetorial com centros (pontos vermelhos) e regiões auxiliares (elipses). . . 73

4.19 Partição com menor valor de FCA dentre todas as possibilidades de rotu-lagem possíveis. . . 73

4.20 Cada indivíduo da população inicial é um vetor comN elementos. . . 75

4.21 Exemplo de população inicial contendo cinco indivíduos. . . 75

4.22 Processo de ligação das regiões. . . 79

4.23 Exemplo de dendrograma representando uma estrutura hierárquica.. . . . 80

4.24 Criação de partições a partir de dendrogramas. . . 80

4.25 Comparativo entre algoritmo hierárquico tradicional e o proposto. . . 81

4.26 Corte automático de dendrograma. À esquerda, o dendrograma produzido pelo algoritmo hierárquico; no centro, o corte automático; à direita, a partição resultante do corte. . . 83

4.27 Árvore binária para três variáveis. . . 86

(15)

5.3 Conjuntos de dados retirados do repositório C. . . 94

5.4 Conjuntos de dados retirados do repositório C (cont.). . . 95

5.5 Imagens usadas para segmentação. . . 101

5.6 Efeitos da escolha errada do número de RA. . . 105

5.7 Análise sobre o número de regiões auxiliares. . . 106

6.1 Índices médios de cR com os respectivos desvios-padrões. . . 113

6.2 Partições produzidas pelos algoritmos clássicos. . . 115

6.3 Partição produzida pelo AHTI contendo as regiões auxiliares.. . . 117

6.4 Dendrograma referente ao agrupamento mostrado na Figura 6.3. . . 118

6.5 Partições produzidas pelos algoritmos clássicos. . . 119

6.6 Partição produzida pelo AHTI contendo as regiões auxiliares.. . . 120

6.7 Dendrograma referente ao agrupamento mostrado na Figura 6.6. . . 121

6.8 Distribuição dos pontos do conjuntoskin. . . 124

6.9 Índices médios de cR com os respectivos desvios-padrões para os conjun-tos de dados reais. . . 125

6.10 Imagens segmentadas produzidas pelos algoritmos testados para a base de dadosg3. . . 127

6.11 Imagens segmentadas produzidas pelos algoritmos testados para a base de dadoshorses. . . 129

6.12 Imagens segmentadas produzidas pelos algoritmos testados para a base de dadoschurch. . . 130

6.13 Segmentações produzidas pelo AHTI utilizando diferentes quantidades de grupos. . . 132

(16)

6.16 Segmentações produzidas pelo LS utilizando diferentes quantidades de

grupos. . . 135

6.17 Segmentações produzidas pelo SPC utilizando diferentes quantidades de grupos. . . 136

6.18 Segmentações produzidas pelo AHTI com 06 grupos e utilizando diferen-tes quantidades de regiões auxiliares. . . 138

6.19 Segmentações produzidas pelo AHTI com 06 grupos e utilizando diferen-tes quantidades de regiões auxiliares. . . 139

B.1 Análise sobre a quantidade de RA - dados sintéticos. . . 152

B.2 Análise sobre a quantidade de RA - dados sintéticos (cont.). . . 153

B.3 Análise sobre a quantidade de RA - dados sintéticos (cont.). . . 154

B.4 Análise sobre o número de RA para as bases de dados reais - repositório UCI. . . 155

B.5 Análise do número de RA para as bases de imagem - Repositório Berkeley.156 C.1 Partições produzidas pelo AHTI. . . 158

C.2 Partições produzidas pelo AHTI (cont.). . . 159

C.3 Partições produzidas pelo AHcTI. . . 160

C.4 Partições produzidas pelo AHcTI (cont.). . . 161

C.5 Partições produzidas pelo APLTI. . . 162

C.6 Partições produzidas pelo APLTI (cont.).. . . 163

C.7 Partições produzidas pelo AGTI. . . 164

C.8 Partições produzidas pelo AGTI (cont.). . . 165

C.9 Partições produzidas pela MFG. . . 166

C.10 Partições produzidas pela MFG (cont.). . . 167

(17)

C.14 Partições produzidas pelo LS (cont.). . . 171

C.15 Partições produzidas pelo SPC. . . 172

(18)

5.1 Conjuntos de dados sintéticos. . . 98

5.2 Conjuntos de dados reais. . . 99

6.1 Desempenho dos algoritmos clássicos de agrupamento. . . 109

6.2 Desempenho dos algoritmos propostos. . . 112

6.3 Resultados produzidos pelos algoritmos clássicos para os conjuntos de dados reais. . . 122

6.4 Resultados obtidos pelos algoritmos propostos para as bases de dados reais.123

(19)

Introdução

Atualmente, vivemos em um mundo repleto de dados. Todos os dias, pessoas lidam com diferentes tipos de dados vindos de todos os tipos de observações. Dados descrevem as características de uma espécie, retratam as propriedades de um fenômeno natural ou sumarizam os resultados de um experimento científico. Mais importante, dados forne-cem a base para uma análise posterior, tomada de decisões e entendimento dos objetos e fenômenos envolvidos (XU; WUNSCH,2009).

Nesse contexto, a ideia que dados complexos podem ser aglomerados em grupos ou categorias é central para o entendimento de mundo, e essa estrutura surge nos mais diver-sos contextos. Por exemplo, na cultura popular nós costumamos separar filmes ou livros por gêneros; no mundo dos negócios, as empresas são agrupadas em setores da economia; na biologia, nós agrupamos os componentes moleculares das células em unidades ou rotas funcionais. Em geral, esse agrupamento é feito de forma manual usando conhecimento específico, porém bastante qualitativo (SLONIM et al.,2005).

A análise de agrupamentos é o estudo formal de algoritmos e métodos para agrupar ou classificar objetos. Esse tipo de análise é um método de aprendizado de máquina não-supervisionado usado em muitos campos, como a mineração de dados, recuperação de informações e bioinformática. O que diferencia a análise de agrupamentos de um aná-lise discriminante (reconhecimento de padrões, por exemplo) é a ausência de rótulos que categorizem os objetos. Assim, o objetivo principal da análise de agrupamentos é, sim-plesmente, encontrar uma organização válida e conveniente dos dados, e não estabelecer regras para separar elementos futuros em categorias (JAIN; DUBES,1988).

(20)

ações? As unidades funcionais das células são derivadas de padrões de expressão gênica observados em diferentes condições (EISEN et al.,1998;BROWN; BOTSTEIN,1999)?

1.1 Motivação

Em geral, cada problema tem sua própria natureza e, com isso, os dados referentes a ele possuem suas características particulares. Geralmente, para tratar problemas em algum domínio, algoritmos específicos para aquele tipo de problema são desenvolvidos. Desse modo, uma das maiores dificuldades na área é implementar uma técnica de agru-pamento que consiga atender às especificidades dos dados provindos de aplicações com naturezas distintas.

Na prática, enquanto que algumas técnicas de agrupamento conseguem um bom de-sempenho para dados pouco complexos, em outras aplicações, geralmente, esse desem-penho não consegue se manter. Os motivos que levam essas técnicas a não possuírem uma escalabilidade em muitas áreas, normalmente, estão relacionados ao critério usado para construir o agrupamento. Por exemplo, alguns algoritmos usam a distância euclidi-ana para medir a similaridade entre objetos, que comprovadamente não é indicada para o uso em dados com altas dimensões (características de muitos domínios de problemas). Além disso, esse tipo de medida somente busca verificar a proximidade geométrica entre os dados, não levando em consideração possíveis correlações entre as amostras analisadas (JAIN; DUBES,1988;PARSONS; HAQUE; LIU,2004).

Outro ponto importante é o fato de, em geral, não haver informações prévias sobre os dados, criando-se uma necessidade de fazer qualquer suposição sobre a distribuição estatística dos mesmos. De fato, técnicas muito usadas, como ok-meanse a mistura finita de gaussianas, assumem que os dados são distribuídos normalmente, o que raramente é verdade em problemas do mundo real (JAIN; DUBES,1988).

(21)

situações, mesmo em detrimento de um bom desempenho, preferem visualizar os den-drogramas gerados pelos algoritmos hierárquicos de agrupamento, que se aproximam das árvores filogenéticas (QUACKENBUSH,2001).

Para contornar as limitações dessas técnicas, geralmente, algumas medidas pontuais são usadas na expectativa de adaptar os dados ao funcionamento dessas técnicas e, conse-quentemente, melhorar os seus desempenhos. O maior exemplo disso é a transformação dos dados para reduzir a dimensionalidade. No entanto, nem sempre é possível realizar essa adaptação de maneira eficiente.

Recentemente, o agrupamento usando Teoria da Informação (TI) emergiu como uma nova abordagem para o aprendizado não-supervisionado. Com base em uma série de descritores escalares que resumem a informação contida na distribuição dos dados, os algoritmos e as funções custo de agrupamento são capazes de capturar a estrutura dos dados além da estatística de segunda ordem (PRÍNCIPE et al.,2000).

Dentre os descritores da TI, o Potencial de Informação Cruzado (PIC) vem ganhando destaque na comunidade de aprendizado de máquina. Devido suas propriedades, o PIC pode ser de grande interesse nas tarefas de agrupamento. Por exemplo, se pensarmos em grupos como distribuições de probabilidade, podemos usar o PIC, que mede a interação entre diferentes distribuições, como uma poderosa medida de similaridade no processo de agrupamentos em conjuntos de dados complexos.

Existem na literatura alguns trabalhos que utilizam com sucesso o PIC para realizar agrupamento. Como exemplo, podemos citarGokcay e Principe(2002), Rao, Martins e Príncipe(2009) andAraújo et al.(2010). Podemos mencionar duas grandes vantagens no uso desse descritor como medida de similaridade: a primeira é a ponderação não-linear utilizada para medir a distância entre pontos que faz a diferença na separação de dados com alta complexidade espacial; a outra é não ficar restrito às estatísticas de segunda ordem e usar toda a informação presente nos dados.

No entanto, o uso do PIC impõe algumas restrições. A primeira delas se deve ao fato de que para obter o PIC é necessário calcular a interação entre todos os pares de pontos das diferentes distribuições. Com isso, o tempo de execução cresce exponencialmente com o tamanho da entrada que, para muitas situações reais, pode ser composta por milhares ou até milhões de pontos, tornando impraticável o uso do PIC como critério de agrupamento.

(22)

sua estimação. Uma vez escolhidas essas configurações, elas são usadas para todo o conjunto de dados indiscriminadamente. É possível mostrar que, em problemas de agru-pamento, a escolha errada dessa configuração pode produzir uma partição ruim (mostrado no Capítulo4).

Diante disso, nota-se que a Teoria da Informação, através de seus descritores, tem grande potencial de utilização no contexto de análise de agrupamentos. No entanto, as restrições citadas impedem que seu uso seja possível em algumas situações práticas da problemática atual.

1.2 Objetivos

Com base no exposto anteriormente, o principal objetivo deste trabalho é desenvolver um novo método de agrupamento que tem como base os sólidos conceitos da Teoria da Informação. Para isso, foi criada uma nova abordagem que busca dividir os dados em porções menores com o fim de capturar as diferentes características das regiões do espaço de entrada do problema e usá-las para gerar uma estimativa mais precisa. Nesse processo, também é possível identificar pontos representativos de cada uma dessas regiões e utilizá-los para calcular o PIC, ao invés de usar todos os pontos de dados. Pela semelhança com o PIC, o nome dado ao descritor criado é Potencial de Informação Cruzado representativo (PICr) .

É importante notar que essa abordagem trata as duas grandes restrições do PIC: pri-meiro, ao usar somente pontos representativos, o custo computacional para calculá-lo cai drasticamente, uma vez que o número de pontos representativos é muito menor que a quantidade total de dados; e, com a divisão do espaço de características, é possível usar estatísticas específicas de cada região para definir diferentes parâmetros da interação entre os pontos, não precisando adotar um valor fixo e, muitas vezes, inadequado para todo o conjunto de dados.

(23)

Adicionalmente, são propostos três algoritmos de agrupamento que usam as FCAs propostas. Os algoritmos possuem naturezas distintas e foram desenvolvidos com o ob-jetivo de mostrar que as FCAs propostas podem ser usadas em diferentes contextos: o primeiro é o Algoritmo Hierárquico com base na Teoria da Informação (AHTI) que tem como objetivo ligar as regiões mais estatisticamente relacionadas dos dados; o segundo, Algoritmo de Programação Linear com base na Teoria da Informação (APLTI), possui princípio semelhante, mas usa uma otimização de funcional através de Programação Li-near para atingir seu fim; e o último, o Algoritmo Genético com base na Teoria da Infor-mação (AGTI) é uma implementação genética que constrói a disposição ideal da rotula-gem de pontos a partir de um conjunto de soluções iniciais. Os três algoritmos desenvol-vidos usam a medida proposta e, portanto, também somam as contribuições do trabalho.

Para constatar a eficiência da proposta de trabalho, foram feitos testes com conjuntos de dados de diferentes naturezas. Inicialmente, são usadas bases de dados construídas artificialmente, mas que possuem complexidade espacial em níveis distintos. Essas bases estão em duas e três dimensões para mostrar que é possível separar os dados em grupos com formato arbitrário. Além disso, dados de problemas reais, como reconhecimento de escrita e segmentação de imagens, são usados para contemplar a aplicação das medidas e algoritmos propostos em aplicações reais.

Ao longo do texto, as contribuições obtidas neste trabalho são destacadas, principal-mente durante o Capítulo4. No entanto, podemos resumi-las nos seguintes tópicos:

• definição de uma nova medida de similaridade entre grupos de pontos (PICr); • utilização da variância das diferentes partes dos dados para definir automaticamente

o modelo base usado para estimação das distribuições que modelam os grupos; • redução do tempo de execução do potencial de informação cruzado através de

quan-tização vetorial e utilização de pontos representativos dos dados; • definição de duas funções custo de agrupamento baseadas no PICr;

• proposição de três algoritmos de agrupamento: um algoritmo hierárquico (AHTI), um algoritmo genético (AGTI) e um algoritmo com base na programação linear (APLTI);

• uso de programação linear em conjunto com Teoria da Informação no contexto de agrupamentos;

(24)

1.3 Organização do Trabalho

O restante do trabalho está organizado da seguinte maneira:

• Capítulo 2: apresenta uma revisão da literatura relacionada à análise de agrupa-mento. O enfoque maior são nas propostas de trabalho que utilizam a teoria da informação dentro dos seus procedimentos.

• Capítulo 3: traz a fundamentação teórica necessária para a compreensão e desenvol-vimento do trabalho. Nesse capítulo são descritos todos os conceitos relacionados à análise de agrupamentos e à Teoria da Informação.

• Capítulo 4: descreve em detalhes a proposta de trabalho. É nesse capítulo onde as medidas e algoritmos de agrupamento propostos são definidos, mostrando todo o seu funcionamento.

• Capítulo 5: todos os conjuntos de dados, detalhamento dos experimentos e demais materiais usados durante a execução do experimento são descritos nesse capítulo. • Capítulo 6: todos os resultados obtidos durante os experimentos são mostrados e

discutidos.

(25)

Revisão da Literatura

No capítulo introdutório foi ressaltada a necessidade natural da criação de agrupa-mentos e a importância da análise dos aglomerados gerados em diversas áreas de co-nhecimento. Também foi apontado que a Teoria da Informação tem ganhado espaço na comunidade científica de aprendizado de máquina através do uso de descritores teóricos da informação que fazem uso da estatística inerente aos dados para guiar o processo de aprendizagem. Sendo assim, esse capítulo é dedicado a uma revisão da literatura relacio-nada ao uso de Teoria da Informação no contexto de análise de agrupamentos.

2.1 Agrupamento com Teoria da Informação

A análise de agrupamentos é um dos tópicos mais importantes no campo de reconhe-cimento de padrões. Partindo do pressuposto que, no aprendizado não-supervisionado, somente a estrutura dos dados dita como o agrupamento é formado, a teoria da informa-ção, por não fazer suposições sobre a natureza dos dados, se torna um critério óbvio para estabelecer regras de agrupamento.

(26)

resultados de simulações demonstraram a eficiência e robustez do método quando com-parado com técnicas mais tradicionais.

Ainda nesse contexto,Hofmann e Buhmann(1997) propõe um método de otimização combinatória para o problema de agrupamento que extrai estruturas ocultas dos dados. Os autores usam o princípio da Entropia máxima para produzir o agrupamento. Um novo algoritmo para agrupar dados é discutido de forma que possa também ser usado para redução de dimensionalidade e visualização de dados. O algoritmo de incorporação de dados sugerido foi implementado para realizar a análise de dados de dissimilaridade de proteínas e linguística, superando abordagens tradicionais. Por outro lado, o algoritmo para agrupamento foi usado para segmentar imagens de textura.

Outro trabalho nessa linha é o deGokcay e Principe (2002), que propõe um algo-ritmo de agrupamento usando uma medida baseada em teoria da informação para estimar o custo de particionar um conjunto de dados. Partindo de propostas anteriores, com aplica-ções de sucesso em diversas áreas, esse critério foi derivado da entropia de Rényi. Quando aplicado a conjuntos de dados sintéticos e a dados extraídos de imagens de ressonância magnética, os resultados da abordagem proposta foram positivos, mesmo em casos onde os dados são de separabilidade não-linear.

Outras medidas de informação podem ser usadas como critério de agrupamento. Por exemplo, ao invés da entropia de Rényi,Martins et al.(2004) usou a divergência Kullback-Leiblercomo uma medida de dissimilaridade entre grupos em seu algoritmo de agrupa-mento. A ferramenta proposta usa a quantização vetorial clássica com redes neurais com-petitivas para construir um agrupamento em conjuntos de dados espacialmente comple-xos. O algoritmo foi testado com conjuntos de dados sintéticos espacialmente complexos conseguindo atingir resultados satisfatórios no contexto de agrupamento e classificação de dados. No entanto, o algoritmo só foi testado usando dados com poucas dimensões (duas e três). Além disso, o nível dos resultados depende, basicamente, da escolha correta dos parâmetros envolvidos, como o número de regiões auxiliares e o limiar para ligação das regiões.

(27)

invari-ante a mudanças na representação dos dados e capturam relações não-lineares dos dados. A principal característica da técnica é a ideia de realizar o agrupamento baseado na no-ção coletiva de similaridade, ao contrário das medidas tradicionais pareadas. O algoritmo foi testado com bases de diferentes domínios e apresentaram resultados mais coerentes quando comparado com alguns algoritmos de agrupamento existentes. Os resultados fo-ram analisados em termos de coerência, ou seja, uma medida que corresponde a perguntar quando um procedimento objetivo e automático recupera realmente o rotulamento intui-tivo construído manualmente. O algoritmo foi testado no contexto de dados expressão gênica, em dados contendo preço de ações na bolsa de valores e na análise classificativa de filmes.

Mais recentemente, Rao, Martins e Príncipe (2009) desenvolveu um trabalho para promover um novo entendimento dos algoritmos do tipomean shift a partir de uma pers-pectiva da teoria da informação. Primeiro, é provado que os algoritmos desse tipo que minimizam a entropia de Rényi são instáveis por definição e propõe o uso da variação da mesma entropia, chamada entropia cruzada de Rényi, como nova medida a ser minimi-zada, tornando o novo algoritmo estável. Como consequência dessa nova abordagem, é mostrado, através de aplicações em agrupamento e segmentação de imagens, o desempe-nho superior do novo algoritmo.

2.2 Considerações Finais

(28)

Fundamentação Teórica

Este capítulo se propõe a expor o arcabouço teórico necessário para fundamentação e compreensão dos conceitos relacionados ao trabalho desenvolvido nesta tese.

A ideia proposta envolve a utilização de descritores teóricos da informação no pro-cesso de análise de agrupamentos. O objetivo é usar toda a informação estatística intrín-seca dos dados para direcionar a análise e, consequentemente, obter aglomerados mais significativos.

Para isso, este capítulo é apresentado da seguinte maneira: a Seção3.1traz os concei-tos iniciais relacionados ao processo de agrupamento; a Seção3.2descreve a distribuição de probabilidades Gaussiana, que usada como base pelos métodos propostos; a Seção 3.3 mostra como é feita mais frequentemente a análise de agrupamento, descrevendo os métodos mais usados para isso; a Seção3.4trata da validação das partições encontradas durante o agrupamento; na Seção3.5 são descritas as formas e métodos para realizar a estimativa de densidades de probabilidade usadas pelos descritores de informação. Os conceitos envolvendo a teoria da informação e como ela é inserida na análise de agrupa-mentos são mostrados na Seção 3.6. No final do capítulo, existe uma seção que faz as considerações finais sobre a fundamentação teórica do trabalho.

3.1 Análise de Agrupamentos

(29)

aplicações em diferentes áreas, como a bioinformática (GOLUB et al.,1999), análise de dadosweb(VAKALI; PALLIS, 2007), reconhecimento de voz (KIDO et al., 1978) e es-crita (KATO; NEMOTO, 1996) e exploração de dados científicos como um todo (JAIN; DUBES,1988).

Em outras palavras, agrupamento é um modo não-supervisionado de aglomerar dados usando uma medida de similaridade específica. Os algoritmos de agrupamento tentam or-ganizar vetores de características não-rotulados em aglomerados ou grupos naturais de maneira que objetos dentro de um mesmo grupo sejam mais similares que objetos per-tencentes a grupos diferentes. Técnicas de agrupamentos são mais indicadas quando o rotulamento para classificação dos dados de entrada necessitam de conhecimento especi-alista que, normalmente, é muito caro.

No contexto de agrupamento, em geral, não existe informação prévia sobre a estrutura subjacente dos dados nem uma medida de similaridade única capaz de diferenciar grupos em todas as situações (GOKCAY; PRINCIPE, 2002; SOUTO et al., 2008). De fato, não é surpreendente que não exista na literatura uma definição unificada para descrever agrupamento.

No entanto, existem, pelo menos, duas abordagens utilizadas que definem as técnicas de agrupamento: a abordagem paramétrica e a não-paramétrica. No agrupamento para-métrico é assumido um modelo de distribuição predeterminado para o conjunto de dados e são calculadas as estatísticas básicas necessárias para definir os dados de um modo compacto (KAZAKOS; PAPANTONI-KAZAKOS, 1990; PAPOULIS; PILLAI, 2002). Por exemplo, se considerarmos uma distribuição normal, as estatísticas suficientes são a média amostral e a matriz de covariância, que descrevem a distribuição perfeitamente. No entanto, se o conjunto de dados não é originalmente distribuído de acordo com a escolha feita, essas definições feitas podem se tornar ilusórias. Ainda na categoria pa-ramétrica, outra abordagem usa uma mistura de distribuições para descrever os dados (DEMPSTER; LAIRD; RUBIN, 1977; MCLACHLAN; BASFORD, 1988; MCLACH-LAN; KRISHNAN, 1997). A ideia parte do princípio de que é possível aproximar, vir-tualmente, qualquer função de densidade a partir de outras distribuições. No entanto, estimar os parâmetros dessa mistura não é uma tarefa trivial. Além disso, a questão de como separar os dados em grupos diferentes continua sem resposta, uma vez que estimar a distribuição não diz como dividir os dados em grupos.

(30)

HART; STORK,2001). Nesse caso, para medir a similaridade é usada uma função crité-rio e um processo de busca da configuração de agrupamento que maximize (ou minimize) esse critério. Esse tipo de abordagem necessita de uma função para avaliar quão bem o agrupamento se ajusta aos dados e um algoritmo para otimizar essa função.

Em vista disso, algumas questões fundamentais se tornam relevantes quando quere-mos realizar a análise de agrupamentos (HAIR et al.,2005):

• Como medir a similaridade entre os objetos? • Como formar os agrupamentos?

• Quantos grupos formar?

• Como validar os agrupamentos formados?

A resposta para o primeiro questionamento pode ser feita com base nas diversas me-didas de proximidade existentes na literatura. Basicamente três tipos de meme-didas de pro-ximidade são utilizadas para medir similaridade no contexto de análise de agrupamentos: as medidas correlacionais, as medidas baseadas em distância e as medidas de associa-ção (HAIR et al.,2005). Cada um desses métodos representa uma perspectiva particular de similaridade. Tanto as medidas correlacionais quanto as medidas de distância reque-rem dados métricos (numéricos), ao passo que as medidas de associação são para dados não-métricos (categóricos).

A segunda pergunta diz respeito a que procedimento deve ser utilizado para formar grupos a partir dos dados. Basicamente, existem duas categorias de técnicas de agrupa-mento: as hierárquicas e as particionais (não-hierárquicas). As técnicas hierárquicas mon-tam uma estrutura hierárquica dos dados em forma de árvore. Por outro lado, os algorit-mos particionais subdividem os dados em um número de subgrupos sem que haja qualquer tipo de relacionamento hierárquico entre eles (JAIN; DUBES, 1988; D’HAESELEER, 2005;HAIR et al.,2005).

Sendo assim, dado um conjunto de padrões de entradaX =_{x1, ...,xN}, em quexi=

(xi1,xi2, ...,xid)∈Rdonde cada medidaxi j é chamada de característica, atributo ou ainda

dimensão dos dados (JAIN; DUBES,1988):

1. um agrupamento particional tenta buscar uma partição deX,C=_{C1, ...,Ck}com

k_≤N, tal que,

(31)

• Ski=1Ci=X

2. um agrupamento hierárquico tenta construir uma partição deX,C=_{C1, ...,Ck}a

partir de uma estruturada aninhada ,H=_{H1, ...,HQ}comQ≤N, tal que,

• Ci∈Hm,Cj∈Hl

• Ci⊂CjouCi∩Cj=∅,∀i,jcomi6= j

Podemos ainda ter uma outra classificação dessas técnicas, onde a divisão é feita pela forma de atribuição dos padrões aos grupos. De acordo comJain e Dubes(1988), existem os agrupamentoshard, onde cada objeto é exclusivamente associado a um único grupo, e os agrupamentosfuzzy, onde é possível que um objeto pertença a todos oskgrupos com um grau de pertinência, ui,j = [0,1]. Isso é feito de tal forma que ui,j corresponde ao

coeficiente de pertinência do j-ésimo objeto noi-ésimo grupo e que satisfaz∑k_i₌₁ui,j =

1,_∀j.

Neste trabalho, são utilizados tanto técnicas hierárquicas quanto particionais, no en-tanto, nos restringimos ao agrupamentohard.

A resposta para a terceira pergunta, ou seja, o número de grupos que deve estar pre-sente na solução final gerada por uma técnica de agrupamento, não é respondida facil-mente, pois, em geral, não se tem esse conhecimentoa priori. Existem heurísticas pre-sentes na literatura que guiam a escolha da quantidade de grupos baseada na estrutura do agrupamento formado (HAIR et al.,2005). Entretanto, a maioria dos métodos de agrupa-mentos existentes requerem essa informação como parâmetro de entrada.

Por fim, para responder a última questão são necessárias medidas de qualidade para avaliar os agrupamentos formados. Em geral, são utilizados dois tipos de critério para isso: os índices internos (baseados nas propriedades intrínsecas dos dados) e os índices externos (utilizam informações adicionais sobre os dados que não são utilizadas no pro-cesso de agrupamento) (D’HAESELEER,2005).

3.2 Distribuição Gaussiana

(32)

nor-mal, essa distribuição é uma das mais utilizadas na literatura estatística e, devido às suas propriedades, também será utilizada neste trabalho.

Para o caso de variáveis aleatórias unidimensionais, a distribuição gaussiana é defi-nida por (BISHOP,2006):

N

(x_|µ,σ2) = 1 (2πσ2)(1/2)e

− 1 2σ2(x−µ)

2 !

(3.1)

que é regida por dois parâmetros: µ, chamado de média eσ2 que representa a variância dos dados. A Figura3.1ilustra a distribuição Gaussiana na sua versão univariada.

Figura 3.1: Distribuição Gaussiana para uma variável aleatória.

É importante notar que, a partir da Equação3.1, a distribuição Gaussiana satisfaz

N

(x_|µ,σ2)>0.

Juntamente com a propriedade anterior, a distribuição Gaussiana atende a outro re-quisito mínimo para ser considerada uma distribuição de probabilidades, a normalização:

Z ∞

−∞

N

(x|µ,σ

2_{) =}₁_.

(33)

N

(x_|µ,Σ) = 1 (2π)d/2

1 |Σ_|1/2e

−1

2(x−µ)TΣ−1(x−µ)

!

(3.2)

em que, o vetord-dimensionalµé a média da distribuição eΣé a matriz de covariância com tamanhod_×d. _|Σ_|representa o determinante da matriz de covariância. A ilustração de uma Gaussiana com duas variáveis pode ser vista na Figura3.2

Figura 3.2: Distribuição Gaussiana bivariada.

A distribuição Gaussiana surge em vários contextos diferentes e pode ser motivada a partir de uma variedade de perspectivas distintas. Por exemplo, se considerarmos a soma de variáveis aleatórias, o teorema do limite central diz que, em condições normais, a soma de múltiplas variáveis aleatórias possui uma distribuição que se torna Gaussiana à medida que o número de termos na soma aumenta (WALKER,1969).

É interessante notar que como característica geométrica, a dependência funcional da função gaussiana emxocorre através do termo

∆2= (x₋µ)TΣ−1(x₋µ)

que aparece no expoente da equação. A quantia∆é conhecida como distância de Maha-lanobis entrexeµ. Essa quantia se reduz, ainda, à distância Euclidiana quandoΣé igual

à matriz identidade (BISHOP,2006).

3.3 Algoritmos Clássicos de Agrupamento

(34)

similaridade pode variar de uma técnica para outra. Por exemplo, as medidas correlacio-nais (Pearson, Cosseno, Spearman, etc.) buscam por padrões de variância ao longo das variáveis para quantificar a similaridade entre objetos, enquanto que as medidas baseadas em distâncias calculam a proximidade entre os objetos para medir a dissimilaridade entre eles (JAIN; DUBES,1988).

Algumas técnicas, para produzir agrupamentos, permitem a utilização de mais de uma forma de medir similaridade. Ok-means, por exemplo, permite que a similaridade entre objetos seja avaliada usando medidas de distância ou correlação, em suas diversas variações (distância euclidiana,cityblock, correlação dePearson,Spearman). Isso implica que a mudança dessa medida durante o processo de agrupamento também leva à geração de partições distintas ao fim do processo. Sendo assim, a escolha de uma medida de similaridade vem a ser um problema na análise de agrupamentos (JAIN; DUBES, 1988; SOUTO et al.,2008).

Nesse sentido, existem algumas técnicas que, por motivos específicos, ganharam es-paço na literatura. Por exemplo, os algoritmos hierárquicos de agrupamento, por pro-duzirem uma estrutura em forma de árvore, são bastante utilizados em contextos onde é necessária a apresentação de resultados com relações explicitamente interpretáveis. O k-meansé, talvez, a técnica mais intuitiva e simples de se implementar e, portanto, uma das mais utilizadas. Apesar de serem amplamente usadas, as duas técnicas citadas anteri-ormente possuem uma série de desvantagens que as tornam, em muitas situações, pouco práticas.

Por outro lado, técnicas com complexidade maior, mas com arcabouço teórico bem definido, também ganharam espaço pela robustez e bom desempenho em tarefas onde a estrutura espacial dos dados é complexa. Um exemplo disso é a Mistura Finita de Gaussianas, que foi testada em vários contextos e obteve bons desempenhos se comparada a outras, como ok-meanse os algoritmos hierárquicos (SOUTO et al., 2008;ARAÚJO; DÓRIA NETO; MARTINS,2012).

(35)

3.3.1 Algoritmos Hierárquicos de Agrupamento

Um agrupamento hierárquico é uma sequência de partições, na qual, cada partição é aninhada à partição vizinha na sequência (JAIN; DUBES,1988). As técnicas hierárquicas podem ser aglomerativas ou divisivas. Um técnica aglomerativa começa com as instâncias formando grupos unitários disjuntos (singletons), ou seja, cada uma dasninstâncias no conjunto de dados vai ser atribuída a um grupo (cluster) diferente; a cada passo, os grupos mais próximos são unidos formando partições aninhadas. Esse processo se repete até que se forme uma única partição, chamada partição conjunta, contendo todas as instâncias da base de dados. Já em uma técnica hierárquica divisiva o processo se dá em ordem inversa à aglomerativa (JAIN; DUBES, 1988). Pelo fato de as técnicas hierárquicas divisivas possuírem custo computacional maior e retornarem resultados equivalentes aos métodos aglomerativos (JAIN; DUBES,1988;HAIR et al.,2005), este trabalho é limitado ao uso de técnicas aglomerativas.

Uma das vantagens de se usar técnicas hierárquicas é que elas não assumem um nú-mero predefinidos de grupos, em vez disso, pode-se obter partições com núnú-mero de grupos variados. Para isto, basta “cortar” a árvore hierárquica (dendrograma) no nível apropri-ado (JAIN; DUBES, 1988; BARBARA, 2000). A Figura 3.3 mostra um dendrograma formado a partir de um conjunto de dados com quatro objetos. A linha horizontal divide o dendrograma formando uma partição com dois grupos disjuntos.

Figura 3.3: Dendrograma formado a partir de um conjunto de dados1_.

(36)

Os passos utilizados por um algoritmo hierárquico genérico podem ser descritos como (BARBARA,2000):

1. Computar a matriz de similaridade. 2. Unir o par de grupos mais similares.

3. Atualizar a matriz de similaridade com o novo grupo. 4. Repetir os passos 2 e 3 até que reste somente um grupo.

Os algoritmos hierárquicos podem variar na forma de medir a similaridade entre gru-pos diferentes. As três principais variações são (JAIN; DUBES,1988):

• Algoritmo hierárquico com ligação simples. • Algoritmo hierárquico com ligação média. • Algoritmo hierárquico com ligação completa.

No algoritmo hierárquico com ligação simples, a similaridade entre dois grupos é dada pela maior similaridade entre quaisquer objetos (instâncias) dos dois grupos. Esse tipo de algoritmo hierárquico é indicado para agrupar dados com formato não-esféricos. Existem estudos na literatura que apontam a severa sensibilidade a ruídos enfrentada por esse algoritmo (JAIN; DUBES,1988).

Já no algoritmo hierárquico com ligação completa, a menor similaridade entre duas instâncias quaisquer de dois grupos determina a similaridade entre esses grupos. Tais algoritmos são menos suscetíveis a ruídos e outliers, mas, podem separar grupos natu-ralmente grandes e enfrenta problemas com grupos que têm formatos convexos (JAIN; DUBES,1988).

Por fim, no caso do algoritmo hierárquico com ligação média a similaridade entre dois grupos é dada pela similaridade média entre todos os objetos dos dois grupos em questão. Essa é uma abordagem intermediária entre a ligação simples e a completa. As técnicas hierárquicas que utilizam ligação média tendem a gerar grupos com pequena variação interna. Elas também tendem a produzir grupos com mesma variância (HAIR et al.,2005).

(37)

2001). Por isso, dentre outras razões, tornaram-se extremamente populares na análise de dados de expressão gênica, sendo preferido, inclusive, a outras técnicas mais recentes especializadas para tais tipos de dados.

É importante salientar que essa classe de técnicas de agrupamento sofre de uma série de limitações. Algumas já citadas (formato e densidade dos grupos) e outras como, por exemplo, a falta de uma função objetivo global (BARBARA,2000) e a tendência em gerar grupos muito grandes em detrimento de outros.

3.3.2 k-means

Enquanto que as técnicas hierárquicas organizam os dados em uma sequência ani-nhada de grupos (árvore hierárquica que pode ser cortada em vários níveis diferentes), as chamadas técnicas particionais (não-hierárquicas), nas quais ok-meansestá incluído, geram uma única partição na tentativa de recuperar a estrutura original dos dados (JAIN; DUBES, 1988). O k-meansfaz parte da classe de técnicas de agrupamento particionais baseada em centro, ou seja, os grupos formados por essas técnicas são representados por um ponto central do grupo (centroide).

Os passos que descrevem ok-meanspodem ser definidos como segue (BARBARA, 2000):

1. Selecionekinstâncias para serem os centroides iniciais dos grupos. 2. Atribua todos as instâncias ao centroide mais próximo.

3. Recalcule o centroide para cada grupo.

Calcule a média de todas as instâncias do grupo. 4. Repita os passos 2 e 3 até que os centroides não mudem.

Um ponto-chave que determina o desempenho desse algoritmo é a escolha dos cen-troides iniciais. Escolhas aleatórias, apesar de serem o procedimento mais comum, em geral, levam a mínimos locais.

O k-means busca minimizar o erro quadrático dos pontos em relação aos centros de seus grupos. Embora isso seja um critério razoável e leve a um algoritmo simples, também implica em certas limitações e problemas. Por exemplo, o k-means apresenta problemas para agrupar dados com grupos de tamanhos diferentes (Figura3.42) e grupos

2_{Com relação a essas figuras, a primeira sempre representa os dados reais e a segunda mostra os grupos}

(38)

com formatos convexos (Figura3.5).

−4 −2 0 2 4 6 8 10 12

(a)

−4 −2 0 2 4 6 8 10 12

(b)

Figura 3.4:k-means: dados contendo classes com diferentes tamanhos.

Tais dificuldades são ocasionadas pela inadequação da sua função objetivo nesses casos. A função objetivo é otimizada (minimizada) para grupos com formato esférico e com mesmo tamanho ou para grupos bem separados.

3.3.3 Mistura Finita de Gaussianas

(39)

−1 −0.5 0 0.5 1 1.5 2 −0.8

−0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1

(a)

−1 −0.5 0 0.5 1 1.5 2

−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1

(b)

Figura 3.5:k-means: dados contendo classes com formato convexo.

O problema de agrupamento em tal contexto é alocar cada instância do conjunto de dados a uma das distribuições, ou seja, atribuir cada elemento a um dos grupos. De maneira mais formal, sejap(x_|ωi,θi)a função densidade de probabilidade para um

deter-minado grupoωi, em quex representa uma instância retirada do conjunto de dados eθi

é o conjunto de parâmetros, ainda desconhecidos, paraωi. Além disso, seja P(ωi) seja

a probabilidadea priorido grupo ω_i. Então, a distribuição da mistura pode ser definida como (JAIN; DUBES,1988):

p(x_|θ) =

k

∑

i=1

p(x_|ωi,θi)P(ωi) (3.3)

(40)

p(x_|ωi,θi)são chamadas de densidade do componente e a probabilidade a prioriP(ωi)são

conhecidas como parâmetros de mistura (JAIN; DUBES,1988). Note que: ∑k_iP(ω_i) =1 eP(ω_i)>0.

O objetivo do algoritmo é usar as instâncias retiradas do conjunto de dados para es-timar o vetor de parâmetros θ. Em geral, os valores de θ são estimados iterativamente

usando o algoritmoExpectation Maximization(EM). Uma vez queθé conhecido pode-se

decompor a mistura em componentes e atribuir cada uma das instâncias do conjunto de dados à componente com maior probabilidade.

Como já mencionado, é prática comum assumir que as distribuições das componen-tes sejam Gaussianas multivariadas (abordagem utilizada neste trabalho), com diferencomponen-tes médias e matrizes de covariância, entretanto, outras distribuições podem ser utilizadas.

3.3.4 Algoritmos Espectrais

Agrupar conjuntos de dados cujos grupos têm diferentes formatos, tamanhos e den-sidades é uma tarefa desafiadora. Quando os dados estão em alta dimensionalidade as questões ligadas às características dos dados (tamanho e densidade dos grupos, por exem-plo) são intensificadas. Parte desse problema surge por causa de problemas com a noção de distância/similaridade em altas dimensões. Por exemplo, alguns algoritmos de agrupa-mento utilizam o conceito de distância euclidiana como critério de similidade, embora a noção de distância euclidiana se torne sem sentido com o aumento da dimensionalidade.

Mais especificamente, quando em alta dimensionalidade, pontos tendem a ter baixa similaridade, e então, pode haver casos em que pontos em grupos diferentes podem es-tar mais próximos que pontos no mesmo grupo. De fato, alguns estudos mostram que 15-20% dos k vizinhos mais próximos a um ponto pertencem a outra classe (ERTÖZ; STEINBACH; KUMAR,2002).

(41)

Assim, neste trabalho para agrupar um conjunto de instânciasX=_{x1, ...,xN} ∈Rd,

emkgrupos são adotados os seguintes passos (NG; JORDAN; WEISS,2001):

1. Construa a matriz de similaridade S_∈RN×N definida porS_{i j} ₌e(−||xi−xj||2/2σ2) se

i₆= jeSii=0.

2. Defina Dsendo a matriz diagonal cujo elemento (i,i) é a soma dai-ésima linha de S, e construa a matrizL=D−1/2_SD−1/2_.

3. Encontrev1,v2, ...,vk, ou seja, oskmaiores autovetores deLe forme a matrizV =

[v1,v2, ...,vk]∈RN×k colocando os autovetores em colunas.

4. Forme a matrizY a partir deV normalizando as linhas deVusandoYi j=Vi j/(∑jVi j2)1/2,

de modo que fiquem com norma unitária.

5. Trate cada linha deY como um ponto noRke agrupe-os emkgrupos utilizando um

algoritmo de agrupamento (ok-means, por exemplo).

6. Finalmente, atribua o ponto original xi ao grupo j se, e somente se, a linha i da

matrizY foi atribuída ao grupos j.

O parâmetroσcontrola a velocidade com que os valores da matriz de similaridadeS decrescem.

Uma vantagem desse tipo de técnica é que ela não faz nenhum tipo de suposição sobre o formato dos dados. Em contraste com outros algoritmos de agrupamento, como ok-meansque tendem a gerar grupos esféricos, oSpectralpode resolver problemas, em que os grupos presentes tem formatos espirais, por exemplo (NG; JORDAN; WEISS, 2001). É importante ressaltar que oSpectralé muito sensível ao tipo de medida utilizada para construir a matriz de similaridade e a transformação aplicada a essa matriz (NG; JORDAN; WEISS,2001).

3.4 Validação de Agrupamentos

A validação de agrupamentos consiste em encontrar um conjunto de grupos que me-lhor se adapte às partições naturais. Basicamente, existem dois tipos de validação de agrupamentos: aqueles baseados em critério externos, que levam em consideração conhe-cimento prévio sobre os dados; e aqueles baseados em critérios internos, que somente usam informações intrínsecas dos dados (JAIN; DUBES,1988).

(42)

partição gerada por um algoritmo de agrupamento deve conter, ou ainda, para medir a qualidade de partições geradas por técnicas de agrupamento.

Por não apresentar tendências em favorecer qualquer técnica de agrupamento, o índice externocorrected Rand(cR) (JAIN; DUBES,1988;KUNCHEVA,2004) foi o escolhido dessa categoria para ser utilizado neste trabalho no momento de validar os resultados obtidos pelos algoritmos de agrupamento.

Formalmente, sejaU =_{u1, ...,uR} a partição gerada por um algoritmo de

agrupa-mento, eV =_{v1, ...,vC}seja a partição formada com conhecimentoa prioridos dados,

independente da partiçãoU. O índicecorrected Randé, então, definido dessa maneira:

cR= ∑

R i ∑Cj n2i j

− n2

−1h

∑R_i ni. 2

∑C_j n.j 2

i

1 2

h

∑R_i ni. 2

+∑C_j n.j 2

i

− n2

−1h

∑R_i ni. 2

∑C_j n.j 2

i (3.4)

em que,ni jrepresenta o número de objetos comuns aos gruposuievj;ni.indica o número

de objetos no grupoui;n.jindica o número de objetos no grupovj;né o número total de

objetos; e a_b

é o coeficiente binomial _b_!₍_aa₋!_b₎_!.

O índice cR mede, basicamente, a relação entre a concordância e a discordância entre as duas partições. Ou seja, a relação é medida pela quantidade de pares de elementos atribuídos a um mesmo grupo (ou a grupos diferentes) nas duas partições e a quantidade de pares de elementos atribuídos de maneira diferente nas duas partições. Desse modo, o índice cR pode assumir valores entre -1 e 1, com 1 indicando uma concordância perfeita entre as partições e valores próximos a 0 ou negativos correspondendo a concordâncias encontradas ao acaso.

EmMilligan e Cooper(1988), muitos índices diferentes foram avaliados para medir a concordância entre duas partições no contexto da análise de agrupamentos. De acordo com os resultados, ocorrected Rand foi indicado como melhor índice para realizar essa tarefa.

3.5 Estimativa de Distribuição de Probabilidades

(43)

probabilidade que melhor modela os dados. Nesse contexto, é interessante observar que existem dois tipos de estimativas para distribuições de probabilidade: as paramétricas e as não-paramétricas.

O primeiro tipo citado é caracterizado por já se ter um conhecimento prévio sobre a forma da distribuição dos dados ou assumir algum modelo específico. Normalmente, esse conhecimento vem de análises científicas ou empíricas sobre os dados observados. Desse modo, resta apenas realizar a estimativa dos parâmetros associados àquela FDP. Entretanto, em muitas situações práticas, a simples estimativa paramétrica não consegue explicar todos os processos envolvidos com os dados analisados, ou ainda, o conheci-mento sobre os dados não é suficiente para conseguir chegar à forma da distribuição.

Nesses casos, faz-se necessário o uso da segunda categoria de estimativa de FDP, as não-paramétricas. Esse tipo de estimativa não faz qualquer suposição sobre os dados e pode representar qualquer tipo de densidade, desde que exista uma quantidade de dados suficiente. Esse tipo de situação é perfeitamente válida para o contexto de aprendizado não-supervisionado, cuja principal característica é a ausência de informações sobre os dados.

Um dos métodos mais comuns para realizar a estimativa não-paramétrica é conhecido como janelas de Parzen (PARZEN,1962), cujos detalhes são dados mais adiante.

3.5.1 Janelas de Parzen

O método Janelas de Parzen foi desenvolvido porParzen(1962) para estimar a função de densidade a partir dos próprios dados, fato que a caracteriza por ser uma técnica não-paramétrica.

Por princípio, a técnica faz basicamente uma interpolação de pontos, ou seja, dada uma instância de uma variável aleatória,X _∈Rd, o objetivo da técnica é estimar a função

densidade de probabilidade f(X)de onde essa variável foi retirada. A essência da técnica consiste em sobrepor funções centradas em cada uma das observações, de modo que cada observação,xicontribui na construção de f(X).

Um outro modo de visualizar o funcionamento da técnica consiste em pensar que é criada uma função janela em torno do ponto avaliado. A partir daí, cada observaçãoxi

(44)

para um conjunto comnobservações é a seguinte:

P(x) =1 n

n

∑

i=1

1 hd

n

K

x₋xi

hn

. (3.5)

em que,hn>0 é o parâmetro correspondente a “largura” da janela (kernel size) eK(x)é

a função janela utilizada obedecendo à restrição:

Z

Rd

K(x)dx=1.

Em geral, são escolhidas funções densidades de probabilidade para serem utilizadas como funções janelas, pois garantem que as densidades estimadas obedeçam às proprie-dades de uma FDP.

Por ser modelada utilizando funções que definem uma janela, a técnica ganhou tal nome. O tipo de função utilizada nos dá a contribuição que as observações vão trazer para a construção da FDP. Em seu trabalho original,Parzen(1962) definiu a janela como um hipercubo centrado em cada ponto e a contribuição é dada pelo número de pontos que se encontram dentro da janela. Apesar de funcionar, esse tipo de função impõe uma limitação na função a ser estimada. A função Gaussiana é o tipo mais popular utilizado no método de Parzen. Ela é diferenciável em todos os pontos e, por consequência, a densidade estimada possui também essa propriedade. Utilizando a função Gaussiana, a equação3.5se torna:

P(x) =1 n

n

∑

i=1

1 (σ√2π)de



−

1 2

x₋xi

σ !2



(3.6)

em que,σé o desvio padrão da função gaussiana. A Figura3.6ilustra como cada ponto

contribui na construção da distribuição de probabilidade.

É importante observar que o parâmetro h(valor σ, no caso da função Gaussiana) é fundamental para determinar a precisão da densidade estimada. Quando o valor escolhido é muito pequeno a densidade tende a ter muitos picos, enquanto que valores muito altos vão suavizar demais a superfície da FDP. Para um número finito de observações, o me-lhor é tentar encontrar um valor que reflita um compromisso entre essas duas situações. Essa situação pode ser vista na Figura3.7 3_{onde na parte superior o valor de} _h_{é muito}

(45)

Figura 3.6: Construção da FDP a partir de cada ponto do conjunto de dados.

pequeno tornando a estimativa muito pontual (linha azul); na parte inferior, a curva fica demasiadamente suave provocada pelo alto valor deh; o mais próximo do ideal é quando encontramos um valor intermediário, caso da segunda imagem da figura.

(46)

3.6 Teoria da Informação

Um problema comum em muitas áreas de conhecimento é encontrar a melhor maneira de extrair informações contidas nos dados. Na vida cotidiana de qualquer profissional, existe um bombardeio de uma grande quantidade de dados, principalmente, pelo uso dos computadores e daWeb, mas a maior parte dos dados não é de interesse primário.

Os dados escondem, em termos de estrutura temporal ou redundância espacial, pistas importantes para realizar o processamento de informação necessário para responder aos questionamentos levantados. A pressão para destilar informação a partir dos dados au-menta com o passar do tempo e métodos antigos para lidar com esse tipo de problema são forçados a evoluir e se adaptarem à nova realidade.

Não é difícil perceber que o conceito de informação é muito amplo para ser definido de uma única maneira. No entanto, uma área de conhecimento tem como principal ob-jetivo definir medidas que possam de alguma maneira quantificar informação. Tal área é denominada Teoria da Informação.

A teoria da Informação foi conceitualizada porShannon(1948), inicialmente, para li-dar com o problema de transmitir mensagens de forma ótima através de um canal ruidoso. Apesar de existir o fator físico envolvido nos sistemas de comunicação (antenas, trans-missores, receptores, etc), a essência da teoria da informação trata com a caracterização da estrutura das mensagens e o limite da transmissão livre de erros do conteúdo dessas mensagens (PRÍNCIPE,2010).

A Teoria da Informação teve um impacto importante no desenvolvimento de sistemas de comunicação e forneceu uma plataforma matemática para formular e quantificar inte-rações entre leis físicas, o que é muito importante para a sociedade e para o entendimento do comportamento de organismos biológicos (PRÍNCIPE,2010).

(47)

Para muitos autores, isso pode ser visto como uma mudança de paradigma, de uma ciência baseada em hipóteses para uma baseada em evidência. Essa mudança tende a afe-tar a maneira como são desenvolvidas estratégias em diferentes áreas, incluindo a teoria de aprendizado e sistemas adaptativos (PRÍNCIPE,2010).

Nas próximas seções será dado um breve histórico sobre a TI, bem como são aborda-dos alguns conceitos que servem de base para o entendimento dessa área e suas métricas utilizadas neste trabalho.

3.6.1 Origens

O trabalho de Wiener (1958) estabeleceu que a melhor maneira para quantificar a transmissão de sinais através de meios ruidosos envolve conceitos probabilísticos, tanto para os sinais quanto para o ruído. Um sinals(n)pode ser modelado como um processo aleatório, ou seja, como uma sequência de variáveis aleatórias si através do tempo com

uma dada lei de probabilidade considerada constante no tempo (processo aleatório esta-cionário).

Wiener foi o primeiro a sugerir a atribuição de probabilidades às mensagens. No en-tanto, como ele estava interessado em predição e controle, propôs filtrar de maneira ótima o ruído da sequência de símbolos recebidos, o que ficou conhecido depois como filtro de Wiener. Por outro lado, Shannon propôs um esquema onde o sinal transmitido deveria ser modificado (codificado) primeiro para garantir uma mínima degradação quando trans-mitida pelo canal e modificado (decodificado) depois no receptor final para recuperar a mensagem original.

A teoria da informação foi criada exatamente para ajudar a estudar as questões teóri-cas de como codificar otimamente mensagens de acordo com suas estruturas estatístiteóri-cas, selecionando taxas de transmissão de acordo com o nível de ruído no canal e avaliando o mínimo de distorção nas mensagens. Surpreendentemente, somente duas medidas esta-tísticas são necessárias para realizar essa tarefa: entropia e informação mútua.

(48)

ótima das mensagens, como estabelecido pela teoria da taxa de distorção, que diz que a compressão ótima é atingida minimizando a informação mútua entre a mensagem original e a sua versão comprimida.

Com o objetivo de resistir ao ruído no canal durante a transmissão, os dados fontes comprimidos são codificados para uma transmissão livre de erros. Para isso, deve-se maximizar a informação mútua entre a mensagem enviada e a mensagem recebida. Pode-se notar que existe uma dualidade nos problemas de compressão e transmissão de dados no sentido de que o primeiro minimiza a redundância para aumentar a eficiência e o último adiciona redundância para mitigar os efeitos do ruído na transmissão.

Nesse caso, o importante é especificar um compromisso para atingir uma comuni-cação livre de erros, ou seja, um limite mínimo para compressão dos dados (taxa de distorção) e um limite máximo para transmissão de dados (capacidade do canal).

3.6.2 Entropia

Em 1928,Hartley(1928) estabeleceu que a quantidade de informação presente em um conjunto de mensagens está relacionada com o número de símbolos que aquele conjunto possui. Desse modo, a quantidade de informação em um conjunto de N símbolos ficou definida como

H0=logSN =NlogS.

Diante dessa definição, (SHANNON,1948) notou que o conteúdo de informação de Hartley só é exato se não sabemos nada a respeito dos dados, ou seja, se assumirmos uma probabilidade igual para todos os eventos (pi=1/N). Shannon resolveu, então,

estabe-lecer que se deve ir além da cardinalidade do conjunto de mensagens para quantificar de forma precisa a quantidade de escolhas que está envolvida na seleção de eventos probabi-lísticos, uma vez que a probabilidade de selecionar cada mensagem é relevante e deve ser considerada na formulação.

Para entender a relação entre a quantidade de informação e as probabilidades de cada elemento de um conjunto, vamos supor a seguinte situação (HAYKIN, 2001). Se um eventoxiocorre com probabilidade p(xi) =1, consequentemente todos os outros eventos

p(xk) = 0 para todo i6= k. Nessa situação, não existe surpresa e, portanto, nenhuma

(49)

deve ser. Por outro lado, se tivermos eventos com probabilidades diferentes e, um evento específico p(xi)tem probabilidade baixa, então, há mais surpresa com o acontecimento

do evento e, portanto, mais informação. Desse modo, é possível perceber que os conceitos surpresa, informação e incerteza estão intimamente relacionadas.

Por exemplo, antes da ocorrência de um eventoxi, existe uma quantidade de incerteza.

Quando o evento ocorre, existe uma quantidade de surpresa relacionada ao evento. Após a ocorrência do evento, a quantidade de informação é aumentada. Assim, fica fácil perceber que o conceito de quantidade de informação está inversamente ligado à probabilidade de ocorrência de um evento.

Então, para inserir as probabilidades de cada evento no cálculo da quantidade de informação e, consequentemente, para caracterizar completamente um elemento de um conjunto de símbolosSX ocorrendo com diferentes probabilidades p(xi), definiu a

quan-tidade de informação da seguinte maneira:

I(xi) =log 1

p(xi) =−logp(xi). (3.7)

Shannon também definiu a incerteza do conjunto X =_{x1,x2, ...,xn} ∈Rd como a

soma das incertezas de todas as mensagens ponderadas pela probabilidade de cada uma:

H(X) =E[Ik] =

∑

p(xi)I(xi) =−

∑

p(xi)logp(xi). (3.8)

em que∑n_i₌₁p(xi) =1 ep(xi)≥0. Essa quantidade de incerteza foi chamada por Shannon

de entropia com a suposição que parap(xi) =0,p(xi)logp(xi) =0. Essa expressão possui

a mesma forma da entropia física, sendo que a entropia de informação é uma propriedade da função de probabilidade, enquanto que sua equivalente física é uma propriedade do estado do sistema físico.

A unidade de informação depende da base logarítmica usada. A proposta inicial de Shannon utiliza a base 2, indicando que as quantidades deveriam ser expressas em bits. No entanto, outros valores podem ser utilizados, dependendo do contexto.

(50)

possuem um grande volume de informação, são descontados pela sua rara ocorrência no cálculo do produto. Da mesma maneira, eventos que ocorrem com frequência possuem pouco conteúdo de informação e, no cálculo da entropia, eles também possuem um valor baixo. Dessa maneira, cria-se equilíbrio até então não quantificado no raciocínio proba-bilístico.

A figura3.8 mostra o volume de informação Ik e a entropia de ShannonH(X) para

uma distribuição de Bernoulli para diferentes valores de p.

Figura 3.8: Volume de informação e entropia para uma variável aleatória de Bernoulli com probabilidade₋pe 1₋p.