Comitê de agrupamentos hierárquicos que preserva a Ttransitividade

(1)

Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra

Departamento de Informática e Matemática Aplicada Bacharelado em Ciência da Computação

Comitê de agrupamentos hierárquicos que

preserva a T-transitividade.

Ronildo Pinheiro de Araujo Moura

Natal-RN Setembro 2018

(2)

(3)

Ronildo Pinheiro de Araujo Moura

Comitê de agrupamentos hierárquicos que preserva a

T-transitividade.

Tese de Doutorado apresentada ao

Pro-grama de Pós-graduação em Sistemas e Com-putação da UFRN (área de concentração: Te-oria da Computação) como parte dos requi-sitos para obtenção do título de Doutor em Ciências.

Orientador

Dr. Benjamín René Callejas Bedregal

Universidade Federal do Rio Grande do Norte – UFRN

Departamento de Informática e Matemática Aplicada – DIMAp

Natal-RN

Setembro 2018

(4)

(5)

Moura, Ronildo Pinheiro de Araujo.

Comitê de agrupamentos hierárquicos que preserva a T-transitividade / Ronildo Pinheiro de Araujo Moura. - 2019. 189f.: il.

Tese (Doutorado) - Universidade Federal do Rio Grande do Norte, Centro de Ciências Exatas da Terra, Programa de Pós-Graduação em Sistemas e Computação. Natal, 2019.

Orientador: Benjamín René Callejas Bedregal.

1. Computação - Tese. 2. Agrupamento de dados - Tese. 3. Dendrogramas - Tese. 4. Operadores de agregação - Tese. 5. T-transitividade - Tese. I. Bedregal, Benjamín René Callejas. II. Título.

RN/UF/CCET CDU 004

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

(6)

(7)

AGRADECIMENTOS

Primeiramente a Deus, por todas as bençãos realizadas na minha vida.

Embora a tese tenha apenas um autor por definição, inúmeras pessoas foram responsáveis por sua existência. Com isso, gostaria de agradecer ao Prof. Dr. Benjamin R. C. Bedregal, pois é a pessoa mais importante dessa jornada e com o seu suporte e incentivo constante me ajudou na realização esse sonho. Agradeço ainda pela amizade construída e por ter me acolhido com muita paciência e carinho. Ao Prof. Dr. Regivan N. Santiago pelo apoio, incentivo e por sua amizade. O meu muito obrigado aos membros da banca examinadora pelas contribuições e direcionamentos que vieram no intuito de enriquecer este trabalho.

Durante a pesquisa encontrei excelentes pessoas que se tornaram bons amigos e fizeram com que essa jornada se tornasse maravilhosa. O meu agradecimento especial à Liliane Silva. Obrigado aos amigos, colegas, professores e funcionários do Departamento de Informática e Matemática Aplicada (DIMAp) pelo agradável convívio e por proporcionar um ambiente adequado ao desenvolvimento da pesquisa.

À CAPES, pelo suporte financeiro na forma de bolsa de estudo.

Do lado pessoal, agradeço aos meus familiares, especialmente aos meus pais, Maria Vandete e Raimundo Pinheiro, por todo amor e educação. Infelizmente, meu pai não conseguiu chegar até fim dessa jornada. Aos meus irmãos, Ronaira e Ronielson que mesmo de longe sempre estiveram ao meu lado me apoiando e incentivando. Por último e não menos importante, obrigado a minha esposa, Deuziane, pela paciência, carinho e por me encorajar nesses anos de pesquisa.

(8)

(9)

Você só terá sucesso na vida quando perdoar os erros e as decepções do passado.

(10)

(11)

Comitê de agrupamentos hierárquicos que preserva a

T-transitividade.

Autor: Ronildo Pinheiro de Araujo Moura Orientador : Dr. Benjamín René Callejas Bedregal

RESUMO

A ideia principal do aprendizado por comitês é aprimorar os resultados de métodos de aprendizagem de máquina combinando múltiplos modelos. Inicialmente aplicada a problemas de aprendizagem supervisionada, esta abordagem permite produzir resultados com qualidade superior em relação a um único modelo. Da mesma forma, aprendizagem de comitê aplicados ao aprendizado não supervisionado, ou consenso de agrupamento, produz agrupamentos de alta qualidade. A maioria dos métodos de comitê para agrupamento de dados são destinados a algoritmos particionais, e apresentam resultados de qualidade superior aos agrupamentos simples. Deste modo, é razoável esperar que a combinação de agrupamentos hierárquicos possa levar a um agrupamento hierárquico de melhor qualidade. Os estudos recentes não consideram as particularidades inerentes aos diferentes métodos de agrupamento hierárquico durante o processo do consenso. Este trabalho investiga a consistência dos resultados do consenso considerando diferentes métodos de agrupamento hierárquico utilizados para gerar o comitê. Uma abordagem é proposta para preservar um tipo de transitividade presente nos dendrogramas. Neste algoritmo, os dendrogramas representando os resultados individuais dos agrupamentos bases são convertidos em matrizes ultramétricas. Então, após um processo de fuzzificação, alguns operadores de agregação com a capacidade de preservar uma t-transitividade geram uma matriz consenso. O agrupamento hierárquico final é obtido a partir da matriz consenso. A análise de resultados dos experimentos realizados em conjuntos de dados conhecidos e a visualização da operação do algoritmo em conjunto de dados visuais (duas dimensões) indica que esta abordagem consegue melhorar a acurácia enquanto é consistente com o método gerador.

Palavras-chave: Agrupamento de Dados, Agrupamento Hierárquico, Dendrogramas, Ope-radores de Agregação, T-transitividade.

(12)

(13)

Hierarchical Clustering Ensemble that retain the

T-transitivity

Author: Ronildo Pinheiro de Araujo Moura Advisor: Dr. Benjamín René Callejas Bedregal

ABSTRACT

The main idea of ensemble learning is improved machine learning results by combining several models. Initially applied to supervised learning, this approach usually produces better results in comparison with single methods. Similarly, unsupervised ensemble learning, or consensus clustering, create individual clustering that is more robust in comparison to unique methods. The most common methods are designed for flat clustering, and show superior in quality to clustering unique methods. Thus, it can be expected that consensus of hierarchical clustering could also lead to higher quality in creating hierarchical clustering. Recent studies not been taken to consider particularities inherent in the different methods of hierarchical grouping during the consensus process. This work investigates the impact of the ensemble consistency in the final consensual results. We propose a process that retains intermediate transitivity in dendrograms. In this algorithm, firstly, the dendrograms describing the base clustering are converted to an ultrametric matrix. Then, after one fuzzification process, the consensus functions based on aggregation operator with preserve transitivity property is applied to the matrices and form the final consensus matrix. The final clustering will be a dendrogram obtained from this aggregate matrix. Analyzing the results of the experiments performed on the known dataset and also visualizing algorithm’s process on the visual (two-dimensional) datasets shows this approach can significantly improve the accuracy performance while retaining the consistency property.

Keywords: Clustering, Hierarchical Clustering, Dendrogram, Aggregation Function, T-transitivity.

(14)

(15)

LISTA DE ILUSTRAÇÕES

Figura 1 – Na análise de agrupamento a tarefa é encontrar 𝑘 grupos numa nuvem

de pontos (a) e obter uma organização de grupos que seja razoável (b). 24

Figura 2 – A representação gráfica de um dendrograma sobre o conjunto 𝑋 =

{𝑥1, 𝑥2, 𝑥3, 𝑥4, 𝑥5} e as partições definidas por 𝐷𝑋.. . . 27

Figura 3 – Modelo geral para comitê de agrupamento. . . 30

Figura 4 – Modelo geral para comitê de agrupamento hierárquico. . . 33

Figura 5 – Conjunto de dados artificial de duas dimensões 3Gauss2d. . . 34

Figura 6 – Dendrograma do conjunto 3Gauss2d pelo algoritmo Single Linkageage. 36 Figura 7 – Medida de distância entre os dois grupos utilizando Single Linkage. . . 36

Figura 8 – Exemplo do chain effect num agrupamento do Single Linkage . . . 38

Figura 9 – Medida de distância entre os dois grupos utilizando Complete Linkage. 38 Figura 10 – Modelo geral da etapa consenso para comitê de agrupamento hierárquico. 41 Figura 11 – Dado 𝐷𝑋, Ψ(𝐷𝑋) = (𝑋, 𝑢𝑋), define uma ultramétrica 𝑢𝑋. . . 43

Figura 12 – Dado 𝑢𝑋, ϒ(𝑢𝑋) = 𝐷𝑋, define um dendrograma 𝐷𝑋. . . 44

Figura 13 – A representação da matriz consenso e os métodos de recuperação da transitividade presentes na literatura. . . 56

Figura 14 – Ilustração do método de obtenção do vetor de pesos a partir de um Orness desejado. a) Cálculo do vetor de pesos de tamanho 𝑚 = 3 dado um Orness. b) Comparação do Orness e Dispersão para um vetor de pesos com 𝑚 = 100. . . . 75

Figura 15 – Representação dos cinco conjuntos de dados sintéticos com 2 dimensões. 83 Figura 16 – Dispersão do CPCC para as abordagens marginalização HHCrT, impu-tação (HHCrT-Imp) e para o comitê homogêneo do Single Link . . . . 89

Figura 17 – Dispersão do CPCC para as abordagens marginalização HHCrT e imputação (HHCrT-Imp) e para o comitê homogêneo do Complete Link 90 Figura 18 – Dispersão do CPCC para as abordagens marginalização HHCrT e imputação (HHCrT-Imp) e para o comitê homogêneo do Average Linkage 90 Figura 19 – Dispersão do CPCC para as abordagens marginalização HHCrT e imputação (HHCrT-Imp) e para o comitê homogêneo do Median Linkage 91 Figura 20 – Dispersão do CPCC para as abordagens marginalização HHCrT e imputação (HHCrT-Imp) e para o comitê homogêneo doWard . . . 91

Figura 21 – Diagrama de Caixas das métricas CPCC (a) e FMEASURE (b) do consenso de comitês Single Linkage. Cada caixa condensa o valor dos índices obtidos por 15 valores diferentes do orness e 100 replicações do processo de consenso. . . 94

(16)

Figura 22 – Diagrama de Caixas das métricas CPCC (a) e FMEASURE (b) do consenso de comitês Complete Linkage. Cada caixa condensa o valor dos índices obtidos por 15 valores diferentes do orness e 100 replicações

do processo de consenso. . . 95

Figura 23 – Diagrama de Caixas das métricas CPCC (a) e FMEASURE (b) do consenso de comitês Average Linkage. Cada caixa condensa o valor dos índices obtidos por 15 valores diferentes do orness e 100 replicações

Figura 24 – Diagrama de Caixas das métricas CPCC (a) e FMEASURE (b) do consenso de comitês Median Linkage. Cada caixa condensa o valor dos índices obtidos por 15 valores diferentes do orness e 100 replicações

Figura 25 – Diagrama de Caixas das métricas CPCC (a) e FMEASURE (b) do consenso de comitês Ward. Cada caixa condensa o valor dos índices obtidos por 15 valores diferentes do orness e 100 replicações do processo

de consenso. . . 98

Figura 26 – Comparação entre o método HHCrT sobre HHCrT-Imp a partir de 39

versões diferentes dos métodos para o Comitê de Single Linkage . . 100

versões diferentes dos métodos para o Comitê de Complete Linkage101

versões diferentes dos métodos para o Comitê de Average Linkage 102

versões diferentes dos métodos para o Comitê de Median Linkage . 103

versões diferentes dos métodos para o Comitê de Ward . . . 104

Figura 31 – Avaliação do parâmetro orness para o Comitê Single Linkage . . . 113

Figura 32 – Avaliação do parâmetro orness para o Comitê Complete Linkage . 114

Figura 33 – Avaliação do parâmetro orness para o Comitê Average Linkage . . 115

Figura 34 – Avaliação do parâmetro orness para o Comitê Median Linkage . . 116

Figura 35 – Avaliação do parâmetro orness para o Comitê Ward . . . 117

Figura 36 – O diagrama de Diferença Crítica do qual apresenta a comparação de 6

métodos usando 13 conjunto de dados para comitê de Single Linkage. 118

Figura 37 – O diagrama de Diferença Crítica do nível crítico 0, 05, na qual apresenta a comparação de 6 métodos usando 13 conjunto de dados para comitês do tipo Complete Linkage. Os resultados originais desses métodos

(17)

Figura 38 – O diagrama de Diferença Crítica do nível crítico 0, 05, na qual apresenta a comparação de 6 métodos usando 13 conjunto de dados para comitês

do tipo Average Linkage. . . . 118

Figura 39 – O diagrama de Diferença Crítica com nível crítico 0, 05, na qual apre-senta a comparação de 6 métodos usando 13 conjunto de dados para o comitê de Median Linkage. Os resultados originais desses métodos

foram apresentados nas Tabelas 19 e 20. . . 119

Figura 40 – O diagrama de Diferença Crítica do nível crítico 0, 05, na qual apresenta a comparação de 6 métodos usando 13 conjunto de dados para comitês do tipo Ward. Os resultados originais desses métodos foram apresentados

nas Tabelas 25 e 26. . . 119

Figura 41 – O diagrama de Diferença Crítica, com nível crítico 0, 05, apresenta a comparação de 4 métodos usando 13 conjunto de dados para comi-tês do tipo Singe Linkage. Os resultados originais desses métodos foi

apresentado nas Tabelas 11. . . 119

Figura 42 – O diagrama de Diferença Crítica, com nível crítico 0, 05, apresenta a comparação de 4 métodos usando 13 conjunto de dados para comitês do tipo Complete Linkage. Os resultados originais desses métodos

foi apresentado nas Tabelas 12. . . 120

Figura 43 – O diagrama de Diferença Crítica, com nível crítico 0, 05, apresenta a comparação de 4 métodos usando 13 conjunto de dados para comitês do tipo Average Linkage. Os resultados originais desses métodos foi

Figura 44 – O diagrama de Diferença Crítica, com nível crítico 0, 05, apresenta a comparação de 4 métodos usando 13 conjunto de dados para comitês do tipo Median Linkage. Os resultados originais desses métodos foi

Figura 45 – O diagrama de Diferença Crítica, com nível crítico 0, 05, apresenta a comparação de 4 métodos usando 13 conjunto de dados para comitês do tipo Ward Linkage. Os resultados originais desses métodos foi

Figura 46 – Comparação das abordagens Imputação e Marginalização avaliando o desempenho do FMEASURE para cada tipo de comitê homogêneo

utilizando as configurações de comitê apresentadas na Tabela 16. . . . 121

Figura 47 – Comparação das três funções consenso pelo desempenho do FMEASURE

para o algoritmo HHCrT da abordagem Marginalização. . . 122

Figura 48 – O desempenho dos algoritmos da literatura HCC, MATCH e OAHCC com o método proposto HHCrT em relação à variação do tamanho do

(18)

(19)

LISTA DE TABELAS

Tabela 1 – Propriedades de relações fuzzy binárias. . . 16

Tabela 2 – Exemplo dos valores faltosos na combinação dos algoritmos hierárquicos

utilizando a técnica subsampling. . . . 54

Tabela 3 – Resumo dos experimentos realizados na tese.. . . 82

Tabela 4 – Descrição dos conjuntos de dados artificiais e reais. . . 84

Tabela 5 – Configuração dos métodos de comitê de agrupamentos hierárquicos da

literatura . . . 85

Tabela 6 – As cincos melhores configurações para o método de comitê homogêneo

do tipo Singe Linkage. . . 104

Tabela 7 – As cincos melhores configuração para o método de comitê homogêneo

do tipo Complete Linkage. . . . 105

do tipo Average Linkage. . . . 105

do tipo Median Linkage. . . . 106

do tipo Ward. . . . 106

Tabela 11 – A Média do FMEASURE do método HHCrTM em comparação com

outras abordagens da literatura considerando o Comitê Homogêneo do tipo Singe Linkage. O desempenho médio (Avg-FMEASURE) para os 13 conjuntos de dados para cada método de consenso também é

incluído. . . 108

Tabela 12 – A Média do FMEASURE do método HHCrTMem comparação com

outras abordagens da literatura considerando o Comitê Homogêneo do tipo Complete Linkage. O desempenho médio (Avg-FMEASURE) para os 13 conjuntos de dados para cada método de consenso também

é incluído. . . 109

Tabela 13 – A média do FMEASURE do método HHCrTPem comparação com

outras abordagens da literatura considerando o comitê homogêneo do tipo Average Linkage. O desempenho médio (Avg-FMEASURE) para os 13 conjuntos de dados para cada método de consenso também é

(20)

Tabela 14 – A média do FMEASURE do método HHCrTM em comparação com outras abordagens da literatura considerando o comitê homogêneo do tipo Median Linkage. O desempenho médio (Avg-FMEASURE) para os 13 conjuntos de dados para cada método de consenso também é

incluído. . . 111

Tabela 15 – A média do FMEASURE do método HHCrTLem comparação com

outras abordagens da literatura considerando o comitê homogêneo do tipo Ward. O desempenho médio (Avg-FMEASURE) para os 13

conjuntos de dados para cada método de consenso também é incluído. 112

Tabela 16 – Lista de comitês criados utilizando HAC, informando o subconjunto de

X e o tamanho do comitê para os conjunto de dados Wine e Jain . . . 112

Tabela 17 – Resultados Complementares do índice FMEASURE referente aos

gráfi-cos das Figuras 31a, 26 e 31 . . . 152

gráfi-cos das Figuras 31b, 26 e 31 . . . 153

gráfi-cos das Figuras 32b 27 e 32 . . . 155

gráfi-cos das Figuras 34a,29 e 34 . . . 158

gráfi-cos das Figuras 35a,30 e 35 . . . 160

(21)

LISTA DE ABREVIATURAS E SIGLAS

UFRN Universidade Federal do Rio Grande do Norte

DIMAp Departamento de Informática e Matemática Aplicada

MD Mineração de Dados

HAC Algoritmo de Agrupamento Hierárquico Aglomerativo

HAC∅ _{Algoritmo de Agrupamento Hierárquico Aglomerativo Adaptado para}

Distâncias Nulas

LCA Menor Ancestral Comum

SL Single Linkage CL Complete Linkage AL Average Linkage WL Weighted Linkage WD Ward ML Median Linkage FC Função consenso

HCC Hierarchical Clustering Combination

HHC Homogeneous Hierarchical Consensus

HHCrT Homogeneous Hierarchical Consensus with that Retain Transitivity

HHCrT-Imp Homogeneous Hierarchical Consensus that Retain Transitivity with Imputation

CCPC Cophenetic Correlation Coefficient

FMEASURE Measure F

UCI UC Irvine Machine Learning Repository

MATCH Min-Transitive Combination of Hierarchical Clusterings

HCC Hierarchical Clustering Combination

(22)

(23)

LISTA DE SÍMBOLOS

X Conjunto de dados

𝑥, 𝑦, 𝑧, 𝑎, 𝑏, 𝑐 Objetos

𝑥11, 𝑥21 . . . Objetos associado a um vetor de características (atributos)

𝐶𝑎𝑟𝑑(𝐴) Cardinalidade do do conjunto A

|𝐴| Tamanho do vetor A

R Conjunto dos números reais

P Partição

P Comitê de partições

P* Partição consenso final

𝒫(X) Conjunto de todas as partições do conjunto X

∼ Relação

𝑑(·, ·) Medida de distância

𝑠(·, ·) Medida de similaridade

𝑑𝐸(·, ·) Distância euclidiana 𝑑_∅ Dissimilaridade nula

𝐷𝑋 Dendrograma do conjunto de dados X D Comitê de dendrogramas

𝒟 Família de todos os dendrogramas possíveis 𝑉𝒯 Conjunto de vértices da árvore 𝒯

𝐸𝒯 Conjunto de arestas da árvore 𝒯

𝜃(·) Função que associa um vértice de um dendrograma a nível de decisão.

D* Dendrograma consenso final

(24)

𝑛 Número de objetos em 𝑋

𝒯 Árvore com raiz (dendrograma) 𝒜 Função de agregação

𝑇M T-norma do mínimo

𝑇P T-norma do produto

𝑇L T-norma de Łukasiewicz

𝑤 Vetor de pesos

𝜋[𝑘] Permutação sobre um vetor 𝑅(𝑥,𝑦)_𝜋

[𝑘] (𝑥, 𝑦) Permutação sobre a relação 𝑅 ordenadas em função de (𝑥, 𝑦) 𝑉 𝑀 Índice máximo válido

(25)

LISTA DE ALGORITMOS

1 Algoritmo de Agrupamento Hierárquico Aglomerativo . . . 35

2 _{Min-Transitive Combination of Hierarhical Clustering (match)} . . . 49

3 _{Hierarchical Clusering Combination (HCC)} . . . 51

4 _{Consenso Hierárquico Homogêneo (HHC)} . . . 58

5 Método Linear para Gerar um Vetor de Pesos (DUARTE; TÉLLEZ, 2018) 75

(26)

SUMÁRIO

1 Introdução . . . . 1 1.1 Motivação . . . 3 1.2 Objetivos . . . 5 1.3 Organização da Tese . . . 6 2 Preliminares . . . . 9

2.1 Espaço Métrico e Ultramétrico . . . 9

2.2 Relação e Pré-Ordens . . . 10

2.3 Relação de Equivalência e Partição . . . 11

2.4 Normas Triangulares . . . 13

2.5 Relações Fuzzy . . . 15

2.6 Agregação de Relações Fuzzy . . . 16

2.7 Considerações Finais . . . 21

3 Fundamentação Teóricas . . . . 23

3.1 Análise de Agrupamentos . . . 23

3.1.1 Métodos para Agrupamentos de Dados . . . 25

3.1.2 Avaliação de Agrupamentos . . . 27

3.1.3 Comitê de Agrupamento . . . 29

3.2 Análise de Agrupamentos em Comitês de Agrupamentos Hierárquicos . . . 32

3.2.1 Agrupamentos Hierárquicos Aglomerativos . . . 34

3.2.1.1 Funções Linkages . . . 36

3.2.2 Framework Geral para o Consenso Hierárquico . . . 40

3.2.2.1 Técnicas de Geração do Comitês Hierárquicos . . . 41

3.2.2.2 Representação dos Dendrogramas . . . 42

3.2.3 Métodos para o Consenso de Comitê Hierárquico . . . 48

3.2.3.1 Métodos com Preservação da Transitividade . . . 48

3.2.3.2 Métodos Com Recuperação da Transitividade . . . 49

4 Consenso de Agrupamentos Hierárquicos Preservando T-Transitividades 53

4.1 Análise Conceitual . . . 53

4.1.1 Abordagem de Marginalização . . . 54

4.1.2 Função Consenso e Operadores de Agregação . . . 55

(27)

4.3 Abordagem Proposta: HHCrT com preservação de T-Transitividades . . . 59

4.3.1 Consistência Local . . . 59

4.3.2 Representação por Similaridade Fuzzy . . . 63

4.3.3 Funções Consensos . . . 64

4.3.4 Algoritmos Hierárquicos com Marginalização . . . 76

4.3.5 Método para Preservação da T-transitividade com a Abordagem

Marginalização . . . 77

5 Apresentação e Análise dos Resultados . . . . 81

5.1 Estratégias para Avaliar a Efetividade do Modelo Proposto . . . 81

5.1.1 Conjuntos de Dados . . . 82

5.1.2 Técnica de Geração dos Comitês Utilizada . . . 83

5.1.3 Estrategias de Comparação . . . 84

5.1.4 Métricas de Avaliação . . . 85

5.1.5 Teste de Significância Estatística . . . 86

5.2 Experimentos e Resultados . . . 87

5.2.1 Análise dos Resultados para as Abordagens Imputação e

Marginali-zação . . . 89

5.2.2 Resultados dos Métodos HHCrT e HHCrT-Imp Considerando as

Funções Consensos . . . 93

5.2.3 Avaliação Empírica do Algoritmo HHCrT. . . 99

5.2.4 Comparando HHCrT com outras Funções Consenso para Comitê

Hierárquico . . . 106

5.2.4.1 Avaliação de Desempenho . . . 107

5.2.4.2 Influência dos Valores Faltosos . . . 108

5.3 Considerações Finais . . . 110 6 Conclusões . . . 125 6.1 Contribuições e Resultados . . . 125 6.2 Trabalhos Futuros . . . 128 Referências . . . . 131

Apêndices

145

(28)

(29)

1

1 INTRODUÇÃO

A Mineração de Dados (MD) é uma das mais importantes áreas de pesquisa das últimas décadas. É uma área interdisciplinar com interseções na inteligência computacional, aprendizado de máquina e estatística. Uma definição aceita para mineração de dados é a de processos implícitos de extração de informações, potencialmente úteis, e transparente ao usuário a partir de dados (FAYYAD,1996).

Na prática, uma tarefa de mineração de dados pode ser categorizada em tarefas preditivas e descritivas (NGAI, 2009). Modelos preditivos permitem prever o valor de uma amostra baseada em outras informações já conhecidas, por exemplo, um processo de detecção de fraudes tenta predizer se uma transação bancária é fraudulenta ou não. Por outro lado, os modelos descritivos buscam especificar padrões que descrevem dados e podem ser interpretados por humanos, por exemplo, distinguir os clientes de uma loja de departamento baseando-se apenas nas informações de similaridades e dissimilaridades dos clientes. O objetivo dos métodos preditivos e descritivos pode variar dependendo do especialista ou do uso. Dentre as várias tarefas de mineração de dados destacam-se as seguintes:

Classificação: É uma das mais conhecidas tarefas de mineração de dados, atribui-se a

cada item de um conjunto de dados uma categoria ou classe, através de rótulos. O objetivo do modelo de classificação é maximizar o número de amostras que são rotuladas corretamente.

Agrupamento de Dados: Esta tarefa permite abordar problemas com pouca ou

ne-nhuma ideia sobre a natureza dos resultados. Um agrupamento provê uma estrutura de dados mesmo que não haja conhecimento prévio da relação entre as variáveis de um problema. Tipicamente, a tarefa é particionar um conjunto de dados em grupos homogêneos (JAIN; DUBES, 1988a). Diferentemente da classificação de dados, aqui não há consulta aos modelos de referências do problema, e nem informação sobre o número correto de grupos. É bastante utilizada para reduzir o número de dimensões para focar apenas nos atributos mais úteis, ou para detectar tendências.

Regressão: É um dos métodos preditivos mais conhecidos. Ele pode ser definido como

um conjunto de técnicas de estimação com o objetivo de prever resultados valorados em espaços contínuos. Assim, um problema de regressão tenta mapear as variáveis de entrada para alguma função contínua (FRIEDMAN,2001).

(30)

2 Capítulo 1. Introdução

domínios, também, conhecido por aprendizagem não supervisionada. É possível encon-trar exemplos de aplicações de agrupamento de dados praticamente em qualquer área relacionada a análise de dados. No campo de pesquisa de buscadores (STEFANOWSKI;

WEISS, 2003; ZHAO,2017), o agrupamento de dados pode ser utilizado para criar um

conjunto mais relevante de resultados do buscador em comparação à pesquisa baseada apenas nos termos pesquisados. Em análise de redes sociais (MISHRA, 2007; DUBOIS,

2009), o agrupamento dos dados também é útil para identificar comunidades informais não necessariamente definidas explicitamente. Na segmentação de dados (CHUANG, 2006;

ZHENG,2015), técnicas de agrupamento são extensivamente utilizadas para particionar

pixels de uma imagem em subconjuntos representando objetos e padrões.

Métodos de agrupamentos podem ser classificados em cinco categorias: particionais, hierárquicos, baseados em densidade, baseados em grid, e baseados em modelos (HAN,

2012). Os métodos podem pertencer a mais de uma categoria. Porém, outras classificações são possíveis, por exemplo, categorizar entre crisp, fuzzy e possibilístico (JAIN; DUBES,

1988b). Agrupamentos hierárquicos são uma ferramenta poderosa para o problema de

agrupamento de dados, pois conseguem organizar os dados numa estrutura de níveis que oferece uma visão mais qualitativa do processo de agrupamento. Essa estrutura é comumente conhecida como dendrograma, uma árvore na qual cada nó representa um grupo e é formado pelo agrupamento dos nós filhos. Dessa forma, os grupos podem ser vistos como conjuntos ordenados de acordo com uma relação entre eles, geralmente essa relação é baseada em alguma medida de similaridade ou dissimilaridade.

Os dendrogramas gerados pelos métodos de agrupamento hierárquicos ajudam na identificação visual de subestruturas. Alguns conjuntos de dados possuem características que dificultam a representação de subestruturas por parâmetros globais. Por exemplo, num agrupamento particional que observa o parâmetro da densidade, a medida da densidade deveria ser dinâmico para cada grupo. Por outro lado, o agrupamento hierárquico é uma alternativa para visualizar essas estruturas, pois permite analisar os grupos a partir de vários pontos de vista. Desse modo, os métodos poderiam identificar subestruturas com características diferentes.

A combinação ou comitê de agrupamentos hierárquicos se justifica quando a informação da hierarquia estiver disponível. A aplicação de métodos de combinação de partições quando existe uma hierarquia, implica na escolha de um determinado nível da hierarquia antes do processo de consenso. Deste modo, as informações sobre os outros níveis, e suas subestruturas, são perdidas durante a fase de combinação. Por isso, é razoável realizar a combinação diretamente das hierarquias quando elas estiverem disponíveis. Esta tese está inserida neste contexto de comitê de agrupamentos hierárquicos.

(31)

1.1. Motivação 3

1.1 Motivação

Métodos de agrupamento hierárquico são muito populares em organizar de forma não supervisionada o conhecimento implícito de um conjunto de dados numa estrutura hierárquica. Nesses métodos, um dendrograma é construído para organizar os conjuntos e objetos numa árvore. A estrutura hierárquica permite, ao mesmo tempo, uma visão global e específica sobre a informação representada no dendrograma. Assim, os grupos mais próximos à raiz expressam uma visão mais geral, enquanto os subgrupos expressam uma visão particular sobre o fenômeno analisado (JAIN; DUBES, 1988a). Dessa forma, é possível explorar a informação na hierarquia em diversos níveis de abstração, bem como representar de forma fiel conjuntos de dados que são naturalmente hierárquicos e poder replicá-los. Assim, o agrupamento de dados hierárquico tornou-se um assunto importante na análise de agrupamento e tem sido utilizado em diversos domínios de aplicação, como no agrupamento de documentos textuais e na extração de taxonomias em diversos campos, e assim por diante (JAIN; DUBES, 1988b; GAN, 2007).

Os métodos de agrupamentos hierárquicos também são uma ótima escolha quando diferentes níveis são desejáveis ou quando o número de exatos grupos não é determinado. Se há a necessidade de adquirir um agrupamento hierárquico a partir de vários agrupamentos, é razoável que os algoritmos básicos sejam também hierárquicos. Diferentemente do resultado obtido pela técnica stacked clustering (KUNCHEVA,2006), onde uma hierarquia é obtida pela combinação de alguns agrupamentos, mas utilizando apenas uma partição. O ponto central é que neste método apenas um nível da hierarquia é utilizado, enquanto uma grande quantidade de boas informações em outros níveis da hierarquia não é utilizada, e poderiam ajudar a melhorar a solução do comitê de agrupamentos.

Na aprendizagem por comitê, um conjunto de modelos trabalham juntos para resolver um problema. Diferentemente dos métodos comuns de aprendizagem de máquina que tentam treinar hipóteses simples utilizando um conjunto de dados de treinamento, métodos de aprendizado de comitês tentam construir um conjunto de hipóteses e combiná-las. Algoritmos de comitês supervisionados são conhecidos como métodos capazes de criar modelos com maior qualidade ao combinar modelos com menor qualidade (KUNCHEVA,

2014).

Há três razões para que a composição de múltiplos classificadores alcance um resultado melhor que um único classificador (KUNCHEVA, 2014; DIETTERICH, 2000). A primeira razão, está no fato da capacidade comitê considerar a média das predições do conjunto de classificadores reduzindo o risco de uma solução em razão da outra. A segunda razão está relacionada com o fato que os classificadores buscam a melhor hipótese para representar um problema, através de várias buscas locais. Assim, a combinação dessas hipóteses, é a combinação de múltiplas buscas locais e, por isso, devem produzir uma melhor aproximação da hipótese real do problema. A terceira razão está relacionada à

(32)

representação. Em vários algoritmos de aprendizado de máquina não é possível repre-sentar uma hipótese adequada, entretanto uma hipótese mais próxima pode obtida pela combinação de hipóteses mais simples (DIETTERICH, 2000). Diante dessas razões, os métodos atuais de classificação, ao invés de procurar pelo melhor conjunto de atributos ou melhor classificador, eles buscam em adquirir classificações e então procurar pela melhor combinação dessas classificações.

A maioria dos métodos de comitê de agrupamentos foram introduzidas no contexto de agrupamento particional, e agrupamentos hierárquicos foram considerados apenas recentemente (MIRZAEI, 2008). Estes métodos de consenso de agrupamento hierárquicos não utilizam diretamente o dendrograma no processo de consenso. Mirzael et al.(2008) e Zheng et al. (2010) apresentaram métodos para o consenso hierárquico dos dendrogramas por descritores. No primeiro trabalho a função consenso é baseada na soma dos descritores e considera a matriz consenso no espaço de atributos para reconstruir o dendrograma. No segundo trabalho, não havia a necessidade de reconstruir o dendrograma final a partir da matriz consenso, já que a combinação foi feita baseada no fechamento transitivo. Ainda nesse contexto, Mirzael e Rahmati 2010 propuseram um método baseado na representação dos dendrogramas por relações fuzzy e aplicaram o consenso baseado também na composição max-min das relações fuzzy. Mais recentemente, Rashedi, Mirzaei e Rahmati (2016) investigaram o uso de funções consenso baseadas em operadores de agregação, em particular t-nomas e t-conormas.

Embora estes recentes trabalhos da literatura de consenso de agrupamentos hierárquicos, ainda existem desafios de pesquisa em aberto que limitam o desempenho desses métodos. Por exemplo, um dos resultados mais impactantes é a ineficácia do consenso em preservar a transitividade inerente do dendrograma, isso foi verificado pela obtenção da pior performance pela função que preservava a min-transitividade (RASHEDI, 2016). Por outro lado, não foi investigado a qualidade do comitê considerando a preservação de outras T-transitividades. Além disso, a análise experimental realizada em todos os trabalhos, já mencionados, envolve apenas o comitê de agrupamento hierárquico do tipo Single Linkage.

Um dos problemas relacionados ao consenso de comitê de agrupamentos hierárqui-cos está relacionado ao fato de que a geração do comitê pode trazer relações com valores faltosos e, desse modo, a quantidade desbalanceada de elementos válidos, bem como a possibilidade de não existir informação sobre um dado par de objetos, levam os métodos de comitê de agrupamentos hierárquicos a utilizar uma técnica de imputar valor 0 ou 1 para marginalizar essas relações e essas relações faltantes não atrapalharem no processo de consenso. Essa característica, só faz sentido quando consideramos apenas comitê do tipo Single Linkage, pois como é um método guloso, no qual a função de linkage é baseada no mínimo, então é possível predizer um valor, tipicamente o valor mais alto possível, para que uma dada relação seja marginalizada, tanto para o consenso como para a etapa de

(33)

1.2. Objetivos 5 reconstrução do dendrograma final. No entanto, essa abordagem não deve funcionar da mesma maneira com outros tipos de comitê. Como mencionado no parágrafo anterior, é importante realizar uma análise experimental com comitês de outros tipos.

Nos métodos de comitê de agrupamento particional, a informação consenso é a classe de um objeto obtida justamente pela combinação das classes geradas por cada agrupamento. Por outro lado, nos métodos de comitês de agrupamentos hierárquicos representados por descritores, a informação consenso dada para um par de objetos, é um valor que faz referência à relação do primeiro grupo formado que contém esse par de objetos na hierarquia. Em geral, essa informação está relacionada ao valor da métrica quando os grupos foram formados. Dessa forma, a combinação de dendrogramas não é apenas a combinação de valores discretos, mas de valores relacionados por uma estrutura de métrica. Há uma forte relação entre métrica e T-transitividade (PRADERA; TRILLAS,

2002; BAETS; MEYER,2005; HE, 2017), reforçando a ideia de investigar a preservação

da TM-transitividade, que é a transitividade natural de um dendrograma, bem como as

demais T-transitividades no processo de consenso de agrupamentos hierárquicos.

A partir das razões mencionadas, o principal objetivo deste trabalho é contribuir com a literatura de comitê de agrupamento hierárquico através da extensão dos métodos existentes, desenvolver um estudo e novos métodos de comitês de agrupamentos hierárquicos que preservem a T-transitividade para alguma t-norma, o impacto disso em outros tipos de comitê de agrupamento hierárquico e quais as consequências da técnica de imputação ao considerar comitês diferentes do Single Linkage. Baseada nesse objetivo algumas perguntas guiam o desenvolvimento desse trabalho.

1. Quais características essências para a definição de funções de consenso são adequadas para o problema de comitê de agrupamentos hierárquicos?

2. É possível combinar os membros do comitê preservando algum tipo de transitividade intermediária? Há alguma relação entre uma matriz consenso T-transitiva e o tipo de comitê homogêneo que leve a um melhor desempenho?

3. Como desenvolver um algoritmo de comitê de agrupamento hierárquico que não necessite de uma etapa de atribuição dos valores faltosos decorrentes da geração do comitê pela técnica de subsampling? Quais as vantagens e desvantagens entre empregar uma técnica de imputação ou marginalização?

1.2 Objetivos

Motivados pelas lacunas na área de comitê de agrupamento hierárquico discutidas na Seção 1.1 e pela necessidade de desenvolver métodos úteis, o principal propósito deste trabalho de doutorado é apresentar a fusão de comitês homogêneos do tipo agrupamento

(34)

hierárquico com a preservação de algum tipo de transitividade. Para tal, são apresentadas novas abordagens para incluir o estudo de outros tipos de comitê, contribuindo com os questionamentos descritos anteriormente.

Os objetivos específicos são:

∙ O desenvolvimento de um método de comitê de agrupamentos hierárquicos baseados na representação por relações fuzzy e operadores de agregação. Embora alguns estudos inicias já tenham sido realizados por Mirzael e Rahmati (2010) e Rashedi (2016), ainda há diversos aspectos desse paradigma a serem discutidos. Por exemplo,

é possível determinar um conjunto de propriedades que essas funções de agregação devem satisfazer quando os dendrogramas são representados por relações fuzzy.

∙ Avaliar o impacto de funções consenso que preservam tipos de T-transitividades, e como a relação entre uma T-transitividade e o conceito de métrica pode ajudar na escolha dos operadores.

∙ Investigar a relação entre uma T-transitividade e um tipo de comitê homogêneo. A falta de análise experimental considerando os outros algoritmos de agrupamento hierárquico torna necessário rever todos os processos de um comitê de agrupamentos hierárquicos.

1.3 Organização da Tese

Além desse capítulo, o restante desse trabalho está organizado da seguinte maneira:

Capitulo 2 - Preliminares. Neste capítulo são apresentados alguns conceitos

matemáti-cos fundamentais, como a noção de relação, relação de equivalência, partição, relações fuzzy e espaço métrico. Essa revisão se faz necessária para uma melhor compreensão do trabalho apresentado nesta tese de doutorado.

Capítulo 3 - Fundamentos Teóricos. Neste capítulo são apresentados os conceitos de

análise de agrupamentos. Em termos gerais tópicos que são utilizados em toda a tese, tal como agrupamento de dados, validação de agrupamentos, comitê de agrupamento. Em particular, é realizada uma síntese dos problemas dos comitês de agrupamentos hierárquicos, incluindo todas suas características, os métodos básicos desse tipo de comitê, a técnica de geração, a representação do dendrograma, e os trabalhos recentes sobre comitê de agrupamento hierárquico.

Capítulo 4 - Consenso de Agrupamentos Hierárquicos Preservando T-Transitividades.

(35)

1.3. Organização da Tese 7 agrupamento, HHCrT e HHCrT-Imp, bem como as funções consenso com capacidade de preservar T-transitividade.

Capítulo 5 - Apresentação dos Resultados. Neste capítulo são apresentadas e

avali-adas as abordagens propostas. Apresentando, as estratégias para comparação das abordagens bem como os resultados alcançados.

Capítulo 6 - Conclusões. As conclusões da tese são apresentadas, bem como os futuros

(36)

(37)

9

2 PRELIMINARES

Neste capítulo apresentam-se alguns conceitos básicos que são recorrentes durante a leitura deste texto, com foco nos conceitos matemáticos. Na seção 2.2 apresenta-se o conceito de relação e pré-ordens. Na Seção 2.3 apresenta-se o conceito de relação de equivalência e partição. Na Seção 2.4 apresenta-se as normas triangulares e suas características. Na Seção 2.5 apresentam-se a definição e as propriedade de relações fuzzy. Na Seção 2.6 apresenta-se a ideia de operadores de agregação para o consenso de relações fuzzy, bem como os requisitos para a preservação de algumas propriedades importantes. Por fim, A Seção 2.7 resume os conceitos matemáticos apresentados em todo o capítulo.

2.1 Espaço Métrico e Ultramétrico

O dendrograma é a representação mais utilizada para expressar o resultado de um agrupamento hierárquico. Ele está estreitamente relacionado ao conceito de métrica e ultramétrica.

Definição 2.1 ((Ultra)Métrica e Espaço (Ultra)Métrico): Considere um conjunto não vazio

𝑀 , onde os elementos de 𝑀 são chamados de pontos e um mapeamento 𝑑 : 𝑀 × 𝑀 → R. (a) Métrica - 𝑑 é chamada de métrica em 𝑀 se satisfizer:

(M1) (não negativa) 𝑑(𝑥, 𝑦) ≥ 0, para todo (𝑥, 𝑦) ∈ 𝑀 × 𝑀

(M2) (identidade dos indiscerníveis) 𝑑(𝑥, 𝑦) = 0, se e somente se, 𝑥 = 𝑦, para todo (𝑥, 𝑦) ∈ 𝑀 × 𝑀 ;

(M3) (simetria) 𝑑(𝑥, 𝑦) = 𝑑(𝑦, 𝑥), para todo (𝑥, 𝑦) ∈ 𝑀 × 𝑀 ;

(M4) (desigualdade triangular) 𝑑(𝑥, 𝑦) ≤ 𝑑(𝑥, 𝑧) + 𝑑(𝑧, 𝑦), para todo (𝑥, 𝑦, 𝑧) ∈ 𝑀 × 𝑀 × 𝑀 .

(b) Espaço Métrico - se 𝑑 é uma métrica então (𝑀, 𝑑) é chamado de espaço métrico e 𝑑(𝑥, 𝑦) é a distância entre os pontos 𝑥, 𝑦 ∈ 𝑀 .

(c) Ultramétrica - 𝑑 é uma ultramétrica se esta for não negativa (M1), reflexiva(M2), simétrica (M3)e satisfaz a desigualdade triangular forte,

(U4) (desigualdade triangular forte) 𝑑(𝑥, 𝑧) ≤ max{𝑑(𝑥, 𝑦), 𝑑(𝑦, 𝑧)}, para todo (𝑥, 𝑦, 𝑧) ∈ 𝑀 × 𝑀 × 𝑀 .

(d) Espaço Ultramétrico - se 𝑑 é uma ultramétrica então (𝑀, 𝑑) é um espaço ultra-métrico, denominado por 𝒰 , se satisfizer (M1)-(M3)e (U4).

(38)

10 Capítulo 2. Preliminares

A desigualdade triangular intuitivamente diz que para passar de 𝑥 para 𝑦, não há qualquer benefício se formos forçados a viajar por um certo terceiro ponto 𝑧. Este axioma é o que garante que qualquer distância(métrica) descreva o menor caminho entre dois pontos no espaço é euclidiano.

Exemplo 2.1

No conjunto do R𝑛_{, onde 𝑥 = (𝑥}

1, . . . , 𝑥𝑛) e 𝑦 = (𝑦1, . . . , 𝑦𝑛), as seguintes funções são métricas.

Distância da soma : 𝑑𝑆(𝑥, 𝑦) =

𝑛 ∑︁

𝑖=1

|𝑥𝑖− 𝑦𝑖|;

Distância do máximo : 𝑑𝑀(𝑥, 𝑦) = max

1≤𝑖≤𝑛|𝑥𝑖− 𝑦𝑖|;

Exemplo 2.2

Alguns exemplos de espaços ultramétricos são:

Métrica trivial : Seja o conjunto 𝑋, e 𝑥, 𝑦 ∈ 𝑋. 𝑑(𝑥, 𝑦) = 0 se 𝑥 = 𝑦 e 𝑑(𝑥, 𝑦) = 1

se 𝑥 ̸= 𝑦.

Métrica 𝑝-adic : Seja 𝑝 um número primo. Seja 𝑥, 𝑦 ∈ Z, então 𝑑(𝑥, 𝑦) = 0 se 𝑥 = 𝑦

e 𝑑(𝑥, 𝑦) = 𝑝−𝑟 se 𝑥 ̸= 𝑦, onde 𝑟 é o maior inteiro não negativo tal que 𝑝𝑟 _divide 𝑥 − 𝑦.

Se uma métrica satisfaz a desigualdade triangular forte (ou desigualdade ultra-métrica) isso implica que também satisfaz a desigualdade triangular. É fácil notar que 𝑑(𝑥, 𝑦) ≤ max(𝑑(𝑥, 𝑧), 𝑑(𝑧, 𝑦)) ≤ 𝑑(𝑥, 𝑧) + 𝑑(𝑧, 𝑦), para qualquer 𝑥, 𝑦, 𝑧 ∈ 𝑀 . Portanto, toda ultramétrica é uma métrica, mas o reverso não se verifica. De fato, o Exemplo2.1

apresenta métricas que não são ultramétricas.

2.2 Relação e Pré-Ordens

Definição 2.2 (Relação Binária): Uma relação binária sobre um conjunto não vazio 𝐴 é um

subconjunto do produto cartesiano entre os conjuntos, denotado por 𝑅 ⊆ 𝐴 × 𝐴. Diz-se que 𝑎 e 𝑏 estão em relação, e escreve-se 𝑎𝑅𝑏 ou 𝑅(𝑎, 𝑏), toda vez que (𝑎, 𝑏) ∈ 𝑅. As relações binárias podem ser:

(39)

2.3. Relação de Equivalência e Partição 11 (ii) simétricas: Se 𝑎𝑅𝑏 então 𝑏𝑅𝑎, para todo 𝑎, 𝑏 ∈ 𝐴;

(iii) transitivas: Se 𝑎𝑅𝑏 e 𝑏𝑅𝑐 então 𝑎𝑅𝑐, para todo 𝑎, 𝑏, 𝑐 ∈ 𝐴;

(iv) antisimétricas: Se 𝑎𝑅𝑏 e 𝑏𝑅𝑎 então 𝑎 = 𝑏, para todo 𝑎, 𝑏 ∈ 𝐴.

(v) total: Se 𝑎𝑅𝑏 ou 𝑏𝑅𝑎, para todo 𝑎, 𝑏 ∈ 𝐴.

Definição 2.3 (Ordem e Pré-ordem): Seja 𝐴 um conjunto não vazio. Uma pré-ordem ≤

sobre 𝐴 é uma relação binária em 𝐴 que é reflexiva e transitiva. O par ⟨𝐴, ≤⟩ é chamado de conjunto pré-ordenado. Uma ordem parcial em 𝐴 é uma pré-ordem em 𝐴 a qual é anti-simétrica.

Uma pré-ordem 𝐴 é chamada de cadeia se for total, ou seja se para quaisquer 𝑎, 𝑏 ∈ 𝐴 têm-se 𝑎 ≤ 𝑏 ou 𝑏 ≤ 𝑎. Em outras palavras, a propriedade totalidade garante que todos os elementos do conjunto 𝐴 são comparáveis.

Exemplo 2.3

No conjunto dos números reais, a relação definida por 𝑎 ≻ 𝑏 ⇐⇒ |𝑎| ≤ |𝑏| é uma pré-ordem total em R. Note que esta relação não é anti-simétrica. Assim, por exemplo, para 𝑎 = −3 e 𝑏 = 3 vale | 𝑎 |≤| 𝑏 | 𝑒 | 𝑏 |≤| 𝑎 | mas 𝑎 ̸= 𝑏.

Exemplo 2.4

No conjunto R𝑛_{, onde 𝑎 = (𝑎}

1, . . . , 𝑎𝑛) e 𝑏 = (𝑏1, . . . , 𝑏𝑛) e considerando ≤ como a ordem usual na reta, a relação definida por 𝑎 ≻ 𝑏 ⇐⇒ 𝑎𝑖 ≤ 𝑏𝑖 para todo 𝑖 = {1, . . . , 𝑛} é uma ordem parcial sobre R𝑛_{. Note que a relação não é total. Assim, por exemplo, no} conjunto R2 _{os vetores (1, 2) e (2, 1) não são comparáveis.}

2.3 Relação de Equivalência e Partição

Os conceitos de relação de equivalência e partição estão fortemente relacionados. Toda relação de equivalência gera uma partição sobre o conjunto 𝐴. Do mesmo modo, toda partição de 𝐴 gera uma relação de equivalência sobre 𝐴. A seguir, são definidos ambos os conceitos.

Definição 2.4 (Relação de Equivalência): Uma relação binária 𝑅 ⊆ 𝐴 × 𝐴 que é reflexiva,

simétrica e transitiva é chamada de relação de equivalência em 𝐴.

A classe de equivalência de 𝑎 ∈ 𝐴 sobre 𝑅, escreve-se [𝑎], é definida pelo conjunto dos elementos de 𝐴 que se relacionam com 𝑎, por 𝑅, ou seja, [𝑎] = {𝑏 ∈ 𝐴|𝑎𝑅𝑏}.

(40)

O conjunto quociente, escreve-se 𝐴 ∖ 𝑅, é a coleção de todas as classes de equivalência de 𝐴, ou seja, 𝐴 ∖ 𝑅 = {[𝑎]|𝑎 ∈ 𝐴}.

Definição 2.5 (Partição): Se os objetos do conjunto de dados finito e não vazio 𝐴 são

subdivididos em grupos (clusters) C1, . . . , C𝑘, então o conjunto P = {C1, . . . , C𝑘} é uma partição de 𝐴 se os grupos são disjuntos e dividem todo 𝐴, isto é, se satisfaz:

(i) C𝑖 ̸= ∅, para todo 𝑖 ∈ {1, . . . , 𝑘};

(ii) C𝑖∩ C𝑗 = ∅, para todo 𝑖, 𝑗 ∈ {1, . . . , 𝑘} e 𝑖 ̸= 𝑗;

(iii) 𝑘 ⋃︁

𝑖=1

C𝑖 = 𝐴.

Dada uma relação de equivalência, o conjunto quociente 𝐴 ∖ 𝑅 forma uma partição de 𝐴. Uma partição do conjunto 𝐴 é um conjunto P de blocos, que são subconjuntos de 𝐴 sem intersecção e onde a união de todos os subconjuntos é igual a 𝐴.

Note que os conceitos apresentados são relacionados à teoria de conjuntos, mas nesta tese optou-se por uma nomenclatura mais próxima da análise de agrupamentos.

Seja 𝒫(𝐴) o conjunto de todas as partições possíveis de 𝐴. Uma certa partição

P𝑖 ∈ 𝒫(𝐴) é composta por blocos P𝑖 = {B1, . . . , Bm}. Dada duas partições P1, P2 ∈ 𝒫(𝐴),

diz-se que P1 é mais fina que P2, ou que a partição P1 é um refinamento de P2 se para

cada bloco B𝑖 ∈ P1 existe um bloco Bj ∈ P2 tal que Bi ⊂ Bj.

Uma partição definida por uma relação de equivalência é similar ao conceito de partição rígida da literatura análise de agrupamentos, enquanto o conceito de refinamento de partições está relacionado ao conceito de partições aninhadas ou hierarquia de partições.

Definição 2.6 (Partição Aninhadas): Uma partição P𝑖 está aninhada com P𝑗 (P𝑖 refina

P𝑗) se cada grupo de P𝑖 é um subconjunto de um grupo de P𝑗.

Por exemplo, seja o conjunto 𝐴 = {𝑎, 𝑏, 𝑐, 𝑑, 𝑒, 𝑓 } suponha que P𝑖 = {{𝑎}, {𝑐, 𝑑, 𝑒}, {𝑏, 𝑓 }} e P𝑗 = {{𝑎, 𝑐, 𝑑, 𝑒}, {𝑏, 𝑓 }}. Então a partição P𝑖 é aninhada a P𝑗, mas o contrário não ocorre, pois o grupo {𝑎, 𝑐, 𝑑, 𝑒} ∈ P𝑗 não é subconjunto de nenhum grupo de P𝑖.

Obviamente existem partições P𝑖 e P𝑗 tais que nem P𝑖 está aninhada a P𝑗 e nem vice-versa.

(41)

2.4. Normas Triangulares 13

2.4 Normas Triangulares

Normas triangulares foram propostas por Menger (1942) como operadores de fusão para funções que necessitavam de generalizações de métricas em espaços métricos probabilísticos. Os axiomas das normas triangulares requisitam a associatividade e o elemento neutro (SCHWEIZER; SKLAR, 1960). A associatividade permite estender operadores binários para operadores 𝑛-dimensionais.

Antes de apresentar com detalhes as normas triangulares, é necessário definir, pelo menos a teoria de conjuntos fuzzy. Conjuntos fuzzy são uma generalização da noção de teoria de conjuntos de Cantor. Na teoria de conjuntos, um conjunto é uma coleção de objetos, e os objetos de um dado universo pertencem ou não pertencem ao conjunto, portanto apresenta uma visão sem ambiguidades em relação à pertinência dos objetos. Por outro lado, na teoria de conjuntos fuzzy os objetos possuem um grau de pertinência ao conjunto, tipicamente um valor entre 0 e 1. Dessa forma, os conjuntos fuzzy são mais graduais e menos rigorosos em relação aos conjuntos de Cantor.

Definição 2.7 (Conjunto Fuzzy (ZADEH, 1978)): Dado um conjunto clássico universo 𝑈 ,

um conjunto fuzzy sobre 𝑈 é uma função 𝜇𝐴 : 𝑈 → [0, 1], denominada de função de pertinência de 𝐴.

As normas triangulares são comumente utilizadas como operadores de interseção em conjuntos fuzzy. Desse modo, a interseção de dois conjuntos fuzzy via uma t-norma retorna outro conjunto fuzzy.

Desta forma, uma definição clássica para normas triangulares é apresentada a seguir.

Definição 2.8 (Norma Triangular): Uma norma triangular (t-norma) é um operador binário

𝑇 : [0, 1]2 _{→ [0, 1] que satisfaz}

1. Comutatividade: 𝑇 (𝑥, 𝑦) = 𝑇 (𝑦, 𝑥);

2. Associatividade: 𝑇 (𝑥, 𝑇 (𝑦, 𝑧)) = 𝑇 (𝑇 (𝑥, 𝑦), 𝑧);

3. Monotonicidade: Se 𝑥 ≤ 𝑧 e 𝑦 ≤ 𝑤 então 𝑇 (𝑥, 𝑦) ≤ 𝑇 (𝑧, 𝑤);

4. Elemento Neutro: 𝑇 (𝑥, 1) = 𝑥.

O axioma do elemento neutro também é conhecido como condição de fronteira, e este axioma é o que torna a interseção fuzzy compatível com a interseção clássica

(42)

A seguir é apresentado um conjunto de t-normas, muito presente na literatura

(KLEMENT, 2000;CALVO,2002; ALSINA,2006).

Exemplo 2.5

As seguintes funções são t-normas em [0, 1]

∙ Minimo 𝑇M(𝑎, 𝑏) = min(𝑎, 𝑏), ∙ Produto 𝑇P(𝑎, 𝑏) = 𝑎𝑏, ∙ Lukasiewicz 𝑇L(𝑎, 𝑏) = max(0, 𝑎 + 𝑏 − 1),

∙ Fraca (Drastic Product)

𝑇D(𝑎, 𝑏) = ⎧ ⎨ ⎩ min(𝑎, 𝑏) se max(𝑎, 𝑏) = 1, 0 caso contrário. ∙ Einstein Product 𝑇E(𝑎, 𝑏) = 𝑎𝑏 2 − (𝑎 + 𝑏 − 𝑎𝑏) ∙ Hamacher 𝑇H(𝑎, 𝑏) = 𝑎𝑏 𝑎 + 𝑏 − 𝑎𝑏

É possível estabelecer uma ordem entre as t-normas. Sejam 𝑇 e 𝑇′ duas t-normas quaisquer então

𝑇 ≤ 𝑇′ se para todo 𝑎, 𝑏 ∈ [0, 1], 𝑇 (𝑎, 𝑏) ≤ 𝑇′(𝑎, 𝑏).

Dessa forma, denota-se que 𝑇 é mais fraca que 𝑇′, ou de forma similar, que 𝑇′ é mais forte que 𝑇 . A 𝑇D é a t-norma mais fraca e 𝑇M é a t-norma mais forte. Portanto, para qualquer

t-norma 𝑇 a desigualdade 𝑇D ≤ 𝑇 ≤ 𝑇M vale. Além disso,

𝑇D ≤ 𝑇L ≤ 𝑇E≤ 𝑇P≤ 𝑇H ≤ 𝑇M.

A definição de união fuzzy, ou seja, uma função que calcula a união de conjuntos fuzzy e modela uma disjunção segue um padrão similar que uma interseção fuzzy. Essas funções são conhecidas como t-conormas, e são operações duais às t-normas. As mesmas propriedades consideradas para t-normas também valem, com a exceção para o elemento neutro. No caso da união, o elemento neutro é 0.

(43)

2.5. Relações Fuzzy 15

Definição 2.9: Uma conorma triangular (t-conorma) é um operador binário 𝑆 : [0, 1]2 _→

[0, 1] que satisfaz a monotonicidade, comutatividade, associatividade, e tem 0 como elemento neutro.

t-conormas são obtidas pela dualidade com respeito à negação fuzzy, ¬𝑎 = 1 − 𝑎. Dada uma t-norma T, 𝑆(𝑎, 𝑏) = ¬𝑇 (¬𝑎, ¬𝑏) é a t-conorma dual de 𝑇 .

2.5 Relações Fuzzy

A noção de relação possui um papel relevante em vários campos da matemática e, é importante para análise, compreensão e modelagem de muitos fenômenos do mundo real (BARROS; BASSANEZI,2010). Relações clássicas não conseguem expressar níveis intermediários de relacionamento entre dois objetos. Desse modo, a teoria fuzzy (ZADEH,

1978) é uma alternativa, pois permite estabelecer uma relação entre objetos com diferentes graus de pertinência.

Relembramos que uma relação é um conjunto formado pelo produto cartesiano de dois conjuntos. Uma relação fuzzy entre os conjuntos clássicos 𝐴 e 𝐵 é qualquer conjunto fuzzy sobre o universo 𝐴 × 𝐵. Dito isso, para qualquer 𝑎 ∈ 𝐴 e 𝑏 ∈ 𝐵, o valor 𝑅(𝑎, 𝑏) é a força da conexão entre 𝑎 e 𝑏 por 𝑅.

Definição 2.10 (Relação (binária) Fuzzy (ZADEH, 1971)): Sejam A e B conjuntos fuzzy

sobre o universo 𝑈 e 𝑉 . Uma relação fuzzy entre 𝐴 e 𝐵 é qualquer subconjunto fuzzy de

𝐴×𝐵 = {((𝑥, 𝑦) max{𝜇𝐴(𝑥), 𝜇𝐵(𝑦)}) : 𝑥 ∈ 𝑈 e 𝑦 ∈ 𝑉 }

A operação do máximo na definição de relações fuzzy faz o papel da operação união entre conjuntos clássicos. Uma relação fuzzy entre conjuntos clássicos não vazios 𝐴 e 𝐵 é chamada de binária quando é realizada sobre o mesmo conjunto, 𝐴 = 𝐵. Elas possuem propriedades específicas e interessantes. Algumas dessas propriedades serão apresentadas aqui, e as provas e discussões podem ser encontradas em (FODOR; ROUBENS, 1994;

KLIR; YUAN,1995).

Definição 2.11 (Família de Relações Fuzzy (ZADEH, 1978)): Uma relação fuzzy binária

sobre um conjunto clássico 𝐴 ̸= ∅ é uma função 𝑅 : 𝐴 × 𝐴 → [0, 1]. A família de todas as relações fuzzy binárias em 𝐴 é denotado por 𝐹 𝑅(𝐴).

Todos os conceitos e operações aplicáveis à teoria de conjuntos fuzzy são aplicáveis a relações fuzzy. Uma operação bastante importante no campo da inferência é a composição de funções.

(44)

Definição 2.12 (Composições de Relações Fuzzy (ZADEH,1978)): Seja 𝑅 uma relação entre

𝐴 e 𝐵, e 𝑄 uma relação entre 𝐵 e 𝐶. A composição max-min de 𝑅 com 𝑄 é a seguinte relação fuzzy entre 𝐴 e 𝐶

𝑅 ∘ 𝑄 = {((𝑥, 𝑧), max

𝑦∈𝐵 min{𝜇𝑅(𝑥, 𝑦), 𝜇𝑄(𝑦, 𝑧)})|𝑥 ∈ 𝐴 e 𝑧 ∈ 𝐶} (2.1) Do mesmo modo, a composição min-max de 𝑅 com 𝑄 é a seguinte relação fuzzy entre A e C

𝑅 ~ 𝑄 = {((𝑥, 𝑧), min

𝑦∈𝐵 max{𝜇𝑅(𝑥, 𝑦), 𝜇𝑄(𝑦, 𝑧)})|𝑥 ∈ 𝐴 e 𝑧 ∈ 𝐶} (2.2)

Algumas propriedades básicas de relações binárias fuzzy são interpretações equiva-lentes a algumas propriedades de relações clássicas, veja (FODOR; ROUBENS,1994). Note que essas interpretações foram introduzidas por Zadeh (1971), considerando a t-norma do mínimo e a t-conorma do máximo. Sejam 𝑇 uma t-norma e 𝑆 uma t-conorma, a Tabela 1

apresenta algumas propriedades para uma relação fuzzy binária 𝑅 ∈ 𝐹 𝑅(𝐴).

Propriedade Definição

Reflexiva 𝑅(𝑎, 𝑎) = 1 para todo 𝑎 ∈ 𝐴, Irreflexiva 𝑅(𝑎, 𝑎) = 0 para todo 𝑎 ∈ 𝐴,

Simétrica 𝑅(𝑎, 𝑏) = 𝑅(𝑏, 𝑎) para todo 𝑎, 𝑏 ∈ 𝐴, 𝑇 -assimétrica 𝑇 (𝑅(𝑎, 𝑏), 𝑅(𝑏, 𝑎)) = 0 para todo 𝑎, 𝑏 ∈ 𝐴

𝑇 -antissimétrica 𝑇 (𝑅(𝑎, 𝑏), 𝑅(𝑏, 𝑎)) = 0 para todo 𝑎, 𝑏 ∈ 𝐴 tal que 𝑎 ̸= 𝑏, Totalmente 𝑆-conectada 𝑆(𝑅(𝑎, 𝑏), 𝑅(𝑏, 𝑎)) = 1 para todo 𝑎, 𝑏 ∈ 𝐴

𝑇 -conectada 𝑆(𝑅(𝑎, 𝑏), 𝑅(𝑏, 𝑎)) = 1 para todo 𝑎, 𝑏 ∈ 𝐴 tal que 𝑎 ̸= 𝑏, 𝑇 -transitiva 𝑇 (𝑅(𝑎, 𝑏), 𝑅(𝑏, 𝑐)) ≤ 𝑅(𝑎, 𝑐) para todo 𝑎, 𝑏, 𝑐 ∈ 𝐴, Negativamente 𝑆-transitiva 𝑆(𝑅(𝑎, 𝑏), 𝑅(𝑏, 𝑐)) ≥ 𝑅(𝑎, 𝑐) para todo 𝑎, 𝑏, 𝑐 ∈ 𝐴,

𝑇 -𝑆-Ferres 𝑇 (𝑅(𝑎, 𝑏), 𝑅(𝑐, 𝑑)) ≤ 𝑆(𝑅(𝑎, 𝑑), 𝑅(𝑐, 𝑏)) para todo 𝑎, 𝑏, 𝑐, 𝑑 ∈ 𝐴, 𝑇 -𝑆-semitransitiva 𝑇 (𝑅(𝑎, 𝑑), 𝑅(𝑑, 𝑏)) ≤ 𝑆(𝑅(𝑎, 𝑐), 𝑅(𝑐, 𝑏)) para todo 𝑎, 𝑏, 𝑐, 𝑑 ∈ 𝐴,

Tabela 1 – Algumas propriedades de relações fuzzy binárias.(FODOR; ROUBENS, 1994)

A preservação da T-transitividade durante o processo de agregação é fortemente ligada à relação de ordem entre as t-normas e ao princípio de dominância de um operador de agregação com respeito a uma t-norma que será abordado na próxima seção. Observe que se uma relação fuzzy 𝑅 é 𝑇 -transitiva então ela é 𝑇′-transitiva para qualquer t-norma 𝑇′ ≤ 𝑇 . Logo, se 𝑅 é min-transitiva então 𝑅 é T-transitiva para toda t-norma.

2.6 Agregação de Relações Fuzzy

O problema de combinar e agregar vários valores, geralmente numéricos, e produzir um único valor que seja consistente é comum em vários ramos do conhecimento. As técnicas

(45)

2.6. Agregação de Relações Fuzzy 17 da área fusão de informação oferecem soluções com mais qualidade (maior acurácia, maior relevância e menos redundância, menos incerteza) e mais compreensíveis sobre um evento adquirido por múltiplas fontes (NAKAMURA, 2007). Em aprendizagem por comitê, as técnicas de fusão são usadas para produzir soluções mais robustas (reduzir sensibilidade a ruídos e outliers), e aumentar a acurácia. As técnicas de fusão podem ser relacionadas às funções matemáticas, ou procedimentos que possuem essa capacidade de combinação.

Os operadores de agregação são tipicamente utilizadas em processos de fusão da informação. De um modo geral, elas combinam 𝑛 valores de um dado domínio e retornam um único valor de mesmo domínio. Por exemplo, se um operador de agregação opera sobre 𝑛 números complexos, então a resposta será outro número complexo. A ideia principal desse processo, é que o valor final represente de certa forma todos os valores de entrada. Por isso, a escolha ou definição de uma família de funções de agregação para uma tarefa específica é difícil, pois é altamente dependente do contexto (BELIAKOV, 2007). Dessa forma, cada aplicação pode exigir um conjunto específico de propriedades. Por outro lado, algumas propriedades surgem de forma natural. É razoável exigir que se todos os valores que dados a um operador de agregação estiverem no intervalo [𝑎, 𝑏], o valor final também deve estar neste intervalo. Outras propriedades são interessantes e são apresentadas a seguir.

Denotando esses operadores por 𝒜(de agregação), as propriedades básicas podem ser:

(A1) n-ária: Para todo 𝑛 > 1, 𝒜 : 𝐷𝑛_{→ 𝐷 para algum domínio 𝐷 .} (A2) Idempotência : 𝒜(𝑥, . . . , 𝑥) = 𝑥 para todo 𝑥.

(A3) Monotonicidade: 𝒜(𝑥1, . . . , 𝑥𝑛) ≤ 𝒜(𝑦1, . . . , 𝑦𝑛) se 𝑥𝑖 ≤ 𝑦𝑖 .

(A4) Simétrica: Para qualquer uma das 𝑛 permutações 𝜋 sobre os elementos {1, . . . , 𝑛} o consenso se mantém 𝒜(𝑥1, . . . , 𝑥𝑛) = 𝒜(𝑥𝜋(1), . . . , 𝑥𝜋(𝑛)).

(A5) Internalidade: Para qualquer operador 𝒜, vale que min{𝑥1, . . . , 𝑥𝑛} ≤ 𝒜(𝑥1, . . . , 𝑥𝑛) ≤ max{𝑥1, . . . , 𝑥𝑛}.

(A6) Associatividade: 𝒜(𝒜(𝒜(𝑥1, 𝑥2), 𝑥3), . . . , 𝑥𝑛) = 𝒜(𝑥1, 𝒜(𝑥2, . . . , 𝒜(𝑥𝑛−1, 𝑥𝑛))) para todo 𝑥𝑖 ∈ {1, . . . , 𝑛}. .

(A7) Condições de Fronteira: 𝒜(0, . . . , 0) = 0 e 𝒜(1, . . . , 1) = 1.

Definição 2.13 (Operador de Agregação): Seja 𝑛 ∈ N, 𝑛 ≥ 2. 𝒜 : [0, 1]𝑛 _{→ [0, 1] é um}

(46)

Os operadores de agregação foram definidos no intervalo [0, 1] mas podem ser modificados para agir sobre um intervalo fechado [𝑎, 𝑏] ⊆ [−∞, ∞] ou para qualquer conjunto parcialmente ordenado e limitado (MESIAR; KOMORNÍKOVÁ, 2010).

Exemplo 2.6

Exemplos de alguns operadores de agregação.

∙ projeção 𝑃𝑘(𝑥1, . . . , 𝑥𝑘, . . . , 𝑥𝑛) = 𝑥𝑘, 𝑘 ∈ {1, . . . , 𝑛}. ∙ média aritmética 𝑀 (𝑥1, . . . , 𝑥𝑛) = 1 𝑛 𝑛 ∑︁ 𝑖=1 𝑥𝑖. ∙ mediana 𝑀 𝑒𝑑(𝑥1, . . . , 𝑥𝑛) = ⎧ ⎪ ⎨ ⎪ ⎩ 𝑠𝑘+ 𝑠𝑘+1 2 , para 𝑛 = 2𝑘 𝑠𝑘+1 para 𝑛 = 2𝑘 + 1

onde (𝑠1, . . . , 𝑠𝑛) é a sequência não decrescente (𝑠1 ≤ . . . ≤ 𝑠𝑛) dos valores de 𝑥1, . . . , 𝑥𝑛. Ou seja, 𝑠𝑖 é o 𝑖-ésimo menor valor de (𝑥1, . . . , 𝑥𝑛).

Métodos para agregar diferentes fontes de informação são ferramentas indispen-sáveis em vários campos do conhecimento. Tanto para o desenvolvimento teórico, por exemplo, em matemática e física, como também para aplicações em engenharia, ciências sociais e outros campos (BELIAKOV, 2007). Um significante número de operadores de agregação foram estudados e aplicados, por exemplo, a média aritmética, integrais de Choquet (GRABISCH, 1996), funções de mistura generalizadas (COSTA,2018), incluindo variações de t-normas/t-conormas.

No contexto de funções de agregação em aplicações reais é importante investigar quais propriedades são importantes para a escolha do operador. Já que em alguns contextos algumas propriedades fazem mais sentido do que em outros. Portanto, é pertinente também investigar quais propriedades dos membros a serem agregados devem ser preservados no resultado obtido pela função de agregação. Cada problema possui um domínio de aplicação específico, por exemplo, em problemas de agrupamento é comum utilizar a relação de similaridade ao invés da relação de proximidade para representar o grau de semelhança entre os objetos, e a partir disso realizar o processo de agregação. Neste caso, a agregação de relações de similaridades é feita através da agregação de relações fuzzy. A construção de relações de similaridade fuzzy têm sido bastante estudadas ao longo do tempo. Uma característica comum dessas propostas é que não há um consenso sobre qual transitividade é a mais adequada no contexto geral (HE, 2017).