Abordagem híbrida para representação de forma e textura baseada em dados simbólicos

(1)

Pós-Graduação em Ciência da Computação

“Abordagem Híbrida para Representação de

Forma e Textura Baseada em Dados Simbólicos”

Por

Carlos Wilson Dantas de Almeida

Tese de Doutorado

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

(2)

CENTRO DE INFORMÁTICA

PÓS-‐GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

CARLOS WILSON DANTAS DE ALMEIDA

“Abordagem Híbrida para Representação de Forma e Textura

Baseada em Dados Simbólicos"

ESTE TRABALHO FOI APRESENTADO À PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO DO CENTRO DE INFORMÁTICA DA UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITO PARCIAL PARA OBTENÇÃO DO GRAU DE DOUTOR EM CIÊNCIA DA COMPUTAÇÃO.

ORIENTADOR(A): Renata Maria C. R. De Souza

(3)

(4)

Pernambuco, sob o título “Abordagem Híbrida para Representação de Forma e Textura Baseada em Dados Simbólicos” orientada pela Profa. Renata Maria Cardoso

Rodrigues de Souza e aprovada pela Banca Examinadora formada pelos professores:

______________________________________________ Prof. Tsang Ing Ren

Centro de Informática / UFPE

______________________________________________ Prof. Carlos Alexandre Barros de Mello

_______________________________________________ Prof. Ricardo Bastos Cavalcante Prudênico

_________________________________________________ Prof. Alejandro César Frery Orgambide

Instituto de Computação / UFAL

_________________________________________________ Profa. Corina da Costa Freitas

Divisão de Processamento de Imagens / INPE

Visto e permitida a impressão. Recife, 15 de março de 2013

___________________________________________________

Profa. Edna Natividade da Silva Barros

Vice-Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

ii

Dedicatória... à minha família por ter me educado da melhor maneira possível

e me dado suporte nos momentos mais difíceis. Se eu cheguei até aqui foi porque vocês me deram todas as ferramentas. À minha companheira Karla Carolina, pelo incentivo, compreensão, companheirismo e carinho.

(6)

Eu posso viver com dúvida e incerteza em não saber. Eu acho que é muito mais interessante viver sem saber ao invés de ter respostas erradas.

Tenho respostas aproximadas, possíveis crenças, e diferentes graus de certeza sobre diferentes coisas, mas não tenho certeza absoluta de nada. Eu não me sinto amedrontado por não saber sobre estar perdido em um universo misterioso sem ter nenhum propósito que é a maneira como realmente é, a tanto o que eu posso dizer...possivelmente. Isso não me assusta.

(7)

iv

Agradecimentos

Primeiramente, agradeço à professora Renata de Souza que me acolheu como primeiro aluno de mestrado e doutorado. Agradeço pelos ensinamentos, os quais me possibilitaram alcançar todos os êxitos que conquistei. Muito mais que uma professora, uma mestra não só na academia, mas primordialmente na vida.

Aos membros da banca examinadora pelas contribuições e direcionamentos que vieram no intuito de enriquecer este trabalho.

Aos meus companheiros do doutorado e mestrado, Marco, Anderson, Nico-medes, Roberta, Bruno, Telmo, Diego, Elaine, Rebecca, Arthur, entre outros.

À Ana Karla e Fernanda Dantas, pelo apoio constante em revisar meus textos. Ao CNPq pelo apoio no decorrer do programa do doutorado.

Por fim, gostaria de agradecer a todos os pesquisadores e alunos que contri-buíram de maneira direta ou indireta para realização deste trabalho.

(8)

Resumo

A análise de dados simbólicos (Symbolic Data Analysis) é uma nova abor-dagem na área de descoberta automática de conhecimento que visa desenvolver métodos para dados descritos por variáveis onde existem conjuntos de categorias, intervalos ou distribuições de probabilidade nas células das tabelas de dados. Os dados clássicos passam a ser agregados a fim de representar variáveis mais complexas como intervalos reais, conjuntos de categorias, histogramas, distri-buições de probabilidade, entre outras. Esta tese introduz um novo algoritmo de agrupamento denominado Fuzzy Kohonen Clustering Network para dados simbólicos do tipo intervalo. São apresentadas duas versões do algoritmo. Na primeira versão, é introduzido o algoritmo clássico utilizando a abordagem da análise de dados simbólicos. Na segunda versão, é introduzido o cálculo de pesos para cada classe e para cada atributo da classe como principal alteração do algoritmo original. Um outro ponto abordado se refere ao desenvolvimento de novos descritores de imagens. Nos últimos anos, o uso de documentos e imagens digitais vêm tomando um espaço cada vez maior na sociedade. Em resposta a esses desafios, iremos investigar uma nova estratégia, desenvolvendo descritores de forma e textura junto com os algoritmos de agrupamento. Estes descritores são desenvolvidos nesta tese como uma abordagem baseada em dados simbólicos de tipo intervalo. Palavras-chave: Análise de Dados Simbólicos, Métodos de Agrupamento, Processamento de Imagens.

(9)

vi

Abstract

Symbolic Data Analysis (SDA) is a new domain in the area of knowledge discovery that aims to provide suitable methods for data described through multi-valued variables, where there are sets of categories, intervals, or weight (probability) distributions in the cells of the data tables. Now, the classic data can be aggre-gated in order to represent more complex variables such as real intervals, sets of categories, histograms, probability distributions, etc. This thesis propsal is to introduce a new clustering algorithm named Fuzzy Kohonen Clustering Network to symbolic interval data. Two versions of the algorithm will be presented. On the first version, the classic algorithm is shown, using symbolic data analysis approach. On the second version, the calculation of the weight for each class and for each class attribute is presented as a main modification to the original algorithm. Another aspect to be approached is the development of new image descriptors. During the last years, the use of documents and digital images is having more and more space in our society. As an answer to these challenges, we are going to investigate a new strategy, developing form and texture descriptors together with the IFKCNs clustering algorithms. We are going to broaden these descriptors to an approach based on symbolic interval data.

(10)

2.1 Cotações da bolsa para a ação DISNEY de 1/1/2012 a 1/05/2012. 12 2.2 Um histograma descrevendo a altura de um grupo de pessoas. . . 18 3.1 Exemplo de contorno fechado de uma imagem. . . 35 3.2 Código de vizinhança. (a) vizinhança-4 e (b) vizinhança-8. . . 36 3.3 Código da cadeia. (a) Fronteira com grade da nova

amostra-gem. (b) Resultado da nova amostraamostra-gem. (c) Código da cadeia vizinhança-4 (d) Código da cadeia vizinhança-8. . . 37 3.4 Duas bordas simples e suas respectivas assinaturas. . . 38 3.5 Evolução da curva 𝛤𝜎 (coluna esquerda), Valores de curvatura

𝑘(𝑢, 𝜎)(coluna central) e a Imagem CSS (coluna direita). . . 45 3.6 Exemplo de uma CSSI e coordenadas dos picos máximos. . . 46 3.7 Ângulos utilizados para o cálculo das matrizes de co-ocorrência. . 51 3.8 Exemplo da matriz GLCM sobre diferentes ângulos (0∘_{, 45}∘_{, 90}∘

e 135∘_{). . . 55}

4.1 Conjunto de dados intervalares artificiais contendo quatro classes. 84 4.2 Conjunto de dados intervalares artificiais contendo quatro classes. 85 4.3 Figura com subfiguras . . . 90

(11)

Lista de Figuras viii

4.4 Figura com subfiguras . . . 91

4.9 Valores de CR para os conjunto de dados artificiais 1, 2 e 3. . . . 106

4.10 Valores de CR para os conjunto de dados artificiais 4, 5 e 6. . . . 107

4.11 Número de iterações para os conjunto de dados artificiais 1, 2 e 3. 110 4.12 Número de iterações para os conjunto de dados artificiais 4, 5 e 6. 111 4.13 Valores de CR para os conjuntos de dados artificiais 7, 8, 9 e 10. . 117

4.14 Valores de CR para os conjuntos de dados artificiais 11, 12, 13 e 14.118 4.15 Valores de CR para os conjuntos de dados artificiais 15, 16, 17 e 18.119 4.16 Valores de CR para os conjuntos de dados artificiais 19, 20, 21 e 22.120 4.17 Valores de CR para os conjuntos de dados artificiais 23, 24, 25 e 26.121 4.18 Valores de CR para os conjuntos de dados artificiais 27, 28, 29 e 30.122 4.19 Número de iterações para os conjuntos de dados artificiais 7, 8, 9 e 10. . . 129

4.20 Número de iterações para os conjuntos de dados artificiais 11, 12, 13 e 14. . . 130

(12)

4.24 Número de iterações para os conjuntos de dados artificiais 27, 28, 29e 30. . . 134 5.1 Módulos do descritor DDSM. . . 144 5.2 Exemplos de reconstrução do contorno com diferentes amostras. . 146 5.3 (a) Imagem CSS com seus respectivos picos máximos

normaliza-dos. (b) Matriz de Valores da Curvatura. . . 150 5.4 (a) Matriz de Valores de Distâncias. (b) Distância de um ponto

arbitrário do contorno sobre diferentes valores de 𝜎. . . 152 5.5 Matriz de Valores de Curvatura em um momento 𝜎10 e Amostra

do contorno em um momento 𝜎10. . . 157

5.6 Extração dos intervalos (min : max) ao longo do contorno em intervalos regulares de 𝛿 = 5. . . 158 5.7 Análise local e global da matriz MCV sobre um intervalo 𝛥𝜔. . . 162 5.8 Exemplos de reconstrução do contorno com diferentes amostras. . 169 5.9 Resultados obtidos na pontuação bullseye score. . . 171 6.1 Módulos da abordagem GLCM+SdA proposta. . . 178 6.2 Bancos de filtros: LM, S e RFS. . . 181 6.3 Exemplo da matriz GLCM sobre diferentes ângulos (0∘_{, 45}∘_{, 90}∘

e 135∘_{). . . 183}

6.4 Resultado da matriz 𝑃𝛩 _{após a execução do Algoritmo 7. . . 185}

6.5 Intervalos mínimos e máximos das matrizes 𝑋𝐹𝐿𝑀_{, 𝑋𝐹}𝑆 _{e 𝑋𝐹}𝑅𝐹 𝑆_.188

6.6 Diferentes amostras do banco de imagens Brodatz e CUReT. . . . 191 6.7 Diferentes amostras do banco de imagens UIUC e UMD. . . 192

(13)

(14)

2.1 Temperaturas mínima e máxima ([𝑚𝑖𝑛 : 𝑚𝑎𝑥]) registradas em 60

cidades na China no ano de 1998. . . 13

2.2 Uma tabela de dados simbólicos. . . 15

4.1 Valores dos Parâmetros utilizados para gerar os quatro conjuntos de dados artificiais contendo quatro classes. . . 83

4.2 Descrição sumária dos conjuntos de dados artificiais contendo duas classes . . . 88

4.3 Valores dos Parâmetros utilizados para gerar os conjuntos de dados artificiais contendo duas classes . . . 89

4.4 Partição a priori do conjunto de dados Peixes. . . 97

4.5 As 12 espécies de peixes analisadas no conjunto Peixes. . . 98

4.6 Partição a priori do conjunto de dados Carros. . . 99

4.7 Descrições dos indivíduos do conjunto de dados Carros. . . 100

4.8 Partição a priori do conjunto de dados Temperatura. . . 101

4.9 Temperaturas mínimas e máximas das cidades em 𝑜_{C. . . 102}

4.10 Índices CR: média e desvio padrão (em parênteses) para o conjunto de dados artificiais intervalares 1 a 6. . . 105

(15)

Lista de Tabelas xii 4.11 Valores de teste t-Student para comparar os valores médio de CR

para os conjunto de dados artificiais de 1 a 6. . . 108 4.12 Número de iterações: média e desvio padrão (em parênteses) para

o conjunto de dados artificiais intervalares 1 a 6. . . 109 4.13 Índices CR: média e desvio padrão (em parênteses) para o conjunto

de dados artificiais intervalares 7 a 14. . . 114 4.14 Índices CR: média e desvio padrão (em parênteses) para o conjunto

de dados artificiais intervalares 15 a 22. . . 115 4.15 Índices CR: média e desvio padrão (em parênteses) para o conjunto

de dados artificiais intervalares 23 a 30. . . 116 4.16 Valores de teste t-Student para comparar os valores médios de CR

para os conjuntos de dados artificiais contendo duas classes de forma elíptica (conjunto de dados de 7 a 14). . . 123 4.17 Valores de teste t-Student para comparar os valores médios de CR

para os conjuntos de dados artificiais contendo duas classes de forma circular (conjunto de dados de 15 a 22). . . 124 4.18 Valores de teste t-Student para comparar os valores médios de

CR para os conjuntos de dados artificiais contendoduas classes de forma elíptica e circular (conjunto de dados de 23 a 30). . . 125 4.19 Número de iterações: média e desvio padrão (em parênteses) para

o conjunto de dados artificiais intervalares 7 a 14. . . 126 4.20 Número de iterações: média e desvio padrão (em parênteses) para

o conjunto de dados artificiais intervalares 15 a 22. . . 127 4.21 Número de iterações: média e desvio padrão (em parênteses) para

(16)

4.22 Resultado dos algoritmos IFKCNs e IFCMs para o conjunto de dados Peixes. . . 137 4.23 Resultado dos algoritmos IFKCNs e IFCMs para o conjunto de

dados Carros. . . 138 4.24 Resultado dos algoritmos IFKCNs e IFCMs para a conjunto de

dados Temperatura. . . 139 5.1 Pontuação bullseye score usando o conjunto de dados MPEG-7

CE-1B. . . 173 5.2 Pontuação bullseye score usando o conjunto de dados Diatom. . . 174 5.3 Pontuação CCR usando o conjunto de dados Kimia-99. . . 174 6.1 Bancos de imagens utilizados nos experimentos. . . 189 6.2 Resultados para o banco Brodatz. . . 194

(17)

(18)

AID Automatic Interaction Detector. BMU Best Match United.

CSS Curvature Scale Space.

CSSI Imagem CSS.

CE-1B Core Experiment parte B. CCR Correct Classification Rate. CR Índice corrigido de Rand.

CUReT Columbia-Utrecht Reflectance and Texture Database. DDSM Descritor de Dados Simbólicos Multiescalar.

DFT Discrete Fourier Transform.

DDSM-Shift Descritor de Dados Simbólicos Multiescalar processados a partir do deslocamento horizontal de matrizes.

DDSM-IFKCN Descritor de Dados Simbólicos Multiescalar processados a partir de um conjunto de protótipos.

FKCN Fuzzy Kohonen Clustering Network. GLN Gray Level Non-uniformith.

GLRLM Gray Level Run Length Matrices. GLCM Gray-Level Co-occurrence Matrices.

(19)

Lista de Tabelas xvi GLCM-SdA Descritor de Textura Baseada em Análise de Dados

Simbólicos.

HGRE High Gray Levels Runs Emphasis. HPM-Fn Hierarchical procrustes.

IA Inteligência Artificial.

IFKCN Fuzzy Kohonen Clustering Network intervalar. IFKCN-DF Fuzzy Kohonen Clustering Network intervalar.

baseado em uma distância Euclidiana fixa. IFKCN-DP Fuzzy Kohonen Clustering Network intervalar.

baseado em uma distância ponderada. IFCM Fuzzy C-means intervalar.

IFCM-NAD Fuzzy C-means intervalar baseado em uma distância não adaptativa.

IFCM-AD Fuzzy C-means intervalar baseado em uma distância adaptativa.

ISO International Standards Organization. KCN Kohonen Clustering Network.

LGRE Low Gray Level Runs Emphasis. LRE Long Runs Emphasis.

LEESA Laboratoire d’Ecophysiologie et d’Ecotoxicologie. des Systèmes Aquatiques.

LM Banco de Filtros Leung-Malik. MVC Matriz de Valores de Curvatura. MVD Matriz de Valores de Distâncias.

(20)

MVCI Matriz de Valores de Curvatura Intervalar. MVDI Matriz de Valores de Distâncias Intervalar. MPEG Moving Picture Experts Group.

NGTDM Neighborhood Gray-tone Difference Matrix. NSDs Normalized Squared Distances.

PLM Probabilistic Line Matching. PPM Probabilistic point matching. RP Run Percentage.

RLN Run Length Non-uniformity. RFS Banco de Filtros Root. SDA Symbolic Data Analysis. SRE Short Runs Emphasis. S Banco de Filtros Schmid.

(21)

(22)

1 Introdução 1 1.1 Objetivos . . . 5 1.2 Organização da Tese . . . 5

2 Análise de Dados Simbólicos 9

2.1 Introdução . . . 9 2.2 Um Breve Histórico . . . 11 2.3 Tabela de Dados Simbólicos . . . 14 2.4 Variáveis Simbólicas . . . 15 2.4.1 Tipos de Variáveis . . . 16 2.4.1.1 Variáveis Não Modais . . . 17 2.4.1.2 Variáveis Modais . . . 18 2.5 Medidas de Proximidades . . . 19 2.5.1 Medida de Proximidades para Variáveis Modais . . . 20 2.5.2 Medida de Proximidades para Variáveis não Modais . . . . 21 2.6 Mapeando uma Variável Intervalar para uma Variável Modal . . . 25 2.7 Métodos Estendidos para Dados Simbólicos . . . 27

(23)

Sumário xx

3 Descritores de Forma e Textura 33

3.1 Descritores baseados em Forma . . . 33 3.1.1 Código da Cadeia . . . 35 3.1.2 Assinatura . . . 38 3.1.3 Parâmetros Geométricos . . . 39 3.1.3.1 Corda Máxima . . . 39 3.1.3.2 Circularidade . . . 40 3.1.3.3 Excentricidade . . . 40 3.1.4 Parâmetros Baseados em Transformadas Espectrais . . . . 41 3.1.5 Parâmetros Baseados em Curvature Scale Space . . . 42 3.2 Descritores baseados em Textura . . . 46 3.2.1 Matrizes de Co-ocorrência . . . 49 3.2.2 Matrizes de Comprimento de Corridas de Cinza . . . 56 3.2.3 Matrizes de Diferença dos Tons de Cinza da

Vizinhança . . . 59 3.2.4 Função de Autocorrelação . . . 62 4 Fuzzy Kohonen Clustering Network para Dados Intervalares 65 4.1 Introdução . . . 65 4.2 Trabalhos Relacionados . . . 66 4.3 Fuzzy Kohonen Clustering Network . . . 69 4.4 FKCNs para Dados Simbólicos Intervalares (IFKCNs) . . . 73

4.4.1 IFKCN baseado em uma distância Euclidiana fixa (IFKCN-DF) . . . 74

(24)

4.4.2 IFKCN baseado em uma distância ponderada

(IFKCN-DP) . . . 77 4.5 Avaliação Experimental . . . 81 4.5.1 Conjuntos de Dados Artificiais . . . 81

4.5.1.1 Conjunto de Dados Artificiais Contendo Quatro Classes . . . 83 4.5.1.2 Conjunto de Dados Artificiais Contendo Duas

Classes . . . 85 4.5.2 Conjuntos de Dados Intervalares Reais . . . 96 4.5.2.1 Conjunto de Dados Simbólicos Intervalares - Peixes 97 4.5.2.2 Conjunto de Dados Simbólicos Intervalares - Carros 99 4.5.2.3 Conjunto de Dados Simbólicos Intervalares -

Tem-peratura . . . 101 4.6 Resultados . . . 103 4.6.1 Dados Artificiais Contendo Quatro Classes . . . 104 4.6.2 Dados Artificiais Contendo Duas Classes . . . 112 4.6.3 Resultados para Dados Reais . . . 135 4.6.3.1 Resultados para Conjunto de Dados Peixes . . . 135 4.6.3.2 Resultados para Conjunto de Dados Carros . . . 135 4.6.3.3 Resultados para Conjunto de Dados Temperatura 136 5 Descritor de Forma Multiescalar usando Dados Simbólicos 141 5.1 Introdução . . . 141 5.2 O Descritor de Dados Simbólicos Multiescalar (DDSM) . . . 142 5.2.1 Pré-processamento do Contorno Fechado . . . 145

(25)

Sumário xxii 5.2.2 Módulo de Análise Multiescalar . . . 147 5.2.2.1 Cálculo da Matriz de Valores da Curvatura . . . 147 5.2.2.2 Cálculo da Matriz de Valores de Distâncias . . . 151 5.2.2.3 Algoritmo do Módulo de Análise Multiescalar . . 153 5.2.3 Módulo de Análise de Dados Simbólicos Intervalares . . . . 155 5.2.4 Análise dos Dados Simbólicos Modais . . . 160

5.2.4.1 Análise dos Dados Simbólicos Modais - DDSM-Shift . . . 160 5.2.4.2 Análise dos Dados Simbólicos Modais -

DDSM-IFKCN . . . 164 5.3 Base de Dados . . . 165 5.3.1 Core Experiment (CE-1B) . . . 165 5.3.2 Kimia-99 . . . 167 5.3.3 Diatom . . . 168 5.4 Resultados . . . 170 5.4.1 Medida de Avaliação . . . 170 5.4.2 Escolha dos Parâmetros . . . 171 5.4.3 Resultados dos Conjuntos de Dados . . . 172 6 Descritor de Textura Baseado em Análise de Dados Simbólicos175 6.1 Introdução . . . 175 6.2 O Descritor de Textura GLCM+SdA . . . 177 6.2.1 Módulo de Processamento dos Filtros . . . 179 6.2.1.1 O Banco de Filtros Leung-Malik (LM) . . . 179 6.2.1.2 O Banco de Filtros Schmid (S) . . . 180

(26)

6.2.1.3 O Banco de Filtros Root (RFS) . . . 180 6.2.2 Módulo de Análise dos Dados Simbólicos . . . 182 6.3 Experimentos . . . 187 6.3.1 Medida de Avaliação . . . 187 6.3.2 Bases de Imagens . . . 189 6.3.2.1 Banco de Dados Brodatz . . . 190 6.3.2.2 Banco de Dados CUReT . . . 190 6.3.2.3 Banco de Dados UIUC . . . 190 6.3.2.4 Banco de Dados UMD . . . 193 6.4 Resultados . . . 193

(27)

Capítulo 1

Introdução

Quando se pensa sobre o conceito de "informação", o que provavelmente vem à mente são longas sequências de símbolos ou caracteres. Sob esse aspecto, os sistemas computacionais são ótimas ferramentas para armazenamento, organi-zação e recuperação. Podemos facilmente realizar buscas por informações em documentos, busca pelos documentos propriamente ditos, busca por metadados que descrevam documentos ou busca em banco de dados [20, 138].

A informatização possibilitou que grandes quantidades de dados fossem ar-mazenadas. Esses dados estão relacionados a diversas atividades e áreas, como vendas de produtos, operações financeiras, consultas médicas, catálogos de bi-bliotecas e mais recentemente a própria World-Wide Web, que pode, sob certos aspectos, ser vista como um banco de dados distribuído. Nesse sentido, ao realizar as mais simples atividades cotidianas, tem-se algum dado sendo armazenado em algum banco de dados (BD) [116]. Some-se a isso tudo o fato de que, com a popularização de dispositivos móveis e portáteis, como celulares, câmeras digitais e filmadoras digitais, a capacidade de gerar dados, em especial imagens e vídeos,

(28)

tem aumentado consideravelmente [74].

Bancos de imagens são utilizados pelas mais diversas áreas, como medicina, educação, sistemas de informação geográfica, jornalismo, publicidade, arqueologia, biologia, segurança, entretenimento, etc [152]. Com a crescente quantidade de informação visual disponível, cresce a dificuldade do usuário em recuperar essas informações de forma precisa. Assim, a falta de métodos efetivos de indexação e recuperação de informações tornou-se um fator limitante para utilização de largas bases de conteúdo visual [36, 137, 160]. Neste contexto, grandes esforços têm sido desenvolvidos na área de Recuperação de Imagens por Conteúdo (CBIR, do inglês, Content-based image retrieval) [36, 74, 160].

Han et al. [101] descreve o problema como "situação de riqueza de dados e pobreza de informação". Chegar à informação através da enorme quantidade de dados é uma tarefa de grande relevância. Tem-se observado, por exemplo, que devido à falta de ferramentas adequadas, dados em grandes bancos de dados transformam-se em "túmulos de informação", isto é, uma vez coletados, jamais são recuperados ou analisados [116].

Neste sentido, a ideia das técnicas de Recuperação de Imagens por Conteúdo consiste em oferecer mecanismos que possibilitem a indexação dessas bases [131]. Para tanto, utilizam-se características discriminativas que representam o con-teúdo visual das imagens capturadas por meio de descritores [13, 152]. Descrito-res de imagens são usados para caracterizar propriedades visuais mais relevantes de uma imagem, extraindo um conjunto de vetores de características que re-presenta essa imagem. Tradicionalmente, um descritor é composto por: (i) um algoritmo de extração de características que gera um vetor de características; (ii) uma função de similaridade utilizada para calcular o grau de semelhança entre

(29)

3

duas imagens como uma função de distância entre seus vetores de características correspondentes. Um descritor de imagens pode ser classificado dependendo do tipo de informação visual por ele considerado (cor, textura ou forma).

No domínio de Recuperação de Imagens por Conteúdo, um descritor é con-siderado melhor do que outro se sua utilização resulta em um número maior de imagens relevantes retornadas para uma dada consulta. Mesmo com todos os avanços na tentativa de aprimorar as buscas em grandes bancos de imagens, os resultados obtidos ainda não são totalmente satisfatórios [180]. Apesar de décadas de pesquisas na Recuperação de Imagens por Conteúdo, o interesse permanece crescente por parte da comunidade científica devido ao constante e crescente aumento das bases de imagens e a inviabilidade dos métodos tradi-cionais de indexação. Diversas abordagens e modelos já foram propostos para tratar estes problemas, porém, há ainda espaço para a criação de novos modelos e melhoramento dos atuais.

Com o intuito de alcançar o objetivo proposto, é apresentado novos tipos de dados chamados simbólicos que podem representar estruturas mais complexas como intervalos reais, distribuições de probabilidades e conjuntos de categorias. As ferramentas utilizadas pela mineração de dados [101] derivam de diferen-tes áreas de conhecimento, tais como estatística, inteligência artificial e banco de dados. As técnicas estatísticas englobam algoritmos que podem ser aplica-dos para descobrir estruturas ou associações em um conjunto de daaplica-dos. Como uma alternativa para generalizar as atuais técnicas estatísticas para informações mais complexas, como por exemplo, intervalos ou células multivaloradas, surge a Análise de Dados Simbólicos [26, 29, 83].

(30)

A Análise de Dados Simbólicos (usaremos o acrônimo SDA, do inglês, Symbolic Data Analysis) [29] é uma abordagem de mineração de dados, pois seu ponto de partida é a extração de conhecimentos em grandes conjuntos de dados [26, 101]. O objetivo dessa representação simbólica é realizar melhor a modelagem do conjunto de dados associados às unidades agregadas. Os dados simbólicos são descritos por variáveis multivaloradas que podem não somente assumir um valor numérico ou categórico, mas um conjunto de categorias, intervalos ou distribuições de pesos. A análise de dados simbólicos tem sido uma promissora abordagem para aplicações em comércio eletrônico, ciências biológicas e perfil de consumidores [14, 81, 83]. Uma das principais preocupações atualmente da SDA é a criação de novos métodos e extensão de métodos clássicos que trabalhem com estes novos tipos de dados. Várias publicações sobre métodos nas áreas de agrupamento, regressão, redes neurais e séries temporais já foram publicadas desde então [6, 25, 29, 56, 156, 157].

Em resposta a esses desafios, iremos investigaremos novas técnicas de extração de características e novos métodos de classificação baseados em dados simbólicos. A abordagem de dados simbólicos é essencial para redução dos dados processados pelos descritores, obtendo uma representação compacta e eficiente em termos de recurso computacional. Apesar do crescente interesse na abordagem de análise de dados simbólicos, há um número pequeno de trabalhos utilizando SDA para pro-cessamento de imagens. Dessa maneira, considera-se a escolha dessa investigação como uma contribuição para a literatura, onde se tem conhecimento da existên-cia de poucos trabalhos, tais como os propostos por Florou [88], Gowda [96] e Gowramma [97].

(31)

5 1.1. Objetivos

1.1 Objetivos

Este trabalho tem por objetivo investigar e realizar avanços no estado da arte em duas direções: (i) desenvolvimento de técnicas de classificação usando dados simbólicos de tipo intervalo; (ii) desenvolvimento de descritores de imagens baseados em forma e textura usando dados simbólicos.

A ideia de usar dados simbólicos de tipo intervalo é de realizar uma me-lhor modelagem das descrições das imagens e assim desenvolver sistemas robus-tos a variações como rotação, escala, transformação afim e ruído [146], que são propriedades importantes para um método de recuperação e classificação de imagens [201].

1.2 Organização da Tese

Além desse capítulo introdutório, a Tese será apresentada em mais seis capí-tulos organizados da seguinte forma:

1. Capítulo 2 - Análise de Dados Simbólicos: A finalidade desse capítulo é descrever o estado da arte da abordagem simbólica em análise de dados, juntamente com a apresentação de alguns conceitos que serão utilizados ao longo da Tese;

2. Capítulo 3 - Descritores de Imagens: Esse capítulo apresenta os prin-cipais conceitos que envolvem o estudo sobre descritores de forma e textura, em especial o descritor de forma baseado em curvatura e os descritores de textura baseados em abordagens estatísticas;

(32)

3. Capítulo 4 - Fuzzy Kohonen Clustering Network para Dados In-tervalares:Esse capítulo descreve o desenvolvimento do algoritmo de agru-pamento Fuzzy Kohonen Clustering Network baseados em dados simbólicos do tipo intervalo (IFKCNs) com e sem distâncias adaptativas. A vanta-gem das distâncias adaptativas é que o algoritmo é capaz de reconhecer classes de formas e tamanhos diferentes. A ideia de distâncias adaptativas vem de um trabalho com sucesso nesse sentido para o algoritmo nuvem dinâmica [72]. É apresentado os resultados de classificação fornecidos pe-los métodos propostos usando conjuntos de dados artificiais e reais de intervalos. Além disso, são apresentados os resultados de teste t-Student comparando os métodos não adaptativos com os adaptativos.

4. Capítulo 5 - Descritor de Forma Multiescalar usando Dados Sim-bólicos: Esse capítulo descreve um novo método de representação mul-tiescalar baseado em forma. Nosso algoritmo, que denominamos Descri-tor de Dados Simbólicos Multiescala (DDSM), combina métodos multies-cala [168, 178] com Análise de Dados Simbólicos [29, 83]. É apresentado duas versões do descritor DDSM: (i) DDSM-Shift, em que os dados simbó-licos são processados a partir do deslocamento horizontal de matrizes, (ii) DDSM-IFKCN, em que os dados simbólicos são processados a partir de um conjunto de protótipos (ou dicionários) previamente treinados através do algoritmo IFKCN, proposto no Capítulo 4. É apresentado os resultados de um estudo comparativo usando a medida de avaliação bullseye score e a taxa de classificação correta (CCR, do inglês, Correct Classification Rate).

(33)

7 1.2. Organização da Tese 5. Capítulo 6 -Descritor de Textura Baseada em Análise de Dados Simbólicos:Esse capítulo apresenta uma abordagem híbrida para descre-ver texturas usando GLCM (do inglês, Gray-Level Co-occurrence Matri-ces) [103] e o algoritmo IFKCN, proposto no Capítulo 4. É apresentado os resultados da comparação experimental entre os descritores presentes na literatura e o apresentado nesse trabalho.

6. Capítulo 7 - Conclusões: Esse capítulo apresenta de forma sucinta as conclusões obtidas, bem como as principais contribuições desta tese, além das publicações de nossos resultados em revistas e congressos.

(34)

(35)

Capítulo 2

Análise de Dados Simbólicos

Neste capítulo é apresentado uma revisão de Análise de Dados Simbólicos onde são apresentados conceitos relacionados ao contexto deste trabalho. Por fim é apresentado uma revisão de diversos trabalhos desenvolvidos no quadro da análise de dados simbólicos.

2.1 Introdução

Os progressos recentes em tecnologias da ciência da informação têm permitido o armazenamento de vastos conjuntos de dados em todos os domínios da atividade humana. Atualmente, observa-se uma necessidade de extrair informações a partir de dados cada vez mais complexos. Assim, a partir do momento em que se possui uma grande quantidade de informação é importante agregá-la de forma a construir conceitos. Este processo de extrair conhecimentos em grandes bases de dados é comumente conhecido como Mineração de Dados [101]. Um dos objetivos principais das técnicas mineração de dados é extrair valiosas informações que

(36)

estão presentes nos dados originais mas que ficam ocultas devido ao grande volume de informação.

A Análise de Dados Simbólicos [26, 29, 81, 83] inicialmente consiste em cons-truir automaticamente grupos homogêneos de observações a partir de grandes conjuntos de dados definindo assim novas unidades, chamadas de dados simbóli-cos, que descrevem esses grupos. A análise de dados simbólicos visa estender os métodos da análise exploratória de dados e as técnicas estatísticas para dados simbólicos. Esses dados são descritos por variáveis multivaloradas que podem não somente assumir um valor numérico ou categórico, mas um conjunto de categorias, intervalos ou distribuições de pesos. A obtenção desses dados sim-bólicos deve conservar um máximo de informações, ao mesmo tempo em que reduz consideravelmente a tabela de dados iniciais. O resultado disso são novas tabelas de dados, chamadas de tabelas de dados simbólicos, de estrutura mais complexa, pois cada uma das células dessas tabelas não necessariamente contém, como usualmente, um valor simples quantitativo ou qualitativo, mas pode conter informações complexas tais como subconjuntos, intervalos, funções de diferentes semânticas (probabilista, possibilista, credibilista, etc.) ligadas eventualmente por dependências e taxonomias. As colunas dessas tabelas são as variáveis sim-bólicas, usadas para descrever os objetos, e as linhas são chamadas de descrições simbólicas desses objetos, pois elas não são vetores de valores quantitativos ou categóricos simples, como é usual. Os objetos dessa tabela podem descrever in-divíduos (observações individuais), levando ou não em conta a imprecisão ou a incerteza, ou podem descrever itens mais complexos, tais como grupos de indiví-duos.

(37)

11 2.2. Um Breve Histórico Billard e Diday [26] atestam o crescimento de dados de natureza simbólica e alertam a necessidade do desenvolvimento de novas metodologias estatísticas para o tratamento de informações dessa natureza. Além disso, com relação aos poucos métodos estatísticos disponíveis para esse fim, faz-se necessário o estabele-cimento de um maior suporte matemático e estatístico a esses métodos, tais como: verificação de propriedades estatísticas, estimação de erros padrão e distribuições teóricas, entre outros.

Na Seção 2.2, é apresentado um breve histórico da análise de dados simbólicos. Na Seção 2.3 são expostas as tabelas de dados simbólicos e o formalismo dos objetos simbólicos. A Seção 2.4 apresenta os tipos de variáveis simbólicas. Em seguida, na Seção 2.5, é apresentado medidas de similaridades entre variáveis simbólicas. Na Seção 2.6 é apresentado o mapeamento de uma variável intervalar para uma variável do tipo modal. Finalmente, na Seção 2.7, são citados alguns trabalhos desenvolvidos no quadro da análise de dados simbólicos.

2.2 Um Breve Histórico

A análise de dados simbólicos surgiu de três áreas: Análise Exploratória de Da-dos [163, 183], Inteligência Artificial [143, 162, 171] e Taxonomia Numérica [170]. As primeiras tentativas de obter objetos simbólicos a partir de dados clássicos foram realizadas por Belson [19], seguidos de Morgan e Sonquist [150] com o método AID (do inglês, Automatic Interaction Detector). Os primeiros algoritmos, chamados de Conceptual Clustering, foram apresentados por Michalski et al. [144]. A SDA constitui uma extensão de alguns métodos utilizados para análise de dados clássicos. Os primeiros trabalhos com os princípios básicos da abordagem

(38)

jan fev mar abr mai 20

20.5 21 21.5

Figura 2.1: Cotações da bolsa para a ação DISNEY de 1/1/2012 a 1/05/2012. simbólica apareceram no final dos anos 80 [77, 80]. Bock e Diday [29] apresen-tam de maneira sólida os principais conceitos da SDA e os principais métodos estatísticos desenvolvidos para manipular dados desta natureza.

Os dados simbólicos podem ser obtidos de uma das seguintes maneiras: 1. A partir da aplicação de um algoritmo de classificação não-supervisionada

para simplificar grandes conjuntos de dados e descrever, de uma maneira auto-explicativa as classes associadas aos grupos obtidos;

2. Como resultado da descrição de conceitos por especialistas;

3. A partir de bases de dados relacionais para estudar conjuntos de unidades cuja descrição necessita a fusão eventual de várias relações.

Podemos encontrar registros de intervalos em base de dados de aplicações oriundas de diversos lugares. Cotação de bolsa de valores são exemplos

(39)

perfei-13 2.2. Um Breve Histórico Tabela 2.1: Temperaturas mínima e máxima ([𝑚𝑖𝑛 : 𝑚𝑎𝑥]) registradas em

60cidades na China no ano de 1998.

Cidade Janeiro Fevereiro ... Novembro Dezembro

AnQing [1,8 : 7,1 ] [5,2 : 11,2] ... [7,8 : 17,9] [4,3 : 11,8 ] BaoDing [-5,8 : 1,4 ] [-2,2 : 3,2 ] ... [4,8 : 10,1] [-4,3 : 1,8 ] BeiJing [-12,8 : 2,0 ] [-11,2 : 2,5 ] ... [2,5 : 5,1 ] [-8,3 : 0,3 ] ChangChun [-16,9 : -6,7] [-17,6 : -6,8] ... [-8,2 : -2,3] [-15,9 : -7,2 ] ... ... ... ... ... ... ZhiJiang [2,7 : 8,4 ] [2,7 : 8,7 ] ... [8,2 : 20,9] [5,1 : 13,3 ]

tos de dados simbólicos do tipo intervalo. Uma determinada ação da bolsa tem valores de abertura e fechamento, além de registrar os valores mínimos e máxi-mos atingidos, em um determinado espaço de tempo. Estes valores representam perfeitamente intervalos reais com limites inferiores e superiores, podendo en-tão representar duas variáveis simbólicas do tipo intervalo. A Figura 2.1 exibe o gráfico de velas (candlestick chart) da cotação da bolsa para as ações da DISNEY.

Um outro exemplo pode ser o registro de temperatura mínima e máxima em uma determinada cidade. Na Tabela 2.1, é apresentada parte de uma tabela de dados simbólicos reais coletados na China no ano de 1998. Nesta tabela, as linhas são cidades na China e as colunas são variáveis do tipo intervalo contendo as temperaturas mínima e máxima registradas mensalmente em 60 cidades [72].

Uma vez obtida uma tabela desse tipo, a fase seguinte consiste em analisar, classificar, prever, resumir ou visualizar as informações contidas nesta tabela. Para minerar esses dados, a SDA tem desenvolvido uma metodologia que é uma extensão das ferramentas usuais de extração de conhecimento utilizadas para dados clássicos.

(40)

2.3 Tabela de Dados Simbólicos

Os dados simbólicos são informações complexas, definidas conforme o tipo de variável que descreve os objetos. Uma variável simbólica é uma função que associa, a cada elemento do conjunto de objetos, uma descrição pertencente ao conjunto de descrições. As variáveis simbólicas são diferentes das variáveis usuais, pois estas variáveis podem assumir diferentes valores, como por exemplo, conjuntos de categorias ou valores, intervalos, histogramas, ou distribuições de probabilidades. Maiores detalhes sobre os tipos de variáveis usuais e simbólicas são encontrados na Seção 2.4.

Conforme foi citado, os dados simbólicos podem descrever indivíduos, levando em conta ou não a imprecisão ou a incerteza, ou podem descrever itens mais com-plexos, tais como grupos de indivíduos. Abaixo estão alguns exemplos de dados simbólicos para indivíduos (objetos de primeira ordem) e classes de indivíduos (objetos de segunda ordem):

1. Considere 𝑌 uma variável simbólica que descreve o tempo de estudo diário de um indivíduo. A descrição de um indivíduo 𝑘 pode ser: 𝑌 (𝑘) = [0,1 : 6,3] (em horas).

2. Considere 𝑌 uma variável simbólica que descreve as instituições bancárias em uma cidade (classe de indivíduos). A descrição da cidade 𝑘 pode ser: 𝑌 (𝑘) =_{{Banco do Brasil; Caixa; Bradesco; Banco Real}.}

Em uma tabela de dados simbólicos, as linhas correspondem aos indivíduos ou classes e as colunas são as variáveis simbólicas que descrevem os indivíduos.

(41)

15 2.4. Variáveis Simbólicas Tabela 2.2: Uma tabela de dados simbólicos.

ID Peso Marca de Automóvel Fumante

1 [58,8 : 70,1] Ford, Fiat {(3/4) sim, (1/4) não}

2 [65,6 : 84,2] GM {(1/6) sim, (5/6) não}

3 [65,4 : 63,1] Ferrari {(2/6) sim, (4/6) não}

4 [45,9 : 88,3] Renault {(1/6) sim, (5/6) não}

5 [45,4 : 76,7] Honda {(2/6) sim, (4/6) não}

6 [51,9 : 93,9] Volkswagen {(1/6) sim, (5/6) não}

7 [62,9 : 92,2] Chevrolet, Kia {(3/6) sim, (3/6) não} 8 [32,5 : 71,3] Volvo, Nissan {(5/6) sim, (1/6) não}

9 [45,6 : 83,1] Dodge {(4/6) sim, (2/6) não}

10 [61,8 : 80,0] Audio {(1/6) sim, (5/6) não}

11 [54,0 : 89,6] Mercedes-Benz {(2/6) sim, (4/6) não}

12 [47,8 : 84,5] BMW,Toyota {(2/6) sim, (4/6) não}

13 [38,4 : 86,4] Nissan, Peugeot {(3/5) sim, (2/5) não}

Na Tabela 2.2 apresentamos um exemplo de uma tabela de dados simbólicos onde as linhas são classes de indivíduos e nas colunas temos três variáveis sim-bólicas: peso (expresso por um intervalo), marca de automóvel (expresso por um conjunto de categorias) e fumante (expresso por uma distribuição de pesos).

2.4 Variáveis Simbólicas

Seja um conjunto 𝐸 = {𝑠1, . . . , 𝑠𝑛} de 𝑛 objetos. Um objeto pode ser um

indivíduo ou um grupo de indivíduos ou uma entidade. Seja {𝑌1, . . . ,𝑌𝑝} um

conjunto de 𝑝 variáveis simbólicas que descrevem estes objetos. Uma variável simbólica 𝑌𝑗 é uma função que associa para cada objeto um resultado ou um

conjunto de resultados da realização de uma característica observada 𝑌 (𝑠) = 𝜉1_𝑖, . . . , 𝜉𝑝_𝑖 onde 𝜉_𝑖𝑗 é o resultado da realização da característica 𝑗 observada no objeto 𝑠𝑖.

(42)

Uma matriz de dados simbólicos, é uma matriz com 𝑛 linhas e 𝑝 colunas onde as linhas são objetos (indivíduos ou classes de indivíduos) e as colunas são variáveis simbólicas. X𝑛×𝑝 = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 𝜉₁1 . . . 𝜉₁𝑗 . . . 𝜉₁𝑝 ... ... ... ... ... 𝜉1 𝑖 . . . 𝜉 𝑗 𝑖 . . . 𝜉 𝑝 𝑖 ... ... ... ... ... 𝜉1 𝑛 . . . 𝜉𝑛𝑗 . . . 𝜉𝑛𝑝 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ (2.1)

onde 𝜉𝑖𝑗 é o valor da variável simbólica 𝑌𝑗 observada no objeto 𝑖.

2.4.1 Tipos de Variáveis

Sabemos que na análise de dados clássicos, as variáveis assumem um único valor ou categoria para um dado indivíduo. Entretanto, as variáveis simbólicas podem assumir para um dado indivíduo (ou classe): conjuntos de categorias, in-tervalos, histogramas, etc. Como nos dados clássicos, os dados simbólicos também são classificados segundo o tipo de variável simbólica que descrevem os objetos e estas por sua vez são definidas de acordo com o seu domínio. De acordo com Bock e Diday [29, 83], as variáveis simbólicas são classificadas em dois grandes grupos: (i) não modais e (ii) modais.

Nas próximas subseções, apresentamos o embasamento teórico necessário para os tipos de dados simbólicos utilizados nesse trabalho, (i) variável não modal do tipo intervalo e (ii) variável modal de frequência relativa.

(43)

17 2.4. Variáveis Simbólicas 2.4.1.1 Variáveis Não Modais

As variáveis simbólicas não modais são: multivaloradas e de tipo intervalo. As variáveis multivaloradas são definidas como:

1. Categórica (ordinal ou nominal) 2. Quantitativa

Uma variável multivalorada nominal assume ao descrever um objeto um conjunto de categorias não ordenadas. Por exemplo, seja 𝑌 = cartões de crédito e 𝑠𝑘 um grupo 𝑘 de indivíduos, então 𝑦(𝑘) = {Master, Visa, Maestro, American

Express, Dines Club International }.

Uma variável multivalorada ordinal assume um conjunto de categorias onde existe uma ordenação entre elas. Por exemplo, seja 𝑌 = ensino e 𝑠𝑘 uma escola,

então 𝑦(𝑘) = {educação infantil, fundamental, médio, superior}. No caso clássico, esta variável ao descrever um grupo de indivíduo só pode assumir uma única categoria.

Uma variável multivalorada quantitativa assume um conjunto de valores não ordenados. Por exemplo, seja 𝑌 o número de acidentes semanais em cinco principais bairros de uma cidade e 𝑠𝑘uma cidade, então, 𝑦(𝑘) = {20,10,15,21,23}.

Novamente, no caso clássico, esta variável ao descrever um indivíduo só pode assumir um único valor.

Uma variável não modal do tipo intervalo assume um intervalo [𝑎 : 𝑏] ∈ 𝐼 = {[𝑎 : 𝑏] : 𝑎,𝑏 ∈ R, 𝑎 ≤ 𝑏}. Exemplo: Seja 𝑌 o salário em reais e 𝑠𝑘 uma cidade,

(44)

2.4.1.2 Variáveis Modais

Uma variável simbólica modal descreve um objeto usando o par ({𝑐},𝜋), onde {𝑐} é um conjunto de categorias que a variável assume e 𝜋 é um vetor de frequência, pesos ou probabilidades correspondentes às categorias do conjunto {𝑐}.

Exemplo, seja 𝑌 a altura (em metros) dos sócios de um clube 𝑠𝑘, então, 𝑦(𝑘)

é uma descrição dada por: ([1,50 : 1,60), 0,20 ; [1,60 : 1,70), 0,50 ; [1,70 : 1,80), 0,20; [1,80 : 1,90], 0,10). Cada elemento desta descrição representa um intervalo e a sua frequência relativa. A Figura 2.2 ilustra o histograma que representa a altura dos sócios do clube 𝑠𝑘.

150 160 170 180 190 50 40 20 10 -0 frequência

(45)

19 2.5. Medidas de Proximidades

2.5 Medidas de Proximidades

Em SDA, uma matriz de proximidades é uma matriz simétrica com 𝑛 linhas e 𝑛 colunas que representam as proximidades para todos os pares de 𝑛 objetos.

D𝑛×𝑛 = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 0 𝑑(2,1) 0 𝑑(3,1) 𝑑(3,2) 0 𝑑(4,1) 𝑑(4,2) 𝑑(4,3) 0 𝑑(5,1) 𝑑(5,2) 𝑑(5,3) 𝑑(6,4) 0 ... ... ... ... ... 𝑑(𝑛,1) 𝑑(𝑛,2) . . . 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

onde 𝑑(𝑖,𝑗) pode ser uma função de similaridade ou dissimilaridade, ou uma distância entre o objetos 𝑠𝑖 e 𝑠𝑗.

Diferentes abordagens têm sido propostas para medir as proximidades entre pares de objetos simbólicos descritos por variáveis não modais ou modais. A seguir são apresentadas algumas dessas medidas. Na Subseção 2.5.1, é apresentado as medida de proximidades para variáveis modais. Em seguida, na Subseção 2.5.2, é apresentado as medidas de proximidades para variáveis não modais.

Existem, na literatura, referências ao uso de outras medidas ou distâncias usadas no agrupamento de dados: distância de Manhattan ou City-block, que é um outro caso particular da distância de Minkowski, onde 𝑝 = 1 [117], distância de Mahalanobis [114], Medida Correlacional de Pearson [117] e Divergência de Bregman [16], dentre outras medidas.

(46)

2.5.1 Medida de Proximidades para Variáveis Modais

Considere agora os objetos 𝑠𝑖 e 𝑠𝑘 sendo descritos por 𝑝 variáveis modais.

En-tão os objetos 𝑠𝑖e 𝑠𝑘são representados, respectivamente, por: [({𝑐1𝑖},𝜋𝑖1), . . . , ({𝑐 𝑝 𝑖},𝜋 𝑝 𝑖)] e [({𝑐1 𝑘},𝜋𝑘1), . . . , ({𝑐 𝑝 𝑘},𝜋 𝑝 𝑘)], onde {𝑐 𝑗 𝑖} ; {𝑐 𝑗 𝑘} e 𝜋 𝑗 𝑖 ; 𝜋 𝑗 𝑘 representam,

respectiva-mente, os conjuntos de categorias que as variáveis assumem e o vetor de frequên-cias correspondentes às categorias.

Seja 𝑛𝑗 o número máximo de categorias do conjunto domínio da variável 𝑗

(𝑗 = 1, . . . , 𝑝). Os vetores de pesos dos objetos 𝑠𝑖 e 𝑠𝑘 para a variável 𝑗 são,

respectivamente, dados por: 1. 𝜋𝑗 𝑖 = (𝜋 𝑗 𝑖1, . . . , 𝜋 𝑗 𝑖𝑛𝑗) com 𝜋 𝑗

𝑖ℎ = 0, se categoria ℎ não pertence ao conjunto

{𝑐𝑗𝑖}, e ∑︀𝑛𝑗 ℎ=1𝜋 𝑗 𝑖ℎ = 1; 2. 𝜋𝑗 𝑘= (𝜋 𝑗 𝑘1, . . . , 𝜋 𝑗 𝑘𝑛𝑗) com 𝜋 𝑗

𝑘ℎ = 0, se categoria ℎ não pertence ao conjunto

{𝑐𝑗𝑘}, e

∑︀𝑛𝑗

ℎ=1𝜋 𝑗 𝑘ℎ = 1;

Chavent et al. [39] introduziram uma distância entre dados modais que tam-bém é definida usando os componentes de comparação e agregação. A função de comparação é a distância de Minkowski aplicada aos vetores de pesos 𝜋𝑗

𝑖 e 𝜋 𝑗 𝑘

em nível de variável 𝑗 (𝑗 = 1, . . . , 𝑝) e a função de agregação é uma medida para agregar todas as comparações e obter uma dissimilaridade global.

𝑑𝑗(𝜋 𝑗 𝑖,𝜋 𝑗 𝑗) = 𝑛𝑗 ∑︁ ℎ=1 (𝜋_𝑖ℎ𝑗 _{− 𝜋}𝑗_𝑘ℎ)2 (função de comparação) (2.2) 𝑑(𝑖,𝑘) = 𝑝 ∑︁ 𝑗=1 𝑑𝑗(𝜋𝑖𝑗,𝜋 𝑗 𝑘) (função de agregação) (2.3)

(47)

21 2.5. Medidas de Proximidades

2.5.2 Medida de Proximidades para Variáveis não Modais

De acordo com Gowda e Diday [95] a proximidade entre dois objetos 𝑠𝑖 e 𝑠𝑘

é definida por: 𝑑(𝑖,𝑘) = 𝑝 ∑︁ 𝑗=1 𝐷(𝜉𝑗_𝑖, 𝜉𝑗_𝑘) (2.4)

Esta função 𝑑(𝑖,𝑘) mede as diferenças entre os vetores ξ𝑖 = (𝜉𝑖1, . . . , 𝜉 𝑝 𝑖), que

represente 𝑠𝑖 e ξ𝑘 = (𝜉𝑘1, . . . , 𝜉 𝑝

𝑘), que representa 𝑠𝑘.

Para medir as diferenças entre o par (𝜉𝑗 𝑖, 𝜉

𝑗

𝑘) em nível da variável 𝑗 (𝑗 =

1, . . . ,𝑝), a função 𝐷(𝜉_𝑖𝑗,𝜉_𝑘𝑗) tem duas versões: (i) Variáveis quantitativas e do tipo intervalo:

Sejam 𝜉𝑗 𝑖 = [𝑎 𝑗 𝑖 : 𝑏 𝑗 𝑖] e 𝜉 𝑗 𝑘 = [𝑎 𝑗 𝑘 : 𝑏 𝑗

𝑘] e 𝑂𝑗 o domínio (intervalo máximo) da

variável 𝑗 representado por 𝜉𝑗

𝑜 = [𝑎𝑗𝑜 : 𝑏𝑗𝑜]. A função 𝐷(𝜉 𝑗 𝑖, 𝜉 𝑗 𝑘) é dada por: 𝐷(𝜉_𝑖𝑗,𝜉_𝑘𝑗) = 𝐷𝑝(𝜉𝑖𝑗,𝜉 𝑗 𝑘) + 𝐷𝑠(𝜉𝑗𝑖,𝜉 𝑗 𝑘) + 𝐷𝑐(𝜉𝑖𝑗,𝜉 𝑗 𝑘) (2.5) com 0 ≤ 𝐷𝑝 ≤ 1, 0 ≤ 𝐷𝑠 ≤ 1 e 0 ≤ 𝐷𝑐≤ 1. A componente 𝐷𝑝(𝜉𝑖𝑗,𝜉 𝑗

𝑘)mede as diferenças em posição entre 𝜉 𝑗 𝑖 e 𝜉 𝑗 𝑘. 𝐷𝑝(𝜉𝑗𝑖,𝜉 𝑗 𝑘) = |𝑎𝑗𝑖 − 𝑎 𝑗 𝑘| |𝑎𝑗𝑜− 𝑏𝑗𝑜| (2.6) A componente 𝐷𝑠(𝜉 𝑗 𝑖,𝜉 𝑗

𝑘) mede as diferenças em extensão entre 𝜉 𝑗 𝑖 e 𝜉 𝑗 𝑘. 𝐷𝑠(𝜉𝑖𝑗,𝜉 𝑗 𝑘) = |𝐼(𝜉𝑖𝑗)− 𝐼(𝜉 𝑗 𝑘)| 𝐼𝑠 (2.7)

(48)

𝑘) mede as diferenças em conteúdo entre 𝜉 𝑗 𝑖 e 𝜉 𝑗 𝑘. 𝐷𝑐(𝜉𝑖𝑗,𝜉 𝑗 𝑘) = 𝐼(𝜉_𝑖𝑗) + 𝐼(𝜉𝑗_𝑘)_{− 2𝐼(𝜉}_𝑖𝑗 _{∩ 𝜉}_𝑘𝑗) 𝐼𝑠 (2.8) onde 𝐼(𝜉𝑗 𝑖 ∩ 𝜉 𝑗 𝑘) =|𝜉 𝑗 𝑖 ∩ 𝜉 𝑗 𝑘|.

(ii) Variáveis Categóricas (ordinais ou nominais): Sejam 𝜉𝑗

𝑖 e 𝜉 𝑗

𝑘 dois conjuntos quaisquer. A função 𝐷(𝜉 𝑗 𝑖,𝜉 𝑗 𝑘)é dada por: 𝐷(𝜉_𝑖𝑗,𝜉_𝑘𝑗) = 𝐷𝑠(𝜉𝑖𝑗,𝜉 𝑗 𝑘) + 𝐷𝑐(𝜉 𝑗 𝑖,𝜉 𝑗 𝑘) (2.9) com 0 ≤ 𝐷𝑠 ≤ 1 e 0 ≤ 𝐷𝑐≤ 1. A componente 𝐷𝑠(𝜉𝑖𝑗,𝜉 𝑗

𝑘) mede as diferenças em extensão entre 𝜉 𝑗 𝑖 e 𝜉 𝑗 𝑘. 𝐷𝑠(𝜉 𝑗 𝑖,𝜉 𝑗 𝑘) = |𝐼(𝜉𝑖𝑗)− 𝐼(𝜉 𝑗 𝑘)| 𝐼𝑠 (2.10) onde 𝐼(𝜉𝑗 𝑖)é o cardinal de 𝜉 𝑗 𝑖, 𝐼(𝜉 𝑗 𝑘)é o cardinal de 𝜉 𝑗 𝑘e 𝐼𝑠 é o cardinal do conjunto 𝜉_𝑖𝑗 _{∪ 𝜉}_𝑘𝑗. A componente 𝐷𝑐(𝜉𝑖𝑗,𝜉 𝑗

𝑘) medindo as diferenças em conteúdo entre 𝜉 𝑗 𝑖 e 𝜉 𝑗 𝑘 é dada por: 𝐷𝑐(𝜉𝑖𝑗,𝜉 𝑗 𝑘) = 𝐼(𝜉_𝑖𝑗) + 𝐼(𝜉𝑗_𝑘)_{− 2𝐼(𝜉}_𝑖𝑗 _{∩ 𝜉}_𝑘𝑗) 𝐼𝑠 (2.11) onde 𝐼(𝜉𝑗 𝑖 ∩ 𝜉 𝑗 𝑘) é o cardinal do conjunto 𝜉 𝑗 𝑖 ∩ 𝜉 𝑗 𝑘.

(49)

23 2.5. Medidas de Proximidades dois objetos 𝑠𝑖 e 𝑠𝑘: uma função de comparação em nível de cada variável, e

uma função de agregação, para agregar as comparações e obter uma função de dissimilaridade global. Estas funções usam o conceito de junção (⊕).

• Para variáveis do tipo intervalo e quantitativas e ordinais com intervalos 𝜉_𝑖𝑗 = [𝑎𝑗_𝑖 : 𝑏𝑗_𝑖] e 𝜉_𝑘𝑗 = [𝑎𝑗_𝑘 : 𝑏𝑗_𝑘], a junção é definida pelo intervalo 𝜉_𝑖𝑗 _{⊕ 𝜉}_𝑘𝑗 = [𝑚𝑖𝑛(𝑎𝑗_𝑖 : 𝑎𝑗_𝑘) : 𝑚𝑎𝑥(𝑏𝑗_𝑖 : 𝑏𝑗_𝑘)].

• Para variáveis nominais, a junção torna-se a união entre 𝜉𝑗 𝑖 e 𝜉 𝑗 𝑘: 𝜉 𝑗 𝑖 ⊕ 𝜉 𝑗 𝑘 = 𝜉_𝑖𝑗 _{∪ 𝜉}_𝑘𝑗.

Seja 𝑂𝑗 o domínio da variável 𝑗 representado por 𝜉𝑜𝑗. As funções de comparação

e agregação para dados quantitativos (e do tipo intervalo) e categóricos são: (i) Função de comparação

𝜑(𝜉_𝑖𝑗,𝜉_𝑘𝑗) = 𝜇(𝜉_𝑖𝑗_{⊕ 𝜉}_𝑘𝑗)_{− 𝜇(𝜉}_𝑖𝑗 _{∩ 𝜉}_𝑘𝑗) + 𝛾(2𝜇(𝜉_𝑖𝑗 _{∩ 𝜉}_𝑘𝑗)_{− 𝜇(𝜉}_𝑖𝑗)_{− 𝜇(𝜉}_𝑘𝑗)) (2.12) onde 0 ≤ 𝛾 ≤ 0.5 e 𝜇(𝜉𝑗 𝑖) e 𝜇(𝜉 𝑗 𝑘) são, respectivamente: • −|𝑏𝑗 𝑖 − 𝑎 𝑗 𝑖| e |𝑏 𝑗 𝑘− 𝑎 𝑗

𝑘|, se a variável 𝑗 é do tipo intervalo.

• −|𝜉𝑗 𝑖| e |𝜉

𝑗

𝑘| (cardinais dos conjuntos), se 𝑗 é uma variável multivalorada.

Ichino e Yaguchi propuseram uma versão normalizada para 𝜑(𝜉𝑗 𝑖,𝜉 𝑗 𝑘): 𝛹 (𝜉_𝑖𝑗,𝜉_𝑘𝑗) = 𝜑(𝜉 𝑗 𝑖,𝜉 𝑗 𝑘) 𝜇(𝜉𝑜𝑗) (2.13) onde 𝜇(𝜉𝑗

𝑜) = |𝑎𝑗𝑜 − 𝑏𝑗𝑜|, se a variável é do tipo intervalo ou 𝜇(𝜉𝑜𝑗) = |𝜉𝑜𝑗|, se a

(50)

De Carvalho [59] também propôs uma versão normalizada para 𝜑(𝜉𝑗 𝑖,𝜉 𝑗 𝑘): 𝜓(𝜉𝑗_𝑖,𝜉𝑗_𝑘) = 𝜑(𝜉 𝑗 𝑖,𝜉 𝑗 𝑘) 𝜇(𝜉𝑗_𝑖 _{⊕ 𝜉}𝑗_𝑘) (2.14)

(ii) Função de agregação

𝑑𝑞(𝑖,𝑘) = [︃ _𝑝 ∑︁ 𝑗=1 𝑤𝑗(𝐹 𝐶(𝜉𝑖𝑗,𝜉 𝑗 𝑘)) 𝑞 ]︃1/𝑝 (2.15) com 𝑞 ≥ 1, 𝑤𝑗 > 0 e ∑︀ 𝑝 𝑗=1𝑤𝑗 = 1 𝐹 𝐶 = 𝜑, 𝐹 𝐶 = 𝛹 ou 𝐹 𝐶 = 𝜓.

De Carvalho ( [58], [59], [60], [62]) apresentou duas extensões das medidas de Ichino e Yaguchi [IY94]. A primeira combina diferentes funções de comparação e de agregação, tal como a distância de Minkowski e suas variantes. A segunda introduz dois tipos de dependências lógicas entre as variáveis simbólicas. Uma destas extensões para dados simbólicos quantitativos e categóricos é descrita abaixo.

A distância entre os objetos 𝑖 e 𝑘 é definida por:

𝑑(𝑖,𝑘) = 𝜋(𝑖_{⊕ 𝑘) − 𝜋(𝑖 ∩ 𝑘) + 𝛾(2𝜋(𝑖 ∩ 𝑘) − 𝜋(𝑖) − 𝜋(𝑘))} (2.16)

onde 𝜋(𝑠) é o potencial de descrição do objeto 𝑠.

Seja 𝑠 um objeto representado pelo vetor ξ𝑠 = (𝜉1𝑠, . . . , 𝜉𝑝𝑠). O potencial de

descrição do objeto 𝑠 é dado por:

𝜋(𝑠) =

𝑝

∏︁

𝑗=1

(51)

25 2.6. Mapeando uma Variável Intervalar para uma Variável Modal A distância 𝑑(𝑖,𝑘) tem duas versões normalizadas:

𝑑(𝑖,𝑘) = 𝜋(𝑖⊕ 𝑘) − 𝜋(𝑖 ∩ 𝑘) + 𝛾(2𝜋(𝑖 ∩ 𝑘) − 𝜋(𝑖) − 𝜋(𝑘))

𝜋(𝑂) (2.18)

onde 𝑂 é o domínio da variáveis representado por ξ𝑜 = (𝜉𝑜1, . . . , 𝜉𝑜𝑝) sendo 𝜉𝑜𝑗

o intervalo máximo que a variável 𝑗 assume, se esta é do tipo intervalo ou o conjunto dos possíveis valores de 𝑗, se esta é multivalorada.

𝑑(𝑖,𝑘) = 𝜋(𝑖⊕ 𝑘) − 𝜋(𝑖 ∩ 𝑘) + 𝛾(2𝜋(𝑖 ∩ 𝑘) − 𝜋(𝑖) − 𝜋(𝑘))

𝜋(𝑖_{⊕ 𝑘)} (2.19)

2.6 Mapeando uma Variável Intervalar para uma

Variável Modal

Esta seção expõe as etapas de transformar vetores de dados do tipo intervalo em vetores de dados do tipo modal. Uma solução possível para este problema é definir um método para transformar uma variável do tipo intervalo a uma variável do tipo modal [68].

Seja um objeto simbólico booleano onde Y = (𝑌1, . . . ,𝑌𝑝). Considere 𝑌 uma

variável não modal do tipo intervalo que assume um intervalo [𝑎 : 𝑏] ∈ 𝐼 = {[𝑎 : 𝑏] : 𝑎,𝑏 _{∈ R, 𝑎 ≤ 𝑏}. Isso significa que 𝑌}𝑗(𝑖) = 𝑦𝑗𝑖 = [𝑎

𝑗 𝑖 : 𝑏

𝑗

𝑖] é um intervalo do

item 𝑖 para a variável 𝑗.

Neste caso, a variável simbólica intervalar 𝑌𝑗 é transformada na variável

simbólica modal 𝑌̃︀𝑗 da seguinte forma: 𝑌̃︀𝑗(𝑖) = ̃︀𝑦

𝑗

𝑖 = ( ̃︀𝐴𝑗, 𝜋𝑗(𝑖)), onde, 𝐴̃︀𝑗 = {𝐼1𝑗, . . . ,𝐼

𝑗

(52)

um vetor de pesos 𝜋𝑗_{(𝑖) = (𝜋}𝑗 1(𝑖), . . . , 𝜋 𝑗 𝑐𝑗(𝑖)). O tamanho 𝑐𝑗 _{da lista} ̃︀

𝐴𝑗 é um número pré-determinado que satisfaz as seguintes propriedades: 1. ⋃︀𝑐𝑗 ℎ=1𝐼 𝑗 ℎ = [min{𝑎 𝑗 𝑖}, max{𝑏 𝑗 𝑖}] 2. 𝐼𝑗 ℎ⋂︀ 𝐼 𝑗 ℎ′ =∅ se ℎ ̸= ℎ′ 3. ∀ℎ ∃𝑖 ∈ 𝛺 tal que 𝐼𝑗 ℎ⋂︀ 𝑦 𝑗 𝑖 ̸= ∅ 4. ∀ℎ se ℎ ̸= ℎ′ _ℓ(𝐼𝑗 ℎ) = ℓ(𝐼 𝑗

ℎ′) onde ℓ(𝐼) é o comprimento de um intervalo

fechado 𝐼. O peso 𝜋𝑗 ℎ(𝑖)(ℎ = 1, . . . ,𝑐 𝑗₎_{do intervalo elementar 𝐼}𝑗 ℎ é definido como [33, 64]: 𝜋_𝑟𝑗(𝑖) = 𝑙(𝐼 𝑗 𝑟 ∩ 𝑦 𝑗 𝑖) 𝑙(𝑦_𝑖𝑗) (2.20)

Para ilustrar esse processo de transformar dados intervalares em dados modais, suponha que uma amostra com três itens 𝛺 = {𝑒1,𝑒2,𝑒3} e seja 𝑌 uma variável

intervalar que descreve esses indivíduos 𝑌 (𝑒1) = [0 : 45], 𝑌 (𝑒2) = [25 : 70] e

𝑌 (𝑒3) = [100 : 120]. Para transformar uma variável intervalar em uma variável

modal, executamos os seguintes passos:

1. Encontre os limites inferior mínimo e superior máximo de todos os intervalos. Assim, temos: 𝑋(𝐸) = [0 : 120].

2. Defina o número de 𝑐 categorias 𝐴̃︀. Seja 𝑐 = 25, então 𝐴 =̃︀ {[0 : 25) ; [25 : 50); [50 : 75) ; [75 : 100) ; [100 : 125]}.

(53)

27 2.7. Métodos Estendidos para Dados Simbólicos 3. Para cada item 𝑖 de 𝛺 calcule o vetor de pesos 𝜋(𝑖) de acordo com a

Equação 2.20 a fim de obter uma descrição modal (𝐴,𝜋(𝑖))̃︀ deste item. Em relação à amostra 𝛺 = {𝑒1,𝑒2,𝑒3} as descrições modais correspondentes

são: ̃︀ 𝑥1 = ([0 : 25), 0,55; [25 : 50), 0,45; [50 : 75), 0,0; [75 : 100), 0,0; [100 : 125), 0,0) ̃︀ 𝑥2 = ([0 : 25), 0,0; [25 : 50), 0,55; [50 : 75), 0,45; [75 : 100), 0,0; [100 : 125), 0,0) ̃︀ 𝑥3 = ([0 : 25), 0,0; [25 : 50), 0,0; [50 : 75), 0,0; [75 : 100), 0,0; [100 : 125), 1,0)

2.7 Métodos Estendidos para Dados Simbólicos

A Análise de Dados Simbólicos cresceu bastante como campo de pesquisa tendo sua importância atestada em múltiplas publicações e conferências. A seguir, apresentamos alguns trabalhos de SDA nas áreas de análise fatorial, medidas de similaridade e dissimilaridade, seleção de variáveis, estatísticas descritivas, entre outros métodos.

No final da década de 80, Diday e outros pesquisadores apresentam a SDA como uma alternativa de representação inovadora para os dados [75]. A SDA tem se preocupado ultimamente em generalizar métodos da mineração de dados e da estatística ao nível dos novos conceitos de dados simbólicos. Desde os primeiros trabalhos mostrando os princípios deste novo campo, muitos outros foram desenvolvidos [77, 78, 79].

A análise exploratória de dados [183] foi uma das primeiras técnicas esta-tísticas empregadas para tratamento de dados simbólicos. Alguns conceitos de

(54)

estatística descritiva como média amostral, variância amostral e distribuição de frequência foram desenvolvidos no caso univariado (𝑝 = 1) para variáveis sim-bólicas intervalares, multi-valorada e modal [21]. De Carvalho [33] introduziu a noção de histograma para dados simbólicos booleanos. Noirhomme-Fraiture e Rouard [151] apresentaram um método gráfico, chamado de Zoom Star, onde é possível visualizar objetos simbólicos.

Na literatura de SDA, tem sido propostas diversas medidas de dissimilaridade Gowda e Diday [95] apresentaram uma nova medida considerando posição, exten-são e conteúdo dos objetos. Ichino e Yaguchi [107] propuseram uma generalização da métrica de Minkowski para dados complexos. De Carvalho [58] introduziu me-didas de proximidade inspiradas na combinação dos índices de variáveis binárias como uma função de comparação com a métrica de Minkowski como função de agregação, levando em conta regras de dependências entre variáveis. De Carvalho e Souza [62] apresentaram uma extensão da medida de Ichino e Yaguchi [107] onde são introduzidas dependências lógicas entre as variáveis e De Carvalho e Souza [63] combinam histogramas e dependências lógicas para definir medidas de proximidade dependentes do contexto.

Outra importante técnica estatística desenvolvida para dados simbólicos é a análise de agrupamento (cluster). O objetivo dos métodos de agrupamento é classificar um conjunto de objetos simbólicos em 𝑘 classes, de forma que os objetos pertencentes a uma mesma classe sejam similares (ou homogêneos) e dissimilares (ou heterogêneo) entre as classes. Ichino e Yaguchi [107], Gowda e Diday [95] Guru et al. [99] propuseram medidas de similaridade ou dissimilaridade para mensurar a distância entre objetos simbólicos. Billard e Diday [26] apresentam as principais medidas de distância para objetos simbólicos booleanos e modais.

(55)

29 2.7. Métodos Estendidos para Dados Simbólicos O conceito de agrupamento para variáveis simbólicas de natureza interva-lar, multi-valorada e modal, utilizando um algoritmo de agrupamento do tipo divisivo-hierárquico foi apresentado por Chavent [38]. Ela menciona que o método proposto fornece uma fácil interpretação e obteve bons resultado em grandes ba-ses de dados. Em contraste com os métodos divisivos, os métodos aglomerativos iniciam com cada objeto simbólico representando um agrupamento primário. O objetivo do algoritmo aglomerativo é unir os objetos em grupos maiores, formando os agrupamentos finais. Gowda e Diday [95] sugeriram um algoritmo aglomera-tivo baseado em uma medida de similaridade que pode ser usada em variáveis simbólicas quantitativas e qualitativas. Diday [76] desenvolveu agrupamentos piramidais para dados clássicos.

Diday apresentou o método de nuvens dinâmicas [1, 84] o qual é um mé-todo iterativo com dois passos em que, no primeiro, são construídos grupos para, em seguida, selecionar ou calcular os protótipos ideais de cada grupo gerado visando otimizar localmente um critério que mede o ajuste entre os grupos e seus protótipos correspondentes. Verde e De Carvalho [190] introduziram um algoritmo de nuvens dinâmica para dados simbólicos considerando funções de proximidade dependente do contexto onde os protótipos das classes são vetores de distribuições de pesos. Chavent e Lechevallier [40] propuseram um algoritmo de nuvens dinâmicas para dados simbólicos tipo intervalo onde o critério é ba-seado em uma distância de Hausdorff. Souza [72] desenvolveu novos métodos de agrupamento para dados intervalares utilizando algoritmos do tipo nuvens dinâmicas. Souza e De Carvalho [73] introduziram novos métodos de partição para dados tipo-intervalo baseados na distância city-block, que representam uma extensão do algoritmo de nuvens dinâmicas usado em dados usuais. De Carvalho

(56)

et al. [56] propuseram um método dinâmico de partição para dados intervala-res baseado na distância de Hausdorff. A vantagem desta abordagem é que o algoritmo de agrupamento se adapta a grupos de diferentes formas e tamanhos. Os resultados obtidos no processo experimental mostraram uma maior precisão quando comparado a outros algoritmos.

Diday e Gouvaert [82] introduziram uma das primeiras abordagens que usam pesos nas distâncias em algoritmos particionais de dados quantitativos. Keller e Klawonn [119] desenvolveram um algoritmo similar à versão simplificada de Gustafson e Kessel [100] exceto que estes pesos eram elevados a um expoente 𝑡 que controlava o quão forte deve ser a influência das variáveis. De Carvalho et al. [67] introduziram o algoritmo de agrupamento fuzzy c-means baseado em distâncias fixas e adaptativas para dados reais. O termo adaptativo surge do fato de que as distâncias mudam a cada iteração, logo a cada iteração diferentes conjuntos de pesos são obtidos. De Carvalho e Lechevallier [65] introduziram métodos de agrupamento dinâmico para particionamento de dados simbólicos do tipo intervalo utilizando distâncias adaptativas únicas City-block e Hausdorff e em [34] De Carvalho e Lechevallier apresentam métodos de agrupamentos dinâmicos para dados de intervalo baseados em adequadas distâncias quadráticas adaptativas. De Carvalho e Tenório [66] apresentam métodos de agrupamento k-médias difuso a fim de agrupar objetos descritos por variáveis do tipo intervalo baseados em distâncias quadráticas adaptativas. De Carvalho e Souza [64] introduzem métodos de agrupamentos dinâmicos para dados simbólicos com características mistas baseados em uma adequada distância Euclidiana adaptativa quadrática. Brito e Chavent [30] apresentaram um método de agrupamento divisivo top-down para dados do tipo intervalo e histogramas.

(57)

31 2.7. Métodos Estendidos para Dados Simbólicos Na área de redes neurais, Bock [28] apresentou métodos de partição para dados de natureza intervalar e a utilização de mapas de Kohonen [124] para visualização de dados simbólicos. Mais recentemente, Chen et al. [42, 43] apresentaram uma versão batch do algoritmo de Kohonen intervalar, denominado de BS-SOM (do inglês, batch symbolic SOM ). Yang et al. [44, 199] apresentaram uma modificação do algoritmo SOM utilizando dados simbólicos. Roque et al. [157] criaram uma rede Multi-Layer Perceptron para dados do tipo intervalo. Prudêncio et al. [156] apresentaram um método de classificação supervisionada para seleção de modelos para a previsão de séries temporais.

A Análise Fatorial no contexto de dados simbólicos foi abordada por Ca-zes et al. [153]. Eles introduziram um método geométrico de classificação não-supervisionado em que indivíduos são descritos por vetores de intervalos numé-ricos. Palumbo et al. [154] propuseram uma generalização da Análise Fatorial Discriminante para objetos simbólicos. Gettler-Summa e Pardoux [93] apresen-tam uma abordagem simbólica para Análise Fatorial em tabelas com três entradas. As tabelas de três entradas constituem numa extensão da tabela bidimensional, onde o tempo ou espaço é tratado como a terceira dimensão.

Para os métodos de seleção de variáveis, Ichino [106] propôs um método onde a seleção de variáveis é representada por um problema de programação inteira zero-um. Nos anos seguintes ele generalizou os seus métodos para tratar variáveis simbólicas [107]. Vignes [191] desenvolveu uma outra abordagem para a seleção de variáveis simbólicas booleanas que foi estendida por Ziani [205] para levar em conta regras de dependência entre esse tipo de variável.

Billard e Diday [24] foram os primeiros a propor um modelo de regressão para dados simbólicos de natureza intervalar. A abordagem proposta por eles

(58)

consiste em minimizar a soma dos quadrados dos erros dos pontos médios dos intervalos. Posteriormente, eles apresentaram outra abordagem que ajusta um modelo de regressão linear no caso de dados tipo-histograma. Alfonso et al. [10] apresentaram um modelo de regressão para variáveis taxonômicas e hierárquicas. De Carvalho et al. [55] apresentaram um novo modelo de regressão simbólica para dados do tipo intervalo. Neto e De Carvalho [54] estenderam este modelo para levar em conta restrições. Neto e De Carvalho [53] criaram também um modelo de regressão simbólica baseado no centro e range dos dados do tipo intervalo e o mesmo modelo com restrições. Domingues [71] propôs e avaliou três métodos estimadores de potenciais outliers no domínio dos dados simbólicos do tipo intervalo. Posteriormente, apresentou o método de Regressão Linear Simétrica Simbólica para Dados Intervalares (RLSS-DI), que possibilita a construção de intervalos de confiança e testes de hipóteses sobre os parâmetros estimados do modelo.

(59)

Capítulo 3

Descritores de Forma e Textura

Neste capítulo, são introduzidos conceitos fundamentais de descritores de forma e textura relacionados ao contexto deste trabalho, principalmente os des-critores de forma baseados em curvatura e os desdes-critores de textura baseados em abordagens estatísticas.

3.1 Descritores baseados em Forma

A identificação e descrição de formas em imagens têm utilidade em diversas aplicações, como, por exemplo, o reconhecimento de caracteres alfanuméricos, a detecção e reconhecimento de pessoas em sistemas de segurança, o rastreamento de objetos em vídeos, etc. Para extração de características de forma, é necessário que a imagem esteja segmentada, ou seja, encontrar e delimitar o objeto de interesse, separando do fundo e fazendo com que a recuperação por formas seja tipicamente limitada aos poucos objetos melhor discriminados que estão presentes na imagem [130].

Abordagem híbrida para representação de forma e textura baseada em dados simbólicos

“Abordagem Híbrida para Representação de

Forma e Textura Baseada em Dados Simbólicos”

Carlos Wilson Dantas de Almeida

CENTRO DE INFORMÁTICA

PÓS-­‐GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

CARLOS WILSON DANTAS DE ALMEIDA

“Abordagem Híbrida para Representação de Forma e Textura

Baseada em Dados Simbólicos"

Agradecimentos

Resumo

Abstract

Capítulo 1

Introdução

1.1

Objetivos

1.2

Organização da Tese

Capítulo 2

Análise de Dados Simbólicos

2.1

Introdução

2.2

Um Breve Histórico

2.3

Tabela de Dados Simbólicos

2.4

Variáveis Simbólicas

2.4.1

Tipos de Variáveis

2.5

Medidas de Proximidades

2.5.1

Medida de Proximidades para Variáveis Modais

2.5.2

Medida de Proximidades para Variáveis não Modais

2.6

Mapeando uma Variável Intervalar para uma

Variável Modal

2.7

Métodos Estendidos para Dados Simbólicos

Capítulo 3

Descritores de Forma e Textura

3.1

Descritores baseados em Forma

PÓS-‐GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO