• Nenhum resultado encontrado

Análise Classificatória de Dados Distribucionais: Abordagem Simbólica e Composicional

N/A
N/A
Protected

Academic year: 2021

Share "Análise Classificatória de Dados Distribucionais: Abordagem Simbólica e Composicional"

Copied!
117
0
0

Texto

(1)

Tese de Mestrado em An´alise de Dados e Sistemas de Apoio `a Decis˜ao

An´

alise Classificat´

oria de Dados Distribucionais

Abordagem Simb´

olica e Composicional

por

Maria do Ros´

ario Guimar˜

aes Almeida Moreira

Orientada por

Professora Doutora Paula Brito

Faculdade de Economia

Universidade do Porto

(2)

Nota Biogr´

afica

Mestrado em Matem´atica/Educa¸c˜ao com a classifica¸c˜ao de Muito Bom, com disserta¸c˜ao na ´area da Matem´atica Discreta, subordinado ao tema ’Dos grafos aos Grid´oides’.

Licenciatura em Matem´atica Ramo Educacional na FCUP, com 12 valores. Experiˆencia Profissional

Setembro 1986/Setembro 1988: Professora do Ensino B´asico e Secund´ario na Escola Secund´aria Aur´elia de Sousa.

Outubro 1988/Outubro 1989: Efetivou-se na Escola C+S de Moreira da Maia, acumulando a fun¸c˜ao de Delegada de Grupo.

Outubro 1989/Agosto 1991: A pedido da Escola Secund´aria Aur´elia de Sousa, pediu destacamento para esta para participar no projeto MINERVA.

Setembro 1991/1994: Apesar de em 1991 ficar colocada efetiva na Escola Secund´aria Rodrigues de Freitas, preferiu ir trabalhar para a Escola Agr´ıcola em Barcelos, ligada ao IEFP, exercendo cargos de Respons´avel da Ano e de car´acter administrativo.

Setembro 1994/2001: Retoma o seu lugar como professora na Escola Secund´aria Rodrigues de Freitas.

1999/2000: Acumulou fun¸c˜oes de docˆencia no Instituto Polit´ecnico de Gaia no dom´ınio da ´Algebra e da An´alise.

2001/2005: Lecionou a tempo total no ISPGaya, na qualidade de requisitada. Regente das disciplinas de Estat´ıstica e de Investiga¸c˜ao Operacional. Assistente nas disciplinas de Matem´atica I e Matem´atica II. Era a respons´avel pela an´alise dos resultados dos diferentes inqu´eritos realizados na institui¸c˜ao.

2004/2005: Passou tamb´em a ser regente das cadeiras de Matem´atica I e Matem´atica II nos cursos de engenharia e em 2005/06 rege as mesmas disciplinas mas para os cursos de Contabilidade e Gest˜ao e Inform´atica de Gest˜ao.

(3)
(4)

Agradecimentos

A realiza¸c˜ao desta disserta¸c˜ao de mestrado n˜ao seria poss´ıvel sem os apoios e incentivos de muitos. Assim estou profundamente grata:

Aos meus pais a quem devo tudo de bom quanto sou. `

A Professora Doutora Paula Brito, minha orientadora, pela grande paciˆencia que teve, pelo empenho demonstrado e pelas palavras de incentivo.

`

A minha fam´ılia que est´a sempre comigo.

Aos meus amigos sem os quais a vida seria muito pobre. Aos meus colegas de trabalho.

(5)

Tabela de S´ımbolos Matem´

aticos e

Abreviaturas

Nota¸c˜ao Descri¸c˜ao

SDA Symbolic Data Analysis ADS An´alise de Dados Simb´olicos ASM Abordagem Simb´olica Modal ASH Abordagem Simb´olica Histograma

AC Abordagem Composicional

x = [x1, . . . , xD] Composi¸c˜ao x

C(x) Operador de Fecho da Composi¸c˜ao x x ∼ y Composi¸c˜ao x Equivalente `a Composi¸c˜ao y ⊕ Opera¸c˜ao Perturba¸c˜ao no Espa¸co Simplex ⊗ Opera¸c˜ao Potˆencia no Espa¸co Simplex

< x, y > Produto Interno da Composi¸c˜ao x com a Composi¸c˜ao y alr Transforma¸c˜ao Logar´ıtmica Aditiva

clr Transforma¸c˜ao Logar´ıtmica Centrada ilr Transforma¸c˜ao Logar´ıtmica Isom´etrica Ψ Fun¸c˜ao Quantil de uma Vari´avel Histograma

(6)

Resumo

O aumento significativo de informa¸c˜ao com que nos deparamos diariamente nas mais diversas ´areas torna premente o desenvolvimento de novas t´ecnicas de agrega¸c˜ao, an´alise e manipula¸c˜ao de dados, com vista a extrair toda a informa¸c˜ao verdadeiramente importante. Esse objetivo pode ser alcan¸cado atrav´es da utiliza¸c˜ao de dados mais complexos denominados por simb´olicos. Neste novo tipo de dados cada vari´avel pode assumir um conjunto finito de valores/categorias, intervalos e distribui¸c˜oes de probabilidade/frequˆencia. Assim, a An´alise de Dados Simb´olicos requer t´ecnicas estat´ısticas apropriadas `a essˆencia desta nova natureza de dados.

Os dados composicionais s˜ao vetores cujas componentes, n˜ao negativas, s˜ao propor¸c˜oes ou percentagens de um todo, sendo, portanto a sua soma sempre constante. Nenhuma vari´avel ´e explicada isoladamente. Nesta abordagem torna-se necess´ario a defini¸c˜ao de um novo espa¸co: Espa¸co Simplex onde se definem duas opera¸c˜oes: perturba¸c˜ao e permuta¸c˜ao e, porque os elementos desse espa¸co s˜ao r´acios ´e necess´ario definir transforma¸c˜oes logar´ıtmicas.

Nesta disserta¸c˜ao pretende -se comparar m´etodos de classifica¸c˜ao hier´arquica e n˜ao hier´arquica sob o ponto de vista das abordagens simb´olicas e composicional. Palavras-Chave: Dados Simb´olicos, Dados Composicionais, Classifica¸c˜ao Hier´ ar-quica, Classifica¸c˜ao n˜ao-Hier´arquica.

(7)

Abstract

Due to the significant increase of information we face daily in several areas, it is urgent to develop new techniques of aggregation, analysis and handling of data in order to extract all the truly important information. This goal can be achieved through the use of more complex data called symbolic. In this new data type each variable can take on a finite set of values /categories, intervals and probability / frequency distributions. Thus, the Analysis of Symbolic Data requires statistical techniques which are appropriate to the essence of this new nature of data

Compositional data consist of vectors whose components are the proportion or percentages of some whole.and they to non-negativity and constant-sum con-straints.No variable is free to vary independent of all rhe others..In this aproach e is necessary a specific space called Simlpex Space where two operations are defined: the pertubation and the permutation. In order to preserve the properties of the composition when we apply those operations, and because their elements are ratios, it is necessary to carry out logarithmic transformationss.

In this dissertation it is intended to compare methods of hierarchical and non-hierarchical classification from the point of view of the symbolic and compositional approaches.

Keywords: Symbolic Data, Compositional Data, Hierarchical Clustering, non-Hierarchical Clustering

(8)

´

Indice

Nota Biogr´afica i

Agradecimentos iii

Tabela de S´ımbolos Matem´aticos iv

Resumo v Abstract vi 1 Introdu¸c˜ao 1 1.1 Motiva¸c˜ao . . . 2 1.2 Objetivos . . . 3 1.3 Organiza¸c˜ao . . . 3

2 An´alise Simb´olica 4 2.1 Diversos Tipos de Vari´aveis . . . 5

2.1.1 Vari´avel Quantitativa de Valor ´Unico . . . 6

2.1.2 Vari´avel Quantitativa de Valor M´ultiplo . . . 6

2.1.3 Vari´avel Intervalar . . . 6

2.1.4 Vari´avel Histograma . . . 7

2.1.5 Vari´avel Categ´orica de Valor ´Unico . . . 8

(9)

2.1.7 Categ´orica Modal . . . 8

3 An´alise composicional 10 3.1 Generalidades . . . 10

3.2 Espa¸co Simplex . . . 10

3.3 Operador de Fecho . . . 11

3.4 Subcomposi¸c˜ao . . . 11

3.5 Composi¸c˜oes Equivalentes e Invariˆancia de Escala . . . 11

3.6 Opera¸c˜oes no Espa¸co Simplex . . . 12

3.6.1 Opera¸c˜ao Perturba¸c˜ao . . . 12

3.6.2 Opera¸c˜ao Potˆencia . . . 13

3.6.3 M´etrica ∆ . . . 13

3.7 Norma e Produto Interno . . . 14

3.8 Base e Espa¸co Gerador . . . 14

3.9 Principais transforma¸c˜oes nos dados composicionais . . . 15

3.9.1 Transforma¸c˜ao Logar´ıtmica Aditiva (alr) . . . 15

3.9.2 Transforma¸c˜ao Logar´ıtmica Centrada (clr) . . . 16

3.9.3 Transforma¸c˜ao Logar´ıtmica isom´etrica (ilr) . . . 16

3.9.4 Etapas a considerar na utiliza¸c˜ao de Transforma¸c˜oes Logar´ıtmicas . . . 17

3.10 Medidas Estat´ısticas . . . 17

4 Estado de Arte: An´alise Classificat´oria 19 4.1 Conceitos B´asicos em An´alise Classificat´oria . . . 19

4.2 Medidas de Dissemelhan¸ca . . . 20

4.3 M´etodos de Classifica¸c˜ao . . . 21

(10)

4.3.2 M´etodos n˜ao Hier´arquicos . . . 23

4.4 O ´Indice de Rand . . . 24

4.5 An´alise Classificat´oria para Dados Simb´olicos . . . 26

4.5.1 Medidas de Dissemelhan¸ca para Dados Simb´olicos . . . 26

4.5.2 Estudos Realizados nesta ´Area . . . 27

4.6 An´alise Classificat´oria para Dados Composicionais . . . 29

4.6.1 Medidas de Dissemelhan¸ca para Dados Composicionais . . . . 29

4.6.2 Trabalhos realizados nesta ´Area . . . 30

5 Aplica¸c˜oes 31 5.1 Introdu¸c˜ao . . . 31

5.2 As duas Abordagens . . . 32

5.2.1 Abordagem Simb´olica . . . 32

5.2.2 Abordagem Composicional . . . 32

5.3 Descri¸c˜ao dos dois Problemas . . . 34

5.3.1 Caso Banc´ario . . . 35

5.3.2 Dados Sociol´ogicos Americanos . . . 37

6 An´alise dos Resultados 41 6.1 Introdu¸c˜ao . . . 41

6.2 Dados Banc´arios . . . 41

6.2.1 Classifica¸c˜ao Hier´arquica . . . 41

6.2.2 Compara¸c˜ao de Resultados entre as diferentes Abordagens . . 60

6.2.3 Classifica¸c˜ao N˜ao-Hier´arquica . . . 61

6.2.4 Diferen¸ca entre as Duas Classifica¸c˜oes . . . 64

6.3 Dados Sociol´ogicos Americanos . . . 65

(11)

6.3.2 Semelhan¸ca entre as diferentes Abordagens . . . 84

6.3.3 Classifica¸c˜ao N˜ao Hier´arquica . . . 85

6.3.4 Semelhan¸ca entre as Diferentes Abordagens . . . 87

6.3.5 Semelhan¸ca entre os dois Tipos de Classifica¸c˜ao . . . 88

7 Conclus˜oes 90 7.1 Considera¸c˜oes Iniciais . . . 90

7.2 Conclus˜oes Finais . . . 90

7.3 Limita¸c˜oes e Trabalho Futuro . . . 92

Bibliografia 93

Anexos 97

A Dados Banc´arios 97

B Dados Banc´arios ap´os a Transforma¸c˜ao multLN 99

C M´edia das distribui¸c˜oes de cada Grupo relativamente a cada uma

das vari´aveis - Dados Banc´arios 101

(12)

Lista de Tabelas

2.1 Exemplo de Dados resultantes de uma Agrega¸c˜ao Temporal . . . 4

2.2 Dados sobre um Grupo de Estudantes . . . 5

2.3 Exemplo de uma Agrega¸c˜ao Contemporˆanea . . . 5

2.4 Exemplo de Vari´avel Quantitativa de Valor ´Unico . . . 6

2.5 Matriz de Vari´aveis Intervalares . . . 6

2.6 Exemplo de uma Vari´avel Categ´orica Modal. . . 9

5.1 Quartis das diferentes Vari´aveis - Caso Banc´ario . . . 36

5.2 Extrato dos Dados - Dados Banc´arios . . . 37

5.3 Siglas dos Estados Americanos em estudo . . . 38

5.4 Quartis das diferentes vari´aveis - Dados Sociol´ogicos Americanos . . . 38

5.5 Extrato dos Dados Originais - Dados Sociol´ogicos Americanos . . . . 39

6.1 Altura dos Dendrogramas para diferentes Abordagens . . . 42

6.2 Centros - M´etodo Average - ASM - Dados Banc´arios . . . 44

6.3 Centros - M´etodo Complete- ASM - Dados Banc´arios . . . 45

6.4 Centros - M´etodo WardD2-ASM - Dados Banc´arios . . . 47

6.5 Valor do ´Indice de Rand Ajustado -ASM -Dados Banc´arios . . . 48

6.6 Centros - M´etodo Average- AC - Dados Banc´arios . . . 51

6.7 Centros - M´etodo Complete- AC - Dados Banc´arios . . . 54

(13)

6.9 M´edia das diferentes Distribui¸c˜oes para cada Grupo de Clientes -Dados Banc´arios . . . 56 6.10 Valor do ´Indice de Rand Ajustado aplicado aos diferentes m´etodos da

Abordagem Simb´olica Histograma - Dados Banc´arios . . . 60 6.11 Valor do ´Indice de Rand Ajustado entre Abordagem Simb´olica

Histo-grama e Composicional- Dados Banc´arios . . . 60 6.12 Valor do ´Indice de Rand Ajustado - Abordagem Simb´olica Modal e

composicional- Dados Banc´arios . . . 61 6.13 Valor do ´Indice de Rand Ajustado entre M´etodos das Abordagens

Simb´olicas - Dados Banc´arios . . . 61 6.14 Valor do ´Indice de Rand Ajustado entre ASM Hier´arquico e as solu¸c˜oes

das classifica¸c˜oes n˜ao hier´arquicas - Dados Banc´arios . . . 64 6.15 Valor do ´Indice de Rand Ajustado entre AC Hier´arquico e as solu¸c˜oes

das classifica¸c˜oes n˜ao hier´arquicas- Dados Banc´arios . . . 64 6.16 Valor do ´Indice de Rand Ajustado entre ASH Hier´arquico e as solu¸c˜oes

das classifica¸c˜oes n˜ao hier´arquicas- Dados Banc´arios . . . 64 6.17 Altura do dendrogramas para os diferentes M´etodos em diferentes

Abordagens: Dados Sociol´ogicos Americanos . . . 66 6.18 Centros - M´etodo Average- ASM - Dados Sociol´ogicos Americanos . . 67 6.19 Centros - M´etodo Complete- ASM - Dados Sociol´ogicos Americanos . 70 6.20 Centros - M´etodo Ward.D2 - ASM - Dados Sociol´ogicos americanos . 72 6.21 Valor do ´Indice de Rand Ajustado - ASM -Dados Sociol´ogicos

Ameri-canos . . . 73 6.22 Centros-M´etodo Average - AC - Dados Americano . . . 74 6.23 Centros -M´etodo Complete - AC - Dados Sociol´ogicos Americanos . . 76 6.24 Valor do ´Indice de Rand Ajustado - AC -Dados Sociol´ogicos Americanos 78 6.25 M´edia de cada Vari´avel pelos diversos Estados - ASH -Dados Sociol´

o-gicos Americanos . . . 79 6.26 Valor do ´Indice de Rand Ajustado aplicado aos diferentes M´etodos

da Abordagem Simb´olica Histograma - Dados Sociol´ogicos Americanos 84 6.27 Valor do ´Indice de Rand Ajustado entre Abordagem Simb´olica

(14)

6.28 Valor do ´Indice de Rand Ajustado - Abordagem Simb´olica Euclidiana e Composicional - Dados Sociol´ogicos Americanos . . . 85 6.29 Valor do ´Indice de Rand Ajustado entre M´etodos das Abordagens

Simb´olicas - Dados Sociol´ogicos Americanos . . . 85 6.30 Centros das Classes dados pelos M´etodos m´etodos n˜ao Hier´arquicos

na abordagem Composicional -Dados Sociol´ogicos Americanos . . . . 87 6.31 Centros das Classes - Classifica¸c˜ao n˜ao Hier´arquica - ASH . . . 87 6.32 Valor do ´Indice de Rand Ajustado entre os dois Tipos de Classifica¸c˜oes

- Dados Sociol´ogicos Americanos . . . 89

A.1 Dados Banc´arios . . . 98

B.1 Dados Banc´arios ap´os a Transforma¸c˜ao multLN . . . 100

C.1 M´edia das distribui¸c˜oes de cada Grupo relativamente a cada uma das vari´aveis - Dados Banc´arios . . . 101

(15)

Lista de Figuras

5.1 Distribui¸c˜ao de clientes nos diferentes grupos . . . 35

5.2 Distribui¸c˜ao do N´umero de Cidades pelos diferentes Estados. . . 40

6.1 Dendrograma - M´etodo Average - ASM - Dados Banc´arios . . . 43

6.2 Dendrograma - M´etodo Complete - ASM - Dados Banc´arios . . . 45

6.3 Dendrograma - M´etodo - Ward.D2 -ASM -Dados Banc´arios . . . 48

6.4 Dendrograma - M´etodo Average-AC - Dados Banc´arios . . . 49

6.5 Dendrograma - M´etodo Complete-AC Dados Banc´arios . . . 52

6.6 Dendrograma - M´etodo Ward2 - AC Dados Banc´arios . . . 53

6.7 Dendrograma -M´etodo Average-ASH - Dados Banc´arios . . . 57

6.8 Dendrograma -M´etodo Complete-ASH - Dados Banc´arios . . . 58

6.9 Dendrograma -M´etodo Ward.D2-ASH - Dados Banc´arios . . . 59 6.10 Dendrograma -M´etodo Average-ASM - Dados Sociol´ogicos Americanos 67 6.11 Dendrograma -M´etodo Complete-ASM - Dados Sociol´ogicos Americanos 69 6.12 Dendrograma -M´etodo Ward.D2-ASM - Dados Sociol´ogicos Americanos 71 6.13 Dendrograma -M´etodo Average - AC - Dados Sociol´ogicos Americanos 74 6.14 Dendrograma -M´etodo Complete-AC - Dados Sociol´ogicos Americanos 76 6.15 Dendrograma -M´etodo WardD2 - AC - Dados Sociol´ogicos Americanos 78 6.16 Dendrograma - M´etodo Average-ASH - Dados Sociol´ogicos Americanos 80 6.17 Dendrograma -M´etodo Complete-ASH - Dados Sociol´ogicos Americanos 81

(16)
(17)

Cap´ıtulo 1

Introdu¸

ao

A an´alise de dados simb´olicos (ADS ) (em inglˆes Symbolic Data Analysis-SDA) surge da necessidade de representar informa¸c˜ao complexa que n˜ao pode ser descrita a partir dos modelos cl´assicos [7]. Em an´alise de dados cl´assicos cada c´elula de uma matriz de dados cont´em apenas um ´unico valor o que torna o modelo muito restritivo tendo em conta a grande variabilidade/incerteza que os dados podem eventualmente conter. Atrav´es da an´alise de dados simb´olicos essa variabilidade interna ´e tomada em considera¸c˜ao.

Tal como no caso da an´alise cl´assica, na ADS os dados s˜ao apresentados sob a forma de uma matriz, contudo cada c´elula pode conter um ´unico valor/categoria, um conjunto finito de valores/categorias, ou ainda, uma distribui¸c˜ao [14, 33].

Os dados distribucionais, como indica o pr´oprio nome tˆem associada a cada vari´avel uma distribui¸c˜ao. Essa distribui¸c˜ao pode ser de dados cont´ınuos, neste caso denomina-se por vari´avel histograma, ou por dados discretos ou ainda, categ´oricos e nestes dois ´ultimos casos tem-se uma vari´avel denominada modal.

As vari´aveis distribucionais da ADS podem ser vistas sob o ponto de vista composicional, cuja an´alise estat´ıstica ´e realizada de um modo diverso daquele que se faz na ADS.

Os dados composicionais surgem do estudo de problemas em que h´a uma correla¸c˜ao entre as vari´aveis e a informa¸c˜ao pertinente de natureza relativa entre r´acios de vari´aveis. Nenhuma dessas vari´aveis pode ser interpretada isoladamente. Um dos problemas a elencar ´e o da percentagem de votos numa dada elei¸c˜ao em que n˜ao interessa o n´umero de votos conquistados, mas a percentagem que cada partido/candidato consegue obter. O espa¸co amostral deste novo tipo de dados j´a n˜ao ser´a <P mas um subespa¸co deste que se designa por Simplex [1]. Nesse espa¸co

s˜ao definidas duas opera¸c˜oes: opera¸c˜ao potˆencia e perturba¸c˜ao que conjuntamente constituem um espa¸co vectorial onde s˜ao definidos conceitos de produto interno, norma e base de acordo com a especificidade destes dados (Cap´ıtulo 3). Para este tipo de dados tamb´em se define uma nova distˆancia: a distˆancia de Aitchison [1].

(18)

Por esses dados serem de r´acios torna-se vantajoso a utiliza¸c˜ao de transforma¸c˜oes logar´ıtmicas. Aitchison propˆos duas transforma¸c˜oes e Filzmoser acrescenta uma terceira substancialmente melhor que as anteriores [15, 16].

Uma das tarefas mais relevantes na an´alise de dados ´e a an´alise classificat´oria que consiste na constru¸c˜ao de grupos por forma a que os elementos de um mesmo grupo sejam t˜ao semelhantes quanto poss´ıvel e que difiram substancialmente dos elementos dos restantes grupos. Para tal, estes m´etodos partem da premissa de que ´e poss´ıvel quantificar essa homogeneidade a partir de medidas de semelhan¸ca/dissemelhan¸ca. Assim, o c´alculo dessas medidas assume um papel de capital importˆancia neste tipo de an´alise. Algumas destas medidas s˜ao as extens˜oes das usadas na an´alise de dados cl´assica, contudo, existem outras especificas de acordo com a natureza dos dados destas duas abordagens, como se ir´a constatar no Cap´ıtulo 4.

Neste trabalho procura-se estudar o comportamento deste tipo de an´alise nas duas abordagens simb´olica e composicional, pelo que o ´unico tipo de dados a utilizar na ADS s˜ao os dados distribucionais.

1.1

Motiva¸

ao

Devido ao crescente aumento do n´umero e da dimens˜ao das bases de dados e `

a consequente complexidade de an´alise dessas dados, torna-se necess´ario encontrar formas alternativas aos tradicionais m´etodos de an´alise estat´ıstica. Em particular, ´e frequentemente necess´ario agregar dados a partir de conceitos b´asicos e extrair informa¸c˜oes relevantes a partir deles [14]. A An´alise de Dados Simb´olicos tem por objetivo generalizar e desenvolver m´etodos estat´ısticos apropriados `as caracter´ısticas dos dados simb´olicos. Neste trabalho s´o ser˜ao objeto de estudo os dados distribu-cionais que como se ir´a ver s˜ao de dois tipos: os categ´oricos modais e os dados histograma.

A abordagem realizada pela an´alise composicional ´e bastante diversa da anterior. A informa¸c˜ao pertinente ocorre sob a forma de r´acios, sendo necess´aria a defini¸c˜ao de transforma¸c˜oes logar´ıtmicas capazes de contornar as restri¸c˜oes que advˆem da defini¸c˜ao desses r´acios.

Uma das an´alises poss´ıveis ´e a an´alise classificat´oria que consiste na constru¸c˜ao de grupos de elementos similares entre si e t˜ao diferentes quanto poss´ıvel dos elementos dos outros grupos. Nesta an´alise, usar-se-˜ao m´etodos hier´arquicos e n˜ao hier´arquicos. Estes m´etodos necessitam em geral de medidas de semelhan¸ca ou dissemelhan¸ca entre os objetos a agrupar. Medidas essas que ter˜ao em conta a natureza dos dois tipos de dados em quest˜ao.

(19)

1.2

Objetivos

Neste trabalho pretende-se utilizar as duas perspetivas, a simb´olica e a composi-cional, comparar os resultados evidenciando as caracter´ısticas de cada abordagem. Ser˜ao usadas medidas de valida¸c˜ao para avaliar a semelhan¸ca das solu¸c˜oes obtidas em cada caso atrav´es do c´alculo do valor do ´ındice de Rand. Para analisar o compor-tamento de cada uma das abordagens, ser˜ao utilizados dois conjuntos de dados, a saber:

ˆ distribui¸c˜ao de despesas de clientes de um banco portuguˆes,(nome n˜ao revelado por exigˆencia da entidade banc´aria), sendo registada a propor¸c˜ao por tipo de despesa;

ˆ dados sociol´ogicos 20 estados americanos, descritos pelas distribui¸c˜oes de vari´aveis de car´acter social (dados de cidades, agregados por estado).

1.3

Organiza¸

ao

Esta disserta¸c˜ao ´e composta por sete Cap´ıtulos. Nos Cap´ıtulos 2 e 3 ser˜ao abor-dados os conceitos estruturantes da an´alise simb´olica e composicional, respetivamente. Os m´etodos de classifica¸c˜ao, nomeadamente medidas de semelhan¸ca/dissemelhan¸ca especificas destas abordagens e fundamentais na an´alise classificat´oria ser˜ao o objeto de estudo no Cap´ıtulo 4. Nesse cap´ıtulo ser˜ao referidos os trabalhos existentes nesta ´

area. O modo como ser˜ao implementados os casos pr´aticos constar´a no Cap´ıtulo 5 bem como a caracteriza¸c˜ao dos Estudos de Caso. No Cap´ıtulo 6 ser˜ao apresentados e analisados os resultados. A disserta¸c˜ao termina com algumas considera¸c˜oes finais sugerindo futuras linhas de investiga¸c˜ao.

(20)

Cap´ıtulo 2

An´

alise Simb´

olica

Atualmente, a cada instante, ´e gerada e armazenada uma quantidade significativa de informa¸c˜ao e apesar do grande desenvolvimento ao n´ıvel de processadores, o esfor¸co computacional para a manipula¸c˜ao dessa informa¸c˜ao, ´e um s´erio problema. Por outro lado, em muitas ocasi˜oes a utiliza¸c˜ao de informa¸c˜ao atrav´es do recurso `a an´alise estat´ıstica cl´assica, ´e inadequada por n˜ao ter em conta a variabilidade/incerteza inerente aos dados. Neste contexto surge um novo tipo de dados: Os dados simb´olicos. Estes dados podem ser obtidos diretamente ou a partir de uma agrega¸c˜ao de dados cl´assicos. Essa agrega¸c˜ao pode ser realizada de dois modos [5, 8, 14]:

ˆ Agrega¸c˜ao Temporal: os dados s˜ao recolhidos ao longo do tempo nas mesmas entidades. As agrega¸c˜oes devem ter em linha de conta todo o conjunto de valores ou as respetivas distribui¸c˜oes. Neste tipo de agrega¸c˜ao as unidades estat´ısticas que est˜ao a ser analisadas s˜ao invariantes, isto ´e, s˜ao as mesmas antes e depois da agrega¸c˜ao.

Um exemplo ser´a a oscila¸c˜ao da temperatura m´axima em quatro cidades ao longo do ano (Tabela 2.1). Essa oscila¸c˜ao varia de ano para ano.

ˆ Agrega¸c˜ao Contemporˆanea: recolhem-se os dados num ´unico momento e analisam-se entidades a um n´ıvel superior `aquele em que os dados foram inicialmente recolhidos. Assim, contrariamente `a agrega¸c˜ao anterior, as uni-dades estat´ısticas n˜ao s˜ao as mesmas antes e depois da agrega¸c˜ao, ap´os esta ter sido realizada as unidades estat´ısticas passam a ser grupos espec´ıficos das unidades originais. Cidade Temperatura A [−2, 12] B [−3, 14] C [6, 14] D [7, 13]

(21)

A Tabela 2.2 representa os dados de um grupo de estudantes universit´arios:

Estudante Cidade Sexo Altura N. de Irm˜aos Tempo m´edio (min) Cor Preferida que demora a chegar

a faculdade

A Porto F 1.68 2 20 Azul B Braga M 1.72 3 5 Bege C Porto M 1.85 1 30 Preto D Viana do Castelo F 1.65 0 6 Azul E Braga F 1.8 2 10 Vermelho F Viana do Castelo F 1.82 3 12 Bege G Braga M 1.76 2 6 Vermelho H Porto F 1.78 3 3 Azul

I Viana do Castelo F 1.77 2 12 Azul

Tabela 2.2: Dados sobre um Grupo de Estudantes

Agrupando esses estudantes por cidades, obt´em-se grupos que podem ser descritos pela Tabela 2.3:

Cidade Sexo Altura N. de Irm˜aos Tempo m´edio (min) Cor Preferida que demora a chegar

` a faculdade

Porto (2/3)F ; (1/3)M [1.68, 1.85] {1, 2, 3} [0, 10[, 1/3; [10, 20[, 1/3; { Azul, Preto } [20, 30]1/3

Braga (1/3)F ; (2/3)M [1.72, 1.80] {2, 3} [0, 10[, 2/3; [10, 20[, 1/3; { Vermelho, Beje } [20, 30], 0

Viana do Castelo (1)F ; (0)M [1.65, 1.82] {0, 2, 3} [0, 10[, 1/3; [10, 20[, 2/3; { Azul, Beje } [20, 30], 0

Tabela 2.3: Exemplo de uma Agrega¸c˜ao Contemporˆanea

Este novo tipo de dados denominam-se por dados simb´olicos. Tal como nos dados cl´assicos as vari´aveis podem ser quer qualitativas quer quantitativas, cada entrada da matriz pode n˜ao ser constitu´ıda por um ´unico valor, tamb´em pode ser constitu´ıda por um conjunto finito de valores, por intervalos ou por distribui¸c˜oes. Seja: Y1, . . . , Yp o

conjunto de vari´aveis, Oj o dom´ınio subjacente a Yj e Bj o espa¸co de observa¸c˜oes de

Yj, j = 1, . . . , p. Uma descri¸c˜ao ´e definida por {d1, . . . , dp} com dj ∈ Bj, j = 1, . . . , p.

Sendo S = {s1, s2, . . . , sn} o conjunto dos indiv´ıduos observados, ent˜ao Yj(si) ∈ Bj

para j = 1, . . . , p, i = 1, . . . , n. A matriz de dados consiste em n descri¸c˜oes, uma para cada indiv´ıduo si ∈ S, di = (Y1(si), Y2(si), . . . , Yp(si)), i = 1, . . . , n.

No caso da Tabela 2.3, por exemplo,s2 = Braga, Y1(s2) = (M (2/3), F (1/3)),

significando que no grupo dos estudantes de Braga, 1/3 ´e do g´enero feminino e 2/3 do g´enero masculino.

2.1

Diversos Tipos de Vari´

aveis

´

(22)

2.1.1

Vari´

avel Quantitativa de Valor ´

Unico

Dado um conjunto de n entidades, S = {s1, s2, . . . , sn} define-se vari´avel

quan-titativa de valor ´unico por uma aplica¸c˜ao Y : S → O tal que Y (si) = c ∈ O ⊂ <.

Este ´e o caso dos dados quantitativos cl´assicos.

Fam´ılias N´umero de Filhos

A 3

B 2

C 4

Tabela 2.4: Exemplo de Vari´avel Quantitativa de Valor ´Unico

2.1.2

Vari´

avel Quantitativa de Valor M´

ultiplo

Dado um conjunto de n entidades S, define-se vari´avel quantitativa de valor m´ultiplo por uma aplica¸c˜ao Y : S → B tal que si → Y (si) = {ci1, . . . , cini} cujas

imagens s˜ao conjuntos finitos de valores reais. No exemplo referido na Tabela 2.3, o n´umero de irm˜aos ´e uma vari´avel quantitativa de valor m´ultiplo.

2.1.3

Vari´

avel Intervalar

Em SDA tamb´em ´e poss´ıvel, como j´a foi referido, ocorrer um intervalo de n´umeros reais. Dado um conjunto S={s1, s2, . . . , sn}, uma vari´avel intervalar ´e definida pela

aplica¸c˜ao

Y : S → B tal que si → Y (si) = [li, ui] em que B ´e o conjunto de intervalos de

um conjunto subjacente O ⊆ R. Um exemplo deste tipo de vari´aveis ´e a altura dos alunos na Tabela 2.3. . . . Y1 . . . Yj . . . Yp s1 [l11, u11[ . . . [l1j, u1j[ . . . [l1j, u1j[ . . . . si [li1, ui1[ . . . [lij, uij[ . . . [lij, uij[ . . . . sn [ln1, un1[ . . . [lnj, unj[ . . . [lnj, unj]

(23)

2.1.4

Vari´

avel Histograma

Quando se est´a perante uma vari´avel intervalar perde-se toda a informa¸c˜ao sobre o modo como os valores se distribuem dentro de cada intervalo. A fim de contornar esta situa¸c˜ao criou-se um novo tipo de vari´aveis: a vari´avel histograma, que consiste na subdivis˜ao em sub-intervalos e para cada um deles ´e estabelecida uma frequˆencia, considerando que a distribui¸c˜ao dentro desses sub-intervalos ´e uniforme. Cada valor dessa vari´avel corresponde a um histograma com k classes, sendo k oumero de sub-intervalos considerado [6, 8, 9]. Seja S = {s1, s2, . . . , sn}, uma vari´avel

histograma ´e definida por uma aplica¸c˜ao: Y : S → B

si → Y (si) = {[lil, li1[, πi1; [li2, li2[, πi2; . . . , [lik, lik], πik]}

.

Um exemplo deste tipo de dados ´e o o tempo m´edio que um aluno demora a chegar `a faculdade na Tabela (2.3).

Os valores de uma vari´avel histograma podem ser representados por uma fun¸c˜ao distribui¸c˜ao emp´ırica: F (x) =                        0 x ≤ li1 πi1 x − li1 li1− li1 li1≤ x < li1 .. . F (liki) + πiki x − liki liki − liki liki ≤ x < liki 1 x ≥ liki

A respetiva fun¸c˜ao quantil, Ψ(t) = F−1(t), ´e dada por:

Ψ(t) = F−1(t) =                  li1+ t ωi1 ri1 t < ωi1 li2+ t − ωi1 ωi2− ωi1 ri2 ωi1 ≤ t < ωi2 .. . liki+ t − ωiki−1 1 − ωiki−1 riki ωini−1 ≤ t < 1

sendo rim a amplitude do sub-intervalo m e ωli =

(

0 , l = 0

Pl

h=1πhi l = 1, ..., ni

(24)

Exemplo: seja Y1(j) = {[0, 1[ 0.6; [1, 2] , 0.4} Ψ(t) = F−1(t) =    t 0.6 0 ≤ t < 0.6 1 + t − 0.6 0.4 0.6 ≤ t ≤ 1

Relativamente `as vari´aveis categ´oricas similarmente ao que ocorre nos dados cl´assicos elas podem tomar um ´unico valor, mas podem ainda tomar um conjunto finito de valores. E o caso da cor “preferida” do exemplo dado na Tabela 2.3.´ Ainda existe um outro tipo de vari´avel designado por vari´avel categ´orica modal que assume valores m´ultiplos e em que cada categoria ´e descrita com a respetiva probabilidade/frequˆencia com que ocorre (caso da vari´avel sexo do exemplo em estudo).

2.1.5

Vari´

avel Categ´

orica de Valor ´

Unico

Dado um conjunto S = {s1, s2, . . . , sn} e um conjunto finito de categorias O =

{m1, m2, . . . , mk}, uma vari´avel categ´orica de valor ´unico ´e definida pela aplica¸c˜ao

Y : S → O(si) = mi ∈ O.

2.1.6

Vari´

avel Categ´

orica de Valor M´

ultiplo

Dado um conjunto S = {s1, s2, . . . , sn} e um conjunto de categorias O =

{m1, m2, . . . , mk}, uma vari´avel categ´orica de valor m´ultiplo ´e definida pela aplica¸c˜ao

Y : S → P (O) tal que Y (si) = {mi1, mi2, . . . , mik} ,sendo P (O) o conjunto dos

subconjuntos finitos, n˜ao vazios, de um conjunto subjacente.

2.1.7

Categ´

orica Modal

Uma vari´avel denomina-se por categ´orica modal de dom´ınio subjacente O = {m1, m2, . . . , mk}, se for categ´orica de valores m´ultiplos em que se regista o peso de

cada uma das categorias, indicando a frequˆencia ou a probabilidade de ocorrˆencia dessa categoria nesse elemento. Neste caso, B ´e o conjunto das distribui¸c˜oes sobre O e os seus elementos s˜ao representados por B = {m1π1, m2π2, . . . , mkπk}.

Este ´e o caso da vari´avel “Sexo” do exemplo dado na Tabela 2.3. Um outro exemplo deste tipo vari´avel pode ser encontrado na Tabela 2.6 que descreve a distribui¸c˜ao da classifica¸c˜ao de trˆes turmas a disciplina de Cidadania. As siglas “NS”, “S”,“SB” significam: N˜ao Satisfaz, Satisfaz, Satisfaz Bem respetivamente.

(25)

Turma Classifica¸c˜ao `a disciplina de Cidadania A (0.2) NS; (0.65) S (0.15) SB B (0.1) NS; (0.80) S; (0.1) SB

C (0.3) NS; (0.7) S

Tabela 2.6: Exemplo de uma Vari´avel Categ´orica Modal.

Os dados histograma e modais denominam-se por dados distribucionais. Neste trabalho ser˜ao estes dados o objeto de estudo.

(26)

Cap´ıtulo 3

An´

alise composicional

3.1

Generalidades

Em diversos problemas de an´alise de dados cada vari´avel est´a correlacionada com as restantes, sendo expressa como a parte de um todo. Este tipo de problemas aparece mais frequentemente do que se possa pensar. A composi¸c˜ao de alimentos, e a composi¸c˜ao de solos s˜ao alguns exemplos de aplica¸c˜ao desta abordagem mas muitos poderiam ser elencados. Em todos estes exemplos est˜ao subjacentes duas propriedades [1, 38]:

ˆ Cada vari´avel ´e descrita por um valor n˜ao negativo;

ˆ A soma dos valores das vari´aveis para um qualquer indiv´ıduo ´e sempre constante.

Assim, cada indiv´ıduo vai ser descrito pelas componentes de uma composi¸c˜ao. Os dados deste tipo denominam-se por dados composicionais.

Nas sec¸c˜oes seguintes ser˜ao enunciados os principais conceitos e opera¸c˜oes definidos para esta nova abordagem.

3.2

Espa¸

co Simplex

Denomina-se por composi¸c˜ao [x1, x2, . . . , xD] [1] todo o vetor cujas componentes

s˜ao n˜ao negativas e fazem parte de um todo, isto ´e, a sua soma ´e sempre constante (habitualmente igual a 1 ou a 100 se estiver em percentagem, mas pode tomar

qualquer outro valor).

(27)

ˆ x1, x2, . . . , xD > 0 ;

ˆ PD

i=1xi = k.

Os ´ındices 1, 2, . . . .D referem-se `as D partes x1, x2, . . . , xD como sendo as

componen-tes da composi¸c˜ao x. Exemplo: uma pe¸ca de roupa apresenta a seguinte composi¸c˜ao 0.80 de l˜a e 0.20 de viscose; 0.80 e 0.20 s˜ao as componentes da composi¸c˜ao [0.80, 0.20]. O espa¸co amostral n˜ao ´e o conjunto dos reais, nem ´e poss´ıvel recorrer `as habituais opera¸c˜oes de produto escalar por um vetor, norma, adi¸c˜ao de vetores, etc. O espa¸co amostral (ou conjunto de valores poss´ıveis) ´e denominado por Simplex.

3.3

Operador de Fecho

Dada uma composi¸c˜ao x = [x1, x2, . . . , xD], denomina-se por operador de

fe-cho,em inglˆes closure, C(x) = " x1 PD i=1xi , . . . , xD PD i=1xi # .

Exemplo: Seja x = [15, 30, 55] ent˜ao C(x) = 15 100, 30 100, 55 100 

3.4

Subcomposi¸

ao

De um modo an´alogo ao que ocorre com conjuntos e sucess˜oes, em que se podem considerar partes destes, tamb´em ´e poss´ıvel, e por vezes bastante vantajoso considerar partes de uma composi¸c˜ao, denominadas subcomposi¸c˜oes [38]. Dada uma composi¸c˜ao, x = [x1, x2, . . . , xD], denomina-se por subcomposi¸c˜ao de x a composi¸c˜ao

xs= C[xi1, . . . , xis], i1, . . . , is∈ {1, 2, . . . , D}, sendo C o operador de fecho.

Exemplo: Se a composi¸c˜ao for x = [0.15, 0.30, 0.55] uma poss´ıvel subcomposi¸c˜ao ´e xs = C[0.15, 0.30] =  1 3, 2 3  .

3.5

Composi¸

oes Equivalentes e Invariˆ

ancia de

Es-cala

Sejam x = [120, 200, 100] e y = [6, 10, 5] dois ternos compostos pelas quantidades de farinha, manteiga e leite em dois alimentos distintos. Aparentemente estes s˜ao distintos, mas quando estamos num problema de composi¸c˜ao facilmente se observa que as composi¸c˜oes s˜ao equivalentes e escreve-se x ∼ y.

(28)

x ∼ y se e s´o se C(x) = C(y), sendo C o operador de fecho.

Como foi poss´ıvel observar, pode ocorrer que duas composi¸c˜oes aparentemente distintas sejam equivalentes. Este facto, conduz ao problema de ao aplicar uma fun¸c˜ao em composi¸c˜oes equivalentes, haja a garantia de que as suas imagens tamb´em o sejam. Assim, um dos conceitos mais importantes no estudo das composi¸c˜oes ´e a no¸c˜ao de invariˆancia de escala [38]. Uma fun¸c˜ao f ´e invariante de escala se, dadas duas composi¸c˜oes equivalentes x e y, ent˜ao as respetivas imagens s˜ao iguais. De um modo formal: x ∼ y ⇒ f (x) = f (y).

3.6

Opera¸

oes no Espa¸

co Simplex

Em qualquer espa¸co amostral de dados cl´assicos existem duas opera¸c˜oes funda-mentais: a transla¸c˜ao e o produto de um vetor por um escalar que desempenham um papel fundamental na An´alise Estat´ıstica.

Seja t uma transla¸c˜ao ˆ E (x + t) = E(x) + t ˆ V (x + t) = V (x)

O produto escalar desempenha um papel crucial na An´alise em Componentes Princi-pais e sempre que os modelos sejam lineares. Se k for um escalar:

ˆ E (x × k) = k × E(x) ˆ V (x × k) = k2 × V (x)

Contudo, pode-se reconhecer que estas duas opera¸c˜oes n˜ao podem ser definidas no novo espa¸co. Deste modo, nas sec¸c˜oes seguintes ser˜ao definidas duas novas opera¸c˜oes: a opera¸c˜ao perturba¸c˜ao e a opera¸c˜ao potˆencia [1].

3.6.1

Opera¸

ao Perturba¸

ao

Dadas duas composi¸c˜oes x = [x1, x2, . . . , xD] , y = [y1, y2, . . . , yD], define-se

operador perturba¸c˜ao, correspondendo `a opera¸c˜ao transla¸c˜ao no espa¸co real, o operador ⊕ definido por x⊕y = C [x1× y1, x2× y2, . . . , xD × yD], sendo C o operador

(29)

Exemplo: Sejam x = [0.5, 0.2, 0.3] , y = [0.4, 0.3, 0.3] . x ⊕ y = C [0.2, 0.06, 0.09] = [0.57, 0.17, 0.26] .

A opera¸c˜ao perturba¸c˜ao define uma estrutura de grupo em SD, sendo o elemento neutro e = 1 D, . . . , 1 D  .

O elemento inverso de uma composi¸c˜ao

p = [p1, p2, . . . , pD]

´e

p−1 = Cp−11 , p−12 , . . . , p−1D  .

3.6.2

Opera¸

ao Potˆ

encia

Dada a composi¸c˜ao x = [x1, x2, . . . , xD], define-se opera¸c˜ao potˆencia

y = k ⊗ x = Cxk1, xk2, . . . xkD . Exemplo: Se x = [0.8, 0.2] e k = 3

y = C0.83, 0.23 = C [0.512, 0.008] = [0.985, 0.015] .

O espa¸co SD munido das duas opera¸c˜oes definidas anteriormente constitui um

espa¸co vetorial [31].

3.6.3

etrica ∆

Neste espa¸co, uma das m´etricas que se pode definir ´e: ∆ : SD × SD

→ RD, tal que: ∆(x, y) = " D X i=1  ln  xi g(x)  − ln  yi g(y) 2# 1 2

(30)

sendo g() a m´edia geom´etrica das componentes da composi¸c˜ao.

Exemplo: Sejam as composi¸c˜oes x = [0.3, 0.2, 0.5] e y = [0.25, 0.25, 0.5]

g(x) = 0.31 g(y) = 0.32 ln (x/g(x)) = (−0.04, −0.44, 0.48) ln (y/g(y)) = (−0.23, −0.23, 0.46) [ln (x/g(x)) − ln (y/g(y))]2 = (0.04, 0.04, 0) ∆(x, y) = 0.29.

3.7

Norma e Produto Interno

A partir da m´etrica definida acima ´e poss´ıvel definir:

ˆ Norma: kx2k = ∆2(x, e) =PD i=1  ln xi g(x) 2 ˆ Produto Interno: < x, y >= PD i=1  ln xi g(x)× ln yi g(y) 

Considerando as composi¸c˜oes x e y da sec¸c˜ao anterior

x2 = 0.42  ln xi g(x) × ln yi g(y)  = (0.01, 0.10, 0.23) < x, y >= 0.33

3.8

Base e Espa¸

co Gerador

Em espa¸cos vectorias s˜ao fundamentais as no¸c˜oes de base, dependˆencia linear e espa¸co gerador. Neste novo espa¸co define-se combina¸c˜ao linear de composi¸c˜ao

(31)

β1, . . . , βc como uma combina¸c˜ao das opera¸c˜oes potˆencia e perturba¸c˜ao definida por

[3]:

x = (u1⊗ β1) ⊕ . . . ⊕ (uc⊗ βc) .

sendo uk um escalar com k = 1, 2, . . . , c.

As composi¸c˜oes βi, i = 1, . . . , c s˜ao os geradores.

A referida combina¸c˜ao gera algum subespa¸co do espa¸co unit´ario Simplex de acordo com a varia¸c˜ao dos escalares u1, . . . , uc.

Tal como em <p, conv´em que os geradores sejam linearmente independentes. βi, . . . , βc s˜ao linearmente independentes se e s´o se:

e = (ui⊗ βi) . . . (uc⊗ βc) = 0 → u1 = . . . = uc= 0.

Se βi forem geradores linearmente independentes, o espa¸co gerado denomina-se por

subespa¸co de dimens˜ao c gerado pelas composi¸c˜oes de B = {β1, . . . , βc}. Tamb´em

nesta nova geometria ´e poss´ıvel definir o subespa¸co nulo

null(B) = {x :< β1, x >= 0 . . . < βc, x >= 0} .

A manipula¸c˜ao deste tipo de dados n˜ao ´e simples, pelo que foram definidas trˆes transforma¸c˜oes logar´ıtmicas que ser˜ao abordadas em seguida.

3.9

Principais transforma¸

oes nos dados

composi-cionais

Existem trˆes transforma¸c˜oes logar´ıtmicas muito importantes para este tipo de dados composicionais [2, 41].

3.9.1

Transforma¸

ao Logar´ıtmica Aditiva (alr)

Dada a composi¸c˜ao x =[x1, x2, . . . , xD], define-se raz˜ao logar´ıtmica aditiva (alr):

alr(x) = y =  lnx1 xj , . . . lnxj−1 xj , lnxj+1 xj , . . . , lnxD xj  , j ∈ {1, . . . D}

Exemplo: Seja novamente x = [0.3, 0.2, 0.5] Supondo que j = 3,

ln (0.3/0.5) = −0.51 ln (0.2/0.5) = −0.92

(32)

alr (x) = (−0.51, −0.92)

Contudo, esta transforma¸c˜ao apresenta o problema da escolha do denominador, essa escolha conduz a diferentes composi¸c˜oes, embora em termos estat´ısticos os resultados permanecem invariantes face a uma permuta¸c˜ao. Com vista a contornar este problema definiu-se outra transforma¸c˜ao - clr- que ser´a o tema da pr´oxima sec¸c˜ao.

3.9.2

Transforma¸

ao Logar´ıtmica Centrada (clr)

Dada a composi¸c˜ao x =[x1, x2, . . . , xD], define-se raz˜ao logar´ıtmica centrada

(clr): clr(x) = y =  ln  x1 g(x)  , . . . , ln xD g(x) 

sendo g(x) a m´edia geom´etrica das componentes de x. Exemplo: Seja x a composi¸c˜ao considerada em 3.9.1:

clr (x) = (−0.04, −0.44, 0.48) .

Com esta transforma¸c˜ao fica garantida a unicidade do denominador. Contudo, a soma das componentes ´e igual a zero, como se pode verificar facilmente, significando que a matriz das covariˆancias vai ser singular. Por esta raz˜ao aparece posteriormente uma nova transforma¸c˜ao: a raz˜ao logar´ıtmica isom´etrica (ilr) que se baseia na escolha de uma base ortonormada no espa¸co Simplex de dimens˜ao n − 1.

3.9.3

Transforma¸

ao Logar´ıtmica isom´

etrica (ilr)

Dada a composi¸c˜ao x = [x1, x2, . . . , xD], define-se raz˜ao logar´ıtmica isom´etrica

(ilr): (z1, z2, . . . , zD−1) , zi = r i i + 1ln g (x1, x2, . . . , xi) xi+1 , i = 1 . . . , D − 1

ilr(x) com x ∈ Sn−1ao as coordenadas de x relativamente `a base(e1, e2, . . . , eD).

Egozcue et al. [15], sugerem para base ortonormal de Sn−1, , e

i i = 1, 2, . . . , D − 1

com respeito ao produto interno definido anteriormente, sendo

ei = C

"

exp p1/i + 1, . . . p1/i + 1, . . . |{z}

i elementos

, −p1/i − 1, 0 . . . , 0 !#

(33)

Exemplo: Retomando novamente a composi¸c˜ao x considerada em 3.9.1 ilr (x) = (0.29, −0.58) .

Esta transforma¸c˜ao goza das seguintes propriedades: ˆ ilr(k ⊗ x ⊕ m ⊗ y) = k × ilr(x) + m × ilr(y); ˆ < x, y >=< ilr(x), ilr(y) > .

ˆ Preserva a distˆancia e a norma

3.9.4

Etapas a considerar na utiliza¸

ao

de Transforma¸

oes Logar´ıtmicas

Quando se pretende utilizar alguma das transforma¸c˜oes definidas anteriormente, ´e necess´ario ter em considera¸c˜ao os seguintes pontos:

ˆ Formular o problema composicional em termos das componentes de uma dada composi¸c˜ao;

ˆ Traduzir essa formula¸c˜ao em termos logar´ıtmicos; ˆ Transformar as composi¸c˜oes em vetores logar´ıtmicos;

ˆ Analisar os dados logaritmizados atrav´es de um m´etodo estat´ıstico apropriado; ˆ Finalmente reverter em termos composicionais as inferˆencias obtidas

anterior-mente.

3.10

Medidas Estat´ısticas

´

E necess´ario readaptar as medidas estat´ısticas utilizadas nos dados tradi-cionais [15]. Dada uma composi¸c˜ao, x = [x1, x2, . . . , xD], define-se medida de

tendˆencia central para dados composicionais como o fecho da m´edia geom´etrica. Isto ´e, g = C [g1, g2, . . . , gD] em que gi =  Qn j=1xij  1

n . Dada uma composi¸c˜ao x = [x1, x2, . . . , xD] ´e poss´ıvel analisar a dispers˜ao atrav´es da matriz de varia¸c˜ao

(34)

cl´assica [38]: T =     t11 t12 . . . t1D t21 t22 . . . t2D · · · · tD1 tD2 . . . tDD     tij = var  lnxi xj  ou da matriz normalizada T =     t11 t12 . . . t1D t21 t22 . . . t2D · · · · tD1 tD2 . . . tDD     tij = var  1 √ 2ln xi xj 

As matrizes T e T∗ s˜ao sim´etricas com zeros na diagonal. A medida da dispers˜ao global ´e a variˆancia total dada por:

totvar[x] = 1 2D × D X i=1 D X j=1 var  lnxi xj  = 1 2D D X i=1 D X j=1 tij = 1 D D X i=1 D X j=1 tij

Nenhuma das matrizes anteriores depende da constante k associada ao espa¸co Simplex, pois os r´acios anulam-nas. Assim, o operador de fecho n˜ao tem qualquer efeito nos resultados finais. A possibilidade de definir variˆancia total adv´em de todas as componentes estarem definidas na mesma escala.

(35)

Cap´ıtulo 4

Estado de Arte: An´

alise

Classificat´

oria

4.1

Conceitos B´

asicos em An´

alise Classificat´

oria

O agrupamento ´e uma das tarefas mais relevantes na an´alise de dados, pela grande variedade de aplica¸c˜oes poss´ıvel. Este tipo de an´alise tem sido aplicado a v´arios campos de investiga¸c˜ao entre os quais se destaca a data mining, ciˆencias sociais, economia, medicina e engenharia [26].

Existem dois tipos de classifica¸c˜ao: a classifica¸c˜ao supervisionada, mais conhecida por an´alise discriminante e a n˜ao supervisionada. No primeiro tipo h´a um conjunto de indiv´ıduos previamente classificados e pretende-se encontrar uma regra que permita classificar um novo indiv´ıduo.

No caso da classifica¸c˜ao n˜ao supervisionada, que ser´a o objeto do nosso estudo, pretende-se agrupar os diferentes elementos com caracter´ısticas comuns em classes [23]. Este tipo de agrupamento ´e composto por v´arias etapas:

ˆ Representa¸c˜ao dos objetos: Identifica¸c˜ao das caracter´ısticas mais relevantes nas caracter´ısticas originais;

ˆ Sele¸c˜ao de uma medida de similaridade: Nas sec¸c˜oes seguintes ser˜ao elen-cadas um conjunto de medidas de similaridade para os dados simb´olicos e composicionais;

ˆ Agrupamento de dados: O agrupamento pode ser realizado de diversos modos. O resultado pode ser a obten¸c˜ao de uma parti¸c˜ao r´ıgida, cada elemento ´e colocado numa ´unica classe, ou do modo fuzzy em que cada elemento tem um grau de perten¸ca relativamente a cada classe.

(36)

encaixadas a partir da fus˜ao ou divis˜ao de grupos tendo como referˆencia a similaridade entre eles;

ˆ Abstra¸c˜ao dos dados: Consiste na extra¸c˜ao de uma descri¸c˜ao compacta para cada grupo. Habitualmente os grupos s˜ao representados por prot´otipos tais como o centr´oide;

ˆ Valida¸c˜ao: Existem trˆes tipos de valida¸c˜ao [25]:

– A valida¸c˜ao externa em que o ´ındice compara o output do algoritmo com uma parti¸c˜ao previamente conhecida;

– A valida¸c˜ao interna procura determinar se a estrutura ´e intrinsecamente apropriada aos dados;

– Testes relativos que comparam duas estruturas e medem o seu m´erito relativo.

Nas sec¸c˜oes seguintes, como se referiu anteriormente, ser˜ao definidas algumas medidas de dissemelhan¸ca de acordo com a natureza de cada uma das abordagens.

O cap´ıtulo termina com a referˆencia aos trabalhos no ˆambito dos dados simb´olicos distribucionais e dos dados composicionais.

4.2

Medidas de Dissemelhan¸

ca

Para estabelecer uma compara¸c˜ao entre dois elementos e decidir se estes devem pertencer a um mesmo grupo, existem de um modo an´alogo ao que ocorre na an´alise de dados cl´assicos as medidas de semelhan¸ca e de dissemelhan¸ca. Estas medidas dever˜ao ser ajustadas `a nova natureza dos dados.

Uma medida de proximidade ´e uma fun¸c˜ao real definida no conjunto S × S de todos os pares (xi, xj), a qual pode ser descrita por uma dissemelhan¸ca entre esses

objetos e designa-se por d (xi, xj), ou por uma similaridade s (xi, xj). Neste trabalho

s´o ser˜ao consideradas medidas de dissemelhan¸ca.

Uma medida de dissemelhan¸ca apresenta as seguintes propriedades: ˆ d (xi, xj) ≥ 0, ∀xi

ˆ d (xi, xi) = 0 ∀xi

(37)

4.3

etodos de Classifica¸

ao

Neste trabalho ser˜ao objeto de estudo apenas os m´etodos hier´arquicos e m´etodos n˜ao hier´arquicos ou de parti¸c˜ao [28, 43].

Os m´etodos n˜ao hier´arquicos determinam uma parti¸c˜ao dos elementos em k classes. O valor de k ´e previamente escolhido. Os m´etodos hier´arquicos, por sua vez, permitem obter uma s´erie de parti¸c˜oes encaixadas. A sua representa¸c˜ao gr´afica ´e uma ´arvore que se designa habitualmente por dendrograma.

4.3.1

etodos Hier´

arquicos

Uma parti¸c˜ao de um conjunto de S ´e um conjunto de subconjuntos n˜ao vazios {C1, . . . , Cr} tal que:

1. Ci∩ Cj = ∅.

2. S

j=1Cj = S, i = 1 . . . , r.

Um conjunto H = {C1, . . . , Cr} de subconjuntos n˜ao vazios de S, ´e uma

hierar-quia de S se obedece `as seguintes condi¸c˜oes:

1. S ∈ H.

2. ∀wu ∈ S, Cu = {wu} ∈ H.

3. Ci∩ Cj ∈ {Ci, Cj, ∅} ∀i, j.

Os m´etodos hier´arquicos conduzem a uma hierarquia de parti¸c˜oes P1, P2,. . . ,

Pn. Estes podem ser divisivos (em inglˆes top-down) ou aglomerativos (em inglˆes

bottom-up).

No primeiro caso, o processo inicia-se com a totalidade dos indiv´ıduos em uma ´

unica classe. Seguidamente esta ´e subdividida em duas partes, posteriormente cada uma dessas classes ´e dividida em duas classes e assim sucessivamente at´e um n´umero de grupos convenientemente escolhido. No segundo caso, o processo ´e realizado em sentido inverso. Inicialmente cada classe ´e constitu´ıda apenas por um ´unico elemento e em cada n´ıvel v˜ao sendo agregadas classes at´e se obter uma classe com todos os elementos. Neste processo cada classe ´e agregada no m´aximo uma vez.

Quando a dimens˜ao do conjunto de dados ´e grande a visualiza¸c˜ao do dendrograma ´e dif´ıcil. Para contornar esta dificuldade poder-se-´a realizar um corte de acordo com o n´umero de classes pretendidas.

(38)

Nos m´etodos de classifica¸c˜ao hier´arquica ´e necess´ario escolher um crit´erio que permita determinar os pares de classes a serem agrupadas (no caso dos aglomerativos) ou a serem divididas (no caso dos divisivos), crit´erios esses que se designam por crit´erios de agrega¸c˜ao.

Um dos aspetos mais importantes ´e definir um corte no dendrograma para estabelecer qual o n´umero de classes ´otimo. Existem diversos crit´erios, neste trabalho fez-se o corte onde os ramos apresentam maior comprimento.

Este tipo de m´etodos possui as seguintes vantagens: ˆ Flexibilidade do n´umero de grupos;

ˆ Ajustam-se facilmente a qualquer medida de dissemelhan¸ca; ˆ Versatilidade relativamente ao tipo de vari´aveis.

Desvantagens:

ˆ O crit´erio para terminar o processo ´e vago;

ˆ Depois de iniciado o processo a constitui¸c˜ao das classes permanece inalter´avel; ˆ Os algoritmos hier´arquicos requerem bastante espa¸co de mem´oria e s˜ao de

processamento demorado.

Existem diversos crit´erios de agrega¸c˜ao [10, 42] dos quais se destacam os seguintes que ser˜ao utilizados nas aplica¸c˜oes descritas nos Cap´ıtulos 5 e 6:

ˆ Complete Linkage ou crit´erio do vizinho mais afastado. A dissemelhan¸ca entre duas classes A e B ´e o m´aximo das dissemelhan¸cas entre os elementos de A e de B. De um modo formal pode-se escrever:

δ2(A, B) = M´ax{d(x, y), x ∈ A, y ∈ B}

.

ˆ Average linkage entre grupos. A dissemelhan¸ca entre duas classes A e B ´e a m´edia das dissemelhan¸cas entre os elementos de A e de B:

δ3(A, B) = 1 ]A × ]B X x∈A,y∈B d(x, y)

ˆ ´Indice de Ward. Define a dissemelhan¸ca entre duas classes A e B como o aumento da In´ercia quando se procede `a reuni˜ao dessas classes.

δW = I (A ∪ B) − I A + I B.

O objetivo deste m´etodo ´e maximizar a in´ercia intercalasses que mede a separa¸c˜ao das classes e minimizar a in´ercia intra-classes que mede a sua homo-geneidade.

(39)

4.3.2

etodos n˜

ao Hier´

arquicos

Como j´a se referiu, neste grupo de m´etodos s˜ao constru´ıdos k grupos e os elementos de S s˜ao divididos e de acordo com a sua semelhan¸ca. Neste tipo de classifica¸c˜ao cada cluster possui pelo menos um elemento e cada elemento pertence somente a um grupo. O valor de k ´e previamente estipulado: para tal, s˜ao efetuados testes para diferentes valores de k [25].

Estes m´etodos possuem a vantagem das classes poderem ser alteradas no decorrer do processo. A desvantagem ´e o facto de ser necess´ario estabelecer `a priori o n´umero de grupos e a maioria do algoritmos ser altamente sens´ıvel `as condi¸c˜oes iniciais.

Nesta classe de m´etodos existem quatro que se destacam: Forgy/Lloyd [42] que pode ser descrito a partir dos seguintes passos:

1. Selecionar k centros iniciais, elementos de S, denominados por vezes centr´oides. 2. Calcular a distˆancia de cada indiv´ıduo aos centr´oides, afetando esse indiv´ıduo

ao centr´oide “mais semelhante”.

3. Recalculam-se os centr´oides. Volta-se ao passo 2 at´e n˜ao surgirem altera¸c˜oes.

Um outro m´etodo ´e o de MacQueen, [10, 29] em que ap´os cada afeta¸c˜ao recalcula-se imediatamente o centr´oide.

O m´etodo de Hartigan [19] inicia-se, tal como os anteriores, com k centr´oides. As parti¸c˜oes s˜ao formadas de modo a reduzir a soma das distˆancias quadr´aticas em rela¸c˜ao ao centr´oide no interior de cada grupo. Este m´etodo possui caracter´ısticas muito peculiares, na medida em que para cada ponto s˜ao escolhidos dois centros, como se ver´a de seguida [19]:

1. Para cada ponto P (P = 1, . . . , n), sendo n o n´umero de indiv´ıduos e supondo que existem k grupos L1, L2, . . . , Lk encontrar os dois grupos cujos centros

sejam os mais pr´oximos. Designem-se por IC1(P ) e IC2(P ) esse grupos, sendo IC1(P ) o grupo mais pr´oximo.

2. Recalcular os centros.

3. Para cada ponto P se houve altera¸c˜ao no grupo ent˜ao ele pertence ao conjunto vivo , durante este passo (inicialmente todos os grupos pertencem ao conjunto vivo ). Se P pertencer ao grupo L1 e este for conjunto vivo passar para 4, caso contr´ario, saltar para 5.

4. Calcular o valor m´ınimo, R2 = N C(L) × D(P, L)

2

N C(L) + 1 para todos os grupos L (L 6= L1, L = 1, . . . , k) (sendo N C(L) o n´umero de elementos do grupo L e D a distˆancia). Se L2 for o grupo com o menor valor, R2, e se esse valor

(40)

for maior ou igual a N C(L) × D(P, L)

2

N C(L) − 1 , n˜ao h´a altera¸c˜ao e L2 passa a ser o novo IC2(P ). Caso contr´ario, o ponto P ´e alocado no grupo L2 e L1 ´e o novo IC2(P ), e recalculam-se os novos centros.

5. Este passo ´e similar ao anterior, a ´unica diferen¸ca consiste no c´alculo do m´ınimo R2 que ´e feito apenas para os grupos pertencentes ao conjunto vivo .

6. Se o conjunto vivo ´e vazio STOP, caso contr´ario ir para o passo seguinte. 7. Para cada ponto P (P = 1, . . . , n), sejam L1 = IC1(P ) e L2 = IC2(P ) (n˜ao ´e

necess´ario selecionar o ponto P se os grupos L1 e L2 n˜ao sofreram qualquer altera¸c˜ao nos ´ultimos n passos,Calcular os valores R1 = N C(L) × D(P, L)

2

N C(L) − 1 e R2 = N C(L) × D(P, L)

2

N C(L) + 1 . Se R1 ´e menor que R2 o ponto P fica em L1. Caso contr´ario trocar IC1(P ) com IC2(P ) e recalcular os centros dos grupos L1 e L2.

8. Se n˜ao houve qualquer transferˆencia nos ´ultimos n passos, ir para o passo 4. Caso contr´ario ir para o passo 6.

4.4

O ´

Indice de Rand

Ap´os terem sido aplicados diferentes m´etodos de classifica¸c˜ao, surge a quest˜ao se os resultados obtidos tˆem alguma semelhan¸ca entre eles. Com vista a responder a esta quest˜ao, utilizou-se o ´ındice de Rand [39].

Dado um conjunto com n elementos S = {o1, o2, . . . , on} e duas poss´ıveis

parti-¸c˜oes de S: U = {u1, u2, . . . , ur} e V = {v1, v2, . . . , vc} tal que

ˆ ∪r

i=1ui =Scj=1vj = S

ˆ ui∩ ui0 = vj∩ vj0 = φ, 1 ≤ i 6= i0 ≤ r, 1 ≤ j 6= j0 ≤ c.

denomina-se por ´ındice de Rand o quociente dado por:

R = a + d

a + b + c + d em que:

ˆ a o n´umero de pares de objetos que est˜ao na mesma classe em U e no mesmo agrupamento em V ;

(41)

ˆ b o n´umero de pares de objetos que est˜ao na mesma classe em U mas que n˜ao est˜ao no mesmo agrupamento em V ;

ˆ c o n´umero de pares de objetos que n˜ao est˜ao na mesma classe em U mas que est˜ao no mesmo agrupamento em V ;

ˆ d o n´umero de pares de objetos em diferentes classes em U e em diferentes agrupamentos em V .

Este valor situa-se no intervalo [0, 1]. O valor unit´ario significa que as duas classifica¸c˜oes s˜ao coincidentes, ou seja n˜ao existe pares que estejam numa mesma classe numa classifica¸c˜ao e na outra em classes diferentes. Contudo, este ´ındice apresenta uma limita¸c˜ao no caso em que surge o valor nulo. Para contornar esta situa¸c˜ao surge o ´ındice de Rand ajustado de modo a que o valor esperado seja igual a zero [20].

O ´ındice Rand ajustado baseia-se em trˆes valores: ˆ R ´ındice deRand n˜ao ajustado

ˆ Exp(R) o valor esperado de R; ˆ Max(R) o m´aximo de R.

O seu valor ´e dado pela express˜ao:

R∗ = R − Exp(R) M ax(R) − Exp(R) em que: ˆ Exp(R) = Π (U ) × Π (V ) n (n − 1) 2 ; ˆ Max(R) = 1 2 × |Π (U ) × Π (V )|, sendo |Π (U )| = r X i=1 ni× (ni− 1) 2 . |Π (V )| = c X j=1 nj× (nj− 1) 2 .

Neste trabalho quando for referido o ´ındice de Rand ser´a sempre o ´ındice de Rand ajustado.

(42)

4.5

An´

alise Classificat´

oria para Dados Simb´

olicos

4.5.1

Medidas de Dissemelhan¸

ca para Dados Simb´

olicos

No caso dos dados cl´assicos a representa¸c˜ao dos valores de cada vari´avel relativa-mente a um indiv´ıduo, ´e como se sabe constitu´ıda por um ´unico valor. No caso dos dados simb´olicos, nomeadamente nos dados distribucionais que s˜ao os que interessam para este trabalho, tal n˜ao ocorre pelo que ´e necess´ario ajustar as medidas cl´assicas a esta nova natureza de dados e introduzir novas medidas.

Como j´a for referido no Cap´ıtulo 2, as vari´aveis a serem utilizadas neste trabalho ser˜ao vari´aveis distribucionais. Por esse facto, apesar de existirem diversas medidas de dissemelhan¸ca para dados simb´olicos s´o ser˜ao abordadas aquelas que est˜ao diretamente relacionadas com este tipo de vari´aveis.

Relativamente `as vari´aveis modais: Seja B o conjunto das distribui¸c˜oes sobre o conjunto das modalidades O = {m1, m2, . . . , mk} em que seus elementos s˜ao

representados por B = {m1π1, m2π2, . . . , mkπk} .

ˆ Distˆancia City block: d(si, sj) =

Pp k=1 Ps m=1|πkmi− πmjk |. ˆ Distˆancia Euclideana: d(si, sj) = q Pp k=1 Ps m=1(πmki− π k mj) 2.

Relativamente `as vari´aveis histograma, Gibbs and Su [17], realizaram um estudo comparativo entre v´arias distˆancias concluindo que as mais apropriadas para este tipo de vari´aveis s˜ao a distˆancia de Wasserstein e a de Mallows cujas defini¸c˜oes s˜ao as seguintes: ˆ Distˆancia de Wasserstein dW (ψ1i, ψ2j) = Z 1 0 |ψij(t) − ψ2j(t)|dt

ˆ Distˆancia de Mallows (que ´e derivada da anterior):

D2M(ψ1,j, ψ2,j) =

Z 1 0

q

[ψ1,j(t) − ψ2,j(t)]2dt

em que ψi,j´e a fun¸c˜ao quantil definida em 2.1.4 de Yj(si), sendo Yj uma vari´avel

histograma.

Contudo, se forem considerados sub-intervalos com a mesma sequˆencia de frequˆencias/pesos, e assumido que para cada entidade sios valores s˜ao uniformemente

(43)

distribu´ıdos dentro de cada intervalo, Verde e Irpino [44, 45] mostraram a possibilidade de calcular a distˆancia de Mallows, atrav´es de uma f´ormula simplificada:

DM2 = (Y (si) , Y (sj)) = M X l=1 pi× [(cli− clj)2+ 1 3(rli− rlj) 2]

sendo cli o centro do l-´esimo sub-intervalo de Y (si) e ri a semi-amplitude do mesmo

intervalo. Exemplo: Sejam Y (i) = {[0, 2[, 0.4; [2, 4], 0.6} e Y (j) = {[1, 2[, 0.4; [2, 3], 0.6} DM2 (Y (i), Y (j)) = 0.4 ×  0, 52 +1 3 × 0.5 2  + 0.6 ×  0.52+1 3 × 0.5 2  = 0.46666 .

4.5.2

Estudos Realizados nesta ´

Area

O tipo de dados que surge com maior frequˆencia nos estudos de classifica¸c˜ao para dados simb´olicos s˜ao os dados intervalares. Utilizam-se m´etodos n˜ao hier´arquicos como o das k-m´edias ou o das nuvens dinˆamicas ajustando `a especificidade das vari´aveis em quest˜ao [7, 11]. Surgiram ainda m´etodos consistindo em adapta¸c˜oes do m´etodo c- fuzzy tradicional para o caso de vari´aveis intervalares [6, 13], ainda o M´etodo RICA [24]. No entanto, relativamente ao tipo de dados que se est´a a estudar existe um n´umero reduzido de trabalhos.

Hardy et al. [18] desenvolveram um m´odulo para o programa SODAS, deno-minado por SHICLUST que s˜ao uma extens˜ao dos quatro m´etodos de classifica¸c˜ao hier´arquica Single Linkage, Complete Linkage, Centroid, Ward os dados s˜ao simb´ o-licos modais ou de valor m´ultiplo. Os referidos autores prop˜oem trˆes medidas: L1,

L2 no conjunto de observa¸c˜oes Bj.

Seja S o conjunto definido em 2.1.1 e ainda: ˆ p vari´aveis Y1, Y2, . . . , Yp;

ˆ πkj frequˆencia associada `as categoria da vari´avel Yj(sk);

ˆ nj o n´umero de categorias da vari´avel yj

Ent˜ao, sk= π1k1 , π 2 1k, . . . , π n1 1k , . . . , π 1 pk, π 2 pk, . . . , π np pk  Seja δj a fun¸c˜ao distˆancia definida sobre Bj

(44)

δj : Bj × Bj → R+ (xkj, xlj) 7−→ δj(skj, slj) ˆ Distˆancia L1 δ (skj, slj) = |Yj| X i=1 |πi kj− π i lj| ˆ Distˆancia L2 δ (skj, slj) = |Yj| X i=1 πkji − πi lj 2 ˆ Distˆancia de De Carvalho δ (skj, slj) = |Yj| X i=1  γ × πkji − γ0 × πi lj  γ = ( 1 πij 6= 0 0 πij = 0 γ0 = ( 0 πij = 0 1 πij 6= 0

A partir destas medidas, combinaram p ´ındices δ1, . . . , δp definiram o que

deno-minaram por medida de dissemelhan¸ca global em B: d (skj, slj) =

Pp

j=1δ2(skj, slj)

1 2,

em que δ2 ´e uma das medidas de dissemelhan¸ca definidas anteriormente.

Irpino, [21] prop˜oe utilizar a distˆancia de Wasserstein para os dados histograma que permite medir a in´ercia dos dados relativamente ao baricentro. Esta medida satisfaz o teorema de Huygens para a decomposi¸c˜ao de in´ercia, tendo sido aplicada na classifica¸c˜ao hier´arquica baseada no crit´erio de Ward. Verde e Irpino [22], aplicaram os m´etodos das k-m´edias e das nuvens dinˆamicas, utilizando a distˆancia de Wasserstein na an´alise classificat´oria particional para dados do tipo histograma, pressupondo uma distribui¸c˜ao uniforme em cada sub-intervalo, utilizando a formula simplificada de c´alculo descrita anteriormente.

Em [27] ´e proposta uma extens˜ao do m´etodo de Ward que segundo os autores, conjuntamente com o m´etodo do L´ıder permite formar grupos para conjuntos dados de grande dimens˜ao. Inicialmente aplica-se o m´etodo aglomerativo para determinar os lideres a serem considerados e definir o n´umero de agrupamentos a considerar e, seguidamente aplica-se o m´etodo dos lideres.

(45)

Mais recentemente, em [22] os autores propuseram um m´etodo de classifica¸c˜ao do tipo nuvens dinˆamicas para dados do tipo histograma. Em cada etapa ´e realizada uma pondera¸c˜ao autom´atica das vari´aveis utilizando a distˆancia de Mallows e ainda distˆancias adaptativas.

4.6

An´

alise Classificat´

oria para Dados

Composici-onais

4.6.1

Medidas de Dissemelhan¸

ca para Dados

Composicio-nais

Sejam xi = [xi1, xi2, . . . , xiD] e xj = [xj1, xj2, . . . , xjD] duas composi¸c˜oes

quais-quer. As medidas de dissemelhan¸ca mais utilizadas para dados composicionais s˜ao [31]: ˆ City block: d (xi, xj) = PD k=1|xik− xjk| ˆ Euclideana: d (xi, xj) = q PD k=1(xik− xjk) 2 ˆ Aitchison: d (xi, xj) = s PD k=1  ln  xik g (xi)  − ln  xjk g (xj) 2 ˆ Blattacharya (ln) : d (xi, xj) = ln  PD k=1xikxjk  ˆ J-divergence: d (xi, xj) = q PD k=1(ln (xik) − ln (xjk)) (xik− xjk) ˆ Mahalanobis (crude) : d (xi, xj) =  (xi− xj) 0 K+(x i− xj) 1/2 ˆ Mahalanobis (clr) : d (xi, xj) =  clr (xi) − clr (xj) 0 Γ+(clr (x i) − clr (xj)) 1/2 .

em que K+ ´e a matriz inversa de Moore-Penrose da matriz de covariˆancia K, do conjunto dos dados composicionais, Γ+ ´e tamb´em uma matriz inversa de

Moore-Penrose da matriz de covariˆancia dos dados transformados pela fun¸c˜ao clr, definida em 3.9.2.Aitchison [1] refere que uma medida adequada a dados composicionais deve ser:

ˆ Invariante face `a escala;

(46)

ˆ Invariante face a uma perturba¸c˜ao;

ˆ Dom´ınio sub-composicional: a distˆancia entre 2 subcomposi¸c˜oes sx e sy das

composi¸c˜oes x e y dever´a ser menor que a distˆancia entre x e y.

Das medidas elencadas anteriormente, apenas a de Aitchison e Mahalanobis (crude), verificam as quatro propriedades.

4.6.2

Trabalhos realizados nesta ´

Area

Os trabalhos existentes nesta ´area s˜ao escassos, n˜ao tendo sido encontrado nenhum estudo sobre classifica¸c˜ao n˜ao hier´arquica aplicada a dados composicionais. Fern´andez et al.[31] aplicam os m´etodos tradicionais de classifica¸c˜ao hier´arquica, nomeadamente: single, complete e average linkage, Ward e centr´oide concluindo ser necess´ario ajustar estes m´etodos `a natureza dos dados em quest˜ao nomeadamente no que se refere `a defini¸c˜ao de medida de dissemelhan¸ca.

Imagem

Figura 5.1: Distribui¸c˜ ao de clientes nos diferentes grupos
Tabela 5.3: Siglas dos Estados Americanos em estudo
Figura 5.2: Distribui¸c˜ ao do N´ umero de Cidades pelos diferentes Estados.
Figura 6.1: Dendrograma - M´ etodo Average - ASM - Dados Banc´ arios
+7

Referências

Documentos relacionados

Sendo assim, o presente estudo visa quantificar a atividade das proteases alcalinas totais do trato digestório do neon gobi Elacatinus figaro em diferentes idades e dietas que compõem

•   O  material  a  seguir  consiste  de  adaptações  e  extensões  dos  originais  gentilmente  cedidos  pelo 

1595 A caracterização do repertório de habilidades sociais dos alunos do Grupo com Baixo Desempenho Acadêmico (GBD) e do Grupo com Alto Desempenho Acadêmico (GAD),

A Tabela 3 apresenta os resultados de resistência ao impacto Izod e as caracterizações térmicas apresentadas em função dos ensaios de HDT, temperatura Vicat e a taxa de queima do

O candidato e seu responsável legalmente investido (no caso de candidato menor de 18 (dezoito) anos não emancipado), são os ÚNICOS responsáveis pelo correto

O enfermeiro, como integrante da equipe multidisciplinar em saúde, possui respaldo ético legal e técnico cientifico para atuar junto ao paciente portador de feridas, da avaliação

O desenvolvimento desta pesquisa está alicerçado ao método Dialético Crítico fundamentado no Materialismo Histórico, que segundo Triviños (1987)permite que se aproxime de

4 Este processo foi discutido de maneira mais detalhada no subtópico 4.2.2... o desvio estequiométrico de lítio provoca mudanças na intensidade, assim como, um pequeno deslocamento