• Nenhum resultado encontrado

Análise Classificatória Conceptual de Dados Simbólicos: Uma abordagem com representação por intervalos

N/A
N/A
Protected

Academic year: 2021

Share "Análise Classificatória Conceptual de Dados Simbólicos: Uma abordagem com representação por intervalos"

Copied!
168
0
0

Texto

(1)

An´alise Classificat´oria Conceptual

de Dados Simb´olicos

Uma abordagem com representac¸˜ao por intervalos

Por

D´oris Daniela Ramos de S´a

Tese de Mestrado - Modelac¸˜ao, An´alise de Dados e

Sistemas de Apoio `a Decis˜ao

Orientada por

Professora Doutora Paula Brito

(2)

Nota Biogr´afica

D´oris Daniela Ramos de S´a ´e natural de Rebordosa, Paredes, onde nasceu a 17 de

Maio de 1983.

Estudou na Faculdade de Ciˆencias da Universidade do Porto onde completou a

Licen-ciatura em Matem´atica - Ramo Educacional em 2007.

Em 2008 inicia a atividade profissional como docente de Matem´atica do terceiro ciclo

e ensino secund´ario no ensino p´ublico portuguˆes.

Em 2012 ingressou no Mestrado de Modelac¸˜ao, An´alise de Dados e Sistemas de

Apoio `a Decis˜ao na Faculdade de Economia da Universidade do Porto.

(3)

Agradecimentos

´

E com imenso prazer que agradec¸o a ajuda recebida na realizac¸˜ao deste trabalho a

todos aqueles que me ajudaram a torn´a-lo poss´ıvel:

`

A Professora Doutora Paula Brito, a minha Orientadora, agradec¸o pela partilha de

co-nhecimento sobre o tema, pela dedicac¸˜ao que demonstrou, pela atenc¸˜ao aos pormenores,

pela sua disponibilidade e dedicac¸˜ao e pelas oportunas palavras de incentivo.

Aos meus pais por serem um modelo de vida, pelos valores transmitidos e pelo

cari-nho incondicional ao longo de todos estes anos.

Aos meus irm˜aos pela cumplicidade e pela verdadeira amizade em todos os momentos

e circunstˆancias.

`

A Laetitia, minha grande amiga, agradec¸o a incans´avel ajuda, o otimismo e a atenc¸˜ao

que me dedicou.

Ao Pedro, pelo companheirismo, pela paciˆencia, pelo incentivo e pelas constantes

pa-lavras de ˆanimo e motivac¸˜ao, indispens´aveis para levar a cabo este trabalho.

Ao meu filho Rodrigo, a quem dedico este trabalho, que nasceu no meio desta

aven-tura.

(4)

Resumo

Dados simb´olicos s˜ao mais complexos do que os dados tradicionais pelo facto

de apresentarem variabilidade interna. A An´alise de Dados Simb´olicos ´e, por isso,

mais complexa que a An´alise de Dados tradicionais. Muitos tˆem sido os m´etodos

propostos para an´alise de dados simb´olicos. Neste trabalho fez-se a implementac¸˜ao,

com recurso ao software R, do m´etodo de classificac¸˜ao hier´arquica conceptual de

dados simb´olicos proposto por Brito e Polaillon. Neste m´etodo, os conceitos s˜ao

obtidos por uma correspondˆencia de Galois com generalizac¸˜ao por intervalos, o que

permite lidar com diferentes tipos de vari´aveis num enquadramento comum. Para

quantificar a semelhanc¸a do conjunto de classes resultantes do m´etodo aqui

estu-dado e implementado com as classes obtidas por outros m´etodos j´a existentes para

an´alise de dados simb´olicos foi usado o ´ındice de Rand ajustado. O m´etodo proposto

por Brito e Polaillon revela-se uma ferramenta valiosa para a classificac¸˜ao de dados

simb´olicos.

(5)

Abstract

Symbolic Data are more complex than classical data by containing internal

vari-ability. Symbolic Data Analysis is, therefore, more complex than classical Data

Analysis. Many methods have been proposed for Symbolic Data Analysis. In this

work, a symbolic data conceptual clustering method, proposed by Brito and

Po-laillon, was implemented, using the software R. Concepts are obtained by a Galois

lattice with interval generalization, allowing handling different variable types within

a common framework. In order to quantify the similarity between classes resulting

from the method studied and implemented here and those resulting from other

ex-istent methods for symbolic data analysis the adjusted Rand index was used. The

method proposed by Brito e Polaillon has proven to be a valuable tool for symbolic

data clustering.

(6)

Conte ´udo

1

Introduc¸˜ao

1

1.1

Motivac¸˜ao . . . .

2

1.2

Problema a estudar . . . .

3

1.3

Organizac¸˜ao da Dissertac¸˜ao . . . .

3

2

An´alise de Dados Simb´olicos

4

3

Revis˜ao da literatura

11

3.1

Estado da arte . . . .

11

3.1.1

M´etodos de classificac¸˜ao para dados simb´olicos . . . .

12

3.1.2

M´etodos de classificac¸˜ao conceptual . . . .

13

3.2

M´etodos SCLUST e DIV . . . .

16

3.2.1

SCLUST . . . .

16

3.2.2

DIV . . . .

17

4

Classificac¸˜ao Ascendente Hier´arquica Simb´olica

19

4.1

Classificac¸˜ao Hier´arquica . . . .

19

4.2

Correspondˆencias de Galois

. . . .

20

4.3

M´etodo de Classificac¸˜ao Hier´arquica Simb´olica:

vers˜ao original

. . . .

22

4.4

Representac¸˜ao por intervalos . . . .

27

4.5

Novo m´etodo de classificac¸˜ao ascendente hier´arquica simb´olica

. . . . .

30

4.6

Exemplo de aplicac¸˜ao do m´etodo . . . .

31

5

Implementac¸˜ao do M´etodo

36

5.1

Preparac¸˜ao pr´evia dos dados . . . .

36

(7)

5.2

Implementac¸˜ao em R . . . .

37

6

Aplicac¸˜oes

41

6.1

´Indice de Rand . . . 41

6.2

Dados Carros . . . .

43

6.2.1

M´etodo implementado . . . .

43

6.2.2

DIV . . . .

46

6.2.3

SCLUST . . . .

48

6.2.4

HIPYR . . . .

50

6.2.5

An´alise dos resultados . . . .

51

6.3

Dados Emprego . . . .

53

6.3.1

M´etodo implementado . . . .

54

6.3.2

SCLUST . . . .

58

6.3.3

HIPYR . . . .

61

6.3.4

An´alise dos resultados . . . .

65

7

Conclus˜ao

66

Apˆendice A C´odigo R

72

Apˆendice B Relat´orio M´etodo implementado - Dados Carros

79

Apˆendice C Objetos Dados Emprego

84

Apˆendice D Relat´orio M´etodo implementado - Dados Emprego

88

Apˆendice E Classes formadas Dados Emprego

147

E.1

Classes formadas pelo m´etodo Implementado . . . 147

E.2

Classes formadas pelo m´etodo SCLUST . . . 151

(8)

Lista de Figuras

4.1

Hierarquia indexada obtida para as instituic¸˜oes de ensino . . . .

35

5.1

Conjunto de dados

. . . .

37

5.2

Tabela de parˆametros . . . .

38

6.1

Classificac¸˜ao hier´arquica indexada obtida pelo m´etodo implementado

-Dados Carros . . . .

44

6.2

Partic¸˜ao em 4 classes - Dados Carros . . . .

45

6.3

Prot´otipos cilindrada-prec¸o . . . .

49

6.4

Prot´otipos acelerac¸˜ao-velocidade m´axima . . . .

49

6.5

Classificac¸˜ao hier´arquica indexada obtida pelo m´etodo implementado

-Dados Emprego . . . .

55

(9)

Lista de Tabelas

2.1

Exemplo de tabela de dados simb´olicos - agregac¸˜ao temporal . . . .

5

2.2

Exemplo: conjunto de dados sobre instituic¸˜oes de ensino . . . .

5

2.3

Exemplo de tabela de dados simb´olicos - agregac¸˜ao contemporˆanea

. . .

5

2.4

Exemplo vari´avel intervalar . . . .

7

2.5

Exemplo vari´avel histograma . . . .

8

2.6

Exemplo vari´avel categ´orica modal . . . .

9

4.1

Dados bin´arios para o conjunto de planetas

. . . .

21

4.2

Vari´avel intervalar . . . .

23

4.3

Vari´avel Categ´orica . . . .

24

4.4

Vari´avel Modal . . . .

25

4.5

Medida de generalidade: vers˜ao original . . . .

26

4.6

Vari´avel Real . . . .

28

4.7

Vari´avel Categ´orica Modal . . . .

29

4.8

Vari´avel Categ´orica de valor singular e multi valor . . . .

29

4.9

Distribuic¸˜ao uniforme por categoria . . . .

30

4.10 Exemplo 3 - Medida de generalidade . . . .

31

4.11 Tabela de dados inicial . . . .

32

4.12 Descric¸˜ao das classes candidatas . . . .

32

4.13 Medidas de generalidade para as classes candidatas . . . .

33

4.14 Tabela de dados 2 . . . .

33

4.15 Segundo passo

. . . .

33

4.16 Tabela de dados 3 . . . .

34

4.17 Terceiro passo . . . .

34

(10)

6.1

Categoria dos carros

. . . .

43

6.2

Composic¸˜ao das 4 classes obtidas pelo m´etodo implementado - Dados

Carros . . . .

44

6.3

Composic¸˜ao das 2 classes obtidas pelo m´etodo implementado - Dados

Carros . . . .

46

6.4

Composic¸˜ao das 2 classes obtidas pelo m´etodo DIV - Dados Carros

. . .

47

6.5

Composic¸˜ao das 4 classes obtidas pelo m´etodo DIV - dados carros . . . .

47

6.6

Composic¸˜ao das 2 classes obtidas pelo m´etodo SCLUST - Dados Carros .

48

6.7

Composic¸˜ao das 4 classes obtidas pelo m´etodo SCLUST - Dados Carros .

48

6.8

Composic¸˜ao das 4 classes obtidas pelo m´etodo HIPYR - Dados Carros . .

50

6.9

´Indice de Rand ajustado obtido pela comparac¸˜ao das classes conhecidas

a priori

com as resultantes dos m´etodos - Dados Carros . . . .

51

6.10 ´Indice de Rand ajustado obtido pela comparac¸˜ao das classes formadas

pelos diferentes m´etodos - Dados Carros . . . .

51

6.11 ´Indice de Rand ajustado obtido pela comparac¸˜ao das classes formadas

(11)

Cap´ıtulo 1

Introduc¸˜ao

A An´alise de Dados Simb´olicos tem sido alvo de v´arios estudos resultando em

consi-der´aveis desenvolvimentos. Surge a partir da necessidade de considerar dados que

conte-nham informac¸˜ao que n˜ao pode ser representada dentro dos modelos de dados cl´assicos,

combinada com o objetivo de desenhar m´etodos que produzam resultados diretamente

interpret´aveis em termos de vari´aveis descritivas de entrada [33].

Na An´alise de Dados tradicional as unidades b´asicas sob an´alise s˜ao normalmente

indiv´ıduos singulares que s˜ao descritos por um conjunto de vari´aveis quantitativas e/ou

qualitativas, em que cada indiv´ıduo toma um ´unico valor para cada vari´avel. Os dados

s˜ao frequentemente organizados numa matriz de dados, em que cada c´elula (i, j) cont´em

o valor da vari´avel j para o indiv´ıduo i. Este modelo ´e, contudo, muito restrito para ter

em conta variabilidade e/ou incerteza que s˜ao frequentemente inerentes aos dados [33].

Quando os dados s˜ao analisados em grupo, em vez de se analisar um indiv´ıduo

singu-lar, ent˜ao a variabilidade intr´ınseca ao grupo deve ser tida em conta [33] (poder-se-´ıa ter

em considerac¸˜ao o valor m´edio ou a moda desse grupo de indiv´ıduos mas seria perdida

muita informac¸˜ao). Da mesma forma, se os dados forem obtidos por agregac¸˜ao

tempo-ral de observac¸˜oes individuais para obter descric¸˜oes de entidades com interesse ou se se

est´a diante de conceitos especificados por especialistas, ou colocados em evidˆencia por

agrupamento, est´a-se a lidar com elementos que j´a n˜ao podem ser convenientemente

des-critos pelas vari´aveis qualitativas e quantitativas habituais, sem uma inaceit´avel perda de

informac¸˜ao [20].

(12)

assumir outras formas de representac¸˜ao permitindo ter em considerac¸˜ao a variabilidade

intr´ınseca. Estes novos tipos de vari´aveis foram chamados vari´aveis simb´olicas, e podem

assumir m´ultiplos valores, possivelmente ponderados, em cada caso. O termo simb´olico

´e usado para salientar o facto de que os valores que tomam s˜ao de uma natureza diferente

[33].

A an´alise de dados simb´olicos ´e uma ferramenta onde a variabilidade observada pode

efetivamente ser considerada na representac¸˜ao de dados e os m´etodos podem ser

desen-volvidos tendo-a em considerac¸˜ao [33]. Tal como na an´alise cl´assica de dados, os dados

simb´olicos s˜ao apresentados sob a forma de uma matriz, agora designada tabela de

da-dos simb´olicos, em que cada coluna corresponde a uma vari´avel simb´olica [33]. Cada

c´elula da matriz n˜ao cont´em necessariamente um ´unico valor num´erico ou uma categoria,

podendo registar um intervalo, um conjunto de valores ou uma distribuic¸˜ao. ´

E ent˜ao

ne-cess´ario estender os m´etodos tradicionais de an´alise de dados `a tabela de dados simb´olicos

de forma a conseguir informac¸˜ao mais precisa e analisar/sumariar conjuntos de dados

ex-tensivos contidos em bases de dados [20].

1.1

Motivac¸˜ao

Ao contr´ario de dados cl´assicos, nos quais cada ponto de dados consiste num valor

sin-gular (categ´orico ou quantitativo), os dados simb´olicos podem, ent˜ao, conter variac¸˜ao

interna e podem ser estruturados. ´

E a presenc¸a desta variac¸˜ao interna que conduz `a

ne-cessidade de novas t´ecnicas de an´alise que no geral ir˜ao diferir das utilizadas nos dados

cl´assicos. Depressa se torna evidente que a variabilidade deve ser levada em conta quando

se analisa um conjunto de dados.

A extens˜ao das metodologias cl´assicas `a an´alise de dados simb´olicos levanta novos

problemas tais como que propriedades e definic¸˜oes de estat´ıstica b´asica ainda se mantˆem

v´alidas, quais as ferramentas de an´alise de dados tradicionais que ainda podem ser

utiliza-das, bem como qual a forma como se avalia a dispers˜ao e como se definem combinac¸˜oes

lineares entre dados simb´olicos.

A crescente necessidade de considerar dados que v˜ao al´em do modelo cl´assico tem

conduzido ao desenvolvimento da an´alise de dados simb´olicos. Assim, novas t´ecnicas

(13)

devem ser consideradas, desenvolvidas e testadas para suportar este novo tipo de dados

com resultados diretamente interpret´aveis em termos de vari´aveis descritivas de entrada.

1.2

Problema a estudar

Recentemente, Brito e Polaillon [9] [33] propuseram uma forma de representac¸˜ao

co-mum para vari´aveis de diferentes tipos (ordinais, reais, intervalares, distribucionais), que

permite um tratamento conjunto dos dados simb´olicos. Um m´etodo de classificac¸˜ao

hier´arquica foi proposto, baseado nessa representac¸˜ao comum [10].

Nesta dissertac¸˜ao, pretende-se estudar o m´etodo de classificac¸˜ao hier´arquica proposto

por Brito e Polaillon para an´alise de dados simb´olicos. Tem-se como objetivo

imple-mentar o referido m´etodo recorrendo ao software R. Os resultados ser˜ao comparados com

os fornecidos por outros m´etodos para classificac¸˜ao de dados simb´olicos. Ser˜ao usados

conjuntos de dados para estudar o comportamento do m´etodo.

1.3

Organizac¸˜ao da Dissertac¸˜ao

Esta dissertac¸˜ao ´e estruturada em sete cap´ıtulos. No primeiro vertem-se algumas

consi-derac¸˜oes sobre o tema, a sua importˆancia e a motivac¸˜ao do trabalho. No Cap´ıtulo 2 ´e

feita uma exposic¸˜ao sobre An´alise de Dados Simb´olicos destacando os diferentes tipos de

vari´aveis simb´olicas e s˜ao ainda apresentadas algumas ferramentas para a an´alise deste

tipo de dados. No Cap´ıtulo 3 ´e dado destaque `a revis˜ao da literatura sobre m´etodos de

classificac¸˜ao para dados simb´olicos e m´etodos de classificac¸˜ao conceptual. No Cap´ıtulo 4

´e detalhado o m´etodo a ser implementado, fazendo uma exposic¸˜ao dos conceitos te´oricos

para a sua compreens˜ao bem como o m´etodo original que, ap´os novas considerac¸˜oes, deu

origem ao m´etodo estudado nesta dissertac¸˜ao. No Cap´ıtulo 5 ´e detalhada a implementac¸˜ao

do m´etodo proposto. Seguidamente, no Cap´ıtulo 6 procede-se a aplicac¸˜ao do m´etodo

a alguns conjuntos de dados e posterior comparac¸˜ao com resultados obtidos por outros

m´etodos para an´alise de dados simb´olicos dispon´ıveis no software SODAS. Finalmente,

no Cap´ıtulo 7, s˜ao feitas algumas considerac¸˜oes finais sobre o m´etodo estudado numa

breve conclus˜ao.

(14)

Cap´ıtulo 2

An´alise de Dados Simb´olicos

Em muitas situac¸˜oes, a utilizac¸˜ao simplista de informac¸˜ao singular para cada unidade

de an´alise atrav´es de um conjunto de vari´aveis quantitativas e/ou qualitativas, onde cada

unidade assume um valor ´unico para cada vari´avel, ´e inadequada pois n˜ao permite ter em

conta a variabilidade e/ou incerteza inerente aos dados. Para colmatar esta situac¸˜ao, ´e

aconselh´avel a utilizac¸˜ao de dados simb´olicos, possibilitando a an´alise de um conjunto de

dados que podem ser descritos sob a forma de um intervalo, de um conjunto de valores

ou de uma distribuic¸˜ao.

Os dados simb´olicos s˜ao dados que contˆem variac¸˜ao interna. Podem surgir de

diferen-tes formas, sendo que a forma mais comum consiste na agregac¸˜ao de conjuntos de dados

cl´assicos. Devemos diferenciar dois diferentes tipos de agregac¸˜ao de dados [7]:

1. Agregac¸˜ao temporal: os dados s˜ao recolhidos ao longo do tempo para as mesmas

entidades. As observac¸˜oes devem ser agregadas considerando todo o conjunto de

valores ou as suas distribuic¸˜oes. Neste tipo de agregac¸˜ao, as unidades estat´ısticas

em an´alise s˜ao as mesmas antes e depois da agregac¸˜ao.

2. Agregac¸˜ao contemporˆanea: os dados s˜ao recolhidos no mesmo instante temporal

mas o interesse reside numa an´alise de entidades a um n´ıvel superior `aquele em

que os dados foram originalmente recolhidos. Neste tipo de agregac¸˜ao as

unida-des estat´ısticas em an´alise n˜ao s˜ao as mesmas dos dados originais mas s˜ao grupos

espec´ıficos destas.

(15)

caracteriza-Tabela 2.1: Exemplo de tabela de dados simb´olicos - agregac¸˜ao temporal

F´abricas N.ode objetos defeituosos F´abrica 1 [5,13]

F´abrica 2 [12,18] F´abrica 3 [3,14]

Tabela 2.2: Exemplo: conjunto de dados sobre instituic¸˜oes de ensino

Instituic¸˜ao Idade Estado Civil Categoria

Ant´onio 3 55 vi´uvo Docente

Maria 2 30 casada Limpeza

Carolina 1 27 solteira Docentes

Rodrigo 2 40 casado Administrac¸˜ao

Raquel 1 32 casada Docente

... ... ... ... ...

das pelo n´umero de amostras n˜ao conformes detetadas no controlo de qualidade di´ario.

Este n´umero varia de dia para dia sendo que esta variac¸˜ao pode ser representada por um

intervalo (ver Tabela 2.1).

Um exemplo do tipo de agregac¸˜ao contemporˆanea consiste na necessidade de estudar

as instituic¸˜oes de ensino de acordo com os seus funcion´arios. Para tal, disp˜oe-se de um

conjunto de dados dos funcion´arios destas instituic¸˜oes descritos pela idade, estado civil

e categoria do funcion´ario, descritos na Tabela 2.2. Na Tabela 2.3 tem-se os dados

agre-gados por Instituic¸˜ao de ensino; agora Idade ´e uma vari´avel intervalar, Estado civil uma

vari´avel categ´orica multi-valor e Categoria uma vari´avel categ´orica modal.

Na Tabela 2.3 pode ser observado, que as pessoas que trabalham na Instituic¸˜ao 1 tˆem

entre 20 e 45 anos, s˜ao solteiros ou casados e 30% deles trabalham na administrac¸˜ao,

Tabela 2.3: Exemplo de tabela de dados simb´olicos - agregac¸˜ao contemporˆanea

Idade Estado Civil Categoria

Instituic¸˜ao 1 [20,45] {solteiro,casado} Administrac¸˜ao (30%) Docentes (70%) Instituic¸˜ao 2 [30,50] {solteiro,casado} Administrac¸˜ao (20%)

Docentes (60%) Limpeza (20%) Instituic¸˜ao 3 [25,60] {solteiro,casado,vi´uvo} Administrac¸˜ao (20%)

(16)

enquanto que 70% s˜ao professores.

Uma tabela de dados simb´olicos pode conter informac¸˜ao de diferentes tipos de

vari´a-veis. Estas distinguem-se desde logo por serem num´ericas ou categ´oricas pois o sentido

matem´atico e as operac¸˜oes que poder˜ao ser aplicadas s˜ao consideravelmente diferentes.

Distinguem-se ainda diferentes tipos de vari´aveis num´ericas e categ´oricas a serem

consi-deradas.

Uma vari´avel quantitativa pode ser de valor singular (inteiro ou real) se assume um

´unico valor num dado dom´ınio por indiv´ıduo, de multi-valor se os seus valores s˜ao

sub-conjuntos finitos do dom´ınio, vari´avel intervalar se os seus valores s˜ao intervalos de

n´umeros reais e vari´avel histograma quando ´e dada uma distribuic¸˜ao emp´ırica sobre um

conjunto de sub-intervalos.

Uma vari´avel categ´orica pode assumir um valor singular (ordinal ou nominal), como

no contexto cl´assico, quando toma uma categoria de um conjunto finito, O = {m

1

, ..., m

k

}

para cada entidade, vari´avel categ´orica de multi-valor se os seus valores s˜ao

subconjun-tos finisubconjun-tos do dom´ınio O e vari´avel categ´orica modal que consiste numa vari´avel que

assume valores m´ultiplos onde, para cada elemento, ´e dado um conjunto de categorias m

l

e, para cada categoria, ´e dada a frequˆencia ou probabilidade que indica qu˜ao frequente

ou prov´avel essa categoria ´e para esse elemento. As vari´aveis simb´olicas podem ainda

tomar a forma de vari´aveis taxon´omicas, com categorias estruturadas hierarquicamente

ou incluir regras hier´arquicas.

Seja Y

1

, ..., Y

p

o conjunto de vari´aveis, O

j

o dom´ınio subjacente a Y

j

e B

j

o espac¸o

de observac¸˜ao de Y

j

, j = 1, ..., p. Uma descric¸˜ao ´e definida como um p-tupla (d

1

, ..., d

p

)

com d

j

∈ B

j

, j = 1, ..., p. Sendo E = {ω

1

, ..., ω

n

} o conjunto dos indiv´ıduos observados,

ent˜ao Y

j

i

) ∈ B

j

para j = 1, ..., p, i = 1, ..., n. Ent˜ao, a matriz de dados consiste em n

descric¸˜oes, uma para cada indiv´ıduo ω

i

∈ E : (Y

1

i

), ..., Y

p

i

)), i = 1, ..., n.

Tipos de vari´aveis

Em [33] e [7] podem encontrar-se as definic¸˜oes de diferentes tipos de vari´aveis simb´olicas:

• Vari´aveis quantitativas de valor ´unico

(17)

valor ´unico Y ´e definida pela aplicac¸˜ao Y : E → O tal que ω

i

7→ Y (ω

i

) = c ∈

O ⊆ IR. Neste caso, B ´e idˆentico ao conjunto subjacente O, ou seja, B ≡ O.

• Vari´aveis quantitativas de valores m ´ultiplos

Dado um conjunto E, a vari´avel quantitativa de valores m´ultiplo Y ´e definida pela

aplicac¸˜ao Y : E → B tal que ω

i

7→ Y (ω

i

) = {c

i1

, ..., c

ini

}, onde B ´e o conjunto

dos subconjuntos finitos de um conjunto subjacente O ⊆ IR. Y (ω

i

) ´e assim um

conjunto finito n˜ao vazio de n´umeros reais.

• Vari´aveis intervalares

Dado E = {ω

1

, ..., ω

n

}, uma vari´avel intervalar ´e definida pela aplicac¸˜ao Y : E →

B tal que ω

i

7→ Y (ω

i

) = [l

i

, u

i

], onde B ´e o conjunto de intervalos de um conjunto

subjacente O ⊆ IR. Seja I uma matriz n × p de representac¸˜ao dos valores de p

vari´aveis intervalares em E. Cada ω

i

∈ E ´e representado como uma p-tupla de

intervalos, I

i

= (I

i1

, ..., I

ip

), i = 1, ..., n com I

ij

= [l

ij

, u

ij

], j = 1, ..., p. O valor de

uma vari´avel intervalar Y

j

para cada ω

i

∈ E ´e normalmente definido pelos limites

inferior e superior l

ij

e u

ij

de I

ij

= Y

j

i

).

Um exemplo de uma vari´avel intervalar pode ser encontrada numa base de dados em

que se regista por escolas as notas obtidas pelos alunos no exame de Matem´atica.

Tabela 2.4: Exemplo vari´avel intervalar

Escola Notas

Escola A [10,19] Escola B [7,17] Escola C [8,18]

• Vari´aveis histograma

Quando dados de valor real s˜ao agregados em intervalos a informac¸˜ao da distribuic¸˜ao

dentro dos intervalos n˜ao ´e tida em conta. Uma forma de manter informac¸˜ao mais

detalhada ´e definir sub-intervalos entre os limites m´ınimo e m´aximo globais e

cal-cular as frequˆencias para esses intervalos. Obt´em-se assim, para cada caso, um

histograma com k classes onde k ´e o n´umero de sub-intervalos considerado.

(18)

Dado E = {ω

1

, ..., ω

n

}, uma vari´avel histograma ´e definida por uma aplicac¸˜ao Y :

E → B tal que ω

i

7→ Y (ω

i

) = {[I

i1

, I

i1

], p

i1

, [I

i2

, I

i2

], p

i2

; ...; [I

ik

, I

ik

], p

ik

} onde

I

il

= [I

il

, I

il

], l = 1, ..., k

i

s˜ao os sub-intervalos considerados para a observac¸˜ao ω

i

,

p

i1

+ ... + p

iki

= 1. B ´e, neste caso, o conjunto de distribuic¸˜oes de frequˆencia em

{I

i1

, ..., I

iki

}. ´E assumido que para cada entidade ω

i

os valores s˜ao uniformemente

distribu´ıdos dentro de cada intervalo. Para diferentes observac¸˜oes, o n´umero e

am-plitude dos sub-intervalos dos histogramas podem ser diferentes.

Exemplo: Considere que numa empresa de transportes p´ublicos ´e registado

diaria-mente o tempo (em minutos) com que os autocarros chegam atrasados a uma certa

paragem. A informac¸˜ao ´e recolhida em trˆes diferentes intervalos de tempo: de 0 a

5 min, de 5 a 10 min e de 10 a 15 minutos. Na Tabela 2.5 pode encontrar-se um

exemplo de uma vari´avel histograma.

Tabela 2.5: Exemplo vari´avel histograma

N.oautocarro Atrasos

Autocarro 1 [0,5[, 0.55; [5,10[, 0.25; [10,15[,0.20 Autocarro 2 [0,5[, 0.75; [5,10[, 0.2; [10,15[,0.05 Autocarro 3 [0,5[, 0.60; [5,10[, 0.20; [10,15[,0.20

• Vari´aveis categ´oricas de valor ´unico

Dado E = {ω

1

, ..., ω

n

} e um conjunto finito de categorias, O = {m

1

, ..., m

k

} uma

vari´avel categ´orica de valor ´unico ´e definida pela aplicac¸˜ao Y : E → O tal que

ω

i

7→ Y (ω

i

) = m

l

. Neste caso B ≡ O.

• Vari´aveis categ´oricas multi valor

Uma vari´avel categ´orica multi valor ´e definida pela aplicac¸˜ao Y : E → B onde B ´e

o conjunto n˜ao vazio de subconjuntos de O = {m

1

, ..., m

k

}. Os ”valores”de Y (ω

i

)

s˜ao agora conjuntos finitos de categorias.

• Vari´aveis categ´oricas modais

Uma vari´avel categ´orica modal Y com um dom´ınio subjacente finito O = {m

1

, ..., m

k

}

(19)

regis-tado um conjunto de categorias e para cada categoria m

l

, um peso, frequˆencia ou

probabilidade p

l

que indica qu˜ao frequente ou prov´avel ´e essa categoria para esse

elemento. Neste caso, B ´e o conjunto de distribuic¸˜oes sobre O e os seus elementos

s˜ao denotados por {m

1

(p

1

), ..., m

k

(p

k

)}.

Exemplo: Considere-se novamente o exemplo das escolas onde tamb´em ´e

reco-lhida informac¸˜ao sobre a avaliac¸˜ao dos professores. Neste caso, os professores tˆem

uma avaliac¸˜ao qualitativa em quatro categorias Regular, Bom, Muito bom e

Exce-lente. Na Tabela 2.6 pode-se encontrar um exemplo de uma vari´avel modal.

Tabela 2.6: Exemplo vari´avel categ´orica modal

Escolas Avaliac¸˜ao dos professores Escola A Regular (0%) Bom (70%) Muito Bom (25%) Excelente (5%) Escola B Regular (0%) Bom (75%) Muito Bom (20%) Excelente (5%) Escola C Regular (0%) Bom (80%) Muito Bom (17%) Excelente (3%)

Outro tipo de vari´aveis

Vari´aveis taxon´omicas

Uma vari´avel Y : E → O ´e uma vari´avel taxon´omica se O tem uma estrutura em

´arvore. Taxonomias devem ser consideradas na obtenc¸˜ao das descric¸˜oes dos dados

agre-gados: primeiro os valores s˜ao guardados como no caso das vari´aveis categ´oricas de

valores m´ultiplo e depois cada conjunto de valores de O ´e substitu´ıdo pelo menor valor h

na taxonomia cobrindo os valores do conjunto dado. Geralmente, sobe-se para o n´ıvel h

quando pelo menos dois sucessores de h est˜ao presentes.

(20)

Software para dados simb´olicos

O primeiro software a permitir a representac¸˜ao e an´alise de dados simb´olicos foi o

SO-DAS: Symbolic Official Data Analysis System, resultante do primeiro projeto de investigac¸˜ao

europeia sobre este tipo de dados (1996 a 1999). O objetivo deste projeto era facilitar o

uso de t´ecnicas de an´alise de dados simb´olicos demonstrando que cobrem v´arias

neces-sidades dos utilizadores. Este projeto foi seguido pelo projeto ASSO: Analysis System of

Symbolic Official data

(2001 a 2003) com o objetivo de desenhar novos m´etodos,

meto-dologias e ferramentas de software para extrac¸˜ao de conhecimento de dados complexos

multi-dimensionais do qual resultou o novo software SODAS2. Atualmente, existem

ou-tras alternativas incluindo pacotes para o software R, tais como MAINT.Data, symbolicDA,

RSDA

e SoDA.

(21)

Cap´ıtulo 3

Revis˜ao da literatura

3.1

Estado da arte

Neste cap´ıtulo ser´a apresentada uma vis˜ao global sobre alguns dos m´etodos de

classifi-cac¸˜ao existentes para dados simb´olicos, hier´arquicos e n˜ao hier´arquicos, assim como de

m´etodos de classificac¸˜ao conceptual.

Ao longo do tempo tem sido proposta uma grande variedade de m´etodos de

classi-ficac¸˜ao capazes de lidar com dados simb´olicos. Estes m´etodos podem ser divididos em

dois grupos [6], sendo que no primeiro se enquadram m´etodos que resultam da adaptac¸˜ao

de m´etodos de agrupamento tradicionais baseados em medidas de dissemelhanc¸as mas

aplicados aos novos tipos de dados. No segundo grupo, encontram-se os m´etodos que

utilizam explicitamente os dados no processo de agrupamento em vez de medidas de

dissemelhanc¸a, que s˜ao frequentemente chamados de m´etodos de classificac¸˜ao

concep-tual.

Esta divis˜ao n˜ao ´e espec´ıfica para os dados simb´olicos, por´em, devido `a variabilidade

inerente a este tipo de dados, a diferenc¸a entre os dois tipos de m´etodos tem consequˆencias

consider´aveis nos resultados da classificac¸˜ao. No entanto, os resultados obtidos entre os

m´etodos dos dois grupos n˜ao devem ser comparados uma vez que resultam de diferentes

conceitos daquilo que ´e uma classe.

O tipo de dados simb´olicos que mais tem sido estudado e cujos m´etodos tˆem

conhe-cido maiores desenvolvimentos s˜ao os dados intervalares.

(22)

3.1.1

M´etodos de classificac¸˜ao para dados simb´olicos

No que diz respeito a m´etodos de classificac¸˜ao para dados simb´olicos, muitos s˜ao os

m´etodos que tˆem sido propostos quer recorrendo a classificac¸˜ao hier´arquica como n˜ao

hier´arquica.

Fundamentados em adaptac¸˜oes de k-means ou m´etodo das nuvens dinˆamicas, tˆem

sido propostos v´arios m´etodos n˜ao hier´arquicos baseados em diferentes medidas de

dis-semelhanc¸a para dados intervalares (ver [19], [16] e [14]). Tˆem sido tamb´em

propos-tos m´etodos de classificac¸˜ao Fuzzy. Estes m´etodos para dados intervalares resultam da

adaptac¸˜ao do algoritmo c-means fuzzy tradicional, usando distˆancias apropriadas, como ´e

feito para os algoritmos crisp. Em [15] e [18] s˜ao ainda fornecidas ferramentas adicionais

de interpretac¸˜ao para classes fuzzy individuais de dados intervalares, adequadas a estes

modelos. Em [27] ´e apresentado um m´etodo de classificac¸˜ao RICA especialmente

desen-volvido para tratar de quest˜oes como os outliers, o n´umero de classes e da inicializac¸˜ao de

prot´otipos em m´etodos de classificac¸˜ao c-means fuzzy para dados intervalares simb´olicos.

Para dados com valores m´ultiplos, foi proposto o m´etodo n˜ao hier´arquico SCLUST

(ver [17]) especializado em dados simb´olicos, que est´a inclu´ıdo no software SODAS. Este

´e uma generalizac¸˜ao do m´etodo das nuvens dinˆamicas tradicional para classificar um

con-junto de conceitos num n´umero k de classes homog´eneas, que s˜ao definidas a priori,

ape-sar de existir um m´odulo que permite determinar o melhor valor de k. O m´etodo assenta

nos mesmos princ´ıpios do m´etodo cl´assico das nuvens dinˆamicas e determina

iterativa-mente uma s´erie de partic¸˜oes que melhoram em cada passo segundo um crit´erio que mede

o ajuste entre os prot´otipos das classes e os seus membros, que ´e aditivo nas vari´aveis e

nas classes e baseado em func¸˜oes de distˆancia. Este m´etodo pode ser aplicado a conjuntos

de dados com diferentes tipos de vari´aveis de forma isolada ou simultˆanea e admite dados

em falta. Este m´etodo encontra-se descrito com algum detalhe na Secc¸˜ao 3.2.1.

Tamb´em baseado no m´etodo das nuvens dinˆamicas ´e apresentado o m´etodo DCLUST

(ver [17]), assente numa matriz distˆancia que tem como objetivo o particionamento do

conjunto de dados num n´umero fixo k de classes homog´eneas com base nas proximidades

entre pares de conceitos ou indiv´ıduos do conjunto de dados. O crit´erio otimizado por

DCLUST ´e baseado na soma das dissemelhanc¸as (ou soma dos quadrados das distˆancias)

(23)

entre os elementos pertencentes a uma mesma classe. Este m´etodo est´a dispon´ıvel como

um pacote para o software R.

No que diz respeito a m´etodos de classificac¸˜ao hier´arquica espec´ıficos para dados

intervalares, n˜ao tˆem surgido tantos desenvolvimentos como no caso dos m´etodos de

classificac¸˜ao n˜ao hier´arquica. De forma geral, os m´etodos hier´arquicos tradicionais

po-dem ser aplicados a dados intervalares definindo uma matriz de dissemelhanc¸a entre as

entidades a serem classificadas para criar as partic¸˜oes. Em [25] ´e proposto um m´etodo de

classificac¸˜ao divisiva baseado em processos pontuais de Poisson n˜ao homog´eneos.

Para dados simb´olicos contendo tipos de vari´aveis que assumem m´ultiplos valores

tˆem sido tamb´em desenvolvidos outros m´etodos de classificac¸˜ao hier´arquica. Entre

es-tes podemos encontrar o m´etodo DIV: Divisive Classification of Symbolic Data [13]

que realiza uma hierarquia indexada de objetos simb´olicos (dados cl´assicos, intervalares,

probabil´ısticos e multi-valor baseados em dados cont´ınuos ou ordinais, n˜ao suportando

vari´aveis de tipo mistos). Comec¸a com os objetos compilados numa ´unica classe e divide

sucessivamente cada classe em classes menores de acordo com o crit´erio de variˆancia

dentro da classe, que ´e uma extens˜ao do crit´erio da soma dos quadrados para o caso de

uma matriz distˆancia. Cada divis˜ao ´e realizada de forma monot´etica, isto ´e, ´e baseada

ape-nas numa vari´avel e separa os objetos que mostrem valores espec´ıficos desta vari´avel dos

restantes objetos. O resultado do m´etodo DIV, que est´a dispon´ıvel no software SODAS, ´e

uma ´arvore de classificac¸˜ao. Este m´etodo encontra-se descrito na Secc¸˜ao 3.2.2.

No software SODAS2 pode ainda ser encontrado o m´etodo SHICLUST (ver [24]),

que estende os m´etodos de classificac¸˜ao hier´arquica tradicional (single linkage, complete

linkage, centroid

e Ward) a dados simb´olicos. Outro m´etodo ´e proposto em [8], baseado

em representac¸˜oes de quantis dos dados.

3.1.2

M´etodos de classificac¸˜ao conceptual

A classificac¸˜ao conceptual iniciou-se com Michalski (1980). Este prop˜oe (ver [31]) o

m´etodo CLUSTER onde os objetos s˜ao agrupados n˜ao apenas com base nas distˆancias

en-tre eles mas no conjunto de conceitos que est˜ao dispon´ıveis para descrever os objetos.

Pos-teriormente, Michalski e Stepp (ver [32]) propuseram o m´etodo CLUSTER/2: ´e gerada

uma partic¸˜ao inicial que ´e otimizada iterativamente tentando minimizar a sobreposic¸˜ao

(24)

entre classes.

Um dos m´etodos mais conhecidos de classificac¸˜ao conceptual ´e o m´etodo COBWEB

proposto por Fisher, em 1987, (ver [23]) que organiza de forma incremental as observac¸˜oes

numa ´arvore de decis˜ao, onde cada n´o representa um conceito e ´e etiquetado por um

con-ceito probabil´ıstico que resume a distribuic¸˜ao atributo-valor dos objetos classificados no

n´o. Por outras palavras, as classes s˜ao representadas probabilisticamente pela distribuic¸˜ao

de probabilidade dos valores do atributo para os membros de cada classe.

Em 2001, foi proposto o m´etodo SUBDUE (ver [28]). Este m´etodo assenta numa

representac¸˜ao gr´afica de informac¸˜ao estrutural combinada com uma t´ecnica de descoberta

de subestruturas. Utiliza uma variante de pesquisa heur´ıstica beam search com o objetivo

de encontrar a subestrutura que melhor concentra o gr´afico de entrada, como extens˜oes

`as subestruturas descobertas anteriormente. Os resultados mostram que o SUBDUE

en-contra com sucesso classes hier´arquicas tanto em dados estruturados como em dados n˜ao

estruturados.

Outro m´etodo proposto (ver [37]) ´e o m´etodo GCF (Generality-based Concept

For-mation) que se baseia em conceitos probabil´ısticos que associam uma probabilidade ou

peso a com cada propriedade da definic¸˜ao do conceito. Este apoia-se no modelo de

classificac¸˜ao hier´arquica e utiliza representac¸˜oes probabil´ısticas estendendo as ideias

tra-dicionais de generalidade/especificidade.

Outros m´etodos de classificac¸˜ao conceptual que tˆem sido propostos utilizam

corres-pondˆencias de Galois.

O m´etodo GALOIS, proposto por Carpineto e Romano (ver [12]) constr´oi hierarquias

conceptuais insens´ıveis `a ordem dos objetos. ´

E um algoritmo incremental que usa a teoria

de Galois para construir a estrutura de conceitos correspondente a um dado conjunto de

objetos. Este m´etodo assenta na ideia em que para encontrar os conceitos na estrutura

atu-alizada ´e suficiente considerar as intersec¸˜oes do novo objeto com os conceitos da estrutura

anterior. Isto ´e, para gerar os conceitos na estrutura atualizada n˜ao ´e necess´ario intersectar

o novo objeto com todas as poss´ıveis combinac¸˜oes dos objetos anteriores. Assim, o

algo-ritmo centra-se na adic¸˜ao das intersecc¸˜oes do novo objeto com os conceitos antigos e os

seus limites relativos `a estrutura. No entanto, examinar cada n´o na estrutura de forma

in-dependente e depois para cada intersecc¸˜ao com o novo objeto implica um grande esforc¸o

(25)

computacional. Por isso, este m´etodo explora a estrutura de conceitos para evitar essas

operac¸˜oes.

Em 2002 ´e introduzido a ideia de estruturas de conceitos de iceberg (ver [36]) que se

baseia apenas nos conceitos mais frequentes da estrutura. Estruturas de iceberg

consti-tuem um m´etodo de classificac¸˜ao conceptual adequado para analisar conjuntos de dados

de grande dimens˜ao e s˜ao baseadas na teoria de An´alise Formal de Conceitos. ´

E

apresen-tado o m´etodo TITANIC para calcular este novo conceito de estruturas que utiliza uma

func¸˜ao ponderada para obter a intens˜ao, isto ´e, obter a descric¸˜ao de uma classe e

partici-ona o conjunto de geradores em classes de equivalˆencia onde todos os elementos de uma

classe originam a mesma intens˜ao.

Ainda em 2002, ´e proposto o m´etodo GAL´ICIA (ver [38] ). Este ´e um m´etodo

incre-mental que utiliza tamb´em estruturas como forma de encontrar os subconjuntos

frequen-tes. Comec¸a por considerar um contexto formal sem objetos, com o conjunto de atributos

definido e, em cada iterac¸˜ao, o m´etodo simula a adic¸˜ao de um novo objeto ao contexto e

verifica as modificac¸˜oes necess´arias para que a estrutura seja preservada.

Brito desenvolve em [2] e [3] um m´etodo de classificac¸˜ao conceptual hier´arquica/

pira-midal (HIPYR) vocacionado para dados simb´olicos com a possibilidade de tratar vari´aveis

de diferentes tipos. O crit´erio que conduz `a formac¸˜ao de classes ´e a dualidade

intens˜ao-extens˜ao em que cada classe da hierarquia deve corresponder a um conceito, isto ´e, cada

classe que ´e uma parte do conjunto dos objetos ´e representada por uma descric¸˜ao cuja

extens˜ao ´e a classe propriamente dita. A descric¸˜ao deste m´etodo pode ser encontrada na

Secc¸˜ao 4.3.

Mais recentemente, Brito e Polaillon [10], prop˜oem um enquadramento comum para

representar e operar com dados ordinais, num´ericos de valor singular ou intervalares

e dados categ´oricos modais, definindo um operador de generalizac¸˜ao que determina as

descric¸˜oes na forma de intervalos. Esta abordagem foi aplicada `a metodologia de

classi-ficac¸˜ao definida anteriormente conduzindo ao m´etodo que ser´a implementado e analisado

neste trabalho e que ´e detalhado no Cap´ıtulo 4.

(26)

3.2

M´etodos SCLUST e DIV

Os m´etodos SCLUST e DIV ser˜ao usados no Cap´ıtulo 6 deste trabalho como referˆencia

para comparar as classes formadas pelo m´etodo aqui estudado e implementado. Assim

nesta secc¸˜ao estes m´etodos ser˜ao descritos formalmente. Ser´a ainda utilizado como

re-ferˆencia o m´etodo HIPYR que se encontra detalhado na Secc¸˜ao 4.3, uma vez que ´e neste

que o novo m´etodo estudado se baseia.

3.2.1

SCLUST

O m´etodo SCLUST segue a filosofia geral do m´etodo das k-m´edias de MacQueen [30]

ou das Nuvens Dinˆamicas de Diday [22]. O m´etodo baseia-se na aplicac¸˜ao alternada de

uma func¸˜ao de representac¸˜ao e de uma func¸˜ao de alocac¸˜ao. O esquema geral do m´etodo

de classificac¸˜ao dinˆamica simb´olica SCLUST assenta nos seguintes princ´ıpios [21]:

• Inicializac¸˜ao: Seja P

(0)

= {P

(0) 1

, ..., P

(0)

k

} uma partic¸˜ao aleat´oria inicial de E em

k classes.

• Passo de representac¸˜ao t: Para i = 1, ..., k , calcular um prot´otipo g

i(t)

como objeto

simb´olico que representa a classe P

i

∈ P

(t)

.

• Passo de alocac¸˜ao t: Qualquer elemento ω ∈ E ´e atribu´ıdo `a classe P

i

se e s´o se

ψ(ω, g

i

) ´e um m´ınimo: P

(t+1)

i

= {ω ∈ E|i = argmin{ψ(ω, g

i

)/l = 1, ..., k}, onde

ψ(ω, g

i

) ´e R(d(c), d(g

i

)) sendo R uma relac¸˜ao entre descric¸˜oes, que pode ser uma

medida de distˆancia.

• Regra de paragem ou estabilidade: Se P

(t+1)

= P

(t)

ent˜ao o algoritmo termina,

sen˜ao volta ao passo de representac¸˜ao.

O crit´erio ∆(P, L) otimizado (localmente) pelo m´etodo de classificac¸˜ao dinˆamica ´e

aditivo no que diz respeito `as vari´aveis descritoras dos dados. ´

E proposto definir o crit´erio

∆(P, L) como a soma da func¸˜ao de alocac¸˜ao ψ(ω, g

i

) para cada elemento pertencente a

uma classe P

i

∈ P e o respetivo prot´otipo g

i

∈ Λ: ∆(P, L) =

k

P

i=1

P

c∈Pi

ψ(c, g

i

).

Podem ser distinguidas duas formas principais de representar uma classe: um prot´otipo

expresso por um elemento singular da classe (por exemplo o elemento da distˆancia m´edia

(27)

m´ınima de todos os elementos da classe, tal como pelo elemento que minimiza a func¸˜ao

crit´erio) ou um prot´otipo escolhido como func¸˜ao de sumarizac¸˜ao dos elementos da classe.

No ´ultimo caso, o prot´otipo pode estar adequadamente modelizado por um objeto

simb´o-lico modal [11]. A descric¸˜ao de um objeto simb´osimb´o-lico modal ´e dada pelas distribuic¸˜oes de

frequˆencia ou probabilidade associadas `as categorias ou sub-intervalos dos p descritores.

As distˆancias utilizadas variam de acordo com os tipos de vari´aveis: para dados

quan-titativos de valor real ´e utilizada a distˆancia Euclideana, para dados quanquan-titativos multi

valor e intervalares ´e utilizada a distˆancia de Hausdorff, para dados categ´oricos de valor

singular ´e utilizada a distˆancia do χ-quadrado, para dados categ´oricos multi valor ´e

utili-zada a distˆancia de De Carvalho e para dados distribucionais a distˆancia cl´assica φ

2

(ver

[17]).

Quando as vari´aveis s˜ao de diferente tipos, o m´etodo apresenta duas abordagens para

calcular a medida de dissemelhanc¸a global: combinac¸˜ao linear ponderada das medidas de

dissemelhanc¸a de cada vari´avel ou categorizac¸˜ao dos dom´ınios para transformar todas as

vari´aveis num mesmo tipo.

3.2.2

DIV

O m´etodo de classificac¸˜ao DIV [11] procede de forma descendente comec¸ando com E, o

conjunto a ser classificado, e realiza uma partic¸˜ao de uma classe em cada passo. No passo

m ´e apresentada uma partic¸˜ao de E em m classes, uma das quais ser´a seguidamente

dividida em duas sub-classes. A classe a ser dividida e a regra de divis˜ao s˜ao escolhidas

de forma a obter uma partic¸˜ao em m + 1 classes minimizando a dispers˜ao dentro das

classes.

Para avaliar uma dada partic¸˜ao P

m

= {C

(m)

1

, C

(m)

2

, ..., C

m(m)

} ´e utilizado um crit´erio

Q(m) que ´e a soma da dispers˜ao interna de cada classe: Q(m) =

P

K

α=1

I(C

α

) =

K

P

α=1

P

ωi,ωi0∈C (m) α

D

2

i

, ω

i0

) onde D

2

i

, ω

i0

) varia com o tipo de vari´aveis.

No caso de um conjunto de dados quantitativo temos D

2

i

, ω

i0

) =

p

P

j=1

d

2

(x

ij

, x

i0j

).

Para dados intervalares, d ´e a distˆancia de Hausdorff aplicada ao caso particular dos

intervalos. Sejam x

ij

e x

i0j

dois intervalos [l

ij

, u

ij

] e [l

i0j

, u

i0j

], ent˜ao d(x

ij

, x

i0j

) =

(28)

corresponde `a diferenc¸a absoluta entre os valores das vari´aveis.

No caso de um conjunto de dados categ´orico, as vari´aveis tˆem um enquadramento

co-mum sejam modais ou multi valor. Sejam Y

1

, ..., Y

p

as p vari´aveis categ´oricas e O

1

, ..., O

p

os respetivos dom´ınios subjacentes. Ent˜ao, Y

j

i

) ´e um conjunto de categorias de O

j

ou a frequˆencia de distribuic¸˜ao em O

j

. Em qualquer dos casos, ´e Y

j

i

) ´e

represen-tado por uma distribuic¸˜ao de frequˆencia que ´e uniforme no caso de vari´aveis categ´oricas

multi valor. Desta forma, a matriz de dados original ´e transformada numa matriz de

frequˆencias. Para comparar dois objetos ω

i

e ω

i0

de E ´e utilizada como distˆancia D a

distˆancia φ

2

: D

2

i

, ω

i0

) =

t

P

j=1 p.. p.j



p ij pi.

pi0j pi0.



2

onde t representa o n´umero total de

cate-gorias, p

ij

=

fij np

, p

i.

=

t

P

j=1

p

ij

, p

.j

=

n

P

i=1

p

ij

e p

..

=

n

P

i=1 t

P

j=1

p

ij

= 1 .

Em cada passo do algoritmo, uma classe ´e escolhida para ser dividida em duas

sub-classes de forma a que Q(m + 1) seja minimizado ou que, de forma equivalente, Q(m) −

Q(m + 1) seja maximizado.

(29)

Cap´ıtulo 4

Classificac¸˜ao Ascendente Hier´arquica

Simb´olica

Este cap´ıtulo apresenta o m´etodo de classificac¸˜ao conceptual hier´arquica para dados

sim-b´olicos, inicialmente proposto em [2] e posteriormente reformulado em [10], onde cada

classe formada corresponde a um conceito, isto ´e, a um par (extens˜ao, intens˜ao). Os

con-ceitos s˜ao obtidos por uma correspondˆencia de Galois com generalizac¸˜ao por intervalos,

o que permite lidar com diferentes tipos de vari´aveis num enquadramento comum.

4.1

Classificac¸˜ao Hier´arquica

A An´alise Classificat´oria ´e uma t´ecnica explorat´oria de an´alise multivariada que tem como

objetivo agrupar os objetos em classes de modo que os grupos sejam homog´eneos ou

compactos relativamente a uma ou mais caracter´ısticas. O objetivo ´e que cada elemento

pertencente a uma determinada classe seja similar a todos os elementos dessa classe e

diferente dos pertencentes a outra classe.

As classes podem ser organizadas segundo diferentes estruturas. Neste trabalho,

interessamo-nos por um m´etodo de classificac¸˜ao hier´arquica aglomerativo. Estes

recor-rem a passos sucessivos de agregac¸˜ao dos sujeitos considerados individualmente, isto ´e,

cada objeto forma inicialmente uma classe e v˜ao sendo agrupados de acordo com as suas

proximidades.

(30)

vazios h, h

0

, ..., de E tal que:

∀ω ∈ E : {ω} ∈ H

E ∈ H

∀h, h

0

∈ H : h ∩ h

0

= φ ou h ⊆ h

0

ou h

0

⊆ h

Frequentemente um valor real n˜ao negativo ´e associado a cada classe, caracterizando

a sua heterogeneidade. Uma hierarquia indexada ou dendrograma ´e um par (H, f ), onde

H ´e uma hierarquia e f uma func¸˜ao f : H → IR

+

tal que:

i. f (h) = 0 ⇔ card(h) = 1 (onde card(h) representa a cardinalidade de h)

ii. h ⊂ h

0

⇒ f (h) ≤ f (h

0

).

Uma classe h ∈ H ´e dito ser um sucessor de uma classe h

0

∈ H se h ⊆ h

0

e n˜ao

existe uma classe h

00

∈ H, h

00

6= h, h

00

6= h

0

, tal que h ⊂ h

00

⊂ h

0

. h

0

´e ent˜ao dito ser um

predecessor de h. Numa hierarquia, cada classe tem no m´aximo um predecessor [21].

Uma classificac¸˜ao ascendente hier´arquica parte das classes singulares e re´une em cada

etapa as classes reun´ıveis para as quais a dissemelhanc¸a ´e m´ınima. Duas classes s˜ao

reun´ıveis se e s´o se nenhuma delas foi j´a reunida anteriormente. ´

E definido um ´ındice de

dissemelhanc¸a entre as classes (´ındice de agregac¸˜ao) que permite escolher quais as duas

classes a reunir em cada etapa.

4.2

Correspondˆencias de Galois

Seja E = {ω

1

, ..., ω

n

} o conjunto de n objetos descritos por p vari´aveis Y

1

, ..., Y

p

.

Sejam (A, ≤

1

) e (B, ≤

2

) dois conjuntos parcialmente ordenados. Uma

correspon-dˆencias de Galois ´e um par (f, g), onde f ´e a aplicac¸˜ao f : A → B, g ´e a aplicac¸˜ao

g : B → A, tal que f e g s˜ao ant´ıtonas e ambas as aplicac¸˜oes h = g ◦ f e h

0

= f ◦ g s˜ao

extensivas; h e h

0

s˜ao ent˜ao operadores de fecho [9].

Em An´alise de Dados, as correspondˆencias de Galois foram introduzidas da seguinte

forma, para dados bin´arios: a aplicac¸˜ao f define a intens˜ao de um conjunto S ⊆ E, f (S) ´e

o conjunto de todos os atributos comuns a todos os elementos de S e a aplicac¸˜ao g permite

a obtenc¸˜ao da extens˜ao em E associada a um conjunto de atributos T ⊆ O, onde g(T )

corresponde ao conjunto de todos os elementos de E que possuem todos os atributos de

(31)

T , sendo O ´e o conjunto de atributos (bin´arios) considerado. O par (f, g) constitui ent˜ao

uma correspondˆencia de Galois entre (P (E), ⊆) e (P (O), ⊆). Um conceito ´e definido

como um par (S, T ) onde S ⊆ E, T ⊆ O, S = g(T ) e T = f (S), isto ´e, h(S) = S; S ´e a

extens˜ao do conceito e T a sua intens˜ao [9].

Exemplo

Considere-se o conjunto dos planetas caraterizados pelo tamanho (pequeno, m´edio ou

grande), pela distˆancia ao Sol (perto ou longe) e pela existˆencia de luas (sim ou n˜ao).

Tabela 4.1: Dados bin´arios para o conjunto de planetas

Planetas Tamanho Distˆancia ao Sol Luas

Pequeno m´edio grande perto longe sim n˜ao

Terra x x x J´upiter x x x Marte x x x Merc´urio x x x Neptuno x x x Plut˜ao x x x Saturno x x x Urano x x x V´enus x x x

Sejam A = {Terra, Marte} e B = {pequeno, perto, luas(sim)}. A intens˜ao de A

´e dada por f (A) = {pequeno, perto, luas(sim)}. A extens˜ao de B ´e g(B) = {Terra,

Marte}. Temos que g(f (A)) = g({pequeno, perto, luas(sim)}) = {Terra, Marte} = A e

f (g(A)) = f ({Terra, Marte}) = {pequeno, perto, luas(sim)} = B. O par (A, B) ´e ent˜ao

um conceito. A ´e a extens˜ao e B a intens˜ao do conceito.

No contexto da An´alise de Dados Simb´olicos, em que Y

j

: E → B

j

, j = 1, .., p,

seja D = B

1

× B

2

× ... × B

p

o conjunto de todas as poss´ıveis descric¸˜oes (D, ≤); para

uma ordem parcial apropriada em D. Em An´alise de Dados Simb´olicos, a aplicac¸˜ao f :

P (E) → D define a intenc¸˜ao d ∈ D de um conjunto S ⊆ E, e a aplicac¸˜ao g : D → P (E)

permite obter a extens˜ao em E associada a uma descric¸˜ao d ∈ D.

(32)

4.3

M´etodo de Classificac¸˜ao Hier´arquica Simb´olica:

vers˜ao original

Em [2] foi proposto um m´etodo de classificac¸˜ao hier´arquica/piramidal conceptual

as-cendente para dados simb´olicos. Neste trabalho ser´a apenas analisada a classificac¸˜ao

hier´arquica.

O m´etodo permite considerar como entrada um conjunto de dados simb´olicos onde

cada elemento ´e descrito por vari´aveis simb´olicas com a possibilidade de ter vari´aveis

de diferentes tipos. O crit´erio que conduz `a formac¸˜ao de classes ´e a dualidade

intens˜ao-extens˜ao: cada classe da hierarquia deve corresponder a um conceito, isto ´e, cada classe

que ´e uma parte de E ´e representada por uma descric¸˜ao cuja extens˜ao ´e a classe

propria-mente dita.

O m´etodo pode ser resumido da seguinte forma: para cada candidato a classe, ´e

cons-tru´ıda uma descric¸˜ao, generalizando as descric¸˜oes correspondentes `as classes a serem

agrupadas e uma classe candidata ´e eleg´ıvel apenas se esta nova descric¸˜ao cobrir todos os

elementos da classe e nenhum outro. Cada classe formada fica associada a uma conjunc¸˜ao

de propriedades nas vari´aveis descritivas, que constituem uma condic¸˜ao necess´aria e

su-ficiente para ades˜ao `a classe. Para escolher entre as diferentes agregac¸˜oes que re´unem

a condic¸˜ao acima, um grau de generalidade avalia a proporc¸˜ao do espac¸o coberto pela

descric¸˜ao considerada e a agregac¸˜ao que apresenta generalidade m´ınima ´e a classe a ser

formada.

Uma medida de generalidade permite quantificar a generalidade de uma descric¸˜ao,

permitindo assim escolher de entre as agregac¸˜oes poss´ıveis de uma dada etapa. O princ´ıpio

ser´a que as classes associadas a conceitos mais espec´ıficos devem ser formadas antes.

Escolhe-se ent˜ao, de entre as classes que podem ser formadas, aquela cuja intenc¸˜ao do

conceito associado apresenta uma menor generalidade.

A formac¸˜ao de um novo conceito implica a determinac¸˜ao da sua intens˜ao na forma de

uma descric¸˜ao que deve generalizar os objetos associados aos conceitos que s˜ao

agrupa-dos. O processo de generalizac¸˜ao das classes difere de acordo com o tipo de vari´avel:

(33)

a. Vari´aveis intervalares

Sejam Y

1

, ..., Y

p

as p vari´aveis reais ou intervalares, Y

j

i

) = [l

ij

, u

ij

]

(eventual-mente l

ij

= u

ij

) e A = {ω

1

, ..., ω

h

} ⊆ E. A generalizac¸˜ao pela uni˜ao ´e definida por

f

U

: P (E) → I

p

, onde I ´e o conjunto de intervalos de IR, com a ordem de inclus˜ao,

tal que f

U

(A) = (I

1

, ..., I

p

), I

j

= [M in{l

ij

}, M ax{u

ij

}], ω

i

∈ A, j = 1, ..., p, isto

´e, I

j

´e o menor intervalo que cont´em todos os valores tomados pelos elementos de

A para Y

j

. A aplicac¸˜ao g

U

: I

p

→ P (E) que d´a a extens˜ao de uma descric¸˜ao, ´e

g

U

((I

1

, ..., I

p

)) = {ω

i

∈ E : Y

j

i

) ⊆ I

j

, j = 1, ..., p}. O par (f

U

, g

U

) constitui

uma correspondˆencia de Galois [4].

Exemplo:

Considere quatro hospitais para os quais foram recolhidos dados relativos ao tempo

de espera dos doentes para serem atendidos no servic¸o de urgˆencias, medido em

minutos (vari´avel intervalar).

Tabela 4.2: Vari´avel intervalar

Tempo Hospital 1 [20,40] Hospital 2 [35,50] Hospital 3 [25,60] Hospital 4 [10,30]

A descric¸˜ao generalizada da classe A = {Hospital 1, Hospital 2} ´e f

U

(A) =

{[20, 50]}, que descreve os hospitais em que o tempo de espera para atendimento

nos servic¸os de urgˆencia varia entre os 20 e os 50 minutos.

b. Vari´aveis Categ´oricas de Valor ´

Unico e Multi Valor

Sejam Y

1

, ..., Y

p

as p vari´aveis categ´orica multi valor com dom´ınio subjacente O

j

=

{m

1

, ..., m

k

}, Y

j

(w

h

) = V

hj

contido em O

j

e A = {ω

1

, ..., ω

h

} ⊆ E. A generalizac¸˜ao

´e efetuada pela uni˜ao das descric¸˜oes dos elementos que a constituem. Esta ´e

defi-nida por aplicac¸˜oes f

U

: P (E) → D tal que f

U

(A) = (d

1

, ..., d

p

) onde d

j

=

S

q

(34)

menor conjunto que cont´em todas as categorias observadas na classe. A aplicac¸˜ao

g

U

: D → E que d´a a extens˜ao de uma descric¸˜ao, ´e g

U

((d

1

, ..., d

p

)) = {ω ∈ E :

V

hj

⊂ ω

j

, j = 1, ..., p, h = 1, ..., n}. O par (f

U

, g

U

) constitui uma correspondˆencia

de Galois.

Exemplo

Considere 2 grupos de pessoas descritos pelo sexo (masculino ou feminino) e pela

nacionalidade (Tabela 4.3).

Tabela 4.3: Vari´avel Categ´orica

Sexo Nacionalidade Grupo 1 {M} {Francesa, Portuguesa} Grupo 2 {M,F} {Espanhola, Portuguesa}

A descric¸˜ao generalizada da classe A = {Grupo 1, Grupo 2} ´e f

U

(A) = ({M, F },

{ Francesa, Espanhola, Portuguesa}).

c. Vari´aveis Categ´oricas Modais e Vari´aveis Histograma

Sejam Y

1

, ..., Y

p

as p vari´aveis categ´orica modais ou histograma, O

j

= {m

j1

, ..., m

jk

}

o conjunto das modalidades ou categorias ou sub-intervalos da vari´avel Y

j

. Sem

perda de generalidade, O

j

pode ser um conjunto de sub-intervalos, com m

h

= I

h

=

[I

h

, u

h

] e Y

j

ser´a uma vari´avel histograma. Para as vari´aveis Y

j

e ω

i

∈ E temos

que Y

j

i

) = {m

j1

(p

(i) j1

), ..., m

jkj

(p

(i) jkj

)}, onde (p

(i) jkl

) ´e a probabilidade/frequˆencia

associada `a modalidade ou sub-intervalo m

jl

da vari´avel Y

j

e ao elemento ω

i

. A

descric¸˜ao generalizada ´e efetuada pelo m´aximo ou pelo m´ınimo considerando-se

para cada uma das categorias o m´aximo ou o m´ınimo das suas probabilidades/

frequˆencias, respetivamente. Para A = {ω

1

, ..., ω

h

} ⊆ E, a generalizac¸˜ao ´e

efetu-ada por f

U

: P (E) → M tal que f

U

(A) = (d

1

, ..., d

p

) onde d

j

= ({m

1

(p

1

), ..., m

k

(p

k

)})

onde p

l

= max{p

lh

, h = 1, ..., q}, l = 1, ..., k ou d

j

= ({m

1

(p

1

), ..., m

k

(p

k

)}) onde

p

l

= min{p

lh

, h = 1, ..., q}, l = 1, ..., k, efetuado pelo m´aximo ou pelo m´ınimo,

(35)

Exemplo

Considere 2 grupos de pessoas descritas pela sua profiss˜oes, tal como descrito na

Tabela 4.4.

Tabela 4.4: Vari´avel Modal

Profiss˜ao Grupo 1 Professores (70%) Gestores (30%) Grupo 2 Gestores (20%) Economistas (40%) Professores (40%)

A descric¸˜ao generalizada da classe A = {Grupo 1, Grupo 2} ´e f

U

(A) = {Gestores

(30%), Economistas (40%), Professores (70%)}, quando efetuado pelo m´aximo, e

f

U

(A) = {Gestores (20%), Economistas (40%), Professores (40%)} quando

efe-tuado pelo m´ınimo.

O grau de generalidade ´e uma func¸˜ao multiplicativa dada pela express˜ao G(d) =

Q

p

j=1

G(d

j

), onde G(d

j

) varia de acordo com o tipo de vari´avel:

a. para vari´aveis cl´assicas, multi-valor (quantitativas ou categ´oricas) e intervalares,

G(d

j

) =

Q

pj=1

c(Vj)

c(Oj)

onde c(.) ´e definido pela amplitude do intervalo ou pelo n´umero

de valores ou categorias, respetivamente;

b. para vari´aveis modais e histograma G

1

(d) =

P

k l=1 √ pl √ k

e G

2

(d) =

P

k l=1 √ 1−pl

k(k−1)

con-siderando a generalizac¸˜ao pelo m´aximo ou pelo m´ınimo respetivamente, onde p

l

,

l = 1, ..., k representa as probabilidades/ frequˆencias de cada categoria ou

sub-intervalo e k o n´umero de categorias ou sub sub-intervalos da vari´avel.

Exemplo

Considere quatro grupos de pessoas caraterizadas pela vari´avel Y

1

=idade, que toma

valores dos 15 aos 60 anos, ou seja, O

1

= [15, 60], Y

2

=sexo, O

2

= {M, F }, Y

3

=

nacionalidade, sendo O

3

o conjunto de 15 diferentes nacionalidade da Uni˜ao Europeia, e

(36)

Tabela 4.5: Medida de generalidade: vers˜ao original

Idade Sexo Nacionalidade Profiss˜ao

Grupo 1 [20,30] {M} {Francesa} Professor (70%)

Gestor (30%)

Grupo 2 [35,45] {M} {Espanhola, Francesa} Professor (40%)

Economista (40%) Gestor (20%) Grupo 3 [37,55] {F} {Espanhola, Portuguesa} Professor (50%)

Economista (20%) Gestor (30%)

Grupo 4 [40,62] {M,F} {Italiana, Alem˜a} Professor (30%)

Economista (40%) Gestor (30%)

Seja A = {Grupo 1, Grupo 2} a classe a formar. A descric¸˜ao generalizada da classe A,

utilizando a generalizac¸˜ao pelo m´aximo para a vari´avel categ´orica modal ´e f

U

(A) = d =

{[20, 45], {M}, {Francesa, Espanhola}, {Professores(0.7),Economistas(0.4), Gestores(0.3)}}.

A medida de generalidade ´e calculada de forma diferente para as diferentes vari´aveis.

As-sim tem-se que:

G(d

1

) =

45−2060−15

= 0.55 ; G(d

2

) =

12

= 0.5 ; G(d

3

) =

152

= 0.133 ;

G(d

4

) =

0.7+√0.4+√0.3

3

= 1.164

A medida de generalidade ´e ent˜ao G(d) = 0.55 × 0.5 × 0.133 × 1.164 = 0.0426.

O m´etodo pode ent˜ao ser descrito pelo seguinte algoritmo: Sejam E = {ω

1

, ..., ω

n

}

o conjunto dos n objetos a analisar e d

(i)

= (d

i

1

, ..., d

ip

) a descric¸˜ao associada a ω

i

, i =

1, ..., n. O conjunto inicial ´e o conjunto de conceitos:

n

i

, d

(i)

), i = 1, ..., n

o

. As

clas-ses s˜ao constru´ıdas recursivamente: em cada etapa, uma nova classe C ´e formada, por

agregac¸˜ao de classes pr´evias, C

α

e C

β

, C = C

α

∪ C

β

. Seja d = f (C), ent˜ao as classes a

(37)

1. C

α

e C

β

devem estar agregadas segundo a estrutura de classificac¸˜ao escolhida

(hier´arquica ou pirˆamide);

2. g(d) = C, isto ´e, nenhum elemento de E que n˜ao pertence a C pertence `a extens˜ao

de d;

3. A generalidade de d ´e m´ınima.

Se nenhum par de classes (C

α

, C

β

) verifica as condic¸˜oes (1) e (2), o algoritmo efetua

a reuni˜ao de mais do que duas classes (adaptando as condic¸˜oes de agregac¸˜ao).

O conceito correspondente a uma nova classe formada ´e (C, d) = (C, f (C)) e cada

classe C ser´a indexada pelo valor da medida de generalidade de d = f (C), G(d) =

G(f (C)). O algoritmo termina quando o conceito (E, f (E)) ´e formado.

4.4

Representac¸˜ao por intervalos

Para as vari´aveis num´ericas, ordinais e categ´oricas modais ´e proposto em [10] um

qua-dro ´unico de generalizac¸˜ao por intervalos, definindo a aplicac¸˜ao f correspondente que

determina a intens˜ao de uma classe.

Para vari´aveis intervalares a generalizac¸˜ao ´e obtida de forma semelhante `a vers˜ao

ori-ginal do m´etodo (ver Secc¸˜ao 4.3). A generalizac¸˜ao das vari´aveis reais ´e realizada tal como

nas vari´aveis intervalares pois se Y

j

(w

i

) = x podemos escrever Y

j

(w

i

) = [x, x]. De modo

an´alogo, definem-se as generalizac¸˜oes para as vari´aveis ordinais.

Exemplo:

Considere quatro hospitais caracterizados pelo n´umero de m´edicos a trabalhar nesse

hospital (vari´avel real) (ver Tabela 4.6).

A generalizac¸˜ao por intervalos da classe A = {Hospital 1, Hospital 2} ´e f

U

(A) =

Imagem

Tabela 2.3: Exemplo de tabela de dados simb´olicos - agregac¸˜ao contemporˆanea
Tabela 2.5: Exemplo vari´avel histograma
Tabela 2.6: Exemplo vari´avel categ´orica modal
Tabela 4.1: Dados bin´arios para o conjunto de planetas
+7

Referências

Documentos relacionados

Contudo, não é possível imaginar que essas formas de pensar e agir, tanto a orientada à Sustentabilidade quanto a tradicional cartesiana, se fomentariam nos indivíduos

No caso de seguros de vida e planos de previdência, quanto mais cedo você encontrar os documentos e entrar em contato com a instituição mais rápido terá acesso à indenização ou

Membro_Faculdade (Matrícula: Inteiro, Nome: string[50], Carga: Inteiro, IniContrato: data, Curso: string[30], professor: booleano, aluno: booleano). Membro

O TBC surge como uma das muitas alternativas pensadas para as populações locais, se constituindo como uma atividade econômica solidária que concatena a comunidade com os

Pode haver alguns acordos prévios, como visto na classificação proposta em trabalho anterior (GUERRERO, 2006), mas estes são propostos sempre mantendo elevado

121 Figura 29 - Dendrograma filogenético construído para o isolado P4, baseado no método estatístico “Neighbor-joining”, derivado das sequências das regiões ITSrDNA, com base

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

Todo ser humano é único e, por isso, toda sala de aula é um berço de diversidade. O que os sistemas educacionais fizeram ao longo dos tempos foi homogeneizar o sistema educacional