Análise Classificatória Conceptual de Dados Simbólicos: Uma abordagem com representação por intervalos

(1)

An´alise Classificat´oria Conceptual

de Dados Simb´olicos

Uma abordagem com representac¸˜ao por intervalos

Por

D´oris Daniela Ramos de S´a

Tese de Mestrado - Modelação, Análise de Dados e

Sistemas de Apoio `a Decis˜ao

Orientada por

Professora Doutora Paula Brito

(2)

Nota Biogr´afica

Dóris Daniela Ramos de Sá é natural de Rebordosa, Paredes, onde nasceu a 17 de

Maio de 1983.

Estudou na Faculdade de Ciˆencias da Universidade do Porto onde completou a

Licen-ciatura em Matem´atica - Ramo Educacional em 2007.

Em 2008 inicia a atividade profissional como docente de Matem´atica do terceiro ciclo

e ensino secundário no ensino público português.

Em 2012 ingressou no Mestrado de Modelação, Análise de Dados e Sistemas de

Apoio `a Decis˜ao na Faculdade de Economia da Universidade do Porto.

(3)

Agradecimentos

´

E com imenso prazer que agradeço a ajuda recebida na realização deste trabalho a

todos aqueles que me ajudaram a torn´a-lo poss´ıvel:

`

A Professora Doutora Paula Brito, a minha Orientadora, agradec¸o pela partilha de

co-nhecimento sobre o tema, pela dedicação que demonstrou, pela atenção aos pormenores,

pela sua disponibilidade e dedicac¸˜ao e pelas oportunas palavras de incentivo.

Aos meus pais por serem um modelo de vida, pelos valores transmitidos e pelo

cari-nho incondicional ao longo de todos estes anos.

Aos meus irm˜aos pela cumplicidade e pela verdadeira amizade em todos os momentos

e circunstˆancias.

`

A Laetitia, minha grande amiga, agradeço a incansável ajuda, o otimismo e a atenção

que me dedicou.

Ao Pedro, pelo companheirismo, pela paciˆencia, pelo incentivo e pelas constantes

pa-lavras de ânimo e motivação, indispensáveis para levar a cabo este trabalho.

Ao meu filho Rodrigo, a quem dedico este trabalho, que nasceu no meio desta

aven-tura.

(4)

Resumo

Dados simb´olicos s˜ao mais complexos do que os dados tradicionais pelo facto

de apresentarem variabilidade interna. A Análise de Dados Simbólicos é, por isso,

mais complexa que a Análise de Dados tradicionais. Muitos têm sido os métodos

propostos para análise de dados simbólicos. Neste trabalho fez-se a implementação,

com recurso ao software R, do método de classificação hierárquica conceptual de

dados simbólicos proposto por Brito e Polaillon. Neste método, os conceitos são

obtidos por uma correspondência de Galois com generalização por intervalos, o que

permite lidar com diferentes tipos de vari´aveis num enquadramento comum. Para

quantificar a semelhanc¸a do conjunto de classes resultantes do m´etodo aqui

estu-dado e implementado com as classes obtidas por outros m´etodos j´a existentes para

análise de dados simbólicos foi usado o ´ındice de Rand ajustado. O método proposto

por Brito e Polaillon revela-se uma ferramenta valiosa para a classificac¸˜ao de dados

simb´olicos.

(5)

Abstract

Symbolic Data are more complex than classical data by containing internal

vari-ability. Symbolic Data Analysis is, therefore, more complex than classical Data

Analysis. Many methods have been proposed for Symbolic Data Analysis. In this

work, a symbolic data conceptual clustering method, proposed by Brito and

Po-laillon, was implemented, using the software R. Concepts are obtained by a Galois

lattice with interval generalization, allowing handling different variable types within

a common framework. In order to quantify the similarity between classes resulting

from the method studied and implemented here and those resulting from other

ex-istent methods for symbolic data analysis the adjusted Rand index was used. The

method proposed by Brito e Polaillon has proven to be a valuable tool for symbolic

data clustering.

(6)

Conte ´udo

1 Introduc¸˜ao

1

1.1 Motivac¸˜ao . . . .

2

1.2 Problema a estudar . . . .

3

1.3 Organização da Dissertação . . . .

3

2 An´alise de Dados Simb´olicos

4

3 Revis˜ao da literatura

11

3.1 Estado da arte . . . .

11

3.1.1 Métodos de classificação para dados simbólicos . . . .

12

3.1.2 Métodos de classificação conceptual . . . .

13

3.2 M´etodos SCLUST e DIV . . . .

16

3.2.1 SCLUST . . . .

16

3.2.2 DIV . . . .

17

4 Classificação Ascendente Hierárquica Simbólica

19

4.1 Classificação Hierárquica . . . .

19

4.2 Correspondˆencias de Galois

. . . .

20

4.3 Método de Classificação Hierárquica Simbólica:

vers˜ao original

. . . .

22

4.4 Representac¸˜ao por intervalos . . . .

27

4.5 Novo método de classificação ascendente hierárquica simbólica

. . . . .

30

4.6 Exemplo de aplicação do método . . . .

31

5 Implementação do Método

36

5.1 Preparação prévia dos dados . . . .

36

(7)

5.2 Implementac¸˜ao em R . . . .

37

6 Aplicac¸˜oes

41

6.1 ´Indice de Rand . . . 41

6.2 Dados Carros . . . .

43

6.2.1 M´etodo implementado . . . .

43

6.2.2 DIV . . . .

46

6.2.3 SCLUST . . . .

48

6.2.4 HIPYR . . . .

50

6.2.5 An´alise dos resultados . . . .

51

6.3 Dados Emprego . . . .

53

6.3.1 M´etodo implementado . . . .

54

6.3.2 SCLUST . . . .

58

6.3.3 HIPYR . . . .

61

6.3.4 An´alise dos resultados . . . .

65

7 Conclus˜ao

66 Apˆendice A C´odigo R

72 Apêndice B Relatório Método implementado - Dados Carros

79 Apˆendice C Objetos Dados Emprego

84 Apêndice D Relatório Método implementado - Dados Emprego

88 Apˆendice E Classes formadas Dados Emprego

147

E.1 Classes formadas pelo m´etodo Implementado . . . 147

E.2 Classes formadas pelo m´etodo SCLUST . . . 151

(8)

Lista de Figuras

4.1 Hierarquia indexada obtida para as instituic¸˜oes de ensino . . . .

35

5.1 Conjunto de dados

. . . .

37

5.2 Tabela de parˆametros . . . .

38

6.1 Classificação hierárquica indexada obtida pelo método implementado

-Dados Carros . . . .

44

6.2 Partic¸˜ao em 4 classes - Dados Carros . . . .

45

6.3 Prot´otipos cilindrada-prec¸o . . . .

49

6.4 Protótipos aceleração-velocidade máxima . . . .

49

6.5 Classificação hierárquica indexada obtida pelo método implementado

-Dados Emprego . . . .

55

(9)

Lista de Tabelas

2.1 Exemplo de tabela de dados simbólicos - agregação temporal . . . .

5

2.2 Exemplo: conjunto de dados sobre instituic¸˜oes de ensino . . . .

5

2.3 Exemplo de tabela de dados simbólicos - agregação contemporânea

. . .

5

2.4 Exemplo vari´avel intervalar . . . .

7

2.5 Exemplo vari´avel histograma . . . .

8

2.6 Exemplo vari´avel categ´orica modal . . . .

9

4.1 Dados bin´arios para o conjunto de planetas

. . . .

21

4.2 Vari´avel intervalar . . . .

23

4.3 Vari´avel Categ´orica . . . .

24

4.4 Vari´avel Modal . . . .

25

4.5 Medida de generalidade: vers˜ao original . . . .

26

4.6 Vari´avel Real . . . .

28

4.7 Vari´avel Categ´orica Modal . . . .

29

4.8 Vari´avel Categ´orica de valor singular e multi valor . . . .

29

4.9 Distribuic¸˜ao uniforme por categoria . . . .

30 4.10 Exemplo 3 - Medida de generalidade . . . .

31 4.11 Tabela de dados inicial . . . .

32 4.12 Descric¸˜ao das classes candidatas . . . .

32 4.13 Medidas de generalidade para as classes candidatas . . . .

33 4.14 Tabela de dados 2 . . . .

33 4.15 Segundo passo

. . . .

33 4.16 Tabela de dados 3 . . . .

34 4.17 Terceiro passo . . . .

34

(10)

6.1 Categoria dos carros

. . . .

43

6.2 Composição das 4 classes obtidas pelo método implementado - Dados

Carros . . . .

44

6.3 Composição das 2 classes obtidas pelo método implementado - Dados

Carros . . . .

46

6.4 Composição das 2 classes obtidas pelo método DIV - Dados Carros

. . .

47

6.5 Composição das 4 classes obtidas pelo método DIV - dados carros . . . .

47

6.6 Composição das 2 classes obtidas pelo método SCLUST - Dados Carros .

48

6.7 Composição das 4 classes obtidas pelo método SCLUST - Dados Carros .

48

6.8 Composição das 4 classes obtidas pelo método HIPYR - Dados Carros . .

50

6.9 Índice de Rand ajustado obtido pela comparação das classes conhecidas

a priori

com as resultantes dos m´etodos - Dados Carros . . . .

51 6.10 Índice de Rand ajustado obtido pela comparação das classes formadas

pelos diferentes m´etodos - Dados Carros . . . .

51 6.11 Índice de Rand ajustado obtido pela comparação das classes formadas

(11)

Cap´ıtulo 1

Introduc¸˜ao

A Análise de Dados Simbólicos tem sido alvo de vários estudos resultando em

consi-der´aveis desenvolvimentos. Surge a partir da necessidade de considerar dados que

conte-nham informação que não pode ser representada dentro dos modelos de dados clássicos,

combinada com o objetivo de desenhar m´etodos que produzam resultados diretamente

interpret´aveis em termos de vari´aveis descritivas de entrada [33].

Na Análise de Dados tradicional as unidades básicas sob análise são normalmente

indiv´ıduos singulares que s˜ao descritos por um conjunto de vari´aveis quantitativas e/ou

qualitativas, em que cada indiv´ıduo toma um ´unico valor para cada vari´avel. Os dados

são frequentemente organizados numa matriz de dados, em que cada célula (i, j) contém

o valor da vari´avel j para o indiv´ıduo i. Este modelo ´e, contudo, muito restrito para ter

em conta variabilidade e/ou incerteza que s˜ao frequentemente inerentes aos dados [33].

Quando os dados s˜ao analisados em grupo, em vez de se analisar um indiv´ıduo

singu-lar, ent˜ao a variabilidade intr´ınseca ao grupo deve ser tida em conta [33] (poder-se-´ıa ter

em consideração o valor médio ou a moda desse grupo de indiv´ıduos mas seria perdida

muita informação). Da mesma forma, se os dados forem obtidos por agregação

tempo-ral de observações individuais para obter descrições de entidades com interesse ou se se

est´a diante de conceitos especificados por especialistas, ou colocados em evidˆencia por

agrupamento, está-se a lidar com elementos que já não podem ser convenientemente

des-critos pelas vari´aveis qualitativas e quantitativas habituais, sem uma inaceit´avel perda de

informac¸˜ao [20].

(12)

assumir outras formas de representação permitindo ter em consideração a variabilidade

intr´ınseca. Estes novos tipos de variáveis foram chamados variáveis simbólicas, e podem

assumir m´ultiplos valores, possivelmente ponderados, em cada caso. O termo simb´olico

´e usado para salientar o facto de que os valores que tomam s˜ao de uma natureza diferente

[33].

A análise de dados simbólicos é uma ferramenta onde a variabilidade observada pode

efetivamente ser considerada na representação de dados e os métodos podem ser

desen-volvidos tendo-a em consideração [33]. Tal como na análise clássica de dados, os dados

simb´olicos s˜ao apresentados sob a forma de uma matriz, agora designada tabela de

da-dos simbólicos, em que cada coluna corresponde a uma variável simbólica [33]. Cada

célula da matriz não contém necessariamente um único valor numérico ou uma categoria,

podendo registar um intervalo, um conjunto de valores ou uma distribuic¸˜ao. ´

E ent˜ao

ne-cessário estender os métodos tradicionais de análise de dados à tabela de dados simbólicos

de forma a conseguir informac¸˜ao mais precisa e analisar/sumariar conjuntos de dados

ex-tensivos contidos em bases de dados [20].

1.1 Motivac¸˜ao

Ao contr´ario de dados cl´assicos, nos quais cada ponto de dados consiste num valor

sin-gular (categórico ou quantitativo), os dados simbólicos podem, então, conter variação

interna e podem ser estruturados. ´

E a presença desta variação interna que conduz à

ne-cessidade de novas técnicas de análise que no geral irão diferir das utilizadas nos dados

cl´assicos. Depressa se torna evidente que a variabilidade deve ser levada em conta quando

se analisa um conjunto de dados.

A extensão das metodologias clássicas à análise de dados simbólicos levanta novos

problemas tais como que propriedades e definições de estat´ıstica básica ainda se mantêm

v´alidas, quais as ferramentas de an´alise de dados tradicionais que ainda podem ser

utiliza-das, bem como qual a forma como se avalia a dispersão e como se definem combinações

lineares entre dados simb´olicos.

A crescente necessidade de considerar dados que vão além do modelo clássico tem

conduzido ao desenvolvimento da análise de dados simbólicos. Assim, novas técnicas

(13)

devem ser consideradas, desenvolvidas e testadas para suportar este novo tipo de dados

com resultados diretamente interpret´aveis em termos de vari´aveis descritivas de entrada.

1.2 Problema a estudar

Recentemente, Brito e Polaillon [9] [33] propuseram uma forma de representac¸˜ao

co-mum para vari´aveis de diferentes tipos (ordinais, reais, intervalares, distribucionais), que

permite um tratamento conjunto dos dados simbólicos. Um método de classificação

hierárquica foi proposto, baseado nessa representação comum [10].

Nesta dissertação, pretende-se estudar o método de classificação hierárquica proposto

por Brito e Polaillon para an´alise de dados simb´olicos. Tem-se como objetivo

imple-mentar o referido m´etodo recorrendo ao software R. Os resultados ser˜ao comparados com

os fornecidos por outros métodos para classificação de dados simbólicos. Serão usados

conjuntos de dados para estudar o comportamento do m´etodo.

1.3 Organização da Dissertação

Esta dissertação é estruturada em sete cap´ıtulos. No primeiro vertem-se algumas

consi-derações sobre o tema, a sua importância e a motivação do trabalho. No Cap´ıtulo 2 é

feita uma exposição sobre Análise de Dados Simbólicos destacando os diferentes tipos de

variáveis simbólicas e são ainda apresentadas algumas ferramentas para a análise deste

tipo de dados. No Cap´ıtulo 3 é dado destaque à revisão da literatura sobre métodos de

classificação para dados simbólicos e métodos de classificação conceptual. No Cap´ıtulo 4

é detalhado o método a ser implementado, fazendo uma exposição dos conceitos teóricos

para a sua compreensão bem como o método original que, após novas considerações, deu

origem ao método estudado nesta dissertação. No Cap´ıtulo 5 é detalhada a implementação

do método proposto. Seguidamente, no Cap´ıtulo 6 procede-se a aplicação do método

a alguns conjuntos de dados e posterior comparac¸˜ao com resultados obtidos por outros

métodos para análise de dados simbólicos dispon´ıveis no software SODAS. Finalmente,

no Cap´ıtulo 7, são feitas algumas considerações finais sobre o método estudado numa

breve conclus˜ao.

(14)

Cap´ıtulo 2

An´alise de Dados Simb´olicos

Em muitas situações, a utilização simplista de informação singular para cada unidade

de análise através de um conjunto de variáveis quantitativas e/ou qualitativas, onde cada

unidade assume um valor único para cada variável, é inadequada pois não permite ter em

conta a variabilidade e/ou incerteza inerente aos dados. Para colmatar esta situação, é

aconselhável a utilização de dados simbólicos, possibilitando a análise de um conjunto de

dados que podem ser descritos sob a forma de um intervalo, de um conjunto de valores

ou de uma distribuic¸˜ao.

Os dados simbólicos são dados que contêm variação interna. Podem surgir de

diferen-tes formas, sendo que a forma mais comum consiste na agregac¸˜ao de conjuntos de dados

clássicos. Devemos diferenciar dois diferentes tipos de agregação de dados [7]:

1. Agregação temporal: os dados são recolhidos ao longo do tempo para as mesmas

entidades. As observac¸˜oes devem ser agregadas considerando todo o conjunto de

valores ou as suas distribuições. Neste tipo de agregação, as unidades estat´ısticas

em análise são as mesmas antes e depois da agregação.

2. Agregação contemporânea: os dados são recolhidos no mesmo instante temporal

mas o interesse reside numa an´alise de entidades a um n´ıvel superior `aquele em

que os dados foram originalmente recolhidos. Neste tipo de agregac¸˜ao as

unida-des estat´ısticas em análise não são as mesmas dos dados originais mas são grupos

espec´ıficos destas.

(15)

caracteriza-Tabela 2.1: Exemplo de tabela de dados simbólicos - agregação temporal

F´abricas N.ode objetos defeituosos F´abrica 1 [5,13]

F´abrica 2 [12,18] F´abrica 3 [3,14]

Tabela 2.2: Exemplo: conjunto de dados sobre instituic¸˜oes de ensino

Instituic¸˜ao Idade Estado Civil Categoria

Ant´onio 3 55 vi´uvo Docente

Maria 2 30 casada Limpeza

Carolina 1 27 solteira Docentes

Rodrigo 2 40 casado Administrac¸˜ao

Raquel 1 32 casada Docente

... ... ... ... ...

das pelo número de amostras não conformes detetadas no controlo de qualidade diário.

Este número varia de dia para dia sendo que esta variação pode ser representada por um

intervalo (ver Tabela 2.1).

Um exemplo do tipo de agregação contemporânea consiste na necessidade de estudar

as instituições de ensino de acordo com os seus funcionários. Para tal, dispõe-se de um

conjunto de dados dos funcionários destas instituições descritos pela idade, estado civil

e categoria do funcion´ario, descritos na Tabela 2.2. Na Tabela 2.3 tem-se os dados

agre-gados por Instituição de ensino; agora Idade é uma variável intervalar, Estado civil uma

variável categórica multi-valor e Categoria uma variável categórica modal.

Na Tabela 2.3 pode ser observado, que as pessoas que trabalham na Instituição 1 têm

entre 20 e 45 anos, são solteiros ou casados e 30% deles trabalham na administração,

Tabela 2.3: Exemplo de tabela de dados simbólicos - agregação contemporânea

Idade Estado Civil Categoria

Instituição 1 [20,45] {solteiro,casado} Administração (30%) Docentes (70%) Instituição 2 [30,50] {solteiro,casado} Administração (20%)

Docentes (60%) Limpeza (20%) Instituição 3 [25,60] {solteiro,casado,viúvo} Administração (20%)

(16)

enquanto que 70% s˜ao professores.

Uma tabela de dados simbólicos pode conter informação de diferentes tipos de

variá-veis. Estas distinguem-se desde logo por serem numéricas ou categóricas pois o sentido

matemático e as operações que poderão ser aplicadas são consideravelmente diferentes.

Distinguem-se ainda diferentes tipos de variáveis numéricas e categóricas a serem

consi-deradas.

Uma vari´avel quantitativa pode ser de valor singular (inteiro ou real) se assume um

´unico valor num dado dom´ınio por indiv´ıduo, de multi-valor se os seus valores s˜ao

sub-conjuntos finitos do dom´ınio, vari´avel intervalar se os seus valores s˜ao intervalos de

números reais e variável histograma quando é dada uma distribuição emp´ırica sobre um

conjunto de sub-intervalos.

Uma vari´avel categ´orica pode assumir um valor singular (ordinal ou nominal), como

no contexto cl´assico, quando toma uma categoria de um conjunto finito, O = {m

1

, ..., m

k

}

para cada entidade, variável categórica de multi-valor se os seus valores são

subconjun-tos finisubconjun-tos do dom´ınio O e variável categórica modal que consiste numa variável que

assume valores m´ultiplos onde, para cada elemento, ´e dado um conjunto de categorias m

l

e, para cada categoria, é dada a frequência ou probabilidade que indica quão frequente

ou provável essa categoria é para esse elemento. As variáveis simbólicas podem ainda

tomar a forma de vari´aveis taxon´omicas, com categorias estruturadas hierarquicamente

ou incluir regras hier´arquicas.

Seja Y

1

, ..., Y

p

o conjunto de vari´aveis, O

j

o dom´ınio subjacente a Y

j

e B

j

o espac¸o

de observac¸˜ao de Y

j

, j = 1, ..., p. Uma descrição é definida como um p-tupla (d

1

, ..., d

p

)

com d

j

∈ B

j

, j = 1, ..., p. Sendo E = {ω

1

, ..., ω

n

} o conjunto dos indiv´ıduos observados,

ent˜ao Y

j

(ω

i

) ∈ B

j

para j = 1, ..., p, i = 1, ..., n. Ent˜ao, a matriz de dados consiste em n

descric¸˜oes, uma para cada indiv´ıduo ω

i

∈ E : (Y

1

(ω

i

), ..., Y

p

(ω

i

)), i = 1, ..., n.

Tipos de vari´aveis

Em [33] e [7] podem encontrar-se as definições de diferentes tipos de variáveis simbólicas:

• Vari´aveis quantitativas de valor ´unico

(17)

valor único Y é definida pela aplicação Y : E → O tal que ω

i

7→ Y (ω

i

) = c ∈

O ⊆ IR. Neste caso, B ´e idˆentico ao conjunto subjacente O, ou seja, B ≡ O.

• Vari´aveis quantitativas de valores m ´ultiplos

Dado um conjunto E, a variável quantitativa de valores múltiplo Y é definida pela

aplicac¸˜ao Y : E → B tal que ω

i

7→ Y (ω

i

) = {c

i1

, ..., c

ini

}, onde B ´e o conjunto

dos subconjuntos finitos de um conjunto subjacente O ⊆ IR. Y (ω

i

) ´e assim um

conjunto finito n˜ao vazio de n´umeros reais.

• Vari´aveis intervalares

Dado E = {ω

1

, ..., ω

n

}, uma variável intervalar é definida pela aplicação Y : E →

B tal que ω

i

7→ Y (ω

i

) = [l

i

, u

i

], onde B ´e o conjunto de intervalos de um conjunto

subjacente O ⊆ IR. Seja I uma matriz n × p de representac¸˜ao dos valores de p

vari´aveis intervalares em E. Cada ω

i

∈ E ´e representado como uma p-tupla de

intervalos, I

i

= (I

i1

, ..., I

ip

), i = 1, ..., n com I

ij

= [l

ij

, u

ij

], j = 1, ..., p. O valor de

uma vari´avel intervalar Y

j

para cada ω

i

∈ E ´e normalmente definido pelos limites

inferior e superior l

ij

e u

ij

de I

ij

= Y

j

(ω

i

).

Um exemplo de uma vari´avel intervalar pode ser encontrada numa base de dados em

que se regista por escolas as notas obtidas pelos alunos no exame de Matem´atica.

Tabela 2.4: Exemplo vari´avel intervalar

Escola Notas

Escola A [10,19] Escola B [7,17] Escola C [8,18]

• Vari´aveis histograma

Quando dados de valor real são agregados em intervalos a informação da distribuição

dentro dos intervalos não é tida em conta. Uma forma de manter informação mais

detalhada ´e definir sub-intervalos entre os limites m´ınimo e m´aximo globais e

cal-cular as frequˆencias para esses intervalos. Obt´em-se assim, para cada caso, um

histograma com k classes onde k ´e o n´umero de sub-intervalos considerado.

(18)

Dado E = {ω

1

, ..., ω

n

}, uma variável histograma é definida por uma aplicação Y :

E → B tal que ω

i

7→ Y (ω

i

) = {[I

i1

, I

i1

], p

i1

, [I

i2

, I

i2

], p

i2

; ...; [I

ik

, I

ik

], p

ik

} onde

I

il

= [I

il

, I

il

], l = 1, ..., k

i

são os sub-intervalos considerados para a observação ω

i

,

p

i1

+ ... + p

iki

= 1. B é, neste caso, o conjunto de distribuições de frequência em

{I

i1

, ..., I

iki

}. ´E assumido que para cada entidade ω

i

os valores s˜ao uniformemente

distribu´ıdos dentro de cada intervalo. Para diferentes observações, o número e

am-plitude dos sub-intervalos dos histogramas podem ser diferentes.

Exemplo: Considere que numa empresa de transportes p´ublicos ´e registado

diaria-mente o tempo (em minutos) com que os autocarros chegam atrasados a uma certa

paragem. A informação é recolhida em três diferentes intervalos de tempo: de 0 a

5 min, de 5 a 10 min e de 10 a 15 minutos. Na Tabela 2.5 pode encontrar-se um

exemplo de uma vari´avel histograma.

Tabela 2.5: Exemplo vari´avel histograma

N.oautocarro Atrasos

Autocarro 1 [0,5[, 0.55; [5,10[, 0.25; [10,15[,0.20 Autocarro 2 [0,5[, 0.75; [5,10[, 0.2; [10,15[,0.05 Autocarro 3 [0,5[, 0.60; [5,10[, 0.20; [10,15[,0.20

• Variáveis categóricas de valor único

Dado E = {ω

1

, ..., ω

n

} e um conjunto finito de categorias, O = {m

1

, ..., m

k

} uma

variável categórica de valor único é definida pela aplicação Y : E → O tal que

ω

i

7→ Y (ω

i

) = m

l

. Neste caso B ≡ O.

• Vari´aveis categ´oricas multi valor

Uma variável categórica multi valor é definida pela aplicação Y : E → B onde B é

o conjunto n˜ao vazio de subconjuntos de O = {m

1

, ..., m

k

}. Os ”valores”de Y (ω

i

)

s˜ao agora conjuntos finitos de categorias.

• Vari´aveis categ´oricas modais

Uma vari´avel categ´orica modal Y com um dom´ınio subjacente finito O = {m

1

, ..., m

k

}

(19)

regis-tado um conjunto de categorias e para cada categoria m

l

, um peso, frequˆencia ou

probabilidade p

l

que indica quão frequente ou provável é essa categoria para esse

elemento. Neste caso, B é o conjunto de distribuições sobre O e os seus elementos

s˜ao denotados por {m

1

(p

1

), ..., m

k

(p

k

)}.

Exemplo: Considere-se novamente o exemplo das escolas onde tamb´em ´e

reco-lhida informação sobre a avaliação dos professores. Neste caso, os professores têm

uma avaliac¸˜ao qualitativa em quatro categorias Regular, Bom, Muito bom e

Exce-lente. Na Tabela 2.6 pode-se encontrar um exemplo de uma vari´avel modal.

Tabela 2.6: Exemplo vari´avel categ´orica modal

Escolas Avaliac¸˜ao dos professores Escola A Regular (0%) Bom (70%) Muito Bom (25%) Excelente (5%) Escola B Regular (0%) Bom (75%) Muito Bom (20%) Excelente (5%) Escola C Regular (0%) Bom (80%) Muito Bom (17%) Excelente (3%)

Outro tipo de vari´aveis

Vari´aveis taxon´omicas

Uma variável Y : E → O é uma variável taxonómica se O tem uma estrutura em

árvore. Taxonomias devem ser consideradas na obtenção das descrições dos dados

agre-gados: primeiro os valores são guardados como no caso das variáveis categóricas de

valores m´ultiplo e depois cada conjunto de valores de O ´e substitu´ıdo pelo menor valor h

na taxonomia cobrindo os valores do conjunto dado. Geralmente, sobe-se para o n´ıvel h

quando pelo menos dois sucessores de h est˜ao presentes.

(20)

Software para dados simb´olicos

O primeiro software a permitir a representação e análise de dados simbólicos foi o

SO-DAS: Symbolic Official Data Analysis System, resultante do primeiro projeto de investigac¸˜ao

europeia sobre este tipo de dados (1996 a 1999). O objetivo deste projeto era facilitar o

uso de técnicas de análise de dados simbólicos demonstrando que cobrem várias

neces-sidades dos utilizadores. Este projeto foi seguido pelo projeto ASSO: Analysis System of

Symbolic Official data

(2001 a 2003) com o objetivo de desenhar novos m´etodos,

meto-dologias e ferramentas de software para extrac¸˜ao de conhecimento de dados complexos

multi-dimensionais do qual resultou o novo software SODAS2. Atualmente, existem

ou-tras alternativas incluindo pacotes para o software R, tais como MAINT.Data, symbolicDA,

RSDA

e SoDA.

(21)

Cap´ıtulo 3

Revis˜ao da literatura

3.1 Estado da arte

Neste cap´ıtulo será apresentada uma visão global sobre alguns dos métodos de

classifi-cação existentes para dados simbólicos, hierárquicos e não hierárquicos, assim como de

métodos de classificação conceptual.

Ao longo do tempo tem sido proposta uma grande variedade de m´etodos de

classi-ficação capazes de lidar com dados simbólicos. Estes métodos podem ser divididos em

dois grupos [6], sendo que no primeiro se enquadram métodos que resultam da adaptação

de m´etodos de agrupamento tradicionais baseados em medidas de dissemelhanc¸as mas

aplicados aos novos tipos de dados. No segundo grupo, encontram-se os m´etodos que

utilizam explicitamente os dados no processo de agrupamento em vez de medidas de

dissemelhança, que são frequentemente chamados de métodos de classificação

concep-tual.

Esta divisão não é espec´ıfica para os dados simbólicos, porém, devido à variabilidade

inerente a este tipo de dados, a diferença entre os dois tipos de métodos tem consequências

consideráveis nos resultados da classificação. No entanto, os resultados obtidos entre os

m´etodos dos dois grupos n˜ao devem ser comparados uma vez que resultam de diferentes

conceitos daquilo que ´e uma classe.

O tipo de dados simbólicos que mais tem sido estudado e cujos métodos têm

conhe-cido maiores desenvolvimentos s˜ao os dados intervalares.

(22)

3.1.1 Métodos de classificação para dados simbólicos

No que diz respeito a métodos de classificação para dados simbólicos, muitos são os

métodos que têm sido propostos quer recorrendo a classificação hierárquica como não

hier´arquica.

Fundamentados em adaptações de k-means ou método das nuvens dinâmicas, têm

sido propostos vários métodos não hierárquicos baseados em diferentes medidas de

dis-semelhança para dados intervalares (ver [19], [16] e [14]). Têm sido também

propos-tos métodos de classificação Fuzzy. Estes métodos para dados intervalares resultam da

adaptação do algoritmo c-means fuzzy tradicional, usando distâncias apropriadas, como é

feito para os algoritmos crisp. Em [15] e [18] s˜ao ainda fornecidas ferramentas adicionais

de interpretac¸˜ao para classes fuzzy individuais de dados intervalares, adequadas a estes

modelos. Em [27] é apresentado um método de classificação RICA especialmente

desen-volvido para tratar de questões como os outliers, o número de classes e da inicialização de

protótipos em métodos de classificação c-means fuzzy para dados intervalares simbólicos.

Para dados com valores múltiplos, foi proposto o método não hierárquico SCLUST

(ver [17]) especializado em dados simb´olicos, que est´a inclu´ıdo no software SODAS. Este

é uma generalização do método das nuvens dinâmicas tradicional para classificar um

con-junto de conceitos num número k de classes homogéneas, que são definidas a priori,

ape-sar de existir um m´odulo que permite determinar o melhor valor de k. O m´etodo assenta

nos mesmos princ´ıpios do método clássico das nuvens dinâmicas e determina

iterativa-mente uma série de partições que melhoram em cada passo segundo um critério que mede

o ajuste entre os protótipos das classes e os seus membros, que é aditivo nas variáveis e

nas classes e baseado em funções de distância. Este método pode ser aplicado a conjuntos

de dados com diferentes tipos de vari´aveis de forma isolada ou simultˆanea e admite dados

em falta. Este método encontra-se descrito com algum detalhe na Secção 3.2.1.

Também baseado no método das nuvens dinâmicas é apresentado o método DCLUST

(ver [17]), assente numa matriz distˆancia que tem como objetivo o particionamento do

conjunto de dados num n´umero fixo k de classes homog´eneas com base nas proximidades

entre pares de conceitos ou indiv´ıduos do conjunto de dados. O crit´erio otimizado por

DCLUST é baseado na soma das dissemelhanças (ou soma dos quadrados das distâncias)

(23)

entre os elementos pertencentes a uma mesma classe. Este m´etodo est´a dispon´ıvel como

um pacote para o software R.

No que diz respeito a métodos de classificação hierárquica espec´ıficos para dados

intervalares, não têm surgido tantos desenvolvimentos como no caso dos métodos de

classificação não hierárquica. De forma geral, os métodos hierárquicos tradicionais

po-dem ser aplicados a dados intervalares definindo uma matriz de dissemelhanc¸a entre as

entidades a serem classificadas para criar as partições. Em [25] é proposto um método de

classificação divisiva baseado em processos pontuais de Poisson não homogéneos.

Para dados simbólicos contendo tipos de variáveis que assumem múltiplos valores

têm sido também desenvolvidos outros métodos de classificação hierárquica. Entre

es-tes podemos encontrar o m´etodo DIV: Divisive Classification of Symbolic Data [13]

que realiza uma hierarquia indexada de objetos simb´olicos (dados cl´assicos, intervalares,

probabil´ısticos e multi-valor baseados em dados cont´ınuos ou ordinais, n˜ao suportando

variáveis de tipo mistos). Começa com os objetos compilados numa única classe e divide

sucessivamente cada classe em classes menores de acordo com o crit´erio de variˆancia

dentro da classe, que é uma extensão do critério da soma dos quadrados para o caso de

uma matriz distância. Cada divisão é realizada de forma monotética, isto é, é baseada

ape-nas numa vari´avel e separa os objetos que mostrem valores espec´ıficos desta vari´avel dos

restantes objetos. O resultado do método DIV, que está dispon´ıvel no software SODAS, é

uma árvore de classificação. Este método encontra-se descrito na Secção 3.2.2.

No software SODAS2 pode ainda ser encontrado o m´etodo SHICLUST (ver [24]),

que estende os métodos de classificação hierárquica tradicional (single linkage, complete

linkage, centroid

e Ward) a dados simbólicos. Outro método é proposto em [8], baseado

em representac¸˜oes de quantis dos dados.

3.1.2 Métodos de classificação conceptual

A classificação conceptual iniciou-se com Michalski (1980). Este propõe (ver [31]) o

método CLUSTER onde os objetos são agrupados não apenas com base nas distâncias

en-tre eles mas no conjunto de conceitos que est˜ao dispon´ıveis para descrever os objetos.

Pos-teriormente, Michalski e Stepp (ver [32]) propuseram o m´etodo CLUSTER/2: ´e gerada

uma partição inicial que é otimizada iterativamente tentando minimizar a sobreposição

(24)

entre classes.

Um dos métodos mais conhecidos de classificação conceptual é o método COBWEB

proposto por Fisher, em 1987, (ver [23]) que organiza de forma incremental as observac¸˜oes

numa árvore de decisão, onde cada nó representa um conceito e é etiquetado por um

con-ceito probabil´ıstico que resume a distribuic¸˜ao atributo-valor dos objetos classificados no

nó. Por outras palavras, as classes são representadas probabilisticamente pela distribuição

de probabilidade dos valores do atributo para os membros de cada classe.

Em 2001, foi proposto o m´etodo SUBDUE (ver [28]). Este m´etodo assenta numa

representação gráfica de informação estrutural combinada com uma técnica de descoberta

de subestruturas. Utiliza uma variante de pesquisa heur´ıstica beam search com o objetivo

de encontrar a subestrutura que melhor concentra o gr´afico de entrada, como extens˜oes

`as subestruturas descobertas anteriormente. Os resultados mostram que o SUBDUE

en-contra com sucesso classes hier´arquicas tanto em dados estruturados como em dados n˜ao

estruturados.

Outro método proposto (ver [37]) é o método GCF (Generality-based Concept

For-mation) que se baseia em conceitos probabil´ısticos que associam uma probabilidade ou

peso a com cada propriedade da definic¸˜ao do conceito. Este apoia-se no modelo de

classificação hierárquica e utiliza representações probabil´ısticas estendendo as ideias

tra-dicionais de generalidade/especificidade.

Outros métodos de classificação conceptual que têm sido propostos utilizam

corres-pondˆencias de Galois.

O m´etodo GALOIS, proposto por Carpineto e Romano (ver [12]) constr´oi hierarquias

conceptuais insens´ıveis `a ordem dos objetos. ´

E um algoritmo incremental que usa a teoria

de Galois para construir a estrutura de conceitos correspondente a um dado conjunto de

objetos. Este m´etodo assenta na ideia em que para encontrar os conceitos na estrutura

atu-alizada é suficiente considerar as interseções do novo objeto com os conceitos da estrutura

anterior. Isto é, para gerar os conceitos na estrutura atualizada não é necessário intersectar

o novo objeto com todas as poss´ıveis combinac¸˜oes dos objetos anteriores. Assim, o

algo-ritmo centra-se na adição das intersecções do novo objeto com os conceitos antigos e os

seus limites relativos `a estrutura. No entanto, examinar cada n´o na estrutura de forma

in-dependente e depois para cada intersecção com o novo objeto implica um grande esforço

(25)

computacional. Por isso, este m´etodo explora a estrutura de conceitos para evitar essas

operac¸˜oes.

Em 2002 ´e introduzido a ideia de estruturas de conceitos de iceberg (ver [36]) que se

baseia apenas nos conceitos mais frequentes da estrutura. Estruturas de iceberg

consti-tuem um método de classificação conceptual adequado para analisar conjuntos de dados

de grande dimensão e são baseadas na teoria de Análise Formal de Conceitos. ´

E

apresen-tado o m´etodo TITANIC para calcular este novo conceito de estruturas que utiliza uma

função ponderada para obter a intensão, isto é, obter a descrição de uma classe e

partici-ona o conjunto de geradores em classes de equivalˆencia onde todos os elementos de uma

classe originam a mesma intens˜ao.

Ainda em 2002, é proposto o método GALÍCIA (ver [38] ). Este é um método

incre-mental que utiliza tamb´em estruturas como forma de encontrar os subconjuntos

frequen-tes. Comec¸a por considerar um contexto formal sem objetos, com o conjunto de atributos

definido e, em cada iteração, o método simula a adição de um novo objeto ao contexto e

verifica as modificações necessárias para que a estrutura seja preservada.

Brito desenvolve em [2] e [3] um método de classificação conceptual hierárquica/

pira-midal (HIPYR) vocacionado para dados simb´olicos com a possibilidade de tratar vari´aveis

de diferentes tipos. O critério que conduz à formação de classes é a dualidade

intensão-extensão em que cada classe da hierarquia deve corresponder a um conceito, isto é, cada

classe que é uma parte do conjunto dos objetos é representada por uma descrição cuja

extensão é a classe propriamente dita. A descrição deste método pode ser encontrada na

Secc¸˜ao 4.3.

Mais recentemente, Brito e Polaillon [10], prop˜oem um enquadramento comum para

representar e operar com dados ordinais, num´ericos de valor singular ou intervalares

e dados categóricos modais, definindo um operador de generalização que determina as

descrições na forma de intervalos. Esta abordagem foi aplicada à metodologia de

classi-ficação definida anteriormente conduzindo ao método que será implementado e analisado

neste trabalho e que ´e detalhado no Cap´ıtulo 4.

(26)

3.2 M´etodos SCLUST e DIV

Os métodos SCLUST e DIV serão usados no Cap´ıtulo 6 deste trabalho como referência

para comparar as classes formadas pelo m´etodo aqui estudado e implementado. Assim

nesta secção estes métodos serão descritos formalmente. Será ainda utilizado como

re-ferência o método HIPYR que se encontra detalhado na Secção 4.3, uma vez que é neste

que o novo m´etodo estudado se baseia.

3.2.1 SCLUST

O método SCLUST segue a filosofia geral do método das k-médias de MacQueen [30]

ou das Nuvens Dinâmicas de Diday [22]. O método baseia-se na aplicação alternada de

uma função de representação e de uma função de alocação. O esquema geral do método

de classificação dinâmica simbólica SCLUST assenta nos seguintes princ´ıpios [21]:

• Inicializac¸˜ao: Seja P

(0)

_{= {P}

(0) 1

, ..., P

(0)

k

} uma partição aleatória inicial de E em

k classes.

• Passo de representação t: Para i = 1, ..., k , calcular um protótipo g

_i(t)

como objeto

simb´olico que representa a classe P

i

∈ P

(t)

.

• Passo de alocação t: Qualquer elemento ω ∈ E é atribu´ıdo à classe P

i

se e s´o se

ψ(ω, g

i

) ´e um m´ınimo: P

(t+1)

i

= {ω ∈ E|i = argmin{ψ(ω, g

i

)/l = 1, ..., k}, onde

ψ(ω, g

i

) ´e R(d(c), d(g

i

)) sendo R uma relação entre descrições, que pode ser uma

medida de distˆancia.

• Regra de paragem ou estabilidade: Se P

(t+1)

_{= P}

(t)

_{ent˜ao o algoritmo termina,}

senão volta ao passo de representação.

O critério ∆(P, L) otimizado (localmente) pelo método de classificação dinâmica é

aditivo no que diz respeito `as vari´aveis descritoras dos dados. ´

E proposto definir o crit´erio

∆(P, L) como a soma da função de alocação ψ(ω, g

i

) para cada elemento pertencente a

uma classe P

i

∈ P e o respetivo prot´otipo g

i

∈ Λ: ∆(P, L) =

k

P

i=1

P

c∈Pi

ψ(c, g

i

).

Podem ser distinguidas duas formas principais de representar uma classe: um prot´otipo

expresso por um elemento singular da classe (por exemplo o elemento da distˆancia m´edia

(27)

m´ınima de todos os elementos da classe, tal como pelo elemento que minimiza a func¸˜ao

critério) ou um protótipo escolhido como função de sumarização dos elementos da classe.

No ´ultimo caso, o prot´otipo pode estar adequadamente modelizado por um objeto

simbó-lico modal [11]. A descrição de um objeto simbósimbó-lico modal é dada pelas distribuições de

frequˆencia ou probabilidade associadas `as categorias ou sub-intervalos dos p descritores.

As distˆancias utilizadas variam de acordo com os tipos de vari´aveis: para dados

quan-titativos de valor real ´e utilizada a distˆancia Euclideana, para dados quanquan-titativos multi

valor e intervalares é utilizada a distância de Hausdorff, para dados categóricos de valor

singular é utilizada a distância do χ-quadrado, para dados categóricos multi valor é

utili-zada a distância de De Carvalho e para dados distribucionais a distância clássica φ

2

_(ver

[17]).

Quando as variáveis são de diferente tipos, o método apresenta duas abordagens para

calcular a medida de dissemelhança global: combinação linear ponderada das medidas de

dissemelhança de cada variável ou categorização dos dom´ınios para transformar todas as

vari´aveis num mesmo tipo.

3.2.2 DIV

O método de classificação DIV [11] procede de forma descendente começando com E, o

conjunto a ser classificado, e realiza uma partic¸˜ao de uma classe em cada passo. No passo

m é apresentada uma partição de E em m classes, uma das quais será seguidamente

dividida em duas sub-classes. A classe a ser dividida e a regra de divis˜ao s˜ao escolhidas

de forma a obter uma partição em m + 1 classes minimizando a dispersão dentro das

classes.

Para avaliar uma dada partic¸˜ao P

m

= {C

(m)

1

, C

(m)

2

, ..., C

m(m)

} ´e utilizado um crit´erio

Q(m) que ´e a soma da dispers˜ao interna de cada classe: Q(m) =

P

K

α=1

I(C

α

) =

K

P

α=1

P

ωi,ωi0∈C (m) α

D

2

_(ω

i

, ω

i0

) onde D

2

(ω

_i

, ω

_i0

) varia com o tipo de vari´aveis.

No caso de um conjunto de dados quantitativo temos D

2

_(ω

i

, ω

i0

) =

p

P

j=1

d

2

_(x

ij

, x

i0_j

).

Para dados intervalares, d ´e a distˆancia de Hausdorff aplicada ao caso particular dos

intervalos. Sejam x

ij

e x

i0_j

dois intervalos [l

_ij

, u

_ij

] e [l

_i0_j

, u

_i0_j

], ent˜ao d(x

_ij

, x

_i0_j

) =

(28)

corresponde à diferença absoluta entre os valores das variáveis.

No caso de um conjunto de dados categórico, as variáveis têm um enquadramento

co-mum sejam modais ou multi valor. Sejam Y

1

, ..., Y

p

as p vari´aveis categ´oricas e O

1

, ..., O

p

os respetivos dom´ınios subjacentes. Ent˜ao, Y

j

(ω

i

) ´e um conjunto de categorias de O

j

ou a frequência de distribuição em O

j

. Em qualquer dos casos, ´e Y

j

(ω

i

) ´e

represen-tado por uma distribuição de frequência que é uniforme no caso de variáveis categóricas

multi valor. Desta forma, a matriz de dados original ´e transformada numa matriz de

frequˆencias. Para comparar dois objetos ω

i

e ω

i0

de E ´e utilizada como distˆancia D a

distˆancia φ

2

: D

2

(ω

i

, ω

i0

) =

t

P

j=1 p.. p.j

_p ij pi.

−

p_i0j pi0.

2

onde t representa o n´umero total de

cate-gorias, p

ij

=

fij np

, p

i.

=

t

P

j=1

p

ij

, p

.j

=

n

P

i=1

p

ij

e p

..

=

n

P

i=1 t

P

j=1

p

ij

= 1 .

Em cada passo do algoritmo, uma classe ´e escolhida para ser dividida em duas

sub-classes de forma a que Q(m + 1) seja minimizado ou que, de forma equivalente, Q(m) −

Q(m + 1) seja maximizado.

(29)

Cap´ıtulo 4

Classificação Ascendente Hierárquica

Simb´olica

Este cap´ıtulo apresenta o método de classificação conceptual hierárquica para dados

sim-b´olicos, inicialmente proposto em [2] e posteriormente reformulado em [10], onde cada

classe formada corresponde a um conceito, isto é, a um par (extensão, intensão). Os

con-ceitos são obtidos por uma correspondência de Galois com generalização por intervalos,

o que permite lidar com diferentes tipos de vari´aveis num enquadramento comum.

4.1 Classificação Hierárquica

A Análise Classificatória é uma técnica exploratória de análise multivariada que tem como

objetivo agrupar os objetos em classes de modo que os grupos sejam homog´eneos ou

compactos relativamente a uma ou mais caracter´ısticas. O objetivo ´e que cada elemento

pertencente a uma determinada classe seja similar a todos os elementos dessa classe e

diferente dos pertencentes a outra classe.

As classes podem ser organizadas segundo diferentes estruturas. Neste trabalho,

interessamo-nos por um método de classificação hierárquica aglomerativo. Estes

recor-rem a passos sucessivos de agregação dos sujeitos considerados individualmente, isto é,

cada objeto forma inicialmente uma classe e v˜ao sendo agrupados de acordo com as suas

proximidades.

(30)

vazios h, h

0

, ..., de E tal que:

∀ω ∈ E : {ω} ∈ H

E ∈ H

∀h, h

0

_{∈ H : h ∩ h}

0

_{= φ ou h ⊆ h}

0

_{ou h}

0

_{⊆ h}

Frequentemente um valor real n˜ao negativo ´e associado a cada classe, caracterizando

a sua heterogeneidade. Uma hierarquia indexada ou dendrograma ´e um par (H, f ), onde

H é uma hierarquia e f uma função f : H → IR

+

_{tal que:}

i. f (h) = 0 ⇔ card(h) = 1 (onde card(h) representa a cardinalidade de h)

ii. h ⊂ h

0

⇒ f (h) ≤ f (h

0

_).

Uma classe h ∈ H ´e dito ser um sucessor de uma classe h

0

∈ H se h ⊆ h

0

_{e n˜ao}

existe uma classe h

00

∈ H, h

00

_{6= h, h}

00

_{6= h}

0

_{, tal que h ⊂ h}

00

_{⊂ h}

0

_{. h}

0

_{´e ent˜ao dito ser um}

predecessor de h. Numa hierarquia, cada classe tem no m´aximo um predecessor [21].

Uma classificação ascendente hierárquica parte das classes singulares e reúne em cada

etapa as classes reun´ıveis para as quais a dissemelhança é m´ınima. Duas classes são

reun´ıveis se e s´o se nenhuma delas foi j´a reunida anteriormente. ´

E definido um ´ındice de

dissemelhança entre as classes (´ındice de agregação) que permite escolher quais as duas

classes a reunir em cada etapa.

4.2 Correspondˆencias de Galois

Seja E = {ω

1

, ..., ω

n

} o conjunto de n objetos descritos por p vari´aveis Y

1

, ..., Y

p

.

Sejam (A, ≤

1

) e (B, ≤

2

) dois conjuntos parcialmente ordenados. Uma

correspon-dências de Galois é um par (f, g), onde f é a aplicação f : A → B, g é a aplicação

g : B → A, tal que f e g são ant´ıtonas e ambas as aplicações h = g ◦ f e h

0

= f ◦ g s˜ao

extensivas; h e h

0

s˜ao ent˜ao operadores de fecho [9].

Em An´alise de Dados, as correspondˆencias de Galois foram introduzidas da seguinte

forma, para dados binários: a aplicação f define a intensão de um conjunto S ⊆ E, f (S) é

o conjunto de todos os atributos comuns a todos os elementos de S e a aplicac¸˜ao g permite

a obtenção da extensão em E associada a um conjunto de atributos T ⊆ O, onde g(T )

corresponde ao conjunto de todos os elementos de E que possuem todos os atributos de

(31)

T , sendo O é o conjunto de atributos (binários) considerado. O par (f, g) constitui então

uma correspondˆencia de Galois entre (P (E), ⊆) e (P (O), ⊆). Um conceito ´e definido

como um par (S, T ) onde S ⊆ E, T ⊆ O, S = g(T ) e T = f (S), isto ´e, h(S) = S; S ´e a

extens˜ao do conceito e T a sua intens˜ao [9].

Exemplo

Considere-se o conjunto dos planetas caraterizados pelo tamanho (pequeno, m´edio ou

grande), pela distância ao Sol (perto ou longe) e pela existência de luas (sim ou não).

Tabela 4.1: Dados bin´arios para o conjunto de planetas

Planetas Tamanho Distˆancia ao Sol Luas

Pequeno m´edio grande perto longe sim n˜ao

Terra x x x Júpiter x x x Marte x x x Mercúrio x x x Neptuno x x x Plutão x x x Saturno x x x Urano x x x Vénus x x x

Sejam A = {Terra, Marte} e B = {pequeno, perto, luas(sim)}. A intens˜ao de A

é dada por f (A) = {pequeno, perto, luas(sim)}. A extensão de B é g(B) = {Terra,

Marte}. Temos que g(f (A)) = g({pequeno, perto, luas(sim)}) = {Terra, Marte} = A e

f (g(A)) = f ({Terra, Marte}) = {pequeno, perto, luas(sim)} = B. O par (A, B) ´e ent˜ao

um conceito. A é a extensão e B a intensão do conceito.

No contexto da An´alise de Dados Simb´olicos, em que Y

j

: E → B

j

, j = 1, .., p,

seja D = B

1

× B

2

× ... × B

p

o conjunto de todas as poss´ıveis descric¸˜oes (D, ≤); para

uma ordem parcial apropriada em D. Em Análise de Dados Simbólicos, a aplicação f :

P (E) → D define a intenção d ∈ D de um conjunto S ⊆ E, e a aplicação g : D → P (E)

permite obter a extensão em E associada a uma descrição d ∈ D.

(32)

4.3 Método de Classificação Hierárquica Simbólica:

vers˜ao original

Em [2] foi proposto um método de classificação hierárquica/piramidal conceptual

as-cendente para dados simbólicos. Neste trabalho será apenas analisada a classificação

hier´arquica.

O m´etodo permite considerar como entrada um conjunto de dados simb´olicos onde

cada elemento é descrito por variáveis simbólicas com a possibilidade de ter variáveis

de diferentes tipos. O critério que conduz à formação de classes é a dualidade

intensão-extensão: cada classe da hierarquia deve corresponder a um conceito, isto é, cada classe

que é uma parte de E é representada por uma descrição cuja extensão é a classe

propria-mente dita.

O m´etodo pode ser resumido da seguinte forma: para cada candidato a classe, ´e

cons-tru´ıda uma descrição, generalizando as descrições correspondentes às classes a serem

agrupadas e uma classe candidata é eleg´ıvel apenas se esta nova descrição cobrir todos os

elementos da classe e nenhum outro. Cada classe formada fica associada a uma conjunc¸˜ao

de propriedades nas variáveis descritivas, que constituem uma condição necessária e

su-ficiente para adesão à classe. Para escolher entre as diferentes agregações que reúnem

a condição acima, um grau de generalidade avalia a proporção do espaço coberto pela

descrição considerada e a agregação que apresenta generalidade m´ınima é a classe a ser

formada.

Uma medida de generalidade permite quantificar a generalidade de uma descric¸˜ao,

permitindo assim escolher de entre as agregac¸˜oes poss´ıveis de uma dada etapa. O princ´ıpio

ser´a que as classes associadas a conceitos mais espec´ıficos devem ser formadas antes.

Escolhe-se então, de entre as classes que podem ser formadas, aquela cuja intenção do

conceito associado apresenta uma menor generalidade.

A formação de um novo conceito implica a determinação da sua intensão na forma de

uma descrição que deve generalizar os objetos associados aos conceitos que são

agrupa-dos. O processo de generalização das classes difere de acordo com o tipo de variável:

(33)

a. Vari´aveis intervalares

Sejam Y

1

, ..., Y

p

as p vari´aveis reais ou intervalares, Y

j

(ω

i

) = [l

ij

, u

ij

]

(eventual-mente l

ij

= u

ij

) e A = {ω

1

, ..., ω

h

} ⊆ E. A generalização pela união é definida por

f

U

_{: P (E) → I}

p

_{, onde I ´e o conjunto de intervalos de IR, com a ordem de inclus˜ao,}

tal que f

U

(A) = (I

1

, ..., I

p

), I

j

= [M in{l

ij

}, M ax{u

ij

}], ω

i

∈ A, j = 1, ..., p, isto

´e, I

j

´e o menor intervalo que cont´em todos os valores tomados pelos elementos de

A para Y

j

. A aplicac¸˜ao g

U

: I

p

→ P (E) que dá a extensão de uma descrição, é

g

U

_((I

1

, ..., I

p

)) = {ω

i

∈ E : Y

j

(ω

i

) ⊆ I

j

, j = 1, ..., p}. O par (f

U

, g

U

) constitui

uma correspondˆencia de Galois [4].

Exemplo:

Considere quatro hospitais para os quais foram recolhidos dados relativos ao tempo

de espera dos doentes para serem atendidos no servic¸o de urgˆencias, medido em

minutos (vari´avel intervalar).

Tabela 4.2: Vari´avel intervalar

Tempo Hospital 1 [20,40] Hospital 2 [35,50] Hospital 3 [25,60] Hospital 4 [10,30]

A descrição generalizada da classe A = {Hospital 1, Hospital 2} é f

U

(A) =

{[20, 50]}, que descreve os hospitais em que o tempo de espera para atendimento

nos servic¸os de urgˆencia varia entre os 20 e os 50 minutos.

b. Vari´aveis Categ´oricas de Valor ´

Unico e Multi Valor

Sejam Y

1

, ..., Y

p

as p vari´aveis categ´orica multi valor com dom´ınio subjacente O

j

=

{m

1

, ..., m

k

}, Y

j

(w

h

) = V

hj

contido em O

j

e A = {ω

1

, ..., ω

h

} ⊆ E. A generalizac¸˜ao

é efetuada pela união das descrições dos elementos que a constituem. Esta é

defi-nida por aplicac¸˜oes f

U

: P (E) → D tal que f

U

_{(A) = (d}

1

, ..., d

p

) onde d

j

=

S

q

(34)

menor conjunto que contém todas as categorias observadas na classe. A aplicação

g

U

_{: D → E que dá a extensão de uma descrição, é g}

U

_((d

1

, ..., d

p

)) = {ω ∈ E :

V

hj

⊂ ω

j

, j = 1, ..., p, h = 1, ..., n}. O par (f

U

, g

U

) constitui uma correspondˆencia

de Galois.

Exemplo

Considere 2 grupos de pessoas descritos pelo sexo (masculino ou feminino) e pela

nacionalidade (Tabela 4.3).

Tabela 4.3: Vari´avel Categ´orica

Sexo Nacionalidade Grupo 1 {M} {Francesa, Portuguesa} Grupo 2 {M,F} {Espanhola, Portuguesa}

A descrição generalizada da classe A = {Grupo 1, Grupo 2} é f

U

(A) = ({M, F },

{ Francesa, Espanhola, Portuguesa}).

c. Variáveis Categóricas Modais e Variáveis Histograma

Sejam Y

1

, ..., Y

p

as p vari´aveis categ´orica modais ou histograma, O

j

= {m

j1

, ..., m

jk

}

o conjunto das modalidades ou categorias ou sub-intervalos da vari´avel Y

j

. Sem

perda de generalidade, O

j

pode ser um conjunto de sub-intervalos, com m

h

= I

h

=

[I

h

, u

h

] e Y

j

será uma variável histograma. Para as variáveis Y

j

e ω

i

∈ E temos

que Y

j

(ω

i

) = {m

j1

(p

(i) j1

), ..., m

jkj

(p

(i) jkj

)}, onde (p

(i) jkl

) ´e a probabilidade/frequˆencia

associada `a modalidade ou sub-intervalo m

jl

da vari´avel Y

j

e ao elemento ω

i

. A

descrição generalizada é efetuada pelo máximo ou pelo m´ınimo considerando-se

para cada uma das categorias o m´aximo ou o m´ınimo das suas probabilidades/

frequˆencias, respetivamente. Para A = {ω

1

, ..., ω

h

} ⊆ E, a generalização é

efetu-ada por f

U

: P (E) → M tal que f

U

(A) = (d

1

, ..., d

p

) onde d

j

= ({m

1

(p

1

), ..., m

k

(p

k

)})

onde p

l

= max{p

lh

, h = 1, ..., q}, l = 1, ..., k ou d

j

= ({m

1

(p

1

), ..., m

k

(p

k

)}) onde

p

l

= min{p

lh

, h = 1, ..., q}, l = 1, ..., k, efetuado pelo m´aximo ou pelo m´ınimo,

(35)

Exemplo

Considere 2 grupos de pessoas descritas pela sua profiss˜oes, tal como descrito na

Tabela 4.4.

Tabela 4.4: Vari´avel Modal

Profiss˜ao Grupo 1 Professores (70%) Gestores (30%) Grupo 2 Gestores (20%) Economistas (40%) Professores (40%)

A descrição generalizada da classe A = {Grupo 1, Grupo 2} é f

U

_{(A) = {Gestores}

(30%), Economistas (40%), Professores (70%)}, quando efetuado pelo m´aximo, e

f

U

_{(A) = {Gestores (20%), Economistas (40%), Professores (40%)} quando}

efe-tuado pelo m´ınimo.

O grau de generalidade é uma função multiplicativa dada pela expressão G(d) =

Q

p

j=1

G(d

j

), onde G(d

j

) varia de acordo com o tipo de vari´avel:

a. para variáveis clássicas, multi-valor (quantitativas ou categóricas) e intervalares,

G(d

j

) =

Q

pj=1

c(Vj)

c(Oj)

onde c(.) ´e definido pela amplitude do intervalo ou pelo n´umero

de valores ou categorias, respetivamente;

b. para vari´aveis modais e histograma G

1

(d) =

P

k l=1 √ pl √ k

e G

2

(d) =

P

k l=1 √ 1−pl

√

k(k−1)

con-siderando a generalização pelo máximo ou pelo m´ınimo respetivamente, onde p

l

,

l = 1, ..., k representa as probabilidades/ frequˆencias de cada categoria ou

sub-intervalo e k o n´umero de categorias ou sub sub-intervalos da vari´avel.

Exemplo

Considere quatro grupos de pessoas caraterizadas pela vari´avel Y

1

=idade, que toma

valores dos 15 aos 60 anos, ou seja, O

1

= [15, 60], Y

2

=sexo, O

2

= {M, F }, Y

3

=

nacionalidade, sendo O

3

o conjunto de 15 diferentes nacionalidade da Uni˜ao Europeia, e

(36)

Tabela 4.5: Medida de generalidade: vers˜ao original

Idade Sexo Nacionalidade Profiss˜ao

Grupo 1 [20,30] {M} {Francesa} Professor (70%)

Gestor (30%)

Grupo 2 [35,45] {M} {Espanhola, Francesa} Professor (40%)

Economista (40%) Gestor (20%) Grupo 3 [37,55] {F} {Espanhola, Portuguesa} Professor (50%)

Economista (20%) Gestor (30%)

Grupo 4 [40,62] {M,F} {Italiana, Alem˜a} Professor (30%)

Economista (40%) Gestor (30%)

Seja A = {Grupo 1, Grupo 2} a classe a formar. A descric¸˜ao generalizada da classe A,

utilizando a generalização pelo máximo para a variável categórica modal é f

U

_{(A) = d =}

{[20, 45], {M}, {Francesa, Espanhola}, {Professores(0.7),Economistas(0.4), Gestores(0.3)}}.

A medida de generalidade ´e calculada de forma diferente para as diferentes vari´aveis.

As-sim tem-se que:

G(d

1

) =

45−20₆₀₋₁₅

= 0.55 ; G(d

2

) =

1₂

= 0.5 ; G(d

3

) =

₁₅2

= 0.133 ;

G(d

4

) =

√

0.7+√_√0.4+√0.3

3

= 1.164

A medida de generalidade ´e ent˜ao G(d) = 0.55 × 0.5 × 0.133 × 1.164 = 0.0426.

O m´etodo pode ent˜ao ser descrito pelo seguinte algoritmo: Sejam E = {ω

1

, ..., ω

n

}

o conjunto dos n objetos a analisar e d

(i)

_{= (d}

i

1

, ..., d

ip

) a descric¸˜ao associada a ω

i

, i =

1, ..., n. O conjunto inicial ´e o conjunto de conceitos:

n

(ω

i

, d

(i)

), i = 1, ..., n

o

. As

clas-ses s˜ao constru´ıdas recursivamente: em cada etapa, uma nova classe C ´e formada, por

agregação de classes prévias, C

α

e C

β

, C = C

α

∪ C

β

. Seja d = f (C), ent˜ao as classes a

(37)

1. C

α

e C

β

devem estar agregadas segundo a estrutura de classificac¸˜ao escolhida

(hier´arquica ou pirˆamide);

2. g(d) = C, isto é, nenhum elemento de E que não pertence a C pertence à extensão

de d;

3. A generalidade de d ´e m´ınima.

Se nenhum par de classes (C

α

, C

β

) verifica as condic¸˜oes (1) e (2), o algoritmo efetua

a reunião de mais do que duas classes (adaptando as condições de agregação).

O conceito correspondente a uma nova classe formada ´e (C, d) = (C, f (C)) e cada

classe C ser´a indexada pelo valor da medida de generalidade de d = f (C), G(d) =

G(f (C)). O algoritmo termina quando o conceito (E, f (E)) ´e formado.

4.4 Representac¸˜ao por intervalos

Para as variáveis numéricas, ordinais e categóricas modais é proposto em [10] um

qua-dro único de generalização por intervalos, definindo a aplicação f correspondente que

determina a intens˜ao de uma classe.

Para variáveis intervalares a generalização é obtida de forma semelhante à versão

ori-ginal do método (ver Secção 4.3). A generalização das variáveis reais é realizada tal como

nas vari´aveis intervalares pois se Y

j

(w

i

) = x podemos escrever Y

j

(w

i

) = [x, x]. De modo

análogo, definem-se as generalizações para as variáveis ordinais.

Exemplo:

Considere quatro hospitais caracterizados pelo n´umero de m´edicos a trabalhar nesse

hospital (vari´avel real) (ver Tabela 4.6).

A generalização por intervalos da classe A = {Hospital 1, Hospital 2} é f

U