• Nenhum resultado encontrado

Em [2] foi proposto um m´etodo de classificac¸˜ao hier´arquica/piramidal conceptual as-

cendente para dados simb´olicos. Neste trabalho ser´a apenas analisada a classificac¸˜ao

hier´arquica.

O m´etodo permite considerar como entrada um conjunto de dados simb´olicos onde

cada elemento ´e descrito por vari´aveis simb´olicas com a possibilidade de ter vari´aveis

de diferentes tipos. O crit´erio que conduz `a formac¸˜ao de classes ´e a dualidade intens˜ao-

extens˜ao: cada classe da hierarquia deve corresponder a um conceito, isto ´e, cada classe

que ´e uma parte de E ´e representada por uma descric¸˜ao cuja extens˜ao ´e a classe propria-

mente dita.

O m´etodo pode ser resumido da seguinte forma: para cada candidato a classe, ´e cons-

tru´ıda uma descric¸˜ao, generalizando as descric¸˜oes correspondentes `as classes a serem

agrupadas e uma classe candidata ´e eleg´ıvel apenas se esta nova descric¸˜ao cobrir todos os

elementos da classe e nenhum outro. Cada classe formada fica associada a uma conjunc¸˜ao

de propriedades nas vari´aveis descritivas, que constituem uma condic¸˜ao necess´aria e su-

ficiente para ades˜ao `a classe. Para escolher entre as diferentes agregac¸˜oes que re´unem

a condic¸˜ao acima, um grau de generalidade avalia a proporc¸˜ao do espac¸o coberto pela

descric¸˜ao considerada e a agregac¸˜ao que apresenta generalidade m´ınima ´e a classe a ser

formada.

Uma medida de generalidade permite quantificar a generalidade de uma descric¸˜ao,

permitindo assim escolher de entre as agregac¸˜oes poss´ıveis de uma dada etapa. O princ´ıpio

ser´a que as classes associadas a conceitos mais espec´ıficos devem ser formadas antes.

Escolhe-se ent˜ao, de entre as classes que podem ser formadas, aquela cuja intenc¸˜ao do

conceito associado apresenta uma menor generalidade.

A formac¸˜ao de um novo conceito implica a determinac¸˜ao da sua intens˜ao na forma de

uma descric¸˜ao que deve generalizar os objetos associados aos conceitos que s˜ao agrupa-

dos. O processo de generalizac¸˜ao das classes difere de acordo com o tipo de vari´avel:

a. Vari´aveis intervalares

Sejam Y

1

, ..., Y

p

as p vari´aveis reais ou intervalares, Y

j

i

) = [l

ij

, u

ij

] (eventual-

mente l

ij

= u

ij

) e A = {ω

1

, ..., ω

h

} ⊆ E. A generalizac¸˜ao pela uni˜ao ´e definida por

f

U

: P (E) → I

p

, onde I ´e o conjunto de intervalos de IR, com a ordem de inclus˜ao,

tal que f

U

(A) = (I

1

, ..., I

p

), I

j

= [M in{l

ij

}, M ax{u

ij

}], ω

i

∈ A, j = 1, ..., p, isto

´e, I

j

´e o menor intervalo que cont´em todos os valores tomados pelos elementos de

A para Y

j

. A aplicac¸˜ao g

U

: I

p

→ P (E) que d´a a extens˜ao de uma descric¸˜ao, ´e

g

U

((I

1

, ..., I

p

)) = {ω

i

∈ E : Y

j

i

) ⊆ I

j

, j = 1, ..., p}. O par (f

U

, g

U

) constitui

uma correspondˆencia de Galois [4].

Exemplo:

Considere quatro hospitais para os quais foram recolhidos dados relativos ao tempo

de espera dos doentes para serem atendidos no servic¸o de urgˆencias, medido em

minutos (vari´avel intervalar).

Tabela 4.2: Vari´avel intervalar

Tempo Hospital 1 [20,40] Hospital 2 [35,50] Hospital 3 [25,60] Hospital 4 [10,30]

A descric¸˜ao generalizada da classe A = {Hospital 1, Hospital 2} ´e f

U

(A) =

{[20, 50]}, que descreve os hospitais em que o tempo de espera para atendimento

nos servic¸os de urgˆencia varia entre os 20 e os 50 minutos.

b. Vari´aveis Categ´oricas de Valor ´Unico e Multi Valor

Sejam Y

1

, ..., Y

p

as p vari´aveis categ´orica multi valor com dom´ınio subjacente O

j

=

{m

1

, ..., m

k

}, Y

j

(w

h

) = V

hj

contido em O

j

e A = {ω

1

, ..., ω

h

} ⊆ E. A generalizac¸˜ao

´e efetuada pela uni˜ao das descric¸˜oes dos elementos que a constituem. Esta ´e defi-

nida por aplicac¸˜oes f

U

: P (E) → D tal que f

U

(A) = (d

1

, ..., d

p

) onde d

j

=

S

q

menor conjunto que cont´em todas as categorias observadas na classe. A aplicac¸˜ao

g

U

: D → E que d´a a extens˜ao de uma descric¸˜ao, ´e g

U

((d

1

, ..., d

p

)) = {ω ∈ E :

V

hj

⊂ ω

j

, j = 1, ..., p, h = 1, ..., n}. O par (f

U

, g

U

) constitui uma correspondˆencia

de Galois.

Exemplo

Considere 2 grupos de pessoas descritos pelo sexo (masculino ou feminino) e pela

nacionalidade (Tabela 4.3).

Tabela 4.3: Vari´avel Categ´orica

Sexo Nacionalidade Grupo 1 {M} {Francesa, Portuguesa} Grupo 2 {M,F} {Espanhola, Portuguesa}

A descric¸˜ao generalizada da classe A = {Grupo 1, Grupo 2} ´e f

U

(A) = ({M, F },

{ Francesa, Espanhola, Portuguesa}).

c. Vari´aveis Categ´oricas Modais e Vari´aveis Histograma

Sejam Y

1

, ..., Y

p

as p vari´aveis categ´orica modais ou histograma, O

j

= {m

j1

, ..., m

jk

}

o conjunto das modalidades ou categorias ou sub-intervalos da vari´avel Y

j

. Sem

perda de generalidade, O

j

pode ser um conjunto de sub-intervalos, com m

h

= I

h

=

[I

h

, u

h

] e Y

j

ser´a uma vari´avel histograma. Para as vari´aveis Y

j

e ω

i

∈ E temos

que Y

j

i

) = {m

j1

(p

(i) j1

), ..., m

jkj

(p

(i) jkj

)}, onde (p

(i) jkl

) ´e a probabilidade/frequˆencia

associada `a modalidade ou sub-intervalo m

jl

da vari´avel Y

j

e ao elemento ω

i

. A

descric¸˜ao generalizada ´e efetuada pelo m´aximo ou pelo m´ınimo considerando-se

para cada uma das categorias o m´aximo ou o m´ınimo das suas probabilidades/

frequˆencias, respetivamente. Para A = {ω

1

, ..., ω

h

} ⊆ E, a generalizac¸˜ao ´e efetu-

ada por f

U

: P (E) → M tal que f

U

(A) = (d

1

, ..., d

p

) onde d

j

= ({m

1

(p

1

), ..., m

k

(p

k

)})

onde p

l

= max{p

lh

, h = 1, ..., q}, l = 1, ..., k ou d

j

= ({m

1

(p

1

), ..., m

k

(p

k

)}) onde

p

l

= min{p

lh

, h = 1, ..., q}, l = 1, ..., k, efetuado pelo m´aximo ou pelo m´ınimo,

Exemplo

Considere 2 grupos de pessoas descritas pela sua profiss˜oes, tal como descrito na

Tabela 4.4.

Tabela 4.4: Vari´avel Modal

Profiss˜ao Grupo 1 Professores (70%) Gestores (30%) Grupo 2 Gestores (20%) Economistas (40%) Professores (40%)

A descric¸˜ao generalizada da classe A = {Grupo 1, Grupo 2} ´e f

U

(A) = {Gestores

(30%), Economistas (40%), Professores (70%)}, quando efetuado pelo m´aximo, e

f

U

(A) = {Gestores (20%), Economistas (40%), Professores (40%)} quando efe-

tuado pelo m´ınimo.

O grau de generalidade ´e uma func¸˜ao multiplicativa dada pela express˜ao G(d) =

Q

p

j=1

G(d

j

), onde G(d

j

) varia de acordo com o tipo de vari´avel:

a. para vari´aveis cl´assicas, multi-valor (quantitativas ou categ´oricas) e intervalares,

G(d

j

) =

Q

pj=1

c(Vj)

c(Oj)

onde c(.) ´e definido pela amplitude do intervalo ou pelo n´umero

de valores ou categorias, respetivamente;

b. para vari´aveis modais e histograma G

1

(d) =

P

k l=1 √ pl √ k

e G

2

(d) =

P

k l=1 √ 1−pl

k(k−1)

con-

siderando a generalizac¸˜ao pelo m´aximo ou pelo m´ınimo respetivamente, onde p

l

,

l = 1, ..., k representa as probabilidades/ frequˆencias de cada categoria ou sub-

intervalo e k o n´umero de categorias ou sub intervalos da vari´avel.

Exemplo

Considere quatro grupos de pessoas caraterizadas pela vari´avel Y

1

=idade, que toma

valores dos 15 aos 60 anos, ou seja, O

1

= [15, 60], Y

2

=sexo, O

2

= {M, F }, Y

3

=

nacionalidade, sendo O

3

o conjunto de 15 diferentes nacionalidade da Uni˜ao Europeia, e

Tabela 4.5: Medida de generalidade: vers˜ao original

Idade Sexo Nacionalidade Profiss˜ao

Grupo 1 [20,30] {M} {Francesa} Professor (70%)

Gestor (30%)

Grupo 2 [35,45] {M} {Espanhola, Francesa} Professor (40%)

Economista (40%) Gestor (20%) Grupo 3 [37,55] {F} {Espanhola, Portuguesa} Professor (50%)

Economista (20%) Gestor (30%)

Grupo 4 [40,62] {M,F} {Italiana, Alem˜a} Professor (30%)

Economista (40%) Gestor (30%)

Seja A = {Grupo 1, Grupo 2} a classe a formar. A descric¸˜ao generalizada da classe A,

utilizando a generalizac¸˜ao pelo m´aximo para a vari´avel categ´orica modal ´e f

U

(A) = d =

{[20, 45], {M}, {Francesa, Espanhola}, {Professores(0.7),Economistas(0.4), Gestores(0.3)}}.

A medida de generalidade ´e calculada de forma diferente para as diferentes vari´aveis. As-

sim tem-se que:

G(d

1

) =

45−2060−15

= 0.55 ; G(d

2

) =

12

= 0.5 ; G(d

3

) =

152

= 0.133 ;

G(d

4

) =

0.7+√0.4+√0.3

3

= 1.164

A medida de generalidade ´e ent˜ao G(d) = 0.55 × 0.5 × 0.133 × 1.164 = 0.0426.

O m´etodo pode ent˜ao ser descrito pelo seguinte algoritmo: Sejam E = {ω

1

, ..., ω

n

}

o conjunto dos n objetos a analisar e d

(i)

= (d

i

1

, ..., d

ip

) a descric¸˜ao associada a ω

i

, i =

1, ..., n. O conjunto inicial ´e o conjunto de conceitos:

n(ω

i

, d

(i)

), i = 1, ..., n

o

. As clas-

ses s˜ao constru´ıdas recursivamente: em cada etapa, uma nova classe C ´e formada, por

agregac¸˜ao de classes pr´evias, C

α

e C

β

, C = C

α

∪ C

β

. Seja d = f (C), ent˜ao as classes a

1. C

α

e C

β

devem estar agregadas segundo a estrutura de classificac¸˜ao escolhida

(hier´arquica ou pirˆamide);

2. g(d) = C, isto ´e, nenhum elemento de E que n˜ao pertence a C pertence `a extens˜ao

de d;

3. A generalidade de d ´e m´ınima.

Se nenhum par de classes (C

α

, C

β

) verifica as condic¸˜oes (1) e (2), o algoritmo efetua

a reuni˜ao de mais do que duas classes (adaptando as condic¸˜oes de agregac¸˜ao).

O conceito correspondente a uma nova classe formada ´e (C, d) = (C, f (C)) e cada

classe C ser´a indexada pelo valor da medida de generalidade de d = f (C), G(d) =

G(f (C)). O algoritmo termina quando o conceito (E, f (E)) ´e formado.

Documentos relacionados