Em [2] foi proposto um m´etodo de classificac¸˜ao hier´arquica/piramidal conceptual as-
cendente para dados simb´olicos. Neste trabalho ser´a apenas analisada a classificac¸˜ao
hier´arquica.
O m´etodo permite considerar como entrada um conjunto de dados simb´olicos onde
cada elemento ´e descrito por vari´aveis simb´olicas com a possibilidade de ter vari´aveis
de diferentes tipos. O crit´erio que conduz `a formac¸˜ao de classes ´e a dualidade intens˜ao-
extens˜ao: cada classe da hierarquia deve corresponder a um conceito, isto ´e, cada classe
que ´e uma parte de E ´e representada por uma descric¸˜ao cuja extens˜ao ´e a classe propria-
mente dita.
O m´etodo pode ser resumido da seguinte forma: para cada candidato a classe, ´e cons-
tru´ıda uma descric¸˜ao, generalizando as descric¸˜oes correspondentes `as classes a serem
agrupadas e uma classe candidata ´e eleg´ıvel apenas se esta nova descric¸˜ao cobrir todos os
elementos da classe e nenhum outro. Cada classe formada fica associada a uma conjunc¸˜ao
de propriedades nas vari´aveis descritivas, que constituem uma condic¸˜ao necess´aria e su-
ficiente para ades˜ao `a classe. Para escolher entre as diferentes agregac¸˜oes que re´unem
a condic¸˜ao acima, um grau de generalidade avalia a proporc¸˜ao do espac¸o coberto pela
descric¸˜ao considerada e a agregac¸˜ao que apresenta generalidade m´ınima ´e a classe a ser
formada.
Uma medida de generalidade permite quantificar a generalidade de uma descric¸˜ao,
permitindo assim escolher de entre as agregac¸˜oes poss´ıveis de uma dada etapa. O princ´ıpio
ser´a que as classes associadas a conceitos mais espec´ıficos devem ser formadas antes.
Escolhe-se ent˜ao, de entre as classes que podem ser formadas, aquela cuja intenc¸˜ao do
conceito associado apresenta uma menor generalidade.
A formac¸˜ao de um novo conceito implica a determinac¸˜ao da sua intens˜ao na forma de
uma descric¸˜ao que deve generalizar os objetos associados aos conceitos que s˜ao agrupa-
dos. O processo de generalizac¸˜ao das classes difere de acordo com o tipo de vari´avel:
a. Vari´aveis intervalares
Sejam Y
1, ..., Y
pas p vari´aveis reais ou intervalares, Y
j(ω
i) = [l
ij, u
ij] (eventual-
mente l
ij= u
ij) e A = {ω
1, ..., ω
h} ⊆ E. A generalizac¸˜ao pela uni˜ao ´e definida por
f
U: P (E) → I
p, onde I ´e o conjunto de intervalos de IR, com a ordem de inclus˜ao,
tal que f
U(A) = (I
1, ..., I
p), I
j= [M in{l
ij}, M ax{u
ij}], ω
i∈ A, j = 1, ..., p, isto
´e, I
j´e o menor intervalo que cont´em todos os valores tomados pelos elementos de
A para Y
j. A aplicac¸˜ao g
U: I
p→ P (E) que d´a a extens˜ao de uma descric¸˜ao, ´e
g
U((I
1
, ..., I
p)) = {ω
i∈ E : Y
j(ω
i) ⊆ I
j, j = 1, ..., p}. O par (f
U, g
U) constitui
uma correspondˆencia de Galois [4].
Exemplo:
Considere quatro hospitais para os quais foram recolhidos dados relativos ao tempo
de espera dos doentes para serem atendidos no servic¸o de urgˆencias, medido em
minutos (vari´avel intervalar).
Tabela 4.2: Vari´avel intervalar
Tempo Hospital 1 [20,40] Hospital 2 [35,50] Hospital 3 [25,60] Hospital 4 [10,30]
A descric¸˜ao generalizada da classe A = {Hospital 1, Hospital 2} ´e f
U(A) =
{[20, 50]}, que descreve os hospitais em que o tempo de espera para atendimento
nos servic¸os de urgˆencia varia entre os 20 e os 50 minutos.
b. Vari´aveis Categ´oricas de Valor ´Unico e Multi Valor
Sejam Y
1, ..., Y
pas p vari´aveis categ´orica multi valor com dom´ınio subjacente O
j=
{m
1, ..., m
k}, Y
j(w
h) = V
hjcontido em O
je A = {ω
1, ..., ω
h} ⊆ E. A generalizac¸˜ao
´e efetuada pela uni˜ao das descric¸˜oes dos elementos que a constituem. Esta ´e defi-
nida por aplicac¸˜oes f
U: P (E) → D tal que f
U(A) = (d
1
, ..., d
p) onde d
j=
S
qmenor conjunto que cont´em todas as categorias observadas na classe. A aplicac¸˜ao
g
U: D → E que d´a a extens˜ao de uma descric¸˜ao, ´e g
U((d
1
, ..., d
p)) = {ω ∈ E :
V
hj⊂ ω
j, j = 1, ..., p, h = 1, ..., n}. O par (f
U, g
U) constitui uma correspondˆencia
de Galois.
Exemplo
Considere 2 grupos de pessoas descritos pelo sexo (masculino ou feminino) e pela
nacionalidade (Tabela 4.3).
Tabela 4.3: Vari´avel Categ´orica
Sexo Nacionalidade Grupo 1 {M} {Francesa, Portuguesa} Grupo 2 {M,F} {Espanhola, Portuguesa}
A descric¸˜ao generalizada da classe A = {Grupo 1, Grupo 2} ´e f
U(A) = ({M, F },
{ Francesa, Espanhola, Portuguesa}).
c. Vari´aveis Categ´oricas Modais e Vari´aveis Histograma
Sejam Y
1, ..., Y
pas p vari´aveis categ´orica modais ou histograma, O
j= {m
j1, ..., m
jk}
o conjunto das modalidades ou categorias ou sub-intervalos da vari´avel Y
j. Sem
perda de generalidade, O
jpode ser um conjunto de sub-intervalos, com m
h= I
h=
[I
h, u
h] e Y
jser´a uma vari´avel histograma. Para as vari´aveis Y
je ω
i∈ E temos
que Y
j(ω
i) = {m
j1(p
(i) j1), ..., m
jkj(p
(i) jkj)}, onde (p
(i) jkl) ´e a probabilidade/frequˆencia
associada `a modalidade ou sub-intervalo m
jlda vari´avel Y
je ao elemento ω
i. A
descric¸˜ao generalizada ´e efetuada pelo m´aximo ou pelo m´ınimo considerando-se
para cada uma das categorias o m´aximo ou o m´ınimo das suas probabilidades/
frequˆencias, respetivamente. Para A = {ω
1, ..., ω
h} ⊆ E, a generalizac¸˜ao ´e efetu-
ada por f
U: P (E) → M tal que f
U(A) = (d
1, ..., d
p) onde d
j= ({m
1(p
1), ..., m
k(p
k)})
onde p
l= max{p
lh, h = 1, ..., q}, l = 1, ..., k ou d
j= ({m
1(p
1), ..., m
k(p
k)}) onde
p
l= min{p
lh, h = 1, ..., q}, l = 1, ..., k, efetuado pelo m´aximo ou pelo m´ınimo,
Exemplo
Considere 2 grupos de pessoas descritas pela sua profiss˜oes, tal como descrito na
Tabela 4.4.
Tabela 4.4: Vari´avel Modal
Profiss˜ao Grupo 1 Professores (70%) Gestores (30%) Grupo 2 Gestores (20%) Economistas (40%) Professores (40%)
A descric¸˜ao generalizada da classe A = {Grupo 1, Grupo 2} ´e f
U(A) = {Gestores
(30%), Economistas (40%), Professores (70%)}, quando efetuado pelo m´aximo, e
f
U(A) = {Gestores (20%), Economistas (40%), Professores (40%)} quando efe-
tuado pelo m´ınimo.
O grau de generalidade ´e uma func¸˜ao multiplicativa dada pela express˜ao G(d) =
Q
pj=1
G(d
j), onde G(d
j) varia de acordo com o tipo de vari´avel:
a. para vari´aveis cl´assicas, multi-valor (quantitativas ou categ´oricas) e intervalares,
G(d
j) =
Q
pj=1c(Vj)
c(Oj)
onde c(.) ´e definido pela amplitude do intervalo ou pelo n´umero
de valores ou categorias, respetivamente;
b. para vari´aveis modais e histograma G
1(d) =
P
k l=1 √ pl √ ke G
2(d) =
P
k l=1 √ 1−pl√
k(k−1)con-
siderando a generalizac¸˜ao pelo m´aximo ou pelo m´ınimo respetivamente, onde p
l,
l = 1, ..., k representa as probabilidades/ frequˆencias de cada categoria ou sub-
intervalo e k o n´umero de categorias ou sub intervalos da vari´avel.
Exemplo
Considere quatro grupos de pessoas caraterizadas pela vari´avel Y
1=idade, que toma
valores dos 15 aos 60 anos, ou seja, O
1= [15, 60], Y
2=sexo, O
2= {M, F }, Y
3=
nacionalidade, sendo O
3o conjunto de 15 diferentes nacionalidade da Uni˜ao Europeia, e
Tabela 4.5: Medida de generalidade: vers˜ao original
Idade Sexo Nacionalidade Profiss˜ao
Grupo 1 [20,30] {M} {Francesa} Professor (70%)
Gestor (30%)
Grupo 2 [35,45] {M} {Espanhola, Francesa} Professor (40%)
Economista (40%) Gestor (20%) Grupo 3 [37,55] {F} {Espanhola, Portuguesa} Professor (50%)
Economista (20%) Gestor (30%)
Grupo 4 [40,62] {M,F} {Italiana, Alem˜a} Professor (30%)
Economista (40%) Gestor (30%)
Seja A = {Grupo 1, Grupo 2} a classe a formar. A descric¸˜ao generalizada da classe A,
utilizando a generalizac¸˜ao pelo m´aximo para a vari´avel categ´orica modal ´e f
U(A) = d =
{[20, 45], {M}, {Francesa, Espanhola}, {Professores(0.7),Economistas(0.4), Gestores(0.3)}}.
A medida de generalidade ´e calculada de forma diferente para as diferentes vari´aveis. As-
sim tem-se que:
G(d
1) =
45−2060−15= 0.55 ; G(d
2) =
12= 0.5 ; G(d
3) =
152= 0.133 ;
G(d
4) =
√0.7+√√0.4+√0.3
3
= 1.164
A medida de generalidade ´e ent˜ao G(d) = 0.55 × 0.5 × 0.133 × 1.164 = 0.0426.
O m´etodo pode ent˜ao ser descrito pelo seguinte algoritmo: Sejam E = {ω
1, ..., ω
n}
o conjunto dos n objetos a analisar e d
(i)= (d
i1
, ..., d
ip) a descric¸˜ao associada a ω
i, i =
1, ..., n. O conjunto inicial ´e o conjunto de conceitos:
n(ω
i, d
(i)), i = 1, ..., n
o
. As clas-
ses s˜ao constru´ıdas recursivamente: em cada etapa, uma nova classe C ´e formada, por
agregac¸˜ao de classes pr´evias, C
αe C
β, C = C
α∪ C
β. Seja d = f (C), ent˜ao as classes a
1. C
αe C
βdevem estar agregadas segundo a estrutura de classificac¸˜ao escolhida
(hier´arquica ou pirˆamide);
2. g(d) = C, isto ´e, nenhum elemento de E que n˜ao pertence a C pertence `a extens˜ao
de d;
3. A generalidade de d ´e m´ınima.
Se nenhum par de classes (C
α, C
β) verifica as condic¸˜oes (1) e (2), o algoritmo efetua
a reuni˜ao de mais do que duas classes (adaptando as condic¸˜oes de agregac¸˜ao).
O conceito correspondente a uma nova classe formada ´e (C, d) = (C, f (C)) e cada
classe C ser´a indexada pelo valor da medida de generalidade de d = f (C), G(d) =
G(f (C)). O algoritmo termina quando o conceito (E, f (E)) ´e formado.
No documento
Análise Classificatória Conceptual de Dados Simbólicos: Uma abordagem com representação por intervalos
(páginas 32-37)