An´alise Classificat´oria Conceptual
de Dados Simb´olicos
Uma abordagem com representac¸˜ao por intervalos
Por
D´oris Daniela Ramos de S´a
Tese de Mestrado - Modelac¸˜ao, An´alise de Dados e
Sistemas de Apoio `a Decis˜ao
Orientada por
Professora Doutora Paula Brito
Nota Biogr´afica
D´oris Daniela Ramos de S´a ´e natural de Rebordosa, Paredes, onde nasceu a 17 de
Maio de 1983.
Estudou na Faculdade de Ciˆencias da Universidade do Porto onde completou a
Licen-ciatura em Matem´atica - Ramo Educacional em 2007.
Em 2008 inicia a atividade profissional como docente de Matem´atica do terceiro ciclo
e ensino secund´ario no ensino p´ublico portuguˆes.
Em 2012 ingressou no Mestrado de Modelac¸˜ao, An´alise de Dados e Sistemas de
Apoio `a Decis˜ao na Faculdade de Economia da Universidade do Porto.
Agradecimentos
´
E com imenso prazer que agradec¸o a ajuda recebida na realizac¸˜ao deste trabalho a
todos aqueles que me ajudaram a torn´a-lo poss´ıvel:
`
A Professora Doutora Paula Brito, a minha Orientadora, agradec¸o pela partilha de
co-nhecimento sobre o tema, pela dedicac¸˜ao que demonstrou, pela atenc¸˜ao aos pormenores,
pela sua disponibilidade e dedicac¸˜ao e pelas oportunas palavras de incentivo.
Aos meus pais por serem um modelo de vida, pelos valores transmitidos e pelo
cari-nho incondicional ao longo de todos estes anos.
Aos meus irm˜aos pela cumplicidade e pela verdadeira amizade em todos os momentos
e circunstˆancias.
`
A Laetitia, minha grande amiga, agradec¸o a incans´avel ajuda, o otimismo e a atenc¸˜ao
que me dedicou.
Ao Pedro, pelo companheirismo, pela paciˆencia, pelo incentivo e pelas constantes
pa-lavras de ˆanimo e motivac¸˜ao, indispens´aveis para levar a cabo este trabalho.
Ao meu filho Rodrigo, a quem dedico este trabalho, que nasceu no meio desta
aven-tura.
Resumo
Dados simb´olicos s˜ao mais complexos do que os dados tradicionais pelo facto
de apresentarem variabilidade interna. A An´alise de Dados Simb´olicos ´e, por isso,
mais complexa que a An´alise de Dados tradicionais. Muitos tˆem sido os m´etodos
propostos para an´alise de dados simb´olicos. Neste trabalho fez-se a implementac¸˜ao,
com recurso ao software R, do m´etodo de classificac¸˜ao hier´arquica conceptual de
dados simb´olicos proposto por Brito e Polaillon. Neste m´etodo, os conceitos s˜ao
obtidos por uma correspondˆencia de Galois com generalizac¸˜ao por intervalos, o que
permite lidar com diferentes tipos de vari´aveis num enquadramento comum. Para
quantificar a semelhanc¸a do conjunto de classes resultantes do m´etodo aqui
estu-dado e implementado com as classes obtidas por outros m´etodos j´a existentes para
an´alise de dados simb´olicos foi usado o ´ındice de Rand ajustado. O m´etodo proposto
por Brito e Polaillon revela-se uma ferramenta valiosa para a classificac¸˜ao de dados
simb´olicos.
Abstract
Symbolic Data are more complex than classical data by containing internal
vari-ability. Symbolic Data Analysis is, therefore, more complex than classical Data
Analysis. Many methods have been proposed for Symbolic Data Analysis. In this
work, a symbolic data conceptual clustering method, proposed by Brito and
Po-laillon, was implemented, using the software R. Concepts are obtained by a Galois
lattice with interval generalization, allowing handling different variable types within
a common framework. In order to quantify the similarity between classes resulting
from the method studied and implemented here and those resulting from other
ex-istent methods for symbolic data analysis the adjusted Rand index was used. The
method proposed by Brito e Polaillon has proven to be a valuable tool for symbolic
data clustering.
Conte ´udo
1
Introduc¸˜ao
1
1.1
Motivac¸˜ao . . . .
2
1.2
Problema a estudar . . . .
3
1.3
Organizac¸˜ao da Dissertac¸˜ao . . . .
3
2
An´alise de Dados Simb´olicos
4
3
Revis˜ao da literatura
11
3.1
Estado da arte . . . .
11
3.1.1
M´etodos de classificac¸˜ao para dados simb´olicos . . . .
12
3.1.2
M´etodos de classificac¸˜ao conceptual . . . .
13
3.2
M´etodos SCLUST e DIV . . . .
16
3.2.1
SCLUST . . . .
16
3.2.2
DIV . . . .
17
4
Classificac¸˜ao Ascendente Hier´arquica Simb´olica
19
4.1
Classificac¸˜ao Hier´arquica . . . .
19
4.2
Correspondˆencias de Galois
. . . .
20
4.3
M´etodo de Classificac¸˜ao Hier´arquica Simb´olica:
vers˜ao original
. . . .
22
4.4
Representac¸˜ao por intervalos . . . .
27
4.5
Novo m´etodo de classificac¸˜ao ascendente hier´arquica simb´olica
. . . . .
30
4.6
Exemplo de aplicac¸˜ao do m´etodo . . . .
31
5
Implementac¸˜ao do M´etodo
36
5.1
Preparac¸˜ao pr´evia dos dados . . . .
36
5.2
Implementac¸˜ao em R . . . .
37
6
Aplicac¸˜oes
41
6.1
´Indice de Rand . . . 41
6.2
Dados Carros . . . .
43
6.2.1
M´etodo implementado . . . .
43
6.2.2
DIV . . . .
46
6.2.3
SCLUST . . . .
48
6.2.4
HIPYR . . . .
50
6.2.5
An´alise dos resultados . . . .
51
6.3
Dados Emprego . . . .
53
6.3.1
M´etodo implementado . . . .
54
6.3.2
SCLUST . . . .
58
6.3.3
HIPYR . . . .
61
6.3.4
An´alise dos resultados . . . .
65
7
Conclus˜ao
66
Apˆendice A C´odigo R
72
Apˆendice B Relat´orio M´etodo implementado - Dados Carros
79
Apˆendice C Objetos Dados Emprego
84
Apˆendice D Relat´orio M´etodo implementado - Dados Emprego
88
Apˆendice E Classes formadas Dados Emprego
147
E.1
Classes formadas pelo m´etodo Implementado . . . 147
E.2
Classes formadas pelo m´etodo SCLUST . . . 151
Lista de Figuras
4.1
Hierarquia indexada obtida para as instituic¸˜oes de ensino . . . .
35
5.1
Conjunto de dados
. . . .
37
5.2
Tabela de parˆametros . . . .
38
6.1
Classificac¸˜ao hier´arquica indexada obtida pelo m´etodo implementado
-Dados Carros . . . .
44
6.2
Partic¸˜ao em 4 classes - Dados Carros . . . .
45
6.3
Prot´otipos cilindrada-prec¸o . . . .
49
6.4
Prot´otipos acelerac¸˜ao-velocidade m´axima . . . .
49
6.5
Classificac¸˜ao hier´arquica indexada obtida pelo m´etodo implementado
-Dados Emprego . . . .
55
Lista de Tabelas
2.1
Exemplo de tabela de dados simb´olicos - agregac¸˜ao temporal . . . .
5
2.2
Exemplo: conjunto de dados sobre instituic¸˜oes de ensino . . . .
5
2.3
Exemplo de tabela de dados simb´olicos - agregac¸˜ao contemporˆanea
. . .
5
2.4
Exemplo vari´avel intervalar . . . .
7
2.5
Exemplo vari´avel histograma . . . .
8
2.6
Exemplo vari´avel categ´orica modal . . . .
9
4.1
Dados bin´arios para o conjunto de planetas
. . . .
21
4.2
Vari´avel intervalar . . . .
23
4.3
Vari´avel Categ´orica . . . .
24
4.4
Vari´avel Modal . . . .
25
4.5
Medida de generalidade: vers˜ao original . . . .
26
4.6
Vari´avel Real . . . .
28
4.7
Vari´avel Categ´orica Modal . . . .
29
4.8
Vari´avel Categ´orica de valor singular e multi valor . . . .
29
4.9
Distribuic¸˜ao uniforme por categoria . . . .
30
4.10 Exemplo 3 - Medida de generalidade . . . .
31
4.11 Tabela de dados inicial . . . .
32
4.12 Descric¸˜ao das classes candidatas . . . .
32
4.13 Medidas de generalidade para as classes candidatas . . . .
33
4.14 Tabela de dados 2 . . . .
33
4.15 Segundo passo
. . . .
33
4.16 Tabela de dados 3 . . . .
34
4.17 Terceiro passo . . . .
34
6.1
Categoria dos carros
. . . .
43
6.2
Composic¸˜ao das 4 classes obtidas pelo m´etodo implementado - Dados
Carros . . . .
44
6.3
Composic¸˜ao das 2 classes obtidas pelo m´etodo implementado - Dados
Carros . . . .
46
6.4
Composic¸˜ao das 2 classes obtidas pelo m´etodo DIV - Dados Carros
. . .
47
6.5
Composic¸˜ao das 4 classes obtidas pelo m´etodo DIV - dados carros . . . .
47
6.6
Composic¸˜ao das 2 classes obtidas pelo m´etodo SCLUST - Dados Carros .
48
6.7
Composic¸˜ao das 4 classes obtidas pelo m´etodo SCLUST - Dados Carros .
48
6.8
Composic¸˜ao das 4 classes obtidas pelo m´etodo HIPYR - Dados Carros . .
50
6.9
´Indice de Rand ajustado obtido pela comparac¸˜ao das classes conhecidas
a priori
com as resultantes dos m´etodos - Dados Carros . . . .
51
6.10 ´Indice de Rand ajustado obtido pela comparac¸˜ao das classes formadas
pelos diferentes m´etodos - Dados Carros . . . .
51
6.11 ´Indice de Rand ajustado obtido pela comparac¸˜ao das classes formadas
Cap´ıtulo 1
Introduc¸˜ao
A An´alise de Dados Simb´olicos tem sido alvo de v´arios estudos resultando em
consi-der´aveis desenvolvimentos. Surge a partir da necessidade de considerar dados que
conte-nham informac¸˜ao que n˜ao pode ser representada dentro dos modelos de dados cl´assicos,
combinada com o objetivo de desenhar m´etodos que produzam resultados diretamente
interpret´aveis em termos de vari´aveis descritivas de entrada [33].
Na An´alise de Dados tradicional as unidades b´asicas sob an´alise s˜ao normalmente
indiv´ıduos singulares que s˜ao descritos por um conjunto de vari´aveis quantitativas e/ou
qualitativas, em que cada indiv´ıduo toma um ´unico valor para cada vari´avel. Os dados
s˜ao frequentemente organizados numa matriz de dados, em que cada c´elula (i, j) cont´em
o valor da vari´avel j para o indiv´ıduo i. Este modelo ´e, contudo, muito restrito para ter
em conta variabilidade e/ou incerteza que s˜ao frequentemente inerentes aos dados [33].
Quando os dados s˜ao analisados em grupo, em vez de se analisar um indiv´ıduo
singu-lar, ent˜ao a variabilidade intr´ınseca ao grupo deve ser tida em conta [33] (poder-se-´ıa ter
em considerac¸˜ao o valor m´edio ou a moda desse grupo de indiv´ıduos mas seria perdida
muita informac¸˜ao). Da mesma forma, se os dados forem obtidos por agregac¸˜ao
tempo-ral de observac¸˜oes individuais para obter descric¸˜oes de entidades com interesse ou se se
est´a diante de conceitos especificados por especialistas, ou colocados em evidˆencia por
agrupamento, est´a-se a lidar com elementos que j´a n˜ao podem ser convenientemente
des-critos pelas vari´aveis qualitativas e quantitativas habituais, sem uma inaceit´avel perda de
informac¸˜ao [20].
assumir outras formas de representac¸˜ao permitindo ter em considerac¸˜ao a variabilidade
intr´ınseca. Estes novos tipos de vari´aveis foram chamados vari´aveis simb´olicas, e podem
assumir m´ultiplos valores, possivelmente ponderados, em cada caso. O termo simb´olico
´e usado para salientar o facto de que os valores que tomam s˜ao de uma natureza diferente
[33].
A an´alise de dados simb´olicos ´e uma ferramenta onde a variabilidade observada pode
efetivamente ser considerada na representac¸˜ao de dados e os m´etodos podem ser
desen-volvidos tendo-a em considerac¸˜ao [33]. Tal como na an´alise cl´assica de dados, os dados
simb´olicos s˜ao apresentados sob a forma de uma matriz, agora designada tabela de
da-dos simb´olicos, em que cada coluna corresponde a uma vari´avel simb´olica [33]. Cada
c´elula da matriz n˜ao cont´em necessariamente um ´unico valor num´erico ou uma categoria,
podendo registar um intervalo, um conjunto de valores ou uma distribuic¸˜ao. ´
E ent˜ao
ne-cess´ario estender os m´etodos tradicionais de an´alise de dados `a tabela de dados simb´olicos
de forma a conseguir informac¸˜ao mais precisa e analisar/sumariar conjuntos de dados
ex-tensivos contidos em bases de dados [20].
1.1
Motivac¸˜ao
Ao contr´ario de dados cl´assicos, nos quais cada ponto de dados consiste num valor
sin-gular (categ´orico ou quantitativo), os dados simb´olicos podem, ent˜ao, conter variac¸˜ao
interna e podem ser estruturados. ´
E a presenc¸a desta variac¸˜ao interna que conduz `a
ne-cessidade de novas t´ecnicas de an´alise que no geral ir˜ao diferir das utilizadas nos dados
cl´assicos. Depressa se torna evidente que a variabilidade deve ser levada em conta quando
se analisa um conjunto de dados.
A extens˜ao das metodologias cl´assicas `a an´alise de dados simb´olicos levanta novos
problemas tais como que propriedades e definic¸˜oes de estat´ıstica b´asica ainda se mantˆem
v´alidas, quais as ferramentas de an´alise de dados tradicionais que ainda podem ser
utiliza-das, bem como qual a forma como se avalia a dispers˜ao e como se definem combinac¸˜oes
lineares entre dados simb´olicos.
A crescente necessidade de considerar dados que v˜ao al´em do modelo cl´assico tem
conduzido ao desenvolvimento da an´alise de dados simb´olicos. Assim, novas t´ecnicas
devem ser consideradas, desenvolvidas e testadas para suportar este novo tipo de dados
com resultados diretamente interpret´aveis em termos de vari´aveis descritivas de entrada.
1.2
Problema a estudar
Recentemente, Brito e Polaillon [9] [33] propuseram uma forma de representac¸˜ao
co-mum para vari´aveis de diferentes tipos (ordinais, reais, intervalares, distribucionais), que
permite um tratamento conjunto dos dados simb´olicos. Um m´etodo de classificac¸˜ao
hier´arquica foi proposto, baseado nessa representac¸˜ao comum [10].
Nesta dissertac¸˜ao, pretende-se estudar o m´etodo de classificac¸˜ao hier´arquica proposto
por Brito e Polaillon para an´alise de dados simb´olicos. Tem-se como objetivo
imple-mentar o referido m´etodo recorrendo ao software R. Os resultados ser˜ao comparados com
os fornecidos por outros m´etodos para classificac¸˜ao de dados simb´olicos. Ser˜ao usados
conjuntos de dados para estudar o comportamento do m´etodo.
1.3
Organizac¸˜ao da Dissertac¸˜ao
Esta dissertac¸˜ao ´e estruturada em sete cap´ıtulos. No primeiro vertem-se algumas
consi-derac¸˜oes sobre o tema, a sua importˆancia e a motivac¸˜ao do trabalho. No Cap´ıtulo 2 ´e
feita uma exposic¸˜ao sobre An´alise de Dados Simb´olicos destacando os diferentes tipos de
vari´aveis simb´olicas e s˜ao ainda apresentadas algumas ferramentas para a an´alise deste
tipo de dados. No Cap´ıtulo 3 ´e dado destaque `a revis˜ao da literatura sobre m´etodos de
classificac¸˜ao para dados simb´olicos e m´etodos de classificac¸˜ao conceptual. No Cap´ıtulo 4
´e detalhado o m´etodo a ser implementado, fazendo uma exposic¸˜ao dos conceitos te´oricos
para a sua compreens˜ao bem como o m´etodo original que, ap´os novas considerac¸˜oes, deu
origem ao m´etodo estudado nesta dissertac¸˜ao. No Cap´ıtulo 5 ´e detalhada a implementac¸˜ao
do m´etodo proposto. Seguidamente, no Cap´ıtulo 6 procede-se a aplicac¸˜ao do m´etodo
a alguns conjuntos de dados e posterior comparac¸˜ao com resultados obtidos por outros
m´etodos para an´alise de dados simb´olicos dispon´ıveis no software SODAS. Finalmente,
no Cap´ıtulo 7, s˜ao feitas algumas considerac¸˜oes finais sobre o m´etodo estudado numa
breve conclus˜ao.
Cap´ıtulo 2
An´alise de Dados Simb´olicos
Em muitas situac¸˜oes, a utilizac¸˜ao simplista de informac¸˜ao singular para cada unidade
de an´alise atrav´es de um conjunto de vari´aveis quantitativas e/ou qualitativas, onde cada
unidade assume um valor ´unico para cada vari´avel, ´e inadequada pois n˜ao permite ter em
conta a variabilidade e/ou incerteza inerente aos dados. Para colmatar esta situac¸˜ao, ´e
aconselh´avel a utilizac¸˜ao de dados simb´olicos, possibilitando a an´alise de um conjunto de
dados que podem ser descritos sob a forma de um intervalo, de um conjunto de valores
ou de uma distribuic¸˜ao.
Os dados simb´olicos s˜ao dados que contˆem variac¸˜ao interna. Podem surgir de
diferen-tes formas, sendo que a forma mais comum consiste na agregac¸˜ao de conjuntos de dados
cl´assicos. Devemos diferenciar dois diferentes tipos de agregac¸˜ao de dados [7]:
1. Agregac¸˜ao temporal: os dados s˜ao recolhidos ao longo do tempo para as mesmas
entidades. As observac¸˜oes devem ser agregadas considerando todo o conjunto de
valores ou as suas distribuic¸˜oes. Neste tipo de agregac¸˜ao, as unidades estat´ısticas
em an´alise s˜ao as mesmas antes e depois da agregac¸˜ao.
2. Agregac¸˜ao contemporˆanea: os dados s˜ao recolhidos no mesmo instante temporal
mas o interesse reside numa an´alise de entidades a um n´ıvel superior `aquele em
que os dados foram originalmente recolhidos. Neste tipo de agregac¸˜ao as
unida-des estat´ısticas em an´alise n˜ao s˜ao as mesmas dos dados originais mas s˜ao grupos
espec´ıficos destas.
caracteriza-Tabela 2.1: Exemplo de tabela de dados simb´olicos - agregac¸˜ao temporal
F´abricas N.ode objetos defeituosos F´abrica 1 [5,13]
F´abrica 2 [12,18] F´abrica 3 [3,14]
Tabela 2.2: Exemplo: conjunto de dados sobre instituic¸˜oes de ensino
Instituic¸˜ao Idade Estado Civil Categoria
Ant´onio 3 55 vi´uvo Docente
Maria 2 30 casada Limpeza
Carolina 1 27 solteira Docentes
Rodrigo 2 40 casado Administrac¸˜ao
Raquel 1 32 casada Docente
... ... ... ... ...
das pelo n´umero de amostras n˜ao conformes detetadas no controlo de qualidade di´ario.
Este n´umero varia de dia para dia sendo que esta variac¸˜ao pode ser representada por um
intervalo (ver Tabela 2.1).
Um exemplo do tipo de agregac¸˜ao contemporˆanea consiste na necessidade de estudar
as instituic¸˜oes de ensino de acordo com os seus funcion´arios. Para tal, disp˜oe-se de um
conjunto de dados dos funcion´arios destas instituic¸˜oes descritos pela idade, estado civil
e categoria do funcion´ario, descritos na Tabela 2.2. Na Tabela 2.3 tem-se os dados
agre-gados por Instituic¸˜ao de ensino; agora Idade ´e uma vari´avel intervalar, Estado civil uma
vari´avel categ´orica multi-valor e Categoria uma vari´avel categ´orica modal.
Na Tabela 2.3 pode ser observado, que as pessoas que trabalham na Instituic¸˜ao 1 tˆem
entre 20 e 45 anos, s˜ao solteiros ou casados e 30% deles trabalham na administrac¸˜ao,
Tabela 2.3: Exemplo de tabela de dados simb´olicos - agregac¸˜ao contemporˆanea
Idade Estado Civil Categoria
Instituic¸˜ao 1 [20,45] {solteiro,casado} Administrac¸˜ao (30%) Docentes (70%) Instituic¸˜ao 2 [30,50] {solteiro,casado} Administrac¸˜ao (20%)
Docentes (60%) Limpeza (20%) Instituic¸˜ao 3 [25,60] {solteiro,casado,vi´uvo} Administrac¸˜ao (20%)
enquanto que 70% s˜ao professores.
Uma tabela de dados simb´olicos pode conter informac¸˜ao de diferentes tipos de
vari´a-veis. Estas distinguem-se desde logo por serem num´ericas ou categ´oricas pois o sentido
matem´atico e as operac¸˜oes que poder˜ao ser aplicadas s˜ao consideravelmente diferentes.
Distinguem-se ainda diferentes tipos de vari´aveis num´ericas e categ´oricas a serem
consi-deradas.
Uma vari´avel quantitativa pode ser de valor singular (inteiro ou real) se assume um
´unico valor num dado dom´ınio por indiv´ıduo, de multi-valor se os seus valores s˜ao
sub-conjuntos finitos do dom´ınio, vari´avel intervalar se os seus valores s˜ao intervalos de
n´umeros reais e vari´avel histograma quando ´e dada uma distribuic¸˜ao emp´ırica sobre um
conjunto de sub-intervalos.
Uma vari´avel categ´orica pode assumir um valor singular (ordinal ou nominal), como
no contexto cl´assico, quando toma uma categoria de um conjunto finito, O = {m
1, ..., m
k}
para cada entidade, vari´avel categ´orica de multi-valor se os seus valores s˜ao
subconjun-tos finisubconjun-tos do dom´ınio O e vari´avel categ´orica modal que consiste numa vari´avel que
assume valores m´ultiplos onde, para cada elemento, ´e dado um conjunto de categorias m
le, para cada categoria, ´e dada a frequˆencia ou probabilidade que indica qu˜ao frequente
ou prov´avel essa categoria ´e para esse elemento. As vari´aveis simb´olicas podem ainda
tomar a forma de vari´aveis taxon´omicas, com categorias estruturadas hierarquicamente
ou incluir regras hier´arquicas.
Seja Y
1, ..., Y
po conjunto de vari´aveis, O
jo dom´ınio subjacente a Y
je B
jo espac¸o
de observac¸˜ao de Y
j, j = 1, ..., p. Uma descric¸˜ao ´e definida como um p-tupla (d
1, ..., d
p)
com d
j∈ B
j, j = 1, ..., p. Sendo E = {ω
1, ..., ω
n} o conjunto dos indiv´ıduos observados,
ent˜ao Y
j(ω
i) ∈ B
jpara j = 1, ..., p, i = 1, ..., n. Ent˜ao, a matriz de dados consiste em n
descric¸˜oes, uma para cada indiv´ıduo ω
i∈ E : (Y
1(ω
i), ..., Y
p(ω
i)), i = 1, ..., n.
Tipos de vari´aveis
Em [33] e [7] podem encontrar-se as definic¸˜oes de diferentes tipos de vari´aveis simb´olicas:
• Vari´aveis quantitativas de valor ´unico
valor ´unico Y ´e definida pela aplicac¸˜ao Y : E → O tal que ω
i7→ Y (ω
i) = c ∈
O ⊆ IR. Neste caso, B ´e idˆentico ao conjunto subjacente O, ou seja, B ≡ O.
• Vari´aveis quantitativas de valores m ´ultiplos
Dado um conjunto E, a vari´avel quantitativa de valores m´ultiplo Y ´e definida pela
aplicac¸˜ao Y : E → B tal que ω
i7→ Y (ω
i) = {c
i1, ..., c
ini}, onde B ´e o conjunto
dos subconjuntos finitos de um conjunto subjacente O ⊆ IR. Y (ω
i) ´e assim um
conjunto finito n˜ao vazio de n´umeros reais.
• Vari´aveis intervalares
Dado E = {ω
1, ..., ω
n}, uma vari´avel intervalar ´e definida pela aplicac¸˜ao Y : E →
B tal que ω
i7→ Y (ω
i) = [l
i, u
i], onde B ´e o conjunto de intervalos de um conjunto
subjacente O ⊆ IR. Seja I uma matriz n × p de representac¸˜ao dos valores de p
vari´aveis intervalares em E. Cada ω
i∈ E ´e representado como uma p-tupla de
intervalos, I
i= (I
i1, ..., I
ip), i = 1, ..., n com I
ij= [l
ij, u
ij], j = 1, ..., p. O valor de
uma vari´avel intervalar Y
jpara cada ω
i∈ E ´e normalmente definido pelos limites
inferior e superior l
ije u
ijde I
ij= Y
j(ω
i).
Um exemplo de uma vari´avel intervalar pode ser encontrada numa base de dados em
que se regista por escolas as notas obtidas pelos alunos no exame de Matem´atica.
Tabela 2.4: Exemplo vari´avel intervalar
Escola Notas
Escola A [10,19] Escola B [7,17] Escola C [8,18]
• Vari´aveis histograma
Quando dados de valor real s˜ao agregados em intervalos a informac¸˜ao da distribuic¸˜ao
dentro dos intervalos n˜ao ´e tida em conta. Uma forma de manter informac¸˜ao mais
detalhada ´e definir sub-intervalos entre os limites m´ınimo e m´aximo globais e
cal-cular as frequˆencias para esses intervalos. Obt´em-se assim, para cada caso, um
histograma com k classes onde k ´e o n´umero de sub-intervalos considerado.
Dado E = {ω
1, ..., ω
n}, uma vari´avel histograma ´e definida por uma aplicac¸˜ao Y :
E → B tal que ω
i7→ Y (ω
i) = {[I
i1, I
i1], p
i1, [I
i2, I
i2], p
i2; ...; [I
ik, I
ik], p
ik} onde
I
il= [I
il, I
il], l = 1, ..., k
is˜ao os sub-intervalos considerados para a observac¸˜ao ω
i,
p
i1+ ... + p
iki= 1. B ´e, neste caso, o conjunto de distribuic¸˜oes de frequˆencia em
{I
i1, ..., I
iki}. ´E assumido que para cada entidade ω
ios valores s˜ao uniformemente
distribu´ıdos dentro de cada intervalo. Para diferentes observac¸˜oes, o n´umero e
am-plitude dos sub-intervalos dos histogramas podem ser diferentes.
Exemplo: Considere que numa empresa de transportes p´ublicos ´e registado
diaria-mente o tempo (em minutos) com que os autocarros chegam atrasados a uma certa
paragem. A informac¸˜ao ´e recolhida em trˆes diferentes intervalos de tempo: de 0 a
5 min, de 5 a 10 min e de 10 a 15 minutos. Na Tabela 2.5 pode encontrar-se um
exemplo de uma vari´avel histograma.
Tabela 2.5: Exemplo vari´avel histograma
N.oautocarro Atrasos
Autocarro 1 [0,5[, 0.55; [5,10[, 0.25; [10,15[,0.20 Autocarro 2 [0,5[, 0.75; [5,10[, 0.2; [10,15[,0.05 Autocarro 3 [0,5[, 0.60; [5,10[, 0.20; [10,15[,0.20
• Vari´aveis categ´oricas de valor ´unico
Dado E = {ω
1, ..., ω
n} e um conjunto finito de categorias, O = {m
1, ..., m
k} uma
vari´avel categ´orica de valor ´unico ´e definida pela aplicac¸˜ao Y : E → O tal que
ω
i7→ Y (ω
i) = m
l. Neste caso B ≡ O.
• Vari´aveis categ´oricas multi valor
Uma vari´avel categ´orica multi valor ´e definida pela aplicac¸˜ao Y : E → B onde B ´e
o conjunto n˜ao vazio de subconjuntos de O = {m
1, ..., m
k}. Os ”valores”de Y (ω
i)
s˜ao agora conjuntos finitos de categorias.
• Vari´aveis categ´oricas modais
Uma vari´avel categ´orica modal Y com um dom´ınio subjacente finito O = {m
1, ..., m
k}
regis-tado um conjunto de categorias e para cada categoria m
l, um peso, frequˆencia ou
probabilidade p
lque indica qu˜ao frequente ou prov´avel ´e essa categoria para esse
elemento. Neste caso, B ´e o conjunto de distribuic¸˜oes sobre O e os seus elementos
s˜ao denotados por {m
1(p
1), ..., m
k(p
k)}.
Exemplo: Considere-se novamente o exemplo das escolas onde tamb´em ´e
reco-lhida informac¸˜ao sobre a avaliac¸˜ao dos professores. Neste caso, os professores tˆem
uma avaliac¸˜ao qualitativa em quatro categorias Regular, Bom, Muito bom e
Exce-lente. Na Tabela 2.6 pode-se encontrar um exemplo de uma vari´avel modal.
Tabela 2.6: Exemplo vari´avel categ´orica modal
Escolas Avaliac¸˜ao dos professores Escola A Regular (0%) Bom (70%) Muito Bom (25%) Excelente (5%) Escola B Regular (0%) Bom (75%) Muito Bom (20%) Excelente (5%) Escola C Regular (0%) Bom (80%) Muito Bom (17%) Excelente (3%)
Outro tipo de vari´aveis
Vari´aveis taxon´omicas
Uma vari´avel Y : E → O ´e uma vari´avel taxon´omica se O tem uma estrutura em
´arvore. Taxonomias devem ser consideradas na obtenc¸˜ao das descric¸˜oes dos dados
agre-gados: primeiro os valores s˜ao guardados como no caso das vari´aveis categ´oricas de
valores m´ultiplo e depois cada conjunto de valores de O ´e substitu´ıdo pelo menor valor h
na taxonomia cobrindo os valores do conjunto dado. Geralmente, sobe-se para o n´ıvel h
quando pelo menos dois sucessores de h est˜ao presentes.
Software para dados simb´olicos
O primeiro software a permitir a representac¸˜ao e an´alise de dados simb´olicos foi o
SO-DAS: Symbolic Official Data Analysis System, resultante do primeiro projeto de investigac¸˜ao
europeia sobre este tipo de dados (1996 a 1999). O objetivo deste projeto era facilitar o
uso de t´ecnicas de an´alise de dados simb´olicos demonstrando que cobrem v´arias
neces-sidades dos utilizadores. Este projeto foi seguido pelo projeto ASSO: Analysis System of
Symbolic Official data
(2001 a 2003) com o objetivo de desenhar novos m´etodos,
meto-dologias e ferramentas de software para extrac¸˜ao de conhecimento de dados complexos
multi-dimensionais do qual resultou o novo software SODAS2. Atualmente, existem
ou-tras alternativas incluindo pacotes para o software R, tais como MAINT.Data, symbolicDA,
RSDA
e SoDA.
Cap´ıtulo 3
Revis˜ao da literatura
3.1
Estado da arte
Neste cap´ıtulo ser´a apresentada uma vis˜ao global sobre alguns dos m´etodos de
classifi-cac¸˜ao existentes para dados simb´olicos, hier´arquicos e n˜ao hier´arquicos, assim como de
m´etodos de classificac¸˜ao conceptual.
Ao longo do tempo tem sido proposta uma grande variedade de m´etodos de
classi-ficac¸˜ao capazes de lidar com dados simb´olicos. Estes m´etodos podem ser divididos em
dois grupos [6], sendo que no primeiro se enquadram m´etodos que resultam da adaptac¸˜ao
de m´etodos de agrupamento tradicionais baseados em medidas de dissemelhanc¸as mas
aplicados aos novos tipos de dados. No segundo grupo, encontram-se os m´etodos que
utilizam explicitamente os dados no processo de agrupamento em vez de medidas de
dissemelhanc¸a, que s˜ao frequentemente chamados de m´etodos de classificac¸˜ao
concep-tual.
Esta divis˜ao n˜ao ´e espec´ıfica para os dados simb´olicos, por´em, devido `a variabilidade
inerente a este tipo de dados, a diferenc¸a entre os dois tipos de m´etodos tem consequˆencias
consider´aveis nos resultados da classificac¸˜ao. No entanto, os resultados obtidos entre os
m´etodos dos dois grupos n˜ao devem ser comparados uma vez que resultam de diferentes
conceitos daquilo que ´e uma classe.
O tipo de dados simb´olicos que mais tem sido estudado e cujos m´etodos tˆem
conhe-cido maiores desenvolvimentos s˜ao os dados intervalares.
3.1.1
M´etodos de classificac¸˜ao para dados simb´olicos
No que diz respeito a m´etodos de classificac¸˜ao para dados simb´olicos, muitos s˜ao os
m´etodos que tˆem sido propostos quer recorrendo a classificac¸˜ao hier´arquica como n˜ao
hier´arquica.
Fundamentados em adaptac¸˜oes de k-means ou m´etodo das nuvens dinˆamicas, tˆem
sido propostos v´arios m´etodos n˜ao hier´arquicos baseados em diferentes medidas de
dis-semelhanc¸a para dados intervalares (ver [19], [16] e [14]). Tˆem sido tamb´em
propos-tos m´etodos de classificac¸˜ao Fuzzy. Estes m´etodos para dados intervalares resultam da
adaptac¸˜ao do algoritmo c-means fuzzy tradicional, usando distˆancias apropriadas, como ´e
feito para os algoritmos crisp. Em [15] e [18] s˜ao ainda fornecidas ferramentas adicionais
de interpretac¸˜ao para classes fuzzy individuais de dados intervalares, adequadas a estes
modelos. Em [27] ´e apresentado um m´etodo de classificac¸˜ao RICA especialmente
desen-volvido para tratar de quest˜oes como os outliers, o n´umero de classes e da inicializac¸˜ao de
prot´otipos em m´etodos de classificac¸˜ao c-means fuzzy para dados intervalares simb´olicos.
Para dados com valores m´ultiplos, foi proposto o m´etodo n˜ao hier´arquico SCLUST
(ver [17]) especializado em dados simb´olicos, que est´a inclu´ıdo no software SODAS. Este
´e uma generalizac¸˜ao do m´etodo das nuvens dinˆamicas tradicional para classificar um
con-junto de conceitos num n´umero k de classes homog´eneas, que s˜ao definidas a priori,
ape-sar de existir um m´odulo que permite determinar o melhor valor de k. O m´etodo assenta
nos mesmos princ´ıpios do m´etodo cl´assico das nuvens dinˆamicas e determina
iterativa-mente uma s´erie de partic¸˜oes que melhoram em cada passo segundo um crit´erio que mede
o ajuste entre os prot´otipos das classes e os seus membros, que ´e aditivo nas vari´aveis e
nas classes e baseado em func¸˜oes de distˆancia. Este m´etodo pode ser aplicado a conjuntos
de dados com diferentes tipos de vari´aveis de forma isolada ou simultˆanea e admite dados
em falta. Este m´etodo encontra-se descrito com algum detalhe na Secc¸˜ao 3.2.1.
Tamb´em baseado no m´etodo das nuvens dinˆamicas ´e apresentado o m´etodo DCLUST
(ver [17]), assente numa matriz distˆancia que tem como objetivo o particionamento do
conjunto de dados num n´umero fixo k de classes homog´eneas com base nas proximidades
entre pares de conceitos ou indiv´ıduos do conjunto de dados. O crit´erio otimizado por
DCLUST ´e baseado na soma das dissemelhanc¸as (ou soma dos quadrados das distˆancias)
entre os elementos pertencentes a uma mesma classe. Este m´etodo est´a dispon´ıvel como
um pacote para o software R.
No que diz respeito a m´etodos de classificac¸˜ao hier´arquica espec´ıficos para dados
intervalares, n˜ao tˆem surgido tantos desenvolvimentos como no caso dos m´etodos de
classificac¸˜ao n˜ao hier´arquica. De forma geral, os m´etodos hier´arquicos tradicionais
po-dem ser aplicados a dados intervalares definindo uma matriz de dissemelhanc¸a entre as
entidades a serem classificadas para criar as partic¸˜oes. Em [25] ´e proposto um m´etodo de
classificac¸˜ao divisiva baseado em processos pontuais de Poisson n˜ao homog´eneos.
Para dados simb´olicos contendo tipos de vari´aveis que assumem m´ultiplos valores
tˆem sido tamb´em desenvolvidos outros m´etodos de classificac¸˜ao hier´arquica. Entre
es-tes podemos encontrar o m´etodo DIV: Divisive Classification of Symbolic Data [13]
que realiza uma hierarquia indexada de objetos simb´olicos (dados cl´assicos, intervalares,
probabil´ısticos e multi-valor baseados em dados cont´ınuos ou ordinais, n˜ao suportando
vari´aveis de tipo mistos). Comec¸a com os objetos compilados numa ´unica classe e divide
sucessivamente cada classe em classes menores de acordo com o crit´erio de variˆancia
dentro da classe, que ´e uma extens˜ao do crit´erio da soma dos quadrados para o caso de
uma matriz distˆancia. Cada divis˜ao ´e realizada de forma monot´etica, isto ´e, ´e baseada
ape-nas numa vari´avel e separa os objetos que mostrem valores espec´ıficos desta vari´avel dos
restantes objetos. O resultado do m´etodo DIV, que est´a dispon´ıvel no software SODAS, ´e
uma ´arvore de classificac¸˜ao. Este m´etodo encontra-se descrito na Secc¸˜ao 3.2.2.
No software SODAS2 pode ainda ser encontrado o m´etodo SHICLUST (ver [24]),
que estende os m´etodos de classificac¸˜ao hier´arquica tradicional (single linkage, complete
linkage, centroid
e Ward) a dados simb´olicos. Outro m´etodo ´e proposto em [8], baseado
em representac¸˜oes de quantis dos dados.
3.1.2
M´etodos de classificac¸˜ao conceptual
A classificac¸˜ao conceptual iniciou-se com Michalski (1980). Este prop˜oe (ver [31]) o
m´etodo CLUSTER onde os objetos s˜ao agrupados n˜ao apenas com base nas distˆancias
en-tre eles mas no conjunto de conceitos que est˜ao dispon´ıveis para descrever os objetos.
Pos-teriormente, Michalski e Stepp (ver [32]) propuseram o m´etodo CLUSTER/2: ´e gerada
uma partic¸˜ao inicial que ´e otimizada iterativamente tentando minimizar a sobreposic¸˜ao
entre classes.
Um dos m´etodos mais conhecidos de classificac¸˜ao conceptual ´e o m´etodo COBWEB
proposto por Fisher, em 1987, (ver [23]) que organiza de forma incremental as observac¸˜oes
numa ´arvore de decis˜ao, onde cada n´o representa um conceito e ´e etiquetado por um
con-ceito probabil´ıstico que resume a distribuic¸˜ao atributo-valor dos objetos classificados no
n´o. Por outras palavras, as classes s˜ao representadas probabilisticamente pela distribuic¸˜ao
de probabilidade dos valores do atributo para os membros de cada classe.
Em 2001, foi proposto o m´etodo SUBDUE (ver [28]). Este m´etodo assenta numa
representac¸˜ao gr´afica de informac¸˜ao estrutural combinada com uma t´ecnica de descoberta
de subestruturas. Utiliza uma variante de pesquisa heur´ıstica beam search com o objetivo
de encontrar a subestrutura que melhor concentra o gr´afico de entrada, como extens˜oes
`as subestruturas descobertas anteriormente. Os resultados mostram que o SUBDUE
en-contra com sucesso classes hier´arquicas tanto em dados estruturados como em dados n˜ao
estruturados.
Outro m´etodo proposto (ver [37]) ´e o m´etodo GCF (Generality-based Concept
For-mation) que se baseia em conceitos probabil´ısticos que associam uma probabilidade ou
peso a com cada propriedade da definic¸˜ao do conceito. Este apoia-se no modelo de
classificac¸˜ao hier´arquica e utiliza representac¸˜oes probabil´ısticas estendendo as ideias
tra-dicionais de generalidade/especificidade.
Outros m´etodos de classificac¸˜ao conceptual que tˆem sido propostos utilizam
corres-pondˆencias de Galois.
O m´etodo GALOIS, proposto por Carpineto e Romano (ver [12]) constr´oi hierarquias
conceptuais insens´ıveis `a ordem dos objetos. ´
E um algoritmo incremental que usa a teoria
de Galois para construir a estrutura de conceitos correspondente a um dado conjunto de
objetos. Este m´etodo assenta na ideia em que para encontrar os conceitos na estrutura
atu-alizada ´e suficiente considerar as intersec¸˜oes do novo objeto com os conceitos da estrutura
anterior. Isto ´e, para gerar os conceitos na estrutura atualizada n˜ao ´e necess´ario intersectar
o novo objeto com todas as poss´ıveis combinac¸˜oes dos objetos anteriores. Assim, o
algo-ritmo centra-se na adic¸˜ao das intersecc¸˜oes do novo objeto com os conceitos antigos e os
seus limites relativos `a estrutura. No entanto, examinar cada n´o na estrutura de forma
in-dependente e depois para cada intersecc¸˜ao com o novo objeto implica um grande esforc¸o
computacional. Por isso, este m´etodo explora a estrutura de conceitos para evitar essas
operac¸˜oes.
Em 2002 ´e introduzido a ideia de estruturas de conceitos de iceberg (ver [36]) que se
baseia apenas nos conceitos mais frequentes da estrutura. Estruturas de iceberg
consti-tuem um m´etodo de classificac¸˜ao conceptual adequado para analisar conjuntos de dados
de grande dimens˜ao e s˜ao baseadas na teoria de An´alise Formal de Conceitos. ´
E
apresen-tado o m´etodo TITANIC para calcular este novo conceito de estruturas que utiliza uma
func¸˜ao ponderada para obter a intens˜ao, isto ´e, obter a descric¸˜ao de uma classe e
partici-ona o conjunto de geradores em classes de equivalˆencia onde todos os elementos de uma
classe originam a mesma intens˜ao.
Ainda em 2002, ´e proposto o m´etodo GAL´ICIA (ver [38] ). Este ´e um m´etodo
incre-mental que utiliza tamb´em estruturas como forma de encontrar os subconjuntos
frequen-tes. Comec¸a por considerar um contexto formal sem objetos, com o conjunto de atributos
definido e, em cada iterac¸˜ao, o m´etodo simula a adic¸˜ao de um novo objeto ao contexto e
verifica as modificac¸˜oes necess´arias para que a estrutura seja preservada.
Brito desenvolve em [2] e [3] um m´etodo de classificac¸˜ao conceptual hier´arquica/
pira-midal (HIPYR) vocacionado para dados simb´olicos com a possibilidade de tratar vari´aveis
de diferentes tipos. O crit´erio que conduz `a formac¸˜ao de classes ´e a dualidade
intens˜ao-extens˜ao em que cada classe da hierarquia deve corresponder a um conceito, isto ´e, cada
classe que ´e uma parte do conjunto dos objetos ´e representada por uma descric¸˜ao cuja
extens˜ao ´e a classe propriamente dita. A descric¸˜ao deste m´etodo pode ser encontrada na
Secc¸˜ao 4.3.
Mais recentemente, Brito e Polaillon [10], prop˜oem um enquadramento comum para
representar e operar com dados ordinais, num´ericos de valor singular ou intervalares
e dados categ´oricos modais, definindo um operador de generalizac¸˜ao que determina as
descric¸˜oes na forma de intervalos. Esta abordagem foi aplicada `a metodologia de
classi-ficac¸˜ao definida anteriormente conduzindo ao m´etodo que ser´a implementado e analisado
neste trabalho e que ´e detalhado no Cap´ıtulo 4.
3.2
M´etodos SCLUST e DIV
Os m´etodos SCLUST e DIV ser˜ao usados no Cap´ıtulo 6 deste trabalho como referˆencia
para comparar as classes formadas pelo m´etodo aqui estudado e implementado. Assim
nesta secc¸˜ao estes m´etodos ser˜ao descritos formalmente. Ser´a ainda utilizado como
re-ferˆencia o m´etodo HIPYR que se encontra detalhado na Secc¸˜ao 4.3, uma vez que ´e neste
que o novo m´etodo estudado se baseia.
3.2.1
SCLUST
O m´etodo SCLUST segue a filosofia geral do m´etodo das k-m´edias de MacQueen [30]
ou das Nuvens Dinˆamicas de Diday [22]. O m´etodo baseia-se na aplicac¸˜ao alternada de
uma func¸˜ao de representac¸˜ao e de uma func¸˜ao de alocac¸˜ao. O esquema geral do m´etodo
de classificac¸˜ao dinˆamica simb´olica SCLUST assenta nos seguintes princ´ıpios [21]:
• Inicializac¸˜ao: Seja P
(0)= {P
(0) 1, ..., P
(0)
k
} uma partic¸˜ao aleat´oria inicial de E em
k classes.
• Passo de representac¸˜ao t: Para i = 1, ..., k , calcular um prot´otipo g
i(t)como objeto
simb´olico que representa a classe P
i∈ P
(t).
• Passo de alocac¸˜ao t: Qualquer elemento ω ∈ E ´e atribu´ıdo `a classe P
ise e s´o se
ψ(ω, g
i) ´e um m´ınimo: P
(t+1)i
= {ω ∈ E|i = argmin{ψ(ω, g
i)/l = 1, ..., k}, onde
ψ(ω, g
i) ´e R(d(c), d(g
i)) sendo R uma relac¸˜ao entre descric¸˜oes, que pode ser uma
medida de distˆancia.
• Regra de paragem ou estabilidade: Se P
(t+1)= P
(t)ent˜ao o algoritmo termina,
sen˜ao volta ao passo de representac¸˜ao.
O crit´erio ∆(P, L) otimizado (localmente) pelo m´etodo de classificac¸˜ao dinˆamica ´e
aditivo no que diz respeito `as vari´aveis descritoras dos dados. ´
E proposto definir o crit´erio
∆(P, L) como a soma da func¸˜ao de alocac¸˜ao ψ(ω, g
i) para cada elemento pertencente a
uma classe P
i∈ P e o respetivo prot´otipo g
i∈ Λ: ∆(P, L) =
kP
i=1P
c∈Piψ(c, g
i).
Podem ser distinguidas duas formas principais de representar uma classe: um prot´otipo
expresso por um elemento singular da classe (por exemplo o elemento da distˆancia m´edia
m´ınima de todos os elementos da classe, tal como pelo elemento que minimiza a func¸˜ao
crit´erio) ou um prot´otipo escolhido como func¸˜ao de sumarizac¸˜ao dos elementos da classe.
No ´ultimo caso, o prot´otipo pode estar adequadamente modelizado por um objeto
simb´o-lico modal [11]. A descric¸˜ao de um objeto simb´osimb´o-lico modal ´e dada pelas distribuic¸˜oes de
frequˆencia ou probabilidade associadas `as categorias ou sub-intervalos dos p descritores.
As distˆancias utilizadas variam de acordo com os tipos de vari´aveis: para dados
quan-titativos de valor real ´e utilizada a distˆancia Euclideana, para dados quanquan-titativos multi
valor e intervalares ´e utilizada a distˆancia de Hausdorff, para dados categ´oricos de valor
singular ´e utilizada a distˆancia do χ-quadrado, para dados categ´oricos multi valor ´e
utili-zada a distˆancia de De Carvalho e para dados distribucionais a distˆancia cl´assica φ
2(ver
[17]).
Quando as vari´aveis s˜ao de diferente tipos, o m´etodo apresenta duas abordagens para
calcular a medida de dissemelhanc¸a global: combinac¸˜ao linear ponderada das medidas de
dissemelhanc¸a de cada vari´avel ou categorizac¸˜ao dos dom´ınios para transformar todas as
vari´aveis num mesmo tipo.
3.2.2
DIV
O m´etodo de classificac¸˜ao DIV [11] procede de forma descendente comec¸ando com E, o
conjunto a ser classificado, e realiza uma partic¸˜ao de uma classe em cada passo. No passo
m ´e apresentada uma partic¸˜ao de E em m classes, uma das quais ser´a seguidamente
dividida em duas sub-classes. A classe a ser dividida e a regra de divis˜ao s˜ao escolhidas
de forma a obter uma partic¸˜ao em m + 1 classes minimizando a dispers˜ao dentro das
classes.
Para avaliar uma dada partic¸˜ao P
m= {C
(m)1
, C
(m)
2
, ..., C
m(m)} ´e utilizado um crit´erio
Q(m) que ´e a soma da dispers˜ao interna de cada classe: Q(m) =
P
Kα=1
I(C
α) =
KP
α=1P
ωi,ωi0∈C (m) αD
2(ω
i
, ω
i0) onde D
2(ω
i, ω
i0) varia com o tipo de vari´aveis.
No caso de um conjunto de dados quantitativo temos D
2(ω
i
, ω
i0) =
pP
j=1d
2(x
ij, x
i0j).
Para dados intervalares, d ´e a distˆancia de Hausdorff aplicada ao caso particular dos
intervalos. Sejam x
ije x
i0jdois intervalos [l
ij, u
ij] e [l
i0j, u
i0j], ent˜ao d(x
ij, x
i0j) =
corresponde `a diferenc¸a absoluta entre os valores das vari´aveis.
No caso de um conjunto de dados categ´orico, as vari´aveis tˆem um enquadramento
co-mum sejam modais ou multi valor. Sejam Y
1, ..., Y
pas p vari´aveis categ´oricas e O
1, ..., O
pos respetivos dom´ınios subjacentes. Ent˜ao, Y
j(ω
i) ´e um conjunto de categorias de O
jou a frequˆencia de distribuic¸˜ao em O
j. Em qualquer dos casos, ´e Y
j(ω
i) ´e
represen-tado por uma distribuic¸˜ao de frequˆencia que ´e uniforme no caso de vari´aveis categ´oricas
multi valor. Desta forma, a matriz de dados original ´e transformada numa matriz de
frequˆencias. Para comparar dois objetos ω
ie ω
i0de E ´e utilizada como distˆancia D a
distˆancia φ
2: D
2(ω
i, ω
i0) =
tP
j=1 p.. p.j p ij pi.−
pi0j pi0. 2onde t representa o n´umero total de
cate-gorias, p
ij=
fij np, p
i.=
tP
j=1p
ij, p
.j=
nP
i=1p
ije p
..=
nP
i=1 tP
j=1p
ij= 1 .
Em cada passo do algoritmo, uma classe ´e escolhida para ser dividida em duas
sub-classes de forma a que Q(m + 1) seja minimizado ou que, de forma equivalente, Q(m) −
Q(m + 1) seja maximizado.
Cap´ıtulo 4
Classificac¸˜ao Ascendente Hier´arquica
Simb´olica
Este cap´ıtulo apresenta o m´etodo de classificac¸˜ao conceptual hier´arquica para dados
sim-b´olicos, inicialmente proposto em [2] e posteriormente reformulado em [10], onde cada
classe formada corresponde a um conceito, isto ´e, a um par (extens˜ao, intens˜ao). Os
con-ceitos s˜ao obtidos por uma correspondˆencia de Galois com generalizac¸˜ao por intervalos,
o que permite lidar com diferentes tipos de vari´aveis num enquadramento comum.
4.1
Classificac¸˜ao Hier´arquica
A An´alise Classificat´oria ´e uma t´ecnica explorat´oria de an´alise multivariada que tem como
objetivo agrupar os objetos em classes de modo que os grupos sejam homog´eneos ou
compactos relativamente a uma ou mais caracter´ısticas. O objetivo ´e que cada elemento
pertencente a uma determinada classe seja similar a todos os elementos dessa classe e
diferente dos pertencentes a outra classe.
As classes podem ser organizadas segundo diferentes estruturas. Neste trabalho,
interessamo-nos por um m´etodo de classificac¸˜ao hier´arquica aglomerativo. Estes
recor-rem a passos sucessivos de agregac¸˜ao dos sujeitos considerados individualmente, isto ´e,
cada objeto forma inicialmente uma classe e v˜ao sendo agrupados de acordo com as suas
proximidades.
vazios h, h
0, ..., de E tal que:
∀ω ∈ E : {ω} ∈ H
E ∈ H
∀h, h
0∈ H : h ∩ h
0= φ ou h ⊆ h
0ou h
0⊆ h
Frequentemente um valor real n˜ao negativo ´e associado a cada classe, caracterizando
a sua heterogeneidade. Uma hierarquia indexada ou dendrograma ´e um par (H, f ), onde
H ´e uma hierarquia e f uma func¸˜ao f : H → IR
+tal que:
i. f (h) = 0 ⇔ card(h) = 1 (onde card(h) representa a cardinalidade de h)
ii. h ⊂ h
0⇒ f (h) ≤ f (h
0).
Uma classe h ∈ H ´e dito ser um sucessor de uma classe h
0∈ H se h ⊆ h
0e n˜ao
existe uma classe h
00∈ H, h
006= h, h
006= h
0, tal que h ⊂ h
00⊂ h
0. h
0´e ent˜ao dito ser um
predecessor de h. Numa hierarquia, cada classe tem no m´aximo um predecessor [21].
Uma classificac¸˜ao ascendente hier´arquica parte das classes singulares e re´une em cada
etapa as classes reun´ıveis para as quais a dissemelhanc¸a ´e m´ınima. Duas classes s˜ao
reun´ıveis se e s´o se nenhuma delas foi j´a reunida anteriormente. ´
E definido um ´ındice de
dissemelhanc¸a entre as classes (´ındice de agregac¸˜ao) que permite escolher quais as duas
classes a reunir em cada etapa.
4.2
Correspondˆencias de Galois
Seja E = {ω
1, ..., ω
n} o conjunto de n objetos descritos por p vari´aveis Y
1, ..., Y
p.
Sejam (A, ≤
1) e (B, ≤
2) dois conjuntos parcialmente ordenados. Uma
correspon-dˆencias de Galois ´e um par (f, g), onde f ´e a aplicac¸˜ao f : A → B, g ´e a aplicac¸˜ao
g : B → A, tal que f e g s˜ao ant´ıtonas e ambas as aplicac¸˜oes h = g ◦ f e h
0= f ◦ g s˜ao
extensivas; h e h
0s˜ao ent˜ao operadores de fecho [9].
Em An´alise de Dados, as correspondˆencias de Galois foram introduzidas da seguinte
forma, para dados bin´arios: a aplicac¸˜ao f define a intens˜ao de um conjunto S ⊆ E, f (S) ´e
o conjunto de todos os atributos comuns a todos os elementos de S e a aplicac¸˜ao g permite
a obtenc¸˜ao da extens˜ao em E associada a um conjunto de atributos T ⊆ O, onde g(T )
corresponde ao conjunto de todos os elementos de E que possuem todos os atributos de
T , sendo O ´e o conjunto de atributos (bin´arios) considerado. O par (f, g) constitui ent˜ao
uma correspondˆencia de Galois entre (P (E), ⊆) e (P (O), ⊆). Um conceito ´e definido
como um par (S, T ) onde S ⊆ E, T ⊆ O, S = g(T ) e T = f (S), isto ´e, h(S) = S; S ´e a
extens˜ao do conceito e T a sua intens˜ao [9].
Exemplo
Considere-se o conjunto dos planetas caraterizados pelo tamanho (pequeno, m´edio ou
grande), pela distˆancia ao Sol (perto ou longe) e pela existˆencia de luas (sim ou n˜ao).
Tabela 4.1: Dados bin´arios para o conjunto de planetas
Planetas Tamanho Distˆancia ao Sol Luas
Pequeno m´edio grande perto longe sim n˜ao
Terra x x x J´upiter x x x Marte x x x Merc´urio x x x Neptuno x x x Plut˜ao x x x Saturno x x x Urano x x x V´enus x x x
Sejam A = {Terra, Marte} e B = {pequeno, perto, luas(sim)}. A intens˜ao de A
´e dada por f (A) = {pequeno, perto, luas(sim)}. A extens˜ao de B ´e g(B) = {Terra,
Marte}. Temos que g(f (A)) = g({pequeno, perto, luas(sim)}) = {Terra, Marte} = A e
f (g(A)) = f ({Terra, Marte}) = {pequeno, perto, luas(sim)} = B. O par (A, B) ´e ent˜ao
um conceito. A ´e a extens˜ao e B a intens˜ao do conceito.
No contexto da An´alise de Dados Simb´olicos, em que Y
j: E → B
j, j = 1, .., p,
seja D = B
1× B
2× ... × B
po conjunto de todas as poss´ıveis descric¸˜oes (D, ≤); para
uma ordem parcial apropriada em D. Em An´alise de Dados Simb´olicos, a aplicac¸˜ao f :
P (E) → D define a intenc¸˜ao d ∈ D de um conjunto S ⊆ E, e a aplicac¸˜ao g : D → P (E)
permite obter a extens˜ao em E associada a uma descric¸˜ao d ∈ D.
4.3
M´etodo de Classificac¸˜ao Hier´arquica Simb´olica:
vers˜ao original
Em [2] foi proposto um m´etodo de classificac¸˜ao hier´arquica/piramidal conceptual
as-cendente para dados simb´olicos. Neste trabalho ser´a apenas analisada a classificac¸˜ao
hier´arquica.
O m´etodo permite considerar como entrada um conjunto de dados simb´olicos onde
cada elemento ´e descrito por vari´aveis simb´olicas com a possibilidade de ter vari´aveis
de diferentes tipos. O crit´erio que conduz `a formac¸˜ao de classes ´e a dualidade
intens˜ao-extens˜ao: cada classe da hierarquia deve corresponder a um conceito, isto ´e, cada classe
que ´e uma parte de E ´e representada por uma descric¸˜ao cuja extens˜ao ´e a classe
propria-mente dita.
O m´etodo pode ser resumido da seguinte forma: para cada candidato a classe, ´e
cons-tru´ıda uma descric¸˜ao, generalizando as descric¸˜oes correspondentes `as classes a serem
agrupadas e uma classe candidata ´e eleg´ıvel apenas se esta nova descric¸˜ao cobrir todos os
elementos da classe e nenhum outro. Cada classe formada fica associada a uma conjunc¸˜ao
de propriedades nas vari´aveis descritivas, que constituem uma condic¸˜ao necess´aria e
su-ficiente para ades˜ao `a classe. Para escolher entre as diferentes agregac¸˜oes que re´unem
a condic¸˜ao acima, um grau de generalidade avalia a proporc¸˜ao do espac¸o coberto pela
descric¸˜ao considerada e a agregac¸˜ao que apresenta generalidade m´ınima ´e a classe a ser
formada.
Uma medida de generalidade permite quantificar a generalidade de uma descric¸˜ao,
permitindo assim escolher de entre as agregac¸˜oes poss´ıveis de uma dada etapa. O princ´ıpio
ser´a que as classes associadas a conceitos mais espec´ıficos devem ser formadas antes.
Escolhe-se ent˜ao, de entre as classes que podem ser formadas, aquela cuja intenc¸˜ao do
conceito associado apresenta uma menor generalidade.
A formac¸˜ao de um novo conceito implica a determinac¸˜ao da sua intens˜ao na forma de
uma descric¸˜ao que deve generalizar os objetos associados aos conceitos que s˜ao
agrupa-dos. O processo de generalizac¸˜ao das classes difere de acordo com o tipo de vari´avel:
a. Vari´aveis intervalares
Sejam Y
1, ..., Y
pas p vari´aveis reais ou intervalares, Y
j(ω
i) = [l
ij, u
ij]
(eventual-mente l
ij= u
ij) e A = {ω
1, ..., ω
h} ⊆ E. A generalizac¸˜ao pela uni˜ao ´e definida por
f
U: P (E) → I
p, onde I ´e o conjunto de intervalos de IR, com a ordem de inclus˜ao,
tal que f
U(A) = (I
1, ..., I
p), I
j= [M in{l
ij}, M ax{u
ij}], ω
i∈ A, j = 1, ..., p, isto
´e, I
j´e o menor intervalo que cont´em todos os valores tomados pelos elementos de
A para Y
j. A aplicac¸˜ao g
U: I
p→ P (E) que d´a a extens˜ao de uma descric¸˜ao, ´e
g
U((I
1
, ..., I
p)) = {ω
i∈ E : Y
j(ω
i) ⊆ I
j, j = 1, ..., p}. O par (f
U, g
U) constitui
uma correspondˆencia de Galois [4].
Exemplo:
Considere quatro hospitais para os quais foram recolhidos dados relativos ao tempo
de espera dos doentes para serem atendidos no servic¸o de urgˆencias, medido em
minutos (vari´avel intervalar).
Tabela 4.2: Vari´avel intervalar
Tempo Hospital 1 [20,40] Hospital 2 [35,50] Hospital 3 [25,60] Hospital 4 [10,30]
A descric¸˜ao generalizada da classe A = {Hospital 1, Hospital 2} ´e f
U(A) =
{[20, 50]}, que descreve os hospitais em que o tempo de espera para atendimento
nos servic¸os de urgˆencia varia entre os 20 e os 50 minutos.
b. Vari´aveis Categ´oricas de Valor ´
Unico e Multi Valor
Sejam Y
1, ..., Y
pas p vari´aveis categ´orica multi valor com dom´ınio subjacente O
j=
{m
1, ..., m
k}, Y
j(w
h) = V
hjcontido em O
je A = {ω
1, ..., ω
h} ⊆ E. A generalizac¸˜ao
´e efetuada pela uni˜ao das descric¸˜oes dos elementos que a constituem. Esta ´e
defi-nida por aplicac¸˜oes f
U: P (E) → D tal que f
U(A) = (d
1
, ..., d
p) onde d
j=
S
qmenor conjunto que cont´em todas as categorias observadas na classe. A aplicac¸˜ao
g
U: D → E que d´a a extens˜ao de uma descric¸˜ao, ´e g
U((d
1
, ..., d
p)) = {ω ∈ E :
V
hj⊂ ω
j, j = 1, ..., p, h = 1, ..., n}. O par (f
U, g
U) constitui uma correspondˆencia
de Galois.
Exemplo
Considere 2 grupos de pessoas descritos pelo sexo (masculino ou feminino) e pela
nacionalidade (Tabela 4.3).
Tabela 4.3: Vari´avel Categ´orica
Sexo Nacionalidade Grupo 1 {M} {Francesa, Portuguesa} Grupo 2 {M,F} {Espanhola, Portuguesa}
A descric¸˜ao generalizada da classe A = {Grupo 1, Grupo 2} ´e f
U(A) = ({M, F },
{ Francesa, Espanhola, Portuguesa}).
c. Vari´aveis Categ´oricas Modais e Vari´aveis Histograma
Sejam Y
1, ..., Y
pas p vari´aveis categ´orica modais ou histograma, O
j= {m
j1, ..., m
jk}
o conjunto das modalidades ou categorias ou sub-intervalos da vari´avel Y
j. Sem
perda de generalidade, O
jpode ser um conjunto de sub-intervalos, com m
h= I
h=
[I
h, u
h] e Y
jser´a uma vari´avel histograma. Para as vari´aveis Y
je ω
i∈ E temos
que Y
j(ω
i) = {m
j1(p
(i) j1), ..., m
jkj(p
(i) jkj)}, onde (p
(i) jkl) ´e a probabilidade/frequˆencia
associada `a modalidade ou sub-intervalo m
jlda vari´avel Y
je ao elemento ω
i. A
descric¸˜ao generalizada ´e efetuada pelo m´aximo ou pelo m´ınimo considerando-se
para cada uma das categorias o m´aximo ou o m´ınimo das suas probabilidades/
frequˆencias, respetivamente. Para A = {ω
1, ..., ω
h} ⊆ E, a generalizac¸˜ao ´e
efetu-ada por f
U: P (E) → M tal que f
U(A) = (d
1, ..., d
p) onde d
j= ({m
1(p
1), ..., m
k(p
k)})
onde p
l= max{p
lh, h = 1, ..., q}, l = 1, ..., k ou d
j= ({m
1(p
1), ..., m
k(p
k)}) onde
p
l= min{p
lh, h = 1, ..., q}, l = 1, ..., k, efetuado pelo m´aximo ou pelo m´ınimo,
Exemplo
Considere 2 grupos de pessoas descritas pela sua profiss˜oes, tal como descrito na
Tabela 4.4.
Tabela 4.4: Vari´avel Modal
Profiss˜ao Grupo 1 Professores (70%) Gestores (30%) Grupo 2 Gestores (20%) Economistas (40%) Professores (40%)
A descric¸˜ao generalizada da classe A = {Grupo 1, Grupo 2} ´e f
U(A) = {Gestores
(30%), Economistas (40%), Professores (70%)}, quando efetuado pelo m´aximo, e
f
U(A) = {Gestores (20%), Economistas (40%), Professores (40%)} quando
efe-tuado pelo m´ınimo.
O grau de generalidade ´e uma func¸˜ao multiplicativa dada pela express˜ao G(d) =
Q
pj=1
G(d
j), onde G(d
j) varia de acordo com o tipo de vari´avel:
a. para vari´aveis cl´assicas, multi-valor (quantitativas ou categ´oricas) e intervalares,
G(d
j) =
Q
pj=1c(Vj)
c(Oj)
onde c(.) ´e definido pela amplitude do intervalo ou pelo n´umero
de valores ou categorias, respetivamente;
b. para vari´aveis modais e histograma G
1(d) =
P
k l=1 √ pl √ ke G
2(d) =
P
k l=1 √ 1−pl√
k(k−1)con-siderando a generalizac¸˜ao pelo m´aximo ou pelo m´ınimo respetivamente, onde p
l,
l = 1, ..., k representa as probabilidades/ frequˆencias de cada categoria ou
sub-intervalo e k o n´umero de categorias ou sub sub-intervalos da vari´avel.
Exemplo
Considere quatro grupos de pessoas caraterizadas pela vari´avel Y
1=idade, que toma
valores dos 15 aos 60 anos, ou seja, O
1= [15, 60], Y
2=sexo, O
2= {M, F }, Y
3=
nacionalidade, sendo O
3o conjunto de 15 diferentes nacionalidade da Uni˜ao Europeia, e
Tabela 4.5: Medida de generalidade: vers˜ao original
Idade Sexo Nacionalidade Profiss˜ao
Grupo 1 [20,30] {M} {Francesa} Professor (70%)
Gestor (30%)
Grupo 2 [35,45] {M} {Espanhola, Francesa} Professor (40%)
Economista (40%) Gestor (20%) Grupo 3 [37,55] {F} {Espanhola, Portuguesa} Professor (50%)
Economista (20%) Gestor (30%)
Grupo 4 [40,62] {M,F} {Italiana, Alem˜a} Professor (30%)
Economista (40%) Gestor (30%)
Seja A = {Grupo 1, Grupo 2} a classe a formar. A descric¸˜ao generalizada da classe A,
utilizando a generalizac¸˜ao pelo m´aximo para a vari´avel categ´orica modal ´e f
U(A) = d =
{[20, 45], {M}, {Francesa, Espanhola}, {Professores(0.7),Economistas(0.4), Gestores(0.3)}}.
A medida de generalidade ´e calculada de forma diferente para as diferentes vari´aveis.
As-sim tem-se que:
G(d
1) =
45−2060−15= 0.55 ; G(d
2) =
12= 0.5 ; G(d
3) =
152= 0.133 ;
G(d
4) =
√0.7+√√0.4+√0.3
3
= 1.164
A medida de generalidade ´e ent˜ao G(d) = 0.55 × 0.5 × 0.133 × 1.164 = 0.0426.
O m´etodo pode ent˜ao ser descrito pelo seguinte algoritmo: Sejam E = {ω
1, ..., ω
n}
o conjunto dos n objetos a analisar e d
(i)= (d
i1