de Informação de Estatísti as O iais:
Análise do Inquérito à O upação do Tempo
por
Vera MariaFernández de Campos
Dissertação apresentada omo requisito
par ialpara a obtenção dograu de
Mestre em Estatísti ae Gestão daInformação
pelo
Instituto Superior de Estatísti a eGestão daInformação
da
MariaPaula Brito
Fa uldade de E onomia daUniversidade doPorto
Sob a o-orientação de
Carlos Mar elo
Instituto Na ionalde Estatísti a
Ao nalizar a elaboração desta dissertação gostaria de agrade er a todos os que
ontribuírampara queeste trabalhofosse on luído.
Gostariade agrade er espe ialmenteà Professora Paula Brito aforma omo orientou
o meu trabalhoe aforma omo sempre me re ebeu e estimulou.
Finalmente, um agrade imentoaoDr. CarlosMar elo pelaorientaçãoque medeu na
Pretende-se om opresentetrabalhoestudareapli arasté ni as daAnálisede Dados
Simbóli os. O tema tem omo obje tivo des rever e estudar métodos de Análise de
Dados Simbóli os e a sua apli açãonas Estatísti as O iais. Como apli açãopráti a
é analisado o estudo do Inquérito à O upação do Tempo, realizado pelo INE. Neste
trabalho faz-se uma exposição dos on eitos gerais da Análise de Dados Simbóli os,
nomeadamente os on eitos bási os, os tipos de variáveis simbóli as, a geração dos
obje tos simbóli os, as estatísti as des ritivas e alguns métodos de lassi ação
hi-erárqui a e não-hierárqui a. A análise dos dados parte de uma base de mi ro-dados
que será trabalhada agregando os dados segundo diferentes níveis (ma ro-dados), de
forma a ara terizar as regiões de Portugal, segmentadas por sexo e grupo etário,
quanto à forma omo o upam o seu tempo diário, asso iando ainda o sentimento de
With this work we intend to explore and study the main methods of Symboli Data
Analysis. Theobje tiveistodes ribeandstudythetheoryofSymboli DataAnalysis,
havingaspra ti alappli ationtotheanalysisofTimeUseSurvey, olle tedbythe
Por-tugueseNationalInstituteofStatisti s. Inthisworkwemakeadetailedpresentationof
the main on epts of Symboli Data Analysis, parti ularlythe basi on epts, types
of symboli variables, generation of symboli data, des riptive statisti s, and some
methods of hierar hi al and non-hierar hi al lustering. In the pra ti al appli ation,
thestatisti aldataset(mi ro-data)isaggregatedindierentlevels(ma ro-data). The
aimof thiswork istostudy the o upationoftime inthedierentregionsinPortugal
separatedby thegenderandage,asso iatedwiththeindividual'sper eptionoffeeling
Índi e de Tabelas 10 Índi e de Figuras 15 1 Introdução 17 1.1 Estrutura daDissertação . . . 17 1.2 Enquadramento . . . 18 1.3 Obje tivos e Metodologia. . . 18 2 História e Evolução 21 2.1 Denições e Con eitos Geraisda Análise de Dados. . . 22
3 Dados Simbóli os 25 3.1 VariáveisSimbóli as . . . 25
3.2 Obje tos Simbóli os . . . 27
3.3 Geraçãode Obje tos Simbóli os . . . 32
3.3.1 Intera ção om aBase de Dados. . . 33
3.3.2 OperadorGeneralizador . . . 36
4 Métodos Estatísti os de Análise de Dados para Dados Simbóli os 39 4.1 Estatísti as Des ritivas . . . 39
4.1.1 Variáveis Intervalares . . . 40
4.2.1 Classi ação Hierárqui apelométodoDivisivo . . . 44
4.2.2 Hierarquias e Pirâmides . . . 48
4.2.3 Classi ação Simbóli a Não-Hierárqui a . . . 56
5 Des rição e Geração dos Dados 67 5.1 Inquérito à O upação doTempo . . . 67
5.2 Variáveis Clássi as . . . 68
5.3 SODAS Software . . . 72
5.4 Geraçãodos DadosSimbóli os . . . 73
6 Análises Simbóli as 77 6.1 Estatísti as Des ritivas . . . 77
6.2 Análise Classi atória . . . 104
6.2.1 MétodoDivisivo. . . 104
6.2.2 Métodoem Hierarquia ePirâmide . . . 113
6.2.3 Classi ação Não-Hierárqui a: MétodoSCLUST . . . 136
6.2.4 Comparação dos resultados obtidos métodos de lassi ação . . 148
7 Considerações nais 151
Bibliograa 153
4.1 Matrizdefrequên iasasso iadasàs ategorias . . . 46
4.2 Operadoresdegeneralizaçãoemedidas orrespondentes . . . 54
4.3 Matrizdefrequên ias. . . 62
6.1 Resumodas lassesformadaspelométodoDIV-Região/Sexo,variáveisintervalares 107
6.2 Resumodas lasses formadaspelo método DIV- Região/Sexo/Grupo Etário,
var-iáveisintervalares . . . 108
6.3 Resumodas lassesformadaspelométodoDIV-Região/Sexo,variáveismodais . . 111
6.4 Resumodas lasses formadaspelo método DIV- Região/Sexo/Grupo Etário,
var-iáveismodais . . . 112
6.5 Comparaçãoda lassi açãoemHierarquiaeemPirâmide-Região/Sexo,variáveis
intervalares . . . 120
6.6 Comparação da lassi ação em Hierarquia e em Pirâmide - Região/Sexo/Grupo
Etário,variáveisintervalares . . . 120
6.7 Comparaçãoda lassi açãoemHierarquia oma lassi açãoemPirâmide-Região/Sexo,
variáveismodais . . . 126
6.8 Comparação da lassi ação em Hierarquia e em Pirâmide - Região/Sexo/Grupo
Etário,variáveismodais . . . 127
6.9 Comparação da lassi ação em Hierarquia e em Pirâmide - Região/Sexo/Grupo
Etário,faixasetáriasmaisjovens omvariáveisintervalares . . . 132
6.10 Comparação da lassi ação em Hierarquia e em Pirâmide - Região/Sexo/Grupo
Etário,faixasetáriasmaisjovens omvariáveismodais . . . 135
6.11 Resumodas lassesformadaspelométodoSCLUST-Região/Sexo,variáveis
6.13 Resumodas lassesformadaspelométodoSCLUST-Região/Sexo,variáveismodais 147
6.14 Resumo das lasses formadaspelo método SCLUST- Região/Sexo/Grupo Etário,
4.1 Simpli açãodeumaPirâmide . . . 55
5.1 SODAS - haining . . . 72
5.2 Ex ertoBaseDadosA ess-Região/Sexo . . . 74
5.3 Ex erto heiroSODAS -Região/Sexo/GrupoEtário . . . 75
6.1 Distribuiçõesdefrequên iasdasvariáveisintervalares-Região/Sexo . . . 78
6.2 Distribuiçõesdefrequên iasdasvariáveisintervalares-Região/Sexo/GrupoEtário . 79 6.3 Estrela2DRN/F . . . 79
6.4 Estrela2DRLVT/F . . . 80
6.5 Estrela2DRA/F . . . 80
6.6 Estrela2D- Obje toSimbóli oRLVT/M . . . 81
6.7 Estrela2D- Obje toSimbóli oRN/M . . . 81
6.8 Estrela2D- Obje toSimbóli oRA/M . . . 82
6.9 Estrela2DSuperimpose-Obje tosSimbóli osRN/F/15-24eRN/F/25-34 . . . . 83
6.10 Estrela2DSuperimpose-Obje tosSimbóli osRN/M/15-24eRN/M/25-34 . . . . 83
6.11 Estrela2DSuperimpose-Obje tosSimbóli osRLVT/F/15-24eRLVT/F/25-34 . . 84
6.12 Estrela2DSuperimpose-Obje tosSimbóli osRLVT/M/15-24eRLVT/M/25-34 . 84 6.13 Estrela2DSuperimpose-Obje tosSimbóli osRA/F/15-24eRA/F/25-34 . . . . 85
6.14 Estrela2DSuperimpose-Obje tosSimbóli osRA/M/15-24eRA/M/25-34 . . . . 85
6.15 Estatísti asbási asdasvariáveisintervalares-Região/Sexo . . . 86
6.18 ComparaçãodasMédiasdasvariáveisintervalares-Região/Sexo . . . 88
6.19 Bi-plotdasvariáveisintervalaresRoupaeCalçado eCuidarde rianças -Região/Sexo 89 6.20 Bi-plotdasvariáveisintervalaresLazer passivo eEstudo -Região/Sexo . . . 90
6.21 Estatísti asbási asdasvariáveisintervalares-Região/Sexo/GrupoEtario . . . 90
6.22 Bi-plotdasvariáveisintervalaresArranjo- asaePrep-alimentos-Região/Sexo/Grupo Etario . . . 91
6.23 Bi-plotdasvariáveisintervalaresLazerpassivoeDormir -Região/Sexo/GrupoEtario 92 6.24 Capa idadesdasvariáveisApressado eFreq-apressado -Região/Sexo . . . 93
6.25 Capa idades das variáveis Apressado-5anos, Apressado-3anos, Apressado-1ano -Região/Sexo . . . 93
6.26 Capa idadesdasvariáveisvp-ntft,tem-fds etempo-disp -Região/Sexo . . . 94
6.27 Min/Max/MedvariáveisApressado eFreq-apressado- Região/Sexo . . . 94
6.28 Min/Max/Med variáveis Apressado-5anos, Apressado-3anos e Apressado-1ano -Região/Sexo . . . 95
6.29 Min/Max/Medvariáveisvp-ntft,tem-fds,tempo-disp -Região/Sexo . . . 96
6.30 Capa idadesdasvariáveisApressado eFreq-apressado -Região/Sexo/GrupoEtário 96 6.31 Capa idades das variáveis Apressado-5anos, Apressado-3anos e Apressado-1ano -Região/Sexo/GrupoEtário . . . 97
6.32 Capa idadesdasvariáveisvp-ntft,tem-fds,tempo-disp -Região/Sexo/GrupoEtário 97 6.33 Min/Max/MedvariáveisApressado eFreq-apressado- Região/Sexo/GrupoEtário . 98 6.34 Min/Max/Med variáveis Apressado-5anos, Apressado-3anos e Apressado-1ano -Região/Sexo/GrupoEtário . . . 98
6.35 Min/Max/Medvariáveisvp-ntft,tem-fds,tempo-disp -Região/Sexo/GrupoEtário . 99 6.36 Estrela3DSuperimpose -Obje tosSimbóli osRN/F,RC/F, RLVT/F . . . 100
6.37 Estrela3DSuperimpose -Obje tosSimbóli osRA/F,RALG/F. . . 100
6.38 Estrela3DSuperimpose -Obje tosSimbóli osRN/M,RC/M,RLVT/M . . . 101
24RC/F/15-24RN/F/15-24 . . . 102
6.41 Estrela3DSuperimpose-Obje tosSimbóli os-RALF/M/15-24RA/M/15-24RL VT/M/15-24RC/M/15-24RN/M/15-24. . . 102
6.42 Estrela3DSuperimpose-Obje tosSimbóli os-RALF/F/25-34RA/F/25-34RL VT/F/25-34RC/F/25-34RN/F/25-34 . . . 103
6.43 Estrela3DSuperimpose-Obje tosSimbóli os-RALG/M/25-34RA/M/25-34RL VT/M/25-34RC/M/25-34RN/M/25-34. . . 103
6.44 Classif açãoDivisiva-Região/Sexo,variáveisintervalares . . . 105
6.45 Classif açãoDivisiva-Região/Sexo/GrupoEtário,variáveisintervalares. . . 106
6.46 Classif açãoDivisiva-Região/Sexo,variáveismodais. . . 109
6.47 Classif açãoDivisiva-Região/Sexo/GrupoEtário,variáveismodais . . . 110
6.48 Classi açãoemHierarquia-Região/Sexo,variáveisintervalares . . . 113
6.49 Classi açãoemHierarquia-Região/Sexo, lasses7/9e8/9 . . . 114
6.50 Classi açãoemPirâmide-Região/Sexo,variáveisintervalares . . . 115
6.51 Classi açãoemPirâmide-Região/Sexo, lasses40/45e41/45 . . . 116
6.52 Classi açãoemHierarquia-Região/Sexo/GrupoEtário, lasses31/39e38/39 . . 117
6.53 Classi açãoemHierarquia-Região/Sexo/GrupoEtário, lasses25/39e36/39 . . 118
6.54 Classi açãoemPirâmide-Região/Sexo/GrupoEtário,variáveisintervalares . . . 119
6.55 Classi açãoemHierarquia-Região/Sexo,variáveismodais . . . 121
6.56 Estrela3DSuperimpose- lasses1/9e8/9 . . . 121
6.57 Pirâmide-Região/Sexo,variáveismodais . . . 122
6.58 Estrela3DSuperimpose- lasses35/45e36/45 . . . 122
6.59 Classi açãoemHierarquia-Região/Sexo/GrupoEtário, variáveismodais . . . . 123
6.60 Classi açãoemHierarquia-Região/Sexo/GrupoEtário, lasse36/49 . . . 124
6.61 Classi açãoemHierarquia-Região/Sexo/GrupoEtário, lasses46/39e47/49 . . 124
6.62 Classi açãoemPirâmide-Região/Sexo/GrupoEtário,variáveismodais . . . 125
6.63 Classi açãoemPirâmide - Região/Sexo/Grupo Etário, lasses355/460,422/460, 451/460 . . . 126
6.65 Estrela-Região/Sexo/GrupoEtário, lasses17/19e18/19 . . . 128
6.66 Classi açãoemPirâmide -Região/Sexo/GrupoEtário,variáveisintervalares . . . 129
6.67 Pruning daPirâmide-Região/Sexo/GrupoEtário,variáveisintervalares. . . 129
6.68 Classi ação em Pirâmide - Região/Sexo/Grupo Etário, lasses 17/114, 34/114 e 104/114 . . . 131
6.69 Hierarquia-Região/Sexo/GrupoEtário, variáveismodais . . . 133
6.70 Hierarquia- lasses15/19e18/19. . . 133
6.71 Pirâmide-Região/Sexo/GrupoEtário, variáveismodais . . . 134
6.72 Pirâmide- lasse80/174 . . . 134
6.73 Pirâmide- lasse142/174. . . 135
6.74 Pirâmide- lasse112/174. . . 135
6.75 SCLUST -Região/Sexo -métodosdeCalinskiandHarabasz,C-indexe
Γ
-index . . 1366.76 SCLUST -Região/Sexo -variáveisintervalares . . . 137
6.77 SCLUST -Região/Sexo -Índi edequalidadee ontribuiçãodas lasses . . . 137
6.78 SCLUST -Região/Sexo -Índi edequalidadedasvariáveisintervalares . . . 138
6.79 SCLUST -Região/Sexo -Cara terizaçãodas lassespelasvariáveisintervalares . . 138
6.80 SCLUST-Região/Sexo/GrupoEtário-métodosdeCalinskiandHarabasz,C-index e
Γ
-index . . . 1396.81 SCLUST -Região/Sexo/GrupoEtário -variáveisintervalares. . . 140
6.82 SCLUST -Região/Sexo/GrupoEtário -Índi edequalidadee ontribuiçãodas lasses140 6.83 SCLUST -Região/Sexo/GrupoEtário -Índi edequalidadedasvariáveisintervalares141 6.84 SCLUST - Região/Sexo/GrupoEtário - Cara terizaçãodas lassespelas variáveis intervalares . . . 142
6.85 SCLUST -Região/Sexo -variáveismodais . . . 144
6.86 SCLUST -Região/Sexo -Índi edequalidadee ontribuiçãodas lasses . . . 144
6.87 SCLUST -Região/Sexo -Índi edequalidadedasvariáveismodais . . . 145
6.88 SCLUST -Região/Sexo -Cara terizaçãodas lassespelasvariáveismodais . . . . 145
6.91 SCLUST -Região/Sexo/GrupoEtário -Índi edequalidadedasvariáveismodais . 147
6.92 SCLUST -Região/Sexo/GrupoEtário -Cara terizaçãodas lassespelas variáveis
Introdução
1.1 Estrutura da Dissertação
No Capítulo1 destadissertação éfeita umaintroduçãoaotema emestudo,aAnálise
de Dados Simbóli os, des revendo-se os obje tivos e metodologia utilizados neste
trabalho. No Capítulo 2fazemos um resumo históri oda teoria daAnálise de Dados
Simbóli os, onde são eviden iados alguns trabalhos importantes para o avanço desta
áreaesedes revemalgumasapli açõespráti asrelevantes. Oestudoteóri odosdados
simbóli os evariáveissimbóli asestá presente noCapítulo3,assim omodopro esso
de onstrução das lasses egeneralização dos obje tos simbóli os. No Capítulo4 são
expostos os métodos estatísti os des ritivos e de lassi ação para dados simbóli os,
utilizados na análise dos dados. As estatísti as des ritivas univariadas e bivariadas
apresentadasnaSe ção4.1,referem-seaos asosdasvariáveisintervalaresemodais,de
quenos o uparemosneste trabalho. Osmétodosde lassi ação dis utidos naSe ção
4.2, são a lassi ação hierárqui a pelo Método Divisivo, a lassi ação hierárqui a
om representações em Pirâmide e Hierarquia e a lassi ação não hierárqui a pelo
Métododas Nuvens Dinâmi as.
A apli ação práti a das té ni as de Análise Simbóli a ao Inquérito à O upação do
Tempo é efe tuadanos Capítulos 5 e 6. Na Se ção 5.1 des revem-se os questionários
utilizados e na Se ção 5.2 as variáveis lássi as es olhidas para análise. Na Se ção
5.3 des reve-se o software SODAS utilizado no tratamento dos dados. A geração
dos dados simbóli os a partir dos mi ro-dados é feita na Se ção 5.4. Na Se ção 6.1
são apresentadososresultados obtidos omasestatísti as des ritivaserepresentações
em estrela das des rições dos obje tos simbóli os. Na Se ção 6.2 são apresentados e
Por último os resultados são dis utidos globalmente no Capítulo 7. O Capítulo 8
on lui adissertação, apresentando perspe tivasde trabalhofuturo.
1.2 Enquadramento
Os dados simbóli os permitem generalizar os métodos de análise exploratória,
es-tatísti a e grá a a dados omplexos, que ultrapassam o modelo tabular usual - em
que a ada indivíduo, em linha, está asso iado um úni o valor de ada variável, em
oluna. Estão neste aso os dados que des revem lasses ou grupos de indivíduos
mais ou menos homogéneos - obje tos de segunda ordem ou ma ro-dados - em vez
de asos individuais - obje tos de primeira ordem ou mi ro-dados. A Análise
Sim-bóli ade Dados(ASD) estende omodelo tabular usual permitindovalores múltiplos,
eventualmente ponderados, para ada variável des ritora, o que permite representar
a variabilidade e/ou in erteza ontida nos dados. Surgem assim as ditas matrizes
de dados simbóli os,em que ada élula não ontém ne essariamente um valorúni o
quantitativoouuma ategoria;uma élulapode onter,porexemplo,umadistribuição
sobre um onjunto de ategorias possíveis ou um intervalo de valores, ou ainda um
onjuntodevaloresligadosporumataxonomiaouporregras. Destaformapermite-se
ades riçãodeunidades omplexasou on eitos,aobtençãodeinformaçãomaispre isa
ou a sumarização de extensos onjuntos de dados armazenados em grandes bases de
dados.
Dados simbóli os o orrem em muitas situações, por exemplo, ao sumariar grandes
onjuntosde dados ouaodes rever on eitos subja entes auma base de dados - uma
idade,um grupo só io-demográ o,um enário de a identes. Um onjunto de dados
simbóli os pode ser estruturado de forma inerente ou resultar da agregação de um
onjuntode dados lássi os.
1.3 Obje tivos e Metodologia
Os métodos de Análise Simbóli a de Dados são uma extensão da Análise de Dados
tradi ional, adequados para analisar matrizes de dados simbóli os. É uma área
em pleno desenvolvimento que obteve um grande avanço om o Proje to Europeu
Symboli O ial Data Analysis System (SODAS), seguido do proje to Analysis
dautilizaçãodas té ni as de Análise Simbóli ae dosoftware desenvolvido, naanálise
de informação produzida no âmbito das Estatísti as O iais. A Análise de Dados
Simbóli os tem uma importante apli ação na área das Estatísti as O iais: omo,
porlei, osInstitutosNa ionais de Estatísti aestão proibidosde divulgar informações
individuais,osdadossão previamenteagregados porrazõesde onden ialidade
(seg-redo estatísti o) antes de serem distribuídosa qualquer outraagên iagovernamental,
indivíduo ou empresa; a ASD forne e instrumentos adequados para analisar estes
dadosagregados. Deummodogeral, omestetrabalho,pretende-semostraragrande
utilidadee mais-valiada utilizaçãodestas té ni as naanálise de Estatísti as O iais.
Em parti ular, será analisado o Inquérito à O upação do Tempo, realizado pelo
Instituto Na ional de Estatísti a (INE). O estudo do inquérito pretende ara terizar
as regiões de Portugal, segmentadas por sexo e grupo etário, quanto à forma omo
o upam o seu tempo diário, asso iando ainda o sentimento de pressa vivido nestas
áreas. Paraesteefeitosãoutilizadasmedidasestatísti asdesumarizaçãoevisualização
e vários métodos de lassi ação simbóli a.
Para a elaboração deste trabalho foi ne essária a ooperação do Instituto Na ional
de Estatísti a, no que diz respeito ao a esso aos dados do Inquérito à O upação do
Tempo. Para esse efeito, foi ne essário efe tuar a reden iação omo investigadora
juntodoObservatório daCiên iae EnsinoSuperior(OCES)doMinistériodaCiên ia
eEnsinoSuperior(MCES),quepermitiuaoabrigodoproto oloINE/MCES tera esso
História e Evolução
Desde os primeiros artigos des revendo os prin ípios bási os da Análise Simbóli a
de Dados, Diday em 1981, 1988 e 1989, até ao livro que irá ser agora publi ado por
[Diday e Noirhomme-Fraiture(2008)℄,foramdesenvolvidasmuitasté ni asnestaárea.
Os métodos de Análise Simbóli a sofreram um grande avanço om proje to Europeu
SODAS desenvolvido de 1997 a 1999, por 17 grupos de investigadores in luindo três
Institutos Na ionais de Estatísti a (EUSTAT - Espanha, INE - Portugal e ONS
-Inglaterra). Oresultado desteproje tofoiodesenvolvimentodosoftware SODAS e a
publi ação de um livro[Bo k eDiday (2000)℄. O proje to ASSO, foi desenvolvido de
2001 a 2003 através da Information So iety Te hnologies Program om o obje tivo
de explorar métodos e ferramentas de Software para resolver problemas de análise
simbóli a em bases de dados de Estatísti as O iais.
Métodos de Análise Simbóli a de Dados in luem métodos de des rição univariada,
métodos de visualização, lassi ação, análise dis riminante, árvores de de isão,
re-gressão,análisefa torial,et .,quepermitemanalisarmatrizesdedadossimbóli os. No
desenvolvimento teóri o, trabalhos importantes impulsionaram o avanço de algumas
té ni as da ASD, a título de exemplo poderemos itar: Cazes, P., Chouakria, A.,
Diday, E. e S he ktman, Y. na análise fa torial [Cazeset al. (1990)℄; Gowda, C.
e Diday, E. [Gowda eDiday (1992)℄ e De Carvalho [De Carvalho (1998)℄ no ál ulo
de dissemelhanças entre obje tos simbóli os; Brito, P. [Brito (1991)℄, Chavent, M.
[Chavent (1997)℄ e Rodriguez, O. [Rodriguez(2000)℄, nas té ni as de análise
lassi- atóriasimbóli a;Billard,L.eDiday,E.[Billard eDiday (2003)℄publi amumasíntese
daASD noJournal of the Ameri an Statisti al Asso iation.
Apli açõesefe tuadasdizemrespeito,porexemplo,àdes riçãode enáriosdea identes
[Calvo (2000)℄;estudosobreao upaçãodotemponoPaísBas o[Mas e Olaeta(2002)℄;
o estudo de uma base de dados de 156 países agrupados por um erto número de
on eitos segundo o nível de riqueza [Soussi (2003)℄; o estudo na análise da gestão
administrativade uma idadeatravésdas opiniõesa er a dosserviços, es olas,trá o
[Lima e De Carvalho (2003)℄. Foram já efe tuados trabalhos em Portugal no
âm-bito das Estatísti as O iais, nomeadamente, ao nível da ara terização do emprego
[Mar elo (2001)℄,e apli açãoda ASD nas Estatísti as O iais [Mar elo(2002)℄.
Como ponto de partida, foi utilizado o estudo realizado por [Mas e Olaeta(2002)℄
no País Bas o, a partir do Inquérito à O upação do Tempo realizado pelo Eustat
(Instituto de Estatísti a do país Bas o). A apli ação práti a deste trabalho é feita
om re urso aosoftware SODAS.
2.1 Denições e Con eitos Gerais da Análise de
Da-dos
Osmétodosdaanálise lássi aforamdesenhadosparaestudardadossem omplexidade
e que des revam uma situação simples. Os dados são obtidos a partir de indivíduos
singulares, os quaissão des ritos por variáveisque tomamum úni o valor.
A análise lássi a parte de um onjunto
Ω = {ω
1
, ..., ω
n
}
de obje tos ou indivíduos que são ara terizados porp
variáveisY
˜
1
,...,Y
˜
p
. Cada variávelY
˜
j
toma valores noseu domínio ou espaço de observaçãoY
j
. Para ada indivíduoω
i
a variável realiza um úni o valorY
˜
j
(ω
i
)
. Uma variável lássi a é denida por uma apli ação deΩ
paraY
j
, tal quex
ij
=Y
˜
j
(ω
i
)
é o valor observado para o indivíduoω
i
. A matrizX = (x
ij
)
reúne toda ainformação, sendo ove tor dasp
variáveis denido porX = ( ˜
Y
1
, ..., ˜
Y
p
)
′
e o ve tor das
p
observações, para o indivíduoω
i
, denido porX(i) = (x
i1
, ..., x
ip
)
′
.
Atendendo ao tipo de valores que
Y
j
pode tomar, as variáveis dividem-se em dois grandes grupos: quantitativas ouqualitativas.Denição 2.1 Variáveis quantitativas sãovariáveisnuméri as tal queo onjunto
dos seus valores possíveisé idênti o ou está ontido em
IR
. Se o onjunto dos valores possíveis é ontínuo não-numerável a variável diz-se ontínua, aso ontrário diz-sedis reta e toma valores num onjunto numerável (nito ou não).
val-variáveis subdividem-se em nominais (sem estrutura interna) e ordinais (existe uma
ordem linear entre os valores possíveis), onsideram-se ainda neste último aso as
variáveis ordinais generalizadas, omo as taxonomias(ver [Bo k e Diday (2000a)℄).
Sobre as variáveis quantitativas e qualitativas podem ser apli adas relações lógi as
dandoorigemàsvariáveisdependentes. Esta dependên iapodeser lógi a,hierárqui a
ouesto ásti a. Noâmbitodestetrabalhoserão onsideradasapenasasvariáveis
depen-dentes logi amente e hierarqui amente. Sobre a dependên ia esto ásti a onsulte-se
[Bo k e Diday (2000a)℄.
Denição 2.3 Dadas duas variáveis
Y
eZ
diz-se queZ
depende logi amente deY
se os valores queZ
pode tomardependem logi amente dos valores tomados porY
.Exemplo 2.1 Se
Y
=tipo-famíliaeZ
=Bebés,tem-seumapossívelregrade dependên- ia,Se
Y (ω)
=Casal / lhosentãoZ(ω) = {1, 2, 3, ...}
Denição 2.4 Uma variável
Z
depende hierarqui amente de uma variávelY
seZ
nãofazsentidopara ertosvaloresdeY
. Considerem-seY
eZ
os onjuntosondeas respe tivasvariáveistomamvalores esejaY
′
⊆ Y
o onjuntodos valores de
Y
paraos quaisZ
não tem sentido. A dependên ia hierárqui a, [Brito e De Carvalho(2002)℄, traduz-se pela regra:Y
toma valores emY
′
⇔
Z é não apli ável
Exemplo 2.2 Se
Y
=sentequeandaapressado omY
={
Sim, Não}
eZ
=apressado relativamenteaoanopassado omZ
={
na mesma,mais apressado, menos apressado}
vem, paraY
′
= {
Dados Simbóli os
3.1 Variáveis Simbóli as
Comojáfoireferidoanteriormente,naanálisededados lássi a,asvariáveistomamum
úni o valor ou ategoria para ada indivíduo,enquanto quepara os dados simbóli os
asvariáveispodemtambémassumir onjuntos de valoresou ategorias, ontendouma
variaçãointerna. Se onsiderarmosum onjuntodedadosde lássi os, adaobservação
orresponde auma úni a realização davariável,ouseja, arepresentação noespaço
p
-dimensional orresponde aum úni oponto,enquantoque paradados simbóli os adarealização será um hiper ubo no espaço
p
-dimensional ou no produto artesiano de distribuições.Um onjuntode dadossimbóli osé onstituídopelos indivíduosquesão denominados
por unidades ou obje tos, e pelas variáveis simbóli as que des revem as unidades.
As unidades ou obje tos, podem ser por natureza dados estruturados ou podem ser
obtidos a partir de dados lássi os através da agregação. A onstrução de lasses a
partir de unidades singulares é um on eito, paradigma dois níveis, que pode
ser estendido ao ter eiro nível ou mais. Ini ialmente, onsidera-se o onjunto
Ω =
{ω
1
, ..., ω
n
}
formado pelos indivíduos ou obje tos de primeira ordem des ritos por variáveis lássi as ou single. O onjuntoE = {u
1
, ..., u
k
}
será o onjunto dos elementos ou obje tos de segunda ordem, que neste aso são lasses formadas pelosindivíduos de
Ω
. O obje tivo é ara terizar omo se omportam as lasses denidas om respeito às variáveis lássi as. Para dar resposta a este problema denem-se asvariáveissimbóli asque permitemdes rever este tipode obje tos.
omonaanálisededados lássi aeaindaintervalar, ategóri amultivaluadaoumodal,
no aso daanálise simbóli a.
As denições que seseguem têm suporte em[Bo k e Diday (2000a)℄.
Asvariáveismultivaluadaspodemassumirtodosossub onjuntosnitosdoseudomínio,
ou seja,assumem um onjunto de valores para adaunidade.
Uma variável simbóli a
Y
diz-se intervalar se os seus valores são intervalos deIR
, e diz-se ategóri a multivaluada se os seus valores são onjuntos nitos de ategorias.A variável modalé o aso mais omplexo,pois faz orresponder uma medidaou uma
distribuição de probabilidadesa ada obje toouunidade.
Denição 3.1 Uma variável simbóli a
Y
j
om domínio subja enteY
j
, é uma apli- ação,Y
j
: E −→ B
j
u −→ Y
j
(u)
(3.1)om
u ∈ E
(indivíduos ou lasses)eB
j
o onjunto onde a variável toma valores.Conformeaespe i açãode
B
j
avariávelpodeassumirqualquerumdostiporeferidos anteriormente.Denição 3.2 Uma variável
Y
é quantitativa single, seB
j
= Y
j
é um sub on-junto deIR
.São onsideradas variáveisquantitativassingle as variáveis lássi asquantitativas.
Denição 3.3 Uma variável
Y
é ategóri a single, seB
j
= Y
j
é um onjunto nito de ategorias.São onsideradas variáveis ategóri as single as variáveis lássi asqualitativas.
Denição 3.4 Uma variável
Y
é ategóri a multivaluada, seY
j
é um onjunto nito de ategorias,B
j
= P (Y
j
)
o onjunto das partes deY
j
não vaziaseY
j
(u) ⊆ Y
j
.Exemplo 3.1 Se
E = {
Região Norte, Região Centro, ...}
omDenição 3.5 Uma variável
Y
j
é intervalar, seY
j
éIR
ou umintervalo emIR
eB
j
é o onjunto dos intervalos deY
j
, tal que parau ∈ E
,Y
j
(u) = [α, β]
omα, β ∈ Y
j
eα ≤ β
.Exemplo 3.2 Seja
E = {Casalc/filhos, individual, monoparentalc/filhos}
Y
1
=número de minutos a dormir por dia eY
1
= [0; +∞[
, pode-se obter parau =
individual
Y
1
(individual) = [300, 500]
Denição 3.6 Uma variável
Y
j
é modal seB
j
= M(Y
j
)
é uma família de dis-tribuiçõesde frequên ias ou pesossobreY
j
. Paraqualqueru ∈ E
,Y
j
é umaapli ação,Y
j
(u) = (U(u), π
u
)
om
U(u) ⊆ Y
j
o onjuntodas ategoriasqueoelementopodetomareπ
u
amedida ou adistribuição defrequên ias,probabilidadesou pesos,dos valores possíveisobservadosem
Y
j
.Exemplo 3.3 Seja
E = {Casalc/filhos, individual, monoparentalc/filhos}
Y
1
=sente-se apressado eY
1
={
Sim, Não}
, pode-se obter parau = Casalc/f ilhos
Y
1
(Casalc/f ilhos)
=(Sim(0.7),Não(0.3))Um aso bastante importante dentro das variáveis modais são as 'variáveis
his-tograma'. Consideremos
Ω
o onjunto dos indivíduos singulares eY
˜
uma variável quantitativasingle omdomínioY = IR
. SejaE
o onjuntodetodosossub onjuntos não vazios de indivíduos eC ∈ E
uma lasse de obje tos singulares agregados.C
pode assim ser des rita pela variável simbóli a histograma, ujos valoresY (C)
são espe i ados por um histograma des revendo a distribuiçãoempíri a deY
˜
emC
.3.2 Obje tos Simbóli os
Uma matriz de dados simbóli os, por oposição à matriz lássi a re tangular,
pode onter assim em ada élula onjuntos, intervalos, histogramas, distribuições
de frequên ias, et . A matriz dos dados simbóli os reúne toda a informação e é
Ξ :=
ξ
11
ξ
12
· · · ξ
1p
ξ
21
ξ
22
· · · ξ
2p
. . . . . . . . .ξ
k1
ξ
k2
· · · ξ
kp
om
ξ
ij
= Y
j
(u
i
)
o valorobservado daj
-ésima variávelpara o obje tou
i
.Cada linha damatriz de dados lássi a
X = (x
ij
)
des reve um elementoω
i
∈ Ω
om valoresY
e
j
(ω
i
) = x
ij
do domínioY
j
. De formasemelhante, para uma matrizde dados simbóli osΞ = (ξ
ij
)
,alinhaξ
i
= (ξ
i1
, ..., ξ
ip
)
′
des reve oelemento
u
i
∈ E
pelosvalores simbóli osY
j
(u
i
) = ξ
ij
de um onjuntoB
j
quepode ser,Y
j
,P (Y
j
)
ouM(Y
j
)
.Se o ve tor
Ξ(u
i
) := (Y
1
(u
i
), ..., Y
p
(u
i
))
′
engloba todas as variáveis des ritoras do
obje to
u
i
então:- ada obje to
u
i
∈ E
é des ritopelo ve tor simbóli o(ξ
i1
, ..., ξ
ip
)
′
;
- ada linha damatriz
Ξ
é uma des rição simbóli adoobje tou
i
dada pelasp
variáveis.Denição 3.7 Seja
Y
j
, omj = 1, ..., p
uma variávelsimbóli a de domínioY
j
eB
j
o onjunto onde a variável toma os seus valores.- O espaço das des rições ou onjunto de todas as des rições é representado
por
B = B
1
× ... × B
p
.- Considerando que
d
j
∈ B
j
tem-se qued = (d
1
, ..., d
p
) ∈ B
é uma des rição ou ve tor des rição.Para qualquer
u
i
∈ E
a des riçãod
u
i
= (d
u
i
1
, ..., d
u
i
p
)
orresponde à linha da matriz simbóli a(Y
1
(u
i
), ..., Y
p
(u
i
))
′
=
(ξ
i1
, ..., ξ
ip
)
′
. Cada valor observado por uma variável
para determinado obje to orresponde auma des rição par ialdesse obje to.
Umobje tosimbóli oé ara terizadopelove torde variáveisY, umades rição
d ∈ B
eumarelaçãoR
que omparaY omd
. Oresultadodessa omparaçãoédadoporuma funçãobináriaoubooleanaa
. AtendendoàdeniçãodadaporDiday(verporexemplo [Diday eNoirhomme-Fraiture(2008)℄), um obje to simbóli os
u
está asso iado a um on eitou ∈ E
, que se dene pelas suas propriedades ara terísti as (intenção deu
) e pelo onjunto dos indivíduos deΩ
que satisfazem essas propriedades (extensão deu
). Enquanto queR
ed
devolvem uma des rição intensional, ou seja, espe i am as propriedades desejadas, a apli açãoa
e a sua extensão indi am o onjunto dos elementos queveri amessas propriedades.Denição 3.8 Um obje to simbóli o, [Bo k e Diday (2000a)℄, é um tripleto
s =
(a, R, d)
emqued ∈ B
é uma des rição, R é uma relação entre des rições ea
é uma apli ação deE → L
om L=[0;1℄, que asso ia aos elementosu ∈ E
um valor de L dependendo da relação R.A relação
R
permitedeterminar quaisoselementosu ∈ E
que veri ama des riçãod
doobje tosimbóli os
.Sejam
Y, Z
dois onjuntos quaisquereY × Z
oproduto artesiano ontendo todos os pares(y, z)
omy ∈ Y
ez ∈ Z
.Denição 3.9 Uma relação
R
está asso iada a uma função binária, denida no produto artesianoY × Z
, omφ(y, z) := [yRz]
tomando valores no onjunto{0, 1}
. Para o par(y, z)
a relação é verdadeira seφ(y, z) = 1
e, por onseguinte, é falsa seφ(y, z) = 0
.As relações podem assumir diversas formas tais omo,
≤, ≥, =, ⊆, ⊂, ∈
.Se onsiderarmos mais do que uma variável teremos obviamente mais do que uma
relação denida. A onjunção das várias relações remete para a denição de relação
produto.
Denição 3.10 Seja
(R
1
, .., R
p
)
um onjuntoderelações omR
j
denidapeloproduto artesianoY
j
×Z
j
de dois onjuntosY
j
, Z
j
onde[y
j
R
j
z
j
]
estáasso iadaa umafunção binária denida para todos os pares(y
j
, z
j
) ∈ Y
j
× Z
j
.Sejam
Y := ×
p
j=1
Y
j
eZ := ×
p
j=1
Z
j
os orrespondentesprodutos artesianos ompreen-dendo todos os p-uplosy = (y
1
, ..., y
p
)
′
ez = (z
1
, ..., z
p
)
′
respe tivamente. A relação produtoR := ×
p
j=1
R
j
é denida por:[yRz] := ∧
p
j=1
[y
j
R
j
z
j
] = [y
1
R
1
z
1
] ∧ ... ∧ [y
p
R
p
z
p
].
(3.2)Se
φ
eφ
j
, omj = 1, ..., p
são as respe tivas funções binárias tem-se:φ(y, z) =
Q
p
Exemplo 3.4 Considere-se
Y
1
=Númerodeminutosdormidospordia,Y
2
=Número de minutos a estudar por dia eY
3
=Número de minutos a ler por diaSe onsiderarmos o onjunto das relações
(∈, ∈, ∈)
, pode ser denida uma ondição do tipo[Y
1
∈ [200, 400]] ∧ [Y
2
∈ [50, 100]] ∧ [Y
3
∈ [20, 60]]
.Formalize-se agora o on eito do onjunto dos indivíduos que veri am ondições
da forma
[Y
j
R
j
d
j
]
omd
j
uma des rição. Nas denições seguintes onsidere-seY =
(Y
1
, ..., Y
p
)
′
umve tor omp
variáveis, lássi asousimbóli as, omdomíniosouespaços de observaçãoY
1
, ..., Y
p
respe tivamente.Denição 3.11 Um evento é uma ondição do tipo
[Y
j
R
j
d
j
]
. É umafunção bináriaa : E −→ {0, 1}
que toma o valor 1 ou 0 aso a relação seja verdadeira ou falsa, respe tivamente.[Y
j
(u)R
j
d
j
] =
1
seY
j
(u)R
j
d
j
é verdadeira0
seY
j
(u)R
j
d
j
é falsa (3.3)O obje to simbóli o mais simples é designado de asserção e pode ser também
inter-pretado omouma query.
Denição 3.12 Uma asserção é um obje to simbóli o denido pela onjunção de
eventos:
s = ∧
p
j=1
[Y
j
R
j
d
j
].
(3.4)Denição 3.13 A apli ação extensão do obje to asserção
s
é a função bináriaa : E −→ {0, 1}
denda por:a(u) = ∧
p
j=1
[Y
j
(u)R
j
d
j
].
(3.5)Denição 3.14 A extensão da asserção é onstituída por todos os indivíduos para
os quais a asserção é verdadeira. O onjunto de obje tos
u ∈ E
que veri am as ondições espe i adas pors
, é dado por:Este onjunto é hamado extensão da asserção do obje to
s
. Uma lasse poderá ser assim identi ada pelo obje to simbóli o que a des reve. A extensão do obje toonstróia lassedos indivíduosquetêm determinadades rição,ouseja,queveri am
o on eito em estudo. De uma formamais geral, uma asserção pode assumir valores
intermédios, omo por exemplo,
0 ≤ a(u) ≤ 1
, que representará o grau de ligação ou de orrespondên ia de um elementou
om aasserçãoa
.Exemplo 3.5 Sejam
Y
1
=Número de minutos dormidos por dia,Y
2
=Grupo Etário eY
3
=Sexos = [Y
1
< 500] ∧ [Y
2
∈ [15, 24]] ∧ [Y
3
⊆ {feminino}]
-
s
é a asserção;-
d = d
1
× d
2
× d
3
= [0, 500) × [15, 24] × {feminino}
; -R
1
= R
2
=∈
eR
3
=⊆
;-
a(u)
é a extensão da apli ação.O onjunto de indivíduos obtidos através da extensão são des ritos pelo obje to
sim-bóli o booleano,pessoa que dorme menos que 500 minutos por dia, tem entre 15 e 24
anos e é do sexo feminino.
Osobje tossimbóli ospodemserdotipobooleanosoumodaisedistinguem-sesegundo
o espaço
L
.Denição 3.15 Um obje to simbóli o booleano é um tripleto
s = (a, R, d)
omd
umadadades riçãodoespaçoB
,R
arelaçãoque omparaY
ed
, ea
a funçãobinária denida pora : E → {0, 1}
, tal que:a(u) :=
1
se Y(u) veri a a relação0
se Y(u) não veri a a relação(3.7)
Neste aso a extensão é dada por
Ext
E
(s) = {u ∈ E : a(u) = 1}
e devolve todos os elementos quepartilhamas propriedadesindi adas ems
.Ext
E
(s) ⊆ E
forne e uma des rição extensional, ou seja, indi a quaisos indivíduos deE
quepartilhamessas propriedades.Denição 3.16 Um obje to simbóli o não booleano 1
é um tripleto
s = (a, Φ, d)
omd
uma dada des rição do espaçoB
,Φ
uma relação entre des rições ea
uma apli açãoa : E → [0, 1]
, tal que:a(u) := Φ(Y (u), d)
para u ∈ E
(3.8)Para ada
u ∈ E
ovalora(u)
medeograude ligaçãodoobje tou
omades riçãod
. Neste aso não há a veri ação ou não da propriedade omo nos obje tos booleanos,mas sim estadosintermédios.
Para um dado nível
α ∈ [0, 1]
a extensão daapli açãoé dada por:Ext
α
E
(s) = {u ∈ E | a(u) ≥ α} .
(3.9)Na realidade adenição éanálogaàanterior, apenas afunção nãoé bináriaepassa a
tomar valores no intervalo [0,1℄.
3.3 Geração de Obje tos Simbóli os
Nestetrabalhoosobje tossimbóli ossãogeradospelaagregaçãodos indivíduos
singu-laresdamatrizdedados lássi aem lasses,queremeteparaoparadigmadoisníveis
des rito na Se ção 3.1. Por essa razão expõe-se agora omo se pre ede à onstrução
dos dados simbóli os através do pro esso de generalização de uma matriz de dados
lássi a extraída de uma base de dadosrela ional.
A base de dados rela ionalé uma base de dados formada por uma ou várias tabelas,
que têm omo nome relações. Neste tipo de tabelas ou relações as linhas são
hamadas t-uplos e as olunas atributos. Entre as tabelas ou relações podem ser
efe tuadas operaçõesquedãoorigemanovastabelas. Asqueries,operaçõesutilizadas
para rela ionar tabelas,produzemnovastabelas oma estrutura de uma relação. A
matriz de dados simbóli osserá onstruída tendo omo base uma tabelarela ional.
1
3.3.1 Intera ção om a Base de Dados
Neste apítulo,será des rito omo se geramdados simbóli os a partir de uma tabela
rela ional.
Dena-senovamente
Ω
omoo onjuntodos indivíduos, omΩ = {ω
1
, ..., ω
n
}
gerando ost-uplos oulinhasdatabela, obtida atravésde umaquery. As propriedadesde adaindivíduosãodadaspelas
p
variáveis lássi asY
˜
1
, ..., ˜
Y
p
,que orrespondemàsp
olunas da tabela. Cada indivíduoω ∈ Ω
orresponde a um ve tor e a sua des rição é dada porY (ω) = ( ˜
˜
Y
1
(ω), .., ˜
Y
p
(ω)) ∈ Y
1
× ... × Y
p
.Amatriz
X
˜
éoresultadodaquery apli adae ontéminformaçãode omoosmembros estão reunidos nas lasses de a ordo om a des rição quequeremos obter.Considera-se uma variável nominal
G
que lassi a o indivíduo relativamente à lasse a que perten e, ou seja, orresponde à propriedadeY
que queremos estudar; os valores observadosG(ω
1
), ..., G(ω
n
)
lassi am osn
indivíduos em uma dask
lasses. Cadaω ∈ Ω
orresponde a um ve torY
˜
1
(ω), .., ˜
Y
p
(ω)
e ao valor observadoG(ω)
. Paraj = 1, ..., p
ada variável lássi aY
˜
j
orresponde ao(j + 2)
é-simoatributo da query,
sendo
Y
j
oespaço das observações deY
˜
j
deduzido pelarespe tiva olunada extensão daquery.Cada indivíduo perten e assim a uma erta lasse de a ordo om o valor observado
para avariável
G
. Suponhamos queos indivíduossingulares seagrupamemk
lassesC
1
, ..., C
k
(às quais serão asso iados os elementos deE = {u
1
, ..., u
k
}
). As lasses formam uma partiçãoque obremΩ
eseguem a seguinteregra:Se G(ω) = t
entãoω ∈ C
t
para ∀ ω ∈ Ω
A matriz de dados
X = (x
˜
ij
)
resultanteda query tem então a seguinte estrutura:Ω
GY
˜
1
· · ·
Y
˜
j
· · · ˜
Y
p
ω
1
. . .ω
i
G(ω
i
) · · · ˜
Y
j
(ω
i
) = x
ij
· · ·
. . .ω
n
os. Cada variávelsimbóli a
Y
j
: E → B
j
é denida a partir de uma variável lássi a˜
Y
j
tendo em onsideraçãoo seu tipo:•
Seavariável lássi aéquantitativadene-seumavariávelintervalare ada lasseC
t
é ara terizadaporum intervalodes revendo os valores observadosY
˜
j
nessa lasse.•
Seavariável lássi aéqualitativaexistemduasopções,ouseja,a orrespondente variávelsimbóli a pode ser:ategóri a multivaluada,em que ada lasse é representada pelo onjunto
de ategorias observadas na lasse;
modal,emqueavariávelassumevaloresnaformadeumadistribuiçãosobre
as ategorias observadas na lasse.
Todos os valores observados pelas
p
variáveis simbóli as são agrupados numa matrizk ×p
representadaporΞ = (ξ
ij
)
,amatrizde dadossimbóli os. Ovalorobservadopelaj
-ésimavariávelsimbóli aparaum elementogenéri ou
i
,édadoporξ
ij
= Y
j
(u
i
) ∈ B
j
. A matrizΞ
vem então:E
Y
1
· · ·
Y
j
· · · Y
p
u
1
. . .u
i
· · · Y
j
(u
i
) = ξ
ij
· · ·
. . .u
k
Construção de um Obje to Simbóli o
O primeiro passo para a onstrução de um obje to simbóli o é a es olha da variável
oudasvariáveis lássi asqualitativasquedão origemàs lassesouníveisde agregação
dos indivíduos. Seja
E = {u
1
, ..., u
k
}
o onjunto dosk
elementos, orrespondendo àsk
ategorias de uma variável lássi a qualitativa, ouseja, às lassesC
1
, ..., C
k
. As lasses formadas orrespondem ao produto artesiano das ategorias da variável (ouvariáveis)qualitativases olhidas. Porexemplo,sees olhermosduasvariáveis lássi as
Para ada
u
i
∈ E
omi = 1, ..., k
, denimos um obje to simbóli oS
i
= (a
u
i
, R, d
u
i
)
queirá orresponderàgeneralizaçãodas ara terísti asdosindivíduos orrespondentes
à
i
-ésima ategoria, ou seja,perten endo à lasseC
i
. O ve tord
u
i
= (ξ
i1
, ..., ξ
ip
)
′
é a des rição simbóli a deu
i
, ou seja, é o ve tor que orresponde à i-ésima linha da matriz simbóli aΞ
e que des reve a lasseC
i
através dove tor de variáveis(Y
1
, ..., Y
p
)
.•
Se a variável lássi aY
˜
j
é quantitativa, a orrespondente variável simbóli a é intervalar,e ades rição simbóli aY
j
(u
i
) = ξ
ij
da lasseC
i
(aque orresponde o elementou
i
)é o intervalo[α; β]
denido por,α := Min
ω∈C
i
Y
˜
j
(ω)
e
β := Max
ω∈C
i
Y
˜
j
(ω)
(3.10)•
Se a variável lássi aY
˜
j
é qualitativa de domínioY
j
= {m
1
, ..., m
r
}
, a variável simbóli a pode ser:- multivaluadaeneste aso ades rição simbóli a
Y
j
(u
i
)
vaiser um elemento deB
j
= P (Y
j
)
;- modale neste aso para ada lasse
C
i
, tem-se um ve tor(U(u
i
), π(u
i
)) =
(τ
1
, ..., τ
r
)
que representa a medida dis reta ou a distribuição de probabil-idade para a variávelY
j
na lasseC
i
. Cada elementoτ
l
é um par(m
l
, w
l
)
ondem
l
∈ Y
j
é uma ategoria davariávelY
˜
j
observada na lasseC
i
ew
l
é um valorreal não negativo.Se onsiderarmos,
w
l
= ♯
n
ω ∈ C
i
| ˜
Y
j
(ω) = m
l
o
,
(3.11)a medida dis reta
Y
j
(u
i
)
será uma distribuição de pesos. Se assumirmos um modeloprobabilísti oeestimarmosaprobabilidadeP ( ˜
Y
j
= m
l
|C
i
)
por:w
l
=
♯
n
ω ∈ C
i
| ˜
Y
j
(ω) = m
l
o
♯
n
ω ∈ C
i
| ˜
Y
j
(ω) ∈ Y
j
o
,
(3.12)3.3.2 Operador Generalizador
O pro esso de generalização é utilizado quando o obje tivo é ara terizar as
pro-priedades das lasses através das variáveis onhe idaspara osindivíduos. Ooperador
generalizador
g
forne eades rição para ada lasseC
1
, ..., C
k
naformade um obje to simbóli os
i
omi = 1, ..., k
.Seja
S = {s
1
, ..., s
k
}
o onjunto dos obje tos simbóli os resultante da apli ação da generalizaçãoaC
i
. Oobje tosimbóli os
i
asso iadoaoelementou
i
∈ E
é(a
u
i
, R, d
u
i
)
om a extensão daapli ação
a
u
i
emE
e um ve tor des ritord
u
i
= (ξ
i1
, ..., ξ
ip
)
.Denição 3.17 O operador generalizador g, [Stéphan et al. (2000)℄,baseado nas
variáveis
Y
˜
1
, ..., ˜
Y
p
emΩ
é denido porg = (g
1
, ..., g
p
)
om operadores generalizadoresg
j
para ada variávelque expressamas propriedades omuns da variávelna lasseC
i
:d
u
i
= g(C
i
) = Y (u
i
) onde d
u
i
= (ξ
i1
, ..., ξ
ip
)
′
com ξ
ij
= g
j
(C
i
) = Y
j
(u
i
)
(3.13)A partirdamatriz original
X = (x
ij
)
n×p
denimosg
j
para a lasseC
i
omi = 1, ..., k
ej = 1, ..., p
, omoum operadorunião:ξ
ij
:=
[Min
ω
ℓ
∈C
i
{x
ℓj
} , Max
ω
ℓ
∈C
i
{x
ℓj
}]
seY
˜
j
équantitativa{v ∈ Y
j
|∃ω
ℓ
, ω
ℓ
′
∈ C
i
, x
ℓj
≤ v ≤ x
ℓ
′
j
}
seY
˜
j
éordinal{v ∈ Y
j
|∃ω
ℓ
∈ C
i
, x
ℓj
= v}
seY
˜
j
équalitativaou
((m
l
, w
l
) : ∃ ω
ℓ
∈ C
i
, x
ℓj
= m
l
); w
l
dado por (3.11)ou (3.12) seY
˜
j
équalitativaAoapli ar-seooperadorgeneralizadorpodeser originadoum problemaquepassapela
in lusãodeindivíduosatípi osauma lasse,ouseja,in lusãodevaloresqueraramente
são observadosequepodeminuen iarosresultados riandodes riçõesde lassesque
não ree tem as propriedades mais ara terísti as. Se esses indivíduos não forem
onsiderados obtém-se uma des rição mais homogénea do grupo. A este pro esso
é hamado o passo de espe ialização. Através do algoritmo de espe ialização a
generalização ini ialé reduzida ao retirarem-seos indivíduosatípi os.
Critério de qualidade para avaliar a des rição generalizada
A qualidadede um onjuntodes ritor
d
u
i
de umageneralizaçãog
i
dentroda lasseC
i
é medida por uma boa nego iação entre a homegeneidade da distribuição dosindi-víduos ea oberturade
d
u
i
emC
i
. O onjunto oberturaded
u
Ext(s
i
|C
i
) :=
n
ω ∈ C
i
|
Y
e
j
(ω) ∈ ξ
ij
, j = 1, ..., p
o
(3.14)
Neste asoparamediraparsimonia deumageneralizaçãopode-seutilizaro ritério
volume (ver [Brito(1994)℄), queproduz o índi e de generalizaçãode
d
u
i
:vol(d
u
i
) =
p
Y
j=1
µ(ξ
ij
)
(3.15) onde,µ(ξ
ij
) :=
♯ξ
ij
seY
˜
j
énominalMax(ξ
ij
) − Min(ξ
ij
)
seY
˜
j
équantitativaou ordinalDene-se a densidade de um obje tosimbóli o
s
i
omo:den(s
i
) =
♯Ext(s
i
|C
i
)
vol(d
u
i
)
(3.16)
Abasedopassodeespe ializaçãoéreduziro onjunto oberturadeumageneralização
e testarquando essa redução ésu iente em omparação om oresultado daredução
dovolume. Ébaseado nanoção de uma
α
-generalizaçãopara um patamar0 < α < 1
.Denição 3.18 Uma
α
-generalizaçãoé umobje tosimbóli o(a
α
i
, ∈, d
α
u
i
)
hamados
α
i
, tal que: -♯Ext(s
α
i
|C
i
) ≥ α♯C
i
-d
α
u
i
tal que:vol(d
α
u
i
) = Min
d∈B
1
×...×B
p
{vol(d)|♯Ext(s|C
i
) > α♯C
i
}
(3.17)O obje tivo do pro esso de espe ialização é en ontrar um nível
α
que orresponda à melhor nego iação entre a redução do volume e adiminuição da obertura.Para uma dada sequên ia
α
1
> α
2
> ... > α
t
> ... > α
l
> 0
pode ser denida aα
t
-generalizaçãos
αt
i
. Cadas
αt
i
éavaliadode a ordo omasuadensidaderelativadens(s
αt
i
)
dens(s
i
)
,
onde
s
i
é a primeira asserção obtida pela generalização. A melhorα
-generalização orresponde aomelhorrá io de res imentoda urva de densidade relativa,ouseja, oO ritériodovolume não pode ser apli ado om variáveisqualitativase quantitativas
emsimultâneodevidoaproblemasde es ala. Para ontornarestasituaçãoasvariáveis
intervalares devem ser re odi adas em ordinais. Esta odi ação é feita através
de uma distribuição uniforme pelos intervalos, dividindo o intervalo ini ial em
sub-intervalostaisque para ada um deles adistribuição subja ente sejao mais uniforme
possível. Estepro essoéfeitoatravésdoparti ionamentousandoum algoritmo
re ur-sivo quesegue uma regra de paragembaseada noteste dauniformidade, partindoda
hipótese nula: osvaloresobservados seguemuma distribuiçãouniformenointervalo.
Apli ando a dis retização, a des rição
Y
j
(u
i
) = ξ
ij
para uma variável intervalarY
j
, torna-se num onjunto de valores ordinais. Para um aprofundamento deste pontoMétodos Estatísti os de Análise de
Dados para Dados Simbóli os
4.1 Estatísti as Des ritivas
Considere-se que a tabela de dados simbóli os observados
Ξ = (ξ
ij
)
é resultante da observação dep
variáveis simbóli asY
1
, ..., Y
p
para ada elementou
i
do onjuntoE
. A linhai
da matrizΞ
forne e ades rição simbóli a (verSe ção 3.2 Denição 3.7) do elementou
i
∈ E
,denominada por ve tor des riçãod
u
i
:d
u
i
= (ξ
i1
, ..., ξ
ip
)
′
, com u
i
∈ E
Seja
d = (d
1
, ..., d
p
)
um ve tor des rição perten ente ao onjuntoB := B
1
× ... × B
p
.Denição 4.1 Um ve tor des rição
x ≡ (d
1
, ..., d
p
)
′
é umve tordes rição
individ-ual (ver [Bertrand e Goupil (2000)℄), se ada onjunto
d
j
⊆ Y
j
é singular:d
j
= {y
l
}
omy
l
∈ Y
j
para j=1,...,p.Para além do ve tor des ritor individual
x
interessa denir também a dependên ia lógi a quepode existir noespaço dodomínioX = ×
p
j=1
P (Y
j
)
.Se onsiderarmos
A
1
eA
2
dois onjuntos deX
ex
um ve tor des ritor individual qualquer, pode-se formular aregra:v : [x ∈ A
1
] ⇒ [x ∈ A
2
]
(4.1)Denição 4.2 Um ve tor des ritor individual
x ∈ B
satisfaz a regra v:[x ∈ A
1
] ⇒
[x ∈ A
2
]
se e só sex ∈ A
1
∩ A
2
oux /
∈ A
1
. Sex
satisfazv
entãov(x) = 1
, aso ontrário,v(x) = 0
ex
não satisfaz a regra.Representamospor
V
X
o onjuntodetodasasregrasquedes revemtodasas dependên- ias lógi as denidas no espaçoX
.Denição 4.3 A extensão virtual
vir(d)
de um ve tor des ritord
, é onstítuida por todos os ve tores des ritores individuais deB
que satisfazem todas as regras emV
X
,vir(d) := {x ∈ B|v(x) = 1 ∀ v ∈ V
X
}
(4.2)4.1.1 Variáveis Intervalares
Neste aso serão onsideradas
Y
1
, ..., Y
p
variáveis intervalares eY
será uma dasp
variáveis. Parau ∈ E = {u
1
, ..., u
k
}
tem-se o intervaloY (u)
dado por[y
u
, y
u
] ⊆ IR
. Assuma-sequeavariávelY
nãodependelogi amentede nenhumaoutravariáveleque são garantidas as seguintes hipóteses:- Cada observação
u ∈ E
é sele ionada om a mesma probabilidade1
k
;- todos os ve tores des ritores individuais
x ∈ vir(d
u
)
são distribuídos uniforme-menteno intervaloY (u) = [y
u
, y
u
]
.Denição 4.4 Seja
Y
umavariávelintervalardenidaemE
. Afunçãodistribuição empíri adeY
([Bertrand e Goupil (2000)℄)denotadaporF
y
, éafunçãodistribuição onjunta den
distribuições uniformes denidasnos intervalosY (u)
parau ∈ E
.Para um dado número real
t ∈ IR
deduz-se que:F
Y
(t) =
1
k
X
u∈E
P r(x
Y
≤ t | x ∈ vir(d
u
))
(4.3) om,P r(X
Y
≤ t | x ∈ vir(d
u
)) =
0
set < y
u
t−y
u
y
u
−y
u
sey
u
≤ t ≤ y
u
1
sey
u
≤ t
(4.4)Denição 4.5 Considerando que
I
u
(.)
é a função indi atriz do intervaloY (u)
ekY (u)k
o omprimento do intervalo, a função densidade empíri a é dada por:f (t) =
1
k
X
u∈E
I
u
(t)
kY (u)k
=
1
k
X
u∈E
I
u
(t)
y
u
− y
u
, t ∈ IR.
(4.5)Para variáveisintervalarespode denir-seohistograma,quepermiteumavisualização
dadistribuiçãodasfrequên iasdosvalores. Consideremos
I
ointervalo ontendotodos os valores observados para a variávelsimbóli a intervalarY
:I = [Min
n
y
u
|u ∈ E
o
, Max {y
u
|u ∈ E}].
Consideremos também uma partição de
I
emm
intervalosI
J
= [h
j−1
, h
j
]
paraj =
1, ..., m
. O histogramaasso iado à variávelY
om a partiçãodointervalo{I
1
, ..., I
m
}
é arepresentação grá adadistribuiçãode frequên ias{(I
j
, p
j
), j = 1, ..., m}
ondep
j
éaprobabilidadedovalorx
Y
perten er aointervaloI
j
paraumadadove tordes ritor individual.p
j
=
1
k
X
u∈E
kY (u) ∩ I
j
k
kY (u)k
(4.6)Denição 4.6 A média amostral é dada por:
¯
Y =
1
k
X
u∈E
Z
+∞
−∞
I
u
(t)
kY (u)k
tdt =
1
k
X
u∈E
Z
y
u
y
u
t
kY (u)k
dt =
1
k
X
u∈E
y
u
+ y
u
2
(4.7)istoé, amédia amostralde
Y
émédia dos pontosmédios dos intervalos.Denição 4.7 A variân ia amostral é dada por:
s
2
Y
=
1
3k
X
u∈E
(y
2
u
+ y
u
y
u
+ y
2
u
) −
1
4k
2
[
X
u∈E
(y
u
+ y
u
)]
2
,
(4.8)uma vez que
s
Y
=
sZ
+∞
−∞
t
2
f
Y
(t)dt − ¯
Y
2
,
eZ
+∞
−∞
t
2
f
Y
(t)dt =
1
k
X
u∈E
Z
y
u
y
u
t
2
kY (u)k
dt =
1
k
X
u∈E
y
3
u
− y
3
u
3. kY (u)k
=
1
3k
X
u∈E
(y
2
u
+ y
u
y
u
+ y
2
u
).
Considerem-se agora
Y
1
eY
2
duas variáveis simbóli as intervalares om observações no re tânguloD(u) = Y
1
(u) × Y
2
(u) = ([y
1u
, y
1u
], [y
2u
, y
2u
])
para adau ∈ E
.Denição 4.8 A função densidade onjunta para
(Y
1
, Y
2
)
é dada por:f (y
1
, y
2
) =
1
k
X
u∈E
I
u
(y
1
, y
2
)
kD(u)k
(4.9)om
I
u
(y
1
, y
2
)
a função indi atriz do re tânguloD(u)
de áreakD(u)k
. Denição 4.9 A função ovariân ia amostral simbóli a é dada por:s
Y
1
,Y
2
=
Z
+∞
−∞
(y
1
− ¯
Y
1
)(y
2
− ¯
Y
2
)f (y
1
, y
2
)dy
1
dy
2
=
1
k
X
u∈E
1
(y
1u
− y
1u
)(y
2u
− y
2u
)
×
Z Z
(y
1
,y
2
)∈Y (u)
y
1
y
2
dy
1
dy
2
− ¯
Y
1
Y
¯
2
=
1
4k
X
u∈E
(y
1u
+ y
1u
)(y
2u
+ y
2u
) −
1
4k
2
[
X
u∈E
(y
1u
+ y
1u
)][
X
u∈E
(y
2u
+ y
2u
)]
(4.10)Denição 4.10 A função orrelação amostral simbóli a entre duas variáveis
intervalares
Y
1
eY
2
é dada por:r(Y
1
, Y
2
) =
s
Y
1
Y
2
q
(s
Y
2
1
)(s
Y
2
2
)
(4.11) ondes
Y
1
Y
2
é dada por (4.10) es
2
Y
1
es
2
Y
2
são dados por (4.8).Note-se que om as denições supra, a variân ia amostral não é um aso parti ular
da ovariân ia, isto é,
S
Y Y
é diferente deS
2
Y
. Isto resulta de a denição de ovar-iân ia envolver a integração num re tângulo, enquanto que no ál ulo da variân ia aintegração éefe tuada num segmento de re ta.
Para ultrapassar este problema, Billard ([Billard(2007)℄) props re entemente uma
denição alternativa para a ovariân ia,dada por