Análise simbólica de dados e a sua aplicação na extracção de informação de estatísticas oficiais: análise do inquérito à ocupação do tempo

(1)

de Informação de Estatísti as O iais:

Análise do Inquérito à O upação do Tempo

por

Vera MariaFernández de Campos

Dissertação apresentada omo requisito

par ialpara a obtenção dograu de

Mestre em Estatísti ae Gestão daInformação

pelo

Instituto Superior de Estatísti a eGestão daInformação

da

(2)

MariaPaula Brito

Fa uldade de E onomia daUniversidade doPorto

Sob a o-orientação de

Carlos Mar elo

Instituto Na ionalde Estatísti a

(3)

Ao nalizar a elaboração desta dissertação gostaria de agrade er a todos os que

ontribuírampara queeste trabalhofosse on luído.

Gostariade agrade er espe ialmenteà Professora Paula Brito aforma omo orientou

o meu trabalhoe aforma omo sempre me re ebeu e estimulou.

Finalmente, um agrade imentoaoDr. CarlosMar elo pelaorientaçãoque medeu na

(4)

Pretende-se om opresentetrabalhoestudareapli arasté ni as daAnálisede Dados

Simbóli os. O tema tem omo obje tivo des rever e estudar métodos de Análise de

Dados Simbóli os e a sua apli açãonas Estatísti as O iais. Como apli açãopráti a

é analisado o estudo do Inquérito à O upação do Tempo, realizado pelo INE. Neste

trabalho faz-se uma exposição dos on eitos gerais da Análise de Dados Simbóli os,

nomeadamente os on eitos bási os, os tipos de variáveis simbóli as, a geração dos

obje tos simbóli os, as estatísti as des ritivas e alguns métodos de lassi ação

hi-erárqui a e não-hierárqui a. A análise dos dados parte de uma base de mi ro-dados

que será trabalhada agregando os dados segundo diferentes níveis (ma ro-dados), de

forma a ara terizar as regiões de Portugal, segmentadas por sexo e grupo etário,

quanto à forma omo o upam o seu tempo diário, asso iando ainda o sentimento de

(5)

With this work we intend to explore and study the main methods of Symboli Data

Analysis. Theobje tiveistodes ribeandstudythetheoryofSymboli DataAnalysis,

havingaspra ti alappli ationtotheanalysisofTimeUseSurvey, olle tedbythe

Por-tugueseNationalInstituteofStatisti s. Inthisworkwemakeadetailedpresentationof

the main on epts of Symboli Data Analysis, parti ularlythe basi on epts, types

of symboli variables, generation of symboli data, des riptive statisti s, and some

methods of hierar hi al and non-hierar hi al lustering. In the pra ti al appli ation,

thestatisti aldataset(mi ro-data)isaggregatedindierentlevels(ma ro-data). The

aimof thiswork istostudy the o upationoftime inthedierentregionsinPortugal

separatedby thegenderandage,asso iatedwiththeindividual'sper eptionoffeeling

(6)

(7)

Índi e de Tabelas 10 Índi e de Figuras 15 1 Introdução 17 1.1 Estrutura daDissertação . . . 17 1.2 Enquadramento . . . 18 1.3 Obje tivos e Metodologia. . . 18 2 História e Evolução 21 2.1 Denições e Con eitos Geraisda Análise de Dados. . . 22

3 Dados Simbóli os 25 3.1 VariáveisSimbóli as . . . 25

3.2 Obje tos Simbóli os . . . 27

3.3 Geraçãode Obje tos Simbóli os . . . 32

3.3.1 Intera ção om aBase de Dados. . . 33

3.3.2 OperadorGeneralizador . . . 36

4 Métodos Estatísti os de Análise de Dados para Dados Simbóli os 39 4.1 Estatísti as Des ritivas . . . 39

4.1.1 Variáveis Intervalares . . . 40

(8)

4.2.1 Classi ação Hierárqui apelométodoDivisivo . . . 44

4.2.2 Hierarquias e Pirâmides . . . 48

4.2.3 Classi ação Simbóli a Não-Hierárqui a . . . 56

5 Des rição e Geração dos Dados 67 5.1 Inquérito à O upação doTempo . . . 67

5.2 Variáveis Clássi as . . . 68

5.3 SODAS Software . . . 72

5.4 Geraçãodos DadosSimbóli os . . . 73

6 Análises Simbóli as 77 6.1 Estatísti as Des ritivas . . . 77

6.2 Análise Classi atória . . . 104

6.2.1 MétodoDivisivo. . . 104

6.2.2 Métodoem Hierarquia ePirâmide . . . 113

6.2.3 Classi ação Não-Hierárqui a: MétodoSCLUST . . . 136

6.2.4 Comparação dos resultados obtidos métodos de lassi ação . . 148

7 Considerações nais 151

Bibliograa 153

(9)

4.1 Matrizdefrequên iasasso iadasàs ategorias . . . 46

4.2 Operadoresdegeneralizaçãoemedidas orrespondentes . . . 54

4.3 Matrizdefrequên ias. . . 62

6.1 Resumodas lassesformadaspelométodoDIV-Região/Sexo,variáveisintervalares 107

6.2 Resumodas lasses formadaspelo método DIV- Região/Sexo/Grupo Etário,

var-iáveisintervalares . . . 108

6.3 Resumodas lassesformadaspelométodoDIV-Região/Sexo,variáveismodais . . 111

6.4 Resumodas lasses formadaspelo método DIV- Região/Sexo/Grupo Etário,

var-iáveismodais . . . 112

6.5 Comparaçãoda lassi açãoemHierarquiaeemPirâmide-Região/Sexo,variáveis

intervalares . . . 120

6.6 Comparação da lassi ação em Hierarquia e em Pirâmide - Região/Sexo/Grupo

Etário,variáveisintervalares . . . 120

6.7 Comparaçãoda lassi açãoemHierarquia oma lassi açãoemPirâmide-Região/Sexo,

variáveismodais . . . 126

Etário,variáveismodais . . . 127

Etário,faixasetáriasmaisjovens omvariáveisintervalares . . . 132

Etário,faixasetáriasmaisjovens omvariáveismodais . . . 135

6.11 Resumodas lassesformadaspelométodoSCLUST-Região/Sexo,variáveis

(10)

6.13 Resumodas lassesformadaspelométodoSCLUST-Região/Sexo,variáveismodais 147

6.14 Resumo das lasses formadaspelo método SCLUST- Região/Sexo/Grupo Etário,

(11)

4.1 Simpli açãodeumaPirâmide . . . 55

5.1 SODAS - haining . . . 72

5.2 Ex ertoBaseDadosA ess-Região/Sexo . . . 74

5.3 Ex erto heiroSODAS -Região/Sexo/GrupoEtário . . . 75

6.1 Distribuiçõesdefrequên iasdasvariáveisintervalares-Região/Sexo . . . 78

6.2 Distribuiçõesdefrequên iasdasvariáveisintervalares-Região/Sexo/GrupoEtário . 79 6.3 Estrela2DRN/F . . . 79

6.4 Estrela2DRLVT/F . . . 80

6.5 Estrela2DRA/F . . . 80

6.6 Estrela2D- Obje toSimbóli oRLVT/M . . . 81

6.7 Estrela2D- Obje toSimbóli oRN/M . . . 81

6.8 Estrela2D- Obje toSimbóli oRA/M . . . 82

6.9 Estrela2DSuperimpose-Obje tosSimbóli osRN/F/15-24eRN/F/25-34 . . . . 83

6.10 Estrela2DSuperimpose-Obje tosSimbóli osRN/M/15-24eRN/M/25-34 . . . . 83

6.11 Estrela2DSuperimpose-Obje tosSimbóli osRLVT/F/15-24eRLVT/F/25-34 . . 84

6.12 Estrela2DSuperimpose-Obje tosSimbóli osRLVT/M/15-24eRLVT/M/25-34 . 84 6.13 Estrela2DSuperimpose-Obje tosSimbóli osRA/F/15-24eRA/F/25-34 . . . . 85

6.14 Estrela2DSuperimpose-Obje tosSimbóli osRA/M/15-24eRA/M/25-34 . . . . 85

6.15 Estatísti asbási asdasvariáveisintervalares-Região/Sexo . . . 86

(12)

6.18 ComparaçãodasMédiasdasvariáveisintervalares-Região/Sexo . . . 88

6.19 Bi-plotdasvariáveisintervalaresRoupaeCalçado eCuidarde rianças -Região/Sexo 89 6.20 Bi-plotdasvariáveisintervalaresLazer passivo eEstudo -Região/Sexo . . . 90

6.21 Estatísti asbási asdasvariáveisintervalares-Região/Sexo/GrupoEtario . . . 90

6.22 Bi-plotdasvariáveisintervalaresArranjo- asaePrep-alimentos-Região/Sexo/Grupo Etario . . . 91

6.23 Bi-plotdasvariáveisintervalaresLazerpassivoeDormir -Região/Sexo/GrupoEtario 92 6.24 Capa idadesdasvariáveisApressado eFreq-apressado -Região/Sexo . . . 93

6.25 Capa idades das variáveis Apressado-5anos, Apressado-3anos, Apressado-1ano -Região/Sexo . . . 93

6.26 Capa idadesdasvariáveisvp-ntft,tem-fds etempo-disp -Região/Sexo . . . 94

6.27 Min/Max/MedvariáveisApressado eFreq-apressado- Região/Sexo . . . 94

6.28 Min/Max/Med variáveis Apressado-5anos, Apressado-3anos e Apressado-1ano -Região/Sexo . . . 95

6.29 Min/Max/Medvariáveisvp-ntft,tem-fds,tempo-disp -Região/Sexo . . . 96

6.30 Capa idadesdasvariáveisApressado eFreq-apressado -Região/Sexo/GrupoEtário 96 6.31 Capa idades das variáveis Apressado-5anos, Apressado-3anos e Apressado-1ano -Região/Sexo/GrupoEtário . . . 97

6.32 Capa idadesdasvariáveisvp-ntft,tem-fds,tempo-disp -Região/Sexo/GrupoEtário 97 6.33 Min/Max/MedvariáveisApressado eFreq-apressado- Região/Sexo/GrupoEtário . 98 6.34 Min/Max/Med variáveis Apressado-5anos, Apressado-3anos e Apressado-1ano -Região/Sexo/GrupoEtário . . . 98

6.35 Min/Max/Medvariáveisvp-ntft,tem-fds,tempo-disp -Região/Sexo/GrupoEtário . 99 6.36 Estrela3DSuperimpose -Obje tosSimbóli osRN/F,RC/F, RLVT/F . . . 100

6.37 Estrela3DSuperimpose -Obje tosSimbóli osRA/F,RALG/F. . . 100

6.38 Estrela3DSuperimpose -Obje tosSimbóli osRN/M,RC/M,RLVT/M . . . 101

(13)

24RC/F/15-24RN/F/15-24 . . . 102

6.41 Estrela3DSuperimpose-Obje tosSimbóli os-RALF/M/15-24RA/M/15-24RL VT/M/15-24RC/M/15-24RN/M/15-24. . . 102

6.42 Estrela3DSuperimpose-Obje tosSimbóli os-RALF/F/25-34RA/F/25-34RL VT/F/25-34RC/F/25-34RN/F/25-34 . . . 103

6.43 Estrela3DSuperimpose-Obje tosSimbóli os-RALG/M/25-34RA/M/25-34RL VT/M/25-34RC/M/25-34RN/M/25-34. . . 103

6.44 Classif açãoDivisiva-Região/Sexo,variáveisintervalares . . . 105

6.45 Classif açãoDivisiva-Região/Sexo/GrupoEtário,variáveisintervalares. . . 106

6.46 Classif açãoDivisiva-Região/Sexo,variáveismodais. . . 109

6.47 Classif açãoDivisiva-Região/Sexo/GrupoEtário,variáveismodais . . . 110

6.48 Classi açãoemHierarquia-Região/Sexo,variáveisintervalares . . . 113

6.49 Classi açãoemHierarquia-Região/Sexo, lasses7/9e8/9 . . . 114

6.50 Classi açãoemPirâmide-Região/Sexo,variáveisintervalares . . . 115

6.51 Classi açãoemPirâmide-Região/Sexo, lasses40/45e41/45 . . . 116

6.52 Classi açãoemHierarquia-Região/Sexo/GrupoEtário, lasses31/39e38/39 . . 117

6.54 Classi açãoemPirâmide-Região/Sexo/GrupoEtário,variáveisintervalares . . . 119

6.55 Classi açãoemHierarquia-Região/Sexo,variáveismodais . . . 121

6.56 Estrela3DSuperimpose- lasses1/9e8/9 . . . 121

6.57 Pirâmide-Região/Sexo,variáveismodais . . . 122

6.58 Estrela3DSuperimpose- lasses35/45e36/45 . . . 122

6.59 Classi açãoemHierarquia-Região/Sexo/GrupoEtário, variáveismodais . . . . 123

6.60 Classi açãoemHierarquia-Região/Sexo/GrupoEtário, lasse36/49 . . . 124

6.62 Classi açãoemPirâmide-Região/Sexo/GrupoEtário,variáveismodais . . . 125

6.63 Classi açãoemPirâmide - Região/Sexo/Grupo Etário, lasses355/460,422/460, 451/460 . . . 126

(14)

6.65 Estrela-Região/Sexo/GrupoEtário, lasses17/19e18/19 . . . 128

6.66 Classi açãoemPirâmide -Região/Sexo/GrupoEtário,variáveisintervalares . . . 129

6.67 Pruning daPirâmide-Região/Sexo/GrupoEtário,variáveisintervalares. . . 129

6.68 Classi ação em Pirâmide - Região/Sexo/Grupo Etário, lasses 17/114, 34/114 e 104/114 . . . 131

6.69 Hierarquia-Região/Sexo/GrupoEtário, variáveismodais . . . 133

6.70 Hierarquia- lasses15/19e18/19. . . 133

6.71 Pirâmide-Região/Sexo/GrupoEtário, variáveismodais . . . 134

6.72 Pirâmide- lasse80/174 . . . 134

6.73 Pirâmide- lasse142/174. . . 135

6.74 Pirâmide- lasse112/174. . . 135

6.75 SCLUST -Região/Sexo -métodosdeCalinskiandHarabasz,C-indexe

Γ

-index . . 136

6.76 SCLUST -Região/Sexo -variáveisintervalares . . . 137

6.77 SCLUST -Região/Sexo -Índi edequalidadee ontribuiçãodas lasses . . . 137

6.78 SCLUST -Região/Sexo -Índi edequalidadedasvariáveisintervalares . . . 138

6.79 SCLUST -Região/Sexo -Cara terizaçãodas lassespelasvariáveisintervalares . . 138

6.80 SCLUST-Região/Sexo/GrupoEtário-métodosdeCalinskiandHarabasz,C-index e

Γ

-index . . . 139

6.81 SCLUST -Região/Sexo/GrupoEtário -variáveisintervalares. . . 140

6.82 SCLUST -Região/Sexo/GrupoEtário -Índi edequalidadee ontribuiçãodas lasses140 6.83 SCLUST -Região/Sexo/GrupoEtário -Índi edequalidadedasvariáveisintervalares141 6.84 SCLUST - Região/Sexo/GrupoEtário - Cara terizaçãodas lassespelas variáveis intervalares . . . 142

6.85 SCLUST -Região/Sexo -variáveismodais . . . 144

6.86 SCLUST -Região/Sexo -Índi edequalidadee ontribuiçãodas lasses . . . 144

6.87 SCLUST -Região/Sexo -Índi edequalidadedasvariáveismodais . . . 145

6.88 SCLUST -Região/Sexo -Cara terizaçãodas lassespelasvariáveismodais . . . . 145

(15)

6.91 SCLUST -Região/Sexo/GrupoEtário -Índi edequalidadedasvariáveismodais . 147

6.92 SCLUST -Região/Sexo/GrupoEtário -Cara terizaçãodas lassespelas variáveis

(16)

(17)

Introdução

1.1 Estrutura da Dissertação

No Capítulo1 destadissertação éfeita umaintroduçãoaotema emestudo,aAnálise

de Dados Simbóli os, des revendo-se os obje tivos e metodologia utilizados neste

trabalho. No Capítulo 2fazemos um resumo históri oda teoria daAnálise de Dados

Simbóli os, onde são eviden iados alguns trabalhos importantes para o avanço desta

áreaesedes revemalgumasapli açõespráti asrelevantes. Oestudoteóri odosdados

simbóli os evariáveissimbóli asestá presente noCapítulo3,assim omodopro esso

de onstrução das lasses egeneralização dos obje tos simbóli os. No Capítulo4 são

expostos os métodos estatísti os des ritivos e de lassi ação para dados simbóli os,

utilizados na análise dos dados. As estatísti as des ritivas univariadas e bivariadas

apresentadasnaSe ção4.1,referem-seaos asosdasvariáveisintervalaresemodais,de

quenos o uparemosneste trabalho. Osmétodosde lassi ação dis utidos naSe ção

4.2, são a lassi ação hierárqui a pelo Método Divisivo, a lassi ação hierárqui a

om representações em Pirâmide e Hierarquia e a lassi ação não hierárqui a pelo

Métododas Nuvens Dinâmi as.

A apli ação práti a das té ni as de Análise Simbóli a ao Inquérito à O upação do

Tempo é efe tuadanos Capítulos 5 e 6. Na Se ção 5.1 des revem-se os questionários

utilizados e na Se ção 5.2 as variáveis lássi as es olhidas para análise. Na Se ção

5.3 des reve-se o software SODAS utilizado no tratamento dos dados. A geração

dos dados simbóli os a partir dos mi ro-dados é feita na Se ção 5.4. Na Se ção 6.1

são apresentadososresultados obtidos omasestatísti as des ritivaserepresentações

em estrela das des rições dos obje tos simbóli os. Na Se ção 6.2 são apresentados e

(18)

Por último os resultados são dis utidos globalmente no Capítulo 7. O Capítulo 8

on lui adissertação, apresentando perspe tivasde trabalhofuturo.

1.2 Enquadramento

Os dados simbóli os permitem generalizar os métodos de análise exploratória,

es-tatísti a e grá a a dados omplexos, que ultrapassam o modelo tabular usual - em

que a ada indivíduo, em linha, está asso iado um úni o valor de ada variável, em

oluna. Estão neste aso os dados que des revem lasses ou grupos de indivíduos

mais ou menos homogéneos - obje tos de segunda ordem ou ma ro-dados - em vez

de asos individuais - obje tos de primeira ordem ou mi ro-dados. A Análise

Sim-bóli ade Dados(ASD) estende omodelo tabular usual permitindovalores múltiplos,

eventualmente ponderados, para ada variável des ritora, o que permite representar

a variabilidade e/ou in erteza ontida nos dados. Surgem assim as ditas matrizes

de dados simbóli os,em que ada élula não ontém ne essariamente um valorúni o

quantitativoouuma ategoria;uma élulapode onter,porexemplo,umadistribuição

sobre um onjunto de ategorias possíveis ou um intervalo de valores, ou ainda um

onjuntodevaloresligadosporumataxonomiaouporregras. Destaformapermite-se

ades riçãodeunidades omplexasou on eitos,aobtençãodeinformaçãomaispre isa

ou a sumarização de extensos onjuntos de dados armazenados em grandes bases de

dados.

Dados simbóli os o orrem em muitas situações, por exemplo, ao sumariar grandes

onjuntosde dados ouaodes rever on eitos subja entes auma base de dados - uma

idade,um grupo só io-demográ o,um enário de a identes. Um onjunto de dados

simbóli os pode ser estruturado de forma inerente ou resultar da agregação de um

onjuntode dados lássi os.

1.3 Obje tivos e Metodologia

Os métodos de Análise Simbóli a de Dados são uma extensão da Análise de Dados

tradi ional, adequados para analisar matrizes de dados simbóli os. É uma área

em pleno desenvolvimento que obteve um grande avanço om o Proje to Europeu

Symboli O ial Data Analysis System (SODAS), seguido do proje to Analysis

(19)

dautilizaçãodas té ni as de Análise Simbóli ae dosoftware desenvolvido, naanálise

de informação produzida no âmbito das Estatísti as O iais. A Análise de Dados

Simbóli os tem uma importante apli ação na área das Estatísti as O iais: omo,

porlei, osInstitutosNa ionais de Estatísti aestão proibidosde divulgar informações

individuais,osdadossão previamenteagregados porrazõesde onden ialidade

(seg-redo estatísti o) antes de serem distribuídosa qualquer outraagên iagovernamental,

indivíduo ou empresa; a ASD forne e instrumentos adequados para analisar estes

dadosagregados. Deummodogeral, omestetrabalho,pretende-semostraragrande

utilidadee mais-valiada utilizaçãodestas té ni as naanálise de Estatísti as O iais.

Em parti ular, será analisado o Inquérito à O upação do Tempo, realizado pelo

Instituto Na ional de Estatísti a (INE). O estudo do inquérito pretende ara terizar

as regiões de Portugal, segmentadas por sexo e grupo etário, quanto à forma omo

o upam o seu tempo diário, asso iando ainda o sentimento de pressa vivido nestas

áreas. Paraesteefeitosãoutilizadasmedidasestatísti asdesumarizaçãoevisualização

e vários métodos de lassi ação simbóli a.

Para a elaboração deste trabalho foi ne essária a ooperação do Instituto Na ional

de Estatísti a, no que diz respeito ao a esso aos dados do Inquérito à O upação do

Tempo. Para esse efeito, foi ne essário efe tuar a reden iação omo investigadora

juntodoObservatório daCiên iae EnsinoSuperior(OCES)doMinistériodaCiên ia

eEnsinoSuperior(MCES),quepermitiuaoabrigodoproto oloINE/MCES tera esso

(20)

(21)

História e Evolução

Desde os primeiros artigos des revendo os prin ípios bási os da Análise Simbóli a

de Dados, Diday em 1981, 1988 e 1989, até ao livro que irá ser agora publi ado por

[Diday e Noirhomme-Fraiture(2008)℄,foramdesenvolvidasmuitasté ni asnestaárea.

Os métodos de Análise Simbóli a sofreram um grande avanço om proje to Europeu

SODAS desenvolvido de 1997 a 1999, por 17 grupos de investigadores in luindo três

Institutos Na ionais de Estatísti a (EUSTAT - Espanha, INE - Portugal e ONS

-Inglaterra). Oresultado desteproje tofoiodesenvolvimentodosoftware SODAS e a

publi ação de um livro[Bo k eDiday (2000)℄. O proje to ASSO, foi desenvolvido de

2001 a 2003 através da Information So iety Te hnologies Program om o obje tivo

de explorar métodos e ferramentas de Software para resolver problemas de análise

simbóli a em bases de dados de Estatísti as O iais.

Métodos de Análise Simbóli a de Dados in luem métodos de des rição univariada,

métodos de visualização, lassi ação, análise dis riminante, árvores de de isão,

re-gressão,análisefa torial,et .,quepermitemanalisarmatrizesdedadossimbóli os. No

desenvolvimento teóri o, trabalhos importantes impulsionaram o avanço de algumas

té ni as da ASD, a título de exemplo poderemos itar: Cazes, P., Chouakria, A.,

Diday, E. e S he ktman, Y. na análise fa torial [Cazeset al. (1990)℄; Gowda, C.

e Diday, E. [Gowda eDiday (1992)℄ e De Carvalho [De Carvalho (1998)℄ no ál ulo

de dissemelhanças entre obje tos simbóli os; Brito, P. [Brito (1991)℄, Chavent, M.

[Chavent (1997)℄ e Rodriguez, O. [Rodriguez(2000)℄, nas té ni as de análise

lassi- atóriasimbóli a;Billard,L.eDiday,E.[Billard eDiday (2003)℄publi amumasíntese

daASD noJournal of the Ameri an Statisti al Asso iation.

Apli açõesefe tuadasdizemrespeito,porexemplo,àdes riçãode enáriosdea identes

(22)

[Calvo (2000)℄;estudosobreao upaçãodotemponoPaísBas o[Mas e Olaeta(2002)℄;

o estudo de uma base de dados de 156 países agrupados por um erto número de

on eitos segundo o nível de riqueza [Soussi (2003)℄; o estudo na análise da gestão

administrativade uma idadeatravésdas opiniõesa er a dosserviços, es olas,trá o

[Lima e De Carvalho (2003)℄. Foram já efe tuados trabalhos em Portugal no

âm-bito das Estatísti as O iais, nomeadamente, ao nível da ara terização do emprego

[Mar elo (2001)℄,e apli açãoda ASD nas Estatísti as O iais [Mar elo(2002)℄.

Como ponto de partida, foi utilizado o estudo realizado por [Mas e Olaeta(2002)℄

no País Bas o, a partir do Inquérito à O upação do Tempo realizado pelo Eustat

(Instituto de Estatísti a do país Bas o). A apli ação práti a deste trabalho é feita

om re urso aosoftware SODAS.

2.1 Denições e Con eitos Gerais da Análise de

Da-dos

Osmétodosdaanálise lássi aforamdesenhadosparaestudardadossem omplexidade

e que des revam uma situação simples. Os dados são obtidos a partir de indivíduos

singulares, os quaissão des ritos por variáveisque tomamum úni o valor.

A análise lássi a parte de um onjunto

Ω = {ω

1 , ..., ω

n

}

de obje tos ou indivíduos que são ara terizados por

p

variáveis

Y

˜

1

,...,

Y

˜

p

. Cada variável

Y

˜

j

toma valores noseu domínio ou espaço de observação

Y

j

. Para ada indivíduo

ω

i

a variável realiza um úni o valor

Y

˜

j

(ω

i

)

. Uma variável lássi a é denida por uma apli ação de

Ω

para

Y

j

, tal que

x

ij

=

Y

˜

j

(ω

i

)

é o valor observado para o indivíduo

ω

i

. A matriz

X = (x

ij

)

reúne toda ainformação, sendo ove tor das

p

variáveis denido por

X = ( ˜

Y

1 , ..., ˜

Y

p

)

′

e o ve tor das

p

observações, para o indivíduo

ω

i

, denido por

X(i) = (x

i1

, ..., x

ip

)

′

.

Atendendo ao tipo de valores que

Y

j

pode tomar, as variáveis dividem-se em dois grandes grupos: quantitativas ouqualitativas.

Denição 2.1 Variáveis quantitativas sãovariáveisnuméri as tal queo onjunto

dos seus valores possíveisé idênti o ou está ontido em

IR

. Se o onjunto dos valores possíveis é ontínuo não-numerável a variável diz-se ontínua, aso ontrário diz-se

dis reta e toma valores num onjunto numerável (nito ou não).

(23)

val-variáveis subdividem-se em nominais (sem estrutura interna) e ordinais (existe uma

ordem linear entre os valores possíveis), onsideram-se ainda neste último aso as

variáveis ordinais generalizadas, omo as taxonomias(ver [Bo k e Diday (2000a)℄).

Sobre as variáveis quantitativas e qualitativas podem ser apli adas relações lógi as

dandoorigemàsvariáveisdependentes. Esta dependên iapodeser lógi a,hierárqui a

ouesto ásti a. Noâmbitodestetrabalhoserão onsideradasapenasasvariáveis

depen-dentes logi amente e hierarqui amente. Sobre a dependên ia esto ásti a onsulte-se

[Bo k e Diday (2000a)℄.

.

Exemplo 2.1 Se

Y

=tipo-famíliae

Z

=Bebés,tem-seumapossívelregrade dependên- ia,

Z é não apli ável

Exemplo 2.2 Se

Y

=sentequeandaapressado om

Y

=

{

Sim, Não

}

e

Z

=apressado relativamenteaoanopassado om

Z

=

{

na mesma,mais apressado, menos apressado

}

vem, para

Y

′

_{= {}

(24)

(25)

Dados Simbóli os

3.1 Variáveis Simbóli as

Comojáfoireferidoanteriormente,naanálisededados lássi a,asvariáveistomamum

úni o valor ou ategoria para ada indivíduo,enquanto quepara os dados simbóli os

asvariáveispodemtambémassumir onjuntos de valoresou ategorias, ontendouma

variaçãointerna. Se onsiderarmosum onjuntodedadosde lássi os, adaobservação

orresponde auma úni a realização davariável,ouseja, arepresentação noespaço

p

-dimensional orresponde aum úni oponto,enquantoque paradados simbóli os ada

realização será um hiper ubo no espaço

p

-dimensional ou no produto artesiano de distribuições.

Um onjuntode dadossimbóli osé onstituídopelos indivíduosquesão denominados

por unidades ou obje tos, e pelas variáveis simbóli as que des revem as unidades.

As unidades ou obje tos, podem ser por natureza dados estruturados ou podem ser

obtidos a partir de dados lássi os através da agregação. A onstrução de lasses a

partir de unidades singulares é um on eito, paradigma dois níveis, que pode

ser estendido ao ter eiro nível ou mais. Ini ialmente, onsidera-se o onjunto

Ω =

{ω

1 , ..., ω

n

}

formado pelos indivíduos ou obje tos de primeira ordem des ritos por variáveis lássi as ou single. O onjunto

E = {u

1 , ..., u

k

}

será o onjunto dos elementos ou obje tos de segunda ordem, que neste aso são lasses formadas pelos

indivíduos de

Ω

. O obje tivo é ara terizar omo se omportam as lasses denidas om respeito às variáveis lássi as. Para dar resposta a este problema denem-se as

variáveissimbóli asque permitemdes rever este tipode obje tos.

(26)

omonaanálisededados lássi aeaindaintervalar, ategóri amultivaluadaoumodal,

no aso daanálise simbóli a.

As denições que seseguem têm suporte em[Bo k e Diday (2000a)℄.

Asvariáveismultivaluadaspodemassumirtodosossub onjuntosnitosdoseudomínio,

ou seja,assumem um onjunto de valores para adaunidade.

Uma variável simbóli a

Y

diz-se intervalar se os seus valores são intervalos de

IR

, e diz-se ategóri a multivaluada se os seus valores são onjuntos nitos de ategorias.

A variável modalé o aso mais omplexo,pois faz orresponder uma medidaou uma

distribuição de probabilidadesa ada obje toouunidade.

Denição 3.1 Uma variável simbóli a

Y

j

om domínio subja ente

Y

j

, é uma apli- ação,

Y

j

: E −→ B

j

u −→ Y

j

(u)

(3.1)

om

u ∈ E

(indivíduos ou lasses)e

B

j

o onjunto onde a variável toma valores.

j

é um onjunto nito de ategorias,

B

j

= P (Y

j

)

o onjunto das partes de

Y

j

não vaziase

Y

j

(u) ⊆ Y

j

.

Exemplo 3.1 Se

E = {

Região Norte, Região Centro, ...

}

om

(27)

Y

j

é intervalar, se

Y

j

é

IR

ou umintervalo em

IR

e

B

j

é o onjunto dos intervalos de

Y

j

, tal que para

u ∈ E

,

Y

j

(u) = [α, β]

om

α, β ∈ Y

j

e

α ≤ β

.

Exemplo 3.2 Seja

E = {Casalc/filhos, individual, monoparentalc/filhos}

Y

1

=número de minutos a dormir por dia e

Y

1 = [0; +∞[

, pode-se obter para

u =

individual

Y

1 (individual) = [300, 500]

Y

j

é modal se

B

j

= M(Y

j

)

é uma família de dis-tribuiçõesde frequên ias ou pesossobre

Y

j

. Paraqualquer

Y

j

.

Exemplo 3.3 Seja

E = {Casalc/filhos, individual, monoparentalc/filhos}

Y

1

=sente-se apressado e

Y

1

=

{

Sim, Não

}

, pode-se obter para

u = Casalc/f ilhos

Y

1 (Casalc/f ilhos)

=(Sim(0.7),Não(0.3))

Um aso bastante importante dentro das variáveis modais são as 'variáveis

his-tograma'. Consideremos

Ω

o onjunto dos indivíduos singulares e

Y

˜

uma variável quantitativasingle omdomínio

Y = IR

. Seja

E

o onjuntodetodosossub onjuntos não vazios de indivíduos e

C ∈ E

uma lasse de obje tos singulares agregados.

C

pode assim ser des rita pela variável simbóli a histograma, ujos valores

Y (C)

são espe i ados por um histograma des revendo a distribuiçãoempíri a de

Y

˜

em

C

.

3.2 Obje tos Simbóli os

Uma matriz de dados simbóli os, por oposição à matriz lássi a re tangular,

pode onter assim em ada élula onjuntos, intervalos, histogramas, distribuições

de frequên ias, et . A matriz dos dados simbóli os reúne toda a informação e é

(28)

Ξ :=







ξ

11 ξ

12 · · · ξ

1p

ξ

21 ξ

22 · · · ξ

2p

. . . . . . . . .

ξ

k1

ξ

k2

· · · ξ

kp







om

ξ

ij

= Y

j

(u

i

)

o valorobservado da

j

-ésima variávelpara o obje to

u

i

.

Cada linha damatriz de dados lássi a

X = (x

ij

)

des reve um elemento

ω

i

∈ Ω

om valores

Y

e

j

(ω

i

) = x

ij

do domínio

Y

j

. De formasemelhante, para uma matrizde dados simbóli os

Ξ = (ξ

ij

)

,alinha

ξ

i

= (ξ

i1

, ..., ξ

ip

)

′

des reve oelemento

u

i

∈ E

pelosvalores simbóli os

Y

j

(u

i

) = ξ

ij

de um onjunto

B

j

quepode ser,

Y

j

,

P (Y

j

)

ou

M(Y

j

)

.

Se o ve tor

Ξ(u

i

) := (Y

1 (u

i

), ..., Y

p

(u

i

))

′

engloba todas as variáveis des ritoras do

obje to

u

i

então:

- ada obje to

u

i

∈ E

é des ritopelo ve tor simbóli o

(ξ

i1

, ..., ξ

ip

)

′

;

- ada linha damatriz

Ξ

é uma des rição simbóli adoobje to

u

i

dada pelas

p

variáveis.

Denição 3.7 Seja

Y

j

, om

j = 1, ..., p

uma variávelsimbóli a de domínio

Y

j

e

B

j

o onjunto onde a variável toma os seus valores.

- O espaço das des rições ou onjunto de todas as des rições é representado

por

B = B

1 × ... × B

p

.

- Considerando que

d

j

∈ B

j

tem-se que

d = (d

1 , ..., d

p

) ∈ B

é uma des rição ou ve tor des rição.

Para qualquer

u

i

∈ E

a des rição

d

u

i

= (d

u

i

1 , ..., d

u

i

p

)

orresponde à linha da matriz simbóli a

(Y

1 (u

i

), ..., Y

p

(u

i

))

′

=

(ξ

i1

, ..., ξ

ip

)

′

. Cada valor observado por uma variável

para determinado obje to orresponde auma des rição par ialdesse obje to.

Umobje tosimbóli oé ara terizadopelove torde variáveisY, umades rição

d ∈ B

eumarelação

devolvem uma des rição intensional, ou seja, espe i am as propriedades desejadas, a apli ação

a

e a sua extensão indi am o onjunto dos elementos queveri amessas propriedades.

Denição 3.8 Um obje to simbóli o, [Bo k e Diday (2000a)℄, é um tripleto

s =

(a, R, d)

emque

d ∈ B

é uma des rição, R é uma relação entre des rições e

a

é uma apli ação de

E → L

om L=[0;1℄, que asso ia aos elementos

u ∈ E

um valor de L dependendo da relação R.

A relação

R

permitedeterminar quaisoselementos

u ∈ E

que veri ama des rição

d

doobje tosimbóli o

s

.

Sejam

Y, Z

dois onjuntos quaisquere

Y × Z

oproduto artesiano ontendo todos os pares

(y, z)

om

y ∈ Y

e

z ∈ Z

.

Denição 3.9 Uma relação

R

está asso iada a uma função binária, denida no produto artesiano

Y × Z

, om

φ(y, z) := [yRz]

tomando valores no onjunto

{0, 1}

. Para o par

(y, z)

a relação é verdadeira se

φ(y, z) = 1

e, por onseguinte, é falsa se

φ(y, z) = 0

.

As relações podem assumir diversas formas tais omo,

≤, ≥, =, ⊆, ⊂, ∈

.

Se onsiderarmos mais do que uma variável teremos obviamente mais do que uma

relação denida. A onjunção das várias relações remete para a denição de relação

produto.

Denição 3.10 Seja

(R

1 , .., R

p

[y

j

R

j

z

j

]

estáasso iadaa umafunção binária denida para todos os pares

(y

j

, z

j

[yRz] := ∧

p

j=1

[y

j

R

j

z

j

] = [y

1 R

1 z

1 ] ∧ ... ∧ [y

p

R

p

z

p

].

(3.2)

Se

φ

e

φ

j

, om

j = 1, ..., p

são as respe tivas funções binárias tem-se:

φ(y, z) =

Q

p

(30)

Exemplo 3.4 Considere-se

Y

1

=Númerodeminutosdormidospordia,

Y

2

=Número de minutos a estudar por dia e

Y

3

=Número de minutos a ler por dia

Se onsiderarmos o onjunto das relações

(∈, ∈, ∈)

, pode ser denida uma ondição do tipo

[Y

1 ∈ [200, 400]] ∧ [Y

2 ∈ [50, 100]] ∧ [Y

3 ∈ [20, 60]]

.

Formalize-se agora o on eito do onjunto dos indivíduos que veri am ondições

da forma

[Y

j

R

j

d

j

]

om

d

j

uma des rição. Nas denições seguintes onsidere-se

Y =

(Y

1 , ..., Y

p

)

′

umve tor om

p

variáveis, lássi asousimbóli as, omdomíniosouespaços de observação

Y

1 , ..., Y

p

respe tivamente.

Denição 3.11 Um evento é uma ondição do tipo

[Y

j

R

j

d

j

]

. É umafunção binária

a : E −→ {0, 1}

que toma o valor 1 ou 0 aso a relação seja verdadeira ou falsa, respe tivamente.

[Y

j

(u)R

j

d

j

] =







1

se

Y

j

(u)R

j

d

j

é verdadeira

0

se

Y

j

(u)R

j

d

j

é falsa (3.3)

O obje to simbóli o mais simples é designado de asserção e pode ser também

inter-pretado omouma query.

Denição 3.12 Uma asserção é um obje to simbóli o denido pela onjunção de

eventos:

s = ∧

p

j=1

[Y

j

R

j

d

j

].

(3.4)

Denição 3.13 A apli ação extensão do obje to asserção

s

é a função binária

a : E −→ {0, 1}

denda por:

a(u) = ∧

p

j=1

[Y

j

(u)R

j

d

j

].

(3.5)

Denição 3.14 A extensão da asserção é onstituída por todos os indivíduos para

os quais a asserção é verdadeira. O onjunto de obje tos

u ∈ E

que veri am as ondições espe i adas por

s

, é dado por:

(31)

Este onjunto é hamado extensão da asserção do obje to

s

. Uma lasse poderá ser assim identi ada pelo obje to simbóli o que a des reve. A extensão do obje to

onstróia lassedos indivíduosquetêm determinadades rição,ouseja,queveri am

o on eito em estudo. De uma formamais geral, uma asserção pode assumir valores

intermédios, omo por exemplo,

0 ≤ a(u) ≤ 1

, que representará o grau de ligação ou de orrespondên ia de um elemento

u

om aasserção

a

.

Exemplo 3.5 Sejam

Y

1

=Número de minutos dormidos por dia,

Y

2

=Grupo Etário e

Y

3

=Sexo

s = [Y

1 < 500] ∧ [Y

2 ∈ [15, 24]] ∧ [Y

3 ⊆ {feminino}]

-

s

é a asserção;

-

d = d

1 × d

2 × d

3 = [0, 500) × [15, 24] × {feminino}

; -

R

1 = R

2 =∈

e

R

3 =⊆

;

-

a(u)

é a extensão da apli ação.

O onjunto de indivíduos obtidos através da extensão são des ritos pelo obje to

sim-bóli o booleano,pessoa que dorme menos que 500 minutos por dia, tem entre 15 e 24

anos e é do sexo feminino.

Osobje tossimbóli ospodemserdotipobooleanosoumodaisedistinguem-sesegundo

o espaço

L

.

Denição 3.15 Um obje to simbóli o booleano é um tripleto

s = (a, R, d)

om

d

umadadades riçãodoespaço

B

,

R

arelaçãoque ompara

Y

e

d

, e

a

a funçãobinária denida por

a : E → {0, 1}

, tal que:

a(u) :=







1

se Y(u) veri a a relação

0

se Y(u) não veri a a relação

(3.7)

Neste aso a extensão é dada por

Ext

E

(s) = {u ∈ E : a(u) = 1}

e devolve todos os elementos quepartilhamas propriedadesindi adas em

s

.

(32)

Ext

E

(s) ⊆ E

forne e uma des rição extensional, ou seja, indi a quaisos indivíduos de

E

quepartilhamessas propriedades.

Denição 3.16 Um obje to simbóli o não booleano 1

é um tripleto

s = (a, Φ, d)

om

d

uma dada des rição do espaço

B

,

Φ

uma relação entre des rições e

a

uma apli ação

a : E → [0, 1]

, tal que:

a(u) := Φ(Y (u), d)

_{para u ∈ E}

(3.8)

Para ada

u ∈ E

ovalor

a(u)

medeograude ligaçãodoobje to

u

omades rição

d

. Neste aso não há a veri ação ou não da propriedade omo nos obje tos booleanos,

mas sim estadosintermédios.

Para um dado nível

α ∈ [0, 1]

a extensão daapli açãoé dada por:

Ext

α

_E

_{(s) = {u ∈ E | a(u) ≥ α} .}

(3.9)

Na realidade adenição éanálogaàanterior, apenas afunção nãoé bináriaepassa a

tomar valores no intervalo [0,1℄.

3.3 Geração de Obje tos Simbóli os

Nestetrabalhoosobje tossimbóli ossãogeradospelaagregaçãodos indivíduos

singu-laresdamatrizdedados lássi aem lasses,queremeteparaoparadigmadoisníveis

des rito na Se ção 3.1. Por essa razão expõe-se agora omo se pre ede à onstrução

dos dados simbóli os através do pro esso de generalização de uma matriz de dados

lássi a extraída de uma base de dadosrela ional.

A base de dados rela ionalé uma base de dados formada por uma ou várias tabelas,

que têm omo nome relações. Neste tipo de tabelas ou relações as linhas são

hamadas t-uplos e as olunas atributos. Entre as tabelas ou relações podem ser

efe tuadas operaçõesquedãoorigemanovastabelas. Asqueries,operaçõesutilizadas

para rela ionar tabelas,produzemnovastabelas oma estrutura de uma relação. A

matriz de dados simbóli osserá onstruída tendo omo base uma tabelarela ional.

1

(33)

3.3.1 Intera ção om a Base de Dados

Neste apítulo,será des rito omo se geramdados simbóli os a partir de uma tabela

rela ional.

Dena-senovamente

Ω

omoo onjuntodos indivíduos, om

Ω = {ω

1 , ..., ω

n

}

gerando ost-uplos oulinhasdatabela, obtida atravésde umaquery. As propriedadesde ada

indivíduosãodadaspelas

p

variáveis lássi as

Y

˜

1 , ..., ˜

Y

p

,que orrespondemàs

p

olunas da tabela. Cada indivíduo

ω ∈ Ω

orresponde a um ve tor e a sua des rição é dada por

Y (ω) = ( ˜

˜

Y

1 (ω), .., ˜

Y

p

(ω)) ∈ Y

1 × ... × Y

p

.

Amatriz

X

˜

éoresultadodaquery apli adae ontéminformaçãode omoosmembros estão reunidos nas lasses de a ordo om a des rição quequeremos obter.

Considera-se uma variável nominal

G

que lassi a o indivíduo relativamente à lasse a que perten e, ou seja, orresponde à propriedade

Y

que queremos estudar; os valores observados

G(ω

1 ), ..., G(ω

n

)

lassi am os

n

indivíduos em uma das

k

lasses. Cada

ω ∈ Ω

orresponde a um ve tor

Y

˜

1 (ω), .., ˜

Y

p

(ω)

e ao valor observado

G(ω)

. Para

j = 1, ..., p

ada variável lássi a

Y

˜

j

orresponde ao

(j + 2)

é-simo

atributo da query,

sendo

Y

j

oespaço das observações de

Y

˜

j

deduzido pelarespe tiva olunada extensão daquery.

Cada indivíduo perten e assim a uma erta lasse de a ordo om o valor observado

para avariável

G

. Suponhamos queos indivíduossingulares seagrupamem

k

lasses

C

1 , ..., C

k

(às quais serão asso iados os elementos de

E = {u

1 , ..., u

k

}

). As lasses formam uma partiçãoque obrem

Ω

eseguem a seguinteregra:

Se G(ω) = t

então

ω ∈ C

t

ω

i

G(ω

i

) · · · ˜

Y

j

(ω

i

) = x

ij

· · ·

. . .

ω

n

(34)

os. Cada variávelsimbóli a

Y

j

: E → B

j

é denida a partir de uma variável lássi a

˜

Y

j

tendo em onsideraçãoo seu tipo:

•

Seavariável lássi aéquantitativadene-seumavariávelintervalare ada lasse

C

t

é ara terizadaporum intervalodes revendo os valores observados

Y

˜

j

nessa lasse.

•

Seavariável lássi aéqualitativaexistemduasopções,ouseja,a orrespondente variávelsimbóli a pode ser:

ategóri a multivaluada,em que ada lasse é representada pelo onjunto

de ategorias observadas na lasse;

modal,emqueavariávelassumevaloresnaformadeumadistribuiçãosobre

as ategorias observadas na lasse.

Todos os valores observados pelas

p

variáveis simbóli as são agrupados numa matriz

k ×p

representadapor

Ξ = (ξ

ij

)

,amatrizde dadossimbóli os. Ovalorobservadopela

j

-ésimavariávelsimbóli aparaum elementogenéri o

u

i

,édadopor

ξ

ij

= Y

j

(u

i

) ∈ B

j

. A matriz

Ξ

vem então:

E

Y

1 · · ·

Y

j

· · · Y

p

u

1

. . .

u

i

· · · Y

j

(u

i

) = ξ

ij

· · ·

. . .

u

k

Construção de um Obje to Simbóli o

O primeiro passo para a onstrução de um obje to simbóli o é a es olha da variável

oudasvariáveis lássi asqualitativasquedão origemàs lassesouníveisde agregação

dos indivíduos. Seja

E = {u

1 , ..., u

k

Para ada

u

i

∈ E

om

i = 1, ..., k

, denimos um obje to simbóli o

S

i

= (a

u

i

, R, d

u

i

)

queirá orresponderàgeneralizaçãodas ara terísti asdosindivíduos orrespondentes

à

i

-ésima ategoria, ou seja,perten endo à lasse

C

i

. O ve tor

d

u

i

= (ξ

i1

, ..., ξ

ip

)

′

é a des rição simbóli a de

u

i

, ou seja, é o ve tor que orresponde à i-ésima linha da matriz simbóli a

Ξ

e que des reve a lasse

C

i

através dove tor de variáveis

(Y

1 , ..., Y

p

)

.

•

Se a variável lássi a

Y

˜

j

é quantitativa, a orrespondente variável simbóli a é intervalar,e ades rição simbóli a

Y

j

(u

i

) = ξ

ij

da lasse

C

i

(aque orresponde o elemento

u

i

)é o intervalo

[α; β]

denido por,

α := Min

_ω∈C

i

Y

˜

j

(ω)

e

β := Max

ω∈C

i

Y

˜

j

(ω)

(3.10)

•

Se a variável lássi a

Y

˜

j

é qualitativa de domínio

Y

j

- modale neste aso para ada lasse

C

i

, tem-se um ve tor

(U(u

i

), π(u

i

)) =

(τ

1 , ..., τ

m

l

∈ Y

j

é uma ategoria davariável

Y

˜

j

observada na lasse

C

i

e

w

l

é um valorreal não negativo.

Se onsiderarmos,

w

l

= ♯

n

ω ∈ C

i

| ˜

Y

j

(ω) = m

l

o

,

(3.11)

a medida dis reta

Y

j

(u

i

)

será uma distribuição de pesos. Se assumirmos um modeloprobabilísti oeestimarmosaprobabilidade

P ( ˜

Y

j

= m

l

|C

i

)

por:

w

l

=

♯

n

_{ω ∈ C}

i

| ˜

Y

j

(ω) = m

l

o

♯

n

_{ω ∈ C}

i

| ˜

Y

j

(ω) ∈ Y

j

o

,

(3.12)

(36)

3.3.2 Operador Generalizador

O pro esso de generalização é utilizado quando o obje tivo é ara terizar as

pro-priedades das lasses através das variáveis onhe idaspara osindivíduos. Ooperador

generalizador

g

forne eades rição para ada lasse

C

1 , ..., C

k

naformade um obje to simbóli o

s

i

om

i = 1, ..., k

.

Seja

S = {s

1 , ..., s

k

}

o onjunto dos obje tos simbóli os resultante da apli ação da generalizaçãoa

C

i

. Oobje tosimbóli o

s

i

asso iadoaoelemento

u

i

∈ E

é

(a

u

i

, R, d

u

i

)

om a extensão daapli ação

a

u

i

em

E

e um ve tor des ritor

d

u

i

= (ξ

i1

, ..., ξ

ip

)

.

Denição 3.17 O operador generalizador g, [Stéphan et al. (2000)℄,baseado nas

variáveis

Y

˜

1 , ..., ˜

Y

p

em

Ω

é denido por

g = (g

1 , ..., g

p

)

om operadores generalizadores

g

j

para ada variávelque expressamas propriedades omuns da variávelna lasse

C

i

:

d

u

i

= g(C

i

) = Y (u

i

) onde d

u

i

= (ξ

i1

, ..., ξ

ip

)

′

_{com ξ}

ij

= g

j

(C

i

) = Y

j

(u

i

)

(3.13)

A partirdamatriz original

X = (x

ij

)

n×p

denimos

g

j

para a lasse

C

i

om

i = 1, ..., k

e

j = 1, ..., p

, omoum operadorunião:

ξ

ij

:=











[Min

ω

ℓ

∈C

i

{x

ℓj

} , Max

ω

ℓ

∈C

i

{x

ℓj

}]

se

Y

˜

j

équantitativa

{v ∈ Y

j

|∃ω

ℓ

, ω

ℓ

′

∈ C

_i

, x

_ℓj

≤ v ≤ x

_ℓ

′

_j

}

se

Y

˜

j

éordinal

{v ∈ Y

j

|∃ω

ℓ

∈ C

i

, x

ℓj

= v}

se

Y

˜

j

équalitativa

ou

((m

l

, w

l

) : ∃ ω

ℓ

∈ C

i

, x

ℓj

= m

l

); w

l

dado por (3.11)ou (3.12) se

Y

˜

j

équalitativa

Aoapli ar-seooperadorgeneralizadorpodeser originadoum problemaquepassapela

in lusãodeindivíduosatípi osauma lasse,ouseja,in lusãodevaloresqueraramente

são observadosequepodeminuen iarosresultados riandodes riçõesde lassesque

não ree tem as propriedades mais ara terísti as. Se esses indivíduos não forem

onsiderados obtém-se uma des rição mais homogénea do grupo. A este pro esso

é hamado o passo de espe ialização. Através do algoritmo de espe ialização a

generalização ini ialé reduzida ao retirarem-seos indivíduosatípi os.

Critério de qualidade para avaliar a des rição generalizada

A qualidadede um onjuntodes ritor

d

u

i

de umageneralização

g

i

d

u

(37)

Ext(s

i

|C

i

) :=

n

ω ∈ C

i

|

Y

e

j

(ω) ∈ ξ

ij

, j = 1, ..., p

o

(3.14)

Neste asoparamediraparsimonia deumageneralizaçãopode-seutilizaro ritério

volume (ver [Brito(1994)℄), queproduz o índi e de generalizaçãode

d

u

i

:

vol(d

u

i

) =

p

Y

j=1

µ(ξ

ij

)

(3.15) onde,

µ(ξ

ij

) :=







♯ξ

ij

se

Y

˜

j

énominal

Max(ξ

ij

) − Min(ξ

ij

)

se

Y

˜

j

équantitativaou ordinal

Dene-se a densidade de um obje tosimbóli o

s

i

omo:

den(s

i

) =

♯Ext(s

i

|C

i

)

vol(d

u

i

)

(3.16)

Abasedopassodeespe ializaçãoéreduziro onjunto oberturadeumageneralização

e testarquando essa redução ésu iente em omparação om oresultado daredução

dovolume. Ébaseado nanoção de uma

α

-generalizaçãopara um patamar

0 < α < 1

.

Denição 3.18 Uma

α

-generalizaçãoé umobje tosimbóli o

(a

α

i

, ∈, d

α

u

i

)

hamado

s

α

i

, tal que: -

♯Ext(s

α

i

|C

i

) ≥ α♯C

i

-

d

α

u

i

tal que:

vol(d

α

_u

_i

) = Min

_d∈B

₁

_×...×B

p

{vol(d)|♯Ext(s|C

i

) > α♯C

i

}

(3.17)

O obje tivo do pro esso de espe ialização é en ontrar um nível

α

que orresponda à melhor nego iação entre a redução do volume e adiminuição da obertura.

Para uma dada sequên ia

α

1 > α

2 > ... > α

t

> ... > α

l

> 0

pode ser denida a

-generalização orresponde aomelhorrá io de res imentoda urva de densidade relativa,ouseja, o

(38)

O ritériodovolume não pode ser apli ado om variáveisqualitativase quantitativas

emsimultâneodevidoaproblemasde es ala. Para ontornarestasituaçãoasvariáveis

intervalares devem ser re odi adas em ordinais. Esta odi ação é feita através

de uma distribuição uniforme pelos intervalos, dividindo o intervalo ini ial em

sub-intervalostaisque para ada um deles adistribuição subja ente sejao mais uniforme

possível. Estepro essoéfeitoatravésdoparti ionamentousandoum algoritmo

re ur-sivo quesegue uma regra de paragembaseada noteste dauniformidade, partindoda

hipótese nula: osvaloresobservados seguemuma distribuiçãouniformenointervalo.

Apli ando a dis retização, a des rição

Y

j

(u

i

) = ξ

ij

para uma variável intervalar

Y

j

, torna-se num onjunto de valores ordinais. Para um aprofundamento deste ponto

(39)

Métodos Estatísti os de Análise de

Dados para Dados Simbóli os

4.1 Estatísti as Des ritivas

Considere-se que a tabela de dados simbóli os observados

Ξ = (ξ

ij

)

é resultante da observação de

p

variáveis simbóli as

Y

1 , ..., Y

p

para ada elemento

u

d

u

i

= (ξ

i1

, ..., ξ

ip

)

′

_{, com u}

i

∈ E

Seja

d = (d

1 , ..., d

p

)

um ve tor des rição perten ente ao onjunto

B := B

1 × ... × B

p

.

Denição 4.1 Um ve tor des rição

x ≡ (d

l

∈ Y

j

para j=1,...,p.

Para além do ve tor des ritor individual

x

interessa denir também a dependên ia lógi a quepode existir noespaço dodomínio

X = ×

p

j=1

P (Y

j

)

.

Se onsiderarmos

A

1

e

A

2

dois onjuntos de

X

e

x

um ve tor des ritor individual qualquer, pode-se formular aregra:

v : [x ∈ A

1 ] ⇒ [x ∈ A

2 ]

(4.1)

(40)

Denição 4.2 Um ve tor des ritor individual

x ∈ B

satisfaz a regra v:

[x ∈ A

1 ] ⇒

[x ∈ A

2 ]

se e só se

x ∈ A

1 ∩ A

2

ou

x /

∈ A

1

. Se

x

satisfaz

v

então

v(x) = 1

, aso ontrário,

v(x) = 0

e

x

não satisfaz a regra.

Representamospor

V

X

o onjuntodetodasasregrasquedes revemtodasas dependên- ias lógi as denidas no espaço

X

.

Denição 4.3 A extensão virtual

vir(d)

de um ve tor des ritor

d

, é onstítuida por todos os ve tores des ritores individuais de

B

que satisfazem todas as regras em

V

_X

,

vir(d) := {x ∈ B|v(x) = 1 ∀ v ∈ V

X

}

(4.2)

4.1.1 Variáveis Intervalares

Neste aso serão onsideradas

Y

1 , ..., Y

p

variáveis intervalares e

Y

será uma das

p

variáveis. Para

u ∈ E = {u

1 , ..., u

k

}

tem-se o intervalo

Y (u)

dado por

[y

u

, y

u

] ⊆ IR

. Assuma-sequeavariável

Y

nãodependelogi amentede nenhumaoutravariáveleque são garantidas as seguintes hipóteses:

- Cada observação

u ∈ E

é sele ionada om a mesma probabilidade

1 k

;

- todos os ve tores des ritores individuais

x ∈ vir(d

u

)

são distribuídos uniforme-menteno intervalo

Y (u) = [y

u

, y

u

]

.

Denição 4.4 Seja

Y

umavariávelintervalardenidaem

E

. Afunçãodistribuição empíri ade

Y

([Bertrand e Goupil (2000)℄)denotadapor

F

y

, éafunçãodistribuição onjunta de

n

distribuições uniformes denidasnos intervalos

Y (u)

para

u ∈ E

.

Para um dado número real

t ∈ IR

deduz-se que:

F

Y

(t) =

1 k

X

u∈E

P r(x

Y

≤ t | x ∈ vir(d

u

))

(4.3) om,

P r(X

Y

≤ t | x ∈ vir(d

u

)) =











0

se

t < y

u

t−y

_u

y

u

−y

_u

se

y

u

≤ t ≤ y

u

1

se

y

u

≤ t

(4.4)

(41)

Denição 4.5 Considerando que

I

u

(.)

é a função indi atriz do intervalo

Y (u)

e

kY (u)k

o omprimento do intervalo, a função densidade empíri a é dada por:

f (t) =

1 k

X

u∈E

I

u

(t)

kY (u)k

=

1 k

X

u∈E

I

u

(t)

y

_u

_{− y}

_u

, t ∈ IR.

(4.5)

Para variáveisintervalarespode denir-seohistograma,quepermiteumavisualização

dadistribuiçãodasfrequên iasdosvalores. Consideremos

I

ointervalo ontendotodos os valores observados para a variávelsimbóli a intervalar

Y

:

I = [Min

n

y

_u

_{|u ∈ E}

o

_{, Max {y}

u

|u ∈ E}].

Consideremos também uma partição de

I

em

m

intervalos

I

J

= [h

j−1

, h

j

]

para

j =

1, ..., m

. O histogramaasso iado à variável

Y

om a partiçãodointervalo

{I

1 , ..., I

m

}

é arepresentação grá adadistribuiçãode frequên ias

{(I

j

, p

j

), j = 1, ..., m}

onde

p

j

éaprobabilidadedovalor

x

Y

perten er aointervalo

I

j

paraumadadove tordes ritor individual.

p

j

=

1 k

X

u∈E

kY (u) ∩ I

j

k

kY (u)k

(4.6)

Denição 4.6 A média amostral é dada por:

¯

Y =

1 k

X

u∈E

Z

_+∞

−∞

I

u

(t)

kY (u)k

tdt =

1 k

X

u∈E

Z

y

u

y

_u

t

kY (u)k

dt =

1 k

X

u∈E

y

_u

+ y

_u

2

(4.7)

istoé, amédia amostralde

Y

émédia dos pontosmédios dos intervalos.

Denição 4.7 A variân ia amostral é dada por:

s

2 _Y

=

1 3k

X

u∈E

(y

2 _u

+ y

_u

y

_u

+ y

2 _u

_{) −}

1 4k

2 [

X

u∈E

(y

_u

+ y

_u

)]

2 ,

(4.8)

uma vez que

s

Y

=

sZ

_+∞

−∞

t

2 _f

Y

(t)dt − ¯

Y

2 ,

e

Z

_+∞

−∞

t

2 _f

Y

(t)dt =

1 k

X

u∈E

Z

y

u

y

u

t

2 kY (u)k

dt =

1 k

X

u∈E

y

3 u

− y

3 _u

3. kY (u)k

=

1 3k

X

u∈E

(y

2 _u

+ y

_u

y

_u

+ y

2 _u

).

(42)

Considerem-se agora

Y

1

e

Y

2

duas variáveis simbóli as intervalares om observações no re tângulo

D(u) = Y

1 (u) × Y

2 (u) = ([y

1u

, y

1u

], [y

2u

, y

2u

])

para ada

u ∈ E

.

Denição 4.8 A função densidade onjunta para

(Y

1 , Y

2 )

é dada por:

f (y

1 , y

2 ) =

1 k

X

u∈E

I

u

(y

1 , y

2 )

kD(u)k

(4.9)

om

I

u

(y

1 , y

2 )

a função indi atriz do re tângulo

D(u)

de área

kD(u)k

. Denição 4.9 A função ovariân ia amostral simbóli a é dada por:

s

Y

1 ,Y

2 =

Z

_+∞

−∞

(y

1 − ¯

Y

1 )(y

2 − ¯

Y

2 )f (y

1 , y

2 )dy

1 dy

2 =

1 k

X

u∈E

1 (y

_1u

_{− y}

_1u

)(y

_2u

_{− y}

_2u

)

×

Z Z

(y

1 ,y

2 )∈Y (u)

y

1 y

2 dy

1 dy

2 − ¯

Y

1 Y

¯

2 =

1 4k

X

u∈E

(y

_1u

+ y

_1u

)(y

_2u

+ y

_2u

_{) −}

1 4k

2 [

X

u∈E

(y

_1u

+ y

_1u

)][

X

u∈E

(y

_2u

+ y

_2u

)]

(4.10)

Denição 4.10 A função orrelação amostral simbóli a entre duas variáveis

intervalares

Y

1

e

Y

2

é dada por:

r(Y

1 , Y

2 ) =

s

Y

1 Y

2 q

(s

Y

2

1 )(s

Y

2

2 )

(4.11) onde

s

Y

1 Y

2

é dada por (4.10) e

s

2 Y

1

e

s

2 Y

2

são dados por (4.8).

Note-se que om as denições supra, a variân ia amostral não é um aso parti ular

da ovariân ia, isto é,

S

Y Y

é diferente de

S

2 Y

. Isto resulta de a denição de ovar-iân ia envolver a integração num re tângulo, enquanto que no ál ulo da variân ia a

integração éefe tuada num segmento de re ta.

Para ultrapassar este problema, Billard ([Billard(2007)℄) props re entemente uma