• Nenhum resultado encontrado

Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará

N/A
N/A
Protected

Academic year: 2021

Share "Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará"

Copied!
19
0
0

Texto

(1)

P rofa. MS c. Mi riam L úci a D U n iv ersid ade Fed e ral do P a rá C entro d e C iê n ci as Ex atas e N a turai s D eparta men to d e In form áti ca C u rso d e Es pe cia liz aç ão e m S iste m as de Ban co de D

Mineração de Dados

(2)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es

Introduçã

o

a

Da

ta W

arehouse

e OL

A

P

1. Data w ar eho us es 2. Mode lo de d ados m ultid im ens ion a l 3. Cons tr uç ão d e c ubos d e da dos 4. OL A P (O n-lin e A na ly tic a l P roc es si ng) 5. Re laç ão entr e dat a w ar e ho us e e dat a m in ing 6. Ref er ênc ias

(3)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es ■ Cons tr ão de D ata Wa re hous es (DW): etapa de pr é-pr oc es sa m ento im por tante par a M iner aç ã o de Dad os ■ Apr es ent am f erram en tas p ara O L A P (O n-line a na ly tic al pr oc es si ng ) → a ná lis e int er ati va d e da dos m ultid im ension a is de gr an ul ar id ad es var iad as , que p er m ite m iner aç ão de conhec im ento inter at iv a em níve is m últip los de abs tr aç ão (v id e F igur a 1) .

Introdu

ção a

Data

W

arehouse

e

OLA

P

(4)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es N ão-ali m en tíc io s N ão-ali m en tíc io s R oupa esp o rtiv a R oupa esp o rtiv a R oupa de pr aia R oupa de pr aia Ó culo s de so Ó culo s de so Bonés Bonés Ma iô Ma iô Bas e ba ll Bas e ba ll Bas tã o Bas tã o Luv as Luv as Gorro Gorro T ênis T ênis Sapato s Sapato s Shorts Shorts Me ia s Me ia s M a terial de escr itór io M a terial de escr itór io Eletrôn ic o s Eletrôn ic o s C at egoria de bi savós C at egoria de avós C at egoria de it em pa is C at egoria de it em f ilh os Figura 1 -U m a Tax onom ia – IB M , 1999 – pg. 162 .

(5)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 1. Da ta wa re h ous e s ƒ Div ersas d ef in içõ es ƒ Ba nc o s de da do s ma ntidos s ep a ra d am en te dos b a nc os de dados o per ac io n ais d e um a or gan iz aç ão. ƒ Seg un do W . H. In m on: “Um da ta w ar ehous e é um a c oleç ã o de dados or ie nta d a a a ss unt o, inte gr ad a, te mpo-v ar ia n te e o v o látil em s upor te ao pr oc es so de tom ada de dec is õe s ger enc ia is ” (In m on 1996) . – O rien tad a a as su n to : or ga ni zad a em funç ão de as su n tos m aj or itár ios . F or nec e vi são si m ples e c onc is a s obr e ite ns par tic u lar es , ex cl u in do d ad os que n ão s ão úte is no pr oc es so de s upor te à dec is ão. – Integrada : inte gr aç ão d e f ontes heter o gên eas m últip la s, subm etidas a téc nic as d e l im pez a e int egr aç ão de d ad os , que as segur am c ons is tênc ia e m c onvenç ões d e nom es , es tr utur as de c odif ic aç ã o, m edidas de atr ibutos , etc .

Introdu

ção a

Data

W

arehouse

e

OLA

P

(6)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 1. Da ta wa re h ous e sT empo-v ar ia n te : dados ar m az ena dos s ob um a per spec tiv a his tór ic a ( ex .: os ú ltim os 5 anos ). Cad a es tr utur a c ha ve contém , i m plic itam ente ou ex pl ic itam ente, u m elem ento de tem po. – Não v o látil :é s em pr e u m a rm az ém de dados s ep ar ad o e tr ans fo rm ado. Não r eq uer p roc es sa m ento de tr ans aç õ es , nem m ec anis m os de r ec up er aç ão e c ontr o le de c onc o rr ênc ia. Requ er ape nas du as oper a ções no ac es so a d ados : o ca rr egam ento inic ia l de dad os e o ac es so a da dos . ƒ D W é ta m bé m u m a ar quite tur a cons tr uída pe la in tegr aç ão de dados d e m últip las f ontes h eter ogê neas p ar a s upor tar c ons ultas es tr utur adas ou a d hoc , re la tórios a na lític os e tom ada s de dec is õ es .

Introdu

ção a

Data

W

arehouse

e

OLA

P

(7)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 1. Da ta wa re h ous e sDa ta Wa re hou si ng : pr oc e ss o de c ons tr uç ão e us o d e data war eho us es . – Al gu ns autor es us am o ter m o Da ta W ar ehous ing pa ra re fe rir so mente ao pr oc es so de c o ns tr ão de DW s e o ter m o “w areh o u se D B M S par a re fer ir ao ger e nc iame nto e ut iliz ão de D W s.

Introdu

ção a

Data

W

arehouse

e

OLA

P

(8)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 1. Data w a re hous es Siste m as de BD s o pera ci ona is (O LPT ) x Sistema s d e D W (O LAP) Itens OLT P OLA P C aract er ís tica proces sam ento ope raci o nal proces sam ento in fo rm aci onal Ori ent ação transa ção anál is e Usuári o au xiliar , DB A , prof. de B D prof d e co nhecim en to ( gere nte, anali st a) Funçã o opera ções di ári as requi si tos i n form aci o nai s de l o ngo pra zo, suport e à deci são D esi gn de B D basea do em E R , ori e ntad o ori ent ado a ass unto , a apl ic ação esquem as star s/ sno w flake D ados corre

ntes; são atual

iz ado s hi stóri co s; a curá ci a p erm ane nte S um ari za çã o pri m itva, al ta m ente detal had a sum ari zad a, co nsol id ada V ista detal h ada, rel a ci onal pl a na sum ari zad a, m ul tid im ensi onal U ni dad e de curta, tran saçã o si m pl es consul ta com pl e xa trabal ho Ace sso le itu ra /e scr ita na m aio ria , le itu ra Foco entra da d e da dos sa ída de i n form açã o Opera ções inde x/ hash em chave s pri m ári as inúm eros escan eam ento s N o. re g. ac essa dos de ze n as m ilhões N o. us uári o s m ilhares centen as T am anho do B D 100 MB a GB 100 GB a T B Pr io rid ad e al ta p e rf or m an ce , al ta fle xib ilid a de , au to no m ia d o u su ár io -fin al ta av al iabi lidad e Mátri ca transa ci on al consul ta , tem po de resp osta

Introdu

ção a

Data

W

arehouse

e

OLA

P

(9)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 1. Da ta wa re h ous e s ƒ “P or que o fa ze r OLAP dir eta me nte no B D , e m v e z de cons tr uir da ta wa re hous e s?” – Par a p er m itir que am bos os s is tem as tenham alta per fo rm anc e. – BD o per ac ion al → index aç ão, ha shi ng , b usca de re gi st ro s, cons ultas p adr on iz a das . – DW → cons ultas c om plex a s, c om putaç ão de gr an des gr upos de da dos em níveis s um ar izad os , que pod em r equer er m étodos de or gan iz aç ão d e dad os es pec ia is , de ac es so e de im plem entaç ão, bas ead os em vis tas m ultid im ens iona is .

Introdu

ção a

Data

W

arehouse

e

OLA

P

(10)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 2. M ode lo de da dos multidime n si ona l ƒ D W s e fe rr am entas de O LA P → b as ead os em u m mod elo de da dos multidime n si ona l. ƒ Us ado t ip ic am ente par a o p roj eto de D W s co rpor ativ os . ƒ Es se m odelo ex ibe os d ado s na f or m a de u m c ubo de da dos (da ta c ube ), que c ons is te de um gr ande c onj unt o de fa to s (ou m edidas ) e um c er to nú m er o de dime n sõe s. ƒ As dim ens ões do c ub o de dados s ão as e n tida de s ou pe rs pe ct iv as sobr e as qu a is um a deter m inada or gan iz aç ão des ej a gu ar dar r eg is tr os e s ão, por natur e za, hi er ár qu ic as . – per m ite m guar dar , p. ex ., itens de ven das m ens ais , f ili ais e loc a is em que os itens f or am vend idos . – Cada d im ens ão te m u m a ta bel a as so ci ada → Ex : tab el a de dim ens ão par a item , c ont e ndo os atr ibut os : nom e, m ar ca e tipo. ƒ Hiera rq u ias co n ceit u ai s → or gan iz am os valor es d o s atr ibutos em níveis gr adu ais d e abs tr aç ão.

Introdu

ção a

Data

W

arehouse

e

OLA

P

(11)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 2. M ode lo de da dos multidime n si ona l ƒ O rgani zad o s obr e um t ema cen tr al → Ex : ve ndas . ƒ Es te tem a é repr es entado por um a ta be la de fa tos . ƒ Fa tos são m edidas num ér ic as . Ex : r eais _ ven di dos (t otal d e ve nd as em r eais ), uni da des _ ven di das ( tota l d e uni da des ve nd id as ), etc . ƒ A tab el a de f atos c ontém o nom e dos fa tos , ou m edidas , e as c hav es par a cada um a das tabe las de dim ens ões r elac ion adas . ƒ O c ubo de da dos é n -dime n si ona l.

Introdu

ção a

Data

W

arehouse

e

OLA

P

(12)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 3. Cons tr ão do c ubo de da dos ƒ E xe m plo: um c ubo d e da dos 3 -D ƒ Domínio : banc o de d ados de v end as de um a loj a d e d eptos des cr ita por 3 d im ens ões e s eus va lor es : te mpo (T) : T1 , T2 , T3 e T4 item : entr eten ime nto d omé st ic o ( E D) , c omput ão ( C ), telefo n (T ) e s egur anç a ( S ) lo cal : B el ém, F or ta le za, Manaus , São Luís segund o a medid a: re a is _v end id os (e m re ai s) ƒ O s dados em 3-D s ão m os tr ados na T abe la 1, r e pr es entados em u m a s ér ie de tab el as 2-D. ƒ Conc e itu alm ente, es se s da dos s er ão r epr es enta dos ta m bé m na fo rm a de um c ubo de d ado s 3-D ( F igur a 2) .

Introdu

ção a

Data

W

arehouse

e

OLA

P

(13)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 3. Cons tr ão do c ubo de da dos

Introdu

ção a

Data

W

arehouse

e

OLA

P

38 103 8 927 784 59 864 978 984 54 109 1 114 2 870 63 992 112 9 T4 30 102 3 812 728 58 795 940 100 2 45 104 8 103 4 789 59 924 103 2 T3 31 952 680 682 52 769 894 925 41 102 4 113 0 698 64 890 943 T2 14 825 605 591 43 746 818 872 38 968 108 7 623 89 882 854 T1 T C ED S T C ED S T C ED S T C ED T Item item item item L o cal = S ão Lu L o cal = M an au s” Loca l = F or tal ez a” L o cal = B el ém Tabela 1 – V is ta 3-D da s v end as d e u m a l o ja de dep to, de a cordo co m a s d im ens temp o, it em e l o ca l e a m edi da reai s_v end ido s (e m mil hare s) . Fon te: A d a p ta do de H a n, 2 001 p . 4 6.

(14)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 3. Cons tr ão do c ubo de da dos

Introdu

ção a

Data

W

arehouse

e

OLA

P

Be lé m Fort al eza M anaus S ão Luí s T1 T2 T3 T4 Tem po (trim est res) Lo ca l ( cid ad es ) E DCT S It ens (t ipos ) 605 680 812 927 825 14 400 952 1023 1038 31 30 38 512 501 580 818 746 43 591 1087 968 38 872 854 882 89 623 682 728 784 925 698 1002 789 984 870 Fi gur a 2 – C ubo de d ados 3-D das v end as de um a l oj a de d epto, de acor do com a s di m e nsões tem po, i tem e l ocal e a m edi d a re ai s_v endi do s (em m ilhar es). Fonte : A da ptad o de H an, 20 01 – p. 4 6.

(15)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 3. Cons tr ão do c ubo de da dos ƒ Na l iter at ur a de pes qu is as em Dw in g, o c ub o de dad o s é c ham ado de cubóide . ƒ Dado um c onj unto de c ubó ides , é pos sí ve l c o ns tr uir u m a g rad e d cubóide s, c ad a um a m os tr ando os dad os em níveis d e su m ar iz aç ão dif er entes o u gr oup b y (agr up ado por u m s ubc onj unto dif er ente d as dim ens ões ). ƒ O c ubóid e qu e apr es e nta o níve l m ais baix o de s um ar izaç ão é cham ado cubóide base (E x: u m c ubóide 4-D c om as dim ens ões tempo , item , loc a le fo rnec e dor ). ƒ Nes se ex em plo, um c ubóid e 3-D ( não-b as e) , c om as dim ens ões tempo , item e lo ca lé um a sum ar iz aç ã o par a t odos os f or nec edor es ƒ O de m ais alto nív el de s u m ar iz aç ão é c ham ado cu b ó id e ap ex (E tota l de v enda s, den otado por all )

Introdu

ção a

Data

W

arehouse

e

OLA

P

(16)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 4. OL A P ( O n-line An aly tic al Pr oc es si ng ) ƒ Operações de OL A P utiliz a m o c onheci m ento de f und o ref erente ao dom ínio dos da dos em es tu do par a per m itir a apr es ent aç ão dos dados em níve is de a bs tr aç ão d ife rentes , que ac om odam pontos de vis ta dif er entes d o us uár io, def ini dos c om o hier ar qu ias c onc eitu a is ƒ Ex is tem diver sas op er aç õe s s obr e o c ubo de dad os e m O LAP, que m ater iali zam as dif er entes vis tas , p er m itin do c ons u ltas inter at ivas aná lis e dos d ados m os tr ad os . ƒ O p eraçõ e s: ƒ Roll-up : agr egaç ã o, r eduç ão de dim ens ões . Ex : hi er ar qu ia p ar a lo ca l: ru a < ci d ade < es tad o < pa ís , as cender a h ier ar q ui a do ní ve l de ci da de pa ra país . Um a ou m ais dim ens ões são r em ovidas d o c ubo. ƒ Drill-dow n : inv er so de ro ll-up . Da dos m ais detal had os , des cendo na h ier ar q ui a ou ac re sc entando m ais dim ens ões . Ex : hi er ar qu ia p ar a temp o: dia < mês < tr imes tre < an o , des cender a hi er ar qu ia d o níve l d e trimes tre pa ra m ês .

Introdu

ção a

Data

W

arehouse

e

OLA

P

(17)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 4. OL A P ( O n-line An aly tic al Pr oc es si ng ) ƒ O p eraçõ e s: ƒ S lic e and dic e: ƒ Slice : s e le ção em um a d a s di men sõe s d o c ubo de dad os, resul tan do e m u m sub cub o. E x: dado s de v enda s sel e ci on ados par a a dim e ns ão tem p o , usan do o cr itéri o d e tem p o = “ T 1” . ƒ Di ce : sel e ção e m d u as ou ma is di men sõ e s do cub o de da do s. Ex : critéri o d e lo ca l, tem po e item = (lo cal=“B e lém ” or “Fort a le za and (tem po =“T1” or “T2” ) and (item = “entr e t dom ést ico” or “com puta çã o ”) . ƒ Pivo t: rotaç ão ƒ O peraçã o d e v isu aliz aç ão qu e rotac ion a o s e ix o s de d ado s p a ra dar u m a a p re sent aç ão a lter nat iv a dos da dos . ƒ O u tr as o p era çõ es ƒ D rill-a cros s: con su lta s env ol vendo mai s d e u m a t abe la d e fa to s. ƒ D rill-thr oug h : us o de SQ L re la cion al para apro fun dar con sul ta s no nív e l hi erárq u ic o mai s b a ix o. ƒ Funç ões es tatí sti ca s e outra s.

Introdu

ção a

Data

W

arehouse

e

OLA

P

(18)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 5. Rela ção en tr e da ta wa re hous e e d ata mining ƒ A p li caçõ es de d ata w arehouse : três tipos ƒ Pro c ess amen to d a In fo rm ação ƒ C onsu lta s e r e lat ó rio s ƒ R e spo sta s à s c o ns ult a s r e flete m a i n for m aç ão dire tam ent e armaz e nada no s BD s. N ão re flete m pa drõe s sofi sti ca dos ou regul arid ade s e sc ond ida s n o s dado s. ƒ Pro c ess amen to an alít ico ƒ Permit e ao s u su á rio s n a vegar pelo s d ado s s u m a riz ado s e detal had os por oper açõ e s de O L AP. ƒ U sada s p a ra sim p lific a r e su po rtar a aná lise i n ter a tiv a d e d ad os. ƒ M in eração d e d ad o s ƒ Suporta de sc obert a d e c onh ec imen to p e la pro cura de padr õe s intere ss ant es es con d id os em grand es qua ntid ade s de d ado s, de forma o m a is au tom a tiz a da p ossív e l ƒ N ão ap ena s re aliz a su mariz aç ão e co mpar açã o d e da do s, m a s tamb ém as soc ia ção, cl as sif ica ção, pred iç ão, agru pam ent o, análi de s é rie tem pora is e o u tra s tar e fas de aná lis e d e da do s. ƒ T a mbém aná lis e d e da do s c omplex o s. ƒ Poss ui u m lequ e d e ap licaç õ es ma is am plo.

Introdu

ção a

Data

W

arehouse

e

OLA

P

(19)

10/9/2 0 03 P rofa. M S c. M iri am Lúci a D o m ingu es 6. Refer ência s IBM . Utilizando o Int ellig ent Miner for Dat a . Ver sã o 6. R e lease 1. Ediçã o S5 17-6 338-00. [S .l.], 1 999. D isp onív e l em: < ftp:// ftp. softw are.i b m. co m/s o ftw a re/data/i m in er/for dat a/do cu/ B r/idm u0m t.pdf > . Ac es so e m : out. 200 1. IN M O N, W .H . Buildi ng the Data Ware hous e . New Y o rk: Jo hn W ile y & Sons, 199 6. H A N , Jiaw ei; KAM BER , M iche line. Data mining : c onc ept s a nd tech niq ues . San Fran ci sc o: M o rgan K auf man n , 2 001 .

Introdu

ção a

Data

W

arehouse

e

OLA

P

Referências

Documentos relacionados

Field Studies on the Ecology of the Sand Fly Lutzomyia longipalpis (Diptera: Psychod- idae) at an Endemic Focus of American Visceral Leishmaniasis in Colombia. Bionomía de los

Esse trabalho, apresentado no contexto do Curso de Especialização de Educação na Cultura Digital da Universidade Federal de Santa Catarina, trata do processo de

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

A não uniformização quanto ao método de referência pode promover diferenças entre as curvas de calibração geradas por laboratórios de dosimetria citogenética, que podem

seria usada para o parafuso M6, foram utilizadas as equações 14 e 15, referentes aos parafusos de 8 mm de diâmetro e folga entre parafuso e furo de 0,5 mm, que definem,

No entanto, os resultados apresentados pelo --linalol não foram semelhantes, em parte, aos do linalol racêmico, uma vez que este apresenta um efeito vasorelaxante em anéis de

Resumo: O presente trabalho corresponde a um estudo empírico descritivo e exploratório que aborda comportamentos e falas de atores políticos que participaram do processo legislativo

As micotoxinas são compostos químicos tóxicos provenientes do metabolismo secundário de fungos filamentosos e conhecidas pelos danos causados à saúde humana e