• Nenhum resultado encontrado

Um modelo de interface extensível para sistemas de mineração de dados por regras de associação

N/A
N/A
Protected

Academic year: 2017

Share "Um modelo de interface extensível para sistemas de mineração de dados por regras de associação"

Copied!
114
0
0

Texto

(1)

UM MODELO DE INTERFACE EXTENSÍVEL PARA SISTEMAS

DE MINERAÇO DE DADOS POR REGRAS DE ASSOCIAÇO

(2)

UM MODELO DE INTERFACE EXTENSÍVEL PARA SISTEMAS

DE MINERAÇO DE DADOS POR REGRAS DE ASSOCIAÇO

Dissertação apresentada ao Curso de

Pós-Graduação em Ciênia da Computação da

Uni-versidadeFederaldeMinasGeraisomorequisito

parialparaaobtençãodograudeMestreem

Ci-êniadaComputação.

ELISA TULERDE ALBERGARIA

(3)

FOLHA DEAPROVAÇO

Um Modelo de Interfae Extensívelpara Sistemas

de Mineraçãode Dados por Regras de Assoiação

ELISA TULERDE ALBERGARIA

Dissertaçãodefendidaeaprovadapelabanaexaminadoraonstituídapor:

Profa.RaquelOliveiraPratesOrientadora

Universidade FederaldeMinasGerais

Prof.Wagner MeiraJuniorCo-orientador

Universidade FederaldeMinasGerais

Prof.Clarindo Isaís P.S. Pádua

Universidade FederaldeMinasGerais

Profa.ClarisseSiekenius deSouza

(4)

Atualmente,umdosgrandesdesaosdaomputaçãoéoenormevolumededadosgeradopela

failidadedearmazenamentoeresenteusodetenologiasemdiversosontextos. Aanálisedesses

dadosforneeapoioàtomada dedeisõesrelaionadas adiversasáreas. Entretanto, pela grande

quantidade de dados, essa análise tornou-se inviável de ser realizada sem o auxílio de ténias

omputaionais. Nesseontexto,seapresentaaáreadeMineraçãodeDados,quetemporobjetivo

ageraçãode onheimento apartirde grandesvolumesde dados. Ela abrangediversasténias,

entre elas a deregrasde assoiação,foo deste trabalho. Entretanto, umdos prinipais desaos

para aampla utilização desse tipo desistema éa suausabilidade, pois são váriosos desaos de

interaçãoexistentes. Essessistemas normalmentesãodifíeis de usar,uma vez querequerem um

onheimentoaprofundadodeaspetosténiossobreoseufunionamento.

Neste trabalho, om oobjetivode ampliar ouso de ambientes de mineração dedados,

apre-sentamos, implementamos eavaliamosummodelodeinterfaeextensívelquepermiteriarnovas

interfaesde mais alto nível e espeías para um ontexto, abstraindo oonheimento ténio.

Nossapropostaonsisteemummodeloquedeneosomponentesdeummódulodeextensãoaser

aopladoem sistemasdesegundageração,sistemas queenvolvemdiversasapliaçõeseabrangem

diversasténias. Paraissoserpossível,onsidera-sedois persde usuários: osespeialistaseos

leigos. Osusuáriosespeialistasdevemdominartantoodomíniodaapliaçãoquantoosistemade

mineraçãodedados(querequeronheimento ténioespeío). Oobjetivodoespeialista

on-sisteemriarumníveldeabstraçãoquepermitaqueusuáriosleigos,quenãopossuamosoneitos

téniosenvolvidos,possam usarosistemaemontextoseproblemasespeíos.

Omodeloriadofoi baseadonateoriadaEngenhariasemiótia,queonsideraqueainteração

onsiste em um proessode omuniaçãoentre o projetista eo usuárional. Nesse ontexto, o

modeloapresentaelementos emsuaarquiteturaqueonsideramesseaspetoequepermitem que

osespeialistassetornemo-autoresdosistema. Avaliaçõesiniiaisdomodeloforamrealizadase

uma implementação domesmo foi desenvolvida,visandoanalisar suaviabilidade eutilidade. Os

indiadoresobtidosnasavaliaçõesforampositivos,trazendoomograndebenefíioapossibilidade

de ampliar a apliação de ténias mineração de dados, tanto em relação aos ontextos de uso

(5)

Currently,oneofthemainhallengesofomputingisthehugevolumeofdataduetothestorage

faility and inreasinguse oftehnologyin dierentontexts. The analysisof this dataprovides

support for deisions in distint areas. However, without eient omputational tehniques it

beomesunfeasibletoanalyzethislargevolumeofdata. Thus,dataminingemergesasapromising

eld, sine it allows for knowledge disovery from large volumes of data. Amongst the many

tehniques available for data mining, in this work we fous on assoiation rules. Even though

assoiationRulesdataminingsystemsareverypopulartheypresentuserswithagreathallenge.

Thesesystemsrequireuserstohavetehnialknowledgeaboutdataminingtehniquesinorderto

interatwiththem.

Inthisworkweproposeanextensibleinterfaemodel whih aimsatwideningtheuseof data

mining systems. To doso, the model allowsfor a newabstrat high levelinterfae spei to a

ontext to bereated. This new high level interfaeabstrats the tehnial knowledge required,

making it easier to interat with the system. Based on this model, an extensible module that

anbe addedon to2nd generation datamining systemsanbedeveloped. Themodelonsiders

twodistintuser proles: the experts andnal users. Expert usersare thosewhonot onlyhave

knowledgeofthedomain, butalsoof therequiredtehnialoneptstointerat withthesystem,

whereasnalusershavedomainknowledge,butnotdataminingtehnialknowledge. Expertusers

interat with the extensible module and reatea new high level interfaespei to nal users

ontextwithwhihtheyan interat.

The model is grounded on Semioti Engineering theory, whih pereives the interation as

designer-to-userommuniativeat. The model allowsexpert users to beome o-authorsof the

messagebeingtransmittedbythesystems,astheyreatenewhigh levelinterfaestonal users.

Preliminaryevaluationsofthemodelwereexeutedandalsoaprototypewasdevelopedtoprovide

indiatorsof thefeasibility andutility ofthe model. The indiatorspointedto theabilityof the

model towiden theuseof thesystemtouserswhodonothavedata-miningtehnialknowledge

(6)

Emprimeirolugar,gostariadeagradeeraDeuspormaisessaoportunidade. Atodososbons

uidospormedaremaenergianeessáriaquepreisei.

Aos meus pais, Braga e Inez, e minha irmã Elen pelo amor e apoio inondiional, tanto em

relaçãoaosestudos,mastambém emtodasasminhasdeisõesesituaçõesvividasatéhoje. Mãe,

obrigadapelo onselho,estareiomele emmente... "emtudoquezerouproduzir tente sempre

responderestaperguntaasimesma: Emqueissopodemelhoraromundo,ahumanidade?"

Agradeço ao meu marido, Leo, por todo inentivo e apoio dado, desde iníio desse desao.

Muitas vezesareditou maisemmim doque eumesma... Obrigadapela paiênia, pelo arinho,

pelaompreensãoepelaslongasonversasdeinentivo.

AoDiogo, por me ensinaro signiado deamor inondiional... epor ompreendera minha

ausênia em diversos momentos desse período. Obrigada lho, por me ensinar a ada dia algo

novo.

A minha sogra, Coneição, por todo apoio, inentivoe ompreensão. Obrigada pelas várias

ajudas emrelação ao Diogo epor estar sempre dispostaa nosajudar. Aos meus unhados, Lu,

LeandroeFraniso,pelaamizade.

A minhaamiga eorientadoraRaquelOliveira Prates, quesemostrou,além deseruma

exe-lente prossional,também uma pessoamaravilhosa. Obrigada não só pelo apoioe ensinamentos

aadêmios,mastodoarinho,paiênia,atençãoeamizade.

AoWagnerMeirapelasorientaçõesepela amizade earinhodurante todaatrajetóriaque já

aminhamos.

AosprofessoresdoDCCqueontribuíram para minhaformaçãoaadêmiaepessoal. Em

es-peial, ao Clarindo pelas inúmerasoportunidades já ofereidas, inluindo oSynergia, meu atual

trabalho. Ainda emrelaçãoaoSynergia, agradeçoaoRobsonpelaoportunidadeofereidae

on-ançadepositada.

A todos osalunose usuáriosqueontribuíram om oresultado deste trabalhoe todaequipe

envolvidanoprojetoTamanduá,muitoobrigada.

Aosfamiliares, famílias Tuler eAlbergaria, pelo arinho einentivode todos. A todosmeus

amigos, pessoal do Synergia, do Speed, da UEMG, da UFMG, aos amigos riados em Lafaiete,

obrigada pelo arinho de todos. As amigas, pelas onversas eletrnias, ompanhia on-line em

váriosmomentosemqueestivedediada aestetrabalho.

Em espeial, gostaria de agradeer ao Fernando Mourão pelo grande apoio dado durante o

desenvolvimentodesse trabalho,peladediaçãoeamizade.

AomeueternoamigoMareloMaia,pelaamizadeegrandeinentivoquemedeudesdeoiníio

(7)

1 Introdução 1

1.1 Organizaçãodadissertação . . . 4

2 Mineração de dadospor regrasde assoiação 5 2.1 Regrasdeassoiação . . . 5

2.2 Tarefademineraçãoderegrasdeassoiação . . . 9

2.3 Desaosnousodeapliaçõesdesegundageração . . . 10

2.3.1 Denição dosparâmetrosdeentradadamineração . . . 11

2.3.2 Seleçãodosatributos . . . 12

2.3.3 Análisedasregrasdeassoiaçãoresultantesdamineração . . . 12

2.3.4 Seleçãodosubonjuntoderegras . . . 13

2.3.5 Seleçãodasmétriasdeinteresse . . . 13

2.4 Cenáriodeuso . . . 14

2.4.1 Tarefadeauditoria . . . 14

2.5 Propostasexistentes . . . 16

3 Fundamentação teória 23 3.1 EngenhariaSemiótia . . . 25

3.2 Desenvolvimentoporusuáriosnais . . . 29

3.2.1 Visão daEngenhariaSemiótia . . . 31

4 Modeloproposto -EDeM 35 4.1 Arquiteturadomodelo . . . 36

4.1.1 Linguagemabstratadeinterfaeomousuário(LAIU) . . . 37

4.1.2 Gerador . . . 38

4.1.3 Basedeonheimento . . . 39

4.2 AnálisedasExtensõesGeradas . . . 42

4.3 Avaliação . . . 43

4.3.1 Abstração deumatarefademineração . . . 43

4.3.2 Cenáriosdeapliação . . . 44

5 Protótipo 49 5.1 Tamanduá. . . 49

5.2 Oprotótipo . . . 51

5.2.1 Adequaçãodotamanduá. . . 53

(8)

5.3.2 Apliaçãodostestes . . . 63

5.3.3 Análisedosresultadosobtidos . . . 64

6 Conlusões 67 6.1 Contribuições . . . 68

6.2 Trabalhosfuturos . . . 71

6.2.1 Modelo . . . 71

6.2.2 EngenhariaSemiótia . . . 71

6.2.3 Protótipo . . . 71

A ModelagemTamanduá 76 B Telasdo Protótipo -Tamandua 2.0 79 C Avaliações 87 C.1 Avaliaçãoomenários . . . 87

C.2 Avaliaçãoomusuários. . . 88

(9)

1.1 EtapasdoproessoKDD . . . 2

2.1 Teladeriaçãodeumatarefademineraçãodosistema desegundageraçãoTamanduá (Dados daTarefa) . . . 10

2.2 Teladeriaçãodeumatarefademineraçãodosistema desegundageraçãoTamanduá (SeleçãoBase/Atributos) . . . 10

2.3 Teladeriaçãodeumatarefademineraçãodosistema desegundageraçãoTamanduá (SeleçãoAlgoritmo/Parâmetros) . . . 11

2.4 Teladevisualizaçãodosdadosdosistema desegundageraçãoTamanduá . . . 11

2.5 DBMiner: Parâmetrosdeentrada(suporteeonançamínimos) . . . 17

2.6 DAMAPrototype: Parâmetrosdeentrada(suporteeonançamínimos,dentreoutros) 17 2.7 XLMiner: Parâmetrosdeentrada(suporteeonançamínimos) . . . 18

2.8 FrameworkMirage,visualizaçãopropostaporZaki[ZakiePhoophakdee(2003)℄ . . . 18

2.9 VisualizaçãodoDBMiner: rulebody(LHS)xrulehead(RHS) . . . 19

2.10 Visualização3DpropostaporWong[Wongetal.(1999)℄. . . 19

2.11 TeladosistemaADS-Representaçãodeuma regra . . . 20

2.12 VisãoontextualdamáquinaIKDDsegundoGoldshmidt[Goldshmidt(2003)℄. . . . 21

3.1 Teoriadasações-proessodeinteraçãodosusuários . . . 24

3.2 Estruturadosigno,segundoPeire . . . 25

3.3 Metamensagem-EngenhariaSemiótia . . . 27

3.4 DesignCentradonoUsuárioxEngenhariaSemiótia 2 [deSouza(2005),pag.8℄ . . . . 28

3.5 LinguagensdeProgramação-porNardi 3 [Nardi(1993)℄ . . . 30

3.6 LinguagensdeProgramação-porFisher 4 [Fisheretal.(2004)℄ . . . 31

3.7 Dimensãosemiótiademanipulaçõesdaslinguagens 5 [deSouzaeBarbosa(2006)℄ . . 33

4.1 Interaçãodospersdosusuáriosutilizandoomodelo . . . 36

4.2 Modeloproposto . . . 37

4.3 Modeloproposto . . . 41

4.4 Classiaçãodasquestõesdevestibular,segundoavisãodousuárioleigo . . . 46

5.1 EstruturadoTamanduá . . . 51

5.2 CilodevidadedesobertadeonheimentoutilizandooTamanduá . . . 52

5.3 EstruturaNova-Tamanduá. . . 53

5.4 EstruturaemCamadas . . . 55

5.5 [Informação℄Teladeriaçãodaonsulta . . . 57

(10)

5.10 Visualizaçãodaonsultasegundovisãodousuárioleigo . . . 60

5.11 Teladeonguraçãotextual. . . 60

5.12 Teladevisualizaçãotextualnal . . . 61

6.1 SugestãodevisualizaçãodostrabalhosdeMDutilizandoimagens(ontextodovestibular) 74 6.2 Sugestãode visualizaçãodostrabalhos deMD utilizando imagens(ontexto de rimi-nalidade) . . . 75

A.1 ShemaXML-Pheromone . . . 76

A.2 Diagramadelasses-Tamanduá . . . 77

A.3 Modelodedadospersistentes-Tamanduá . . . 78

B.1 TeladeBemVindo. . . 79

B.2 TeladeAdministraçãodoSistema . . . 79

B.3 Teladelistadeonsultas-visãodoEspeialista . . . 80

B.4 Teladelistadeonsultas-visãodoLeigo . . . 80

B.5 TeladeCriaçãodeConsulta(Informações) . . . 81

B.6 TeladeCriaçãodeConsulta(Algoritmo) . . . 81

B.7 TeladeCriaçãodeConsulta(Base). . . 82

B.8 TeladeCriaçãodeConsulta(Atributos) . . . 82

B.9 TeladeCriaçãodeConsulta(Consulta) . . . 83

B.10TeladeConguraçãodaSaídadaConsulta(Informações) . . . 83

B.11TeladeConguraçãodaSaídadaConsulta(Filtros) . . . 84

B.12TeladeConguraçãodaSaídadaConsulta(Textual) . . . 84

B.13TeladeTarefa(Instânia deumaConsulta) . . . 85

B.14TeladeVisualizaçãodeumaConsulta . . . 85

B.15TeladeVisualizaçãodasExpliações . . . 86

C.1 Termodeonsentimentoparaitaçãodosenáriosdosalunosdemineraçãodedados . 87 C.2 Roteirosdasetapasdaavaliaçãoomusuários-Reuniãoomusuáriosespeialistas. . 88

C.3 Roteirosdas etapasda avaliaçãoom usuários- Reunião omusuários espeialistase leigos(Vestibular) . . . 89

C.4 Roteirosdas etapasda avaliaçãoom usuários- Reunião omusuários espeialistase leigos(Crisp-riminalidade) . . . 90

C.5 Textodeintroduçãoaostestes . . . 91

C.6 Cenáriodosespeialistas(Vestibular) . . . 91

C.7 Cenáriodosespeialistas(Crisp) . . . 92

C.8 Consultasriadaspeloespeialista(Crisp-irminialidade) . . . 93

C.9 Consultasriadaspeloespeialista(Vestibular) . . . 94

C.10CenárioeTarefasdosleigos(Vestibular) . . . 95

C.11CenárioeTarefasdosleigos(Crisp-riminalidade). . . 96

C.12Roteiroparaentrevistapós-testes(espeialistas) . . . 96

(11)
(12)

Introdução

Grandes instituiçõese empresas estão armazenandoseusdadosada vez mais failmente,

ge-randograndesbasesdedadosdenaturezaientía,omerial,governamental,et. [Goldshmidt

(2005)℄. Esteaúmulode dadosnasorganizaçõeseentros depesquisasetornou possíveldevido

aosonstantesavançosdospoderes omputaionais.

Aneessidadedetransformaramontanhadedadosarmazenadoseminformaçõessigniativas

éóbvia. Entretanto,asuaanáliseerademorada,dispendiosa,pouoautomatizadaesujeitaaerros,

malentendidosefaltadepreisão[Newing(1996)℄.

Busandoanalisareextrairmelhoronheimento dosonjuntosde dados,surgiuuma áreade

pesquisa denominada KDD (Knowledge Disovery in Databases). KDD éumproessode várias

etapas, não trivial, interativo e iterativo, para identiação de padrõesompreensíveis, válidos,

novosepotenialmenteúteisapartirdegrandesonjuntosdedados [Fayyadetal.(1996)℄.

O proesso KDD envolvesistemas omputaionais e suasetapas podem servistas na Figura

1.1. Iniialmente,oproblemaquesedesejaresolverpreisaseranalisadoeompreendido,deforma

amapeá-loemumproblemademineraçãodedados. Estaetapanormalmenteéfeitapelopróprio

usuário,visto queéneessárioqueelesaiba omoamineraçãodedadospodeajudarasoluionar

seuproblema. A partirdaí, osdadosenvolvidosno ontextodoproblema devem serpreparados

para que possam serminerados. Essa então é asegunda fase, onde é feitoo pré-proessamento

que ompreende aseleção ea preparação dos dados, sendo que alguns sistemas podem auxiliar

osusuários nesta etapa. A preparaçãodos dadosenvolvetarefas omo limpar a base, retirando

ruídos evaloresnulos,quando neessário, edisretizardados,transformandonúmerosreaisem

intervalos de valores, por exemplo. Com os dados prontos, aontee a mineração propriamente

dita (tereira etapa), quando os padrões são desobertos e expliitados. Esta fase é feita pelo

sistema seleionado que utilizará uma ténia de mineraçãoespeía, esolhida pelo usuário de

aordo om suas neessidades em relação ao problema existente. A quarta e última etapa é o

pós-proessamentoeonsistenavisualizaçãodosresultados(oumodelos)enasuainterpretação,

ouseja,naobtençãodoonheimentopelousuárioaointeragiromosmeanismosdevisualização

disponíveisnosistema[Nasimento(2005)℄.

A mineraçãode dados, apesar de ser uma das etapas do proesso de KDD, é um termo

o-mumente utilizadopara refereniartodoproesso. Elasurgiuhámaisde umadéada,omouma

alternativapromissoraparaaanálisedessesgrandesvolumesdedados. Conjugandoténias

pro-venientesdediversasáreas,omoestatístiaebanodedados,amineraçãodedadossediferenia

(13)

Figura1.1: EtapasdoproessoKDD

de hipótesee embanos de dadosasonsultas estruturadas, na mineraçãode dadosprevaleea

deteção automátia de padrões. Ou seja, sem que seneessite formular previamente qualquer

hipótese,todaabasededadoséanalisadaeumasériedepadrõesexpliitados,forneendoao

ana-listaumonjuntodehipótesespoteniaisque,dadootamanhodabase,sópoderiamserlevantadas

atravésdaintuição.

Emtermoshistórios,ossistemasdemineraçãodedadospodemserapresentadosem4gerações

[Goldshmidt (2005)℄ [Piatetsky-Shapiro (1999)℄. A primeira oorreu na déada de 80, em que

as ferramentas foavam em uma tarefa espeía omo lassiadores utilizando redes neurais,

agrupamento (lustering) utilizando o algoritmo K-means [Ralambondrainy (1995)℄ [MaQueen

(1967)℄oumesmoavisualizaçãodosdados.

A segunda faseiniiou-seporvolta de1995, omferramentasdenominadas suites, dando

su-porte amais de uma etapa do proesso, possibilitando realizar diversas tarefas de desoberta e

apresentando mais de um tipo de análise de dados. Como exemplos dessas ferramentas

pode-mositar: Clementine[KhabazaeShearer (1995)℄, Tamanduá[Ferreiraet al.(2005)℄[Tamandua

(2006)℄, WEKA [Weka (2006)℄ e DBMiner[Tutorial (2006)℄. Entretanto, essas ferramentas

nor-malmenterequeremumgrandeonheimentosobreténiasespeíasdemineraçãodedadospor

partedosusuáriosparautilizá-las[Albergariaet al.(2006)℄.

Deformaatornarossistemasmaisamigáveisaosusuários,surgiuatereirageraçãode

siste-masnonaldadéadade90. Voltadosparaumontextoespeío,ostermoseoneitosutilizados

tendemasermaispróximosdosusuários,nosproblemasqueestãoanalisando. Entretanto,as

fer-ramentas dessa fase am limitadas a um determinado problema e ontexto. Um exemplo é o

sistemavoltadoparadetetarfraudesdenominadoHNCSoftwaresFalon[Rainho(2001)℄.

A quarta geração onsiste nas ferramentas de assistêniaao proessode KDD,também

ha-madasIDA (Intelligent Disovery Assistants). Essas ferramentas busam auxiliarosusuáriosno

omplexoproessodeKDD,ajudandoduranteastomadasdedeisõesentre asvárias

possibilida-des de qual aminho seguirem uma determinadatarefa de mineração. Neste aso, os oneitos

são apresentados e expliados aos usuários. Ou seja, osusuários são auxiliadosno proesso de

aprendizagemepreisamompreenderoproessopararealizaremsuastarefas. Umaanálise mais

aprofundadadossistemasemgeraçõeséapresentadanaseção2.5.

Os sistemas mais amplamente utilizados são os de segunda geração, por obrirem diversas

apliaçõese abrangeremdiversas ténias. Entretanto, enontramos em Albergariaetal. (2006)

umasériededesaosdeinteraçãoqueilustramasdiuldadesdosusuáriosemrelaçãoaessestipos

desistemas. Em Kriegeletal.(2007),tambémsãolevantadasalgumasdiuldadesexistentesem

relação àinteração omsistemas de mineração de dados. Em geral, são onheimentos ténios

(14)

aumtipodeproblemaespeío. As interfaessão voltadasparaosusuários,masadadomínio

demandaumnovoproessodedesenvolvimento,oquerepresentaumaltousto.

Ossistemasdaquartageraçãoaindaestãosendopesquisadoseprototipados. Oobjetivodestes

sistemas é auxiliar o aprendizado em relação aos oneitos ténios, sendo neessário de toda

formaqueosusuáriosaprendamoproesso. Assim,elespodemfailitaroaprendizado,masainda

requeremqueousuárioestejadispostoaaprenderosoneitosdemineraçãodedados.

Reentemente,pesquisadorestêmlevantandoaneessidadedeseriarsistemasquesãofáeisde

usar[Hanet al.(2007)℄. Porém,apesardastentativasemabstrairosoneitosomonossistemas

de tereira geração ou apresentar os oneitos envolvidos, omo no aso de sistemas de quarta

geração, a usabilidade de sistemas de Mineração de Dados(MD) reentemente foi apontada em

[Kriegelet al.(2007)℄omoumdosinograndesdesaosdaárea.

Nessesentido,oobjetivodestetrabalhoonsisteemapresentarummodelo,apliadoeavaliado,

baseadona teoriada Engenharia Semiótia [deSouza (2005)℄, apresentadano apítulo 3. Nossa

soluçãoonsiste na proposta de um modelo deextensão aser aopladoem sistemas de segunda

geraçãoquebusapermitiraumgrupodeusuáriosqueutilizem essessistemassemqueparaisso

sejaneessárioumentendimento(ouaprendizado)afundodosoneitosténiosdemineraçãode

dadosenvolvidos,semnoentantorestringiroamplopotenialdeatuaçãodossistemasdesegunda

geração. Isso em função da neessidade de que os sistemas sejam de ampla apliação, mas que

nãodemandemqueosusuáriospreisemaprenderosoneitosenvolvidosemmineraçãodedados.

Assim,existe aneessidadedesistemasquesejamintuitivoseapliáveisadiversosontextos.

O modelo de extensão proposto envolve vários fatores, desritos no apítulo 4. Dentre as

araterístias,sãoonsideradosdoispersdeusuários: oespeialista,quepodeserusuáriomais

experiente ou representante da equipe de design e o usuário leigo, que entende o ontexto de

apliação,masnãoasténiasdemineraçãodedados.

Omodelopretendeofereerapossibilidadedesistemasdesegundageraçãoseremextensíveis,de

formaainserirnessestiposdesistemasapossibilidadedeusuáriosespeialistasriaremabstrações

e,omisso,permitirqueummaiornúmerodeusuáriosleigospossamutilizá-los. Issoporque sem

omodelo, todososusuáriospreisam serespeialistas,onheendo osoneitos demineração de

dadosedoontextodaapliação. Comomodelo,umespeialistapoderiarabstraçõesparavários

leigos, que só preisamentenderdo problema a seranalisado. Ou seja, o modelo propostovisa

possibilitarqueusuáriosespeialistasdenamperguntasinteressantes,permitindoquepessoasque

nãoonheçamosoneitosenvolvidosemmineraçãodedadospossamobterinformaçõesúteispara

elasnosambientesemqueatuam.

Um exemplo de apliação seria o dono de um determinado supermerado que deseja saber

quaisprodutos sãovendidos deforma onjunta nos sábadosanoite. Como ele pode utilizarum

sistema demineraçãopararesponderàsuapergunta? Nesse aso,elenão onheeasténiasde

mineraçãodedadosenãoestádispostoaestudá-las. Aidéiaentãoonsisteemriarumaamada

deabstraçãoporusuáriosespeialistas(oumesmopelaequipededesign)atravésdemeanismosde

extensãoemsistemas desegundageração. Essaamadariadaonsisteemuma interfaedefáil

interaçãoparaumonjuntodeusuáriosnaisdeumdeterminadodomínio,nesseasoagerêniado

supermerado.Dessaforma,ogerenteonseguiriaexeutarasperguntasriadaspelosespeialistas

eobteriarespostassemquesejaneessárioonheerosoneitosdemineração.

Então, poderiaserriada pelos espeialistas uma pergunta daseguinteforma: Quaisos

(15)

tentes nosupermerado). Ogerente entãoiria esolhersábadoeumdeterminadoproduto,omo

erveja,e soliitararesposta, queapresentariaa listagemdos produtosque respondeaonsulta

realizada. Nesseaso,ogerente nãopreisouonheernenhumoneitoenvolvidonoontextoda

mineração,masobtevearespostaquedesejava.

Emnosso trabalho, oambiente deapliação seráosistema de mineraçãode segundageração

denominadoTamanduá[Tamandua(2006)℄eemrelaçãoàsténias,estamosfoadosnestetrabalho

naténiadeRegrasdeAssoiação,sendoelabastantepopularedegrandeapliação[Hippet al.

(2000)℄. Aseguirapresentamosomo estetrabalhoestádividido.

1.1 Organização da dissertação

Este trabalho estáorganizado em mais ino apítulos, alémdesta introdução. O apítulo 2

apresentaosoneitosdemineraçãodedados,aprofundandonaténiademineraçãoderegrasde

assoiação,foodestetrabalho. Apresentamostambémosdesaosidentiadosparaumusomais

amplodossistemas demineraçãodedadosesoluçõesexistentesparaalgunsdestes desaos.

A fundamentação teória do trabalho é apresentada no apítulo 3, em espeial a teoria da

EngenhariaSemiótia[deSouza(2005)℄,juntamenteomumaintroduçãoasistemasextensíveis. O

modeloaquipropostoestádesritonoapítulo4,ondesãoapresentadosseusobjetivos,arquitetura

earaterístias.

Ainstaniaçãodomodelofoifeitadesenvolvendoumprotótipoqueestáapresentadonoapítulo

5, alémdadesriçãodosistema desegundageraçãoutilizadoparaapliaromodelo,oTamanduá

[Tamandua (2006)℄. Nesse apítulo também são desritas avaliaçõesrealizadas, inlusive om a

partiipaçãodeusuáriosreais.

Paranalizar,asonlusõessãoapresentadasedisutidasnoapítulo 6,alémdeontribuições

(16)

Mineração de dados por regras de

assoiação

Este apítulovisaapresentaroneitosemmineraçãodedados,detalhandoaténiade

mine-raçãoderegrasdeassoiação,queéoontextoondeomodelodesenvolvidoéapliado.

Mineraçãodedadossurgiudaneessidadedeextraironheimentoepadrõesdegrandesbases

dedados. Issoporque aanálisede grandesquantidadesdedadostornou-seinviávelsemoauxílio

de ferramentas omputaionais [Goldshmidt (2005)℄. Conforme apresentado no apítulo 1, a

mineraçãoéumaetapadoproessoKDD,porémdiversosautoresreferem-seàmineraçãodedados

eao proessoKDD deforma indistinta. É na etapade mineraçãoque serealiza abusaefetiva

poronheimentosúteiseimplíitos.

Assim, mineraçãode dadosrefere-seauma forma automátia einteligente deanalisar,

inter-pretarerelaionar grandesquantidadesdedados,tomando asinformaçõesobtidasomo suporte

paradeisõesnosnegóios.

Mineração de dadosapresenta diversas ténias, quepodem ser lassiadasomo preditivas

oudesritivas. A mineraçãopreditivaonstróimodelosparaaprevisãodastendêniasedas

pro-priedadesde dadosdesonheidos. Elaprevêdadosnãodisponíveisapartirdedadosdisponíveis,

podendo indiar diretamente uma desoberta (auxiliar uma deisão)ou serviromo passo

inter-mediárioparauma desobertamais omplexa. Alguns tiposde inferêniaquepodem seritados

omopreditivas sãolassiação[Mithell (1999)℄eregressão[WeisseIndurkhya(1998)℄.

A mineraçãodesritivadesreveoneitosou onjuntosde dadosrelevantesde formaonisa,

disriminanteeinformativa. Representaaáreadeinvestigaçãonosdadosquebusafatos

relevan-tes,não-triviaisedesonheidosdosusuários,sem queexistam hipótesespreviamenteelaboradas.

Alguns exemplossão sumarização[JiaweiHan (2001)℄, lusterização[Berkhin(2002)℄ easregras

deassoiação[Agrawalet al.(1993)℄.

2.1 Regras de assoiação

Nesse trabalho, estamos foados na téniade Regras de Assoiação, uma das ténias mais

populares, tendo uma grande variedade de apliação [Hippet al. (2000)℄. Essa ténia tem a

funionalidadeobjetivadeenontrarorrelaçõesinteressantesentreositensdeumabasededados.

AmineraçãoderegrasdeassoiaçãofoiintroduzidaporAgrawaletal. em[Agrawaletal.(1993)℄.

(17)

freqüente em um bano de dados. Assim, muitos algoritmosrelaionados àtarefa de regras de

assoiaçãobaseiam-se naseguinte propriedade[Goldshmidt (2005)℄: um onjunto somente pode

serfreqüentesetodososseussubonjuntosforem freqüentes.

A apliação mais onheidade regrasde assoiação onsisteem auxiliarna ompreensãodos

hábitosdeompradoslientesdeumsupermerado,queouonheidaomoanálisedoarrinho

deompras. Aidéiaeradesobriromoasvendasdealgunsprodutosinueniavamnasvendasde

outros, para quese pudesse planejarmelhor aspromoções,organizar de formamais onveniente

adisposição dasprateleiraseavaliaroimpato queadesontinuidadenasvendasdeumproduto

poderiaprovoarnasvendasdeoutros. Porexemplo,atravésdessaténiaépossíveldesobrirquais

produtossãovendidosdeformaonjunta. Assim, ogerente deumsupermeradopodedesobrir,

porexemplo, que arroz e óleo são mais vendidos, de forma onjunta, aos sábados pela manhã.

Amesma apliaçãopode serestendidaàsites deomérioeletrnio, porexemplo,ondepermite

desobrirseexisteuma grandeanidadenapreferêniadeseusompradores[Cortes(2002)℄.

Ageneralidadedamineraçãoderegrasdeassoiaçãopermitiu,noentanto,queelafosseutilizada

paraasmaisdiversasapliações.Exemplosdeapliaçõesreaisinluem: análisederéditonosetor

naneiro,deteçãode fraudes naáreade seguros, databasemarketing (generalizaçãoda análise

doarrinho de ompras), deteçãode intrusos naárea desegurança de redes,leilõeseletrnios,

et. Em última instânia, amineração de regrasde assoiação é apliável sempre que sedeseja

enontraralgumtipodeorrelaçãodentrodeumabase dedados.

Algoritmosde mineraçãoderegrasdeassoiaçãogeramumonjunto deregrasque devemser

interpretadas pelos usuários. Uma regra de assoiação representa uma relação entre dois ou

maisitensdeuma basededados. Considere,porexemplo,aregraapresentadaaseguir:

[PO℄,[MANTEIGA℄

=

>

[LEITE℄ (30.00,60.00)

Oonjuntodositensdoladoesquerdodaregra(pãoemanteiga)éhamadodeanteedentee

oonjuntodositensdoladodireitodaregra(leite)éhamadodeonseqüente. Essaregramostra

arelaçãoqueexisteentreaompradepão,manteigaeleiteemumapadariahipotétiaedeveser

lidadaseguinteforma: trintaporentodasomprasrealizadas pelos lientes dapadariainluem

pão, leite e manteiga; e das ompras que inluem pão e manteiga, sessenta por ento também

inluemleite. Umexemplodeumonjuntodevendasilustrandoumontextoondeessaregrapode

tersidogeradapodeservisualizadonatabela2.1.

NúmerodaCompra Pão Manteiga Leite

1 sim sim sim

2 não sim não

3 não sim sim

4 sim sim sim

5 sim não sim

6 sim sim não

7 sim sim não

8 sim sim sim

9 não não não

10 não não não

(18)

Oprimeirovalorapresentadonaregra(30.00)orrespondeaosuportedamesma. Osuporte 1

representaafreqüêniadeoorrêniadoevento, formadopela uniãoentre oanteedenteeo

on-seqüentedaregraedáumamedidadasuasigniâniaestatístia. Nonossoexemplo,observamos

queem3das10transaçõesoorreramasomprasdepão,manteigaeleitesimultaneamente. Sendo

assim,temosqueosuportedaregraéde30%.

Osegundovalor (60.00)queaparee entre osparêntesesorrespondeaonança daregra. A

onança representa a freqüênia relativa(ou probabilidade ondiional) entre a oorrênia do

evento no onseqüente ea oorrênia do evento no anteedente. Podemos dizer que aonança

dá uma medida do poder de previsão da regra: sejá soubermos que uma determinadaompra

inluipãoemanteiga,earrisamosdizerqueelatambéminluiráleite,qualseráanossahanede

aerto? Pelaregraaima,anossahane deaertoseráde60%. Ostermosonança,freqüênia

relativaeprobabilidadeondiionalpodemserusadosdeformainterambiável. Elaéaluladada

seguinte forma:

conf

(

A

B

)

=P(B|A)=

P

(

AeB

)

P

(

A

)

=

suporte

(

A

B

)

suporte

(

A

)

onde P( B | A ) é a probabilidade de B oorrer, visto que A oorreu, que é alulada omo a

probabilidadedeAeB,divididapela probabilidadedeA.

Utilizandooexemplo,temos:

SuportedeA(pãoemanteiga): 50%(apareem em5das10transações)

SuportedeA

B(pão,manteigaeleitejuntos): 30%(apareem em3das10transações)

Conança=30/50=60%

Além das medidas de suporte eonança, existem outras medidas de interesse que auxiliam

na análise das regrasde assoiação. A seguir são apresentadas as denições de leverage, lift e

onvition.

Oleverage éumamedidadeinteressequerelaionaosuporteesperadoomoqueérealmente

obtido. Porexemplo,existindodoisdados,aprobabilidadedesaironúmero6emumdadoé1/6,

jáaprobabilidadedesaironúmero6nosdoisdadosédadapor1/6

1/6=1/36. Ouseja,dados

oseventosAeB,temos queaprobabilidadedeoorreroseventosAeBjuntosé: P(A).P(B).

Assim,noálulodoleverage, primeiroalula-seossuportesdeAeBseparadamente.

Poste-riormente,essesvaloressãomultipliadosgerandoovaloresperado. Calula-setambémosuporte

deA eBjuntos(ositensoorrendosimultaneamente),enontrandoovalorobtido. Oleverageéa

diferençaentreosvaloresenontrados:

leverage(A

B) =

(

P

(

A

e

B

)

(

P

(

A

)

P

(

B

)))

leverage=suporteobtido

suporteesperado

O lift é uma medida de interesse que relaiona a onança esperada om a obtida, sendo

semelhante aoleverage. Éumadasmedidasmaisutilizadasparaavaliardependênias. Dadauma

regradeassoiaçãoA

B,oliftindiaoquantomaisfreqüente torna-seBquandoAoorre.

1

Aimportâniaemrelaçãoaovalordasuportepodevariardeaordoomoontexto. Porexemplo,regrasque

apresentamumsuporteabaixo deumdeterminado valorpodem seronsideradaspouorelevantes emanálise de

(19)

Elapodeserexpliadaatravésdoexemploaseguir. Dadasastransaçõesapresentadasnatabela

2.2,vamosanalisararegraregraPO

=

>

MANTEIGA.

NúmerodaCompra Pão Manteiga

1 sim sim

2 sim sim

3 não sim

4 não não

5 sim não

6 não não

7 sim sim

8 não não

9 não sim

10 sim não

Tabela2.2: ExempliaçãodoLift

Considerandotodasasomprasrealizadas,temosqueem50%dastransaçõesoitemmanteiga

foiomprado. QuandoonsideramosaregraPO

=

>

MANTEIGA,reduzimosnossodomínio

ape-nasàstransaçõesondehouveaompra depão. Devemosentãoveriarem quantas delashouve

oonsumodemanteiga. Em5dessastransaçõeshouveoonsumodePOeem3delastambém

foionsumidooitem MANTEIGA.Sendo assim,temos umaonançade3/5=60%. Vimos

as-sim,queaonançaobtidaomaregrafoimaiorqueosuporteiniialesperadoparaopão,oque

podeindiarqueoonsumodepãoestárelaionadoaodemanteiga. Afórmulaparaalularolifté:

lif t

(

A

B

) =

lif t

(

B

A

) =

P

P

(

A

(

AeB

)

P

(

B

)

)

=

conf

(

A

B

)

suporte

(

B

)

=

conf

(

B

A

)

suporte

(

A

)

onde

conf

(

A

B

) =

P

(

AeB

)

P

(

A

)

Ouseja,onsiderandonossoexemplo,temososeguinte álulo:

lift

=

conf

(

pao

manteiga

)

suporte

(

manteiga

)

=

(60)

(50)

= 1

,

2

Quanto maiorolift, maioréapossibilidadede queA e Bjuntos em uma transaçãonão seja

umfatoaleatório,esimquetenhasidoausadoporalgumarelação.

Calulandoemtermosdeporentagem,temosaseguinteexpressão:

(

lif t

1)100 = (1

,

2

1)100 = 20%

Ouseja,aregraapresentauma onança20%aimadaesperada.

O onvition (onvição) é uma medida de interesseque relaionaa regraomplementar a

queestá sendo analisada, ondearegra ontendoanegação doonseqüente pode sermuito mais

expressiva. Elaquantia oimpato daregraquandoomparadaomasuaregraomplementar

(oonjuntoderegrasondeoonseqüenteéinvertido).

(20)

Primeiramente,alula-seoliftdaregraomplementar (negaçãodaregraque estásendo

ana-lisada). Posteriormente,seuvaloréinvertido:

1

lif t

.

Paraanalisaros valoresobtidos,temosasseguintesregras:

quandoonvitionéiguala1,signiaquearegraeoseuomplementotemigualvalor,

quantomaiorovalordeonvition,maisforteéaprópriaregra,

seovalordoonvitionformenorque1,deve-seanalisarasregrasomplementares.

Afórmuladeálulodeonvitioné:

onvition(A

B)=

P

(

A

)

P

(

notB

)

P

(

AandnotB

)

=

(1−

supp

(

B

))

(1−

conf

(

A

B

))

Cada medida deinteressedeveseranalisadade formaomplementar àanálisedos resultados

obtidosem um proesso de mineração de regras de assoiação. Normalmente, as medidas mais

utilizadassãosuporteeonança,poisoentendimentodasmesmasémaissimples,sendoassimilada

ommaisfailidadepelosusuários[Albergariaet al.(2006)℄.

2.2 Tarefa de mineração de regras de assoiação

A apliaçãodaténia deregrasdeassoiação éamplaeabrangediversosontextos. Porém,

independentedoontexto,emumsistemademineraçãodesegundageraçãosãoneessáriosalguns

passosparaariaçãodetarefasdemineraçãodedados. Aseguirserãoilustradosospassosaserem

seguidosutilizandoosistemadesegundageraçãodenominadoTamanduá[Tamandua(2006)℄.

Oprimeiro passo aserrealizadopelo usuárioonsiste em riaruma tarefa demineração. As

primeirasinformaçõessoliitadassãonomeedesriçãoparaatarefa,onformeilustraaFigura2.1.

Posteriormente,ousuáriopreisaesolherabase asermineradajuntamente omosatributos da

mesma(Figura2.2). Éneessáriatambémaesolhadoalgoritmoaserutilizado,alémdosvalores

dosparâmetrosqueserãoutilizados,queno asode regrasde assoiaçãosão suporteeonança

(Figura2.3).

A tarefa então deve ser exeutada e os resultados são apresentados ao usuário. A tela dos

resultadosdosistemaTamanduáéapresentadanaFigura2.4emquemostraoonjuntodasregras

obtidasnamineração. Atelaapresentaasseguintesinformações:

1. Filtrosquepodemserutilizados paraesolherosatributospresentesnasregras;

2. Possibilidadedemudançadasmedidasdeinteresseparavisualizaçãográadasregras;

3. Matrizdemedidasdeinteresse,ondeadapontoéumaregra(ouumonjuntoderegrasom

osmesmosvaloresnasmedidas deinteresse);

4. Detalhe deumaregra. Aoliaremumdospontosdográo(regraouonjunto deregras)

sãoapresentadasinformaçõesdetalhadasnalateral.

Como trata-se de um proesso iterativo, ao visualizar osresultados obtidos, o usuário pode

sentir neessidade de mudar atributos, parâmetros ou ltros, tendo que exeutar novamente a

tarefa. Para realizar essa interação, o usuário deve onheer bem os oneitos envolvidos e o

impatodeadamudançaquepoderealizar.

(21)

Figura2.1: TeladeriaçãodeumatarefademineraçãodosistemadesegundageraçãoTamanduá

(DadosdaTarefa)

Figura2.2: TeladeriaçãodeumatarefademineraçãodosistemadesegundageraçãoTamanduá

(SeleçãoBase/Atributos)

2.3 Desaos no uso de apliações de segunda geração

Reentemente,foiapresentadoem[Kriegelet al.(2007)℄queumdosdesaosemmineraçãode

dadosonsisteem aumentar ausabilidadede sistemas deMineração deDados (MD).As

diul-dades experimentadas pelos usuários se distribuem ao longo do proessode mineração, desde a

deniçãodeparâmetrosparamineraçãoatésuavisualização. Issoenvolveongurarumasériede

parâmetros,em um proesso iterativoque envolve ajustar osresultados obtidos,seleionar e

in-terpretarregrasresultantes[Albergariaetal.(2006),Hofmannet al.(2000),Kriegeletal.(2007),

Meiet al.(2006)℄. Oimpato dosproblemasnousodosistemaégravetanto paraousuário(que

pode ser levado a interpretarerroneamente o resultado, não obtendo o onheimento desejado),

quantoparaosresponsáveispelosistema(o usuáriopodedesistirdeutilizarosistema).

Analisando a diuldade dos usuáriosna interação dos sistemas disponíveis atualmente,

en-ontramos em [Gonçalves(2001)℄ umestudo da apliaçãode algumas ferramentas de mineração

dedadosno ontextodeuma redede supermerados. Essessistemas podem seronsideradosde

(22)

Figura2.3: TeladeriaçãodeumatarefademineraçãodosistemadesegundageraçãoTamanduá

(SeleçãoAlgoritmo/Parâmetros)

Figura2.4: TeladevisualizaçãodosdadosdosistemadesegundageraçãoTamanduá

não auxiliaramos tomadoresde deisãoda empresa. Isto oorreupelo fato de não onseguirem

utilizá-lasdemaneiraeaz,nãotrazendoassimnenhumbenefíioaoseremusadas. Adiuldade

enfrentadapelosusuáriosoorreu,emgrandeparte,emfunçãodalinguagemeinterfaedosistema

quenãofaziampartedodomínio dosusuários.

Da forma semelhante, em [Albergariaet al. (2006)℄ são levantadas algumas diuldades de

interação dos usuários. A seguir estão apresentados alguns desaos de interação om sistemas

desegunda geraçãode mineraçãodedados. Emgeral, estesdesaos podem serrelaionados aos

termos téniosempregados eaos oneitos envolvidosdurante todoouso dos sistemas quenão

fazempartedodomínio dosusuários.

2.3.1 Denição dos parâmetros de entrada da mineração

(23)

parâmetrosiniiais para que eles possam serexeutados. Os dois parâmetros mais tradiionais

desses algoritmos são suporte e onança mínimos. O usuário deve forneer o valor mínimo de

suportequeumaregradeveapresentarparaqueelasejagerada,omesmovalendoparaaonança.

Estes oneitos não fazem parte (normalmente) do domínio do usuário,e, além disso, osvalores

mais adequados para esses parâmetros dependem da base de dados que vai ser minerada e do

tipo de onheimento desejado pelo usuário. Desta forma, a denição destes parâmetrosnão é

intuitivae depende daexperiêniadousuário tanto omabase de dados,quanto omosistema

demineração.

2.3.2 Seleção dos atributos

Umaspetorelaionadoàgeraçãodasregrasquemereesermenionadorefere-seàesolhados

atributosaseremmineradosnabasededados. Oproblemaaquiserefereàesolhadosatributos

pelosusuários,vistoqueem muitasbasesde dadoshá diversosatributos quesãoredundantes ou

parialmenteredundantes. Porexemplo,numabasedeomprasosatributosódigodoprodutoe

nomedoproduto emgeralsãoredundantes,jáqueadaódigoorrespondeaumúnioproduto

(e.g. oódigo123 orrespondeao produtoMouse XYZ) . Já osatributosnome doproduto

e ategoria do produto são parialmente redundantes, já que ada produto é de uma únia

ategoria (e.g. o produto Mouse XYZ pertene à ategoria Periférios). Quando o usuário

seleionaatributosredundantesouparialmenteredundantes, osistema podegerarregrasóbvias,

omoasseguintes:

[Código=123℄

[Nome=MouseXYZ℄(100.00,1.00)

[Nome=MouseXYZ℄

[Categoria=Periférios℄(100.00,1.00)

É óbvio que 100% dos produtos de ódigo 123 são Mouse XYZ, assim omo é óbvio que

100%dosMouseXYZsejamPeriférios. Comoosistemanãotemomosaberqueosatributos

sãoredundantes,essasregrasirãoapareeremdestaque,jáquepossuemumaonançaaltaeum

lift também alto, sendoo liftdado pela razãoentre aonança daregra eaonança que seria

esperada. Oliftdaprimeiraregra,porexemplo,temvalor100,indiandoqueaonançadaregra

é100vezesmaiorqueafreqüêniadoonseqüente. Ouseja, ofatode sabermosque oódigodo

produtoemumadeterminadaompraéiguala123 aumentaem100vezesahane donomedo

produtonamesmaompra serMouseXYZ,oqueéóbvio.

2.3.3 Análise das regras de assoiação resultantes da mineração

O resultado de um sistema de mineração de dados por regras de assoiação é um onjunto

dessasregras. Noentanto,ooneitoderegrasdeassoiaçãonãofazpartedodomíniodousuário

edeveser aprendido por ele para que possa fazer uso do sistema. Ousuário deve entender que

ada regra de assoiação representa uma possível orrelação entre itens de uma base de dados.

Possívelporque ofato de existir uma regra de assoiação entre dois ou mais itens não signia

neessariamentequeelesestejamorrelaionados.Vamos onsiderararegraabaixo:

(24)

Esta regra india uma possível orrelação entre a ompra de pão e manteiga e leite. Como

vimos, ela nosdiz que os itens pão,manteiga e leite são omprados juntos om uma freqüênia

de50%,eque 80%dasomprasque inluempãoemanteigatambém inluemleite. Esta última

porentagemorrespondetambémàhanedeaertodeumaprevisãodaompradeleitedadoque

jáoorreuaompradepão emanteiga. Se ousuárionãoompreender orretamenteosoneitos

envolvidosem uma regrade assoiação, ele orre oriso utilizá-las deforma equivoadaou não

onseguiratingiroobjetivoquetinhaaoutilizarosistema.

2.3.4 Seleção do subonjuntode regras

Além de permitirao usuáriovisualizar as regrasgeradase suas araterístias, osistema de

mineraçãoderegrasdeassoiaçãodevetambémpermitiraousuárioseleionarumsubonjuntode

regrasquesejamaisinteressanteparaele. Paraisso,ousuáriodevedenirquaisitensointeressam,

emqueladodaregraelequerqueumdeterminadoitemestejapresenteouqualonúmerodeitens

uma regradeveter no anteedente ou noonseqüente para seronsiderada interessante. Assim,

o usuário deve entender não apenas a estrutura da regra (e.g. que a regra é formada por um

anteedenteeumonseqüente),mastambémoquesigniaumitemestarpresentedeumladoou

dooutro.

2.3.5 Seleção das métrias de interesse

Valoresdesuporteeonançaaltosnãoneessariamenteindiamumaorrelaçãoentreositens.

Paraavaliaressaorrelação,sãoneessáriasoutrasmétriasdeinteresse. Paraserapazde

utilizá-las,ousuáriodeveantesaprendê-las,umavezqueelastambémnãofazempartedoseudomínio.

Naliteratura,sãoenontradasdezenasdessasmétrias,algumasmaisadequadasadeterminadas

situaçõesqueoutras. Paraentendermosautilização destas regras,vejamosolift, já apresentado

anteriormente. O lift dá uma medida do quanto a onança de uma regra é surpreendente em

relaçãoaoqueeraesperado. Uma onançade80%,porexemplo,naregra([Pão℄, [Manteiga℄

[Leite℄(80.00,50.00)℄)indiaque80%dasomprasqueinluírampãoemanteigatambéminluíram

leite. Emboraessa onançapareçaalta, não podemosarmarissoomerteza semolharmos a

freqüêniadaompradeleitenabasededados. Se80%detodasasomprasefetuadasnapadaria

inluíram leite, então a onança de 80% já era esperada, e a regra não teria trazido nenhuma

informaçãosurpreendente. Por outrolado, seapenas 40%de todasasompras efetuadasna

pa-dariainluíramleite, entãoaonançade80%éodobrodaesperada,indiandoqueaomprade

pãoemanteigainueniapositivamentenaompradeleite,oqueéumainformaçãointeressante.

O lift, onformejá apresentado, é dadopela razão entre a onança daregra e aonança que

seriaesperada. Se aonança esperadaera de80%ea onançadaregrafoi de80%,olift é1.

Damesma forma, seaonança esperadaera de 40%eaonança daregrafoi de 80%,olift é

2. Quanto mais o lift divergir do valor 1, maior será a intensidade da orrelação expressa pela

regraemais surpreendente ela será. Esseexemploilustra bem aneessidadede seanalisar mais

deumamedidadeinteresseantesdesetomarqualquerdeisãooutiraronlusõesdosresultados

apresentados.

(25)

Depoisdeapresentadosalgunsdesaos,apróximaseçãoilustraumatarefademineraçãode

da-dos(baseadanospassosapresentadosnasubseção2.2),apresentandoalgunspontosdediuldades

deinteração.

2.4 Cenário de uso

Aseção2.2apresentouospassosparaserealizarumatarefademineraçãoderegradeassoiação

enaseção2.3foramilustradosdesaosdeinteraçãoemsistemasdesegundageração. Nessaseção

seráapresentadoumenáriodeusoilustrandoumarealtarefademineraçãosendoexeutada.

Cenários[Carroll(2000)℄foramdenidosomoplausíveisedetalhadasnarrativastextuaisque

desrevem uma situação espeía. Eles têm sido usados em diferentes fases de onepção do

softwaree suaprinipal ontribuiçãoé permitiruma visão mais ampla dautilização dosistema.

Embora não seja real, é uma situação plausível, baseada em experiênias reais. A seguir, será

apresentadoumenárioqueilustrauma apliação,ilustrandouma tarefademineraçãoderegras

de assoiação sendo exeutada. O enário apresentado é baseado no ontexto de auditoria de

ompras governamentais e o sistema de segunda geração utilizado foi o Tamanduá [Tamandua

(2006)℄.

2.4.1 Tarefa de auditoria

Osetor deauditoria dogovernoresolveuveriarse existiamindiativosde fraudesem

om-pras realizadas pelos órgãospúblios. Pedro, funionáriodo setor de auditoria, ahou que seria

interessanterealizaressetrabalhoeresolveuutilizarténiasdemineraçãodedados,apesardenão

onheerprofundamenteosoneitosenvolvidos.

AprimeiratarefarealizadaporPedrofoiidentiarosfenmenosfraudulentosquegostariade

analisar. Resolveuentãofoalizarabusaemtrêsdeles,listadosabaixo:

Favoreimento: seleção de forneedores por meios não previstos em lei. (organizações

públias podem agir somente no limite do que é previsto em lei, enquanto organizações

privadas podem fazertudooquenãoéproibidoemlei)

Formação de Cartel: tabelamento depreçosde umtipodeprodutoporparte dos

forne-edores.

Super-faturamentodeompras: Preçosmédiospagosparadeterminadosprodutosmuito

aimadopreçodemerado.

Busandoidentiarsehouveindíiosdefraude,Pedrodeterminoualgumaspremissas

relaio-nadasaosfenmenosqueeleseleionou:

Favoreimento: Um forneedor não é apazde ganhar todas asliitações de um mesmo

tipodeprodutoduranteumanointeirosemserfavoreido.

Formação de Cartel: Não é possível que todos os forneedores de um mesmo tipo de

produtoovendamomomesmopreço,emummesmoperíodo,semformarartel.

(26)

PedroentãoresolveuutilizarosistemaTamanduápararealizarsuatarefa,ahandoapropriada

aapliação daténia demineraçãode regrasde assoiação. Ele deveria utilizarosistema para

mapear oproblemaqueele tinha (baseadonaspremissasqueelaborou) emtarefas demineração

de dados. A partir da primeira premissa de que um forneedor não é apaz de ganhar todas

as liitações de um mesmo tipo de produto durante um ano inteiro sem ser favoreido, Pedro

onsiderouqueseumforneedorganharmaisque70%,porexemplo,dasomprasdeumproduto

Y,existemindíiosqueesseforneedorpoderiatersidofavoreido.Pedroentãoresolveuriaruma

tarefademineração,utilizandoosseguintesdadosabaixo:

Nome: Tarefa de auditoria - Forneedor e Desrição: Tarefa que busa analisar se há

favoreimentoparaalgumforneedorespeío(teladagura2.1)

Base de dados: Basedeompras,queontém27.834registros(teladagura2.2)

Atributos: Foramesolhidososatributos: (teladagura2.2)

produto

ano

órgão

valorefetuadonavenda

forneedor(nome,ódigo,endereço)

Emrelaçãoaesolhadosparâmetros,Pedro sesentiuonfusoaoforneervalores. Issoporque

não são oneitos familiares aele e Pedro não sabia ao erto o impato que ada valor poderia

ter. PedrojátinhaexeutadoalgumastarefasnoTamanduá,masutilizandobasesdiferentes para

ontextos distintos, o que não pode ser onsiderado omo uma experiênia, pois ada tarefa é

diferente. Poresse motivo,ele atribui algunsvalores queonsiderou pertinentes, massendo essa

esolhaumdesaoparaele.

Algoritmo: foiesolhidooElat,relaionadoàsregrasdeassoiação(Figura2.3)

Aesolhadosvaloresdosparâmetrosforam:

Suporte: Pedroatribuiu ovalorde0.27,queonsisteem75oorrêniasnabase,valor

onsideradorelevanteporele.

Conança: ovalormínimodeterminadofoi70%,direionadodeaordoomapremissa

dequeumforneedoréfavoreidoseobtémgrandepartedasvendaseessaporentagem

jáéumindíio, segundoavisãodePedro.

Pedro entãosalvouatarefaeexeutouamesma. Como resultado,Pedro obteveumonjunto

deregrasde assoiação, omo oilustradonatela da gura2.4. Pedro enontrou algumasregras

queaparentementeeraminteressanteseestavamemdestaqueomo:

[Código_forneedor=0156℄

[Nome_forneedor=ETALtda℄(100.00,1.00)

(27)

atributosredundantes,omonome eódigodo forneedor. Pedro entãoteveque editar atarefa,

modiandoosatributosesolhidoseexeutandonovamente atarefa.

Pedroentãoahouqueforamgeradaspouasregras,masnãosabiaoquepoderiaserfeitopara

visualizar mais. Depois de uma análise, Pedro desobriuque o valor forneidopara aonança

estavaaltoe,porisso,preisavadiminuí-loparaseremgeradasmaisregras. Pedroredeniuovalor

daonançaeexeutounovamente atarefa.

Ao analisar os dados, Pedro gostaria de visualizar somente as regras onde apareia o mês

de Janeiro e, para isso, observouque deveria utilizar osltros. Ele não sabia, entretanto, onde

seleionaroatributodesejado,ondeseriamaisinteressanteequalomotivodosvaloresapareerem

noanteedenteouonseqüente. Apósfazersuaesolha(semmuitaertezaquedeestavaorreta),

Pedro ainda teve dúvidas ao interpretar as regras obtidas. Ele não onseguia apliar bem os

oneitos envolvidosnasoutras medidas deinteressee, porisso, sentia diuldadede utilizá-las.

Eleonsideravasemprequevaloresaltosdesuporteeonançarepresentavamregrasinteressantes,

masnãoonseguiaarmarissoomaertezaneessária. Depoisdemuitasdiuldadesedúvidas,

Pedro onseguiu obter asinformações quedesejava,mas sem aerteza de que havia enontrado

tudoquepoderiadamelhorformapossível.

Os desaos vividos por Pedro são enfrentados de uma maneira geral por usuários que não

dominam os oneitos envolvidos e issopode aabar limitando o públio e área de atuação das

téniasdemineraçãodedados[Albergariaet al.(2006)℄.

Apósalgunsdesaosdeinteraçãoseremlevantadoseumexemplodeinteraçãoserapresentado,

a próxima seção onsiste em analisar soluções que foram propostas em diversos trabalhos que

busamminimizarosproblemasexistentes.

2.5 Propostas existentes

Primeiramente,umestudofoi feitodeformaaveriarqueosdesaos identiadosnãoeram

espeíosdeumdeterminadosistema,massimgeraisdesistemasdesegundageraçãodemineração

deregrasdeassoiação. Natentativade identiarsoluçõesexistentes,foi feitauma pesquisa na

literaturae em sistemas de mineraçãode regrasde assoiaçãode objetivogeral, que não foam

emnenhumdomínioespeío. Emrelaçãoaodesao dedeniçãodeparâmetrosdeentrada, por

exemplo, todos os sistemas analisados[Dama (2006), Analysis (2006), Weka (2006), Tamandua

(2006) XLMiner (2006), Tutorial (2006)℄ apresentam na sua linguagem de interfae os mesmos

oneitosténiosqueformamosdesaosparaosusuários. Parailustrar,asFiguras2.5,2.6e2.7

mostramtelasdoDBMiner[Tutorial(2006)℄,Dama[Dama(2006)℄eXLMiner[XLMiner (2006)℄,

respetivamente,naqualosusuáriosentramomosdadosneessáriosparaamineraçãodedados.

Pouostrabalhosforamenontradossobreaneessidadedeentendimentoporpartedosusuários

dosoneitosdemineraçãodedados. Dentreestes,destaamosThearlingeolegas[Thearlinget al.

(2002)℄que hamam aatençãopara aimportânia dousuárioentendereonar em sistemas de

mineraçãodedados,masnãoapresentaquaisaspetossãoneessáriosparaisso.

Em relaçãoà visualização dosresultados, existem algunsesforços em melhorarausabilidade

desistemasdemineraçãoderegrasde assoiação. Umaestratégiaonsisteemajudarosusuários

aexploraragrandequantidadederegrasapresentadasomo resultado,auxiliando-osnoproesso

de identiação de regras interessantes. Nesse ontexto, duas abordagens são geralmente

(28)

Figura2.5: DBMiner: Parâmetrosdeentrada(suporteeonançamínimos)

Figura2.6: DAMAPrototype: Parâmetrosdeentrada(suporteeonançamínimos,dentreoutros)

[ZakiePhoophakdee (2003)℄e[RainsfordeRoddik(2000)℄,porexemplo,sãousadasténiasde

grafos para apresentar um onjunto de regras. Nesse tipo de visualização, os nodos dos grafos

representamositens ou onjunto de itense asarestas asregras, ondeo nodode origem éo

an-teedente e o de destino o onseqüente, omo pode ser visualizado na Figura 2.8. Em diversas

apliaçõesomoDBMiner[Hanet al.(1996)℄eIBMIntelligentMiner,asregrassãoapresentadas

emformasgráas,ondeumeixoéoanteedente eooutrooonseqüente,omomostraaFigura

2.9. Oproblemaéqueessaformadeapresentaçãonãoéesalávelparamuitosatributos. Deforma

aminimizar esse problema, foi proposto em [Wong etal. (1999)℄uma visualização3D, plotando

regraseatributoseapresentandoos valoresdesuporteeonançadeformaonjunta,quepodem

servisualizadosnaFigura2.10. Porém,essavisualizaçãotornou-seomplexaemtermosde

(29)

Figura2.7: XLMiner: Parâmetrosdeentrada(suporteeonançamínimos)

Figura2.8: FrameworkMirage,visualizaçãopropostaporZaki[ZakiePhoophakdee(2003)℄

Asegundaabordagemonsisteemdiminuiraquantidadederegrasaseremapresentadas,onde

umadaspossibilidadeséutilizandotaxonomias. Em[SrikanteAgrawal(1997)℄,porexemplo,

to-dasasregraspossíveis(omesemtaxonomias)sãoapresentadasenumsegundomomentobusam

retirarasregrasquenãosãointeressantes,de aordoomuma determinadamedida quedeveser

esolhida. Em [DomingueseRezende (2005)℄ também é utilizada a generalização de regras de

(30)

(Generali-Figura2.9: VisualizaçãodoDBMiner: rulebody(LHS)xrulehead(RHS)

Figura2.10: Visualização3DpropostaporWong[Wong etal.(1999)℄

pós-proessamento, nãoaumentando ovolumede regrasgeradasomo oorrenotrabalho itado

anteriormente.

Outro objetivode reorrente interesseonsisteem auxiliarosusuáriosaanalisaremasregras

geradas. Em[Hofmannetal.(2000)℄,aténiadeMosai Plotséutilizadaparamelhoraro

enten-dimentodasregras(Mosaiplotssãometáforasvisuaisparaastabelasdeontingênia). Aregraé

apresentadaemformagráa,ondeaáreaéosuporteeaonançaéapresentadapelototal

preen-hido. Noentanto,essetrabalhoofereeapoioaosusuáriosquejáonheemosoneitosenvolvidos

noontextodasregrasdeassoiação,nãoauxiliandonoentendimentoemsi. Elevisaofereeruma

(31)

Uma formadeajudaparaoentendimento dasregrasé apresentadaem[Meietal. (2006)℄. A

idéiadoartigofoiinspiradanalinguagemnatural,ondeasemântiadapalavrapodeserinferidado

ontexto,ondeaspalavrasqueompartilhamontextostendemasersimilares. Elesapresentamno

trabalhoumaformadegerarautomatiamenteinformaçõessemântiasdeumdeterminadopadrão,

denominadasanotaçõessemântias. Taisanotaçõesonsistememumonjuntodefortesindiadores

ontextuais,umonjuntodetransaçõesrepresentativaseumonjuntodepadrõessemantiamente

similares. Ométodopodeserapliadoaqualquerténiademineraçãodepadrõesfreqüentesomo

umpassoparafailitarainterpretaçãodepadrõesenontrados.

Todas essas propostas são avanços na melhoria da usabilidade em sistemas de mineração de

regrasde assoiação. Noentanto,eles ontinuam aexigir queosusuáriosdemineraçãodedados

aprendam oneitos ténios, a m de interagir om o sistema. Sistemas de tereira e quarta

geraçãopropõeestratégiasdiferentesparamelhorarausabilidadedossistemasdeKDD.

Sistemasdetereirageraçãosãovoltadosparaumontextoespeío,omoneitospróprios

dosusuários.UmexemploéosistemaoADS(Advaned-DetetionSystem),apresentadonaFigura

2.11quedetetafraudesnoomportamentodoNasdaqStokMarket,deaordoomregulamento

NASD[Senatoretal.(2002)℄. OutroexemploéoHNCSoftwareFalonparadeteçãodefraudede

artãoderédito[Rainho(2001)℄. Emboratenteesonderosoneitosdemineraçãoenvolvidosno

proesso,asferramentasdetereirageraçãoamrestritasaumdeterminadoontextoeproblema.

Assim,asinterfaesdesistemasde tereirageraçãosão orientadasparaosusuários,maseles são

voltadosparaontextoetarefasespeíos,sendoneessárioumnovodesenvolvimentoparaada

domínio.

Figura2.11: Teladosistema ADS-Representaçãodeumaregra

OssistemasdequartageraçãobusamauxiliarosusuáriosnoomplexoproessodeKDDesão

(32)

enume-efeitos ompatíveisem uma determinadaseqüênia. Além disso, permiteriar umranking dos

proessoslassiadospela veloidadee exatidão,failitandoa esolhadequalproessodeveser

exeutado. Essas ferramentas ajudam nas tomadas de deisões entre asvárias possibilidades de

qual aminho seguirem uma determinada tarefa de mineração[Goldshmidtet al. (2002)℄. Em

[Goldshmidt(2003)℄épropostaumaferramentadeassistênia,umamáquinadeassistênia

inteli-genteàorientaçãodoproessodeKDD(tambémhamadaIKDD-IntelligentAssistaneinKDD),

propostaparaserumaferramentadidátiavoltadaparaaformaçãodeprossionais.Nessesistema,

osusuáriossãoguiadosaentenderemoproesso,aprendendogradualmenteosoneitosenvolvidos.

NavisãoontextuallássiadoproessoKDD,deumladoestáohomemedooutroumonjunto

dereursosutilizados na exeuçãodasetapasdoproessoKDD [Goldshmidt(2003)℄. Esse

on-juntorefere-se,deumamaneirageral,aumrepositóriodealgoritmosKDD,integradosounão. A

máquina IKDDentra omo umomponente auxiliar(Figura 2.12, apresentada em [Goldshmidt

(2003)℄). Amáquinanãoéresponsávelporexeutaroproessoesimsugerealternativasdeações.

Figura2.12: VisãoontextualdamáquinaIKDDsegundoGoldshmidt[Goldshmidt(2003)℄

Paraqueasferramentasdeassistênia(sistemasdequartageração)possamauxiliarosusuários

noproessoKDD,devemexistiralgumasdeniçõessobreomesmo. Porexemplo,éneessárioque

aferramentasaiba quaisospré-proessamentos para adaténia equal oimpato da exeução

deadauma, porexemplo. Issoporque, ao indiaraousuárioqualdeisãomelhorasertomada,

a indiação deve ser baseada em uma teoria sólida e orreta. Alguns trabalhos estão voltados

para essalinha teória. Porexemplo,em [BernsteineProvost (2001)℄[Goldshmidtet al.(2002)℄

osautoresbusaramdesreverosalgoritmosdeKDD esuasaraterístiasatravésdeontologias,

mostrandosuaspré-ondiçõeseefeitos. Em[Morik(2000)℄foianalisadaainuêniadeaçõesde

pré-proessamentonosdesempenhosdastarefasdemineraçãoeem[Brazdilet al.(2003)℄[Soareset al.

(2001)℄analisou-seaaderêniadealgoritmosdemineraçãoaumonjuntodedados.

Voltando às ferramentas de segunda geração, omo vimos, elas demandam dos usuários um

grandeonheimentodateoriaenvolvidaemmineraçãodedados. Emboraostrabalhos

(33)

busamonstruirsoluçõesvoltadasparaumdeterminadoontexto,busandoabstrairosoneitos

envolvidos,massão onstruídospara umproblemaespeíoe,seoproblema mudarouevoluir,

osistema pode deixardeserútil. Ossistemasdequartageraçãobusamauxiliaraosusuáriosno

proesso,masapresentandoosoneitosenvolvidosaosmesmos. Oauxílioéemrelaçãoàsdeisões

possíveis,vistoqueno proessoKDDsãoinúmerasaspossibilidadesdeinteração. Nesseaso,os

usuáriospreisamaprenderosoneitos,oquepoderepresentarumaltoustoparaalguns.

Oqueapresentamosnesse trabalhoonsisteemumaabordagemdiferentedasqueforam

apre-sentadas. Consisteemummodeloquepodeseraopladoasistemasdesegundageração,busando

riar uma amadade abstração. Diferentemente dos de tereirageração, essasolução nãoé xa

para um determinado ontexto epode ser apliada em diferentes domínios. Além disso, não se

busaapresentarosoneitosenvolvidosomoasferramentasdequartageração,masaidéiaéque

umgrupodeusuários(denominadosespeialistas)possamriarumníveldeabstraçãoparaqueo

sistemapossaserusadoporusuáriosnais semqueessespreisemaprenderoneitosténiosde

mineraçãodedados. Assim,essasoluçãoéapazdepermitirumainterfaeemumnívelmaiorde

abstração,não limitandooontextodeapliação.

Depois dos oneitos envolvidos no ontexto de mineração de dados serem apresentados, a

(34)

Fundamentação teória

No proesso de interação usuário-sistema, a interfae éo ombinado de software e hardware

neessário para viabilizar e failitar os proessos de omuniação entre o usuário e a apliação

[Preeeetal. (1994)℄. Segundo Moran [Moran(1981)℄, a interfaede usuáriodeveserentendida

omo sendo a parte de um sistema omputaionalom a qual uma pessoa entra em ontato de

formafísia,pereptivaeoneitual.

OtermoInteraçãoHumano-Computador(IHC)foiadotadonadéadade1980para desrever

umnovoampodeestudo. Otermonãoéapenasparaabrangerinterfaes,mastodososaspetos

relaionadosainteraçãoentrepessoasesistemasomputaionais[Preeeetal.(1994)℄. Trata-sede

umamatériamultidisiplinarquerelaionaiêniadaomputação,design,ergonomia,psiologia,

soiologia,semiótia,lingüístiaeáreasans.

UmpontoimportanteaserompreendidoemIHCestárelaionadoàqualidadedeum

determi-nadosistemaemrelaçãoàinteração.Issoporquearesentarfunionalidadesnãosigniamelhorar

ainteraçãoetambémnãopodeserdesulpaparaumdesignpobre[Preeeetal.(1994)℄. Umbom

exemploéodadoporNorman[Norman(1988)℄omrelaçãoaosarros. Elearmaqueinteragir

omarros,quenormalmentepossuemerade100omandosoumais(dentre funionalidadesde

rádio,ventilação,janelas, direção,luzes, et.) muitasvezesnão étão difíil omouma tarefa de

programarumhoráriodegravaçãoem umvídeo. Umfatorelaionado onsistenofeedbakdado

pelos omandos do arroserem mais imediatos eóbvios. Além disso, os símbolos utilizados em

arrosseguemdeterminadospadrõese não sedifereniamtanto deum arropara outro. Assim,

aspessoasquejádirigiramumarro,sabemoqueesperaremqualqueroutro.

OsobjetivosdeIHC podemserresumidosemdesenvolveroumelhorarasegurança,utilidade,

eáia,eiêniaeusabilidadedesistemasomputaionais [Barlowetal.(1989)℄. Sistemasaqui

nãoestá sereferindoasoftwareouhardwareespeiamente,mastodooontextodeuso.

Utili-daderefere-se àsfunionalidades do sistema,oque ele faz. Eáia relaiona-seom apreisão,

ompletezaomqueosusuáriosatingemobjetivosespeíos, aessandoainformaçãoorretaou

gerandoosresultadosesperados. Jáaeiêniaestárelaionadaomapreisão,ompletezaom

queos usuáriosatingem seus objetivosem relação àquantidadede reursosgastos. Usabilidade

envolveosistemaserfáildeaprenderefáildeusar.

Por sua araterístia multidisiplinar, várias foram as abordagens elaboradas para analisar

a formade interação. Uma abordagem bastante difundida, porexemplo, refere-se a engenharia

ognitiva[Norman(1986)℄. Elaébaseadanapsiologiaognitivaepossuiomoobjetivoentender

(35)

ogniti-vosmentais quepermitem aosprojetistasentenderemoproessoognitivohumano epossam ser

utilizados durante a interação. Norman onsidera que odesigner preisa entender oproesso de

interaçãoepropõeateoriadasações(ilustradanaFigura3.1)para ajudá-lo.

A teoriadasaçõesenvolvedoisgolfos,ode exeuçãoeodeavaliação. Odeexeuçãoonsiste

nadeniçãodameta,ondeoobjetivodousuáriodevesertraduzidoemomandosdeinterfae. Já

odeavaliação onsistenaanálise dosresultadosobtidos,em querespostasdosistema devemser

traduzidasemumaavaliaçãosobreoquantoseatingiudoobjetivoiniial. Asdistâniassemântia

eartiulatóriasãoutilizadas omométriasparaseavaliaraqualidadedalinguagemdeinterfae.

Adistânia semântia representaadistânia entre aintenção dousuárioeoonteúdodossignos

presentesnalinguagemdeinterfae,ondesignoéaquiloquerepresentaalgumaoisaparaalguém

[Peire (1958)℄. Já a distânia artiulatóriarepresenta adistânia entre oonteúdodos signos e

suaexpressãonainterfae.

Figura3.1: Teoriadasações-proessodeinteraçãodosusuários

A Engenhariaognitivafoanaanálisedarelaçãointerfae-usuárioenão narelação

designer-sistema. Alémdisso,esendoesseoaspetoprinipal,aEngenhariaognitivaonsideraousuárioe

suasintençõesomoúnios. Adota-seapremissadequeosusuáriospossuemomesmoonjuntode

intençõeseinterpretam ossignosapresentadospela interfaedamesma forma[deSouza (2005)℄.

Assim,oaráterevolutivoeontingentedasinterpretaçõeseusosdosusuáriosnãosãoonsiderados.

EsseaspetodasvariaçõesnainteraçãoéabordadopelaEngenhariaSemiótia,teoriaadotada

nestetrabalhoomo baseteória. Elapodeseronsiderada,dentreoutras,omo umateoria

pós-ognitiva[Bimet al.(2007)℄. Elatrataoenvolvimentoentredesigneresistemaomoumproesso

de omuniação em que os projetistas devem transmitir suas mensagens, no lugar de apenas os

usuáriosinterpretaremoquefoipreviamente projetado.

A Engenharia Semiótia é uma das pouas tentativas de juntar a semiótia e IHC de

ma-neiraonisaeonsistente, parasuportara organizaçãoeadesobertado onheimento novo,o

(36)

3.1 Engenharia Semiótia

AEngenhariaSemiótiaéumateoriaquearaterizaainteraçãohumano-omputadoromoum

asopartiulardeomuniaçãohumana mediadaporsistemasomputaionais[deSouza (2005)℄.

Trata-se do designer(projetista) se omuniando om o usuário, mediado pelo sistema, onde a

interfaeéumamensagemparaousuáriorepresentandoamaneiraomoodesignerprojetou,para

queeporqueelafoionstruída.

Emuma teoria,uma ontologiaéutilizadaparadesreveroneitos erelaionamentosentreos

mesmos,além deategorizá-los. A teoriadaEngenhariaSemiótia possui omoontologiaquatro

ategorias: oproessodeomuniação,oproessodesigniação,osinterloutoresenvolvidoseo

espaçodo design. O proessode signiação envolve osoneitos de signos esemiose, enquanto

o de omuniaçãoa intenção, onteúdo e expressão. Os interloutores envolvem os projetistas,

ossistemas eos usuários. Jáoespaçode designenvolveostermos emissor,reeptor,mensagem,

ontexto,ódigos,analemensagem.

Assim, a Engenharia Semiótia envolve o estudo dos signos, o proesso de signiação e o

de omuniaçãovoltados para oontexto de IHC. Oproesso de signiação éaquele pelo qual

uma determinadaulturaassoiasistematiamente umonjunto deexpressõesaum onjunto de

onteúdos,queenvolvepelaprodução einterpretaçãodossignos. Jáoproessodeomuniaçãoé

aquelepeloqualogrupodeuma ulturaexploraossistemasdesigniaçãodisponibilizadospara

interagiromoutrosindivíduosougrupos.

Como já itado, um signo, segundo Peire [Peire (1958)℄, é aquilo que representa alguma

oisapara alguém. Peireapresentaaestruturadosignoomoumonjuntodetrês onstituintes:

representamen (representação), objeto (referente) e signiado (interpretante), apresentados na

Figura 3.2(A). O signiado é sempre o mediador entre a representação e o que é refereniado

[deSouza(2005)p.41℄. Porexemplo,tomemosumobjeto queéutilizadoparaortarmateriaisde

pouaespessuraequenão requeiramgrandeforçadeorte,atesoura. Uma tesouraéumobjeto

que pode ser representado tanto pela palavra tesoura quanto pela imagem. Assim, o objeto

ortante, uja representaçãopode serpela imagem ou palavra tesoura pode ter omo um dos

signiadosumatesouraderiança (Figura3.2(B)).

Figura3.2: Estruturadosigno,segundoPeire

Imagem

Tabela 2.1: Cadastro de vendas de uma padaria
Figura 2.1: Tela de 
riação de uma tarefa de mineração do sistema de segunda geração Tamanduá
Figura 2.4: T ela de visualização dos dados do sistema de segunda geração Tamanduá
Figura 3.1: Teoria das ações - pro
esso de interação dos usuários
+7

Referências

Documentos relacionados

Assim, a estrutura dúplex é metaestável, sendo obtida na temperatura ambiente após resfriamento que impeça as transformações de fase, particularmente de ferrita em sigma, como

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

Assim, propusemos que o processo criado pelo PPC é um processo de natureza iterativa e que esta iteração veiculada pelo PPC, contrariamente ao que é proposto em Cunha (2006)

A interação treinamento de natação aeróbico e dieta rica em carboidratos simples mostraram que só treinamento não é totalmente eficiente para manter abundância

Silva e Márquez Romero, no prelo), seleccionei apenas os contextos com datas provenientes de amostras recolhidas no interior de fossos (dado que frequentemente não há garantia

No período de primeiro de janeiro a 30 de junho de 2011, foram encaminhadas, ao Comitê de Segurança do Paciente da instituição sede do estudo, 218 notificações de

Não se está perante a situação de uma única falta injustificada; só se pode falar em falta de assiduidade se houver alguma continuidade, o que não implica que tenham de ser faltas