UM MODELO DE INTERFACE EXTENSÍVEL PARA SISTEMAS
DE MINERAÇO DE DADOS POR REGRAS DE ASSOCIAÇO
UM MODELO DE INTERFACE EXTENSÍVEL PARA SISTEMAS
DE MINERAÇO DE DADOS POR REGRAS DE ASSOCIAÇO
Dissertação apresentada ao Curso de
Pós-Graduação em Ciênia da Computação da
Uni-versidadeFederaldeMinasGeraisomorequisito
parialparaaobtençãodograudeMestreem
Ci-êniadaComputação.
ELISA TULERDE ALBERGARIA
FOLHA DEAPROVAÇO
Um Modelo de Interfae Extensívelpara Sistemas
de Mineraçãode Dados por Regras de Assoiação
ELISA TULERDE ALBERGARIA
Dissertaçãodefendidaeaprovadapelabanaexaminadoraonstituídapor:
Profa.RaquelOliveiraPratesOrientadora
Universidade FederaldeMinasGerais
Prof.Wagner MeiraJuniorCo-orientador
Universidade FederaldeMinasGerais
Prof.Clarindo Isaís P.S. Pádua
Universidade FederaldeMinasGerais
Profa.ClarisseSiekenius deSouza
Atualmente,umdosgrandesdesaosdaomputaçãoéoenormevolumededadosgeradopela
failidadedearmazenamentoeresenteusodetenologiasemdiversosontextos. Aanálisedesses
dadosforneeapoioàtomada dedeisõesrelaionadas adiversasáreas. Entretanto, pela grande
quantidade de dados, essa análise tornou-se inviável de ser realizada sem o auxílio de ténias
omputaionais. Nesseontexto,seapresentaaáreadeMineraçãodeDados,quetemporobjetivo
ageraçãode onheimento apartirde grandesvolumesde dados. Ela abrangediversasténias,
entre elas a deregrasde assoiação,foo deste trabalho. Entretanto, umdos prinipais desaos
para aampla utilização desse tipo desistema éa suausabilidade, pois são váriosos desaos de
interaçãoexistentes. Essessistemas normalmentesãodifíeis de usar,uma vez querequerem um
onheimentoaprofundadodeaspetosténiossobreoseufunionamento.
Neste trabalho, om oobjetivode ampliar ouso de ambientes de mineração dedados,
apre-sentamos, implementamos eavaliamosummodelodeinterfaeextensívelquepermiteriarnovas
interfaesde mais alto nível e espeías para um ontexto, abstraindo oonheimento ténio.
Nossapropostaonsisteemummodeloquedeneosomponentesdeummódulodeextensãoaser
aopladoem sistemasdesegundageração,sistemas queenvolvemdiversasapliaçõeseabrangem
diversasténias. Paraissoserpossível,onsidera-sedois persde usuários: osespeialistaseos
leigos. Osusuáriosespeialistasdevemdominartantoodomíniodaapliaçãoquantoosistemade
mineraçãodedados(querequeronheimento ténioespeío). Oobjetivodoespeialista
on-sisteemriarumníveldeabstraçãoquepermitaqueusuáriosleigos,quenãopossuamosoneitos
téniosenvolvidos,possam usarosistemaemontextoseproblemasespeíos.
Omodeloriadofoi baseadonateoriadaEngenhariasemiótia,queonsideraqueainteração
onsiste em um proessode omuniaçãoentre o projetista eo usuárional. Nesse ontexto, o
modeloapresentaelementos emsuaarquiteturaqueonsideramesseaspetoequepermitem que
osespeialistassetornemo-autoresdosistema. Avaliaçõesiniiaisdomodeloforamrealizadase
uma implementação domesmo foi desenvolvida,visandoanalisar suaviabilidade eutilidade. Os
indiadoresobtidosnasavaliaçõesforampositivos,trazendoomograndebenefíioapossibilidade
de ampliar a apliação de ténias mineração de dados, tanto em relação aos ontextos de uso
Currently,oneofthemainhallengesofomputingisthehugevolumeofdataduetothestorage
faility and inreasinguse oftehnologyin dierentontexts. The analysisof this dataprovides
support for deisions in distint areas. However, without eient omputational tehniques it
beomesunfeasibletoanalyzethislargevolumeofdata. Thus,dataminingemergesasapromising
eld, sine it allows for knowledge disovery from large volumes of data. Amongst the many
tehniques available for data mining, in this work we fous on assoiation rules. Even though
assoiationRulesdataminingsystemsareverypopulartheypresentuserswithagreathallenge.
Thesesystemsrequireuserstohavetehnialknowledgeaboutdataminingtehniquesinorderto
interatwiththem.
Inthisworkweproposeanextensibleinterfaemodel whih aimsatwideningtheuseof data
mining systems. To doso, the model allowsfor a newabstrat high levelinterfae spei to a
ontext to bereated. This new high level interfaeabstrats the tehnial knowledge required,
making it easier to interat with the system. Based on this model, an extensible module that
anbe addedon to2nd generation datamining systemsanbedeveloped. Themodelonsiders
twodistintuser proles: the experts andnal users. Expert usersare thosewhonot onlyhave
knowledgeofthedomain, butalsoof therequiredtehnialoneptstointerat withthesystem,
whereasnalusershavedomainknowledge,butnotdataminingtehnialknowledge. Expertusers
interat with the extensible module and reatea new high level interfaespei to nal users
ontextwithwhihtheyan interat.
The model is grounded on Semioti Engineering theory, whih pereives the interation as
designer-to-userommuniativeat. The model allowsexpert users to beome o-authorsof the
messagebeingtransmittedbythesystems,astheyreatenewhigh levelinterfaestonal users.
Preliminaryevaluationsofthemodelwereexeutedandalsoaprototypewasdevelopedtoprovide
indiatorsof thefeasibility andutility ofthe model. The indiatorspointedto theabilityof the
model towiden theuseof thesystemtouserswhodonothavedata-miningtehnialknowledge
Emprimeirolugar,gostariadeagradeeraDeuspormaisessaoportunidade. Atodososbons
uidospormedaremaenergianeessáriaquepreisei.
Aos meus pais, Braga e Inez, e minha irmã Elen pelo amor e apoio inondiional, tanto em
relaçãoaosestudos,mastambém emtodasasminhasdeisõesesituaçõesvividasatéhoje. Mãe,
obrigadapelo onselho,estareiomele emmente... "emtudoquezerouproduzir tente sempre
responderestaperguntaasimesma: Emqueissopodemelhoraromundo,ahumanidade?"
Agradeço ao meu marido, Leo, por todo inentivo e apoio dado, desde iníio desse desao.
Muitas vezesareditou maisemmim doque eumesma... Obrigadapela paiênia, pelo arinho,
pelaompreensãoepelaslongasonversasdeinentivo.
AoDiogo, por me ensinaro signiado deamor inondiional... epor ompreendera minha
ausênia em diversos momentos desse período. Obrigada lho, por me ensinar a ada dia algo
novo.
A minha sogra, Coneição, por todo apoio, inentivoe ompreensão. Obrigada pelas várias
ajudas emrelação ao Diogo epor estar sempre dispostaa nosajudar. Aos meus unhados, Lu,
LeandroeFraniso,pelaamizade.
A minhaamiga eorientadoraRaquelOliveira Prates, quesemostrou,além deseruma
exe-lente prossional,também uma pessoamaravilhosa. Obrigada não só pelo apoioe ensinamentos
aadêmios,mastodoarinho,paiênia,atençãoeamizade.
AoWagnerMeirapelasorientaçõesepela amizade earinhodurante todaatrajetóriaque já
aminhamos.
AosprofessoresdoDCCqueontribuíram para minhaformaçãoaadêmiaepessoal. Em
es-peial, ao Clarindo pelas inúmerasoportunidades já ofereidas, inluindo oSynergia, meu atual
trabalho. Ainda emrelaçãoaoSynergia, agradeçoaoRobsonpelaoportunidadeofereidae
on-ançadepositada.
A todos osalunose usuáriosqueontribuíram om oresultado deste trabalhoe todaequipe
envolvidanoprojetoTamanduá,muitoobrigada.
Aosfamiliares, famílias Tuler eAlbergaria, pelo arinho einentivode todos. A todosmeus
amigos, pessoal do Synergia, do Speed, da UEMG, da UFMG, aos amigos riados em Lafaiete,
obrigada pelo arinho de todos. As amigas, pelas onversas eletrnias, ompanhia on-line em
váriosmomentosemqueestivedediada aestetrabalho.
Em espeial, gostaria de agradeer ao Fernando Mourão pelo grande apoio dado durante o
desenvolvimentodesse trabalho,peladediaçãoeamizade.
AomeueternoamigoMareloMaia,pelaamizadeegrandeinentivoquemedeudesdeoiníio
1 Introdução 1
1.1 Organizaçãodadissertação . . . 4
2 Mineração de dadospor regrasde assoiação 5 2.1 Regrasdeassoiação . . . 5
2.2 Tarefademineraçãoderegrasdeassoiação . . . 9
2.3 Desaosnousodeapliaçõesdesegundageração . . . 10
2.3.1 Denição dosparâmetrosdeentradadamineração . . . 11
2.3.2 Seleçãodosatributos . . . 12
2.3.3 Análisedasregrasdeassoiaçãoresultantesdamineração . . . 12
2.3.4 Seleçãodosubonjuntoderegras . . . 13
2.3.5 Seleçãodasmétriasdeinteresse . . . 13
2.4 Cenáriodeuso . . . 14
2.4.1 Tarefadeauditoria . . . 14
2.5 Propostasexistentes . . . 16
3 Fundamentação teória 23 3.1 EngenhariaSemiótia . . . 25
3.2 Desenvolvimentoporusuáriosnais . . . 29
3.2.1 Visão daEngenhariaSemiótia . . . 31
4 Modeloproposto -EDeM 35 4.1 Arquiteturadomodelo . . . 36
4.1.1 Linguagemabstratadeinterfaeomousuário(LAIU) . . . 37
4.1.2 Gerador . . . 38
4.1.3 Basedeonheimento . . . 39
4.2 AnálisedasExtensõesGeradas . . . 42
4.3 Avaliação . . . 43
4.3.1 Abstração deumatarefademineração . . . 43
4.3.2 Cenáriosdeapliação . . . 44
5 Protótipo 49 5.1 Tamanduá. . . 49
5.2 Oprotótipo . . . 51
5.2.1 Adequaçãodotamanduá. . . 53
5.3.2 Apliaçãodostestes . . . 63
5.3.3 Análisedosresultadosobtidos . . . 64
6 Conlusões 67 6.1 Contribuições . . . 68
6.2 Trabalhosfuturos . . . 71
6.2.1 Modelo . . . 71
6.2.2 EngenhariaSemiótia . . . 71
6.2.3 Protótipo . . . 71
A ModelagemTamanduá 76 B Telasdo Protótipo -Tamandua 2.0 79 C Avaliações 87 C.1 Avaliaçãoomenários . . . 87
C.2 Avaliaçãoomusuários. . . 88
1.1 EtapasdoproessoKDD . . . 2
2.1 Teladeriaçãodeumatarefademineraçãodosistema desegundageraçãoTamanduá (Dados daTarefa) . . . 10
2.2 Teladeriaçãodeumatarefademineraçãodosistema desegundageraçãoTamanduá (SeleçãoBase/Atributos) . . . 10
2.3 Teladeriaçãodeumatarefademineraçãodosistema desegundageraçãoTamanduá (SeleçãoAlgoritmo/Parâmetros) . . . 11
2.4 Teladevisualizaçãodosdadosdosistema desegundageraçãoTamanduá . . . 11
2.5 DBMiner: Parâmetrosdeentrada(suporteeonançamínimos) . . . 17
2.6 DAMAPrototype: Parâmetrosdeentrada(suporteeonançamínimos,dentreoutros) 17 2.7 XLMiner: Parâmetrosdeentrada(suporteeonançamínimos) . . . 18
2.8 FrameworkMirage,visualizaçãopropostaporZaki[ZakiePhoophakdee(2003)℄ . . . 18
2.9 VisualizaçãodoDBMiner: rulebody(LHS)xrulehead(RHS) . . . 19
2.10 Visualização3DpropostaporWong[Wongetal.(1999)℄. . . 19
2.11 TeladosistemaADS-Representaçãodeuma regra . . . 20
2.12 VisãoontextualdamáquinaIKDDsegundoGoldshmidt[Goldshmidt(2003)℄. . . . 21
3.1 Teoriadasações-proessodeinteraçãodosusuários . . . 24
3.2 Estruturadosigno,segundoPeire . . . 25
3.3 Metamensagem-EngenhariaSemiótia . . . 27
3.4 DesignCentradonoUsuárioxEngenhariaSemiótia 2 [deSouza(2005),pag.8℄ . . . . 28
3.5 LinguagensdeProgramação-porNardi 3 [Nardi(1993)℄ . . . 30
3.6 LinguagensdeProgramação-porFisher 4 [Fisheretal.(2004)℄ . . . 31
3.7 Dimensãosemiótiademanipulaçõesdaslinguagens 5 [deSouzaeBarbosa(2006)℄ . . 33
4.1 Interaçãodospersdosusuáriosutilizandoomodelo . . . 36
4.2 Modeloproposto . . . 37
4.3 Modeloproposto . . . 41
4.4 Classiaçãodasquestõesdevestibular,segundoavisãodousuárioleigo . . . 46
5.1 EstruturadoTamanduá . . . 51
5.2 CilodevidadedesobertadeonheimentoutilizandooTamanduá . . . 52
5.3 EstruturaNova-Tamanduá. . . 53
5.4 EstruturaemCamadas . . . 55
5.5 [Informação℄Teladeriaçãodaonsulta . . . 57
5.10 Visualizaçãodaonsultasegundovisãodousuárioleigo . . . 60
5.11 Teladeonguraçãotextual. . . 60
5.12 Teladevisualizaçãotextualnal . . . 61
6.1 SugestãodevisualizaçãodostrabalhosdeMDutilizandoimagens(ontextodovestibular) 74 6.2 Sugestãode visualizaçãodostrabalhos deMD utilizando imagens(ontexto de rimi-nalidade) . . . 75
A.1 ShemaXML-Pheromone . . . 76
A.2 Diagramadelasses-Tamanduá . . . 77
A.3 Modelodedadospersistentes-Tamanduá . . . 78
B.1 TeladeBemVindo. . . 79
B.2 TeladeAdministraçãodoSistema . . . 79
B.3 Teladelistadeonsultas-visãodoEspeialista . . . 80
B.4 Teladelistadeonsultas-visãodoLeigo . . . 80
B.5 TeladeCriaçãodeConsulta(Informações) . . . 81
B.6 TeladeCriaçãodeConsulta(Algoritmo) . . . 81
B.7 TeladeCriaçãodeConsulta(Base). . . 82
B.8 TeladeCriaçãodeConsulta(Atributos) . . . 82
B.9 TeladeCriaçãodeConsulta(Consulta) . . . 83
B.10TeladeConguraçãodaSaídadaConsulta(Informações) . . . 83
B.11TeladeConguraçãodaSaídadaConsulta(Filtros) . . . 84
B.12TeladeConguraçãodaSaídadaConsulta(Textual) . . . 84
B.13TeladeTarefa(Instânia deumaConsulta) . . . 85
B.14TeladeVisualizaçãodeumaConsulta . . . 85
B.15TeladeVisualizaçãodasExpliações . . . 86
C.1 Termodeonsentimentoparaitaçãodosenáriosdosalunosdemineraçãodedados . 87 C.2 Roteirosdasetapasdaavaliaçãoomusuários-Reuniãoomusuáriosespeialistas. . 88
C.3 Roteirosdas etapasda avaliaçãoom usuários- Reunião omusuários espeialistase leigos(Vestibular) . . . 89
C.4 Roteirosdas etapasda avaliaçãoom usuários- Reunião omusuários espeialistase leigos(Crisp-riminalidade) . . . 90
C.5 Textodeintroduçãoaostestes . . . 91
C.6 Cenáriodosespeialistas(Vestibular) . . . 91
C.7 Cenáriodosespeialistas(Crisp) . . . 92
C.8 Consultasriadaspeloespeialista(Crisp-irminialidade) . . . 93
C.9 Consultasriadaspeloespeialista(Vestibular) . . . 94
C.10CenárioeTarefasdosleigos(Vestibular) . . . 95
C.11CenárioeTarefasdosleigos(Crisp-riminalidade). . . 96
C.12Roteiroparaentrevistapós-testes(espeialistas) . . . 96
Introdução
Grandes instituiçõese empresas estão armazenandoseusdadosada vez mais failmente,
ge-randograndesbasesdedadosdenaturezaientía,omerial,governamental,et. [Goldshmidt
(2005)℄. Esteaúmulode dadosnasorganizaçõeseentros depesquisasetornou possíveldevido
aosonstantesavançosdospoderes omputaionais.
Aneessidadedetransformaramontanhadedadosarmazenadoseminformaçõessigniativas
éóbvia. Entretanto,asuaanáliseerademorada,dispendiosa,pouoautomatizadaesujeitaaerros,
malentendidosefaltadepreisão[Newing(1996)℄.
Busandoanalisareextrairmelhoronheimento dosonjuntosde dados,surgiuuma áreade
pesquisa denominada KDD (Knowledge Disovery in Databases). KDD éumproessode várias
etapas, não trivial, interativo e iterativo, para identiação de padrõesompreensíveis, válidos,
novosepotenialmenteúteisapartirdegrandesonjuntosdedados [Fayyadetal.(1996)℄.
O proesso KDD envolvesistemas omputaionais e suasetapas podem servistas na Figura
1.1. Iniialmente,oproblemaquesedesejaresolverpreisaseranalisadoeompreendido,deforma
amapeá-loemumproblemademineraçãodedados. Estaetapanormalmenteéfeitapelopróprio
usuário,visto queéneessárioqueelesaiba omoamineraçãodedadospodeajudarasoluionar
seuproblema. A partirdaí, osdadosenvolvidosno ontextodoproblema devem serpreparados
para que possam serminerados. Essa então é asegunda fase, onde é feitoo pré-proessamento
que ompreende aseleção ea preparação dos dados, sendo que alguns sistemas podem auxiliar
osusuários nesta etapa. A preparaçãodos dadosenvolvetarefas omo limpar a base, retirando
ruídos evaloresnulos,quando neessário, edisretizardados,transformandonúmerosreaisem
intervalos de valores, por exemplo. Com os dados prontos, aontee a mineração propriamente
dita (tereira etapa), quando os padrões são desobertos e expliitados. Esta fase é feita pelo
sistema seleionado que utilizará uma ténia de mineraçãoespeía, esolhida pelo usuário de
aordo om suas neessidades em relação ao problema existente. A quarta e última etapa é o
pós-proessamentoeonsistenavisualizaçãodosresultados(oumodelos)enasuainterpretação,
ouseja,naobtençãodoonheimentopelousuárioaointeragiromosmeanismosdevisualização
disponíveisnosistema[Nasimento(2005)℄.
A mineraçãode dados, apesar de ser uma das etapas do proesso de KDD, é um termo
o-mumente utilizadopara refereniartodoproesso. Elasurgiuhámaisde umadéada,omouma
alternativapromissoraparaaanálisedessesgrandesvolumesdedados. Conjugandoténias
pro-venientesdediversasáreas,omoestatístiaebanodedados,amineraçãodedadossediferenia
Figura1.1: EtapasdoproessoKDD
de hipótesee embanos de dadosasonsultas estruturadas, na mineraçãode dadosprevaleea
deteção automátia de padrões. Ou seja, sem que seneessite formular previamente qualquer
hipótese,todaabasededadoséanalisadaeumasériedepadrõesexpliitados,forneendoao
ana-listaumonjuntodehipótesespoteniaisque,dadootamanhodabase,sópoderiamserlevantadas
atravésdaintuição.
Emtermoshistórios,ossistemasdemineraçãodedadospodemserapresentadosem4gerações
[Goldshmidt (2005)℄ [Piatetsky-Shapiro (1999)℄. A primeira oorreu na déada de 80, em que
as ferramentas foavam em uma tarefa espeía omo lassiadores utilizando redes neurais,
agrupamento (lustering) utilizando o algoritmo K-means [Ralambondrainy (1995)℄ [MaQueen
(1967)℄oumesmoavisualizaçãodosdados.
A segunda faseiniiou-seporvolta de1995, omferramentasdenominadas suites, dando
su-porte amais de uma etapa do proesso, possibilitando realizar diversas tarefas de desoberta e
apresentando mais de um tipo de análise de dados. Como exemplos dessas ferramentas
pode-mositar: Clementine[KhabazaeShearer (1995)℄, Tamanduá[Ferreiraet al.(2005)℄[Tamandua
(2006)℄, WEKA [Weka (2006)℄ e DBMiner[Tutorial (2006)℄. Entretanto, essas ferramentas
nor-malmenterequeremumgrandeonheimentosobreténiasespeíasdemineraçãodedadospor
partedosusuáriosparautilizá-las[Albergariaet al.(2006)℄.
Deformaatornarossistemasmaisamigáveisaosusuários,surgiuatereirageraçãode
siste-masnonaldadéadade90. Voltadosparaumontextoespeío,ostermoseoneitosutilizados
tendemasermaispróximosdosusuários,nosproblemasqueestãoanalisando. Entretanto,as
fer-ramentas dessa fase am limitadas a um determinado problema e ontexto. Um exemplo é o
sistemavoltadoparadetetarfraudesdenominadoHNCSoftwaresFalon[Rainho(2001)℄.
A quarta geração onsiste nas ferramentas de assistêniaao proessode KDD,também
ha-madasIDA (Intelligent Disovery Assistants). Essas ferramentas busam auxiliarosusuáriosno
omplexoproessodeKDD,ajudandoduranteastomadasdedeisõesentre asvárias
possibilida-des de qual aminho seguirem uma determinadatarefa de mineração. Neste aso, os oneitos
são apresentados e expliados aos usuários. Ou seja, osusuários são auxiliadosno proesso de
aprendizagemepreisamompreenderoproessopararealizaremsuastarefas. Umaanálise mais
aprofundadadossistemasemgeraçõeséapresentadanaseção2.5.
Os sistemas mais amplamente utilizados são os de segunda geração, por obrirem diversas
apliaçõese abrangeremdiversas ténias. Entretanto, enontramos em Albergariaetal. (2006)
umasériededesaosdeinteraçãoqueilustramasdiuldadesdosusuáriosemrelaçãoaessestipos
desistemas. Em Kriegeletal.(2007),tambémsãolevantadasalgumasdiuldadesexistentesem
relação àinteração omsistemas de mineração de dados. Em geral, são onheimentos ténios
aumtipodeproblemaespeío. As interfaessão voltadasparaosusuários,masadadomínio
demandaumnovoproessodedesenvolvimento,oquerepresentaumaltousto.
Ossistemasdaquartageraçãoaindaestãosendopesquisadoseprototipados. Oobjetivodestes
sistemas é auxiliar o aprendizado em relação aos oneitos ténios, sendo neessário de toda
formaqueosusuáriosaprendamoproesso. Assim,elespodemfailitaroaprendizado,masainda
requeremqueousuárioestejadispostoaaprenderosoneitosdemineraçãodedados.
Reentemente,pesquisadorestêmlevantandoaneessidadedeseriarsistemasquesãofáeisde
usar[Hanet al.(2007)℄. Porém,apesardastentativasemabstrairosoneitosomonossistemas
de tereira geração ou apresentar os oneitos envolvidos, omo no aso de sistemas de quarta
geração, a usabilidade de sistemas de Mineração de Dados(MD) reentemente foi apontada em
[Kriegelet al.(2007)℄omoumdosinograndesdesaosdaárea.
Nessesentido,oobjetivodestetrabalhoonsisteemapresentarummodelo,apliadoeavaliado,
baseadona teoriada Engenharia Semiótia [deSouza (2005)℄, apresentadano apítulo 3. Nossa
soluçãoonsiste na proposta de um modelo deextensão aser aopladoem sistemas de segunda
geraçãoquebusapermitiraumgrupodeusuáriosqueutilizem essessistemassemqueparaisso
sejaneessárioumentendimento(ouaprendizado)afundodosoneitosténiosdemineraçãode
dadosenvolvidos,semnoentantorestringiroamplopotenialdeatuaçãodossistemasdesegunda
geração. Isso em função da neessidade de que os sistemas sejam de ampla apliação, mas que
nãodemandemqueosusuáriospreisemaprenderosoneitosenvolvidosemmineraçãodedados.
Assim,existe aneessidadedesistemasquesejamintuitivoseapliáveisadiversosontextos.
O modelo de extensão proposto envolve vários fatores, desritos no apítulo 4. Dentre as
araterístias,sãoonsideradosdoispersdeusuários: oespeialista,quepodeserusuáriomais
experiente ou representante da equipe de design e o usuário leigo, que entende o ontexto de
apliação,masnãoasténiasdemineraçãodedados.
Omodelopretendeofereerapossibilidadedesistemasdesegundageraçãoseremextensíveis,de
formaainserirnessestiposdesistemasapossibilidadedeusuáriosespeialistasriaremabstrações
e,omisso,permitirqueummaiornúmerodeusuáriosleigospossamutilizá-los. Issoporque sem
omodelo, todososusuáriospreisam serespeialistas,onheendo osoneitos demineração de
dadosedoontextodaapliação. Comomodelo,umespeialistapoderiarabstraçõesparavários
leigos, que só preisamentenderdo problema a seranalisado. Ou seja, o modelo propostovisa
possibilitarqueusuáriosespeialistasdenamperguntasinteressantes,permitindoquepessoasque
nãoonheçamosoneitosenvolvidosemmineraçãodedadospossamobterinformaçõesúteispara
elasnosambientesemqueatuam.
Um exemplo de apliação seria o dono de um determinado supermerado que deseja saber
quaisprodutos sãovendidos deforma onjunta nos sábadosanoite. Como ele pode utilizarum
sistema demineraçãopararesponderàsuapergunta? Nesse aso,elenão onheeasténiasde
mineraçãodedadosenãoestádispostoaestudá-las. Aidéiaentãoonsisteemriarumaamada
deabstraçãoporusuáriosespeialistas(oumesmopelaequipededesign)atravésdemeanismosde
extensãoemsistemas desegundageração. Essaamadariadaonsisteemuma interfaedefáil
interaçãoparaumonjuntodeusuáriosnaisdeumdeterminadodomínio,nesseasoagerêniado
supermerado.Dessaforma,ogerenteonseguiriaexeutarasperguntasriadaspelosespeialistas
eobteriarespostassemquesejaneessárioonheerosoneitosdemineração.
Então, poderiaserriada pelos espeialistas uma pergunta daseguinteforma: Quaisos
tentes nosupermerado). Ogerente entãoiria esolhersábadoeumdeterminadoproduto,omo
erveja,e soliitararesposta, queapresentariaa listagemdos produtosque respondeaonsulta
realizada. Nesseaso,ogerente nãopreisouonheernenhumoneitoenvolvidonoontextoda
mineração,masobtevearespostaquedesejava.
Emnosso trabalho, oambiente deapliação seráosistema de mineraçãode segundageração
denominadoTamanduá[Tamandua(2006)℄eemrelaçãoàsténias,estamosfoadosnestetrabalho
naténiadeRegrasdeAssoiação,sendoelabastantepopularedegrandeapliação[Hippet al.
(2000)℄. Aseguirapresentamosomo estetrabalhoestádividido.
1.1 Organização da dissertação
Este trabalho estáorganizado em mais ino apítulos, alémdesta introdução. O apítulo 2
apresentaosoneitosdemineraçãodedados,aprofundandonaténiademineraçãoderegrasde
assoiação,foodestetrabalho. Apresentamostambémosdesaosidentiadosparaumusomais
amplodossistemas demineraçãodedadosesoluçõesexistentesparaalgunsdestes desaos.
A fundamentação teória do trabalho é apresentada no apítulo 3, em espeial a teoria da
EngenhariaSemiótia[deSouza(2005)℄,juntamenteomumaintroduçãoasistemasextensíveis. O
modeloaquipropostoestádesritonoapítulo4,ondesãoapresentadosseusobjetivos,arquitetura
earaterístias.
Ainstaniaçãodomodelofoifeitadesenvolvendoumprotótipoqueestáapresentadonoapítulo
5, alémdadesriçãodosistema desegundageraçãoutilizadoparaapliaromodelo,oTamanduá
[Tamandua (2006)℄. Nesse apítulo também são desritas avaliaçõesrealizadas, inlusive om a
partiipaçãodeusuáriosreais.
Paranalizar,asonlusõessãoapresentadasedisutidasnoapítulo 6,alémdeontribuições
Mineração de dados por regras de
assoiação
Este apítulovisaapresentaroneitosemmineraçãodedados,detalhandoaténiade
mine-raçãoderegrasdeassoiação,queéoontextoondeomodelodesenvolvidoéapliado.
Mineraçãodedadossurgiudaneessidadedeextraironheimentoepadrõesdegrandesbases
dedados. Issoporque aanálisede grandesquantidadesdedadostornou-seinviávelsemoauxílio
de ferramentas omputaionais [Goldshmidt (2005)℄. Conforme apresentado no apítulo 1, a
mineraçãoéumaetapadoproessoKDD,porémdiversosautoresreferem-seàmineraçãodedados
eao proessoKDD deforma indistinta. É na etapade mineraçãoque serealiza abusaefetiva
poronheimentosúteiseimplíitos.
Assim, mineraçãode dadosrefere-seauma forma automátia einteligente deanalisar,
inter-pretarerelaionar grandesquantidadesdedados,tomando asinformaçõesobtidasomo suporte
paradeisõesnosnegóios.
Mineração de dadosapresenta diversas ténias, quepodem ser lassiadasomo preditivas
oudesritivas. A mineraçãopreditivaonstróimodelosparaaprevisãodastendêniasedas
pro-priedadesde dadosdesonheidos. Elaprevêdadosnãodisponíveisapartirdedadosdisponíveis,
podendo indiar diretamente uma desoberta (auxiliar uma deisão)ou serviromo passo
inter-mediárioparauma desobertamais omplexa. Alguns tiposde inferêniaquepodem seritados
omopreditivas sãolassiação[Mithell (1999)℄eregressão[WeisseIndurkhya(1998)℄.
A mineraçãodesritivadesreveoneitosou onjuntosde dadosrelevantesde formaonisa,
disriminanteeinformativa. Representaaáreadeinvestigaçãonosdadosquebusafatos
relevan-tes,não-triviaisedesonheidosdosusuários,sem queexistam hipótesespreviamenteelaboradas.
Alguns exemplossão sumarização[JiaweiHan (2001)℄, lusterização[Berkhin(2002)℄ easregras
deassoiação[Agrawalet al.(1993)℄.
2.1 Regras de assoiação
Nesse trabalho, estamos foados na téniade Regras de Assoiação, uma das ténias mais
populares, tendo uma grande variedade de apliação [Hippet al. (2000)℄. Essa ténia tem a
funionalidadeobjetivadeenontrarorrelaçõesinteressantesentreositensdeumabasededados.
AmineraçãoderegrasdeassoiaçãofoiintroduzidaporAgrawaletal. em[Agrawaletal.(1993)℄.
freqüente em um bano de dados. Assim, muitos algoritmosrelaionados àtarefa de regras de
assoiaçãobaseiam-se naseguinte propriedade[Goldshmidt (2005)℄: um onjunto somente pode
serfreqüentesetodososseussubonjuntosforem freqüentes.
A apliação mais onheidade regrasde assoiação onsisteem auxiliarna ompreensãodos
hábitosdeompradoslientesdeumsupermerado,queouonheidaomoanálisedoarrinho
deompras. Aidéiaeradesobriromoasvendasdealgunsprodutosinueniavamnasvendasde
outros, para quese pudesse planejarmelhor aspromoções,organizar de formamais onveniente
adisposição dasprateleiraseavaliaroimpato queadesontinuidadenasvendasdeumproduto
poderiaprovoarnasvendasdeoutros. Porexemplo,atravésdessaténiaépossíveldesobrirquais
produtossãovendidosdeformaonjunta. Assim, ogerente deumsupermeradopodedesobrir,
porexemplo, que arroz e óleo são mais vendidos, de forma onjunta, aos sábados pela manhã.
Amesma apliaçãopode serestendidaàsites deomérioeletrnio, porexemplo,ondepermite
desobrirseexisteuma grandeanidadenapreferêniadeseusompradores[Cortes(2002)℄.
Ageneralidadedamineraçãoderegrasdeassoiaçãopermitiu,noentanto,queelafosseutilizada
paraasmaisdiversasapliações.Exemplosdeapliaçõesreaisinluem: análisederéditonosetor
naneiro,deteçãode fraudes naáreade seguros, databasemarketing (generalizaçãoda análise
doarrinho de ompras), deteçãode intrusos naárea desegurança de redes,leilõeseletrnios,
et. Em última instânia, amineração de regrasde assoiação é apliável sempre que sedeseja
enontraralgumtipodeorrelaçãodentrodeumabase dedados.
Algoritmosde mineraçãoderegrasdeassoiaçãogeramumonjunto deregrasque devemser
interpretadas pelos usuários. Uma regra de assoiação representa uma relação entre dois ou
maisitensdeuma basededados. Considere,porexemplo,aregraapresentadaaseguir:
[PO℄,[MANTEIGA℄
=
>
[LEITE℄ (30.00,60.00)Oonjuntodositensdoladoesquerdodaregra(pãoemanteiga)éhamadodeanteedentee
oonjuntodositensdoladodireitodaregra(leite)éhamadodeonseqüente. Essaregramostra
arelaçãoqueexisteentreaompradepão,manteigaeleiteemumapadariahipotétiaedeveser
lidadaseguinteforma: trintaporentodasomprasrealizadas pelos lientes dapadariainluem
pão, leite e manteiga; e das ompras que inluem pão e manteiga, sessenta por ento também
inluemleite. Umexemplodeumonjuntodevendasilustrandoumontextoondeessaregrapode
tersidogeradapodeservisualizadonatabela2.1.
NúmerodaCompra Pão Manteiga Leite
1 sim sim sim
2 não sim não
3 não sim sim
4 sim sim sim
5 sim não sim
6 sim sim não
7 sim sim não
8 sim sim sim
9 não não não
10 não não não
Oprimeirovalorapresentadonaregra(30.00)orrespondeaosuportedamesma. Osuporte 1
representaafreqüêniadeoorrêniadoevento, formadopela uniãoentre oanteedenteeo
on-seqüentedaregraedáumamedidadasuasigniâniaestatístia. Nonossoexemplo,observamos
queem3das10transaçõesoorreramasomprasdepão,manteigaeleitesimultaneamente. Sendo
assim,temosqueosuportedaregraéde30%.
Osegundovalor (60.00)queaparee entre osparêntesesorrespondeaonança daregra. A
onança representa a freqüênia relativa(ou probabilidade ondiional) entre a oorrênia do
evento no onseqüente ea oorrênia do evento no anteedente. Podemos dizer que aonança
dá uma medida do poder de previsão da regra: sejá soubermos que uma determinadaompra
inluipãoemanteiga,earrisamosdizerqueelatambéminluiráleite,qualseráanossahanede
aerto? Pelaregraaima,anossahane deaertoseráde60%. Ostermosonança,freqüênia
relativaeprobabilidadeondiionalpodemserusadosdeformainterambiável. Elaéaluladada
seguinte forma:
conf
(
A
→
B
)
=P(B|A)=P
(
AeB
)
P
(
A
)
=suporte
(
A
→
B
)
suporte
(
A
)
onde P( B | A ) é a probabilidade de B oorrer, visto que A oorreu, que é alulada omo a
probabilidadedeAeB,divididapela probabilidadedeA.
Utilizandooexemplo,temos:
•
SuportedeA(pãoemanteiga): 50%(apareem em5das10transações)•
SuportedeA→
B(pão,manteigaeleitejuntos): 30%(apareem em3das10transações)•
Conança=30/50=60%Além das medidas de suporte eonança, existem outras medidas de interesse que auxiliam
na análise das regrasde assoiação. A seguir são apresentadas as denições de leverage, lift e
onvition.
Oleverage éumamedidadeinteressequerelaionaosuporteesperadoomoqueérealmente
obtido. Porexemplo,existindodoisdados,aprobabilidadedesaironúmero6emumdadoé1/6,
jáaprobabilidadedesaironúmero6nosdoisdadosédadapor1/6
∗
1/6=1/36. Ouseja,dadososeventosAeB,temos queaprobabilidadedeoorreroseventosAeBjuntosé: P(A).P(B).
Assim,noálulodoleverage, primeiroalula-seossuportesdeAeBseparadamente.
Poste-riormente,essesvaloressãomultipliadosgerandoovaloresperado. Calula-setambémosuporte
deA eBjuntos(ositensoorrendosimultaneamente),enontrandoovalorobtido. Oleverageéa
diferençaentreosvaloresenontrados:
leverage(A
→
B) =(
P
(
A
eB
)
−
(
P
(
A
)
P
(
B
)))
leverage=suporteobtido
−
suporteesperadoO lift é uma medida de interesse que relaiona a onança esperada om a obtida, sendo
semelhante aoleverage. Éumadasmedidasmaisutilizadasparaavaliardependênias. Dadauma
regradeassoiaçãoA
→
B,oliftindiaoquantomaisfreqüente torna-seBquandoAoorre.1
Aimportâniaemrelaçãoaovalordasuportepodevariardeaordoomoontexto. Porexemplo,regrasque
apresentamumsuporteabaixo deumdeterminado valorpodem seronsideradaspouorelevantes emanálise de
Elapodeserexpliadaatravésdoexemploaseguir. Dadasastransaçõesapresentadasnatabela
2.2,vamosanalisararegraregraPO
=
>
MANTEIGA.NúmerodaCompra Pão Manteiga
1 sim sim
2 sim sim
3 não sim
4 não não
5 sim não
6 não não
7 sim sim
8 não não
9 não sim
10 sim não
Tabela2.2: ExempliaçãodoLift
Considerandotodasasomprasrealizadas,temosqueem50%dastransaçõesoitemmanteiga
foiomprado. QuandoonsideramosaregraPO
=
>
MANTEIGA,reduzimosnossodomínioape-nasàstransaçõesondehouveaompra depão. Devemosentãoveriarem quantas delashouve
oonsumodemanteiga. Em5dessastransaçõeshouveoonsumodePOeem3delastambém
foionsumidooitem MANTEIGA.Sendo assim,temos umaonançade3/5=60%. Vimos
as-sim,queaonançaobtidaomaregrafoimaiorqueosuporteiniialesperadoparaopão,oque
podeindiarqueoonsumodepãoestárelaionadoaodemanteiga. Afórmulaparaalularolifté:
lif t
(
A
→
B
) =
lif t
(
B
→
A
) =
P
P
(
A
(
AeB
)
P
(
B
)
)
=
conf
(
A
→
B
)
suporte
(
B
)
=
conf
(
B
→
A
)
suporte
(
A
)
onde
conf
(
A
→
B
) =
P
(
AeB
)
P
(
A
)
Ouseja,onsiderandonossoexemplo,temososeguinte álulo:
lift
=
conf
(
pao
→
manteiga
)
suporte
(
manteiga
)
=
(60)
(50)
= 1
,
2
Quanto maiorolift, maioréapossibilidadede queA e Bjuntos em uma transaçãonão seja
umfatoaleatório,esimquetenhasidoausadoporalgumarelação.
Calulandoemtermosdeporentagem,temosaseguinteexpressão:
(
lif t
−
1)100 = (1
,
2
−
1)100 = 20%
Ouseja,aregraapresentauma onança20%aimadaesperada.
O onvition (onvição) é uma medida de interesseque relaionaa regraomplementar a
queestá sendo analisada, ondearegra ontendoanegação doonseqüente pode sermuito mais
expressiva. Elaquantia oimpato daregraquandoomparadaomasuaregraomplementar
(oonjuntoderegrasondeoonseqüenteéinvertido).
Primeiramente,alula-seoliftdaregraomplementar (negaçãodaregraque estásendo
ana-lisada). Posteriormente,seuvaloréinvertido:
1
lif t
.Paraanalisaros valoresobtidos,temosasseguintesregras:
•
quandoonvitionéiguala1,signiaquearegraeoseuomplementotemigualvalor,•
quantomaiorovalordeonvition,maisforteéaprópriaregra,•
seovalordoonvitionformenorque1,deve-seanalisarasregrasomplementares.Afórmuladeálulodeonvitioné:
onvition(A
→
B)=P
(
A
)
P
(
notB
)
P
(
AandnotB
)
=
(1−
supp
(
B
))
(1−
conf
(
A
→
B
))
Cada medida deinteressedeveseranalisadade formaomplementar àanálisedos resultados
obtidosem um proesso de mineração de regras de assoiação. Normalmente, as medidas mais
utilizadassãosuporteeonança,poisoentendimentodasmesmasémaissimples,sendoassimilada
ommaisfailidadepelosusuários[Albergariaet al.(2006)℄.
2.2 Tarefa de mineração de regras de assoiação
A apliaçãodaténia deregrasdeassoiação éamplaeabrangediversosontextos. Porém,
independentedoontexto,emumsistemademineraçãodesegundageraçãosãoneessáriosalguns
passosparaariaçãodetarefasdemineraçãodedados. Aseguirserãoilustradosospassosaserem
seguidosutilizandoosistemadesegundageraçãodenominadoTamanduá[Tamandua(2006)℄.
Oprimeiro passo aserrealizadopelo usuárioonsiste em riaruma tarefa demineração. As
primeirasinformaçõessoliitadassãonomeedesriçãoparaatarefa,onformeilustraaFigura2.1.
Posteriormente,ousuáriopreisaesolherabase asermineradajuntamente omosatributos da
mesma(Figura2.2). Éneessáriatambémaesolhadoalgoritmoaserutilizado,alémdosvalores
dosparâmetrosqueserãoutilizados,queno asode regrasde assoiaçãosão suporteeonança
(Figura2.3).
A tarefa então deve ser exeutada e os resultados são apresentados ao usuário. A tela dos
resultadosdosistemaTamanduáéapresentadanaFigura2.4emquemostraoonjuntodasregras
obtidasnamineração. Atelaapresentaasseguintesinformações:
1. Filtrosquepodemserutilizados paraesolherosatributospresentesnasregras;
2. Possibilidadedemudançadasmedidasdeinteresseparavisualizaçãográadasregras;
3. Matrizdemedidasdeinteresse,ondeadapontoéumaregra(ouumonjuntoderegrasom
osmesmosvaloresnasmedidas deinteresse);
4. Detalhe deumaregra. Aoliaremumdospontosdográo(regraouonjunto deregras)
sãoapresentadasinformaçõesdetalhadasnalateral.
Como trata-se de um proesso iterativo, ao visualizar osresultados obtidos, o usuário pode
sentir neessidade de mudar atributos, parâmetros ou ltros, tendo que exeutar novamente a
tarefa. Para realizar essa interação, o usuário deve onheer bem os oneitos envolvidos e o
impatodeadamudançaquepoderealizar.
Figura2.1: TeladeriaçãodeumatarefademineraçãodosistemadesegundageraçãoTamanduá
(DadosdaTarefa)
Figura2.2: TeladeriaçãodeumatarefademineraçãodosistemadesegundageraçãoTamanduá
(SeleçãoBase/Atributos)
2.3 Desaos no uso de apliações de segunda geração
Reentemente,foiapresentadoem[Kriegelet al.(2007)℄queumdosdesaosemmineraçãode
dadosonsisteem aumentar ausabilidadede sistemas deMineração deDados (MD).As
diul-dades experimentadas pelos usuários se distribuem ao longo do proessode mineração, desde a
deniçãodeparâmetrosparamineraçãoatésuavisualização. Issoenvolveongurarumasériede
parâmetros,em um proesso iterativoque envolve ajustar osresultados obtidos,seleionar e
in-terpretarregrasresultantes[Albergariaetal.(2006),Hofmannet al.(2000),Kriegeletal.(2007),
Meiet al.(2006)℄. Oimpato dosproblemasnousodosistemaégravetanto paraousuário(que
pode ser levado a interpretarerroneamente o resultado, não obtendo o onheimento desejado),
quantoparaosresponsáveispelosistema(o usuáriopodedesistirdeutilizarosistema).
Analisando a diuldade dos usuáriosna interação dos sistemas disponíveis atualmente,
en-ontramos em [Gonçalves(2001)℄ umestudo da apliaçãode algumas ferramentas de mineração
dedadosno ontextodeuma redede supermerados. Essessistemas podem seronsideradosde
Figura2.3: TeladeriaçãodeumatarefademineraçãodosistemadesegundageraçãoTamanduá
(SeleçãoAlgoritmo/Parâmetros)
Figura2.4: TeladevisualizaçãodosdadosdosistemadesegundageraçãoTamanduá
não auxiliaramos tomadoresde deisãoda empresa. Isto oorreupelo fato de não onseguirem
utilizá-lasdemaneiraeaz,nãotrazendoassimnenhumbenefíioaoseremusadas. Adiuldade
enfrentadapelosusuáriosoorreu,emgrandeparte,emfunçãodalinguagemeinterfaedosistema
quenãofaziampartedodomínio dosusuários.
Da forma semelhante, em [Albergariaet al. (2006)℄ são levantadas algumas diuldades de
interação dos usuários. A seguir estão apresentados alguns desaos de interação om sistemas
desegunda geraçãode mineraçãodedados. Emgeral, estesdesaos podem serrelaionados aos
termos téniosempregados eaos oneitos envolvidosdurante todoouso dos sistemas quenão
fazempartedodomínio dosusuários.
2.3.1 Denição dos parâmetros de entrada da mineração
parâmetrosiniiais para que eles possam serexeutados. Os dois parâmetros mais tradiionais
desses algoritmos são suporte e onança mínimos. O usuário deve forneer o valor mínimo de
suportequeumaregradeveapresentarparaqueelasejagerada,omesmovalendoparaaonança.
Estes oneitos não fazem parte (normalmente) do domínio do usuário,e, além disso, osvalores
mais adequados para esses parâmetros dependem da base de dados que vai ser minerada e do
tipo de onheimento desejado pelo usuário. Desta forma, a denição destes parâmetrosnão é
intuitivae depende daexperiêniadousuário tanto omabase de dados,quanto omosistema
demineração.
2.3.2 Seleção dos atributos
Umaspetorelaionadoàgeraçãodasregrasquemereesermenionadorefere-seàesolhados
atributosaseremmineradosnabasededados. Oproblemaaquiserefereàesolhadosatributos
pelosusuários,vistoqueem muitasbasesde dadoshá diversosatributos quesãoredundantes ou
parialmenteredundantes. Porexemplo,numabasedeomprasosatributosódigodoprodutoe
nomedoproduto emgeralsãoredundantes,jáqueadaódigoorrespondeaumúnioproduto
(e.g. oódigo123 orrespondeao produtoMouse XYZ) . Já osatributosnome doproduto
e ategoria do produto são parialmente redundantes, já que ada produto é de uma únia
ategoria (e.g. o produto Mouse XYZ pertene à ategoria Periférios). Quando o usuário
seleionaatributosredundantesouparialmenteredundantes, osistema podegerarregrasóbvias,
omoasseguintes:
•
[Código=123℄→
[Nome=MouseXYZ℄(100.00,1.00)•
[Nome=MouseXYZ℄→
[Categoria=Periférios℄(100.00,1.00)É óbvio que 100% dos produtos de ódigo 123 são Mouse XYZ, assim omo é óbvio que
100%dosMouseXYZsejamPeriférios. Comoosistemanãotemomosaberqueosatributos
sãoredundantes,essasregrasirãoapareeremdestaque,jáquepossuemumaonançaaltaeum
lift também alto, sendoo liftdado pela razãoentre aonança daregra eaonança que seria
esperada. Oliftdaprimeiraregra,porexemplo,temvalor100,indiandoqueaonançadaregra
é100vezesmaiorqueafreqüêniadoonseqüente. Ouseja, ofatode sabermosque oódigodo
produtoemumadeterminadaompraéiguala123 aumentaem100vezesahane donomedo
produtonamesmaompra serMouseXYZ,oqueéóbvio.
2.3.3 Análise das regras de assoiação resultantes da mineração
O resultado de um sistema de mineração de dados por regras de assoiação é um onjunto
dessasregras. Noentanto,ooneitoderegrasdeassoiaçãonãofazpartedodomíniodousuário
edeveser aprendido por ele para que possa fazer uso do sistema. Ousuário deve entender que
ada regra de assoiação representa uma possível orrelação entre itens de uma base de dados.
Possívelporque ofato de existir uma regra de assoiação entre dois ou mais itens não signia
neessariamentequeelesestejamorrelaionados.Vamos onsiderararegraabaixo:
Esta regra india uma possível orrelação entre a ompra de pão e manteiga e leite. Como
vimos, ela nosdiz que os itens pão,manteiga e leite são omprados juntos om uma freqüênia
de50%,eque 80%dasomprasque inluempãoemanteigatambém inluemleite. Esta última
porentagemorrespondetambémàhanedeaertodeumaprevisãodaompradeleitedadoque
jáoorreuaompradepão emanteiga. Se ousuárionãoompreender orretamenteosoneitos
envolvidosem uma regrade assoiação, ele orre oriso utilizá-las deforma equivoadaou não
onseguiratingiroobjetivoquetinhaaoutilizarosistema.
2.3.4 Seleção do subonjuntode regras
Além de permitirao usuáriovisualizar as regrasgeradase suas araterístias, osistema de
mineraçãoderegrasdeassoiaçãodevetambémpermitiraousuárioseleionarumsubonjuntode
regrasquesejamaisinteressanteparaele. Paraisso,ousuáriodevedenirquaisitensointeressam,
emqueladodaregraelequerqueumdeterminadoitemestejapresenteouqualonúmerodeitens
uma regradeveter no anteedente ou noonseqüente para seronsiderada interessante. Assim,
o usuário deve entender não apenas a estrutura da regra (e.g. que a regra é formada por um
anteedenteeumonseqüente),mastambémoquesigniaumitemestarpresentedeumladoou
dooutro.
2.3.5 Seleção das métrias de interesse
Valoresdesuporteeonançaaltosnãoneessariamenteindiamumaorrelaçãoentreositens.
Paraavaliaressaorrelação,sãoneessáriasoutrasmétriasdeinteresse. Paraserapazde
utilizá-las,ousuáriodeveantesaprendê-las,umavezqueelastambémnãofazempartedoseudomínio.
Naliteratura,sãoenontradasdezenasdessasmétrias,algumasmaisadequadasadeterminadas
situaçõesqueoutras. Paraentendermosautilização destas regras,vejamosolift, já apresentado
anteriormente. O lift dá uma medida do quanto a onança de uma regra é surpreendente em
relaçãoaoqueeraesperado. Uma onançade80%,porexemplo,naregra([Pão℄, [Manteiga℄
→
[Leite℄(80.00,50.00)℄)indiaque80%dasomprasqueinluírampãoemanteigatambéminluíram
leite. Emboraessa onançapareçaalta, não podemosarmarissoomerteza semolharmos a
freqüêniadaompradeleitenabasededados. Se80%detodasasomprasefetuadasnapadaria
inluíram leite, então a onança de 80% já era esperada, e a regra não teria trazido nenhuma
informaçãosurpreendente. Por outrolado, seapenas 40%de todasasompras efetuadasna
pa-dariainluíramleite, entãoaonançade80%éodobrodaesperada,indiandoqueaomprade
pãoemanteigainueniapositivamentenaompradeleite,oqueéumainformaçãointeressante.
O lift, onformejá apresentado, é dadopela razão entre a onança daregra e aonança que
seriaesperada. Se aonança esperadaera de80%ea onançadaregrafoi de80%,olift é1.
Damesma forma, seaonança esperadaera de 40%eaonança daregrafoi de 80%,olift é
2. Quanto mais o lift divergir do valor 1, maior será a intensidade da orrelação expressa pela
regraemais surpreendente ela será. Esseexemploilustra bem aneessidadede seanalisar mais
deumamedidadeinteresseantesdesetomarqualquerdeisãooutiraronlusõesdosresultados
apresentados.
Depoisdeapresentadosalgunsdesaos,apróximaseçãoilustraumatarefademineraçãode
da-dos(baseadanospassosapresentadosnasubseção2.2),apresentandoalgunspontosdediuldades
deinteração.
2.4 Cenário de uso
Aseção2.2apresentouospassosparaserealizarumatarefademineraçãoderegradeassoiação
enaseção2.3foramilustradosdesaosdeinteraçãoemsistemasdesegundageração. Nessaseção
seráapresentadoumenáriodeusoilustrandoumarealtarefademineraçãosendoexeutada.
Cenários[Carroll(2000)℄foramdenidosomoplausíveisedetalhadasnarrativastextuaisque
desrevem uma situação espeía. Eles têm sido usados em diferentes fases de onepção do
softwaree suaprinipal ontribuiçãoé permitiruma visão mais ampla dautilização dosistema.
Embora não seja real, é uma situação plausível, baseada em experiênias reais. A seguir, será
apresentadoumenárioqueilustrauma apliação,ilustrandouma tarefademineraçãoderegras
de assoiação sendo exeutada. O enário apresentado é baseado no ontexto de auditoria de
ompras governamentais e o sistema de segunda geração utilizado foi o Tamanduá [Tamandua
(2006)℄.
2.4.1 Tarefa de auditoria
Osetor deauditoria dogovernoresolveuveriarse existiamindiativosde fraudesem
om-pras realizadas pelos órgãospúblios. Pedro, funionáriodo setor de auditoria, ahou que seria
interessanterealizaressetrabalhoeresolveuutilizarténiasdemineraçãodedados,apesardenão
onheerprofundamenteosoneitosenvolvidos.
AprimeiratarefarealizadaporPedrofoiidentiarosfenmenosfraudulentosquegostariade
analisar. Resolveuentãofoalizarabusaemtrêsdeles,listadosabaixo:
•
Favoreimento: seleção de forneedores por meios não previstos em lei. (organizaçõespúblias podem agir somente no limite do que é previsto em lei, enquanto organizações
privadas podem fazertudooquenãoéproibidoemlei)
•
Formação de Cartel: tabelamento depreçosde umtipodeprodutoporparte dosforne-edores.
•
Super-faturamentodeompras: Preçosmédiospagosparadeterminadosprodutosmuitoaimadopreçodemerado.
Busandoidentiarsehouveindíiosdefraude,Pedrodeterminoualgumaspremissas
relaio-nadasaosfenmenosqueeleseleionou:
•
Favoreimento: Um forneedor não é apazde ganhar todas asliitações de um mesmotipodeprodutoduranteumanointeirosemserfavoreido.
•
Formação de Cartel: Não é possível que todos os forneedores de um mesmo tipo deprodutoovendamomomesmopreço,emummesmoperíodo,semformarartel.
PedroentãoresolveuutilizarosistemaTamanduápararealizarsuatarefa,ahandoapropriada
aapliação daténia demineraçãode regrasde assoiação. Ele deveria utilizarosistema para
mapear oproblemaqueele tinha (baseadonaspremissasqueelaborou) emtarefas demineração
de dados. A partir da primeira premissa de que um forneedor não é apaz de ganhar todas
as liitações de um mesmo tipo de produto durante um ano inteiro sem ser favoreido, Pedro
onsiderouqueseumforneedorganharmaisque70%,porexemplo,dasomprasdeumproduto
Y,existemindíiosqueesseforneedorpoderiatersidofavoreido.Pedroentãoresolveuriaruma
tarefademineração,utilizandoosseguintesdadosabaixo:
•
Nome: Tarefa de auditoria - Forneedor e Desrição: Tarefa que busa analisar se háfavoreimentoparaalgumforneedorespeío(teladagura2.1)
•
Base de dados: Basedeompras,queontém27.834registros(teladagura2.2)•
Atributos: Foramesolhidososatributos: (teladagura2.2)produto
ano
órgão
valorefetuadonavenda
forneedor(nome,ódigo,endereço)
Emrelaçãoaesolhadosparâmetros,Pedro sesentiuonfusoaoforneervalores. Issoporque
não são oneitos familiares aele e Pedro não sabia ao erto o impato que ada valor poderia
ter. PedrojátinhaexeutadoalgumastarefasnoTamanduá,masutilizandobasesdiferentes para
ontextos distintos, o que não pode ser onsiderado omo uma experiênia, pois ada tarefa é
diferente. Poresse motivo,ele atribui algunsvalores queonsiderou pertinentes, massendo essa
esolhaumdesaoparaele.
•
Algoritmo: foiesolhidooElat,relaionadoàsregrasdeassoiação(Figura2.3)•
Aesolhadosvaloresdosparâmetrosforam:Suporte: Pedroatribuiu ovalorde0.27,queonsisteem75oorrêniasnabase,valor
onsideradorelevanteporele.
Conança: ovalormínimodeterminadofoi70%,direionadodeaordoomapremissa
dequeumforneedoréfavoreidoseobtémgrandepartedasvendaseessaporentagem
jáéumindíio, segundoavisãodePedro.
Pedro entãosalvouatarefaeexeutouamesma. Como resultado,Pedro obteveumonjunto
deregrasde assoiação, omo oilustradonatela da gura2.4. Pedro enontrou algumasregras
queaparentementeeraminteressanteseestavamemdestaqueomo:
[Código_forneedor=0156℄
→
[Nome_forneedor=ETALtda℄(100.00,1.00)atributosredundantes,omonome eódigodo forneedor. Pedro entãoteveque editar atarefa,
modiandoosatributosesolhidoseexeutandonovamente atarefa.
Pedroentãoahouqueforamgeradaspouasregras,masnãosabiaoquepoderiaserfeitopara
visualizar mais. Depois de uma análise, Pedro desobriuque o valor forneidopara aonança
estavaaltoe,porisso,preisavadiminuí-loparaseremgeradasmaisregras. Pedroredeniuovalor
daonançaeexeutounovamente atarefa.
Ao analisar os dados, Pedro gostaria de visualizar somente as regras onde apareia o mês
de Janeiro e, para isso, observouque deveria utilizar osltros. Ele não sabia, entretanto, onde
seleionaroatributodesejado,ondeseriamaisinteressanteequalomotivodosvaloresapareerem
noanteedenteouonseqüente. Apósfazersuaesolha(semmuitaertezaquedeestavaorreta),
Pedro ainda teve dúvidas ao interpretar as regras obtidas. Ele não onseguia apliar bem os
oneitos envolvidosnasoutras medidas deinteressee, porisso, sentia diuldadede utilizá-las.
Eleonsideravasemprequevaloresaltosdesuporteeonançarepresentavamregrasinteressantes,
masnãoonseguiaarmarissoomaertezaneessária. Depoisdemuitasdiuldadesedúvidas,
Pedro onseguiu obter asinformações quedesejava,mas sem aerteza de que havia enontrado
tudoquepoderiadamelhorformapossível.
Os desaos vividos por Pedro são enfrentados de uma maneira geral por usuários que não
dominam os oneitos envolvidos e issopode aabar limitando o públio e área de atuação das
téniasdemineraçãodedados[Albergariaet al.(2006)℄.
Apósalgunsdesaosdeinteraçãoseremlevantadoseumexemplodeinteraçãoserapresentado,
a próxima seção onsiste em analisar soluções que foram propostas em diversos trabalhos que
busamminimizarosproblemasexistentes.
2.5 Propostas existentes
Primeiramente,umestudofoi feitodeformaaveriarqueosdesaos identiadosnãoeram
espeíosdeumdeterminadosistema,massimgeraisdesistemasdesegundageraçãodemineração
deregrasdeassoiação. Natentativade identiarsoluçõesexistentes,foi feitauma pesquisa na
literaturae em sistemas de mineraçãode regrasde assoiaçãode objetivogeral, que não foam
emnenhumdomínioespeío. Emrelaçãoaodesao dedeniçãodeparâmetrosdeentrada, por
exemplo, todos os sistemas analisados[Dama (2006), Analysis (2006), Weka (2006), Tamandua
(2006) XLMiner (2006), Tutorial (2006)℄ apresentam na sua linguagem de interfae os mesmos
oneitosténiosqueformamosdesaosparaosusuários. Parailustrar,asFiguras2.5,2.6e2.7
mostramtelasdoDBMiner[Tutorial(2006)℄,Dama[Dama(2006)℄eXLMiner[XLMiner (2006)℄,
respetivamente,naqualosusuáriosentramomosdadosneessáriosparaamineraçãodedados.
Pouostrabalhosforamenontradossobreaneessidadedeentendimentoporpartedosusuários
dosoneitosdemineraçãodedados. Dentreestes,destaamosThearlingeolegas[Thearlinget al.
(2002)℄que hamam aatençãopara aimportânia dousuárioentendereonar em sistemas de
mineraçãodedados,masnãoapresentaquaisaspetossãoneessáriosparaisso.
Em relaçãoà visualização dosresultados, existem algunsesforços em melhorarausabilidade
desistemasdemineraçãoderegrasde assoiação. Umaestratégiaonsisteemajudarosusuários
aexploraragrandequantidadederegrasapresentadasomo resultado,auxiliando-osnoproesso
de identiação de regras interessantes. Nesse ontexto, duas abordagens são geralmente
Figura2.5: DBMiner: Parâmetrosdeentrada(suporteeonançamínimos)
Figura2.6: DAMAPrototype: Parâmetrosdeentrada(suporteeonançamínimos,dentreoutros)
[ZakiePhoophakdee (2003)℄e[RainsfordeRoddik(2000)℄,porexemplo,sãousadasténiasde
grafos para apresentar um onjunto de regras. Nesse tipo de visualização, os nodos dos grafos
representamositens ou onjunto de itense asarestas asregras, ondeo nodode origem éo
an-teedente e o de destino o onseqüente, omo pode ser visualizado na Figura 2.8. Em diversas
apliaçõesomoDBMiner[Hanet al.(1996)℄eIBMIntelligentMiner,asregrassãoapresentadas
emformasgráas,ondeumeixoéoanteedente eooutrooonseqüente,omomostraaFigura
2.9. Oproblemaéqueessaformadeapresentaçãonãoéesalávelparamuitosatributos. Deforma
aminimizar esse problema, foi proposto em [Wong etal. (1999)℄uma visualização3D, plotando
regraseatributoseapresentandoos valoresdesuporteeonançadeformaonjunta,quepodem
servisualizadosnaFigura2.10. Porém,essavisualizaçãotornou-seomplexaemtermosde
Figura2.7: XLMiner: Parâmetrosdeentrada(suporteeonançamínimos)
Figura2.8: FrameworkMirage,visualizaçãopropostaporZaki[ZakiePhoophakdee(2003)℄
Asegundaabordagemonsisteemdiminuiraquantidadederegrasaseremapresentadas,onde
umadaspossibilidadeséutilizandotaxonomias. Em[SrikanteAgrawal(1997)℄,porexemplo,
to-dasasregraspossíveis(omesemtaxonomias)sãoapresentadasenumsegundomomentobusam
retirarasregrasquenãosãointeressantes,de aordoomuma determinadamedida quedeveser
esolhida. Em [DomingueseRezende (2005)℄ também é utilizada a generalização de regras de
(Generali-Figura2.9: VisualizaçãodoDBMiner: rulebody(LHS)xrulehead(RHS)
Figura2.10: Visualização3DpropostaporWong[Wong etal.(1999)℄
pós-proessamento, nãoaumentando ovolumede regrasgeradasomo oorrenotrabalho itado
anteriormente.
Outro objetivode reorrente interesseonsisteem auxiliarosusuáriosaanalisaremasregras
geradas. Em[Hofmannetal.(2000)℄,aténiadeMosai Plotséutilizadaparamelhoraro
enten-dimentodasregras(Mosaiplotssãometáforasvisuaisparaastabelasdeontingênia). Aregraé
apresentadaemformagráa,ondeaáreaéosuporteeaonançaéapresentadapelototal
preen-hido. Noentanto,essetrabalhoofereeapoioaosusuáriosquejáonheemosoneitosenvolvidos
noontextodasregrasdeassoiação,nãoauxiliandonoentendimentoemsi. Elevisaofereeruma
Uma formadeajudaparaoentendimento dasregrasé apresentadaem[Meietal. (2006)℄. A
idéiadoartigofoiinspiradanalinguagemnatural,ondeasemântiadapalavrapodeserinferidado
ontexto,ondeaspalavrasqueompartilhamontextostendemasersimilares. Elesapresentamno
trabalhoumaformadegerarautomatiamenteinformaçõessemântiasdeumdeterminadopadrão,
denominadasanotaçõessemântias. Taisanotaçõesonsistememumonjuntodefortesindiadores
ontextuais,umonjuntodetransaçõesrepresentativaseumonjuntodepadrõessemantiamente
similares. Ométodopodeserapliadoaqualquerténiademineraçãodepadrõesfreqüentesomo
umpassoparafailitarainterpretaçãodepadrõesenontrados.
Todas essas propostas são avanços na melhoria da usabilidade em sistemas de mineração de
regrasde assoiação. Noentanto,eles ontinuam aexigir queosusuáriosdemineraçãodedados
aprendam oneitos ténios, a m de interagir om o sistema. Sistemas de tereira e quarta
geraçãopropõeestratégiasdiferentesparamelhorarausabilidadedossistemasdeKDD.
Sistemasdetereirageraçãosãovoltadosparaumontextoespeío,omoneitospróprios
dosusuários.UmexemploéosistemaoADS(Advaned-DetetionSystem),apresentadonaFigura
2.11quedetetafraudesnoomportamentodoNasdaqStokMarket,deaordoomregulamento
NASD[Senatoretal.(2002)℄. OutroexemploéoHNCSoftwareFalonparadeteçãodefraudede
artãoderédito[Rainho(2001)℄. Emboratenteesonderosoneitosdemineraçãoenvolvidosno
proesso,asferramentasdetereirageraçãoamrestritasaumdeterminadoontextoeproblema.
Assim,asinterfaesdesistemasde tereirageraçãosão orientadasparaosusuários,maseles são
voltadosparaontextoetarefasespeíos,sendoneessárioumnovodesenvolvimentoparaada
domínio.
Figura2.11: Teladosistema ADS-Representaçãodeumaregra
OssistemasdequartageraçãobusamauxiliarosusuáriosnoomplexoproessodeKDDesão
enume-efeitos ompatíveisem uma determinadaseqüênia. Além disso, permiteriar umranking dos
proessoslassiadospela veloidadee exatidão,failitandoa esolhadequalproessodeveser
exeutado. Essas ferramentas ajudam nas tomadas de deisões entre asvárias possibilidades de
qual aminho seguirem uma determinada tarefa de mineração[Goldshmidtet al. (2002)℄. Em
[Goldshmidt(2003)℄épropostaumaferramentadeassistênia,umamáquinadeassistênia
inteli-genteàorientaçãodoproessodeKDD(tambémhamadaIKDD-IntelligentAssistaneinKDD),
propostaparaserumaferramentadidátiavoltadaparaaformaçãodeprossionais.Nessesistema,
osusuáriossãoguiadosaentenderemoproesso,aprendendogradualmenteosoneitosenvolvidos.
NavisãoontextuallássiadoproessoKDD,deumladoestáohomemedooutroumonjunto
dereursosutilizados na exeuçãodasetapasdoproessoKDD [Goldshmidt(2003)℄. Esse
on-juntorefere-se,deumamaneirageral,aumrepositóriodealgoritmosKDD,integradosounão. A
máquina IKDDentra omo umomponente auxiliar(Figura 2.12, apresentada em [Goldshmidt
(2003)℄). Amáquinanãoéresponsávelporexeutaroproessoesimsugerealternativasdeações.
Figura2.12: VisãoontextualdamáquinaIKDDsegundoGoldshmidt[Goldshmidt(2003)℄
Paraqueasferramentasdeassistênia(sistemasdequartageração)possamauxiliarosusuários
noproessoKDD,devemexistiralgumasdeniçõessobreomesmo. Porexemplo,éneessárioque
aferramentasaiba quaisospré-proessamentos para adaténia equal oimpato da exeução
deadauma, porexemplo. Issoporque, ao indiaraousuárioqualdeisãomelhorasertomada,
a indiação deve ser baseada em uma teoria sólida e orreta. Alguns trabalhos estão voltados
para essalinha teória. Porexemplo,em [BernsteineProvost (2001)℄[Goldshmidtet al.(2002)℄
osautoresbusaramdesreverosalgoritmosdeKDD esuasaraterístiasatravésdeontologias,
mostrandosuaspré-ondiçõeseefeitos. Em[Morik(2000)℄foianalisadaainuêniadeaçõesde
pré-proessamentonosdesempenhosdastarefasdemineraçãoeem[Brazdilet al.(2003)℄[Soareset al.
(2001)℄analisou-seaaderêniadealgoritmosdemineraçãoaumonjuntodedados.
Voltando às ferramentas de segunda geração, omo vimos, elas demandam dos usuários um
grandeonheimentodateoriaenvolvidaemmineraçãodedados. Emboraostrabalhos
busamonstruirsoluçõesvoltadasparaumdeterminadoontexto,busandoabstrairosoneitos
envolvidos,massão onstruídospara umproblemaespeíoe,seoproblema mudarouevoluir,
osistema pode deixardeserútil. Ossistemasdequartageraçãobusamauxiliaraosusuáriosno
proesso,masapresentandoosoneitosenvolvidosaosmesmos. Oauxílioéemrelaçãoàsdeisões
possíveis,vistoqueno proessoKDDsãoinúmerasaspossibilidadesdeinteração. Nesseaso,os
usuáriospreisamaprenderosoneitos,oquepoderepresentarumaltoustoparaalguns.
Oqueapresentamosnesse trabalhoonsisteemumaabordagemdiferentedasqueforam
apre-sentadas. Consisteemummodeloquepodeseraopladoasistemasdesegundageração,busando
riar uma amadade abstração. Diferentemente dos de tereirageração, essasolução nãoé xa
para um determinado ontexto epode ser apliada em diferentes domínios. Além disso, não se
busaapresentarosoneitosenvolvidosomoasferramentasdequartageração,masaidéiaéque
umgrupodeusuários(denominadosespeialistas)possamriarumníveldeabstraçãoparaqueo
sistemapossaserusadoporusuáriosnais semqueessespreisemaprenderoneitosténiosde
mineraçãodedados. Assim,essasoluçãoéapazdepermitirumainterfaeemumnívelmaiorde
abstração,não limitandooontextodeapliação.
Depois dos oneitos envolvidos no ontexto de mineração de dados serem apresentados, a
Fundamentação teória
No proesso de interação usuário-sistema, a interfae éo ombinado de software e hardware
neessário para viabilizar e failitar os proessos de omuniação entre o usuário e a apliação
[Preeeetal. (1994)℄. Segundo Moran [Moran(1981)℄, a interfaede usuáriodeveserentendida
omo sendo a parte de um sistema omputaionalom a qual uma pessoa entra em ontato de
formafísia,pereptivaeoneitual.
OtermoInteraçãoHumano-Computador(IHC)foiadotadonadéadade1980para desrever
umnovoampodeestudo. Otermonãoéapenasparaabrangerinterfaes,mastodososaspetos
relaionadosainteraçãoentrepessoasesistemasomputaionais[Preeeetal.(1994)℄. Trata-sede
umamatériamultidisiplinarquerelaionaiêniadaomputação,design,ergonomia,psiologia,
soiologia,semiótia,lingüístiaeáreasans.
UmpontoimportanteaserompreendidoemIHCestárelaionadoàqualidadedeum
determi-nadosistemaemrelaçãoàinteração.Issoporquearesentarfunionalidadesnãosigniamelhorar
ainteraçãoetambémnãopodeserdesulpaparaumdesignpobre[Preeeetal.(1994)℄. Umbom
exemploéodadoporNorman[Norman(1988)℄omrelaçãoaosarros. Elearmaqueinteragir
omarros,quenormalmentepossuemerade100omandosoumais(dentre funionalidadesde
rádio,ventilação,janelas, direção,luzes, et.) muitasvezesnão étão difíil omouma tarefa de
programarumhoráriodegravaçãoem umvídeo. Umfatorelaionado onsistenofeedbakdado
pelos omandos do arroserem mais imediatos eóbvios. Além disso, os símbolos utilizados em
arrosseguemdeterminadospadrõese não sedifereniamtanto deum arropara outro. Assim,
aspessoasquejádirigiramumarro,sabemoqueesperaremqualqueroutro.
OsobjetivosdeIHC podemserresumidosemdesenvolveroumelhorarasegurança,utilidade,
eáia,eiêniaeusabilidadedesistemasomputaionais [Barlowetal.(1989)℄. Sistemasaqui
nãoestá sereferindoasoftwareouhardwareespeiamente,mastodooontextodeuso.
Utili-daderefere-se àsfunionalidades do sistema,oque ele faz. Eáia relaiona-seom apreisão,
ompletezaomqueosusuáriosatingemobjetivosespeíos, aessandoainformaçãoorretaou
gerandoosresultadosesperados. Jáaeiêniaestárelaionadaomapreisão,ompletezaom
queos usuáriosatingem seus objetivosem relação àquantidadede reursosgastos. Usabilidade
envolveosistemaserfáildeaprenderefáildeusar.
Por sua araterístia multidisiplinar, várias foram as abordagens elaboradas para analisar
a formade interação. Uma abordagem bastante difundida, porexemplo, refere-se a engenharia
ognitiva[Norman(1986)℄. Elaébaseadanapsiologiaognitivaepossuiomoobjetivoentender
ogniti-vosmentais quepermitem aosprojetistasentenderemoproessoognitivohumano epossam ser
utilizados durante a interação. Norman onsidera que odesigner preisa entender oproesso de
interaçãoepropõeateoriadasações(ilustradanaFigura3.1)para ajudá-lo.
A teoriadasaçõesenvolvedoisgolfos,ode exeuçãoeodeavaliação. Odeexeuçãoonsiste
nadeniçãodameta,ondeoobjetivodousuáriodevesertraduzidoemomandosdeinterfae. Já
odeavaliação onsistenaanálise dosresultadosobtidos,em querespostasdosistema devemser
traduzidasemumaavaliaçãosobreoquantoseatingiudoobjetivoiniial. Asdistâniassemântia
eartiulatóriasãoutilizadas omométriasparaseavaliaraqualidadedalinguagemdeinterfae.
Adistânia semântia representaadistânia entre aintenção dousuárioeoonteúdodossignos
presentesnalinguagemdeinterfae,ondesignoéaquiloquerepresentaalgumaoisaparaalguém
[Peire (1958)℄. Já a distânia artiulatóriarepresenta adistânia entre oonteúdodos signos e
suaexpressãonainterfae.
Figura3.1: Teoriadasações-proessodeinteraçãodosusuários
A Engenhariaognitivafoanaanálisedarelaçãointerfae-usuárioenão narelação
designer-sistema. Alémdisso,esendoesseoaspetoprinipal,aEngenhariaognitivaonsideraousuárioe
suasintençõesomoúnios. Adota-seapremissadequeosusuáriospossuemomesmoonjuntode
intençõeseinterpretam ossignosapresentadospela interfaedamesma forma[deSouza (2005)℄.
Assim,oaráterevolutivoeontingentedasinterpretaçõeseusosdosusuáriosnãosãoonsiderados.
EsseaspetodasvariaçõesnainteraçãoéabordadopelaEngenhariaSemiótia,teoriaadotada
nestetrabalhoomo baseteória. Elapodeseronsiderada,dentreoutras,omo umateoria
pós-ognitiva[Bimet al.(2007)℄. Elatrataoenvolvimentoentredesigneresistemaomoumproesso
de omuniação em que os projetistas devem transmitir suas mensagens, no lugar de apenas os
usuáriosinterpretaremoquefoipreviamente projetado.
A Engenharia Semiótia é uma das pouas tentativas de juntar a semiótia e IHC de
ma-neiraonisaeonsistente, parasuportara organizaçãoeadesobertado onheimento novo,o
3.1 Engenharia Semiótia
AEngenhariaSemiótiaéumateoriaquearaterizaainteraçãohumano-omputadoromoum
asopartiulardeomuniaçãohumana mediadaporsistemasomputaionais[deSouza (2005)℄.
Trata-se do designer(projetista) se omuniando om o usuário, mediado pelo sistema, onde a
interfaeéumamensagemparaousuáriorepresentandoamaneiraomoodesignerprojetou,para
queeporqueelafoionstruída.
Emuma teoria,uma ontologiaéutilizadaparadesreveroneitos erelaionamentosentreos
mesmos,além deategorizá-los. A teoriadaEngenhariaSemiótia possui omoontologiaquatro
ategorias: oproessodeomuniação,oproessodesigniação,osinterloutoresenvolvidoseo
espaçodo design. O proessode signiação envolve osoneitos de signos esemiose, enquanto
o de omuniaçãoa intenção, onteúdo e expressão. Os interloutores envolvem os projetistas,
ossistemas eos usuários. Jáoespaçode designenvolveostermos emissor,reeptor,mensagem,
ontexto,ódigos,analemensagem.
Assim, a Engenharia Semiótia envolve o estudo dos signos, o proesso de signiação e o
de omuniaçãovoltados para oontexto de IHC. Oproesso de signiação éaquele pelo qual
uma determinadaulturaassoiasistematiamente umonjunto deexpressõesaum onjunto de
onteúdos,queenvolvepelaprodução einterpretaçãodossignos. Jáoproessodeomuniaçãoé
aquelepeloqualogrupodeuma ulturaexploraossistemasdesigniaçãodisponibilizadospara
interagiromoutrosindivíduosougrupos.
Como já itado, um signo, segundo Peire [Peire (1958)℄, é aquilo que representa alguma
oisapara alguém. Peireapresentaaestruturadosignoomoumonjuntodetrês onstituintes:
representamen (representação), objeto (referente) e signiado (interpretante), apresentados na
Figura 3.2(A). O signiado é sempre o mediador entre a representação e o que é refereniado
[deSouza(2005)p.41℄. Porexemplo,tomemosumobjeto queéutilizadoparaortarmateriaisde
pouaespessuraequenão requeiramgrandeforçadeorte,atesoura. Uma tesouraéumobjeto
que pode ser representado tanto pela palavra tesoura quanto pela imagem. Assim, o objeto
ortante, uja representaçãopode serpela imagem ou palavra tesoura pode ter omo um dos
signiadosumatesouraderiança (Figura3.2(B)).
Figura3.2: Estruturadosigno,segundoPeire