• Nenhum resultado encontrado

Apósa coleta e extração de informações sobre a utilização de rótulosem tarefas, atravésdo usodetécnicasdeVisualizaçãodeInformação,comoStreamgraph,boxplot egrafo,umaúltima técnicafoiaplicada,comoobjetivodeinterligarasinformaçõesjáobtidas.Assim,osresultados anterioresalémdeexpressaremcaracterísticassobretarefasrotuladas,serviramdebaseparaa implementaçãododiagramadeSankeyapresentadonessaseção.

Esteporsuavez,temafinalidadedecorrelacionarrótulosediversosaspectossobreas tarefaseanalisarcaracterísticasdastarefasdeformaindividual. Suaimplementaçãofoirealizada utilizando a ferramenta para diagrama de Sankey da biblioteca Google Charts9, utilizando a linguagemdemarcaçãoHTMLcomJavaScript.Oprocessodeimplementaçãodestavisualização foimaiscomplexoquedasanteriores,poismuitosdosdadosnãohaviamsidocoletadosainda, alémdestarequererumaentradadedadosbemespecíficaeheterogênea.

Demodogeral,essediagramaSankeyseráformadoporquatroeixos: oprimeiroeixoé formadoporrótulosselecionados,oquefazquesomentetarefasquecontenham essesrótulos sejammostradasnessavisualização;osegundoeixoédadopelonúmerodecomentáriospresentes emcadatarefa; oterceiroeixoédadopelotempodeconclusãoparaofechamentodastarefas; eo quartoe últimoeixo descreveseatarefanão temcódigonoscomentários,temcódigonos comentários,tempullrequestassociadooutempullrequestaceito.

Aetapainicial,equeconfiguroutodaaessênciadavisualização,sedeupelaescolhados rótulosaseremutilizadosnacomposiçãodoprimeiroeixododiagrama.Talescolhafoipautada pelaanálisedaStreamgraph,doboxplotparatempodeconclusãodetarefascombaseemseus rótuloseedografoparaacorrelaçãodosrótulos.ApartirdaStreamgraph foramselecionados rótulosmaisutilizadosnoprojeto,sendoestesbug eenhancement,eosqueemboranãomuito volumosos,possuemconstânciadentrode todootempode vidado projeto,sendo3. toreview e design. Ainda analisandoaStreamgraph,éperceptívelqueorótulo0. Needstriage efeature: sharingestãosendomaisutilizadoscomopassardotempo,tornandointeressanteautilização destesnodiagramadeSankey.Analisandooboxplotdetempodefechamentodetarefas,temosque orótulostaleéoquepossuimaiorvariaçãointerquartílicasemapresençadeoutliers,característica aquallevouaseleçãodesteparacomporoprimeiroeixododiagrama.Orótulo14.feedbackfoi escolhidopoisestesóapresentaassociaçõesemmeadosde2018. Alémdestesrótulos,também foramanalisadasastarefasque nãopossuem nenhumrótulo,a fimdegerarumacomparação entreousoeonão-usoderótulosemprojetosdesoftwarelivre.

45

Demodogeral,análisesreferentesàcomunicaçãoentredesenvolvedoreslevaemconta questõesquantitativas,queestãoatreladas,porexemplo,aonúmerodemensagenstrocadasaté a resoluçãodoproblema. Essainformaçãoérepresentadapelosegundoeixo dodiagramaque é compostopelonúmero decomentários emtarefas quepossuem pelomenosumdosrótulos apresentadosnoprimeiroeixo associados,ounãopossuem rótulos. Estesforamdivididosem faixas,asquaisforamselecionadascombasenoboxplot denúmerodecomentáriosnastarefas rotuladas. Asfaixas0comments,1comments,2-5comments,5-11commentse12+commentssão baseadasnosquartisdoboxplot.

Otempodeconclusãodastarefasconfiguraoterceiroeixo,oqualseguiacomobaseo boxplotqueexibeotempodeconclusãodastarefasrotuladasousemrótulos.Inicialmenteforam analisadososvaloresquedefiniamumvalorpróximoamédiadosquartisdosboxplots.Entretanto, isso geroufaixas compesos desproporcionais. Assim, esteeixo foisubmetidoaumaetapade pós-processamento,afimderedefinirosvaloresdasfaixasetornaravisualizaçãomaisharmônica econsistente.Otempodeconclusãosãomedidosemdias,evariandode0-10days,11-120days, 201-400days,401-600days,601-800days,801-100days,1001+daysenotclosed,paradenotartarefas queaindanãoforamconcluídas.

Análisesreferentesàcomunicaçãoentredesenvolvedorestambémlevaemcontaquestões qualitativas,queemgeralestãoatreladasaoconteúdodasmensagenstrocadasentredesenvolvedo- res,comoporexemplo,apresençadecódigonasmesmas.Oquartoeúltimoeixobuscamostraras tarefasquetiverampullrequests submetidose/ouaceitosetarefasquepossuemcomentáriose/ou códigonoscomentários.Estasinformaçõesnãoestavamcontidasnacoletainicialdedados,sendo necessáriorequisitá-losatravésdaAPIutilizadaseparadamente. Esteeixosegueumahierarquia quantoaseusnós:primeiramenteforamavaliadosospullrequestsdecadatarefae,casoestaos contenha,abertosoufechados,seuscomentáriosnãoforamanalisados. Casocontrário,foifeita umaanálisenostextosdoscomentários,buscandoamarcaçãoutilizadaparaformatarcódigonos comentáriosdastarefas.

Umponto de atenção sobre o diagramade Sankey é que este não mantém a relação completaporentreoseixosdosdados. Ouseja,oeixosó estádiretamenterelacionadocom os seuseixosvizinhos,enãocomtodososexistentes.Utilizandooresultadogeradocomoexemplo,é tidaarelaçãoentrerótulosenúmerodecomentáriosentretarefas,númerodecomentáriosentre tarefasetempodefechamentodestas,eassimsubsequentemente.Existemoutrastécnicasquesão capazesdemanterarelaçãoenteoseixos,comoatécnicaCoordenadasParalelas(INSELBERG, 2009). Essatécnicaexibeumapolilinhaquecruzaoseixosemumaposiçãoproporcionalaovalor dadimensãoexibidapeloeixo,porémgeramumagrandeoclusãovisualpoisexibiumapolilinha paracadainstânciadosdados. OdiagramaSankeyfoiescolhidopoisevitaaoclusãovisualao usarfluxosqueagrupamasinstâncias.

Todoopré-processamentofoiimplementadoemJavaScript,eosalgoritmosquerealizaram as requisiçõesextras necessáriasforamiplementadosemPython,com a utilizaçãodo módulo

PyGithubpreviamentemencionado.Aferramentautilizadaparaageraçãodavisualizaçãoespera comoestradaumvetorcomsub-vetores,ondeemcadasub-vetorestãocontidososnósdeorigem edestino,bemcomoopesodestarelação.

AFigura3.10mostraoresultadoobtidoapósaaplicaçãodasetapaspreviamentecitadas. Oprimeiropontoaserobservadoéquantoaordenaçãodosnósdentrodeumeixo,poisalguns nãoestãonumericamenteorganizados.Issosedeveaofatodaprópriaferramentarealizaresta organização,ordenandogeralmenteosnósdeformadecrescentedeacordocomopesoqueestes recebem. Talcomportamentovisadiminuiraoclusãovisualqueestatécnicapodegerar.Aversão dinâmicadessavisualizaçãoestálocalizadaem<http://aretha.pro.br/tags/sankey.html>.

Analisandooseixosde formaseparada,eseguindodaesquerdaparaadireita(rótulo, númerodecomentários,tempodeconclusão,pullrequestsecódigonoscomentários),aprimeira inferênciaobtidadizarespeitodousoderótulosnorepositóriodesoftwaredaferramentautilizada. Épossívelnotarqueopesodofluxoquepartedonóqueidentificatarefasnãorotuladasémuito menordoqueasomadosoutrosnós,oqueindicaqueastarefastêmassociadopelomenosum dosrótulosselecionados.

Olhandoparaofluxoporentreosdoisprimeiroeixos,consegue-seperceberque,quando umatarefanãoérotulada,estatendeaterummenornúmerodecomentários,jáqueosmaiores fluxos, que conectam o nó (no label) no primeiro eixo com o segundo eixo de número de comentários,sãoosfluxode2a5comentáriosou1comentário.Analisandoonó5-11comentários nosegundoeixodenúmerodecomentários,percebe-sequeseusmaioresfluxosvemdetarefas rotuladas, porexemplo,bug, 3. toreview,enhancement e0. Needstriage. Essecomportamento evidenciaqueousoderótulosgeramaisdiscussãoentreosprogramadoresembuscadasolução datarefa,oqueéalgopositivo.

Seguindoaanáliseeolhandoparaofluxoquepermeiaosegundoeoterceiroeixo,pode-se notarquemuitastarefascombaixonúmerodecomentários(0a5)fechamematé10dias.Esse comportamentopodedenotarqueestastarefasnãoabordamquestõesmuitocomplexas,porisso sãoconcluídasmaisrapidamente.

Correlacionandootempodeconclusãodastarefascomcaracterísticasreferentesapull requests epresençaounãodecódigoemseuscomentários,temosofluxopresenteentreosdois últimoseixosdodiagramadaSankey. Nota-sequeamaioriadastarefaspossuempullrequests fechados,ou seja,aceitos, eestes porsuavez, partemmajoritariamentedo nóquerepresenta o tempo de conclusãode menos de 10dias. O nó querepresentatarefas semcódigo emseus comentários, está diretamenteligadoa tarefas quenão foramconcluídas, ouque tiveram sua conclusãoemmenosde200dias.Quandoanalisandoonóquerepresentaastarefasquepossuem pullrequest aberto,masnãoaceito,éperceptívelquetodasastarefasqueentramnessacategoria aindanãoforamconcluídas,mostrandoquenesteprojetodesoftwareaconclusãodeumatarefa dependedaimplementaçãoedasubmissãodestecódigoporpartedeumdesenvolvedor.

47 Figura 3.10. Diagrama de Sanke y baseado no uso de rótulos no rep ositório de softwar e Ne xtCloud. O fluxo do diagrama é repr esentado p elas tar efas e seus eixos p or características destas, sendo primeir o alguns rótulos sele cionados, o segundo e o ter ceir o resp ectivamente p elo númer o de comentários e temp o de fe chamento das tar efas, e o quarto p ela pr esença de pull re quest e có digo dos comentários das tar efas. Fonte: A utoria própria (2019).

3.11.

Considerações

Finais

Todoo processo, desde a elaboração dasquestões de pesquisa até a obtençãodos resultados, se mostrou um bastantecomplexo. Sua complexidadese deu pelanecessidade de conhecer o domínio,elaborarasquestõesdepesquisa,estudarsobreaaquisiçãodosdadosequaisinformações estesprovêm.Tambémfoinecessárioanalisarquaistécnicasdevisualizaçãoseriaminteressantes utilizar,pensandoemresponderasquestõespropostas,maslevandoemcontaoformatodosdados obtidos,implementação dosscriptsutilizados, eanálisedasvisualizaçõesobtidas. Alémdisso, naetapadeimplementação,oprocessosedeudeformabastantesequencial, masheterogênea, poisoprocessosegueaordemcoletadosdados,pré-processamento,aquisiçãodavisualizaçãoe pósprocessamento,entretanto,paracadavisualizaçãoosscriptseramdiferentesdeacordocoma necessidade.

ApósaaplicaçãodediversastécnicasdeVisualizaçãodeInformação,paraconjuntosde dadosheterogêneosequedemandaramdiferentesabordagensnaetapadepré-processamento, pode-seperceberquemuitasvezesautilizaçãodeumaúnicatécnicadeVisualizaçãodeDados podenãogarantirinferênciascorretasecoerentes.Assim,éaconselhávelutilizarmaisdeuma técnicaparadiferentescaracterísticasdabasededados,eatémesmoparaumacaracterísticajá analisada,afimdeseobtermaiorcompletudenosresultados.

Aoanalisarquestõesunitáriassobreousoderótulosnastarefasdorepositóriodesoftware daferramentaNextCloud,dentreestasousoderótulosaolongodotempo(Seção3.6),aquantidade de rótulos portarefa (Seção 3.5), o tempo de conclusão das tarefas (Seção 3.7), o número de comentários em tarefas rotuladas (Seção 3.8) e a correlação entre os rótulos (Seção 3.9), foi percebidaanecessidadedeintegraressasinformaçõeseobterresultadosmaiscompletos. Assim, foiimplementadooDiagramadeSankey,Seção3.10,quelevaemcontatodasasoutrastécnicas aplicadasnastomadasdedecisãosobreseuseixoseosvaloresdeseusnós.

Capítulo

4

Conclusão

e

Trabalhos

Futuros

Nestaseçãoseráapresentadoumresumodoestudo,focandonosresultadosobtidoseosassociando comasquestõesdepesquisapropostas.Tambémserãoapresentadostrabalhosfuturosquepodem contribuircomacompletudedeste.

Oprocessoparaaelaboração desteestudose inicioupelaaquisiçãodeconhecimento sobreodomínioutilizado,nocaso,plataformassociaisparaengenhariadesoftware,usoderótulos emprojetosdesoftware,mineraçãoderepositóriosdesoftware,eVisualizaçãode Informação. Apósaconclusãodaetapadeestudo,seiniciouaetapadedefiniçãodametodologiaedasquestões depesquisa,asquaisconsistemem:

• Oprojetofazusoderótulos?

• Otempodevidadeumatarefaéinfluenciadopelorótuloatribuído? • Ousoderótulosmelhoraacomunicaçãoentredesenvolvedores?

• Qualéoefeitoglobaldousoderótulosnotempodeconclusãodastarefas,nacomunicação enaformadaconclusãodastarefas?

Comasquestõesdefinidas,foiiniciadooprocessodeescolhadastécnicasdeVisualização de Dadoseimplementaçãodestas. Astécnicasescolhidasforamstreamgraph,boxplot,grafoe diagramadeSankey,etodaspassaramporumprocessodeaquisiçãodedados,pré-processamento egeraçãodavisualização.

4.1.

Contribuições

Apóstodooprocessodeestudoedesenvolvimentodestetrabalho,analisandoousoderótulosem repositóriosdesoftwarelivre,especificamentenorepositóriodaferramentaNextCloud,hospedado naplataformasocialdedesenvolvimentoGitHub,pode-seconcluirqueacomunidademantenedora doprojetosepreocupacomousoderótulosemsuastarefas,frequentementeassociandomaisde

umrótuloaumamesmatarefa.EstaconclusãofoibaseadanosresultadosobtidosnasSeções3.6, 3.5e3.10,ondeforamimplementadasastécnicasdeVisualizaçãodeInformaçãostreamgraph,box plot daquantidadederótulosportarefaediagramadeSankey,respectivamente.

Analisandootempodeconclusãodeumatarefaeocorrelacionandoaousoderótulos, pode-seperceberquetarefasnão rotuladastendemaserconcluídasmaisrapidamente. Talvez estefatoestejadiretamenteligadoacomplexidadetécnicadestatarefa,sendoesta tãosimples quenãohouveanecessidadedoempregodeumrótuloàmesma.Esteindícioestádiretamente ligadaaoresultadoapresentadonaSeção3.7,ondefoiimplementadoumboxplotcomotempode conclusãodastarefasdeacordocomcadarótulos,eparatarefasnãorotuladas.

Quandoacontribuiçãoqueosrótulospodemterquantoàcomunicaçãoentredesenvol- vedores,foipossívelperceberquetarefasrotuladaspossuemmaiornúmerodecomentáriosdo quenãorotuladas. EstesresultadosestãocontidosnaSeção3.8,ondeforamgeradosdoisboxplots, paratarefasrotuladasenãorotuladas,comaentradadedadosreferenteaonúmerodecomentários portarefa.

Afimdeanalisaracoocorrênciaderótulosemtarefasemumdadorepositório,ouseja, rótulosutilizadosemconjuntoemumaúnicatarefa,foiimplementadoumavisualizaçãobaseada emgrafos.NografoapresentadonaSeção3.9,osrótulossãorepresentadospelosnósdografoe suascoocorrênciaspelasarestas.Percebe-sequeografoapresentadoéaltamenteconectado,o quedenotaumatendênciadenacomunidadedoNextCloud,deusarmaisdeumrótuloportarefa. Olhandoparaaáreacentraldografo,épossívelperceberquealgunsdosrótulosmaisfrequentes quepossuemaltacorrelação,comoporexemploosrótulosbug,enhancement,3.toreviewe1.to develop.

Correlacionandotodososresultadosobtidosatravésdaimplementaçãododiagramade Sankey, explicitadonaSeção3.10,foipossível analisarcaracterísticasde tarefasquepossuem algunsrótulosespecíficosassociados.Estesrótulosforamescolhidosatravésdaanálisedasoutras visualizaçõesimplementadas,levandoemcontaasmaioresfrequênciasdeuso,consistênciadeuso nodecorrerdoprojeto,tempodeconclusãoecorrelaçãoentreestes. Alémdisso,foramincluídas tarefasquenãopossuemnenhumrótuloassociado. Assim,foipossívelconfirmarqueastarefasnão rotuladaspossuemummenornúmerodecomentários,bemcomotarefascompoucoscomentários sãoconcluídasmaisrapidamente.Istopodedenotarquetarefassemrótulosassociadossãomais simplesegeralmenterequerempoucacomunicaçãoentreosdesenvolvedores,assimcomotarefas compoucoscomentários(entre0e5),poisestastendemaseremconcluídasmaisrapidamente.

Analisandoaformadeconclusãodastarefas,foinotadoqueamaioriadastarefaspossuem pullrequestaceitos,eestessãoprovidosmajoritariamentedetarefasconcluídasematé10dias. Poucastarefastempullrequestsnão-concluídos,oquepodedenotarpreocupaçãoporpartedos mantenedores doprojetodeaceitar ospullrequests rapidamente. Oúltimopontoanalisado, a presença de códigoemcomentários, mostrou que grandepartedastarefas não possuem esta característica.

51

4.2.

Trabalhos

Futuros

Ospassosparadarcontinuidadeaessetrabalhoestãorelacionadosàslimitaçõesidentificadasea investigaçãoeincorporaçãodealgumasideiasquesurgiramnodecorrernapesquisa,masque nãoforamincluídasnessetrabalho.Aseguir,algunsdessespassossãobrevementediscutidos:

• Agrupar rótuloscom funçõessemelhantes nas visualizações. Os seguintes rótulos, por exemplo,‘feature:search’,‘feature:emails’e‘feature:logging’poderiamseragrupadosemum únicorótulochamado‘feature’;

• Adiçãodepesoparaosnósdografo,afimderepresentarafrequênciadeusodosrótulos; • Usode umabibliotecaquepermitisseavisualizaçãodo grafodecoocorrênciaderótulos

pormeiodeumarquivoHTMLparamanter omesmoformatodearquivopara todasas visualizaçõesesemousodeumaferramentaexterna;

• IncluirfunçãoparapermitirreordenaçãodoseixosnodiagramaSankeyparamelhoranálise; einclusãoouremoçãodecaracterísticasselecionadasparaseremmapeadasparaeixosno diagramaSankey.

• Replicarametodologiaeimplementaçãoparaoutrosrepositóriosdesoftware;

• Ferramentaparaautomatizarageraçãoeexibiçãodasvisualizaçõesapenaspelaseleçãodo repositórioaseranalisado.

ALENCAR,ArethaBarbosa.Visualizaçãodaevoluçãotemporaldecoleçõesdeartigoscientíficos.Tese (Doutorado)—InstitutodeCiênciasMatemáticasedeComputação-ICMC-USP,SãoCarlos-SP, Brasil,122013.

BENJAMINI, Yoav.Openingthe boxofa boxplot.TheAmerican Statistician, Taylor&Francis Group,v.42,n.4,p.257–262,1988.

CARD,S.K.;MACKINLAY,J.D.;SHNEIDERMAN,B.(Ed.).Readingsininformationvisualization: usingvisiontothink.SanFrancisco,CA,EUA:MorganKaufmann,1999.712p.ISBN1-55860-533-9. CHEN,C.InformationVisualization:BeyondtheHorizon.Secaucus,NJ,EUA:Springer-Verlag,2006. ISBN184628340X.

FAYYAD,U.;PIATETSKY-SHAPIRO,G.;SMYTH,P.Fromdataminingtoknowledgediscoveryin databases.AIMagazine,AssociationfortheAdvancementofArtificialIntelligence(AAAI),Palo Alto,CA,EUA,v.17,n.3,p.37–54,set.–dez.1996.ISSN0738-4602.

FEOFILOFFY.KOHAYAKAWA,Y.WakabayashiP.Umaintroduçãosucintaàteoriadosgrafos. IMEUSP,2011.

HASSAN, AhmedE. The road ahead formining softwarerepositories. 2008 IEEE Frontiers of SoftwareMaintenance,IEEE,v.1,p.48–57,2008.

HAVRE,Susan;HETZLER,Beth;NOWELL,Lucy.Themeriver: Visualizingthemechangesover time.In: ProceedingsoftheIEEESymposiumonInformationVizualization.Washington,DC,EUA: IEEEComputerSociety,2000.p.115–.ISBN0-7695-0804-9.

HEMMATI,Hadi;NADI,Sarah;BAYSAL,Olga;KONONENKO,Oleksii;WANG,Wei;HOLMES, Reid; GODFREY, Michael W.; CHERITON, David R.The msr cookbook: Mining a decade of research. 2013 10th Working Conference onMining Software Repositories (MSR), IEEE, v. 10, p. 343–352,2013.

INSELBERG,Alfred.ParallelCoordinates: VisualMultidimensionalGeometryandItsApplications. Berlin,Heidelberg:Springer-Verlag,2009.ISBN0387215077.

IZQUIERDO,JavierLuisCánovas;COSENTINO,Valerio;ROLANDI,Belén;BERGEL,Alexandre; CABOT,Jordi.Gila:Githublabelanalyzer.2015IEEE22ndInternationalConferenceonSoftware Analysis,Evolution,andReengineering(SANER),IEEE,v.22,p.479–483,2015.

JACOMYSEBASTIENHEYMANN,TommasoVenturiniMathieuBastianMathieu.Forceatlas2,a continuousgraphlayoutalgorithmforhandynetworkvisualization.UniversitePierreetMarie Curie,2012.

53

KALLIAMVAKOU,Eirini;SINGER,Leif;GOUSIOS,Georgios;GERMAN,DanielM.;BLINCOE, Kelly;DAMIAN,Daniela.Thepromisesandperilsofmininggithub.MSR2014Proceedingsofthe 11thWorkingConferenceonMiningSoftwareRepositories,MSR,v.11,p.92–101,2014.

KIKAS,Riivo;DUMAS,Marlon;PFAHL,Dietmar.Issuedynamicsingithubprojects.2015Product- FocusedSoftwareProcessImprovement,Springer,v.9459,p.295–310,2015.

LIAO,Zhifang;HE,Dayu;CHEN,Zhijie;FAN,Xiaoping;ZHANG,Yan;LIU,Shengzong.Exploring thecharacteristicsofissue-relatedbehaviorsinGitHubusingvisualizationtechniques.IEEEAccess, IEEE,v.6,p.24003–24015,2018.

NAYEBI,Maleknaz;KABEER,ShaikhJeeshan;RUHE,Guenther;CARLSON,Chris;CHEW,Francis. Hybridlabelsarethenewmeasure.201835ndIEEESoftware,IEEE,v.35,p.54–57,2017.

OLIVEIRA,M.C.F.;LEVKOWITZ,H.Fromvisualdataexplorationtovisualdatamining:asurvey. IEEETransactionsonVisualizationandComputerGraphics,IEEEComputerSociety,LosAlamitos, CA,EUA,v.9,n.3,p.378–394,jul.–set.2003.ISSN1077-2626.

RIEHMANN,Patrick;HANFLER,Manfred;FROEHLICH,Bernd.Interactivesankeydiagrams.IEEE SymposiumonInformationVisualization,2005.INFOVIS2005.,p.233–240,2005.

SPENCE,R.InformationVisualization:DesignforInteraction.2ed..ed.Harlow,Inglaterra: Prentice Hall,2007.304p.ISBN978-0132065504.

THOMAS,J.J.;COOK,K.A.Avisualanalyticsagenda.IEEEComputerGraphicsandApplications, IEEEComputerSocietyPress,LosAlamitos,CA,EUA,v.26,n.1,p.10–13,jan.2006.ISSN0272-1716.

Documentos relacionados