Uso de resumos gráficos baseados em mapas conceituais para apoiar a seleção de estudos primários no processo de revisão sistemática na engenharia de software: replicações de um experimento controlado

(1)

PROGRAMA DE P ´

OS-GRADUAC

¸ ˜

AO EM INFORM ´

ATICA

ALEX FERNANDO BONORA

USO DE RESUMOS GR ´

AFICOS BASEADOS EM MAPAS

CONCEITUAIS PARA APOIAR A SELEC

¸ ˜

AO DE ESTUDOS

PRIM ´

ARIOS NO PROCESSO DE REVIS ˜

AO SISTEM ´

ATICA NA

ENGENHARIA DE SOFTWARE: REPLICAC

¸ ˜

OES DE UM

EXPERIMENTO CONTROLADO

DISSERTAC

¸ ˜

AO

CORN ´ELIO PROC ´OPIO, PR

(2)

USO DE RESUMOS GR ´

AFICOS BASEADOS EM MAPAS

CONCEITUAIS PARA APOIAR A SELEC

¸ ˜

AO DE ESTUDOS

PRIM ´

ARIOS NO PROCESSO DE REVIS ˜

AO SISTEM ´

ATICA NA

ENGENHARIA DE SOFTWARE: REPLICAC

¸ ˜

OES DE UM

EXPERIMENTO CONTROLADO

Dissertação apresentada ao Programa de Pós-graduação em Informática da Universidade Tecnológica Federal do Paraná como requisito parcial para obtenção do grau de “Mestre Profissional em Informática” – Area´ de Concentração: Engenharia de Software.

Orientador: ProfaDraKatia Romero Felizardo

CORN ´ELIO PROC ´OPIO, PR

(3)

Uso de resumos gráficos baseados em mapas conceituais para apoiar a seleção de estudos primários no processo de revisão sistemática na engenharia de software : replicações de um experimento controlado / Alex Fernando Bonora. – 2019.

68 f. : il.; 31 cm.

Orientadora: Katia Romero Felizardo Scannavino.

Dissertação (Mestrado) – Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Informática. Cornélio Procópio, 2019.

Bibliografia: p. 64-68.

1. Resumos. 2. Gráficos em engenharia. 3. Engenharia de software. 4. Informática – Dissertações. I. Scannavino, Katia Romero Felizardo, orient. II. Universidade Tecnológica Federal do Paraná. Programa de Pós-Graduação em Informática. III. Título.

CDD (22. ed.) 004 Biblioteca da UTFPR - Câmpus Cornélio Procópio

Bibliotecário/Documentalista responsável: Romeu Righetti de Araujo – CRB-9/1676

(4)

Câmpus Cornélio Procópio

Programa de Pós-Graduação em Informática

Av. Alberto Carazzai, 1640 - 86.300-000- Cornélio Procópio – PR.

Tel. +55 (43) 3520-4055 / e-mail: ppgi-cp@utfpr.edu.br / www.utfpr.edu.br/cornelioprocopio/ppgi

Título da Dissertação Nº 59:

“

USO DE RESUMOS GRÁFICOS BASEADOS EM MAPAS

CONCEITUAIS PARA APOIAR A SELEÇÃO DE ESTUDOS

PRIMÁRIOS NO PROCESSO DE REVISÃO SISTEMÁTICA NA

ENGENHARIA DE SOFTWARE: REPLICAÇÕES DE UM

EXPERIMENTO CONTROLADO

”.

por

Alex Fernando Bonora

Orientadora: Profa. Dra. Katia Romero Felizardo Scannavino

Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM INFORMÁTICA – Área de Concentração: Computação Aplicada, pelo Programa de Pós-Graduação em Informática – PPGI – da Universidade Tecnológica Federal do Paraná – UTFPR – Câmpus Cornélio Procópio, às 13h30 do dia 06 de junho de 2019. O trabalho foi _____________ pela Banca Examinadora, composta pelos professores:

__________________________________

Prof. Dr. Willian Massami Watanabe (Presidente – UTFPR-CP)

__________________________________

Prof. Dr. Eduardo Cotrin Teixeira (UTFPR-CP)

_______________________________________ Prof. Dr. Edson Alves de Oliveira Junior

(UEM)

Participação à distância via ______________

Visto da coordenação: __________________________________

Danilo Sipoli Sanches

Coordenador do Programa de Pós-Graduação em Informática UTFPR Câmpus Cornélio Procópio

(5)

(6)

Em primeiro lugar agradeço à Deus pela oportunidade concedida e pela minha saúde. Aos meus pais e irmãos pelo incentivo e apoio incondicional.

Aos colegas Andr´e, Eduardo, Glauco, Luis, Marco e Anderson, que tornaram nossas viagens mais divertidas e motivantes.

Aos meus l´ıderes no trabalho, Frei Jac´o, Frei Tarc´ısio e Helton, pela compreens˜ao e apoio.

`

A instituic¸˜ao UTFPR por ofertar este curso, com recursos humanos e materiais adequados para o enriquecimento do conhecimento com dignidade.

`

A todos os professores pelo comprometimento com a evoluc¸˜ao do conhecimento.

`

A minha orientadora ProfaDraKatia Felizardo que, com muita sabedoria, paciência e generosidade soube me conduzir pelos caminhos da construção deste trabalho.

(7)

(8)

BONORA, Alex. USO DE RESUMOS GR ÁFICOS BASEADOS EM MAPAS CONCEITUAIS PARA APOIAR A SELEÇ ÃO DE ESTUDOS PRIM ÁRIOS NO PROCESSO DE REVIS ÃO SISTEM ÁTICA NA ENGENHARIA DE SOFTWARE: REPLICAÇ ÕES DE UM EXPERIMENTO CONTROLADO. 68 f. Dissertação – Programa de Pós-graduação em Informática, Universidade Tecnológica Federal do Paraná. Cornélio Procópio, PR, 2019.

Contexto: Este trabalho está inserido no contexto da Engenharia de Software Baseada em Evidência, mais especificamente na temática de Revisão Sistemática da Literatura (RSL), com foco no processo de seleção de estudos, que envolve, em primeira instância, a leitura dos resumos de tais estudos. Lacuna: A baixa qualidade dos resumos é uma ameaça ao processo de seleção de estudos, uma vez que isso acarreta uma falta de informações para julgar a relevância do estudo para uma dada RSL. Uma alternativa para melhorar a qualidade dos resumos é adotar resumos gráficos. O uso desse tipo de resumo já foi proposto, porém há pouca evidência para avaliar o seu uso; apenas um experimento controlado foi executado. Objetivo: Objetiva-se neste trabalho executar replicações de um experimento controlado utilizando resumos gráficos representados por mapas conceituais (MCs), a fim de gerar conhecimento a respeito do uso desses resumos para apoiar a seleção de estudos na RSL. Método: Foram adotados o mesmo projeto experimental e materiais do experimento original. Resultados: Evidências foram geradas a respeito do uso de resumos gráficos representados por MCs para apoiar a seleção de estudos primários no processo de RSL na Engenharia de Software. Além disso, foi poss´ıvel constatar que o uso de resumos gráficos contribui de forma positiva na atividade de seleção de estudos no processo de RSL. Conclusão: A utilização dos resumos gráficos tende a melhorar o desempenho e a efetividade na atividade de seleção de estudos, além de torná-la mais motivante e menos cansativa.

(9)

BONORA, Alex. USING GRAPHICAL ABSTRACT BASED ON CONCEPTUAL MAPS TO SUPPORT THE SELECTION OF PRIMARY STUDIES IN SYSTEMATIC REVIEW PROCESS IN SOFTWARE ENGINEERING: REPLICATION OF A CONTROLLED EXPERIMENT. 68 f. Dissertação – Programa de Pós-graduação em Informática, Universidade Tecnológica Federal do Paraná. Cornélio Procópio, PR, 2019.

Background: This study is inserted in Evidence-Based Software Engineering context, specifically in Systematic Literature Review (SLR) thematic, focusing on the studies selecting process. It involves in a first instance the reading of abstract’s studies. Gap: The lack of abstracts quality makes it difficult to select studies, since there is few information to judge the relevance of a study for an SLR. An alternative to improve the abstracts quality is to adopt graphical abstracts. The use of this type of abstracts have been proposed, but only one controlled experiment was executed. Objective: This work aims to perform replications of a controlled experiment using graphical abstracts based on conceptual maps (CM), in order to generate knowledge regarding the use of these abstracts to support studies selection. Method: The same experimental design and materials from the original experiment were adopted. Results: Evidence on the use of graphical abstracts represented by CMs to support the studies selection in the SLR process in Software Engineering was generated. In addition, it was possible to verify that the use of graphic summaries contributes positively to the study selection activity in the SLR process. Conclusion: The use of graphical abstracts tends to improves the performance and effectiveness of the study selection activity, as well as making it more motivating and less tiring.

(10)

–

FIGURA 1 Exemplo de mapa conceitual . . . 20 –

FIGURA 2 Selec¸˜ao de estudos . . . 28 –

FIGURA 3 Média anual de replicações por área . . . 32 –

FIGURA 4 M´edia anual dos m´etodos replicados . . . 33 –

FIGURA 5 Taxa de confirmação dos resultados das replicações em relação aos experimentos originais . . . 34 –

FIGURA 6 Modelo para apoiar a criação de resumos gráficos . . . 37 –

FIGURA 7 Projeto experimental . . . 39 –

FIGURA 8 Motivação dos participantes lendo resumos textuais – Replicações 1–5 . . . 55 –

(11)

–

TABELA 1 Proposta de taxonomia . . . 22 –

TABELA 2 Adoção dos critérios PICO . . . 25 –

TABELA 3 Termos derivados do PICO . . . 25 –

TABELA 4 Termos derivados de palavras encontradas em estudos relevantes . . . 26 –

TABELA 5 Concatenac¸˜ao de palavras alternativas utilizando operador OU (OR) . . . 26 –

TABELA 6 Concatenac¸˜ao de todas as palavras poss´ıveis utilizando o operador E (AND) 27 –

TABELA 7 Estudos inclu´ıdos no processo de selec¸˜ao inicial . . . 29 –

TABELA 8 Estudos inclu´ıdos no processo de selec¸˜ao final . . . 30 –

TABELA 9 Formulário de extração de dados . . . 31 –

TABELA 10 Resumo dos resultados do experimento original de Takemiya (2017) . . . 41 –

TABELA 11 Replicac¸˜oes realizadas e quantidade de participantes por grupo . . . 43 –

TABELA 12 Resumo dos resultados das replicac¸˜oes . . . 44 –

TABELA 13 Parâmetros de definição de Cohen’s . . . 45 –

TABELA 14 Resultados para o teste de Mann-Whitney – replicac¸˜oes . . . 45 –

TABELA 15 Comparativo de desempenho (tempo) . . . 46 –

TABELA 16 Comparativo de efetividade . . . 47 –

TABELA 17 Comparativo de desempenho – n´ıvel de formac¸˜ao . . . 49 –

TABELA 18 Comparativo de efetividade – n´ıvel de formac¸˜ao . . . 50 –

TABELA 19 Comparativo de desempenho – autoavaliac¸˜ao . . . 51 –

TABELA 20 Comparativo de efetividade – autoavaliac¸˜ao . . . 52 –

TABELA 21 Teste de Kruskal Wallis . . . 52 –

TABELA 22 Coeficiente de correlac¸˜ao de Spearman . . . 53 –

TABELA 23 Resumo dos resultados das questões qualitativas – motivação . . . 56 –

TABELA 24 Parte dos dados brutos: documentos classificados corretamente pelos participantes . . . 57 –

TABELA 25 Parte dos dados brutos: estudos classificados incorretamente pelos participantes . . . 58 –

TABELA 26 Resumo dos resultados: replicac¸˜ao 6 . . . 59 –

(12)

ESBE Engenharia de Software Baseada em Evidência RSL Revisão Sistemática da Literatura

RS Revisão Sistemática MS Mapeamento Sistemático ES Engenharia de Software MC Mapa Conceitual MA Mapa de Argumento MDC Mapa de Conhecimento MM Mapa Mental NP Nuvem de Palavra

IHMC Institute for Human and Machine Cognition CC Ciência da Computação

QP Quest˜ao de Pesquisa

(13)

1 INTRODUC¸ ˜AO . . . 13

1.1 MOTIVAC¸ ˜AO . . . 16

1.2 CEN ´ARIO DE PESQUISA . . . 17

1.3 OBJETIVOS . . . 18

1.4 ORGANIZAC¸ ˜AO DO TEXTO . . . 18

2 FUNDAMENTAÇ ÃO TE ÓRICA . . . 19

2.1 MAPAS CONCEITUAIS . . . 19

2.2 REPLICAC¸ ˜AO . . . 21

2.3 ESTUDO TERCI ÁRIO SOBRE REPLICAÇ ÕES DE EXPERIMENTOS NA ES . . . 23

2.3.1 ETAPA DE PLANEJAMENTO . . . 24

2.3.1.1 QUEST ˜OES DE PESQUISA . . . 24

2.3.1.2 BUSCA POR LITERATURA RELEVANTE . . . 25

2.3.1.3 ESTRAT ´EGIA DE BUSCA . . . 26

2.3.2 CRIT ÉRIOS DE SELEÇ ÃO DE ESTUDOS . . . 27

2.3.2.1 Processo de Selec¸˜ao Inicial . . . 29

2.3.2.2 Processo de Selec¸˜ao Final . . . 30

2.3.3 ESTRAT ÉGIA DE EXTRAÇ ÃO E SÍNTESE DOS DADOS . . . 30

3 EXPERIMENTO ORIGINAL: MCS PARA APOIAR A SELEC¸ ˜AO DE ESTUDOS . . . 35

3.1 PACOTE DE LABORAT ´ORIO DO EXPERIMENTO ORIGINAL . . . 38

3.2 CONDUC¸ ˜AO E RESULTADOS DO EXPERIMENTO ORIGINAL . . . 40

4 REPLICAC¸ ˜OES DO EXPERIMENTO ORIGINAL . . . 43

4.1 VIS ˜AO GERAL DOS RESULTADOS . . . 43

4.2 COMPARANDO OS RESULTADOS DAS REPLICAC¸ ˜OES COM OS RESULTADOS DO EXPERIMENTO ORIGINAL . . . 45

4.3 DISCUSS ˜AO . . . 57

4.4 AMEAC¸ AS `A VALIDADE . . . 61

5 CONCLUS ˜OES . . . 62

5.1 PUBLICAC¸ ˜OES . . . 63

(14)

1 INTRODUC¸ ˜AO

O paradigma baseado em evidências tem como objetivo coletar e analisar sistematicamente dados experimentais dispon´ıveis sobre um determinado tema de pesquisa (KITCHENHAM, 2004). Na Engenharia de Software Baseada em Evidência (ESBE), a Revisão Sistemática da Literatura (RSL), também conhecida como Revisão Sistemática (RS), e o Mapeamento Sistemático (MS). Destacam-se como métodos que sumarizam estudos primários (KITCHENHAM; CHARTERS, 2007b; PETERSEN et al., 2008). Exemplos de estudos primários são os surveys, os experimentos controlados e os estudos de casos. A sumarização de estudos primários é realizada por meio de RSLs e MSs, considerados estudos secundários (KITCHENHAM; CHARTERS, 2007b; KITCHENHAM et al., 2015).

Os estudos secundários foram adotados como método de pesquisa na ESBE no ano de 2004, com o trabalho de Kitchenham (2004), que estabeleceu os procedimentos para a condução desses estudos, motivando o seu uso na comunidade da Engenharia de Software (ES). A divulgação desse trabalho proporcionou a condução de inúmeras RSLs em diferentes áreas e temas da ES (CARVER et al., 2013; KITCHENHAM; BRERETON, 2013; HEATON; CARVER, 2015; SOOMRO et al., 2016; VURAL et al., 2017; RAMIREZ et al., 2018; GAROUSI et al., 2019).

O processo de condução de uma RSL envolve três etapas: planejamento, execução e s´ıntese dos resultados. O planejamento abrange atividades como a identificação da necessidade de uma revisão e a criação do protocolo. O protocolo contém, entre outros itens, os procedimentos necessários para a execução da revisão, as questões de pesquisa, estratégias de busca e seleção dos estudos, os critérios de inclusão e exclusão, critérios de qualidade e formulários ou planilhas que auxiliam na extração dos dados dos estudos identificados como relevantes. A etapa de execução tem como finalidade a obtenção e análise de estudos primários e envolve as atividades de seleção dos estudos candidatos e extração de dados dos estudos inclu´ıdos. A seleção é conduzida em três fases, seleção inicial, seleção final e revisão da seleção. Durante a seleção inicial, os t´ıtulos e os resumos dos estudos candidatos são lidos e classificados como inclu´ıdos ou exclu´ıdos, através da aplicação de critérios de inclusão e exclusão. Na

(15)

seleção final, os estudos inclu´ıdos na fase anterior são lidos na ´ıntegra, e novamente os critérios de inclusão e exclusão são aplicados. Se necessário, novos critérios podem ser elaborados especificamente para a fase de seleção final. Durante a revisão da seleção, a classificação de pelo menos trinta por cento (30%) dos estudos é reavaliada (KITCHENHAM et al., 2015) para garantir que somente estudos relevantes foram inclu´ıdos, e que os estudos exclu´ıdos são de fato irrelevantes no contexto da revisão. A atividade de extração de dados dos estudos inclu´ıdos é aplicada após a seleção final e consiste em extrair dados que respondam às questões de pesquisa. Na etapa de s´ıntese dos resultados é realizada a sumarização dos dados dos estudos que satisfaçam ao escopo da revisão e a consequente divulgação dos resultados em eventos como congressos, conferências, entre outros (KITCHENHAM et al., 2004; KITCHENHAM; CHARTERS, 2007b).

O processo de MS segue procedimentos similares aos da RSL, com algumas particularidades. A RSL possui questões de pesquisas mais precisas, focadas em um ponto espec´ıfico de uma área de estudo. Por outro lado, no MS as questões de pesquisas são mais abrangentes e têm como finalidade obter uma visão geral sobre um tema de pesquisa, fornecendo também um indicador quantitativo das evidências coletadas. Com relação à atividade de extração de dados, no MS essa atividade ocorre de forma abrangente e busca a classificação dos dados obtidos; já na RSL, a extração é mais minuciosa e envolve mensuração de qualidade dos estudos analisados (KITCHENHAM, 2004; KITCHENHAM; CHARTERS, 2007b; PETERSEN et al., 2008). Os resultados de um MS podem identificar áreas pertinentes para a realização de RSLs e áreas em que seja mais adequada a realização de novos estudos primários (KITCHENHAM, 2004; KITCHENHAM; CHARTERS, 2007b; KITCHENHAM et al., 2015).

Uma das ameaças ao processo de RSL encontra-se na etapa de seleção de estudos relevantes. Como mencionado anteriormente, durante a primeira fase da seleção, critérios de inclusão e exclusão são aplicados com base na leitura dos resumos dos estudos. No entanto, de maneira geral em ES, há falta de informações importantes nesses resumos, como o método adotado no estudo (HASSLER et al., 2014; MARSHALL et al., 2018).

Uma alternativa para minimizar esse problema é a utilização de resumos gráficos (TAKEMIYA, 2017). Em recentes esforços de pesquisa, Takemiya (2017) propôs o uso de resumos gráficos utilizando mapas conceituais (MCs) para apoiar a atividade de seleção de estudos. O uso de resumos gráficos foi inicialmente validado por meio de um estudo de viabilidade, doravante chamado de estudo original ou experimento original. Apesar da pouca validação proveniente do estudo original, os resultados promissores motivaram a continuação da

(16)

pesquisa, assim, este projeto visa avaliar experimentalmente a alternativa proposta pela autora. Vale destacar que uma limitação do estudo original é a pequena amostra de participantes. Dessa forma, os resultados não foram analisados estatisticamente.

A execução de um experimento, como o realizado no estudo de Takemiya (2017), ganha relevância e justifica-se na afirmação de Travassos et al. (2002) de que a experimentação oferece um modo sistemático, disciplinado, computável e controlado para a avaliação da atividade humana. O método experimental sugere o modelo, desenvolve o método qualitativo e/ou quantitativo, aplica um experimento, mede e analisa, avalia o modelo e o repete. Para realizar a validação dos resultados dos experimentos e sua consequente geração de evidências, replicações são recomendadas. Segundo SHULL et al. (2002), o verdadeiro objetivo da pesquisa experimental em ES não deve ser a execução de estudos individuais, mas desenvolver uma melhor compreensão do tema a fim de consolidar um corpo de conhecimento. Um caminho para essa realização é a execução do estudo em uma variedade de ambientes, ou seja, a replicação do estudo. A diversidade no local de cada replicação é uma caracter´ıstica importante de qualquer experimento e é a base para a credibilidade e a aprendizagem. Estudos complementares replicados permitem aos investigadores combinarem conhecimento diretamente ou através de meta-análise, além de permitirem conclusões mais robustas, caso os resultados sejam parecidos, ou ainda a identificação de limitações a respeito do tema abordado.

Apoiando a afirmação de Shull et al. (2002), Carver et al. (2014) destacam que a replicação é uma parte essencial do paradigma experimental e é considerada a pedra angular do conhecimento cient´ıfico. Uma afirmação constante na literatura sobre replicações em ES é que a execução de um experimento em condições adversas a sua aplicação original é determinante para comprovação dos objetivos da pesquisa. Esses mesmos autores afirmam que os experimentos precisam ser replicados em diferentes contextos, em diferentes momentos e sob diferentes condições, antes que eles possam produzir conhecimento. Carver et al. (2014) definem como sendo uma repetição deliberada de um estudo primário com vista a determinar se os resultados desse primeiro experimento podem ser reproduzidos.

As replicações podem ser incentivadas pela disponibilidade de pacotes de laboratório que documentam um experimento (SHULL et al., 2002). O pacote de laboratório descreve o experimento em termos espec´ıficos e fornece materiais para a sua replicação, destaca oportunidades de variação, e cria um contexto para a combinação de resultados.

O cenário descrito anteriormente ratifica a importância das replicações para avançar o paradigma de pesquisa experimental em ES. Assim, neste trabalho foram conduzidas replicações do experimento executado por Takemiya (2017), que será explicado em detalhes

(17)

no Cap´ıtulo 3, para gerar evidˆencias e construir um corpo de conhecimento sobre o uso de resumos gr´aficos no contexto de RSL na ES.

1.1 MOTIVAC¸ ˜AO

Devido à natureza rigorosa dos estudos secundários, pesquisas têm sido realizadas na busca por práticas que contribuam para o aprimoramento do processo de RSL (RIAZ et al., 2010; FELIZARDO et al., 2011; ZHANG; MUHAMMAD, 2012; CARVER et al., 2013; KITCHENHAM; BRERETON, 2013; FABBRI et al., 2013; HASSLER et al., 2014). Uma dificuldade comumente encontrada é a seleção de estudos primários, principalmente quando o pesquisador se depara com grandes volumes de estudos para serem selecionados através da aplicação dos critérios de inclusão e exclusão em cada um deles. Extrair informações relevantes dos estudos tem se tornado progressivamente mais dif´ıcil, principalmente devido ao aumento na quantidade de informações disponibilizadas em formato digital (KEIM, 2002). Alguns estudos constataram que um número expressivo de publicações da ES contém resumos que omitem informações importantes e incluem outras irrelevantes. Aspectos como esses dificultam ainda mais o processo de seleção, uma vez que a seleção inicial dos estudos tem como base a leitura do t´ıtulo e do resumo (HASSLER et al., 2014). Dessa forma, considera-se imprescind´ıvel desenvolver estratégias que contribuam para melhorar a qualidade dos resumos na ES. Uma potencial solução para promover essa melhoria é a utilização de resumos estruturados e gráficos.

Resumos estruturados baseiam-se na utilização de um conjunto de seções como contexto, objetivo, método, resultados e conclusões, que orientam o pesquisador na escrita do resumo. Os resumos estruturados quando comparados aos resumos tradicionais, possuem as seguintes vantagens (KITCHENHAM et al., 2008): (i) facilitam a busca por estudos relevantes; (ii) são mais fáceis de serem lidos; (iii) informam com mais exatidão o conteúdo de um artigo e (iv) incluem mais informações. Contudo, apesar das vantagens do resumo estruturado, pesquisadores que conduzem estudos secundários ainda se deparam com uma grande quantidade de estudos para serem lidos e analisados.

Os resumos gráficos apresentam o conteúdo de um artigo de forma concisa através de uma imagem e proporcionam ao leitor a identificação mais rápida da mensagem principal de um estudo, instigando-o à leitura do texto completo. É fato que os seres humanos têm fortes habilidades de processamento visual e que as representações visuais, como os resumos gráficos, podem ser exploradas para apoiar a descoberta de conhecimento (KEIM; KRIEGEL, 2006).

(18)

et al., 2011). No entanto, as orientações atuais para a elaboração dos resumos gráficos se limitam às informações técnicas como, tamanho da figura, número m´ınimo de pixels, resolução de tela adequada e tipos de arquivos (TIFF, EPS, PDF ou MS Office). Jarvenpaa (1985) afirma que as representações visuais são as mais indicadas para resumir dados. Dyb˚a e Cruzes (2010) investigaram o uso de representações visuais aplicadas à fase de sumarização (s´ıntese de dados) do processo de RSL, contudo, existe uma carência de pesquisas que investiguem a aplicação dessas representações relacionadas a elaboração de resumos gráficos com a finalidade de apoiar a atividade de seleção no processo de RSL. Nesse sentido, o MC apresenta-se como uma alternativa para representar o conhecimento e recuperar informações (NOVAK; GOWIN, 1984). Outras representações gráficas poderiam ser adotadas, como Mapas de Argumentos (MAs) (DAVIES, 2011), Mapas de Conhecimento (MDCs) (O’DONNELL et al., 2002), Mapas Mentais (MMs) (ZHANG et al., 2010) e Nuvens de Palavras (NPs) (HEIMERL et al., 2014). No entanto, apenas os MCs são diagramas de significados, ou seja, de relações significativas, e até mesmo de hierarquias conceituais.

Replicar o estudo original de Takemiya (2017), que sugere o uso de MCs para apoiar a seleção de estudos é determinante para estabelecer sua validação e gerar evidências, pois de acordo com SHULL et al. (2002), um estudo produz conhecimento, validade e credibilidade após replicações.

1.2 CEN ´ARIO DE PESQUISA

A presente proposta está estreitamente relacionada à área de ES e ESBE, podendo-se destacar no cenário mundial instituições de pesquisa como a Universidade de Keele (Reino Unido), a Universidade de Auckland (Nova Zelândia), National ICT (Austrália), a Universidade de Trodheim (Noruega) e o Laboratório de Pesquisa Simula (Noruega). O Laboratório Simula é uma das principais instituições de ES em termos de pesquisa e conduções de estudos secundários (KITCHENHAM et al., 2009). No Brasil, a COPPE/UFRJ tem liderado essas iniciativas.

Com relação aos MCs, há um grupo de pesquisa organizado pelo Instituto de Cognição de Máquina e Humana (IHMC – Institute for Human and Machine Cognition) que conta com o apoio do idealizador dos MCs, Novak, para a organização da conferência internacional sobre MCs. Com realização a cada dois anos, a conferência divulga trabalhos relacionados ao tema e tem como principal objetivo incentivar o uso dos MCs na comunidade acadêmica e industrial.

(19)

1.3 OBJETIVOS

´

E evidente o desafio de selecionar estudos relevantes de um determinado conjunto de estudos. Estratégias que agreguem conceitos de visualização poderiam auxiliar essa atividade. Até o presente momento o uso de resumos gráficos no contexto de estudos secundários na ES foi pouco validado. Baseado nas observações apresentadas, este trabalho tem como objetivo gerar evidências para construir um corpo de conhecimento a respeito do uso de resumos gráficos baseados em MCs para apoiar a seleção de estudos na RSL através da execução de replicações do experimento controlado inicialmente conduzido por Takemiya (2017).

1.4 ORGANIZAC¸ ˜AO DO TEXTO

Foi exposto nesse cap´ıtulo o contexto no qual este trabalho se insere, a motivação para a sua realização e o objetivo a ser alcançado. No Cap´ıtulo 2 serão apresentados conceitos básicos sobre estudos secundários, sobre o uso dos MCs no contexto da Ciência da Computação (CC) e sobre replicação de experimentos. No Cap´ıtulo 3 será apresentado o pacote de laboratório do experimento original e os resultados da avaliação inicial. No Cap´ıtulo 4 serão apresentadas as replicações, assim como os resultados alcançados. Por fim, no Cap´ıtulo 5 serão apresentadas as conclusões.

(20)

2 FUNDAMENTAÇ ÃO TE ÓRICA

Nesse cap´ıtulo são descritos os principais conceitos sobre MCs e replicação de experimentos. Na Seção 2.1 é apresentada uma visão geral sobre MCs. Já na Seção 2.2 são apresentados conceitos gerais e caracter´ısticas de replicações de experimentos. Na Seção 2.3 são apresentados o planejamento, condução e resultados de um estudo terciário conduzido sobre replicações de experimentos na ES.

2.1 MAPAS CONCEITUAIS

MCs são ferramentas gráficas utilizadas para organizar e representar conhecimento. Trata-se de uma técnica desenvolvida na década de 70 por Joseph Novak e seus colaboradores na Universidade de Cornell, nos Estados Unidos, com o objetivo de investigar o aprendizado dos alunos sobre os conceitos relacionados a área de ciências. O desenvolvimento dos MCs teve como base a teoria da psicologia do aprendizado de Paul (1963) que sugere que a aprendizagem ocorre pela assimilação de novos conceitos, proposições em conceitos existentes e estruturas cognitivas individuais.

Um exemplo de MC e seus atributos é apresentado na Figura 1. Observa-se na figura que os MCs incluem conceitos dentro de c´ırculos ou retângulos e as relações entre eles são indicadas por linhas. Essas linhas contêm palavras associadas (de ligação) que descrevem a natureza da relação que vincula os conceitos. Um MC permite a estruturação e a s´ıntese, além de possibilitar a visualização de elementos relacionados simplificando a obtenção de conhecimento (NOVAK; GOWIN, 1984).

Comumente adotados no contexto de aprendizagem, MCs representam importante ferramenta de suporte, podendo auxiliar em anotações, s´ıntese e planejamento de um assunto, além de contribuir no entendimento das relações entre os conceitos, na transferência do conhecimento de forma sintetizada e como instrumento de avaliação (ALIAS; SURADI, 2008; ADESOPE; NESBIT, 2009).

(21)

Figura 1: Exemplo de mapa conceitual Fonte: (NOVAK; CANAS, 2007)

No contexto da ES, os MCs tˆem sido aplicados em diferentes cen´arios, como os descritos a seguir.

Morsi et al. (2007) relataram o uso do MCs para elaboração de curr´ıculos dos cursos de graduação de uma universidade. Nesse estudo foi gerado um MC genérico que serviu de modelo para representar os curr´ıculos dos cursos de graduação. Em outra oportunidade, Faily et al. (2013) relataram o uso de MCs com o objetivo de melhorar a qualidade das especificações de requisitos. Mohamed et al. (2013) destacaram que um dos obstáculos do desenvolvimento de ontologias para projetos de software é a capacidade das partes interessadas compreenderem e representarem o seu conhecimento. Assim, os autores sugeriram o uso de MCs baseados em ontologias para ES para minimizar essa dificuldade. Snider et al. (2014) motivaram o uso dos MCs como um meio para determinar e assegurar as propriedades de segurança de softwares em diferentes fases do ciclo de vida de seu desenvolvimento.

No dom´ınio de estudos secundários, também nota-se a utilização de MCs. Alias e Suradi (2008) conduziram um experimento com alunos de pós-graduação no intuito de utilizar

(22)

MCs para auxiliar na s´ıntese de dados. Os resultados do experimento revelaram que os MCs podem auxiliar na extração de ideias de um estudo, organizar os dados extra´ıdos, além de facilitar a atividade de s´ıntese.

2.2 REPLICAC¸ ˜AO

A replicação de experimentos é um dos métodos de pesquisa cient´ıfica que pode ser utilizado na ES, e como os demais métodos da área apresenta desafios à sua realização. Na busca por estudos para ajudar a compreender os desafios de replicar experimentos na ES, dois MSs foram desenvolvidos (de Magalhães et al., 2014; MAGALH ÃES et al., 2015). Informações relevantes foram identificadas, porém os estudos encontrados não apresentaram definições claras de conceitos, termos ou taxonomia para distinguir os tipos de replicações, seus papéis e diretrizes para apoiar o processo de replicação.

O cenário apresentado anteriormente em conjunto com a crescente utilização das replicações pela comunidade de ES e a inconsistência nas terminologias utilizadas referente ao tema, motivou Baldassarre et al. (2014) a apresentarem um estudo propondo uma taxonomia para o tema. O resultado é apresentado na Tabela 1.

´

E poss´ıvel observar que uma replicac¸˜ao em ES pode ser classificada em 5 tipos:

• Interna: A replicação do tipo interna se caracteriza por envolver os mesmos pesquisadores (ou a maioria deles) que participaram do experimento original e, em alguns estudos, pode ser chamada de replicação dependente.

• Externa: Uma replicação classifica-se como externa quando seus pesquisadores ou a maioria deles diferem dos pesquisadores do experimento original. Em alguns estudos é também chamada de independente.

• Próxima: Uma replicação é classificada como próxima quando a mesma não pode ser executada exatamente como o experimento original, sendo realizada o mais próximo poss´ıvel. Assim o projeto, a hipótese, o contexto e as medidas permanecem os mesmos.

• Diferenciada: Também chamada de melhorada na literatura, esse tipo de replicação indica alterações propositais no projeto, hipótese, contexto e medidas com relação ao experimento original.

• Conceitual: Nesse tipo enquadram-se as replicações que alteram todo o experimento original, preservando somente a questão ou hipótese de pesquisa.

(23)

Tabela 1: Proposta de taxonomia Fonte: Adaptado de Baldassarre et al. (2014) Termo

Portuguˆes

Termo Inglês Similaridade com outras definições na literatura

Definic¸˜ao

Interna Internal Dependente Os mesmos pesquisadores realizam a replicac¸˜ao.

Externa External Independente Pesquisadores diferentes realizam a replicac¸˜ao.

Pr´oxima Close Exata, Estrita, Semelhante

O experimento não pode ser replicado exatamente como o original. Replicação realizada o mais próxima poss´ıvel do experimento original. Projeto, hipótese, contexto e medidas permanecem inalteradas.

Diferenciada Differentiated Melhorada Mudanças referentes ao experimento original são intencionalmente feitas para a replicação: o projeto, a hipótese, o contexto e as medidas.

Conceitual Conceptual Não há Tudo na configuração do projeto experimental é diferente, exceto a questão ou hipótese de pesquisa.

Dois fatores que caracterizam replicações foram determinantes para a definição dos termos que compõem a taxonomia de Baldassarre et al. (2014): (i) o projeto experimental, isto é, as etapas seguidas no estudo; e (ii) os pesquisadores que conduzem a replicação.

Independentemente do tipo de replicação, o seu crescente uso na ES deve-se ao fato de que sua utilização e a diversidade de ambientes nas quais são realizadas, proporcionam o fortalecimento e enriquecimento do conhecimento a respeito de um determinado tema (SHULL et al., 2002).

Diante da variabilidade nos resultados das replicações, pode-se afirmar que uma replicação bem-sucedida é aquela que ajuda a comunidade de pesquisa a desenvolver conhecimento nas mais diversas condições (BASILI et al., 1999; VEGAS et al., 2006). Assim, uma replicação que produz resultados semelhantes aos do experimento original em que se baseou, é tão útil para a comunidade como uma replicação que produz resultados diferentes e, por sua vez, fornece informações que ajudam os pesquisadores a entenderem o porquê das

(24)

diferenc¸as (SHULL et al., 2008).

Replicações bem sucedidas devem ser relatadas com fidelidade aos resultados obtidos. Um bom relatório de uma replicação pode ser usado como um critério para uma replicação ser considerada bem sucedida. Não é suficiente fazer um bom trabalho durante a replicação do estudo, é necessário produzir também um relatório completo da replicação (MAGALH ÃES et al., 2015). Carver (2010) apresenta diretrizes para criação de relatórios de replicações. No estudo de Silva et al. (2014), os autores utilizam essas diretrizes para criar um conjunto de critérios de qualidade para avaliar as replicações. O resultado da avaliação de qualidade realizada por eles mostra que, em geral, os documentos de replicação não cumprem as prescrições das diretrizes de relatório. Dessa forma, é fundamental a atenção dos pesquisadores no processo de divulgação dos resultados das replicações.

Para a realização de uma replicação, a documentação detalhada do processo de execução do experimento original é fundamental. Essa documentação é comumente chamada de pacote de laboratório (BROOKS et al., 2008). Os pacotes de laboratório devem ser vistos como fonte dos detalhes para se obter uma compreensão suficiente do estudo que será replicado. Com isso, os pesquisadores podem definir qual o tipo de replicação a executar. Por exemplo, um pesquisador pode decidir que uma replicação dependente com pequenas modificações no estudo original é o melhor plano de ação. Nesse caso, o pacote de laboratório tem que fornecer informações para apoiar a replicação. O pesquisador também pode escolher usar uma replicação independente para re-testar a mesma hipótese com um projeto experimental completamente novo. Nesse caso, o pacote de laboratório tem que fornecer ao pesquisador detalhes suficientes sobre como o estudo original foi realizado para permitir que seja criado um estudo suficientemente diferente (SHULL et al., 2008).

Visando compreender o cenário atual sobre replicações no contexto da ES, foi conduzido um estudo terciário, apresentado a seguir.

2.3 ESTUDO TERCI ÁRIO SOBRE REPLICAÇ ÕES DE EXPERIMENTOS NA ES

Segundo Kitchenham (2004), a evidência mais confiável a respeito de um dado tópico de pesquisa advém da agregação de todos os estudos primários sobre esse tópico. A RSL é um método recomendado para agregar estudos primários. Já um estudo terciário pressupõe uma RSL de estudos secundários.

O objetivo do estudo terciário que será apresentado nessa seção é identificar trabalhos secundários (RSLs e MSs) relacionados com replicação de experimentos em ES sob a

(25)

perspectiva de replicac¸˜oes de estudos experimentais.

O processo adotado para a condução desse estudo terciário foi o sugerido por Kitchenham e Charters (2007a). Em resumo, as três etapas que compõem esse processo são: planejamento, execução e divulgação dos resultados. O presente protocolo, descrito em detalhes na sequência, é resultado da etapa de planejamento.

2.3.1 ETAPA DE PLANEJAMENTO

´

E durante a etapa de planejamento que o protocolo é criado. Esse documento contém itens como as questões de pesquisa, estratégias de busca e seleção de estudos, além dos formulários adotados para a extração dos dados relevantes para responderem as questões de pesquisa. O protocolo e seus itens são detalhados nas próximas subseções.

2.3.1.1 QUEST ˜OES DE PESQUISA

As quest˜oes de pesquisa (QPs) a serem respondidas s˜ao:

• QP 1: Quais são os estudos secundários sobre replicações em ES que foram desenvolvidos?

A QP1 pode ser decomposta nas seguintes subquest˜oes:

• QP 1.1: Qual a área de execução dos experimentos replicados? • QP 1.2: Qual o método dos experimentos replicados?

• QP 1.3: Qual a taxa de confirmação dos resultados das replicações em relação ao experimento original?

A QP1 e suas respectivas subquest˜oes foram estruturadas seguindo os crit´erios PICO, como apresentado na Tabela 2.

Uma forma de estruturar as questões de pesquisa é utilizar os critérios PICO definidos por Pettigrew e Roberts (2006): (i) População (grupo da população que será investigado pela intervenção, por exemplo, publicações sobre o tema da RSL); (ii) Intervenção (o que será observado); (iii) Comparação (parâmetro de referência ou um conjunto inicial de dados que o pesquisador já possu´ıa) e (iv) Outcomes - resultados (resultados esperados ao final da RSL).

(26)

Tabela 2: Adoção dos critérios PICO

População Estudos secundários relacionados às replicações de experimentos em ES.

Intervenção Avaliação das caracter´ısticas das replicações como o tipo de replicação, entre outras.

Comparação Não se aplica.

Resultados Trabalhos secundários (RSLs e MSs) relacionados com replicação de experimentos em ES.

2.3.1.2 BUSCA POR LITERATURA RELEVANTE

O propósito de uma RSL é conduzir uma busca abrangente e exaustiva de estudos relevantes para abordar as QPs (KITCHENHAM; CHARTERS, 2007a). O processo precisa ser rigoroso e imparcial, e deve envolver uma ampla cobertura das fontes como bases de dados online, revistas e conferências. A fim de minimizar vieses e maximizar o número de fontes, uma estratégia pré-definida para identificar potenciais estudos secundários foi necessária. Para esse estudo foi adotada a busca automática, sendo assim fez-se necessária a construção de uma stringde busca. A estratégia usada para construir a string de busca foi composta por quatro etapas:

• Etapa 1. Identificar os principais termos considerando as quest˜oes de pesquisa (Tabela 3);

• Etapa 2. Identificar sinônimos ou palavras alternativas ou abreviações ou termos significativos encontrados em estudos relevantes da área de interesse deste trabalho (Tabela 4);

• Etapa 3. Utilizar operador lógico OU (em inglês OR) para incorporar sinônimos, palavras alternativas e abreviações (Tabela 5);

• Etapa 4. Utilizar operador l´ogico E (em inglˆes AND) para ligar os termos relevantes (Tabela 6).

Tabela 3: Termos derivados do PICO

População Revisões Sistemáticas da Literatura (RSLs) e Mapeamentos Sistemáticos (MSs) Intervenção Replicações de experimentos

(27)

Tabela 4: Termos derivados de palavras encontradas em estudos relevantes

Autores Ano Palavras

Silva et al. 2011 Replication, experiment, empirical study, mapping study,literature review, software engineering

de Magalh˜aes et al. 2014 Replication of empirical studies, replication, empirical software engineering, experimental replication.

Magalh˜aes et al. 2015 Replications, experiments empirical studies, mapping study, systematic literature review, software engineering

Silva et al. 2014 Replications, experiments, empirical studies, mapping study, systematic literature review, software engineering

Tabela 5: Concatenação de palavras alternativas utilizando operador OU (OR) No Tópico principal Resultado

1 Replication

in software

engineering

(replication OR replications OR experiments OR ”empirical studies” OR ”empirical study” OR ”mapping study” OR ”mapping studies” OR ”software engineering”)

2 Systematic

literature review

(”systematic literature review” OR SLR OR ”systematic review” OR ”systematic reviews” OR ”literature review” OR ”review of studies” OR ”structured review” OR ”literature analysis” OR ”in-depth survey” OR ”literature survey” OR ”meta-analysis” OR ”past studies” OR ”empirical body of knowledge” OR ”overview of existing research” OR ”body of published research” OR ”software engineering”)

2.3.1.3 ESTRAT ´EGIA DE BUSCA

Após a definição da string de busca, o processo de identificação de literatura relevante foi iniciado. A busca foi baseada nas principais bases eletrônicas adotadas por pesquisadores

(28)

Tabela 6: Concatenac¸˜ao de todas as palavras poss´ıveis utilizando o operador E (AND) Resultado

(replication OR replications OR experiments OR ”empirical studies” OR ”empirical study” OR ”mapping study” OR ”mapping studies” OR ”software engineering”) AND (”systematic literature review” OR SLR OR ”systematic review” OR ”systematic reviews” OR ”literature review” OR ”review of studies” OR ”structured review” OR ”literature analysis” OR ”in-depth survey” OR ”literature survey” OR ”meta-analysis” OR ”past studies” OR ”empirical body of knowledge” OR ”overview of existing research” OR ”body of published research” OR ”software engineering”) AND (”software engineering”)

que conduzem RSLs na ES (BRERETON et al., 2007), por meio do dom´ınio da Universidade Tecnológica Federal do Paraná, Campus de Cornélio Procópio, sendo que as bases definidas para a busca foram:

• ACM Digital Library (http://dl.acm.org/)

• IEEE Xplore (http://ieeexplore.ieee.org/Xplore/home.jsp) • Science Direct (http://www.sciencedirect.com/)

• Scopus (http://www.scopus.com/)

Todos os estudos retornados das bases de dados foram catalogados no software gerenciador de referências denominado JabRef. Algumas bases eletrônicas ofereceram o recurso de exportação de meta-dados que puderam ser importados nesse software. Nos demais casos, essas informações foram inseridas manualmente.

2.3.2 CRIT ÉRIOS DE SELEÇ ÃO DE ESTUDOS

Estudos foram inclu´ıdos na RSL se satisfizeram ao seguinte crit´erio inclus˜ao (CI):

• CI1. É um estudo secundário, RSL ou MS, abordando replicação de experimentos em ES.

Estudos foram exclu´ıdos da RSL se satisfizeram um ou mais crit´erios de exclus˜ao (CE):

• CE1. Não é escrito em inglês. • CE2. É um estudo primário.

(29)

• CE3. Não dispon´ıvel nas bases eletrônicas consideradas para este estudo. • CE4. Texto completo do estudo não dispon´ıvel para visualização.

• CE5. É um trabalho convidado, palestra, oficina de relatórios, livro, tese ou dissertação. • CE6. _{E um documento incompleto, rascunho, slide de apresentações ou resumo}´

estendido.

• CE7. É um estudo terciário ou estudo de meta-análise.

• CE8. Aborda outras áreas da Ciência da Computação e não a ES.

• CE9. Aborda um estudo secundário (RSL ou MS) de replicação de experimentos em ES somente como parte de trabalho futuro.

• CE10. Não é um estudo secundário, RSL ou MS, abordando replicação de experimentos em ES.

Os critérios de seleção foram aplicados em duas etapas, descritas na sequência e representadas na Figura 2.

(30)

2.3.2.1 PROCESSO DE SELEC¸ ˜AO INICIAL

Inicialmente, foram identificados 48 potenciais estudos secundários, sendo 13 duplicados. Em seguida os critérios de seleção foram aplicados através da leitura dos t´ıtulos e resumos de cada estudo com a finalidade de decidir pela sua inclusão ou exclusão. A seleção foi realizada por dois pesquisadores, de forma independente. Conflitos foram resolvidos por consenso. Ao final da seleção inicial, 15 estudos foram inclu´ıdos, conforme detalhados na Tabela 7.

Tabela 7: Estudos inclu´ıdos no processo de selec¸˜ao inicial

Id Base Ano T´ıtulo

1 ACM 2013 An ecological perspective towards the evolution of quantitative studies in software engineering

2 ACM 2014 Guidelines for Snowballing in Systematic Literature Studies and a Replication in Software Engineering 3 ACM 2006 Is there a future for empirical software engineering? 4 ACM 2014 Reviewing Technical Approaches for Sharing and

Preservation of Experimental Data

5 ACM 2015 Views on Internal and External Validity in Empirical Software Engineering

6 IEEE 2009 Evaluation and assessment in software engineering [Editorial]

7 IEEE 2014 Outliers and replication in software engineering 8 IEEE 2015 Replication of empirical studies in software

engineering: An update of a systematic mapping study

9 IEEE 2011 Replication of Empirical Studies in Software Engineering: Preliminary Findings from a Systematic Mapping Study

10 Scince Direct 2015 Investigations about replication of empirical studies in software engineering: A systematic mapping study 11 Scince Direct 2014 Understanding replication of experiments in software

engineering: A classification

12 Scopus 2010 Applying empirical software engineering to software architecture: Challenges and lessons learned

13 Scopus 2014 Replication of empirical studies in software engineering research: A systematic mapping study

14 Scopus 2012 Reporting guidelines for simulation-based studies in software engineering

15 Scopus 2013 The use of visual text mining to support the study selection activity in systematic literature reviews: A replication study

(31)

2.3.2.2 PROCESSO DE SELEC¸ ˜AO FINAL

Os 15 estudos inclu´ıdos durante a seleção inicial foram analisados em detalhes, ou seja, o texto completo de cada estudo secundário foi lido por dois revisores (Bonora e Felizardo) de forma independente. Ao total, quatro estudos foram inclu´ıdos na seleção final, conforme detalhado na Tabela 8. Esses estudos corresponderam aos estudos relevantes que responderam as QPs desse estudo terciário. Não ocorreram conflitos durante o processo de seleção final.

Tabela 8: Estudos inclu´ıdos no processo de selec¸˜ao final

Id Ano Base T´ıtulo

8 2015 IEEE Replication of empirical studies in software engineering: An update of a systematic mapping study

9 2011 IEEE Replication of Empirical Studies in Software Engineering: Preliminary Findings from a Systematic Mapping Study 10 2015 Science Direct Investigations about replication of empirical studies in

software engineering: A systematic mapping study

13 2014 Scopus Replication of empirical studies in software engineering research: A systematic mapping study

2.3.3 ESTRAT ÉGIA DE EXTRAÇ ÃO E SÍNTESE DOS DADOS

Com o conjunto final de estudos secundários definido a atividade de extração de dados foi realizada. Um pesquisador foi responsável por extrair os dados e preencher o formulário de extração de dados, mostrado na Tabela 9. Outro revisor fez a conferência dos dados extra´ıdos, e os conflitos foram solucionados por consenso.

(32)

Tabela 9: Formulário de extração de dados

Item Valor Observac¸˜oes

Identificação do estudo T´ıtulo Autor Ano de publicação Tipo de referência Nome da conferência/jornal Editora Pa´ıs do estudo

Dados relevantes para responder a QP1 Objetivo do estudo

´

Area da replicac¸˜ao

M´etodo do estudo replicado

Confrontação da replicação com o estudo original

Relevância/contribuição

Os dados extra´ıdos foram catalogados em planilhas do software Microsoft Excel, sendo poss´ıvel responder as QPs:

• QP 1: Quais são os estudos secundários sobre replicações em ES que foram desenvolvidos?

Foram encontrados quatro estudos secundários, sendo que três deles relataram replicações, são eles: (SILVA et al., 2011), (Silva et al., 2014) e (BEZERRA et al., 2015); e um estudo (MAGALH ÃES et al., 2015) teórico/conceitual focado em definições, classificações, processos, diretrizes e outros temas sobre replicação na ES. Esse último estudo contribuiu para reforçar o referencial teórico sobre replicações na ES. A RSL de Silva et al. (2011) é sobreposta pela RSL de Silva et al. (2014), tanto em tema de pesquisa como em per´ıodo de tempo, por esse motivo somente esse último foi considerado para para responder as QPs.

(33)

• QP 1.1: Qual a área de execução dos experimentos replicados?

A Figura 3 apresenta a comparação da média de replicações anuais entre os per´ıodos de 1994 a 2010 e 2011 a 2012. Foram consideradas as replicações dos estudos Silva et al. (2014) e Bezerra et al. (2015). Percebe-se que, em geral, entre os anos de 2011 a 2012 houve considerável aumento na média anual de replicações de 7,8 para 25,5 em média por ano, respectivamente, destacando-se as áreas de Projeto de Software, que de uma média 0,3 replicações por ano no per´ıodo de 1994 a 2010 aumentou para uma média de 6,5 replicações entre os anos de 2011 a 2012, e a de Teste de Software que evoluiu de 0,4 para 5,0 replicações em média por ano nos respectivos per´ıodos analisados. As áreas de Gerenciamento de Configuração de Software e Processo em ES não possuem replicações entre os anos de 2011 e 2012. Outra exceção é a área de Requisitos de Software que apresentou mais replicações entre os anos de 1994 e 2010 em relação ao per´ıodo de 2011 a 2012.

Figura 3: Média anual de replicações por área

• QP 1.2: Qual o m´etodo dos experimentos replicados?

Observa-se na Figura 4 que há uma prevalência por replicar estudos que adotaram o Quasi-Experimento e Experimento Controlado como métodos de pesquisa. Isso porque esses dois métodos são essenciais para que se adquira o conhecimento necessário sobre

(34)

um determinado tópico de interesse. Além disso, a validade de um experimento pode ser influenciada pela validade externa, que é a confiança na qual os resultados obtidos dos experimentos podem ser generalizados (LOTT; ROMBACH, 1996). A validade externa pode ser fortalecida pelas replicações (BASILI et al., 1996). A replicação de surveys foi fortalecida de 2010 a 2012, passando de uma média anual de 0,1 replicações para 2.

Figura 4: M´edia anual dos m´etodos replicados

• QP 1.3: Qual a taxa de confirmação dos resultados das replicações em relação ao experimento original?

A replicação consiste em aplicar o mesmo experimento eventualmente em diferentes contextos, a fim de se obter maior credibilidade nas hipóteses, caso haja confirmação das mesmas, ou aprendizagem quando as hipóteses são negadas (FUSARO et al., 1997). Nesse contexto, nota-se na Figura 5 que a prevalência entre as medições referentes a confirmação dos resultados das replicações (1994 a 2010 e 2010 a 2012) em relação ao estudo original mantiveram-se inalterados entre os per´ıodos. Considerando o tipo de replicação para ambos os per´ıodos, foi percebido que nas replicações internas, a maioria delas confirmam o resultado do estudo original, em contrapartida, a maioria das replicações externas não confirmam os resultados do estudo original. Segundo (BEZERRA, 2014), conjuntos de replicações internas e externas podem equilibrar o viés de cada tipo de replicação e contribuir para a comunidade cient´ıfica com maior confiança dos resultados.

(35)

Figura 5: Taxa de confirmação dos resultados das replicações em relação aos experimentos originais

Esse estudo terciário serviu como referencial teórico sobre replicação de experimentos na ES. Na Seção 3, a seguir, será apresentado o experimento original, foco das replicações deste trabalho.

(36)

3 EXPERIMENTO ORIGINAL: MCS PARA APOIAR A SELEC¸ ˜AO DE ESTUDOS

A execução do experimento envolve a utilização de resumos gráficos e, para auxiliar a criação desses resumos, Takemiya (2017) estabeleceu um modelo de representação visual hierárquica por meio de MCs. Esse modelo visa representar graficamente o conhecimento e recuperar informações. O objetivo dos MCs não é apenas classificar conceitos, mas relacioná-los e hierarquizá-los. Dessa forma os MCs destacam-se por também especificar o relacionamento entre os conceitos (NOVAK; GOWIN, 1984). Esses mapas hierárquicos se estruturam de acordo com a Teoria da Aprendizagem Significativa de David Ausubel, (AUSUBEL et al., 1980; AUSUBEL, 2003) e desse modo contribuem para a construção do conhecimento (TAVARES, 2007).

Com relação à representação visual proporcionada pelos MCs, existem evidências sobre a sua eficiência. Foi verificado que os interessados localizam mais informações quando elas são apresentadas em formas de mapas ao invés de textos (ODONNELL, 1993). Embora os MCs possam transmitir informações factuais tão bem quanto os textos, esses organizadores gráficos são mais eficientes que os textos para ajudar os leitores a construirem inferências complexas e integrarem as informações que eles fornecem (VEKIRI, 2002). De maneira geral um MC torna mais fácil a percepção e compreensão de eventos. Existe uma grande proximidade entre a memória visual e as imagens que são apresentadas, e por causa das suas propriedades visuais espaciais, seu processamento requer um número menor de transformações cognitivas que o processamento de um texto, e desse modo não excede as limitações da memória de curto prazo (VEKIRI, 2002).

O modelo de MCs proposto por Takemiya (2017) é composto da raiz e três n´ıveis hierárquicos. O primeiro n´ıvel é composto dos cinco conceitos fixos que representam as seções dos resumos estruturados, cada qual com um tom de cinza. O segundo n´ıvel envolve os conceitos opcionais que surgem do refinamento dos conceitos fixos, como por exemplo “motivação”, “problema” e “área de pesquisa” que são refinamentos do conceito fixo “contexto”. O n´ıvel três abrange os conceitos variáveis. O modelo contém quatro links cruzados, tais como “ajuda a definir” que liga os conceitos opcionais “problema” e “objetivo”,

(37)

entre outros.

O modelo é organizado por um conceito principal (posicionado no centro do mapa), em torno do qual outros conceitos relacionados são agrupados em n´ıveis. O conceito no topo do mapa é o mais inclusivo. Conceitos mais espec´ıficos são organizados hierarquicamente abaixo. Quanto menor é o n´ıvel, mais detalhes são descritos, como ilustrado na Figura 6. É poss´ıvel observar o conceito principal (na raiz), os conceitos fixos, opcionais e variáveis (em três outros n´ıveis), e as ligações (básicas e cruzadas), descritos como segue (FELIZARDO et al., 2017):

• Conceito principal: representa o conceito mais geral poss´ıvel. Como exemplo pode-se assumir como sendo o t´ıtulo do estudo;

• Conceito fixo: obrigatório no modelo proposto, é representado por retângulos com bordas arredondadas. Como exemplos de conceitos fixos têm-se o “Contexto” e o “Objetivo”;

• Conceito opcional: conceito diretamente ligado a estudos experimentais e é resultante do refinamento do conceito fixo. É representado por um quadrado. Por ser opcional, sua utilização depende do tipo do estudo;

• Conceito variável: é o refinamento do conceito opcional, representado por c´ırculo tracejado. É definido de acordo com o tema do estudo. O conceito “ ” é um exemplo de conceito variável;

• Link básico: estabelece o relacionamento entre conceitos do mesmo n´ıvel no MC e é representado por uma linha cont´ınua. Pode-se citar como exemplos “é formado por” e “é dividido em”, como demonstrado na Figura 6;

• Link cruzado: representado por linha tracejada, define o relacionamento entre conceitos de n´ıveis diferentes. S˜ao exemplos de links cruzados “ajuda definir” e “ajuda justificar”.

(38)

Figura 6: Modelo para apoiar a criação de resumos gráficos Fonte: (TAKEMIYA, 2017)

(39)

No intuito de apoiar a construção dos resumos gráficos, Santos et al. (2016) desenvolveram uma ferramenta de construção semiautomática de resumos gráficos baseados em MCs apoiado em técnicas de Processamento de Linguagem Natural (PLN). Dessa forma, está fora do escopo do experimento a criação dos resumos gráficos pelos participantes.

Nesse cap´ıtulo serão apresentadas os itens que compõem o pacote de laboratório do experimento original de Takemiya (2017).

3.1 PACOTE DE LABORAT ´ORIO DO EXPERIMENTO ORIGINAL

O experimento de (TAKEMIYA, 2017) foi elaborado no intuito de caracterizar a viabilidade da utilização de resumos gráficos no processo de seleção de estudos em RSL.

As quest˜oes de pesquisa (QPs) foram:

• QP1: Resumos gráficos baseados em MCs melhoraram o desempenho (em termos de tempo) na atividade de seleção de estudos?;

• QP2: Resumos gráficos baseados em MCs melhoraram a efetividade (em termos de estudos corretamente inclu´ıdos ou exclu´ıdos) na atividade de seleção de estudos?; e

• QP3: Usar resumos gráficos baseados em MCs fazem da seleção de estudos primários uma atividade menos desagradável e/ou menos cansativa?

Detalhes sobre o projeto experimental s˜ao ilustrados na Figura 7.

Como pode ser observado, os participantes foram divididos em dois grupos, um para executar a seleção inicial com resumos textuais (leitura tradicional) e o outro com apoio de resumos gráficos. O projeto experimental é formado por duas etapas: treinamento e execução. A primeira etapa, de treinamento, tem o objetivo de nivelar o conhecimento sobre o experimento e mitigar poss´ıveis viéses na segunda etapa, que é a de execução. Durante a execução os participantes selecionam estudos de maneira tradicional ou com apoio dos resumos gráficos.

As m´etricas utilizadas foram:

• Desempenho: Soma do total de tempo que cada participante utilizou para classificar os estudos prim´arios como inclu´ıdos ou exclu´ıdos.

• Efetividade: Foi calculada como a soma dos estudos corretamente selecionados (inclu´ıdos ou exclu´ıdos) por cada participante. Como referência para determinar a correta classificação de cada estudo sugerido, as autoras definiram um oráculo.

(40)

Figura 7: Projeto experimental Fonte: Autoria pr´opria

• Fadiga/N´ıvel de Cansaço: Foi mensurada através da análise qualitativa da opinião dos participantes.

Em resumo, o pacote de laborat´orio disponibilizado ´e composto por documentos e materiais como:

• Formulário de identificação do participante e horário de in´ıcio da atividade.

• Conjunto de estudos a serem submetidos ao processo de seleção de acordo com os critérios de inclusão e exclusão. Nesse caso, nove estudos para a etapa de treinamento e 20 para a de execução, sendo a mesma quantidade para cada grupo.

• Formulário com o horário de término do processo de seleção e com uma tabela de sumarização do processo.

• Para a etapa de treinamento, um questionário do perfil do participante e para a etapa de execução, um questionário referente ao modelo de resumo utilizado, textual ou gráfico.

(41)

3.2 CONDUC¸ ˜AO E RESULTADOS DO EXPERIMENTO ORIGINAL

O experimento original conduzido por Takemiya (2017) contou com a participação de oito estudantes da área de ES, cinco de doutorado e três de mestrado, todos com experiência na condução de estudos secundários.

No in´ıcio do experimento, as autoras explanaram aos participantes uma visão geral do estudo, estabelecendo-o em duas etapas: uma de treinamento e outra de execução. Para realizar o processo de seleção de estudos, em ambas etapas, os participantes foram aleatoriamente divididos em dois grupos: (i) Grupo 1 (G1) realizaram a seleção de estudos através da leitura dos resumos textuais ou estruturados, e o (ii) Grupo 2 (G2) realizaram a seleção de estudos com o apoio e suporte dos resumos gráficos baseados em MCs. Os estudos utilizados para o treinamento foram diferentes dos utilizados na execução, evitando assim viéses. Cada grupo recebeu os estudos primários a serem analisados com seu t´ıtulo, respectivo resumo, os critérios de inclusão e exclusão e um formulário para resumir a decisão de cada participante, individualmente, em incluir ou excluir os estudos.

O conjunto de estudos utilizados consistiu de estudos selecionados resultantes de um MS conduzido por Souza et al. (2014) relacionado à Gerência do Conhecimento (GC) em teste de software. Esse MS é composto por quarenta estudos, sendo que vinte deles foram escolhidos aleatoriamente para compor o conjunto de estudos a serem utilizados na etapa de execução.

Após a execução dos procedimentos do experimento original, a autora sumarizou os resultados. Takemiya (2017) afirmou que devido à pequena amostra, não foram utilizados testes de significância estat´ıstica.

Para responder à QP1 foi medido o desempenho dos participantes com relação ao tempo gasto para tomar suas decisões (Tabela 10).

(42)

Tabela 10: Resumo dos resultados do experimento original de Takemiya (2017) Grupo ID Tempo (min) Estudos Correta-mente Inclu´ıdos Estudos Correta-mente Exclu´ıdos Total Correta-mente Selecio-nados Estudos Incorreta-mente Inclu´ıdos Estudos Incorreta-mente Exclu´ıdos Total Incorreta-mente Selecio-nados G1 1 29 6 7 13 (65%) 3 4 7 2 26 6 8 14 (70%) 2 4 6 3 19 6 7 13 (65%) 3 4 7 4 19 8 7 15 (75%) 3 2 5 G2 5 20 7 7 14 (70%) 3 3 6 6 20 7 9 16 (80%) 1 3 4 7 30 7 7 14 (70%) 3 3 6 8 13 8 7 15 (75%) 4 2 5

A hipótese elaborada pelas autoras foi de que os participantes que utilizassem resumos gráficos apresentariam um melhor desempenho e efetividade. No entanto, os resultados mostraram que os resumos gráficos apresentaram desempenho e efetividade semelhantes ao processo de seleção realizado com o resumo textual. Por esse motivo, as autoras acreditam que um experimento quantitativo poderia fornecer evidências que fundamentassem a hipótese por elas sugerida.

O trabalho também avaliou a atividade de seleção em termos de usabilidade, facilidade de uso, facilidade de aprendizado e satisfação do usuário. As autoras mostraram-se motivadas diante da análise dos dados coletados, pois quatro participantes concordaram plenamente de que o uso de resumos gráficos facilitou a atividade de seleção dos estudos e três deles relataram ter aprendido facilmente a leitura dos resumos gráficos.

Os participantes também expressaram que os resumos gráficos foram fáceis de seguir, seus conceitos foram de claro entendimento e os links/links cruzados não empregaram dificuldade de compreensão. Todos os participantes do G2 revelaram que estavam completamente satisfeitos quanto à utilização dos resumos gráficos para a seleção de estudos primários e manifestaram que recomendariam fortemente o seu uso para outros pesquisadores.

Por fim, o experimento original forneceu evidências iniciais de que resumos gráficos poderiam contribuir positivamente na atividade de seleção de estudos, reduzindo a fadiga inerente ao processo. As autoras destacaram que são necessárias mais evidências quantitativas que justifiquem o uso dos resumos gráficos na condução de estudos secundários, reforçando

(43)

que resumos gráficos baseados em MCs poderiam ser amplamente adotados pela ES e outras áreas de pesquisa como um meio para facilitar a transmissão de informações via representação visual.

Como trabalho futuro, Takemiya (2017) sugeriu replicações do experimento a fim de reforçar os indicadores obtidos, pois os resultados quantitativos não puderam ser generalizados devido à pequena amostra de participantes. Dessa forma, com este trabalho tem-se a oportunidade de gerar evidências para gerar um corpo de conhecimento sobre o uso dos MCs para apoiar a seleção de estudos no processo de RSL na ES.

(44)

4 REPLICAC¸ ˜OES DO EXPERIMENTO ORIGINAL

Essa seção relata as replicações conduzidas, assim como os resultados dessas replicações, abordando nossas QPs.

4.1 VIS ˜AO GERAL DOS RESULTADOS

A busca pela consolidação do conhecimento no uso de resumos gráficos representados por MCs e sua contribuição na etapa de seleção de estudos na RSL motivou a realização das replicações relatadas neste estudo. Vale lembrar que os pesquisadores utilizaram o mesmo projeto experimental (pacote de laboratório) do experimento original.

Ao todo foram realizadas 5 replicações, detalhadas a seguir. Uma sexta replicação foi realizada em um pa´ıs de l´ıngua inglesa com a finalidade de verificar a hipótese de que o conhecimento nativo desse idioma pudesse influenciar nos resultados, uma vez que todo o material utilizado (estudos) estava escrito em inglês. Essa sexta replicação está relatada na subseção 4.3.

Tabela 11: Replicac¸˜oes realizadas e quantidade de participantes por grupo

No_{Replicac¸˜ao} _Local _G1 _G2 _Total

1 Universidade Estadual de Maring´a - UEM 9 9 18

2 Universidade Tecnol´ogica Federal do Paran´a - UTFPR 4 4 8

3 Universidade Federal de Pernambuco - UFPE 9 8 17

4 Universidade Federal de S˜ao Carlos - UFSCAR 13 16 29

5 Instituto de Ciências Matemáticas e de Computação da

Universidade de S˜ao Paulo - ICMC-USP 6 5 11

Total 41 42 83

Um resumo dos resultados das 5 replicações é mostrado na Tabela 12. O desempenho dos participantes foi mensurado (veja a segunda coluna da Tabela 12) para responder à QP1 (Resumos gráficos baseados em MCs melhoraram o desempenho (em termos de tempo) na atividade de seleção de estudos?). A média de tempo gasto pelos participantes do G1 foi de 24,50 minutos e do G2 foi de 17,10 minutos, sendo que o tempo gasto pelos participantes de G1 (R1–R5) variou entre 18,60 e 31,50 minutos e em G2 (R1–R5) entre 12,20 e 21,00 minutos.

(45)

O tempo economizado usando resumos gráficos nas replicações foi de 7,40 minutos para cada conjunto de 20 estudos.

Tabela 12: Resumo dos resultados das replicac¸˜oes

Grupo Tempo (min) I Cor. E Cor. I e E Cor. I Inc. E Inc. E e E Inc.

REPLICAÇ ÃO 1 G1 18.60 7,89 5,56 13,44 2,11 4,44 6,56 G2 12,20 7,22 7,11 14,33 2,78 2,89 5,67 REPLICAÇ ÃO 2 G1 23,30 6,50 7,25 13,75 3,50 2,75 6,25 G2 21.00 7,25 7,50 14,75 2,75 2,50 5,25 REPLICAÇ ÃO 3 G1 20,70 7,56 3,56 11,11 2,44 6,44 8,89 G2 14,30 7,25 6,38 13,63 2,75 3,63 6,38 REPLICAÇ ÃO 4 G1 28,50 7,46 4,54 12,00 2,54 5,46 8,00 G2 20,80 7,25 4,81 12,06 2,75 5,19 7,94 REPLICAÇ ÃO 5 G1 31,50 6,67 5,17 11,83 3,33 4,83 8,17 G2 15,40 8,00 5,80 13,80 2,00 4,20 6,20

RESUMO DE TODAS AS REPLICAC¸ ˜OES

G1 24,50 7,37 4,90 12,27 2,63 5,10 7,73

G2 17,10 7,33 5,98 13,31 2,67 4,02 6,69

Legenda: Cor. = Correto; Inc. = Incorreto; I = Inclus˜ao; E = Exclus˜ao

A Tabela 12 (veja a quinta coluna) mostra a média de estudos corretamente inclu´ıdos/exclu´ıdos durante as cinco replicações. A média de estudos corretamento inclu´ıdos/exclu´ıdos foi 12,27 e 13,31 em G1 e G2. Considerando a média (diferença de 1,04 estudos em favor de G2 – Cohen’s d = 0,48), pode-se afirmar que resumos gráficos apresentaram uma vantagem de 1,04 estudos em comparação à G1. Considerando os estudos incorretamente inclu´ıdos/exclu´ıdos, as médias foram de 7,73 e 6,69 no G1 e G2, respectivamente. A mesma diferença de 1,04 estudos também foi observada em favor do G2.

Para avaliar formalmente os resultados, utilizou-se o teste de Man-Whitney, também denominado teste de Mann-Whitney-Wilcoxon, teste de hipótese estat´ıstica não paramétrica.

Em relação ao desempenho, nossos resultados mostraram que (veja a Tabela 14 – Desempenho) existe uma diferença estatisticamente significante (p-value < 0,05) entre as médias de tempo com o uso de resumos gráficos e o método tradicional (seleção manual/resumos textuais). Portanto, pode-se afirmar que o uso de resumos gráficos tem uma “grande” melhoria no desempenho da tarefa de revisão dos estudos primários (Cohen’s d = 1,04 – ver Tabela 13).

Quanto à efetividade, os resultados mostraram que (ver Tabela 12) existe uma diferença estatisticamente significante (p-valor < 0,05) entre inclusões e exclusões corretas e incorretas