• Nenhum resultado encontrado

Análise da qualidade de revisões sistemáticas em engenharia de software empírica

N/A
N/A
Protected

Academic year: 2021

Share "Análise da qualidade de revisões sistemáticas em engenharia de software empírica"

Copied!
102
0
0

Texto

(1)

Pós-Graduação em Ciência da Computação

DIOGO VINÍCIUS DE SOUSA SILVA

ANÁLISE DA QUALIDADE DE REVISÕES

SISTEMÁTICAS NA ENGENHARIA DE SOFTWARE

EMPÍRICA

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

RECIFE 2015

(2)

Diogo Vinícius de Sousa Silva

Análise da Qualidade de Revisões Sistemáticas na Engenharia de Software Empírica

ORIENTADOR: Prof. Sérgio Castelo Branco Soares

RECIFE 2015

Este trabalho foi apresentado à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.

(3)

Catalogação na fonte

Bibliotecário Jefferson Luiz Alves Nazareno CRB 4-1758

S586a Silva, Diogo Vinícius de Sousa.

Análise da qualidade de revisões sistemáticas em engenharia de software empírica. / Diogo Vinícius de Sousa Silva – 2015.

101f.: fig., tab.

Orientador: Sérgio Castelo Branco Soares.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn. Ciência da Computação, Recife, 2015.

Inclui referências e apêndices.

1. Engenharia de software. 2. Estudos empíricos. 3. I. Soares, Sérgio Castelo Branco (Orientador). II. Titulo.

(4)

Dissertação de Mestrado apresentada por Diogo Vinícius de Sousa Silva à Pós Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título “Análise da Qualidade de Revisões Sistemáticas em Engenharia de Software Empírica” orientada pelo Prof. Sérgio Castelo Branco

Soares e aprovada pela Banca Examinadora formada pelos professores:

______________________________________________ Prof. André Luís de Medeiros Santos

Centro de Informática / UFPE

______________________________________________ Prof. Célio Andrade de Santana Júnior

Departamento de Ciência da Informação / UFPE

_______________________________________________ Prof. Sérgio Castelo Branco Soares

Centro de Informática / UFPE

Visto e permitida a impressão. Recife, 21 de agosto de 2015.

___________________________________________________ Profa. Edna Natividade da Silva Barros

Vice-Coordenador da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

Eu dedico esta dissertação a toda minha família, amigos e professores que me deram o suporte necessário para chegar até aqui.

(6)

Agradecimentos

Agradeço Àquele que é fonte inesgotável de vida e sabedoria, que me conduziu sem dúvidas pelos melhores caminhos da vida e me deu forças para superar as dificuldades: Deus, muito obrigado! Agradeço a todos meus familiares em especial meus pais, Irene Barroso e Paulo Rogério, pela base educacional a mim concedida e pelo carinho com que sempre me apoiaram. Agradeço de forma especial a Mayana Monteiro de Carvalho, noiva que se tornou minha esposa durante esse período. Sempre me apoiou e, mesmo a quilômetros de distância, esteve ao meu lado me apoiando, sendo compreensiva e dando o suporte que eu precisei, principalmente na reta final de conclusão deste trabalho.

Agradeço aos colegas de mestrado Helaine Lins, Kenelly Almeida, Vilmar Nepomuceno e Eudis Teixeira; aos colegas da época da graduação Nairon Viana, Reinaldo Silva, Thalisson Oliveira e Willame Pereira; colegas de profissão Francisco Airton, Francisco Alan, Francisco Júnior, Maurício Ribeiro e Paulo Barreto por terem dispendido parte de seu tempo para ajudar a coletar os dados necessários para este estudo e por colaborar com discussões que só ajudaram a engrandecer a pesquisa.

E pelo apoio durante o mestrado agradeço a Daniel Viana, Francisco Airton e Jáder Abreu que entre discussões sérias e brincadeiras, colaboraram para tornar esse período menos difícil. Pela compreensão e apoio, agradeço também ao pessoal da Ustore, empresa por qual passei e aprendi muito.

E por fim, mas não menos importante, agradeço ao meu orientador Sérgio Soares pela paciência e pela total disponibilidade a mim oferecida, sendo um exemplo de orientação e liderança, obrigado pela confiança e suporte, ao CNPq e ao Centro de Informática da Universidade Federal de Pernambuco e todo seu corpo docente que me acolheu e me mostraram bons e novos horizontes através da academia.

(7)

Basta ser sincero e desejar profundo. —RAUL SEIXAS

(8)

Resumo

Contexto - A Engenharia de Software Empírica foca em investigar questões da Engenharia de Software (ES) utilizando métodos experimentais. Estudos empíricos têm se mostrado um importante instrumento para o avanço científico da área de ES. Como exemplo de estudos empíricos utilizados nesta área, podemos destacar: experimento controlado, quasi-experimento, survey, etnografia, pesquisa-ação, estudo de caso e estudos sistemáticos da literatura (Revisão Sistemática e Mapeamento Sistemático). Dessa forma, é salutar a realização de pesquisas obje-tivando o crescimento e o amadurecimento desses tipos de estudos na área de ES. A Revisão Sistemática da Literatura (RSL) é um tipo de estudo secundário utilizado para buscar de forma abrangente trabalhos primários relacionados com uma questão específica de pesquisa. Com o crescente uso de RSL na ES, torna-se cada vez mais importante a avaliação da qualidade dos trabalhos publicados em diversas conferências e journals da área. Objetivo - O objetivo deste trabalho é identificar critérios que possam ser utilizados para analisar a qualidade de RSL em ES. De posse de um instrumento de avaliação da qualidade de uma RSL, analisaremos o nível da qualidade das principais pesquisas na área ao longo dos últimos anos das principais conferências e journals. Método - Um processo foi definido para guiar a busca e identificação de critérios de qualidade na literatura. Foram identificados 23 critérios, e os mesmos foram subdivididos em 53 questões. Após definido os critérios, foram selecionados 160 estudos secundários e distribuídos entre 10 duplas de pesquisadores para extrair os dados baseados na lista de critérios de qualidade identificados. Resultados - Dos 160 estudos secundários selecionados inicialmente, 53 foram excluídos por não serem revisões sistemáticas. Os dados dos 107 estudos avaliados mostram que 13% obtiveram a classificação de qualidade "Ruim", 39% "Regular", 34% "Boa", 14% "Muito boa" e nenhum estudo atingiu a classificação de qualidade "Excelente". Conclusões -A principal contribuição desta pesquisa é fornecer um instrumento que possa ser utilizado para avaliar RSL em ES, bem como reportar o nível de qualidade das pesquisas publicadas na área ao longo dos últimos anos. Após análise dos dados percebe-se que ainda há muito a ser melhorado em termos de execução de RSL em ES, entretanto está havendo evolução nos últimos anos.

Palavras-chave: Engenharia de Software Empírica. Revisões Sistemáticas da Literatura. Avaliação da Qualidade.

(9)

Abstract

Context - The Empirical Software Engineering focuses on investigating Software Engi-neering (SE) issues using experimental methods. Empirical studies have proven an important tool for scientific advancement in SE area. As an example of how empirical studies are being used in this area, we can highlight: controlled experiment, quasi-experiment, survey, ethnography, action research, case study and systematic studies of literature (Systematic Review and Systematic Mapping). Thus, conduct research aimed at growth and maturation of these types of studies is beneficial to SE area. The Systematic Review Literature (SRL) is a type of secondary study used to look comprehensively primary work related to a specific research question. With the growing use of SRL in SE increasingly important it is to assess the quality of papers published in various conferences and journals. Objective - The objective of this study is to identify criteria that can be used to analyze the quality of SRL in SE. Having an instrument for assessing the quality of a SRL, analyze the quality level of the leading research in the area over the past few years major conferences and journals. Method - A process has been set to guide the search and identification of quality criteria in literature. There were 23 criteria, and they were divided into 53 questions. After defining criteria were selected 160 secondary studies and distributed among 10 pairs of researchers to extract data based on the defined quality criteria list. Results - Of the 160 selected secondary studies initially, 53 were excluded because they are not systematic reviews. Data from 107 evaluated studies show that 13 % obtained the quality rating of "Poor", 39 % "Regular", 34 % "Good", 14 % "Very Good" and no study got the quality rating "Excellent."Conclusions -The main contribution of this study is to provide an instrument that can be used to assess SRL in SE and report the level of quality of published research in the area over the past few years. After analyzing the data we can see that there is still much to be improved in terms of execution SRL in SE, however there is progress in recent years.

Keywords: Empirical Software Engineering. Systematic Review Literature. Quality Assess-ment.

(10)

Lista de Figuras

3.1 Processo para Identificação dos Critérios de Qualidade . . . 33

5.1 Classificação dos Critérios . . . 52

6.1 Gráfico Qualidade Geral . . . 57

6.2 Gráfico Qualidade x Quantidade x Desvio Padrão . . . 61

6.3 Gráfico Qualidade x Quantidade x Desvio Padrão (EASE, ESEM, ESEJ) . . . . 61

F.1 Classificação dos Critérios . . . 99

(11)

Lista de Tabelas

4.1 Critérios Gerais (Dimensão: Contexto da Pesquisa) . . . 42

4.2 Critérios Gerais (Dimensão: Delineamento da Pesquisa) . . . 43

4.3 Critérios Gerais (Dimensão: Condução da Pesquisa e Coleta de Dados) . . . . 44

4.4 Critérios Gerais (Dimensão: Análise dos Dados) . . . 45

4.5 Critérios Gerais (Dimensão: Interpretação dos Resultados) . . . 46

4.6 Critérios Gerais (Dimensão: Apresentação dos Resultados) . . . 47

4.7 Critérios Específicos (Dimensão: Análise dos Dados) . . . 48

4.8 Critérios Específicos (Dimensão: Condução da Pesquisa e Coleta de Dados) . . 48

4.9 Critérios Específicos (Dimensões: Contexto da Pesquisa; Delineamento da Pesquisa) . . . 49

5.1 Escala Likert . . . 53

5.2 Classificação da Qualidade das RSL de acordo comBeecham et al.(2008) . . . 54

6.1 Tabela com a frequência das respostas por avaliador . . . 58

6.2 Tabela com os Kappas para as categorias de respostas . . . 58

6.3 Kappa Geral . . . 59

6.4 Classificação Kappa sugerido porLandis and Koch(1977) . . . 59

6.5 Listagem dos artigos agrupados por ano . . . 60

6.6 IQ Médio por grupo de anos (2004-2008 / 2009-2013) . . . 62

6.7 IQ Médio por grupo de anos (2004-2009 / 2010-2013) . . . 62

6.8 Conferências com classificação "Muito Boa" e "Boa". . . 63

6.9 Instituições com classificação "Muito Boa". . . 64

6.10 Autores com Classificação "Muito Boa". . . 64

6.11 Autores e Coautores com Classificação "Muito Boa". . . 65

6.12 Instituições com classificação "Muito Boa" considerando autor e coautores. . . 65

6.13 Porcentagem da quantidade de respostas por tipo de critério . . . 66

6.14 Porcentagem da quantidade de respostas por aspecto de avaliação . . . 66

6.15 Porcentagem da quantidade de respostas por dimensão de avaliação . . . 67

6.16 Porcentagem da quantidade de respostas por critério de avaliação . . . 68

6.17 Porcentagem da quantidade de respostas das questões mais avaliadas como "Atende Totalmente" . . . 68

6.18 Porcentagem da quantidade de respostas das questões mais avaliadas como "Não Atende" . . . 69

(12)

A.2 Estudos Incluídos (ID 63 a 120) . . . 82

A.3 Estudos Incluídos (ID 121 a 158) . . . 83

B.1 Dados Brutos da Extração (Artigos ID 1 a 50) . . . 84

B.2 Dados Brutos da Extração (Artigos ID 54 a 76) . . . 85

B.3 Dados Brutos da Extração (Artigos ID 77 a 100) . . . 86

B.4 Dados Brutos da Extração (Artigos ID 101 a 131) . . . 87

B.5 Dados Brutos da Extração (Artigos ID 133 a 158) . . . 88

C.1 Índice de Qualidade Individuais (Artigos ID 1 a 49) . . . 89

C.2 Índice de Qualidade Individuais (Artigos ID 50 a 105) . . . 90

C.3 Índice de Qualidade Individuais (Artigos ID 106 a 158) . . . 91

D.1 Índice de Qualidade por Autores (Letra A a E) . . . 92

D.2 Índice de Qualidade por Autores (Letra F a M) . . . 93

D.3 Índice de Qualidade por Autores (Letra N a Z) . . . 94

E.1 Listagem do Índice de Qualidade por Canal de Publicação (Letra A - I) . . . 95

E.2 Listagem do Índice de Qualidade por Canal de Publicação (Letra I - Z) . . . 96

(13)

Lista de Acrônimos

ESE Engenharia de Software Empírica . . . 16

ES Engenharia de Software . . . 16

SE Software Engineering . . . 8

SRL Systematic Review Literature . . . 8

RSL Revisão Sistemática da Literatura . . . 16

ESBE Engenharia de Software Baseada em Evidências . . . 20

ESEM Empirical Software Engineering and Measurement . . . 16

EASE Evaluation and Assessment in Software Engineering . . . 16

ESEJ Empirical Software Engineering Journal . . . 16

(14)

Sumário

1 Introdução 16

1.1 Contexto . . . 16

1.2 Motivação e Definição do Problema . . . 17

1.3 Objetivo Geral . . . 17

1.3.1 Objetivos Específicos . . . 17

1.4 Questões de Pesquisa . . . 18

1.5 Resultados Esperados . . . 18

1.6 Metodologia . . . 18

1.6.1 Identificação dos critérios de qualidade . . . 19

1.6.2 Seleção das RSL para serem avaliadas . . . 19

1.6.3 Exclusão de artigos . . . 19

1.6.4 Extração dos dados para avaliação da qualidade . . . 20

1.7 Estrutura do Trabalho . . . 20

2 Fundamentação Teórica 21 2.1 Engenharia de Software . . . 21

2.2 Engenharia de Software Empírica . . . 23

2.2.1 Tipos de Métodos Empíricos . . . 24

2.2.1.1 Experimento Controlado . . . 24 2.2.1.2 Survey . . . 24 2.2.1.3 Estudo de Caso . . . 25 2.2.1.4 Etnografia . . . 25 2.2.1.5 Pesquisação . . . 25 2.2.1.6 Estudos Secundários . . . 26 2.3 Definição de Qualidade . . . 27 2.4 Avaliação da Qualidade em RSL . . . 28 2.5 Técnica Snowballing . . . 29 2.6 Trabalhos Relacionados . . . 29 2.7 Resumo . . . 30

3 Processo para Identificação de Critérios de Qualidade 32 3.1 Identificando Critérios de Qualidade . . . 32

3.1.1 Identificação dos Critérios (Etapa E1) . . . 34

3.1.1.1 Pesquisa Anterior - Etapa E1.1 . . . 34

(15)

3.1.1.3 Snowballing (Etapa E1.3) . . . 36

3.1.2 Intersecção dos Critérios Encontrados (Etapa E2) . . . 37

3.1.3 Avaliação dos Critérios (Etapa E3) . . . 37

3.2 Resumo . . . 37

4 Compilação dos Critérios Pesquisados 38 4.1 Compilação dos Critérios de Qualidade Identificados . . . 38

4.1.1 Organização dos Critérios . . . 38

4.1.1.1 Classificação quanto ao Aspecto . . . 38

4.1.1.2 Classificação quanto à Dimensão . . . 39

4.1.1.3 Classificação quanto à Especificidade . . . 39

4.1.2 Critérios Gerais . . . 40 4.1.2.1 Primeira Alteração . . . 40 4.1.2.2 Segunda Alteração . . . 40 4.1.2.3 Terceira Alteração . . . 40 4.1.3 Critérios Específicos . . . 47 4.2 Resumo . . . 50

5 Metodologia para Avaliação das Revisões Sistemáticas 51 5.1 Seleção das Revisões Sistemáticas . . . 51

5.2 Escala de Avaliação . . . 52

5.3 Divisão dos Estudos entre os Avaliadores . . . 54

5.4 Coleta dos Dados . . . 54

5.5 Resumo . . . 55

6 Discussão dos Resultados Encontrados 56 6.1 Avaliação Geral . . . 56

6.2 Avaliação do Grau de Concordância do Instrumento de Avaliação . . . 57

6.3 Resposta às Questões de Pesquisa . . . 59

6.3.1 Q1 - Houve melhoria significativa na qualidade das RSL ao logo dos últimos anos? . . . 59

6.3.2 Q2 - Quais são as conferências que publicam pesquisas de melhor quali-dade? . . . 62

6.3.3 Q3 - Quais são as instituições e autores que publicam pesquisas de melhor qualidade? . . . 63

6.3.4 Q4 - Quais os principais fatores que dificultam uma RSL ser considerada de melhor qualidade? . . . 66

(16)

15 7 Considerações Finais 71 7.1 Ameaças à Validade . . . 71 7.1.1 Validade Interna . . . 71 7.1.2 Validade Externa . . . 72 7.1.3 Validade de Conclusão . . . 72 7.2 Trabalhos Futuros . . . 73 7.3 Conclusões . . . 73 Referências 75 Apêndice 80 A Estudos Incluídos 81 B Dados Brutos da Pesquisa 84 C Índice de Qualidade (IQ) Individuais dos Estudos Avaliados 89 D Índice de Qualidade (IQ) por Autor dos Estudos Avaliados 92 E Índice de Qualidade (IQ) por Canal de Publicação dos Estudos Avaliados 95 F Guia para Realização da Extração de Dados 97 F.1 Resumo . . . 97

F.2 Introdução . . . 97

F.3 Pesquisadores Envolvidos . . . 98

F.4 Processo de Extração de Dados . . . 99

(17)

16 16 16

1

Introdução

1.1

Contexto

Engenharia de Software (ES) é uma área do conhecimento que abrange vários aspectos no desenvolvimento de software, compreendendo desde a análise, projeto e desenvolvimento até a manutenção, sempre objetivando agregar mecanismos para tornar o processo de desenvolvimento mais racional, científico, rentável e repetível. Já a Engenharia de Software Empírica foca em investigar questões da ES utilizando métodos experimentais. Um exemplo de estudo experimental é a Revisão Sistemática, que é um tipo de estudo secundário utilizado para buscar de forma abrangente trabalhos primários relacionados com uma questão específica de pesquisa.

Estudos empíricos há muito tempo são bastante utilizados nas ciências sociais e na ciência da saúde para a avaliação e validação de estudos e hipóteses científicasEgger et al.

(2008). A vantagem desse tipo de estudo é que ele se baseia na observação dos fatos de forma sistemática levantando evidências para então tomar decisões e conclusões.

Nos últimos anos é notório o aumento do uso de estudos empíricos para guiar pesquisas na área da ES. Prova disso é um trabalho realizado porBorges et al.(2015) na qual se evidencia o crescimento dos diversos tipos de pesquisas empíricas, com destaque para Revisão Sistemática da Literatura (RSL), nas principais conferências da área: Empirical Software Engineering and Measurement (ESEM), Evaluation and Assessment in Software Engineering (EASE) além do journalEmpirical Software Engineering Journal (ESEJ).

A inclusão de métodos experimentais na ES começou na década de 80, quandoBasili et al.

(1986) começou a questionar e discutir o uso de métodos empíricos na ES. Posteriormente, vários estudiosos vêm trabalhando com vistas a amadurecer a área no sentido da utilização do método empírico.Kitchenham(2004) eWohlin et al.(2000) são exemplos de pesquisadores que vem estudando e colaborando com o crescimento da área da Engenharia de Software Empírica (ESE) definindo padrões e guias para auxiliar outros pesquisadores a aplicar o método empírico.

Dessa forma, antes de adotar determinada tecnologia, método, ferramentas e/ou lin-guagens, a avaliação desses mesmos através de estudos empíricos auxilia pesquisadores e profissionais da indústria a tomar decisões mais assertivas e com maior probabilidade de acerto,

(18)

1.2. MOTIVAÇÃO E DEFINIÇÃO DO PROBLEMA 17

haja vista que as conclusões são baseadas em evidências obtidas de forma sistemática através do método científico.

1.2

Motivação e Definição do Problema

Segundoda Silva et al.(2011) a qualidade dos artigos em conferências e workshops melhorou nos últimos anos. Consequência disso é que mais pesquisadores estão utilizando guidelinespara apoiar a execução de RSL. Entretanto, na condução desses estudos, ainda não há preocupação com questões que melhorariam o resultado, como por exemplo: analisar a qualidade também dos estudos primários que são incluídos na RSL.

SegundoTeixeira(2014), em se tratando de experimentos no contexto de ESE, não houve avanços significativos na qualidade dessas pesquisas ao longo dos anos. Esse fato é importante pois levanta a dúvida se isso também ocorre com RSL. Posto isso, o crescente uso de métodos experimentais na ES faz com que a avaliação da qualidade dos trabalhos publicados em diversas conferências e journals da área seja cada vez mais importante e necessária.

Desta forma é salutar uma forma de avaliar RSL pois, segundoKitchenham et al.(2002), o aumento da validade interna de uma pesquisa a direciona para uma qualidade maior nos resultados encontrados.

1.3

Objetivo Geral

De posse de um instrumento de avaliação da qualidade de uma RSL, o objetivo desta pesquisa é analisar o nível da qualidade de um conjunto de RSL das principais conferências e journals, identificando os autores e conferências que melhor atendem os requisitos de qualidade, bem como sua evolução ao longo dos últimos anos, traçando um perfil do nível desses trabalhos. É importante salientar que para atingir esse objetivo, o instrumento de qualidade levará em consideração o relatório da metodologia descrita do estudo avaliado. Sendo assim, nosso objetivo é avaliar a qualidade da utilização da metodologia e não dos resultados encontrados pelo estudo. Todavia acredita-se que quanto melhor se segue uma metodologia, maior serão as chances dos resultados serem mais confiáveisKitchenham et al.(2002).

1.3.1

Objetivos Específicos

Para realizar a avaliação da qualidade de RSL, este trabalho também tem como objetivos secundários:

 Reunir, através de uma busca na literatura, critérios de qualidade que possam ser utilizados para avaliar RSL em ES;

(19)

1.4. QUESTÕES DE PESQUISA 18

 A partir de uma pesquisa prévia realizada porTeixeira(2014) elaborar um modelo de medição de qualidade e aplicá-lo no contexto de RSL, incluindo critérios de qualidade específicos;

 Desenvolver um processo para identificação de critérios de qualidade na literatura de ESE;

 Avaliar o instrumento de medição de qualidade desenvolvido e verificar a confiabili-dade das respostas entre os avaliadores do estudo;

 Identificar quais são os aspectos que mais precisam ser melhorados ao se realizar uma RSL.

1.4

Questões de Pesquisa

De acordo com o problema e os objetivos expostos, as questões de pesquisas definidas para esse estudo foram:

 Q1 - Houve melhoria significativa na qualidade das RSL ao logo dos últimos anos?

 Q2 - Quais são as conferências que publicam pesquisas de melhor qualidade?

 Q3 - Quais são as instituições e autores que publicam pesquisas de melhor qualidade?

 Q4 - Quais os principais fatores que dificultam uma RSL ser considerada de melhor qualidade?

1.5

Resultados Esperados

Além de avaliar a qualidade de RSL no contexto da ESE, esta dissertação também estende o trabalho de um outro pesquisador do mesmo grupo de pesquisa do autor deste trabalho. Na ocasiãoTeixeira(2014) realizou uma avaliação de qualidade de experimentos controlados em ES.

Da mesma forma espera-se com esse trabalho, que os critérios aqui identificados e utilizados possam ser estendidos para que sejam aplicados também a outros tipos de estudos empíricos na ES por outros pesquisadores.

1.6

Metodologia

Esta pesquisa pode ser enquadrada como um trabalho primário, pois foi necessário elaborar um protocolo próprio para guiar o estudo. Entretanto na segunda fase da pesquisa (extração dos dados), fez-se uso de técnicas utilizadas em mapeamentos sistemáticos. Apesar da

(20)

1.6. METODOLOGIA 19

utilização dos trabalhos secundários (as RSL selecionadas para avaliação) como matéria-prima para a execução da extração dos dados, os resultados dessas pesquisas não foram o foco do estudo desta dissertação, e sim a metodologia empregada, o que reforça ainda mais para não caracterizar este estudo como secundário e nem como terciário.

Para a execução do trabalho foram necessárias 4 (quatro) etapas. A seguir uma breve descrição de cada uma:

1.6.1

Identificação dos critérios de qualidade

Para identificar os critérios de qualidade foi realizada uma revisão na literatura utilizando a técnica snowballing, conforme é descrito em Wohlin (2014) em busca de trabalhos que identifiquem tais critérios.

Os critérios identificados foram catalogados e divididos em critérios gerais e específicos, assim como é proposto no trabalho deTeixeira(2014). Esta abordagem facilita a extensão desta pesquisa para outros tipos de estudos empíricos.

1.6.2

Seleção das RSL para serem avaliadas

Na etapa seguinte foi realizada a seleção das RSL para serem submetidas à avaliação da qualidade de acordo com o conjunto de critérios já identificados. Optou-se por utilizar o mesmo conjunto de RSL que os trabalhos deKitchenham et al.(2009),Kitchenham et al.(2010),

da Silva et al.(2011) e Borges et al.(2015) utilizaram, totalizando 160 trabalhos para serem avaliados.

1.6.3

Exclusão de artigos

Após identificados os 160 artigos, cada um deles foi analisado por uma dupla de pesqui-sadores para definir se o mesmo atende aos seguintes critérios de exclusão:

 É um short-paper (artigo com até 4 páginas);

 Não é uma revisão sistemática, segundo o guideline de Barbara Kitchenham definido emKitchenham(2004).

Caso algum artigo atendesse a algum desses critérios, ele não era avaliado e o mesmo era retirado da pesquisa. Com isso, o total de estudos a serem avaliados caiu para 107 artigos. Esse processo foi realizado por duplas de pesquisadores, na qual um pesquisador não tinha conhecimento da opinião do outro até o momento em que o autor desse trabalho iria compilar as opiniões para então saber se houve divergências. Em caso positivo, os mesmos se reuniam para discutir até entrar em acordo.

(21)

1.7. ESTRUTURA DO TRABALHO 20

1.6.4

Extração dos dados para avaliação da qualidade

Caso um artigo atendesse a algum critério de exclusão, o mesmo era submetido à extração de dados de acordo com os critérios de qualidade definidos. Essa extração também foi efetuada em duplas com posterior análise de eventuais discordâncias.

1.7

Estrutura do Trabalho

Além deste capítulo que aborda de forma introdutória o tema desta pesquisa, esta dissertação está estruturada como segue.

O Capítulo 2 (Fundamentação Teórica) traz um overview dos principais temas envolvidos neste trabalho, tais como: Engenharia de Software Baseada em Evidências (ESBE), RSL, qualidade e avaliação da qualidade de estudos empíricos.

O Capítulo 3 (Processo para Identificação de Critérios de Qualidade) define um processo que servirá como guia para a busca e identificação de critérios de qualidade que serão utilizados para avaliação de RSL.

O Capítulo 4 (Compilação dos Critérios Identificados) relata como foram identificados cada um dos critérios que foram utilizados nesta pesquisa utilizando o processo definido no capítulo anterior.

O Capítulo 5 (Metodologia para Avaliação das Revisões Sistemáticas) descreve a me-todologia utilizada para selecionar os estudos que entraram na pesquisa e como foi realizada a extração de dados desses mesmos estudos para avaliar sua qualidade, utilizando o conjunto de critérios identificados anteriormente.

O Capítulo 6 (Discussão do Resultados Encontrados) traz discussões e análises relaciona-dos aos resultarelaciona-dos oriunrelaciona-dos da extração realizada, bem como discute sobre os esturelaciona-dos excluírelaciona-dos durante a extração dos dados. Além disso as questões de pesquisa são respondidas e os resultados são analisados estatisticamente.

Por fim, no Capítulo 7 (Considerações Finais) são apresentadas as ameaças à validade do trabalho, propostas para trabalhos futuros e conclusões gerais da pesquisa. Uma análise final sobre a pesquisa também é apresentada.

(22)

21 21 21

2

Fundamentação Teórica

2.1

Engenharia de Software

A Engenharia de maneira geral é a aplicação de conhecimentos científicos, econômicos, sociais e práticos para fins de criação, construção e manutenção de estruturas, máquinas, proces-sos e sistemas. Nestes últimos procesproces-sos, esta ciência leva em conta a sociedade, a técnica, os produtos e o meio ambiente, se utilizando de métodos científicos ou empíricos para alcançar seu objetivoRocha(2007).

A Engenharia de Software (ES) surgiu a partir da necessidade de melhorar o software, com o objetivo de criar métodos que auxiliassem no trabalho e desenvolvimento do mesmo. A ES pode ser dita como uma produção de softwares aliada ao compromisso de desenvolvimento, manutenção e geração de valores científicos e rentáveisDyba et al.(2005).

Aplicar a engenharia dentro do mercado de software foi a medida certa encontrada para vencer a crise do software, que enfrentava um período de grande demanda ao tempo que crescia em complexidade. Aliar ao software uma ciência que cria, constrói e mantém, foi a solução para muitos problemas que se acumulavam nas décadas de 60 e 70. Da união da engenharia com o desenvolvimento de software, surgiu a Engenharia de Software (ES), aumentando e melhorando o mercado de softwares, bem como abrindo diferentes portas para o crescimento e aprofundamento desta áreaSommerville(2006).

Para entendermos melhor a definição de ES faremos uma pequena comparação. Pensemos numa grande construção, desde de sua criação até sua finalização ela demanda acompanhamento e trabalho contínuo. Inicia-se pela ideia, passa pela necessidade, pelos impactos que pode trazer ao meio e às pessoas. Depois desse início, vem a prática, a construção de fato. Podem acontecer erros, que devem ser corrigidos, testados, avaliados e reavaliados. A construção continua, novas ideias podem surgir para a melhoria, desenvolvimento e agilidade do processo. O engenheiro responsável pela obra prevê os resultados, como sua construção será recebida e utilizada por seus usuários, pela sociedade. É necessário salientar que este mesmo engenheiro se utilizou de métodos científicos e práticos para desenhar sua obra. Estudos experimentais ou sistemáticos, foram a base do conhecimento inicial para execução, diminuindo custos e riscos. Finalizada a

(23)

2.1. ENGENHARIA DE SOFTWARE 22

construção, ela é mais uma vez avaliada, agora pelos usuários. Se ocorreram erros, estes mesmos devem ser apontados e corrigidos. Após o fim da obra, o trabalho continua, toda obra precisa de manutenção contínua para prover melhorias para o bem-estar de seus usuários. Assim podemos entender a ES como uma obra, onde o software é o projeto principal.

Criação, execução, testes, aplicação, desenvolvimento, gestão e manutenção são ativida-des ativida-desenvolvidas pela ES. Esta última visa um processo mais sistemático, com bases científicas e quantificáveis, se aproximando então das outras engenharias, como exemplo da civil, citada anteriormenteSommerville(2006),IEEE(1990).

As áreas que formam a ES visam o desenvolvimento de métodos que auxiliem, ou mesmo modifiquem o processo de trabalho do operador de software, dando ao mesmo oportunidade de trabalhar de forma mais produtiva com tecnologias avançadas e processos que enriqueçam a qualidade dos seus produtosBorges(2015).

É uma ciência considerada eficaz, por atingir de forma mais simples e com maior produtividade seus objetivos. Ao mesmo tempo é também eficiente, pois visa a economia de tempo e recursos, bem como de riscos, tornando o processo, seja ele de desenvolvimento ou de manutenção, mais prático, rápido, científico e lucrativo. Os programas desenvolvidos em ES devem também ser copiáveisSommerville(2006).

A qualidade e a grandiosidade dos projetos estão diretamente relacionadas a ES. Ela se utiliza de princípios já consolidados dentro da engenharia, se tornando, pois, uma alternativa de alta confiabilidade para o desenvolvimento, operação e manutenção de softwares.

Os desafios da área de ES foram acertadamente resolvidos de forma teórica desde que o software foi visto como uma engenharia. Porém quando se aplica a pesquisa em ES é visto que ainda existe uma lacuna entre realidade e teoria. Há, portanto, a necessidade de pesquisas empíricas que comprovem de fato a eficácia destes recursos propostosSjoberg et al. (2007),

Dyba et al.(2007),Jørgensen(2013),Basili(1996).

A ES pode ser dividida segundo os métodos que regem seus estudos empíricos. O método experimental é tido porTravassos et al.(2002) como o mais indicado para pesquisa.

O estudo baseado em pesquisa teve início com a medicina, uma vez que, o que era provado através de experimentos, tornou-se mais confiável do que aconselhamentos médicos sem embasamento científico. A partir daí diversas áreas abraçaram a pesquisa, e a tornaram fontes de conhecimentos e verdades antes não comprovadasKitchenham et al.(2009). E não foi diferente com a ES, que com o exemplo da medicina baseada em evidencias, se ramificou em Engenharia de Software Baseada em Evidências (ESBE), com o intuito de facilitar a prática e os valores humanos no que se refere ao desenvolvimento, melhoramento e manutenção de software

Travassos et al.(2002).

Chama-se de Engenharia de Software Empírica (ESE) a ES responsável pela investigação e definição do trabalho dos engenheiros de software no que se refere aos desafios reais do dia a dia no ambiente de trabalho. As atenções para esta área não se iniciaram agora, estão presentes a quase 30 anos através de estudos realizados por autores utilizando esta área de pesquisa para

(24)

2.2. ENGENHARIA DE SOFTWARE EMPÍRICA 23

exploração, descrição e avaliações de eventos naturais baseados em evidencias que podem ser colhidas de forma sistemática ou experimentalDyba et al.(2005).

2.2

Engenharia de Software Empírica

ES pode ser definida como, segundoBasili(1993), o desenvolvimento e evolução de um sistema de software baseado sobre um conjunto de princípios, tecnologias e processos. Dessa forma, enquanto a área de ES amadurece, novas formas de construir devem ser introduzidas. Os elementos que compõem tecnologias e suas relações se tornam cada vez mais complexas com o passar do tempo.

Estudos empíricos são realizados para ajudar pesquisadores e pratictioners a melhorar a avaliação, prever, entender e controlar as melhorias dos produtos e processos de software

Kitchenham et al.(2002).

Estudos empíricos são atividades que requerem um processo bem definido para guiar a execução. Em suma, o pesquisador define uma hipótese e testa a mesma usando especificamente processos projetados de uma forma interativaWohlin et al.(2000).

A pesquisa baseada em métodos empíricos está apoiada na realidade, ou seja, se utiliza de fenômenos naturais para exploração, descrição, avaliação e previsão. O “achismo” dá lugar a experimentos e revisões sistemáticas através de uma coleta rigorosa de dados empíricosBorges

(2015),Teixeira(2014).

SegundoWohlin et al.(2012), o estudo empírico permite avaliar de forma sistemática, disciplinada, quantificável e controlada as funções e tarefas desenvolvidas por pessoas. Estes estudos são realizados para auxiliar pesquisadores e practitioners a melhorar a avaliação, prever, entender e controlar as melhorias dos produtos e processos de software.

Deve existir um planejamento adequado com processo definido para que os estudos empíricos sejam colocados em execução. De maneira geral, o pesquisador levanta uma hipótese e a submete a teste se utilizando de processos projetados especificamente. A partir da informação obtida a hipótese é refinada e são abertas lacunas para novas hipótesesWohlin et al.(2000).

A partir destas afirmações é fácil entender o surgimento da ESE. Além da necessidade de avaliação dos programadores responsáveis pela execução da ES, a ESE pesquisa as tecnologias utilizadas, as principais tarefas, o ambiente em que são executadas, bem como os resultados obtidos pelas mesmas. O uso de ESE melhora o trabalho de toda área de ES, pois aponta quais são os melhores métodos e ferramentas a serem utilizadas através de um embasamento científico. Ela leva a evolução dos sistemas de software, no momento em que se propõem a avaliar e apontar formas de crescimentoSjoberg et al.(2005).

O método de avaliação empírica segue um modelo e possui um método de avaliação. Este método é aplicado, avaliado, analisado e novamente posto em prática para ser reiniciado o processo novamente. Assim, mesmo com a evolução, os meios de pesquisa empírica seguem em busca da melhoria. Exemplos são os guidelines, que são modelos de estudos empíricos que

(25)

2.2. ENGENHARIA DE SOFTWARE EMPÍRICA 24

permitem a projeção, planejamento, execução e análise destes últimos. Além destes, pesquisas tem demonstrado o uso e a importância de ambientes de apoio, facilitando a organização de estudos empíricos, mesmo que as pessoas envolvidas estejam em locais distintos. Dentre todas as vantagens, a boa documentação permite que estes estudos sejam copiáveis, uma importante característica da ESBorges(2015),Teixeira(2014).

Em suma, a ESE visa a melhoria da qualidade da ES, buscando, analisando, avaliando, questionando e pondo em prática diferentes métodos e conceitos com o objetivo de facilitar o trabalho, oferecendo ferramentas de alta precisão e fiscalizando o funcionamento, limitações e qualidade dos processos de desenvolvimento de softwares. Baseados em outros estudos científicos, apresentaremos a seguir os principais métodos empíricos utilizados na ESE.

2.2.1

Tipos de Métodos Empíricos

Nesta sessão serão apresentados os principais métodos para o estudo empírico na ES: experimento controlado, survey, estudo de caso, etnografia, pesquisação e revisões sistemáticas. Tais métodos podem ser utilizados tanto em estudos primários como secundários.

2.2.1.1 Experimento Controlado

Como o próprio nome sugere, este estudo é realizado, na sua maior parte, dentro de laboratórios em virtude do rigor em relação ao controle do ambiente de trabalhoJuristo and Moreno(2010). O experimento se baseia na investigação apoiada em hipóteses em que variáveis independentes são testadas através da manipulação das mesmas sobre variáveis dependentes.

Por meio da experiência, os pesquisadores concluem seus experimentos a partir da relação causa e efeito resultante do processo. Este tipo de método empírico é importante para formular teorias, validar medidas e confirmar conhecimentos tradicionais. É considerado um método de alta confiabilidade e se torna vantajoso na medida em que o pesquisador pode escolher criteriosamente as medidas sem que haja interferência do meio.

2.2.1.2 Survey

Traduzindo para língua portuguesa, survey significa pesquisa e está voltado para expe-rimentos que abrangem um grande contingente populacional, sendo muitas vezes conhecido como censo. É necessário que a natureza da população a ser estudada seja estabelecida antes da pesquisa, com o objetivo de se extrair uma população definida para que toda população não precise ser questionada.Travassos et al.(2002) afirmou que se deve recorrer ao survey quando outros métodos já tenham sido testados e não conseguiram êxito.

Seu método está baseado em um questionário criado pelo próprio pesquisador, que podem estar associadas a opiniões ou mesmo comportamentos e ações em relações a um dado objeto de estudoEasterbrook et al. (2008), Fuks(2011). Este questionário tem por objetivo extrair informações qualitativas e/ou quantitativas, para que as mesmas sejam expostas, descritas

(26)

2.2. ENGENHARIA DE SOFTWARE EMPÍRICA 25

e exploradas. Além disso, as variáveis do estudo são levantadas para que sejam posteriormente avaliadas. Além dos questionários, as entrevistas e técnicas de registros de dados, são meios também utilizados no método surveyTeixeira(2014),Borges(2015).

2.2.1.3 Estudo de Caso

SegundoYin(2009), este método de pesquisa empírica “investiga um fenômeno contem-porâneo dentro de seu contexto de vida real, especialmente quando os limites entre fenômeno e contexto não são claramente evidentes”.

Existem divergências entre os autores a respeito do conceito real de estudo de caso.

Fuks(2011) afirma que não há neste tipo de estudo, nenhum tipo de controle sobre as variáveis envolvidas. Já paraEasterbrook et al.(2008) este método possui uma amostragem intencional, com uso de uma variedade de dados. Flyvbjerg (2006) afirma que estudos de caso levam a compreender o porquê de certos fenômenos ocorrerem.

É consenso entre os estudiosos que estudos de caso são métodos empíricos rigorosos, que avaliam casos reais e envolvem pesquisas de caráter exploratório e com objetivos de avaliar qualidades.

2.2.1.4 Etnografia

SegundoFuks(2011), este método empírico surgiu a partir da curiosidade a respeito do funcionamento de tribos indígenas na antropologia. Faz-se através da observação e tem foco no estudo de comunidades. Este método se aplica pela inviabilidade da aplicação de outras práticas, como questionários e entrevistas, e visa conhecer diferentes culturas e como a população em observação se relaciona entre siRobinson et al.(2007).

No que se refere a ES a etnografia pode ser aplicada em pequena escala, como em empre-sas no seu grupo de desenvolvedores, como em grande escala, por exemplo, nos desenvolvedores JavaEasterbrook et al.(2008).

A grande vantagem deste método é não obrigar a população em estudo a se submeter a outros métodos mais invasivos, permitindo a avaliação de questões sobre uma comunidade específica através do meio sócio cultural da mesmaTeixeira(2014).

2.2.1.5 Pesquisação

Como o nome já sugere, neste tipo de método empírico, ao mesmo tempo em que a pesquisa ocorre, os pesquisadores tentam solucionar o problema através de ações com o objetivo de melhorar sua qualidadeDavison et al.(2004),Easterbrook et al.(2008).

O pesquisador passa a ser uma figura atuante, interferindo no processo de forma ativa, modificando e aprendendo em decorrência da ação praticada. A teoria e a prática se misturam, e levam o pesquisador ao estudo e pesquisa contínua, para se chegar a um resultado final.

(27)

2.2. ENGENHARIA DE SOFTWARE EMPÍRICA 26

Porém, este tipo de método ainda é novo no meio experimental, e necessita de mais estudos com embasamentos teóricos que fortifiquem e solidifiquem seu uso dentro da prática empírica.

SegundoKock(2007) eLau(1999), a pesquisação expande o conhecimento científico, desenvolvendo competências tanto no pesquisador, como no pesquisado. Além disso, trabalha a colaboração e se utiliza de feedbacks no seu processo crítico.

2.2.1.6 Estudos Secundários

A Engenharia de Software Baseada em Evidências (ESBE), tem por objetivo o estudo sistemático sobre todas as evidências existentes a respeito de uma determinada questão, seja ela de forma ampla ou específicaCosta(2010). SegundoKitchenham et al. (2004), a ESBE oferece melhores tecnologias e dá opções aos profissionais e pesquisadores na escolha de suas ferramentas de estudo e/ou trabalho.

Ainda de acordo comKitchenham et al.(2004), os trabalhos baseados em ESBE, são ditos secundários, pois se fazem a partir da seleção e estudo de pesquisas primárias e podem ser classificados de acordo com sua abordagem, como pode ser visto a seguir:

 Revisões Sistemáticas de Literatura

A RSL é um método empírico que busca na literatura por melhores evidências e que avalia as mesmas quanto a sua validade, aplicabilidade e impactoDybå and Dingsøyr(2008). Utiliza de metodologia segura, de caráter rigoroso e auditável, relacionando a questão da pesquisa a evidência disponível resultanteKitchenham and Charters(2007). Seu valor científico é aumentado por ser um método não tendencioso, pela busca em grande escala na literatura por estudos primários e pelo uso de critérios claros e reaplicáveis em outros estudosTravassos

(2007).

É considerada como um estudo secundário, pois depende do agrupamento de estudos primários para avaliar as evidências sobre uma determinada tecnologia e depende dos resultados destes últimos para ser conduzidaPetersen et al.(2008). Kitchenham(2004) afirma que asRSL são imparciais, analisando e interpretando toda pesquisa relacionada a uma questão específica. Este tipo de método empírico pode gerar resultados sobre, por exemplo, a eficácia de um determinado tratamento, intervenção ou mesmo uma tecnologiaPetticrew and Roberts(2008).

Quando uma nova área de conhecimento surge, é comum que pesquisadores iniciem uma revisão bibliográfica para selecionar pesquisas relacionadas a esse assunto em questão de forma específica. Podem ser entendidas segundo as seguintes características específicasKitchenham

(2004):

 Clareza no protocolo de estudo;

 Abordagem feita de forma específica na questão de pesquisa altamente focada;

(28)

2.3. DEFINIÇÃO DE QUALIDADE 27

 Estudos avaliados para determinar sua qualidade científica, incluindo resumo descri-tivo ou meta-análise (se for o caso), para combinar os achados em toda uma série de estudos.

O protocolo em estudo deve ser responsável pela identificação, avaliação e interpretação do resultado de todas as pesquisas sobre uma determinada questão específica de uma área ou parte dela. Este mesmo protocolo deve seguir uma sequência definida de atividades e deve ser estabelecido previamente na pesquisa. A análise e a síntese dos dados em uma RSL devem ser realizadas de forma mais aprofundada possível, identificando, avaliando e interpretando questões de estudo em uma área específicaKitchenham and Charters(2007).

 Mapeamento Sistemático

Considerada por muitos autores como um tipo de RSL, o mapeamento sistemático é um método de estudo empírico que aborda e agrupa estudos de pesquisa primários de maneira mais generalizada, com caráter exploratório no que se refere a questões mais amplas, revelando evidências de uma área de pesquisaKitchenham(2004).

O resultado dos trabalhos em estudo neste tipo de pesquisa tem função mais classificatória, e não seguem uma questão específica, como nas RSL. São também considerados estudos secundários, com ampla visão do estudo em questão e tem por objetivo identificar as evidências existentes sobre o mesmoKitchenham and Charters(2007). ParaCartaxo(2014), o mapeamento sistemático abre portas para as RSL, na medida em que suas evidências gerais podem apresentar questões para o desenvolvimento de um estudo específico.

 Meta-análise

Sintetiza informações de estudos primários, sendo então classificada com pesquisa secundária. Utiliza de técnicas estatísticas quantitativas para atingir suas evidências de forma mais consistente e confiável. Os estudos devem ser homogêneos, e os dados de pesquisa devem ter coeficientes de correlação disponíveis. Assim, a aplicação desse método na ES se torna complicado pela diversidade existente nos seus estudos empíricos, confrontando com a homogeneidade exigida pela meta-análiseCartaxo(2014),Easterbrook et al.(2008).

2.3

Definição de Qualidade

No contexto de pesquisas científicas, o conceito de qualidade está atrelado ao aumento da validade interna de uma pesquisa. Para que esta avaliação seja feita, podemos seguir os seguintes pontos:

 Processos de inclusão e exclusão

(29)

2.4. AVALIAÇÃO DA QUALIDADE EM RSL! (RSL!) 28

 Facilidade de atualização

 Mecanismos

 Replicabilidade

 Rigor estatístico

Não existe um conceito comum para “qualidade”. SegundoKitchenham et al.(2002) podemos defini-la utilizando alguns conceitos:

 Polarização: tendência a produzir resultados que partem sistematicamente a partir dos resultados "verdadeiros". Resultados imparciais são válidos internamente;

 Validade interna (planejamento e execução): concepção e a realização do estudo são susceptíveis de evitar o erro sistemático. A validade interna é um pré-requisito para a validade externa;

 Validade externa (generalização e aplicabilidade): extensão em que os efeitos observados no estudo são aplicáveis fora do estudo.

ParaWohlin et al.(2012), podemos classificar as limitações de um estudo empírico em validades: interna, externa, de conclusão e de constructo. As validades internas e externas foram anteriormente explicadas. A validade conclusão por sua vez se refere à relação entre os métodos usados e os resultados alcançados. Já a validade constructo se relaciona as variáveis, em relação a medição com precisão dos conceitos pesquisados.

SegundoKitchenham et al.(2002), a garantia de qualidade pode ser dividida em seis dimensões: contexto experimental (objetivo da pesquisa devidamente definidos e descrição da pesquisa suficiente para análise de outros profissionais e pesquisadores) , delineamento experi-mental (se refere aos meios utilizados no estudo, descrevendo recursos, produtos e processos relacionados ao estudo), condução do experimento e coleta dos dados (coleta de medidas de resultados experimentais), análise (garantia da análise de dados prosseguir de forma correta), apresentação (capacidade do leitor compreender e analisar a pesquisa) e interpretação dos resultados (são as conclusões, estas devem seguir diretamente os resultados).

2.4

Avaliação da Qualidade em RSL

Se definir “qualidade” é uma tarefa complicada devido à falta de consenso entre os autores, avalia-la se torna ainda mais complicado. De forma geral, a qualidade do estudo significa aumentar suas validades internas e externas, ao mesmo tempo em que se deve diminuir os desvios da pesquisaKitchenham et al.(2002).

(30)

2.5. TÉCNICA SNOWBALLING 29

O uso de critérios simples de qualidade, listas de verificação ou escalas de qualidade são alternativas facilitadoras para análise de qualidade dentro da ESHIGGINS(2008),KHAN

(2001).

Os critérios simples de qualidade foram apontados por KHAN (2001): claramente atendido, não atendido ou parcialmente atendido. Assim ocorre uma simplificação na análise qualitativa dos dados. Já paraKitchenham et al.(2012), o uso de listas de verificação aumenta a confiabilidade do estudo pelo uso de um número considerável de questões que dizem respeito a qualidade. A escala de qualidade por fim, deve ser feita segundo cada estudo de forma específica, se utilizando de diretrizes que mais se identifiquem com o tipo de pesquisa abordado.

2.5

Técnica Snowballing

Ao aplicar uma abordagem snowballing, o primeiro desafio é identificar um conjunto inicial de estudos a serem utilizados para a pesquisa. A partir daí surge um conjunto inicial de pesquisas que devem ser incluídos dentro de uma revisão sistemática de literatura, com diferentes autores e anos de publicação. Este conjunto de artigos deve ser numeroso, dependendo, entretanto, da amplitude da área em estudo.

A partir deste conjunto, é realizada a extração dos estudos considerados de fato relevantes para a pesquisa. Uma vez que o conjunto inicial é decidido, incluindo apenas artigos que serão incluídos na análise final, passa-se para próxima fase: extração do máximo de informações possíveis do estudo que está sendo examinado. Além disso, as informações encontradas na lista de referência devem ser examinadas e avaliadas com cuidado. Snowballing refere-se à identificação de novos estudos com base nesse conjunto de artigos que está sendo examinado. A partir do referencial teórico é possível identificar outros trabalhos que somam à pesquisa e enriquecem o estudo em questãoWohlin(2014)

2.6

Trabalhos Relacionados

Analisar a qualidade de artigos científicos em ES ainda é uma atividade que necessita de grande investimento acadêmico, pois a maioria dos trabalhos se preocupa apenas com o processo de inclusão e exclusão de estudos, ao invés de se preocupar com a qualidade global dessas pesquisasTeixeira(2014).

No trabalho deTeixeira(2014), foi analisada a qualidade de experimentos controlados dentro da realidade da ESE no período de 1997 a 2012. Concluiu que houve uma melhoria significativa na qualidade dos experimentos que relataram uso de mecanismo de suporte que permitiam planejar, executar e analisar os resultados das pesquisas em ES.

Kitchenham et al.(2009) em seu estudo avalia o impacto das revisões sistemáticas de literatura RSL. Utilizou-se o método de revisão sistemática da literatura padrão empregando uma

(31)

2.7. RESUMO 30

busca manual de 10 periódicos e 4 anais de conferências. Atualmente, as áreas temáticas abran-gidas pelo RSL são limitadas. Investigadores europeus, particularmente aqueles no Laboratório Simula parecem ser os principais expoentes de revisões sistemáticas da literatura.

Kitchenham et al.(2010) com o intuito de aprofundar o estudo anterior, realizou busca manual de 13 revistas e conferências realizadas no período de 01 de janeiro de 2004 a 30 de junho de 2007, investigou RSL disponíveis para ES no que diz respeito aos seus pesquisadores e profissionais. RSL parecem ter ido além da fase de uso exclusivo pelos inovadores, mas ainda não pode ser considerado como principal software de fluxo de metodologia de pesquisa na ES. Porém ainda possuem limitações, como muitas vezes deixando de avaliar a qualidade do estudo primário.

Um outro trabalho relacionado é o deda Silva et al.(2011), que revisou artigos publicados em 2009 e 2010, estendendo os dois últimos trabalhos citados aqui. Identificou e analisou 54 RSL publicadas em revistas e conferências, no período entre 1 de janeiro de 2004 e 30 de junho de 2008. Analisou-se a qualidade, cobertura de software de engenharia e impacto potencial de RSL publicadas para a educação e a prática. Os resultados sugerem que a comunidade de pesquisa de engenharia de software está começando a adotar RSL consistentemente como um método de pesquisa. No entanto, a maioria dos estudos não avalia a qualidade de estudos primários e não fornecem orientações para os profissionais, diminuindo assim o seu impacto potencial sobre práticas de engenharia de software.

Borges et al.(2015) realizou estudo com objetivo de identificar mecanismos de suporte para planejar e conduzir estudos empíricos na área de ESE. Conclui-se que o estudo empírico na ES tem aumentado ao longo dos anos. Porém, ainda há muito que ser feito, como o próprio autor sugere, no desenvolvimento de novos ambientes e na criação de recursos voltados para auxiliar pesquisas empíricas nessa área.

Zhou et al.(2015) estudou as práticas de avaliação da qualidade dos artigos incluídos em RSL em ES através de um estudo terciário de 127 RSL. Como conclusão, foi identificada que os pesquisadores usam estratégias para avaliação dos documentos de avaliação de qualidade, mas relatam pouco sobre a justificativa para a utilização de tais critérios. O foco é credibilidade, e não a relevância dos artigos sobre a ES.

Em suma, todos os trabalhos acima apresentados se mostram preocupados com a ava-liação de qualidade de estudos empíricos, apontando a necessidade de maior rigor técnico e científico nestes tipos de estudo, ao mesmo tempo em que alertam toda comunidade de ES sobre a necessidade de mais trabalhos nesse sentido.

2.7

Resumo

Este capítulo abordou conceitos e práticas da Engenharia de Software. Conceituamos também Engenharia de Software Empírica ( ESE), e estudamos os principais métodos para que esta ciência seja pesquisada com sucesso. Demos ênfase a Engenharia de Software Baseada em

(32)

2.7. RESUMO 31

Evidências (ESBE) no que se refere às Revisão Sistemática da Literatura (RSL). Discutimos sobre avaliação da qualidade, e apresentamos embasamento teórico através de pesquisas relacio-nadas ao presente estudo. No próximo capítulo iremos apresentar o processo definido para guiar a busca por critérios de qualidade.

(33)

32 32 32

3

Processo para Identificação de Critérios de

Qualidade

O objetivo deste capítulo é mostrar uma sequência de passos que guiaram o autor deste trabalho na identificação dos critérios de qualidade aqui utilizados. Como não há um padrão para avaliação da qualidade de trabalhos empíricosTeixeira(2014), foi necessário sistematizar um processo que desse apoio à tarefa de obtenção dos critérios para a avaliação de RSL.

Embora não haja algo formalizado na literatura, é comum nos depararmos com autores citando ou sugerindo formas de mensurar a qualidade de um trabalho empírico em particular. Considerando isso, um estudo literário foi realizado com objetivo de reunir experiências de como os pesquisadores tem avaliado estudos empíricos na ES, principalmente nos casos de RSL.

3.1

Identificando Critérios de Qualidade

Esta dissertação segue o processo aqui definido para a identificação de critérios de qualidade que serão utilizados para analisar um conjunto de artigos previamente selecionados, como será mostrado no capítulo seguinte.

Para facilitar o entendimento do processo criado, na Figura 3.1 é apresentado um dia-grama com todas as etapas e atividades executadas. Posteriormente será descrito o detalhamento de cada uma dessas etapas envolvidas.

Na Figura 3.1 cada etapa do processo está identificada através da letra “E”, concatenada com uma sequência de números que identificam a ordem da etapa. A ordem sequencial de execução das etapas é realizada respeitando-se a hierarquia do diagrama com a leitura da esquerda para a direita e de cima para baixo. Dessa forma, um exemplo seria: a Etapa E1.2 (Mapeamento Sistemático) é executada somente após a Etapa E1.1 (Pesquisa Anterior), considerando também todas suas subetapas, que no caso são as identificadas como E1.1.1 e E1.1.2.

Para a obtenção dos critérios de qualidade teremos três grandes etapas, são elas: E1, E2 e E3. A primeira (E1) está ligada diretamente à identificação dos critérios, enquanto que a segunda (E2) está relacionada à intersecção dos critérios previamente selecionados, para a retirada das

(34)

3.1. IDENTIFICANDO CRITÉRIOS DE QUALIDADE 33

(35)

3.1. IDENTIFICANDO CRITÉRIOS DE QUALIDADE 34

repetições. Já a terceira etapa (E3) está relacionada à avaliação dos critérios encontrados.

3.1.1

Identificação dos Critérios (Etapa E1)

Esta é a etapa mais extensa dentre todas, pois é necessário realizar uma busca na literatura existente a procura de evidências da utilização de critérios de qualidade para avaliar estudos empíricos. O objetivo aqui é reunir formas de avaliação que possam ser utilizadas em RSL e que de alguma forma foi validada por algum autor.

A fase de identificação de critérios subdivide-se ainda em outras três, E1.1, E1.2 e E1.3 que estão detalhadas a seguir:

3.1.1.1 Pesquisa Anterior - Etapa E1.1

Dentro do grupo de pesquisa no qual faz parte o autor desta dissertação, outros pesquisa-dores já contribuíram com o tema. Um exemplo é o trabalho deTeixeira(2014), no qual o mesmo realizou uma análise quantitativa da qualidade dos estudos categorizados como Experimentos Controlados no contexto da comunidade de ESE. Devido aos objetivos semelhantes, o trabalho de Teixeira (2014) foi escolhido para ser utilizado como base nesta etapa. Para facilitar o entendimento, daqui em diante para nos referirmos à este trabalho usaremos a sigla PA (Pesquisa Anterior).

O instrumento de qualidade desenvolvido em PA foi elaborado de forma a permitir sua evolução para a avaliação dos demais tipos de estudos, uma vez que apresenta critérios gerais e específicos. Dessa forma o presente trabalho reutiliza os critérios gerais de qualidade já identificados em PA, aprimorando-os e readequando-os, bem como pesquisa por critérios específicos para RSL. Além disso os critérios gerais foram estudados com o objetivo de aprimorá-los e ajustá-aprimorá-los para serem utilizados no contexto de RSL.

Dessa forma, esta etapa subdivide-se em outras duas, sendo:

 Coleta dos Critérios Gerais e Específicos (Etapa E1.1.1) - Estudo e coleta dos critérios já elencados em PA.

 Checagem dos Critérios no Contexto de RSL (Etapa E1.1.2) - Checagem para confirmar se os critérios reunidos em PA realmente se adequam ao contexto de pesquisas empíricas do tipo RSL.

O objetivo da Etapa E1.1.1 estudar e organizar os critérios de PA de modo a serem também reutilizados no presente trabalho.

Já na etapa seguinte, a E1.1.2, deverá ser realizada uma verificação para confrontar todos os critérios no contexto de RSL. Neste processo, cada critério deve ser questionado quanto à sua classificação (geral ou específico). A intenção aqui é eliminar os critérios classificados como específicos e que realmente não podem ser utilizados em RSL ou então descobrir algum

(36)

3.1. IDENTIFICANDO CRITÉRIOS DE QUALIDADE 35

critério específico que também pode ser utilizado emRSL. Quando isso ocorrer o critério passa a ser geral, uma vez que ele se adequou a mais de um tipo de estudo, no caso Experimentos Controlados e também RSL.

O processo também é exercitado a partir dos critérios gerais, ou seja, questionando a aplicabilidade de tais critérios ao contexto de RSL. Caso algum não se adeque é porque o mesmo não pode ser considerado geral e então deve ser excluído do estudo, uma vez que ele só se adeque a Experimentos Controlados.

Consequentemente, alguns critérios reutilizados de PA podem ter sua classificação alterada de "geral" para "específico" e vice-versa. Essa decisão deve ser tomada após rodadas de discussão com o próprio autor de PA e também com o orientador do presente trabalho, que por sinal era o mesmo orientador de PA. Nessas discussões também é possível alterar a nomenclatura de alguns critérios de modo a deixá-lo mais claro.

Em suma, nesta etapa ocorre a adequação dos critérios (quando se ajusta a classificação do mesmo) e também o aprimoramento, haja vista que a nomenclatura é analisada e alterada objetivando maior clareza.

3.1.1.2 Mapeamento Sistemático (Etapa E1.2)

Outro exemplo de estudo, também do mesmo grupo de pesquisa, é o trabalho deBorges et al.(2015). Neste caso, o autor realiza um Mapeamento Sistemático levantando o uso de mecanismos para apoio à execução de estudos empíricos. Ao analisar apenas as RSL que fizeram parte do trabalho foi possível identificar os autores que mais utilizam algum mecanismo, o que evidencia um item de qualidade desses estudosKitchenham et al.(2010).

Nesta Etapa E1.2, é realizado um mapeamento sistemático que o grupo de pesquisa do orientador do autor deste trabalho liderouBorges et al.(2015). Este mapeamento abrange os anos de 1996 até 2013 selecionando os trabalhos publicados nos 3 (três) principais meios de divulgação científica da área de ESE, são eles: EASE, ESEM e ESEJ.

Dentre os vários dados extraídos deste mapeamento alguns deles são:

 Tipo de estudo empírico;

 Tipo de mecanismo de suporte;

 Referência ao mecanismo de suporte;

 Domínio do mecanismo de suporte;

 Tipo de domínio.

A Etapa E1.2 (mapeamento sistemático) subdivide-se em mais 3 (três) etapas, são elas:

(37)

3.1. IDENTIFICANDO CRITÉRIOS DE QUALIDADE 36

 E1.2.2 – Acessar DBLP dos autores mais referenciados;

 E1.2.3 – Analisar como as RSL avaliam a qualidade.

De acordo com os dados extraídos do mapeamento, na Etapa E1.2.1 (elencar autores mais referenciados), são identificados os autores mais referenciados em relação aos mecanismos de apoio utilizados para realização de Revisões Sistemáticas em Engenharia de Software. Essa seleção será utilizada na etapa seguinte, a E1.2.2. Nela são efetuadas buscas na bibliografia desses autores com o intuito de buscar mais referências que tratam de qualidade em Revisões Sistemáticas. Segundo o mapeamento sistemático realizado, como esses autores são os que mais utilizam mecanismos de suporte à execução de RSL, é natural que outros trabalhos deles (que não entraram nos critérios de busca do mapeamento) tenham relevância para a pesquisa.

Por indexar uma grande quantidade de trabalhos científicos, a forma escolhida para sistematizar essa busca foi através deDBLP(2015). DBLP é um repositório que indexa os trabalhos publicados de pesquisadores de Ciência da Computação e atualmente este repositório conta com mais de 3 milhões de trabalhos indexadosUniversität Trier(2015). Dessa forma, será realizada uma busca manual na DBLP de cada autor em busca de trabalhos que tratam, de alguma forma, de qualidade em RSL.

De posse do domínio de trabalhos selecionados no mapeamento sistemático, a Etapa E1.2.3 (analisar como as RSL avaliam a qualidade) visa buscar o modo como cada uma dessas RSL avaliam o próprio estudo em busca de evidências da utilização da avaliação de qualidade de RSL para então identificar mais critérios para serem utilizados nesta pesquisa.

3.1.1.3 Snowballing (Etapa E1.3)

Em buscas por trabalhos fora do grupo de pesquisa também podem ser identificadas evidências de avaliação de RSL. A partir dos principais artigos da área, deverá ser aplicada a técnica snowballingWohlin(2014) para atingir mais autores e então analisar como os últimos avaliam RSL nos seus mais diversos contextos. Neste trabalho a estratégia utilizada foi a backward, ou seja, quando a partir de um dado estudo, busca-se a lista de referências utilizadas no mesmoJalali and Wohlin(2012).

No snowballing, de posse de um artigo selecionado, geralmente, o pesquisador vai atrás de cada um de suas referências a fim de se aprofundar mais no tema. Dando continuidade, para cada um desses novos trabalhos encontrados nas referências do primeiro artigo, há a possibilidade de se aprofundar mais outro nível em busca de mais informações sobre o tema.

O domínio dos trabalhos que servirão de base para o snowballing são os artigos que foram referenciados como mecanismos de apoio a execução de RSL identificados no mapeamento do trabalho deBorges et al.(2015) (Etapa E1.2). A motivação para o uso dessa pesquisa está ligada ao fato dela identificar os principais autores que são referenciados em relação aos mecanismos de apoio para execução de RSL. Desta forma, usando os resultados do estudo deBorges et al.

(38)

3.2. RESUMO 37

(2015) foi possível levantar quais os autores que deveríamos nos basear para pesquisar e usar como ponto de partida no snowballing.

3.1.2

Intersecção dos Critérios Encontrados (Etapa E2)

Após a identificação de critérios de qualidade na Etapa E1 é necessário reuni-los a fim de realizar uma intersecção dos critérios encontrados. Como espera-se um grande domínio de trabalhos a serem utilizados para a pesquisa, podem surgir critérios iguais ou semelhantes em fontes diferentes. Neste caso será considerada apenas um critério e daquela referência mais antiga.

3.1.3

Avaliação dos Critérios (Etapa E3)

Até aqui os critérios já deverão estar selecionados e sem repetição. Será necessário agora avaliar o grau de confiabilidade desses achados. Para isso será executado um piloto para realizar uma avaliação de um conjunto de artigos por alguns pesquisadores utilizando os critérios de qualidade previamente obtidos.

Para a avaliação dos critérios de qualidade selecionados será utilizado o teste estatístico Fleiss’ KappaFleiss(2015). Este teste detecta o grau de concordância entre os avaliadores. Ou seja, quanto mais alto for esse índice, mais chances há de os critérios de qualidade pesquisados estarem dentro do padrão de aceitação de concordância entre os avaliadores.

3.2

Resumo

Neste capítulo foi apresentado um processo definido pelo próprio autor para servir de guia na atividade de busca, coleta, identificação e classificação de critérios de qualidade que possam ser utilizados no contexto de RSL. O próximo capítulo irá descrever como foi a utilização desse guia e quais foram os critérios resultantes da aplicação do processo aqui descrito.

(39)

38 38 38

4

Compilação dos Critérios Pesquisados

4.1

Compilação dos Critérios de Qualidade Identificados

Após seguir o processo descrito no capítulo anterior, chegou-se a um conjunto de 23 critérios, sendo 15 critérios gerais e 8 critérios específicos. Os mesmos se subdividem em 54 questões que compõe o questionário de avaliação.

4.1.1

Organização dos Critérios

Para facilitar a análise dos dados durante a avaliação dos artigos, resolveu-se agrupar os critérios classificando-os e organizando-os de tal forma a permitir analisar mais detalhadamente quais são os pontos onde algum estudo sob avaliação terá melhor ou pior desempenho. Conside-rando isso, cada critério foi classificado de acordo com seu aspecto, dimensão e especificidade.

4.1.1.1 Classificação quanto ao Aspecto

Seguindo uma abordagem proposta por Dybå and Dingsøyr (2008), e também refe-renciada porAfzal et al. (2009), Alves et al.(2010) eChen et al. (2009), os critérios foram classificados quanto ao seu aspecto em 4 (quatro) grandes tipos:

 Relatório – Analisa o contexto e os resultados do estudo quanto à clareza e adequação de sua descrição;

 Rigor – Analisa o principal método de pesquisa utilizado e se a abordagem foi completa e adequada;

 Credibilidade – Verifica a significância e a forma de apresentação dos achados;

 Relevância – Analisa a utilidade das descobertas para a indústria e comunidade científica de ES.

(40)

4.1. COMPILAÇÃO DOS CRITÉRIOS DE QUALIDADE IDENTIFICADOS 39

4.1.1.2 Classificação quanto à Dimensão

Além da classificação anterior, os critérios também foram organizados seguindo o trabalho deKitchenham et al.(2002), também utilizado e sugerido porDieste et al.(2011). Nesta classificação, os critérios são divididos em seis dimensões para a garantia da qualidade de um estudo empírico, são eles:

 Contexto da Pesquisa - definição e detalhamento dos objetivos da pesquisa. É levado em consideração o contexto industrial em que o estudo ocorreu, discussão das hipóteses de pesquisas e também as pesquisas relacionadas;

 Delineamento da Pesquisa - trata do desenho da pesquisa, ou seja, se a forma que a última foi projetada é suficiente para atingir os objetivos do estudo;

 Condução da Pesquisa e Coleta de Dados - execução da pesquisa e coleta de dados seguindo a metodologia escolhida;

 Análise dos Dados - aborda a garantia que o estudo deve ter para que os resultados sejam analisados de forma apropriada. Para isso é necessário que o projeto da pesquisa descreva de forma clara como se dará a análise dos dados.

 Apresentação dos Resultados - trata da forma como os achados são reportados.

 Interpretação dos Resultados - é a fase em que o autor classifica e critica o seu trabalho levando em consideração seus objetivos e o resultado da análise dos dados.

4.1.1.3 Classificação quanto à Especificidade

Seguindo a categorização realizada no trabalho deTeixeira(2014) e baseado emDybå and Dingsøyr (2008) e Kitchenham et al. (2002), os critérios foram divididos em gerais e específicos.

Assim como em PA, o conjunto de critérios identificados também estão organizados de modo que permite sua extensão. Dessa maneira, outros pesquisadores também podem reutilizar os critérios gerais e definir apenas os específicos para avaliação de outros tipos de estudos empíricos, como survey, etnografia, estudos de caso, etc.

 Critérios Gerais - Podem ser utilizados para avaliar outros tipos de estudos empíricos além de RSL.

 Critérios Específicos - São direcionados a RSL e se adequam apenas a este tipo de estudo.

Dependendo do tipo de estudo a ser avaliado a classificação em critérios gerais e especí-ficos pode mudar para que o mesmo se adeque ao contexto do estudo em questão.

Referências

Documentos relacionados

O sistema tem como cenários de utilização a gestão de agendamentos de atendimentos da Área de Saúde, a geração automática de relacionamento entre cliente e profissional

Resumo O presente artigo tem como objetivo analisar a importância do brincar para o desenvolvimento afetivo da criança de 0 a 6 anos, como também identificar as concepções

Em relação ao Respondente4 ele já havia usado a ferramenta em outra instituição antes de iniciar suas atividades na UTFPR Campus Pato Branco e é possível creditar sua

Neste trabalho foram analisados os dados coletados em perímetro urbano e rural no município de Serranópolis do Iguaçu com a finalidade de investigar e avaliar o

Obtivemos as respostas listadas a seguir: Sujeito 1: “Brincar na educação infantil é muito importante para o desenvolvimento da criança que nessa fase tem o lúdico como elemento

No Quadro 14, está a representação da incompatibilidade número 10 onde na modelagem BIM, conforme o projeto estrutural, a passagem da eletrocalha foi projetada a 2,97m

Neste sentido, o nosso trabalho foi realizado em dois momentos: o Campo de Observação com 20 horas semanais e Campo de Docência com 20 horas semanais, encontros significativos

A forma em que as empresas do arranjo do segmento cama-mesa-banho estão inseridas no mercado externo pode ser enquadrada em relações de redes de empresas, nas