• Nenhum resultado encontrado

Depois de analisados os resultados da pesquisa era de se esperar surgir questões para serem discutidas pela comunidade científica. Neste trabalho identificamos três questões para estimular a discussão na área de replicação de estudos empíricos na Engenharia de Software.

D1: Quais as principais diferenças nas replicações internas e externas com relação aos vários fatores analisados neste mapeamento?

Os resultados das perguntas de pesquisa se diferem claramente quando analisado separadamente as respostas das replicações internas e externas nos anos de 2011 e 2012. No período de 1994 a 2010 também foi encontrado diferenças nas respostas das perguntas de pesquisa quando analisado os resultados das replicações internas e externas.

De acordo com Silva et al. (2012) existem quatro fatores que diferenciam os dois tipos de replicação: os pesquisadores que realizaram as replicações; a confirmação ou não dos resultados originais; os agrupamentos dos conjuntos de replicações; e o tempo decorrido entre o original e sua replicação. Além dos fatores citados, encontramos também diferenças claras no número total de replicações internas e externas executadas e os capítulos do SWEBOK que foram contemplados com cada tipo de replicação.

Na extensão do primeiro mapeamento, as respostas das perguntas de pesquisa foram diferentes quanto aos autores e consequentemente às organizações que realizaram as replicações; aos capítulos do SWEBOK que tiveram replicações executadas; ao conjunto de replicações; ao tempo decorrido entre os estudos originais e suas replicações; e também à confirmação do estudo original.

Quando analisado os resultados do período de 1994 a 2012, apenas a pergunta de pesquisa sobre os métodos usados pelas replicações teve uma distribuição mais igualitária entre as replicações internas e externas. O número de replicações internas x externas, os autores e organizações que executaram as replicações, os capítulos do SWEBOK que foram contemplados com replicações, o agrupamento dos conjuntos de replicações, a confirmação do estudo original e o tempo decorrido do estudo original para a replicação tiveram resultados diferentes quando comparados aos dados das replicações internas e externas.

Além das perguntas de pesquisa, também foi realizada a avaliação da qualidade dos artigos de replicações executadas. No primeiro mapeamento não foi encontrada diferenças entre as replicações internas e externas quando estas replicações foram avaliadas com os mesmos critérios. Já neste segundo mapeamento, encontramos uma diferença de 9% entre os artigos de publicação single-report, onde a replicação é publicadas juntamente do estudo original, e os artifos de publicação multi-report, onde a replicação é publicada separadamente do estudo original, sendo as publicações single-report com maior índice de qualidade média.

As diferenças encontradas são um indicativo de limitações e vieses de pesquisa. Observamos que os autores e organizações realizam sempre um tipo de replicação, ou interna ou externa, formando conjuntos de replicações apenas externas ou apenas internas em sua grande maioria. Como já observado, as replicações externas tendem a não confirmar o resultado original e também ter um maior tempo decorrido entre o original e a replicação, assim como o oposto ocorre entre as replicações internas. Como em geral, os pesquisadores realizam apenas um tipo de replicação e os resultados das replicações internas e externas sofrem uma tendência de resultados dentro de sua classificação, esta tendência nos resultados pode significar um viés na pesquisa e consequentemente representar uma ameaça a validade da replicação, porque, caso não tenha resultados similares, o resultado pode não ser publicado. Para entender o real motivo das tendências das replicações internas e externas é necessário investigar com os autores das replicações porque os resultados são tão diferentes.

D2: Quais as principais diferenças observadas entre a pesquisa de (Silva et al., 2012) e esta extensão?

Os resultados encontrados nesta pesquisa foram relacionados às sete perguntas de pesquisa determinadas, desta forma foi possível avaliar as diferenças entre os dois estudos, como descrito a seguir, seguindo a mesma ordem das perguntas de pesquisa.

 Quanto ao número de replicações: Na primeira pergunta de pesquisa é observado o crescimento no número de replicações a partir do ano de 2010 e também um aumento no número de replicações externas que na soma dos anos 2011 e 2012 supera o número de replicações internas, o que não tinha sido observado nas duas fases anteriores, correspondentes aos períodos de 1994 a 2003 e 2004 a 2010. O crescimento no número total de replicações se deve a maturidade da área. É notável a curva de crescimento das replicações e a realização do RESER concretizou a necessidade de um evento relacionado às replicações de estudos empíricos de Engenharia de Software.

A maturidade da área que trouxe como consequência o workshop do RESER, também podem ter sido de fundamental importância para o crescimento das replicações externas; o fato dos pesquisadores enfatizarem a necessidade de realizar as replicações externas foi feita de forma consciente e a sociedade científica teve como retorno o aumento na execução do número de replicações externas.

 Quanto aos autores e organizações: A conscientização da sociedade científica para execução de novas replicações e em maior número é notada também quando analisamos os autores e organizações que realizaram o maior número de replicações, já que as tabelas com estes dados são diferentes nos períodos de 1994 a 2010 e de 2011 a 2012, mostrando que estão sendo novos pesquisadores estão realizando replicações. A análise destes dados pode ser extraída da segunda pergunta de pesquisa.

 Quanto aos tópicos abordados: A RQ3 mostra os principais tópicos do SWEBOK que estão sendo abordados nas replicações. Assim como na RQ1 e na RQ2, obtivemos um cenário com algumas diferenças em relação aos capítulos abordados nas replicações. Este novo cenário pode ser devido a mudanças nos experimentos por capítulos do SWEBOK executados nos últimos tempos. Para analisar a hipótese levantada de que a quantidade de replicações executadas por cada capítulo do SWEBOK são proporcionais aos estudos empíricos da Engenharia de Software, é necessário realizar uma revisão de literatura abrangendo toda a área de Engenharia de Software Empírica e comparar com os resultados das replicações. Assim, analisando ano por ano, é possível identificar o desenvolvimento das replicações executadas por capítulo do SWEBOK.

 Quanto aos métodos de pesquisa e unidades de análise: Os dados da quarta pergunta de pesquisa apresentam uma pequena variação em seus percentuais, mas são observados resultados similares em todos os períodos analisados. Quanto ao método de pesquisa aplicado na execução das replicações, os resultados de todos os períodos analisados foram similares, com grande predominância de replicações de quasi-experimentos e experimentos, não sendo encontrada nenhuma replicação de etnografia e pesquisa-ação nas duas pesquisas. Assim como na RQ3, nesta pergunta de pesquisa é necessário a realização de uma revisão de literatura da área de Engenharia de Software

Empírica para confirmação dos métodos utilizados nas pesquisas da área, desta forma é possível concluir se os métodos utilizados nos estudos da área obedecem ou não a mesma proporção das replicações.

Nas unidades de análise também encontramos em todos os períodos uma forte predominância de replicações que usaram como unidade de análise os “Acadêmicos”, representando sempre cerca de 60% das unidades de análise das replicações executadas, isso se deve a maior facilidade de execução das replicações no meio acadêmico que entre profissionais e com artefatos da área.  Quanto aos conjuntos de replicações: Na RQ5 analisamos os conjuntos de replicação como um todo, como uma junção de todas as replicações que pertencem a um mesmo artigo original. Observamos uma forte tendência nas duas pesquisas de conjuntos de replicação com apenas uma replicação para um original, aumentando de 61,1% para 80% nesta extensão, e uma pequena diminuição no percentual de conjuntos com mais de 4 replicações. Também é observado um menor percentual de conjuntos de replicação interna e aumento de conjuntos de replicação externa, esse fato se deve ao aumento de replicações externas realizadas nos anos de 2011 e 2012. A partir dos resultados da RQ5 fica evidente a necessidade de conjuntos de replicações com maior número de replicações por estudo original, e conjuntos de replicações mistas. Projetos como o Joint Replication Project do RESER pode impulsionar o aumento da quantidade e qualidade dos resultados de um estudo original, proporcionando também o aumento no número de replicações por estudo original.

 Quanto a confirmação do resultado: Na sexta pergunta de pesquisa foi perguntado sobre a confirmação das replicações quanto ao resultado dos estudos originais. Nas replicações internas, o cenário de mais de 80% de confirmação dos resultados do estudo original continuou em 2011 e 2012, assim como a confirmação parcial e a não confirmação que ficou em torno de 8% para cada uma das classificações. Entre as replicações externas, ainda temos o percentual acima de 40% de não confirmação do original, mas o percentual dos estudos que confirmaram o original aumentou, ficando em segundo lugar e deixando os resultados de confirmação parcial em último lugar, que antes ocupava o segundo lugar. Na análise de todas as replicações, há uma maior parte das replicações confirmatórias, seguida das não

confirmatórias e por último as que confirmaram parcialmente os resultados, isso porque a concentração de replicações internas que confirmam o estudo original ainda é muito grande quando comparado com as replicações externas que não confirmam o estudo original.

 Quanto ao tempo decorrido entro o estudo original e a replicação: Na última pergunta de pesquisa, o tempo decorrido entre o estudo original e a replicação foi analisado. Entre as replicações internas este tempo é semelhante nas duas pesquisas, mas entre as replicações externas observamos um grande aumento na distância temporal, passando de 4,4 para 7,5 anos, isso porque os pesquisadores estão buscando estudos originais cada vez mais antigos. Esse aumento na distância temporal influenciou diretamente o aumento da distância temporal quando analisada todas as replicações. Como na RQ6, apenas entre as replicações externas foram observadas maiores mudanças, isso é devido à nova forma de executar estas replicações.

 Quanto a avaliação da qualidade: quando avaliado a qualidade média dos artigos de replicação com os critérios gerais e específicos nos dois mapeamentos, é observado um aumento na qualidade das replicações internas single-report e uma diminuição do índice de qualidade médio das replicações multi-report. Entre as replicações internas single-report houve um crescimento de 88% para 94% neste segundo mapeamento, já entre as replicações internas e externas multi-report a qualidade média caiu de 73% para 61%. Esses resultados mostram que com o grande aumento da execução das replicações multi-report, em especial nas replicações externas, pode ter ocasionado a execução de replicações sem grande preocupação com a qualidade destas execuções. Já entre as replicações internas single-report que já vinha sendo replicada em maior número e não teve um grande crescimento deste tipo de replicações neste segundo mapeamento, obtiveram um aumento na sua qualidade devido a consequente amadurecimento na área em especial neste tipo de replicação que já vinha sendo executado em maior número desde o primeiro mapeamento.

Em resumo apenas na RQ4 não foi observada mudanças significativas no cenário das duas pesquisas; observamos diferenças apenas entre as replicações externas na RQ6 e RQ7, permanecendo com resultados similares entre as replicações internas; as maiores mudanças

nas replicações internas e externas estão presentes na RQ1, RQ2, RQ3, RQ5 e na avaliação da qualidade.

D3: Qual o motivo do grande crescimento no número de replicações externas?

No primeiro mapeamento, é citado que os pesquisadores realizavam replicações internas para melhorar a confiabilidade das suas pesquisas, principalmente na segunda fase, de 2004 a 2009, quando o número de replicações internas na área de Engenharia de Software Empírica cresceu 382%. Era esperado que o número de replicações internas continuasse a crescer e não se esperava o mesmo das replicações externas. Contrariando a hipótese levantada no primeiro mapeamento, neste mapeamento as replicações externas foram a que tiveram o maior crescimento.

Em 2010, 2011 e 2012 foram identificadas 7, 11 e 16 replicações externas respectivamente, antes disto não foi identificado nenhum ano que tivesse mais de cinco replicações externas. Das 34 replicações externas identificadas nestes 3 anos 23,5% das replicações foram publicadas no IEEE Fifth International Conference on Software Testing, Verification and Validation, 17,6% no RESER, 11,8% no EASE e 8,8% no ESEM, totalizando 61,8% das replicações publicadas em apenas 4 conferências, as demais 13 replicações foram publicadas em outras 10 conferências ou jornais. Esses dados mostram que ainda existe uma concentração de locais de publicação das replicações externas, mas que outras locais de publicação já estão aceitando as replicações externas para serem publicadas.

É notável que o crescimento das replicações externas iniciou em 2010, sendo o grande impulsionador das publicações de replicações externas o workshop do RESER, como já referido anteriormente. Isso porque depois do primeiro RESER, 44,4% das replicações externas não foram publicadas nos principais locais identificados acima, ou seja, os locais de publicação perceberam a necessidade de aceitar as replicações externas que eram submetidas nas conferências, revistas e jornais, minimizando o viés das replicações internas e aumentando o alcance e confiabilidade dos resultados que as replicações externas possibilitam aos estudos originais.

5.1 Limitações da Pesquisa

Uma das principais limitações de revisões sistemáticas são os vieses introduzidos pelo pesquisador nos processos de seleção, imprecisões na extração de dados e cobertura da pesquisa. A utilização de um protocolo de pesquisa desenvolvido em pesquisa

anterior e baseado em diretrizes bem estabelecidas, foi uma medida tomada para tentar minimizar estas limitações.

A cobertura da revisão foi maximizada pelo uso de busca manual e automática em vários engenhos de busca, anais de congresso, jornais e revistas da área. O resultado da busca retornou quase 7000 artigos apenas nos anos de 2011 e 2012, o período da pesquisa. Como ainda não existe uma definição de replicação na Engenharia de Software Empírica, é possível que algumas pesquisas não tenham sido selecionadas no processo de busca automática.

Para minimizar as outras duas características, as fases de busca, seleção, extração de dados e avaliação da qualidade, foram realizadas em pares e depois de finalizada cada fase os resultados foram confrontados e as divergências foram analisadas por um terceiro pesquisador, minimizando o viés do pesquisador e também a extração incorreta das informações.

Acreditamos que a utilização de um protocolo de pesquisa definido antes da execução desta dissertação, o aumento da cobertura no processo de busca através da busca manual e automática e a execução das etapas por pares de pesquisadores, introduzindo um terceiro pesquisador para resolver os conflitos, minimuzou as limitações identificadas nesta pesquisa.

Documentos relacionados