• Nenhum resultado encontrado

Avaliando o uso de meta-análise nas replicações de estudos em engenharia de software

N/A
N/A
Protected

Academic year: 2021

Share "Avaliando o uso de meta-análise nas replicações de estudos em engenharia de software"

Copied!
92
0
0

Texto

(1)

Maria Yêda de Melo Lima

AVALIANDO O USO DE META-ANÁLISE NAS REPLICAÇÕES DE

ESTUDOS EM ENGENHARIA DE SOFTWARE

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

RECIFE 2016

(2)

Maria Yêda de Melo Lima

AVALIANDO O USO DE META-ANÁLISE NAS REPLICAÇÕES DE

ESTUDOS EM ENGENHARIA DE SOFTWARE

Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Univer-sidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.

Orientador: Renata Maria Cardoso Rodrigues de Souza Co-Orientador: Fábio Queda Bueno da Silva

RECIFE 2016

(3)

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

L732a Lima, Maria Yêda de Melo

Avaliando o uso de meta-análise nas replicações de estudos em engenharia de software / Maria Yêda de Melo Lima. – 2016.

91 f.: il., fig., tab.

Orientadora: Renata Maria Cardoso Rodrigues de Souza.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn, Ciência da Computação, Recife, 2016.

Inclui referências e anexo.

1. Engenharia de software. 2. Meta-análise. I. Souza, Renata Maria Cardoso Rodrigues de (orientadora). II. Título.

005.1 CDD (23. ed.) UFPE- MEI 2017-51

(4)

Maria Yêda de Melo Lima

AVALIANDO O USO DE META-ANÁLISE NAS REPLICAÇÕES DE ESTUDOS EM ENGENHARIA DE SOFTWARE

Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre em Ciência da Computação.

Aprovado em: 20/07/2016

______________________________________________________

Orientadora: Profa. Dra. Renata Maria Cardoso Rodrigues de Souza

BANCA EXAMINADORA

__________________________________________________ Prof. Dr. Fabio Queda Bueno da Silva

Centro de Informática / UFPE

__________________________________________________ Prof. Dr. Alberto Cesar Cavalcanti Franca

Departamento de Estatística e Informática /UFRPE _________________________________________________

Profa. Dra. Roberta Andrade de Araújo Fagundes Escola Politécnica/UPE

(5)

Agradecimentos

Agradeço primeiramente ao Senhor, pela sua bondade, amor incondicional, pelos seus ensinamentos e sua fidelidade em atender os desejos do meu coração.

Agradeço a minha mãe, Socorro, pela força, incentivo, apoio incondicional, sempre me encorajando e torcendo por mim. Obrigada por todo carinho e dedicação que sempre teve por todos nós.

Agradeço a todos os familiares que estiveram sempre presentes em minha vida, em particular, Noé e Ione que mesmo de longe contribuiram de alguma maneira para que essa etapa fosse realizada.

A minha orientadora e amiga Professora Renata Souza, pelo exemplo de docente, pela sua dedicação, paciência, incentivo, disposição, sempre presente quando eu precisei e me guiando com muito amor para que essa pesquisa fosse concluída.

A meu co-orientador, Professor Fabio Silva, pelo apoio, atenção, orientação e disposição principalmente na reta final.

A Bruno Pimentel, pela força, incentivo, paciência e contribuições valiosas para a realização da minha pesquisa.

Agradeço a todos os mestres que estiveram em minha caminhada, meus professores de colégio, de faculdade e do mestrado.

Agradeço a todos que aqui não foram citados, mas que de alguma forma contribuiram me encorajando para seguir em frente.

(6)

Confie no Senhor de todo o seu coração e não se apóie em seu próprio entendimento; reconheça o Senhor em todos os seus caminhos, e Ele endireitará as suas veredas.

(7)

Resumo

Atualmente, meta-análise é usada em algumas áreas de conhecimento científico-tecnoló-gico, tais como : educação, saúde, marketing, agricultura, ecologia e tem contribuído para o desen-volvimento e evolução dessas áreas. Uma vantagem de meta-análise é sintetizar as evidências de estudos sobre um dado assunto, apresentando uma estimativa quantitativa global derivada de estudos individuais, evitando assim a realização de pesquisas desnecessárias sobre temas já consolidados e uma desvantagem seria que a meta-análise não pode anular as limitações inerentes aos estudos em que se baseia. Meta-análise agrega os resultados de pesquisas anteriores levando em consideração as diferentes condições nas quais as pesquisas originais foram realizadas. Os métodos estatísticos usados na meta-análise asseguram a obtenção de uma estimativa combi-nada e precisa, devido ao aumento do número de observações e, consequentemente, do poder estatístico e da possibilidade de examinar a variabilidade entre os estudos. Este trabalho objetiva avaliar o resultado da meta-análise com a aplicação dos métodos de agregação existentes na literatura em famílias de replicações de estudos em Engenharia de Software. Foram utilizados os métodos de agregação Diferença da Média Ponderada, Razão de Resposta Paramétrica e Razão de Resposta Não Paramétrica. Os resultados da aplicação de meta-análise nas famílias de replicações indicam que as pesquisas em Engenharia de Software necessitam formalizar o processo de report, criar metodologias que possam apoiar o desenvolvimento e melhorar a qualidade das replicações nessa área.

(8)

Abstract

Nowadays, meta-analysis is used in some areas of scientific and technological knowledge, such as: education, health, marketing, agriculture, ecology and has contributed to the development and evolution of these areas. One advantage of meta-analysis is to summarize evidences from studies concerning a given subject, producing an overall quantitative estimate derived from individual studies and a disadvantage would be that the meta-analysis can not override the limitations inherent in the studies on which. Meta-analysis aggregates results of previous research taking into account different conditions in which the original research was conducted. Statistical methods used in the meta-analysis ensure to obtain a combined and accurate estimative, due to the increase the number of observations and consequently the statistical power and the possibility to examine the variability among studies. This work aims to evaluate the result of the meta-analysis with the application of the existing aggregation methods in the literature in study families of replications in Software Engineering. The methods of aggregation Weighted Mean Difference, Response Ratio Parametric and Response Ratio Non Parametric were used. The results of the meta-analysis application in the families of replications indicate that the research in Software Engineeringneeds to formalize the report process, to create methodologies that can support the development and to improve the quality of the replications in this area.

(9)

Lista de Figuras

5.1 Resultado com DMP nas variáveis SCEffec e SCEffic. . . 52

5.2 Resultado com DMP nas variáveis RetenEffec e RetenEffic. . . 53

5.3 Resultado com DMP nas variáveis TransEffec e TransEffic. . . 54

5.4 Resultado com RRP nas variáveis SCEffec e SCEffic. . . 56

5.5 Resultado com RRP nas variáveis RetenEffec e RetenEffic. . . 57

5.6 Resultado com RRP nas variáveis TransEffec e TransEffic . . . 59

5.7 Resultado com RRNP nas variáveis SCEffec e SCEffic. . . 60

5.8 Resultado com RRNP nas variáveis RetenEffec e RetenEffic. . . 62

5.9 Resultado com RRNP nas variáveis TransEffec e TransEffic. . . 63

5.10 Resultado com DMP nas variáveis UEffec, UReten e UTrans. . . 65

5.11 Resultado com RRP nas variáveis UEffect, UReten e UTrans. . . 68

5.12 Resultado com RRNP nas variáveis UEffect, UReten e UTrans. . . 71

5.13 Resultado com DMP nas variáveis PDR, Effort e UFP. . . 74

5.14 Resultado com RRP nas variáveis PDR, Effort e UFP. . . 76

5.15 Resultado com RRNP nas variáveis PDR, Effort e UFP. . . 79

5.16 Resultado com DMP na variável compreensão. . . 81

5.17 Resultado com RRP na variável compreensão. . . 82

(10)

Lista de Tabelas

2.1 Descrição esquemática das classes de variáveis que descrevem um contexto de

pesquisa e as funções de replicação. . . 22

4.1 Breve resumo das famílias de replicações. . . 39

4.2 Estatística descritiva e métrica SCEffec . . . 40

4.3 Estatística descritiva e métrica SCEffic . . . 41

4.4 Estatística descritiva e métrica RetenEffec . . . 41

4.5 Estatística descritiva e métrica RetenEffic . . . 42

4.6 Estatística descritiva e métrica TransEffec . . . 42

4.7 Estatística descritiva e métrica TransEffic . . . 43

4.8 Estatística descritiva e métrica UEffec . . . 45

4.9 Estatística descritiva e métrica UReten . . . 46

4.10 Estatística descritiva e métrica UTrans . . . 47

4.11 Estatística descritiva e métrica Ufp . . . 48

4.12 Estatística descritiva e métrica Effort . . . 48

4.13 Estatística descritiva do bloco C e métrica PDR . . . 49

4.14 Estatística descritiva e métrica Compreensão. . . 50

5.1 Saída do Método RRP na variável SCEffec. . . 56

5.2 Saída do Método RRP na variável SCEffic. . . 56

5.3 Saída do Método RRP na variável RetenEffec. . . 57

5.4 Saída do Método RRP na variável RetenEffic. . . 58

5.5 Saída do Método RRP na variável TransEffec. . . 59

5.6 Saída do Método RRP na variável TransEffic. . . 59

5.7 Saída do Método RRNP na variável SCEffec. . . 61

5.8 Saída do Método RRNP na variável SCEffic. . . 61

5.9 Saída do Método RRNP na variável RetenEffec. . . 62

5.10 Saída do Método RRNP na variável RetenEffic. . . 62

5.11 Saída do Método RRNP na variável TransEffec. . . 63

5.12 Saída do Método RRNP na variável TransEffic. . . 64

5.13 Saída do Método RRP da variável UEffect. . . 69

5.14 Saída do Método RRP da variável UReten. . . 69

5.15 Saída do Método RRP da variável UTrans. . . 69

5.16 Saída do Método RRNP da variável UEffect. . . 72

5.17 Saída do Método RRP da variável UReten. . . 72

(11)

5.19 Saída do Método RRP da variável UFP. . . 77

5.20 Saída do Método RRP da variável Effort. . . 77

5.21 Saída do Método RRP da variável PDR. . . 77

5.22 Saída do Método RRNP da variável UFP. . . 80

5.23 Saída do Método RRNP da variável Effort. . . 80

5.24 Saída do Método RRNP da variável PDR. . . 80

5.25 Saída do Método RRP com a variável compreensão. . . 82

(12)

Sumário

1 Introdução 13

1.1 Objetivos da Pesquisa . . . 14

1.2 Estrutura do trabalho . . . 15

2 Revisão da Literatura 16 2.1 Experimento Controlado e Quasi Experimento . . . 16

2.2 Replicação . . . 18

2.3 Trabalhos Relacionados . . . 22

2.3.1 Evidências escondidas atrás de replicações inúteis (DIESTE et al.,2010) 22 2.3.2 Análise Comparativa dos Métodos de Meta-análise: quando usar o quê ? (DIESTE et al.,2011) . . . 23

3 Meta-Análise: Métodos 25 3.1 Princípios para a Meta-Análise . . . 25

3.2 Teste Q de Cochran . . . 26

3.3 Métodos Estatísticos de Agregação . . . 27

3.3.1 Método Paramétrico Diferença da Média Ponderada (DMP) . . . 28

3.3.1.1 Modelo de Efeito Fixo . . . 30

3.3.1.2 Modelo de Efeito Aleatório . . . 31

3.3.2 Método Paramétrico Razão de Resposta (RRP) . . . 33

3.3.3 Método Não Paramétrico Razão de Resposta (RRNP) . . . 35

4 Famílias de Replicações Utilizadas na Pesquisa 38 4.0.4 Família 1: REP002FE . . . 39

4.0.5 Família 2: REP129 . . . 43

4.0.6 Família 3: ORI025 . . . 47

4.0.7 Família 4: REP094 . . . 49

5 Aplicação e Discussão dos Resultados 51 5.1 Família REP002FE . . . 52

5.1.1 Método DMP . . . 52

5.1.2 Método RRP . . . 55

5.1.3 Método RRNP . . . 60

5.1.4 Resumo dos Resultados da Meta-análise na Família de Replicações REP002FE. . . 64

(13)

12

5.2.1 Método DMP . . . 65

5.2.2 Método RRP . . . 68

5.2.3 Método RRNP . . . 71

5.2.4 Resumo dos Resultados da Meta-análise na Família de Replicações REP129 . . . 72

5.3 Família ORI025 . . . 73

5.3.1 Método DMP . . . 74

5.3.2 Método RRP . . . 75

5.3.3 Método RRNP . . . 79

5.3.4 Resumo dos Resultados da Meta-análise na Família de Replicações da Família ORI025 . . . 81

5.4 Família REP094 . . . 81

5.4.1 Método DMP . . . 81

5.4.2 Método RRP . . . 82

5.4.3 Método RRNP . . . 83

5.4.4 Resumo dos Resultados da Meta-análise na Família de Replicações REP094 . . . 83

5.4.5 Considerações Gerais . . . 84

6 Conclusão e Trabalhos Futuros 85 6.1 Contribuições . . . 86

6.2 Trabalhos futuros . . . 86

Referências 88

(14)

13 13 13

1

Introdução

Uma vez que o avanço do conhecimento científico depende do acúmulo sistemático de informação, é indiscutível a necessidade de se estabeler procedimentos confiáveis que orientem a síntese de conhecimento produzidos em uma determinada área de pesquisa (WOLF,1986). De-vido a enorme quantidade de informações produzidas nos mais diversos ramos de conhecimento, a revisão da literatura é justificável, uma vez que visa a síntese de pesquisa para concentrar em um único trabalho resultados de vários outros. E assim, definir o atual status do conhecimento sobre um determinado problema de pesquisa, tornando desnecessária a consulta sistemática a trabalhos anteriormente publicados.

No entanto, para que uma teoria possa ser consolidado ou construído sobre evidências, os resultados experimentais devem ser amplamente verificados e para que isso ocorra, precisam ser replicados em outros momentos e sob outras condições (COLLINS,1985). Do ponto de vista de (SCHMIDT,2009) replicação é questão central de qualquer ciência empírica, isto é, a base de qualquer concepção científica. Conclui (SCHMIDT,2009) baseado numa visão positivista que o experimento de uma replicação precisa comprovar que ele pode ser obtido ou repetido em qualquer lugar e por qualquer outro pesquisador, sendo aplicado de forma explícita e sistemática.

(COLLINS, 1985) destaca que a replicação tem entre outras funções, estabelecer a solidez do nosso conhecimento da natureza e de servir como norma dentro do processso de apuração dos fatos. (CLYDE,1991) destaca que para replicar um experimento é necessário entender a complexidade do mundo real dentro do qual ocorre a investigação. No entanto, existe discrepância entre o que é descrito como uma replicação do ponto de vista teórico e o que é, na verdade, feito em diversas áreas de conhecimento todos os dias, uma vez que não há um consenso quanto aos procedimentos e a definição do que seja uma replicação de fato.

O que não é diferente nas replicações de estudos em Engenharia de Software, pois existem muitas incertezas em como proceder quando o assunto é replicação de estudos nessa área. Até que ponto podemos mudar a configuração de um experimento original para que um novo procedimento seja considerado de fato uma replicação e não um novo experimento ? São perguntas que permeiam aqueles que desejam realizar experimentos nessa área. De acordo com (JURISTO; GOMEZ,2012), nas pesquisas em Engenharia de Software há muitas questões

(15)

1.1. OBJETIVOS DA PESQUISA 14 em aberto que devem ser abordadas antes que o processo de replicação possa ser formalizado com sucesso. E que a maioria dos resultados experimentais nessa área não foram reproduzidos, demonstrando que a replicação ainda não é uma pratica regular em Engenharia de Software Experimental, apenas nos meados dos anos 90 teve início a prática de replicação de experimentos nessa área como cita (SILVA et al.,2014).

A meta-análise tem como pré-requisito o resultado da análise dos dados de uma revisão sistemática, com o objetivo de resumir todos os estudos numa única medida, possibilitando conclusões mais genéricas sobre um dado tema de pesquisa, justifica (PICKARD; KITCHEN-HAM; JONES,1998) (KITCHENHAM,2004) . O termo meta-análise foi utilizado pela primeira vez por (GLASS, 1976) em um artigo intitulado "Primary, secondary and meta-analysis of research", na revista Educational Research. Em suma, a meta-análise possui vantagens para a ciência, tais como : permite sintetizar as evidências de estudos sobre um dado assunto, apre-sentando uma estimativa quantitativa global derivada de estudos individuais, e evitando assim a realização de pesquisas desnecessárias sobre temas já consolidados , facilidade de execução e financeiramente não são custosos (BREI; VIEIRA; MATOS,2014); uma das desvantagens seria que a meta-análise não pode compensar as limitações inerentes aos estudos em que se baseia (RESSING; BLETTNER; KLUG,2009). A metodologia usada pela meta-análise refere-se à análise estatística de um conjunto de resultados de estudos individuais com o objetivo de integrar suas conclusões (BORENSTEIN et al.,2009;ROSENTHAL,1991) .

Nesta dissertação, realizamos a meta-análise em algumas famílias de replicações de estudos em Engenharia de Software utilizando os métodos de agregação Diferença da Média Ponderada, Razão de Resposta Paramétrica e Não Paramétrica disponíveis na literatura. Além disso, avaliamos o resultado da meta-análise ressaltando o comportamento e as diferenças nos resultados dos métodos de acordo com os dados extraídos em cada família de replicação. As famílias de replicações foram selecionadas a partir dos trabalhos publicados por (SILVA et al.,

2014) e (BEZERRA et al.,2015), que serão descritas com mais detalhes no Capítulo 3 deste trabalho.

1.1

Objetivos da Pesquisa

O objetivo principal desse estudo é avaliar o resultado da meta-análise com a aplicação dos métodos de agregação existentes na literatura em famílias de replicações de estudos em Engenharia de Softwarede forma a responder a questão central :

1. Quais as principais diferenças nos resultados obtidos com a aplicação dos métodos de agregação nas famílias de replicações em estudos de Engenharia de Software ? , assim como a questão secundária :

2. Como essas diferenças ajudam na consolidação do conhecimento gerado pelos estu-dos ?

(16)

1.2. ESTRUTURA DO TRABALHO 15

1.2

Estrutura do trabalho

No Capítulo 2, é descrita uma Revisão da Literatura, onde serão apresentadas definições e conceitos referentes aos tipos de estudos abordados na pesquisa, que foram Experimento Controlado e Quasi Experimento em Engenharia de Software; definições e conceitos sobre Replicação de estudos empíricos e 2 trabalhos relacionados com o tema desta pesquisa. O Capítulo 3, são descritos conceitos e definições importantes para a realização da meta-análise, detalharemos neste capítulo os métodos estatísticos de agregação Diferença da Média Ponderada, Razão de Resposta Paramétrica e Não Paramétrica, destacando as particularidades de cada método. No Capítulo 4, temos uma breve descrição dos trabalhos que serviram como base para a coleta dos nossos dados, em seguida uma descrição mais detalhada das famílias de replicações que foram analisadas neste estudo. No Capítulo 5, apresentamos a aplicação da meta-análise nas famílias e discussão dos resultados obtidos. No Capítulo 6, descreveremos as conclusões, contribuições do nosso trabalho e propostas para trabalhos futuros.

(17)

16 16 16

2

Revisão da Literatura

Nesta seção serão fornecidas informações conceituais sobre os temas abordados neste trabalho.

2.1

Experimento Controlado e Quasi Experimento

A Engenharia de Software é interdisciplinar, pois aborda questões técnicas, tais como bancos de dados e sistemas operacionais, questões sociais e psicologia. Tradidicionalmente, os estudos empíricos têm sido utilizados nas ciências sociais e psicologia, sendo direcionados para os estudos relacionados ao comportamento humano, neste aspecto, tem algumas semelhanças com a Engenharia de Software, pois estuda aspectos do comportamento humano e requerem nos experimentos a participação de pessoas na realização das tarefas. Para realizar a pesquisa científica nessa área, é necessário compreender os métodos de pesquisa que estão disponíveis, suas limitações e o contexto onde podem ser aplicados. Entre os métodos de pesquisas que são baseados em evidências observáveis temos o experimento controlado. (WOHLIN et al.,2000) (BASILI,1985).

O experimento controlado é uma investigação de uma hipótese testável onde uma ou mais variáveis independentes são manipuladas para mensurar o seu efeito sobre uma ou mais variáveis dependentes, tornando possível a análise estatística. Cada combinação de valores das variáveis independentes representa um tratamento. Os experimentos mais simples são aqueles que tem apenas dois tratamentos que representem dois níveis de uma única variável independente, por exemplo, participantes que usam ferramenta Y versus participantes que não usam ferramenta Y ; os mais complexos são os que utilizam mais de duas variáveis independentes (EASTERBROOK et al.,2008).

É através da dedução e indução empírica que uma hipótese é testada, tendo como base uma teoria que explique o efeito, a definição da hipótese que vai orientar todos os passos do modelo experimental, incluvise na tomada de decisão de quais variáveis devem ser inseridas no estudo e como serão mensuradas. Para garantir que os resultados de um experimento sejam válidos, é importante que os participantes sejam selecionados a partir de uma população bem

(18)

2.1. EXPERIMENTO CONTROLADO E QUASI EXPERIMENTO 17 definida, para demonstrar que a hipótese formulada aplica-se a toda população verificando apenas uma amostra (representativa). O experimento controlado define a relação existente entre as variáveis independentes e dependentes e se existe uma causa-efeito entre elas (EASTERBROOK et al.,2008) (WOHLIN et al.,2000).

Os experimentos controlados apresentam algumas características, listadas a seguir: 1. O estudo é realizado de forma sistemática, direta e precisa.

2. Realizado em laboratório.

3. Estabelecem hipóteses que serão avaliadas no experimento. 4. Requer planejamento rigoroso e detalhado.

5. Os participantes do experimento devem ser uma amostra representativa da população ( em Engenharia de Software existe a dificuldade de encontrar participantes em ambi-entes reais, implicando selecionar estudantes para participarem dos experimentos.) 6. Resultados podem ser obtidos a partir de experimentos isolados, bem como de

famílias de experimentos.

Segundo (WOHLIN et al.,2000) os experimentos são apropriadas para investigar difer-entes aspectos, tais como:

1. Validar teorias existentes.

2. Confirmar a sabedoria convencional, ou seja, para testar concepções das pessoas. 3. Podem explorar as relações causais ou se uma dada relação pode ser confirmada. 4. Avaliar a precisão dos modelos, ou seja, para testar se a precisão de alguns modelos é

como esperado.

5. Validar uma medida, ou seja, verifica se aquela medida mensurou o que foi proposto. Existem dois tipos de variáveis em um experimento, as variáveis independentes e as dependentes. As variáveis que queremos analisar para ver o efeito das alterações na variáveis independentes são chamados de variáveis dependentes (ou variáveis de resposta), as que são manipuladas ou controladas são chamadas de variáveis independentes. No experimento avaliamos o efeito da mudança de uma ou mais variáveis independentes, também chamadas de fatores, se tivermos mais de uma variável independente, a outra variável precisa ser controlada durante o experimento, caso contrário, não teremos como dizer se o fator ou outra variável causou o efeito. O tratamento é um valor particular do fator. Por exemplo, um estudo quer avaliar o efeito do novo método de desenvolvimento na produtividade do pessoal. A variável independente

(19)

2.2. REPLICAÇÃO 18 será o método de desenvolvimento e a variável dependente será a produtividade. O fator será o tratamentodado a variável independente "método", teremos dois tratamentos, um para o novo método e outro para o método antigo. E o programa que devem ser desenvolvido será o objeto e os participantes são os sujeitos do experimento.

(WOHLIN et al.,2000) destaca que os experimentos orientado a humanos implicam várias limitações para o controle experimental. Um delas seria que as pessoas possuem diferentes habilidades e capacidades, outro ponto seria o tempo de aprendizado das pessoas pode impactar no resultado da pesquisa e por último, os experimentos podem ser afetados por algum tipo de influência e ameaça, por exemplo, a falta de entendimento do participante em relação a motivação do experimento. Variações de experimentos são possíveis e podem ser utilizados em circunstâncias em que algumas das condições experimentais não foram atendidas, por exemplo, quando os participantes não são distribuídos de maneira aleatória. O quasi experimento é semelhante ao experimento controlado, porém são menos poderosos e exigem uma interpretação mais cuidadosa (EASTERBROOK et al.,2008).

2.2

Replicação

(COLLINS, 1985) define replicação com sendo um método de verificação de uma descoberta científica, repetindo um determinado procedimento e que tem entre outras funções, estabelecer a solidez do nosso conhecimento da natureza, além de servir como norma dentro do processso de apuração dos fatos. Reforçando a idéia de que qualquer afirmação que não pode ser demonstrada em uma replicação não poderia ser considerada uma fundamentação científica, uma vez que não tem poder de confirmação.

(SCHMIDT,2009) afirma que replicação é questão central de qualquer ciência empírica, isto é, a base de qualquer concepção científica. E que o experimento de uma replicação pre-cisa comprovar que ele pode ser obtido ou repetido em qualquer lugar e por qualquer outro pesquisador, sendo aplicada de forma explícita e sistemática. Fazendo-se necessário definir antecipadamenteo quais as condições experimentais precisam ser controladas, pois a menor alteração, ao replicar um experimento, pode produzir diferenças nos resultados.

(CLYDE,1991) destaca que para fazer uma replicação é necessário entender a complexi-dade do mundo real dentro do qual ocorre a investigação. No entanto, existe discrepância entre o que é descrito como uma replicação do ponto de vista teórico e o que é, na verdade, feito na ciência todos os dias, uma vez que não há um consenso quanto a definição do que seja uma replicação. O que não é diferente nas replicações de estudos em Engenharia de Software, pois existem questões em aberto, principalmente em como proceder quando o assunto é replicação de estudos nessa área. Para (GOMEZ; NATALIA JURISTO,2014) uma das questões em aberto quando se trata de replicações em Engenharia de Software, seria até que ponto podemos mudar a configuração de um experimento original para que de fato tenhamos uma replicação desse experimento e não um novo experimento.

(20)

2.2. REPLICAÇÃO 19 (SCHMIDT, 2009) enfatiza que uma replicação não pode ser uma repetição "exata" de um experimento, pois se assim for não é considerada uma replicação. O procedimento experimental pode ser produzido de maneira semelhante ao original, porém não deve ser em todos aspectos, caso contrário não seria considerado uma replicação e sim o mesmo experimento. O que seria uma contradição, pois foge da definição de replicação que é justamente encontrar ou validar os mesmos resultados obtidos em um estudo através de um outro experimento(replicação).

(SCHMIDT,2009) levanta duas questões que devem ser respondidas antes de se fazer uma replicação: a primeira delas seria quais as condições que devem ser atendidadas para garantir que um experimento B é uma replicação do experimento A ? e a segunda questão levantada seria quais as condições que devem ser levadas em consideração para que os resultados do experimento B seja considerado uma replicação bem-sucedida do experimento A ?, no entanto, não existe um consenso na literatura que possa deixar claro essas questões e ficando inevitável ocorrer ambiguidades.

(CLYDE,1991) destaca que para fazer uma replicação é necessário entender a com-plexidade do mundo real em que ocorre a investigação e sugere oito classes de variáveis que definem essa complexidade. A seguir faremos uma breve descrição das classes que envolvem uma pesquisa:

 Características dos participantes: por exemplo, sexo e idade.

 Contexto histórico dos participantes: experiências anteriores e motivação para a participação no experimento.

 Contexto cultural e histórico : o local em que o estudo foi realizado, por exemplo, universidade na Itália.

 Ambiente físico geral da pesquisa: por exemplo, iluminação e ambiente.  Agente de controle: pesquisador que vai interagir com os participantes.

 Variáveis de tarefas específicas,por exemplo, fonte de digitação, cor e textura do papel.

 Foco na informação primária : descreve as instruções, os materiais e eventos que irão estimular os participantes do experimento.

 Modelo de redução de dados e apresentação : importante para decidir se o resul-tado de uma replicação difere de outro estudo, nessa clase, a análise de dados é importante na avaliação da replicação devido a variabilidade dos dados existentes. (SCHMIDT, 2009) aprimorou a proposta das classes de (CLYDE,1991) e elaborou quatro novas classes, para descrever um contexto típico de pesquisa, que será descrita a seguir:

(21)

2.2. REPLICAÇÃO 20

 Classe 1: Foco na Informação Primária (que consiste em aspectos da informação imaterial e sua realização material.

 Classe 2: Background Contextual do Experimento (consiste em seis subclasses).  Classe 3: Procedimentos Para Seleção e Atribuição dos Participantes.

 Classe 4: Procedimentos Necessários Para a Constituição da Variável Dependente. A função geral da replicação segundo (SCHMIDT,2009) é verificar um fato ou parte de uma descoberta e isso implica dizer que replicação possui algumas funções mais específicas. No entanto, para checar cada uma dessas funções, indicando o que deve ser alterado e o que deve ser mantido constante numa replicação, é necessário descrever e categorizar os vários aspectos de um contexto típico de pesquisa de maneira detalhada previamente. A seguir, listaremos as funções que a replicação pode desempenhar idenfificadas por (SCHMIDT,2009).

 Função 1:Controlar erro amostral( chance de resultado): deve-se observar tês aspec-tos : população, o valor para α, que usualmente é = 0, 05 (erro tipo I) e o tamanho da amostra . Esta função está diretamente relacionada com a Classe 3( Procedimentos para Seleção e Atribuições dos Participantes), citada anteriormente. Logo, ao fazer uma replicação é necessário manter as Classes 1, 2 e 4 inalteradas. No entanto, os procedimentos da Classe 3 devem ser mantidos constantes, uma vez que descrevem a maneira que uma amostra aleatória é obtida a partir da população.

 Função 2:Controlar artefato( falta de validade interna): assume que a Classe 1 não é a única responsável pela mudança da variável dependente, ou seja, pela validade in-terna. E as razões seriam que as variáveis dependentes das Classes 2 ou 4 (ou ambas) podem interagir com uma ou mais variávies da Classe 1 de maneira inesperada.  Função 3:Controlar fraude: semelhante a Classe 2, refere-se ao pessoal envolvido

na pesquisa.

 Função 4:Generalizar resultado para uma população maior ou diferente: o exper-imento é replicado para investigar se o resultado obtido com uma amostra de uma população pode ser generalizada para uma maior ou para uma população diferente. Sendo assim, as Classes 1, 2 e 4 devem ser mantidas constantes e a Classe 3 precisa ser alterada, embora seja possível que as Classes 2 e 4 sejam ligeiramente alteradas devido a considerações pragmáticas. Se o mesmo pesquisador está realizando a replicação, as Classes 2 e 4 pode estar mais próximas do estudo original, mas se o experimento é repetido em local diferente não pode evitar alterações nestas variáveis. Porém, nenhum deles pode interagir com a Classe 1.

(22)

2.2. REPLICAÇÃO 21

 Função 5: Verificar a hipótese principal do experimento anterior: para verificar a hipótese principal é preciso elaborar um experimento diferente, que transmita o mesmo foco de informação primária Classe 1 através de uma realização material totalmente diferente. Ocasionando mudanças nas Classes 2 e 4, bem como alterações de aspectos materiais e processuais da Classe 1. Caso seja possível realizar um novo estudo sobre a mesma população, a Classe 3 deve ser mantida constante, caso não seja possível, isso ocorre quando o alvo seria uma população diferente, ela pode ser alterada. A função 5 é chamada Replicação Conceitual.

A seguir, Tabela 2.1 proposta por (SCHMIDT, 2009), apresenta uma descrição es-quemática das cinco funções que a replicação pode exercer (citadas anteriormente e que estão localizadas na primeira linha da tabela) e as quatro classes de variáveis que descrevem um contexto típico de uma pesquisa (localizadas na segunda coluna da tabela). A tabela indica o que deve ser mantido constante e o que deve ser alterado nesse novo experimento (replicação) de acordo com a função da replicação. Por exemplo, se um pesquisador que replicar o seu estudo e a sua motivação é generalizar os resultados (função da replicação) as Classes 1, 2 e 4 devem ser mantidas constantes, porém a Classe 3 (Procedimentos Para Seleção e Atribuição dos Participantes) deve ser alterada.

Na Tabela 2.1 Alterar = classe de variáveis que necessitam ser parcialmente alteradas para executar uma replicação ; Constante = são as variáveis que devem ser mantidas constantes; "Constante * = significa aplicar os mesmos procedimentos para selecionar os participantes da população que irá resultar em uma amostra diferente; Alterar ξ = significa preparar o mesmo ambiente, mas utilizando material e equipamentos diferentes; Alterar + = diz respeito ao pessoal envolvido no estudo e " Alterar& = dependem de nova realização experimental, caso os participantes possam ser de uma mesma população.Observe que a tabela também indica o tipo de replicação, as quatro primeiras funções fazem parte da Replicação Direta, esse tipo de replicação diz respeito a reprodução dos procedimentos experimentais, gerando os resultados através da confirmação de fatos; já a quinta função diz respeito a Replicação Conceitual, pois tem a capacidade de fornecer entendimento.

(23)

2.3. TRABALHOS RELACIONADOS 22

Classe Controlar erro Controlar artefato Controlar fraude generalizar resultado verificar hipótese amostral

1

Foco na Informação

Constante Constante Constante Constante Constante

Primária (imaterial) Foco na Informação

Constante Constante Constante Constante Alterar

Primária (material)

2 Background contextual Constante Alterarδ Alterar + Constante Alterar

3 Seleção de participantes Constante* Constante Constante Alterar Constante&

4 Constituição da Constante Alterarδ Constante Constante Alterar

variável dependente

Tipo de replicação Replicação direta Replicação conceitual

Ganho científico Confirmação de fato Extensão de conhecimento Entendimento

Risco Baixo risco Alto risco

Table 2.1: Descrição esquemática das classes de variáveis que descrevem um contexto de pesquisa e as funções de replicação.

2.3

Trabalhos Relacionados

Nesta seção serão apresentados dois trabalhos relacionados ao tema desta pesquisa.

2.3.1

Evidências escondidas atrás de replicações inúteis (

DIESTE et al.

,

2010

)

Em pesquisas de Engenharia de Software Empírica (ESE), muitos pesquisadores interpre-tam testes de hipóteses de maneira restritiva, observando apenas se os resultados são significantes ou não. Por outro lado, não é comum que os estudos experimentais construídos com os alunos sirvam como prova, uma vez que esta investigação não é extrapolada para ambientes reais. Existe uma escassez de indivíduos (sejam eles profissionais ou estudantes) que estão dispostos a participar em estudos experimentais. Além disso, quanto mais participantes um experimento tem, mais caro ele será em termos de carga de trabalho, infra-estrutura, etc., e isso pode desencorajar os pesquisadores. Por outro lado, o custo de executar os experimentos com menos indivíduos tende a ser mais acessível. Esses fatores limitam claramente as perspectivas dos pesquisadores em Engenharia de Software em gerar novos conhecimentos empiricamente validados.

Existem algumas alternativas para a exploração dos resultados de estudos em pequena escala. Neste artigo, os autores atentaram para a meta-análise, que é uma técnica estatística para agregar mais de um estudo, aumentando assim o número de sujeitos experimentais envolvidos no teste de hipóteses, produzindo resultados mais confiáveis. No artigo, analisa-se se meta-análise pode ser aplicada em ESE para combinar os resultados de vários experimentos em pequena

(24)

2.3. TRABALHOS RELACIONADOS 23 escala, com o objetivo de aumentar o poder de experimentos com amostras pequenas. Além disso, o trabalho descreve como o tamanho da amostra afeta os testes de hipóteses e discute se meta-análise é confiável quando aplicada em ESE.

No que se refere ao tamanho da amostra, foi feita uma análise da sua relação entre os erros tipo I e tipo II. Estes erros ocorrem devido à incerteza associada à estimação dos parâmetros da população, tais como média e variância, de uma amostra da população. O erro tipo I acontece quando acredita-se que existe diferença entre duas técnicas testadas quando na verdade não existe, enquanto o tipo II acontece quando acredita-se que não existe diferença entre duas técnicas quando na verdade existe. Estes erros não são independentes e, desta forma, é possível estabelecer uma relação entre eles a partir de uma função. A partir dela é possível verificar que, quanto maior o tamanho da amostra, menor será o erro tipo II e, consequentemente, maior será o poder do teste. Para evitar problemas com um baixo poder, a meta-análise pode ser empregada em experimentos.

Quanto à confiabilidade da meta-análise, os autores alegam que atualmente ela tem uma consolidada reputação como uma técnica estatística. Por exemplo, em Medicina e Física (ciências consideradas reconhecidamente experimentais), meta-análise é comumente utilizada e os seus resultados são considerados altamente confiáveis. Entretanto, os autores listaram cinco possíveis obstáculos que um pesquisador de Engenharia de Software usando meta-análise para aumentar o poder de seus resultados experimentais poderia encontrar: 1 - estudos podem retornar resultados inconsistentes devido aos dados experimentais apresentarem heterogeneidade ; 2 - artigos sobre experimentos em Engenharia de Software precisam melhorar sua qualidade experimental ; 3 -meta-análise requer de 4 a 8 participantes por estudo; 4 - os experimentos em Engenharia de Softwarenão possuem dados suficientes; 5 - experimentação em Engenharia de Software não é tão rigorosa quanto em outras ciências.

2.3.2

Análise Comparativa dos Métodos de Meta-análise: quando usar o

quê ? (

DIESTE et al.

,

2011

)

Os resultados de vários estudos experimentais podem ser agregados através de síntese quantitativa, ou comumente conhecida como meta-análise. Resultados agregados são mais confiáveis do que resultados de experimentos individuais, o que torna a meta-análise uma prática comum em ciências que usam experimentos, tais como Medicina, Psicologia ou Física. Um dos métodos de síntese usado por essas ciências é o Diferença da Média Ponderada (DMP), o qual possui algumas restrições como limite mínimo de participantes por tratamento (acima de 10) e necessidade de parâmetros estatísticos (média, desvio padrão e número de participantes por experimento). Embora seja o método mais difundido para realizar meta-análise, existem outros métodos utilizados para síntese quantitativa, por exemplo, o Contagem de Votos Estatístico(CVE), o Razão de Resposta paramétrico (RRP) e o Response Ratio não paramétrico (NPRR) que surgiram como alternativas quando as condições para o uso do DMP não são aplicáveis.

(25)

2.3. TRABALHOS RELACIONADOS 24 Neste artigo, os autores realizam uma análise comparativa dos métodos de meta-análise para experimentos em Engenharia de Software (ES). Foram estudadas a confiabilidade e o poder estatístico dos diferentes métodos de síntese quantitativos por meio de um processo de simulação, utilizando condições semelhantes àquelas atualmente utilizadas em experimentos nessa área. O artigo faz uma revisão dos métodos de síntese quantitativos existentes, detalhando suas limitações e descrevendo trabalhos sobre análise de desempenho em outras ciências que utlizam experimentos. Além disso, uma metodologia de pesquisa é apresentada, assim como os processos de simulação e os resultados da aplicação dos métodos de síntese. Por fim, o artigo apresenta as diretrizes para determinar qual método usar.

Os autores utilizaram uma metodologia para estudar quais métodos de meta-análise são úteis em Engenharia de Software e quando aplicar cada método dependendo do número de estudos e informações disponíveis. Assim, uma simulação foi executada para avaliar o desempenho dos métodos DMP, CVE, RRP e RRNP. Foram analizados diversos valores de variáveis, as quais representam o número de experimentos, o número de participantes por experimento, o tamanho do efeito e o nível de variância. Os valores das variáveis foram escolhidas baseando-se em experiências anteriores estudadas por revisões sistemáticas em ES.

Segundo os autores, os resultados apresentados no artigo são consistentes com estudos anteriores e que a diversidade de contextos testados na simulação destaca alguns problemas que passaram despercebidos até então e que são importantes para estabelecer a confiabilidade e o poder dos diferentes métodos de meta-análise. Concluiram que o método RRNP não é muito poderoso quando o número total de participantes na meta-análise é pequeno; o método DMP não apresentou ser tão desvantajoso quanto foi apontando em outros estudos, sugerindo que a sua confiabilidade é consideravelmente baixa quando o tamanho do efeito é alto; CVE só é confiável em contextos com tamanhos de efeito médio; a confiabilidade e o poder estatístico do RRP são similares ao DMP.

(26)

25 25 25

3

Meta-Análise: Métodos

A meta-análise agrega resultados de pesquisas anteriores integrando-os e ajustando-os, levando em consideração as diferentes condições nas quais as pesquisas originais foram realizadas, onde o resultado esperado é um valor que representa a força da associação de uma ou mais variáveis estudadas (BREI; VIEIRA; MATOS,2014) (BORENSTEIN et al.,2009).

A metodologia usada pela meta-análise é estritamente quantitativa, ou seja, refere-se à análise estatística de um conjunto de resultados de estudos individuais com o objetivo de integrar suas conclusões (BORENSTEIN et al.,2009) (ROSENTHAL,1991). Os métodos utilizados para realizar a meta-análise são capazes de "descobrir novo conhecimento que não seria possível inferir de nenhum dos estudos se tomados individualmente." (L.SCHIMIDT; HUNTER,1977). A seguir iremos apresentar informações sobre os assuntos abordados nesta pesquisa. Neste capítulo serão descritos os seguintes tópicos: Princípios para meta-análise, Tamanho de Efeito , Modelos de Efeito Fixo e Modelo de Efeito Aleátorio, Teste Q, Métodos Estatísticos de Agregação Paramétricos Diferença da Média Ponderada e Razão de Resposta e o método Razão de Resposta Não Paramétrico.

3.1

Princípios para a Meta-Análise

A síntese global produzida pela meta-análise é ponderada, ou seja, é ajustada, onde é atribuído um peso diferente para cada estudo, possibilitando que a investigação possa ser feita de maneira coerente e válida para a conclusão final (KITCHENHAM,2004;PICKARD; KITCHENHAM; JONES,1998; GLASS,1976). Para que o resultado de uma meta-análise seja aplicável, os dados utilizados devem ser oriundos de estudos que foram resultantes de uma revisão sistemática da literatura. (KITCHENHAM,2004) define revisão sistemática da literatura como "um meio de identificar, avaliar e interpretar todas as evidências disponíveis relevantes para uma questão específica de pesquisa, área temática, ou fenômeno de interesse". Uma revisão sistemática deve ser realizada de acordo com uma estratégia de busca predefinida que permita que a integridade da pesquisa seja avaliada. Envolvendo várias atividades distintas, entre elas, podemos destacar o planejamento da revisão, que é dividido por: Identificação da necessidade de

(27)

3.2. TESTE Q DE COCHRAN 26 uma revisãoe Desenvolvimento de um protocolo de revisão e uma outra atividade é a realização da revisão que é dividida por: Identificação de pesquisa, Seleção de estudos primários, Estudo da avaliação de qualidade, Extração e monitorização de dados e Síntese dos dados. Algumas características de uma revisão sistemática precisam ser observadas, tais como :

 As revisões sistemáticas começam pela definição de um protocolo de avaliação que especifica a questão de pesquisa a ser abordado e os métodos que serão utilizados para realizar a avaliação.

 Devem ser baseados em uma estratégia de busca definida, objetivando detectar o maior número possível do que seja relevante na literatura sobre um dado assunto.  Documentam a sua estratégia de busca para que os leitores possam acessar o seu

rigor e completude.

 Requerem critérios de inclusão e exclusão explícitos para avaliar cada estudo primário em potencial.

 Especificam as informações obtidas de cada estudo primário, incluindo os critérios de qualidade que permitam avaliar cada estudo;

 Consideradas pré-requisito para meta-análise.

3.2

Teste Q de Cochran

A maneira mais usual de avaliar se um conjunto de amostras possui homogeneidade é através do teste Q, desenvolvido por Cochran. Porém, o teste Q informa apenas a presença ou ausência de heterogeneidade, mas não informa sobre a extensão dessa heterogeneidade; esse teste tem como hipótese nula (H0) a afirmação de que os estudos que compõem a meta-análise são homogêneos (p > 0, 05). Sendo baseado na estatística I2(HIGGINS et al.,2003) que calcula uma medida de variação total. O teste Q é dado por:

Q= ∑jj=1Wj(Yj− θM)2

Onde Wj é o peso do estudo j, Yj é a medida de efeito do estudo j e θM é a estimativa para a medida metanalítica, definida porRODRIGUES; ZIEGELMANN(2010) como sendo a medida de efeito comum a todos os estudos. O valor p calculado indica se a heterogeneidade é significante, ou não, diferente de zero. Quando a meta-análise envolve um número pequeno de estudos, o poder do teste pode ser baixo, por outro lado, se tivemos um número elevado de estudos o poder do teste será alto e o teste Q pode evidenciar heterogeneidade estatisticamente significante entre os estudos. No entanto, alguns autores argumentam que a heterogeneidade por menor que seja está presente, e por isso, não faz sentido apenas verificar a sua presença, mas quantificá-la. E foi com esse intuito que a estatística I2foi propostaHIGGINS et al.(2003).

(28)

3.3. MÉTODOS ESTATÍSTICOS DE AGREGAÇÃO 27 A estatística I2 é obtida a partir da estatística do teste Q e do número J de estudos envolvidos na meta-análise. É dada por:

I2= Q−(J−1)Q ×100%

O valor de I2 pode variar de valores negativos até 100%, porém se o valor for nega-tivo é igualado a 0. O valor de p do teste I2 é equivalente ao valor p de Q. O valor de I2 próximo a 0% indica que não há heterogeneidade entre os estudos, próximo de 25% indica baixa heterogeneidade, próximo de 50% heterogeneidade moderada e de 75% em diante, indica alta heterogeneidade entre os estudosHIGGINS et al. (2003); BORENSTEIN et al. (2009);

RODRIGUES; ZIEGELMANN(2010).

3.3

Métodos Estatísticos de Agregação

Os métodos estatísticos de agregação usados na meta-análise asseguram a obtenção de uma estimativa combinada e precisa, decorrendo do aumento do número de observações e, consequentemente, do poder estatístico e da possibilidade de examinar a variabilidade entre os estudos (BORENSTEIN et al.,2009;FAGARD; STAESSEN; THIJS,1996).

Na estatística, as medidas que expressam uma característica geral de uma população, tais como os valores da média e variância são chamados de parâmetros. O valor real de cada paramêtro geralmente é desconhecido, uma vez que, para se conhecer cada um deles seria necessário observar cada integrante da população, e isso é impraticável dependendo da situação. Neste caso, é possível observar apenas um grupo de indivíduos de uma população, obtendo assim uma amostra daquela população que se deseja analisar. Ao agrupar as informações dos dados da amostra de uma dada população, poderemos tirar conclusões aproximadas a partir dos parâmetros obtidos da população. Esse maneira indutiva ou inferencial usada para obtenção de conhecimento é conhecida como Estatística Inferencial (J.NEYMAN; PEARSON; S.,1933). (HEDGES; OLKIN,1985) destacam que existem dois grupos distintos de métodos de agregação, que são os Métodos Paramétricos e os Métodos Não Paramétricos.

Os métodos paramétricos são aplicados para avaliar um conjunto de parâmetros, e assim entender como se comporta uma dada população . (HEDGES; OLKIN,1985) menciona que para ser possível essa avaliação é necessário assegurar que as amostras foram obtidas de maneira aleatória e independentes; que a população seja normalmente distribuída e ainda que possua homogeneidade na sua variância. Outra questão importante é que para ser possível a aplicação dos métodos de agregação paramétricos faz-se necessário que haja compatibilidade entre as variáveis respostas relatadas dos estudos experimentais que se deseja agrupar (BORENSTEIN et al.,2009). Os métodos não paramétricos não fazem suposições sobre os parâmetros estatísticos que afetam uma amostra, por isso são mais fáceis de aplicar. Por outro lado, são menos poderosos e, por isso, devemos ter cuidado ao interpretar os resultados obtidos (J.NEYMAN; PEARSON; S.,1933;HEDGES; OLKIN,1985).

(29)

3.3. MÉTODOS ESTATÍSTICOS DE AGREGAÇÃO 28 Meta-análise é a quantificação dos resultados de vários artigos científicos para um modelo estatístico com o objetivo de analisar uma ou mais evidências científicas da literatura. No entanto, para que os estudos possam ser agregados é preciso antecipadamente calcular o tamanho de efeito de cada estudo com o objetivo de unificá-los. (BREI; VIEIRA; MATOS,2014) define tamanho de efeito (effect-size) como sendo uma medida da força do relacionamento entre duas variáveis em uma população. Ou seja, é a magnitude do efeito que uma variável exerce sobre a outra em termos de associação. O tamanho de efeito é considerado baixo quando for igual (0.2), médio (0.5), alto (0.8) e muito alto (1.2) DIESTE et al. (2011). Para que o resultado de uma meta-análise tenha significado é necessário que os estudos que compõem os dados apresentem homogeneidade. Basicamente, existem duas fontes de variabilidade que explicam a heterogeneidade em um dado conjunto de estudos numa meta-análise: uma delas é devido ao erro amostral, uma vez que cada estudo utiliza amostras diferentes; a outra razão seria a variabilidade entre os estudos, que é devido a influência de um número indeterminado de características, tais como: características amostrais e variações no tratamento.

3.3.1

Método Paramétrico Diferença da Média Ponderada (DMP)

O método Diferença Média Ponderada (GLASS,1976;RODRIGUES; ZIEGELMANN,

2010) é o método mais conhecido para estimar o tamanho do efeito individual dos estudos; ou ainda para predizer como um tratamento Experimental é melhor que um tratamento Controle usando variáveis contínuas. Sendo um dos métodos usado na área de Engenharia de Software para se fazer meta-análise dos estudos (DYBA et al.,2007). Esse método é bastante simples, consiste em estimar um tamanho de efeito individual de cada estudo, comparando se um tratamento é melhor que outro tratamento, esse resultado é obtido através da diferença da média dos dois tratamentos (Experimental e Control dividida pela variância combinada dos dois tratamentos. Após calcular o efeito individual para cada estudo, é preciso calcular o efeito global, que é obtido através da combinação de n estudos experimentais, calculando a média ponderada do tamanho de efeito de todos os estudo envolvidos no processo de agregação (GLASS,1976;BORENSTEIN et al.,2009).

A função para estimar o tamanho de efeito individual é calculada por:

g=Y E−YC Sp  3.1 Onde g representa o tamanho do efeito do estudo individual, YE representa a média do grupo Experimental e YCrepresenta a média do grupo Control, Sprepresenta o desvio padrão combinado dos grupos.

O desvio padrão combinado, mencionado acima, é dado pela seguinte equação:

Sp= s (NE− 1)(SE)2+ (NC− 1)(SC)2 NE+ NC− 2  3.2

(30)

3.3. MÉTODOS ESTATÍSTICOS DE AGREGAÇÃO 29 Onde Sp é o desvio padrão combinado dos grupos, S é o desvio padrão dos grupos Experimentale Control; N é o número de participantes dos grupos Experimental e Control.

A função para estimar o tamanho de efeito proposta por (GLASS,1976) foi aprimorada por (HEDGES; OLKIN,1985) que acrescentado um fator de correção J para melhorar a precisão do resultado quando não há muitos participantes nos experimentos (menos de 10). Esse fator de correção é importante, em particular, nos processos de agregação em Engenharia de Software, onde geralmente os experimentos são realizados com poucos participantes.

A função é dada por :

d= J(N − 2)Y E−YC Sp  3.3 Onde d é o tamanho do efeito , J(N − 2) é o fator de correção e N é o número de participantes de ambos os grupos calculado pela função (nE+ nC).

A função para calcular J é dada por:

J= 1 − 3 4m − 1  3.4 Onde m é calculado por m = N − 2.

Ao estimar o tamanho do efeito individual, podemos concluir um dos seguintes resulta-dos:

1. Positivo, indicando que o tratamento Experimental é melhor que o tratamento Control; 2. Negativo, indicando que o tratamento Control é melhor que o tratamento

Experimen-tal;

3. Zero, indicando que não há diferença entre o tratamento Experimental e o tratamento Control.

Ao obtermos o tamanho do efeito individual, precisamos calcular o intervalo de confiança com a seguinte função:

d− Zα /2√v≤ λ ≤ d + Zα /2√v 3.5 Onde d é o tamanho do efeito, Z é o quantil da distribuição normal a nível de significância (α = 0, 05), cujo valor é 1,96 e raiz quadrada de v é o erro padrão.

Para obtermos o intervalo de confiança, mencionado acima, precisamos calcular antes v com a seguinte equação:

v= n˜+ d 2 2(nE+ nC)  3.6

(31)

3.3. MÉTODOS ESTATÍSTICOS DE AGREGAÇÃO 30 Onde v é o erro padrão, d é o tamanho do efeito individual e n é o número de participantes dos grupos Experimental e Control. Para calcular o erro padrão, precisamos obter o valor de ˜n ,que é calculado com a seguinte função:

˜ n= n E+ nC nE× nC  3.7 Onde nE é o número de participantes do grupo Experimental e nC é o número de participantes do grupo Control.

Para estimar o efeito global(medida metanalítica) a avaliação de heterogeneidade entre os estudos na meta-análise é crucial, pois a sua presença ou ausência pode afetar na escolha do modelo estatístico (HEDGES; GUREVITCH; CURTIS,1999;HEDGES; PIGOTT,2004;

SUTTON et al.,2003). A medida metanalítica é estimada como a média ponderada dos efeitos individuais (BORENSTEIN et al.,2009). Os modelos de efeito são divididos em Modelo de Efeito Fixoe Modelo de Efeito Aleatório, esses modelos asseguram que o tamanho da amostra e a precisão da estimativa da medida de efeito de cada estudo sejam incorporados adequadamente no resultado final (RODRIGUES; ZIEGELMANN,2010).

A função geral de estimação é dada por:

dw= w1× d1+ . . . + wk× dk 3.8 Onde dw é o efeito global, w1e wksão os pesos individuais dos estudos e d1e dksão os efeitos individuais dos estudos.

3.3.1.1 Modelo de Efeito Fixo

O modelo de efeito fixo assume que o efeito de interesse é o mesmo em todos os estudos e que as diferenças observadas entre eles são decorrentes a erros amostrais, ou seja, a variabilidade interna de cada estudo (BORENSTEIN et al.,2009). (RIED,2008) afirma que se a heterogeneidade for entre zero e ≤ 25%, os estudos podem ser considerados homogêneos e o modelo fixo seria o mais adequado, mas se a porcentagem for acima de ≥ 75% significa que existe alta heterogeneidade e esse modelo não será o mais indicado.

A função para calcular o efeito global do modelo fixo é dada por:

d∗= ∑ di/σ 2 i(d) ∑ 1/σi2(d)  3.9 Onde ∑ di/σi2(d) é o somatório dos efeitos individuais e ∑ 1/σi2(d) é o somatório do inverso da variância.

Para estimar o efeito global é necessário calcular a variância dentro do estudo que é dado pela função:

(32)

3.3. MÉTODOS ESTATÍSTICOS DE AGREGAÇÃO 31 σi2(d) = n˜i+ d 2 i 2(nEi + nCi)  3.10 Onde ˜ni= (nEi + nCi), dié o tamanho de efeito individual dos estudos e n é o número de participantes no grupo Experimental e Control.

Após estimar o efeito global, podemos calcular o intervalo de confiança do efeito que é dada por:

d∗− Zα /2√v≤ λ ≤ d∗+ Zα /2√v 3.11 Onde d∗é o tamanho de efeito global e Z é o quantil da distribuição normal a nível de significância (α = 0, 05), cujo valor é 1,96, e a raiz quadrada de v é o desvio padrão dado pela função:

1

∑1/σ

2 i(d) .

3.3.1.2 Modelo de Efeito Aleatório

O modelo de efeito aleatório sugere que o efeito de interesse dos estudos não são iguais, apenas considera que os estudos que fazem parte da meta-análise compõem uma amostra aleatória de uma população hipotética e que isso decorre pelo fato de haver pequenas variações nos resultados que não podem ser controlados no decorrer dos experimentos (BORENSTEIN et al.,2009). Assim, embora o tamanho de efeito dos estudos não sejam considerados iguais, eles são conectados através de uma distribuição de probabilidade, que considera-se normal.

A função para calcular o tamanho de efeito global do modelo aleatório é dada por :

∆ =∑ di/γ 2 i(d) ∑ 1/γi2(d)  3.12 Onde ∆ é o efeito global, ∑ di/γi2(d) é o somatório dos efeitos individuais e ∑ 1/γi2(d) é o somatório do inverso da variância entre e dentro dos estudos.

Para estimar a variância entre os estudos, calcularemos a seguinte função:

σ2(∆) = s2(d) −1 k k

i=1 (c0i+ c00id2i) 3.13 Onde σ2(∆) é a variância entre os estudos, s2(d) é a variância do efeito dos estudos e k é o número dos estudos que são partes do processo de agregação, di2é o tamanho de efeito de cada estudo, Ni= nE+ nC, e n é o número de participantes do grupo Experimental e Control.

A função para estimar c0ié dada por:

c0i= nE+ nC nE× nC  3.14 A função para estimar c”ié dada por:

(33)

3.3. MÉTODOS ESTATÍSTICOS DE AGREGAÇÃO 32 c00i = ai− 1 ai  3.15 A função para estimar aié dada por:

ai=Ni− 2[J(Ni− 2)] 2 Ni− 4  3.16 A função para estimar a variância dos tamanhos de efeitos é dada por :

s2(d) k

i=1 (di− ¯d)2 k− 1  3.17 Onde s2(d) é a variância dos efeitos dos estudos, k é o número dos estudos que fazem parte do processo de agregação, dié o tamanho de efeito de cada estudo e ¯dé a média do tamanho de efeito de todos os estudos.

A função para estimar a variância dentro do estudo é dada por :

σ2(di|δi) = (c0i+ c00idi2)  3.18 Para estimar a variância global, calculamos a função dada por:

γi2= δ2(∆) + δ2(di|δi)  3.19 Onde γi2é a variância global, δ2(∆) é a variância entre os estudos e δ2(di|δi) é a variância dentro do estudo.

A função para estimar o intervalo de confiança é dada por :

∆ − Zα /2

v≤ ∆ ≤ ∆ + Zα /2 √

v 3.20

Onde ∆ é o tamanho de efeito global, Z é o quantil da distribuição normal a nível de significância (α = 0, 05), cujo valor é 1,96 e raiz quadrada de v é o desvio padrão dado por :

v= 1 ∑ki=1 1 γi2  3.21

A seguir, destacamos algumas diferenças entre os modelos de efeito fixo e efeito aleatório: 1. Quanto ao tamanho de efeito dos estudos individuais: o modelo fixo assume que

todos os estudos compartilham o tamanho de efeito e as diferenças entre os efeitos individuais são pequenos e o modelo aleatório assume que existe mais de um tamanho de efeito, pois cada estudo é oriundo de população diferente.

2. Quanto ao poder estatístico: o modelo fixo apresenta resultados mais precisos e os intervalos de confiança são mais estreitos e o modelo aleatório apresenta resultados menos precisos e intervalos de confiança mais amplo.

(34)

3.3. MÉTODOS ESTATÍSTICOS DE AGREGAÇÃO 33 3. Quanto ao peso individual dos estudos: como o modelo fixo assume que todos compartilham do mesmo tamanho de efeito, isso faz com que os maiores estudos também tenham os maiores pesos, sendo considerados mais precisos, já o modelo aleatório, assume-se que o tamanho de efeito não é compartilhado, os pesos dos estudos serão mais distribuídos fazendo com que influência dos maiores pesos seja limitada.

4. Quanto a influência do número de participantes: como o modelo fixo assume um único tamanho de efeito e a variância estimada é a variância dentro do estudo, esse modelo pode ser mais robusto para o erro produzido quando há poucos participantes num dado estudo. E o modelo aleatório por não assumir um único tamanho de efeito e sendo a variância estimada dentro e entre os estudos, o erro da estimativa da variância entre os estudos pode ser elevado quando há poucos estudos.

3.3.2

Método Paramétrico Razão de Resposta (RRP)

Embora esse método não seja tão conhecido como o método Diferença Média Ponderada, ele vem sendo adotado nos estudos realizados pelos ecologistas (?), essa preferência decorre da baixa taxa de erro no processo de agregação dos estudos nessa área (?) (HEDGES; GUREVITCH; CURTIS,1999) (LAJEUNESSE; FORBES,2003). Esse método consiste em calcular o quociente da média entre um tratamento Experimental e um tratamento Control para estimar um índice de melhoria (tamanho do efeito). Esse quociente indica quanto um tratamento é melhor que outro tratamento (MIGUEZ; BOLLERO,2005) . Após calcular o índice de melhoria de cada estudo, poderemos obter o efeito global através do cálculo da média ponderada de todos os estudos.

Para estimar a razão de resposta do estudo individual, precisamos calcular a seguinte função: RR=Y E YC  3.22 Onde RR é a razão de resposta, YE é a média do tratamento Experimental e YC é média do tratamento Control.

Após calcular a razão de resposta do estudo individual, precisamos calcular o logaritmo natural de RR( esse cálculo é necessário para garantir a linearidade da razão, dando a mesma importância para as duas médias), é dado pela seguinte função:

L= ln(RR) 3.23

Ao estimar o tamanho do efeito individual, poderemos concluir um dos seguintes resulta-dos:

1. Maior que "1", indica que o tratamento Experimental é melhor que o tratamento Control;

(35)

3.3. MÉTODOS ESTATÍSTICOS DE AGREGAÇÃO 34 2. Menor que "1", indica que o tratamento Control é melhor que o tratamento

Experi-mental;

3. Igual a "1", indica que não há diferença entre o tratamento Experimental e o trata-mento Control.

Após calcular a razão de resposta individual, precisamos obter o intervalo de confiança, dado pela seguinte função:

l− Zα /2√v≤ λ ≤ l + Zα /2 √

v 3.24

Onde ln é o logaritmo natural de RR, Z é o quantil da distribuição normal a nível de significância (α = 0, 05)), cujo valor é 1,96 , e raiz quadrada de v é o erro padrão.

Para calcular o intervalo de confiança, acima citado, precisamos calcular antes o erro padrão, obtido pela seguinte função:

v= S 2E nEYE + S2C nCYC  3.25 Onde v é o erro padrão, S2E é a variância do tratamento Experimental e S2Cé a variância do tratamento Control, n é o número de participantes dos grupos de tratamento Experimental e Control.

Para estimar o efeito global, precisamos calcular a seguinte função:

L∗= ∑ k i=1Wi∗Li ∑ki=1Wi∗  3.26 Onde L∗é o efeito global, Lié o efeito individual, Wié o fator de peso, que é obtido por 1/v, conforme estimado na função 3.9.

Após estimar a razão global, precisamos calcular o intervalo de confiança com a seguinte função:

L∗− Zα /2√v≤ λ ≤ L∗+ Zα /2√v 3.27 Onde L∗é efeito global, Z é o quantil da distribuição normal a nível de significância (α = 0, 05)), culo valor é 1,96 e raiz quadrada de v é o erro padrão.

Para calcular o intervalo de confiança, acima mencionado, precisamos antes calcular v, que é obtido pela função:

v= 1 ∑ki=1W1 i  3.28 Onde v é o erro padrão e Wié o fator de peso.

(36)

3.3. MÉTODOS ESTATÍSTICOS DE AGREGAÇÃO 35

3.3.3

Método Não Paramétrico Razão de Resposta (RRNP)

Os métodos não-paramétricos não fazem suposições sobre os parâmetros estatísticos que afetam uma amostra, por isso são mais fáceis de aplicar. Por outro lado, são menos poderosos e, por isso, devemos ter cuidado ao interpretar os resultados obtidos (J.NEYMAN; PEARSON; S.,1933) (HEDGES; OLKIN,1985). O método Razão de Resposta Não Paramétrico(RRNP) é uma variação do Razão de Resposta Paramétrico que consiste em calcular o quociente da média entre o tratamento Experimental e o tratamento Control para estimar o tamanho do efeito de cada estudo ou indíce de melhoria (HEDGES; GUREVITCH; CURTIS,1999). Depois de ter calculado a razão (tamanho de efeito), o efeito global poderá ser obtido. Outro ponto que deve ser observado ao aplicar este método, é que as variáveis respostas relatadas nos experimentos precisam ser compatíveis umas com as outras para que esse método seja aplicado (HEDGES; GUREVITCH; CURTIS,1999). É um método que pode ser aplicado com poucas informações e não necessita saber qual o tipo de distribuição os dados pertencem, também não utilizam a variância dos estudos para calcular o tamanho de efeito global. Por esse método ter essas particularidades fica mais fácil a sua aplicação onde há poucas informações sobre o experimento, como é o caso dos estudos em Engenharia de Software (CRANDALL,1989).

Para estimar a razão de resposta do estudo individual, precisamos calcular a seguinte função: RR=Y E YC  3.29 Onde RR é a razão de resposta, YE é a média do tratamento Experimental e YC é média do tratamento Control.

Ao estimar o tamanho do efeito individual, poderemos concluir um dos seguintes resulta-dos:

1. Maior que "1", indica que o tratamento Experimental é melhor que o tratamento Control;

2. Menor que "1", indica que o tratamento Control é melhor que o tratamento Experi-mental;

3. Igual a "1", indica que não há diferença entre o tratamento Experimental e o Control. Após calcular a razão de resposta do estudo individual, precisamos calcular o logar-itmo natural ( esse cálculo é necessário para garantir a linearidade da razão, dando a mesma importância para as duas médias). É dado pela seguinte função:

Li= ln(RR) 3.30

Após estimar a razão de resposta, precisamos obter o intervalo de confiança com a seguinte função:

(37)

3.3. MÉTODOS ESTATÍSTICOS DE AGREGAÇÃO 36

Li− Zα /2√v≤ λ ≤ Li+ Zα /2√v 3.31 Onde Lié logaritmo natural da razão de resposta, Z é o quantil da distribuição normal a nível de significância (α = 0, 05)), culo valor é 1,96 e raiz quadrada de v é o erro padrão.

Para calcular o intervalo de confiança, acima mencionado, precisamos obter o valor de v, que é obtido pela função:

v= nC+ nE nEnC + ln(RR2) 2(nC+ nE)  3.32 Onde nC é o número de participantes do grupo Control e nE é número de participantes do grupo Experimental, RR é a razão de resposta individual.

Para estimar o efeito global, precisamos calcular a seguinte função:

L∗= ∑ k i=1Wi∗Li ∑ki=1Wi∗  3.33 Onde L∗é o efeito global, Lié o efeito individual, Wi∗é o fator de peso, dado pelo inverso da variância.

O intervalo de confiança global é calculado pela função:

L∗− Zα /2√v≤ λ ≤ L∗+ Zα /2√v 3.34 Onde L∗é o efeito global, raiz quadrada de v é o erro padrão e Z é o quantil da distribuição normal a nível de significância (α = 0, 05)), culo valor é 1,96 .

Para calcular o intervalo de confiança global, precisamos antes obter v através da função:

v= 1 ∑ki=1W1i  3.35 Onde v é o erro padrão e Wié o fator de peso.

A seguir, uma breve descrição das particularidades dos métodos DMP, RRP E RRNP: 1. Com relação ao método DMP: existe uma função de correção que miniminiza o

erro de estimação quando há poucos estudos, podendo ser aplicado em processos de agregação em estudos de Engenharia de Software, porém, todos os parâmetros precisam ser publicados (HEDGES; OLKIN,1985) (DYBA et al.,2007).

2. Com relação ao método RRP: o nível de erro é baixo quando há poucos estudos, o intervalo de confiança é estreito, mas exige que todos os parâmetros sejam publicados, não há necessidade de tabelas para interpretar o resultado final.

3. Com relação ao método RRNP: o nível de erro é baixo quando há poucos estudos, nenhum conhecimento é exigido de como a população se comporta, como a dis-tribuição e homogeneidade da variância; os desvios não são exigidos e os intervalos

(38)

3.3. MÉTODOS ESTATÍSTICOS DE AGREGAÇÃO 37 de confiança são mais amplos que os do método RRP. Como esse método considera uma técnica não paramétrica, há a necessidade de mais estudos para exibir diferenças significativas do efeito.

Referências

Documentos relacionados

Este trabalho busca reconhecer as fragilidades e potencialidades do uso de produtos de sensoriamento remoto derivados do Satélite de Recursos Terrestres Sino-Brasileiro

QUANDO TIVER BANHEIRA LIGADA À CAIXA SIFONADA É CONVENIENTE ADOTAR A SAÍDA DA CAIXA SIFONADA COM DIÂMTRO DE 75 mm, PARA EVITAR O TRANSBORDAMENTO DA ESPUMA FORMADA DENTRO DA

Este trabalho buscou, através de pesquisa de campo, estudar o efeito de diferentes alternativas de adubações de cobertura, quanto ao tipo de adubo e época de

No entanto, maiores lucros com publicidade e um crescimento no uso da plataforma em smartphones e tablets não serão suficientes para o mercado se a maior rede social do mundo

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

3.3 o Município tem caminhão da coleta seletiva, sendo orientado a providenciar a contratação direta da associação para o recolhimento dos resíduos recicláveis,

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

Analysis of relief and toponymy of the landscape based on the interpretation of the military topographic survey: Altimetry, Hypsometry, Hydrography, Slopes, Solar orientation,