Segunda Hipótese: Quantidade de Código Pro-

3.6 Detalhes de Implementação

4.1.4.2 Estatística Descritiva

4.1.4.2.2 Segunda Hipótese: Quantidade de Código Pro-

Da mesma forma que na análise da primeira hipótese, utilizaremos o gráfico de dispersão boxplotpara análise dos outliers, apresentado na Figura 4.6.

Figura 4.6: Gráfico de dispersão para a variável Quantidade de Código Produzido.

De acordo com a Figura 4.6, a variável tamanho do código produzido possui cinco outliers. Para a escolha de que observações serão excluídas da amostra, optou-se pela identi- ficação numérica. A Tabela 4.7 apresenta algumas medidas estatísticas para essa variável, agrupadas por abordagem.

Tabela 4.7: Média e desvio padrão para a variável Quantidade de Código Produzido.

Por critério de projeto, estabeleceu-se que os valores extremos que não atingirem a média com mais de dois desvios padrões, serão removidos da amostra. Neste contexto, apenas as observações *3, *6 e *31 foram eliminadas do conjunto de dados. Os demais outliers não foram considerados críticos para a validade das conclusões.

Eliminados os outliers críticos, vamos verificar se a abordagem automática requer menos código produzido que a manual, através da observação do tamanho médio do código mock desenvolvido com o uso de cada estratégia (LOTCM - para a estratégia manual e LOTCMA - para a estratégia automática).

Nesta análise, averiguamos que, para um nível de confiança de 95%, LOTCMA tem média de 25,56 e LOTCM tem média de 40,21.

Segundo Raj [37], quando os intervalos de confiança se sobrepõem e a média de um não está contida no intervalo de confiança do outro. Então, precisamos fazer o Teste T para extrair relações de "maior que"˙ou "menor que". A Gráfico 4.7 ilustra os intervalos de confiança para cada abordagem, a partir da qual podemos perceber que estes intervalos se sobrepõem, mas a média de um não está contida no intervalo de confiança do outro, então, precisamos fazer o Teste T para verificar se LOTCMA é menor que LOTCM, ou seja, se o tamanho do código produzido de forma automática é menor que na manual.

Figura 4.7: Gráfico dos intervalos de confiança de LOTCM e LOTCMA.

Para fazer o Teste T, precisamos verificar a normalidade e a homocedasticidade dos dados. Sendo assim, a próxima etapa consiste em identificar se os dados seguem uma distri- buição normal. Para se avaliar a normalidade, é definida uma hipótese nula e uma hipótese alternativa, conforme:

• H0: a distribuição é normal;

• H1: a distribuição não é normal.

Existem duas formas para se avaliar a distribuição normal dos dados, que compreendem o Teste de Kolmogorov-Smirnov e o Teste de Shapiro-Wilk. O primeiro é utilizado para identificar a normalidade em variáveis com pelo menos 30 valores e o segundo em variáveis com menos de 50 valores. A Tabela 4.8 apresenta os testes de normalidades para a amostra utilizando o Teste de Shapiro-Wilk.

Tabela 4.8: Teste de normalidade Shapiro-Wilk para a variável Quantidade de Código Pro- duzido.

Com base na Tabela 4.8, observa-se que a significância dos dados do teste de Shapiro- Wilk é inferior, em ambas as abordagens, ao nível de significância definido (0,05 ou 5%). Sendo assim, há indícios para rejeitar a hipótese nula e, consequentemente, não se pode aplicar um teste paramétrico para avaliação das hipóteses. Então, optou-se por aplicar o teste Mann-Whitney, para duas amostras independentes, por se tratar de uma alternativa não paramétrica para o Teste T.

O teste de Mann-Whitney para duas amostras independentes é utilizado para comprovar se as diferenças entre as médias observadas nos dois grupos independentes são estatistica- mente significativas. Com base na declaração das hipóteses, sugere-se:

• H0: Não há diferença entre as médias (µLOT CM = µLOT CM A)

• H1: Há diferença entre as médias (µLOT CM 6= µLOT CM A)

O resultado do teste Mann-Whitney foi aplicado sobre as amostras e está apresentado na Tabela 4.9.

Tabela 4.9: Teste de Mann-Whitney para a variável Tamamnho de Código Produzido.

Como o grau de significação associado (Sig. Assimpt.) é 0,002 e é menor que a signi- ficância assumida de 0,005, deve-se rejeitar H0. Frente aos resultados apresentados para a

variável precisão, existe diferença de média entre o tamamnho do código produzido, manual e o automático. Pela análise estatística dos dados, consegue-se recuperar duas informações:

1. A distribuição da variável tamanho do código produzido não é normal, o que implica na execução de testes não paramétricos;

2. Utilizando o teste Mann-Whitney, conseguiu-se verificar que existem diferenças entre as médias das duas amostras LOTC e LOTCM.

Utilizando o teste de Mann-Whitney, conseguiu-se apenas rejeitar a hipótese nula, po- rém não foi possível avaliar as hipóteses alternativas, pois não é possível extrair relações de "maior que"˙com o teste aplicado. Porém, sugere-se comparar a análise descritiva das médias da amostra conforme a Tabela 4.10.

Tabela 4.10: Média e desvio padrão para a variável Quantidade de Código Produzido.

Comparando as médias apresentadas, e com base nas médias das duas abordagens, observa-se que há evidências de que o tamanho do código mock produzido automaticamente é menor que o tamanho do mesmo tipo de código produzido manualmente. Desta forma, fizemos a normalização dos dados em termos de LOTCMA, a qual expressa a redução de código produzido com a utilização da abordagem automática. Então, medimos esta redu- ção para cada observação manual em relação à automática na Tabela 4.11, onde usamos a fórmula: Redução do tamanho do código produzido = (LOT CM −LOT CM A)_{LOT CM A} .

Como resultado, os valores apontam uma redução significativa do tamanho do código produzido com a utilização da abordagem automática, em média 53%. Com a exceção de um caso onde a redução é negativa, -31%, significando que nesta observação específica não houve redução, ao contrário de todas as outras.

Tabela 4.11: Observações do experimento para as variáveis LOTCM e LOTCMA com suas respectivas reduções.

No documento Geração Automática de Testes com Objetos Mock Baseados em Interações (páginas 93-98)