• Nenhum resultado encontrado

5.10.6

Projeto Experimental 5 – Hipóteses H0

5

e H1

5

As hipóteses H05 e H15, referentes à densidade de faltas das técnicas, são investigadas no

Projeto Experimental 5. Ao investigar o efeito das diferentes configurações das técnicas, não é observada diferença estatisticamente significativa na densidade de faltas destas técnicas. Diante disto, são consideradas as médias aritméticas das densidades de faltas de cada config- uração para as respectivas técnicas analisada. Portanto, este projeto experimental apresenta um único fator, com 5 níveis categóricos (T1, T2, T3, T4 e T5).

Após observar que as configurações não afetam, significativamente, os resultados da suíte, é investigada a quantidade de execuções necessárias para obter uma análise com sig- nificância estatística. Assim como nos demais projetos experimentais, são utilizados dados de 40 execuções de cada técnica, sob uma precisão de ±5%. Os resultados são apresentados na Tabela 5.6.

Tabela 5.6: Dados estatísticos para o tamanho de amostras mínimo de cada uma das técnicas de re-teste seletivo no tocante à densidade de faltas.

Técnica T1 T2 T3 T4 T5

Média 41,39 38,23 49,16 62,85 41,90 Desvio Padrão 5,57 0,00 1,89 0,00 4,37 Replicações Necessárias 28 1 3 1 17

5.11

Avaliação de Validade

Nesta seção será discutida a avaliação de validade definida para este estudo experimental. É importante considerar os aspectos de validade do experimento ainda no planejamento, para que uma avaliação adequada dos resultados do experimento seja planejada. Os aspectos que caracterizam uma validade adequada, assim como, os aspectos de avaliação de validade são apresentadas no Capítulo 2, Seção 2.5.3.

A validade de estudos experimentais está sujeita a ameaças. Para identificar as ameaças à validade deste estudo experimental, é utilizado um checklist definido por Cook [Cook and Campbell 1979] em que as ameaças são identificadas de acordo com o tipo da validade (interna, externa, de conclusão ou construção).

5.11 Avaliação de Validade 92

Neste estudo experimental, a validade de conclusão é mantida através dos elementos do projeto e do design experimental, como o tamanho das amostras e os testes estatísticos uti- lizados. Para manter a significância estatística dos dados, a quantidade de execuções realiza- das é maior que a quantidade definida no tamanho das amostras de cada projeto experimental (Seção 5.10).

Diante disto, são planejadas 100 execuções de cada técnica, para as variáveis dependentes investigadas. Em uma primeira execução, são capturados os dados de inclusão e eficiência; enquanto que, em uma segunda execução, são coletados os dados de precisão, potencial de redução e densidade de faltas. Com esta divisão na coleta de dados, foi possível iniciar a análise das variáveis de inclusão e eficiência, de forma que, ao término da segunda execução, parte da análise já estaria concluída, evitando atrasos no cronograma por eventuais problemas de execução (e.g. quedas de energia, erros na manipulação dos arquivos, dentre outros).

O único tamanho de amostra planejado que não pode ser atingido, ao realizar as 100 exe- cuções é o da técnica T5−75%(onde são necessárias 258 execuções). Porém, como esclarecido

na Seção 5.10.4, devido à dimensão dos dados (nanossegundos) e o nível de precisão utiliza- dos, esta redução na quantidade de execuções para esta técnica não caracteriza um impacto significativo nos resultados de eficiência.

Todas as análises realizadas consideram um nível de confiança de 95%, i.e. um nível de significância alpha = 0, 05. Escolhemos este nível de confiança através de sugestões na literatura de estatística [Jain 1991, Siegel and Junior 1988]. Além disto, este nível de confiança fornece uma perspectiva satisfatória a respeito das zonas de rejeição das hipóteses nulas de cada projeto experimental.

A principal ameaça à validade de conclusão está no poder e uso apropriado dos recursos estatístico, na violação de premissas de testes estatísticos e na confiabilidade da implemen- tação dos tratamentos. Para lidar com as ameaças na utilização dos recursos estatísticos, o investigador realizou um amplo estudo dos aspectos estatísticos com relação à experimen- tação em engenharia de software.

Durante esse estudo, o investigador cursou as disciplinas: T.E.C.C. de Fundamentos de Pesquisa em Ciência da Computação, e Engenharia de Software Experimental do Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Campina Grande, cujos respectivos programas contemplam muitos conceitos de investigação e análise estatís-

5.11 Avaliação de Validade 93

tica. Os conceitos vistos e aplicados durante estas disciplinas contribuíram significativa- mente para a fundamentação estatística utilizada neste experimento.

Uma das principais ameaças à validade interna é o controle do experimento. Con- siderando que a execução das técnicas é automática, o controle é inserido na implementação e execução dos algoritmos, de forma que o ambiente de execução do experimento não seja influenciado por outro processo, ou programa, da máquina. Ou seja, não são utilizados al- goritmos distribuídos ou concorrentes na implementação, para evitar problemas de controle, como condições de corridas e deadlocks.

Dessa forma, cada algoritmo executa por vez, e os dados referentes à técnica em execução são capturados e armazenados. Além disto, a máquina em que o experimento executa, não é utilizada durante a etapa de execução, evitando que processos de usuários prejudiquem a execução das técnicas.

Os outros aspectos controlados para não prejudicar a validade interna são os sujeitos e o objeto do experimento. A atuação dos sujeitos é controlada através de documentos que descrevem os valores de configuração que devem ser especificados. Neste documento é de- scrito o que cada valor representa, assim como, as faixas de valores que devem ser utilizadas. O objeto, por sua vez, é controlado através de suas características estruturais (vértices e transições). Para manter um controle na rastreabilidade da cobertura de faltas e modifi- cações, estruturas de laços, a integração de muitos fluxos alternativos são evitados durante a modelagem do objeto. Além de manter um controle na rastreabilidade do modelo, a ausência destas estruturas complexas previne uma sobrecarga (overhead) no processo de geração de casos de teste, e análise de dependência.

As ameaças à validade de construção encontradas para este experimento estão rela- cionadas com o aspecto social do experimento, ou seja, os sujeitos. Um tipo comum de ameaça é observada quando o sujeito procurar guiar suas ações de acordo com palpites que possam fornecer um melhor resultado para, por exemplo, rejeitar (ou não) a hipótese nula. Para evitar esta ameaça, as hipóteses dos projetos experimentais não foram reveladas para os sujeitos.

Wohlin et. al [Wohlin et al. 2000] apresenta uma breve descrição de como o próprio in- vestigador pode caracterizar uma ameaça à validade de construção. Esta ameaça é baseada na própria expectativa do investigador acerca do experimento. Para evitar esta ameaça, Wohlin