Resultados - Análise dos templates existentes

4.2 Template de Caso de Uso para Linhas de Produto Sensíveis ao Contexto

4.2.1 Análise dos templates existentes

4.2.1.3 Resultados

Nesta subseção são apresentados os resultados do experimento. A Figura 4.4 apre- senta um sumário dos dados coletados. O estudo experimental teve um total de 48 voluntários e como cada um executou quatro atividades, o resultado foi de 192 tarefas. Contudo, as tarefas cuja última questão não foi respondida corretamente foram reprovadas. Isso porque a última questão do questionário realizado em cada tarefa estava associada ao entendimento do funcio- namento do caso de uso. Logo, uma resposta incorreta nesta questão sinaliza um erro no uso do template. Como resultado, somente 134 tarefas foram avaliadas, pois as 58 restantes foram reprovadas.

Figura 4.4: Sumário dos resultados do experimento.

Os resultados mostraram que a acurácia e o tempo gasto para executar as atividades foram melhores para os desenvolvedores do que para os alunos de graduação e pós-graduação. Os alunos de pós-graduação tiveram um resultado melhor do que os alunos de graduação. Esse foi um resultado esperado, já que, em geral, desenvolvedores tem um contato maior com des- crições de casos de uso do que os alunos de pós-graduação, os quais, por sua vez, geralmente são mais experientes que os alunos de graduação.

Os participantes do experimento que utilizaram o template proposto por Eriksson et al. (2004) tiveram os melhores resultados, pois eles gastaram menos tempo e tiveram mais acurácia se comparado aos participantes que usaram os outros templates. O segundo melhor resultado foi obtido pelos voluntários que usaram o template de Gomma (2004), embora o grupo de desenvolvedores tenha tido melhor resultado usando o template proposto por John e Muthing. Por fim, os participantes que utilizaram o template apresentado no trabalho de Bonifácio e Borba (2009) atingiram os piores resultados em todos os grupos.

Para analisar os resultados foi aplicado o teste Kolmogorov-Smirnov (HOLLAN- DER; WOLFE, 1999) para avaliar se a distribuição seguia a distribuição normal. Como a dis- tribuição da amostra não seguia a distribuição normal, foram utilizados testes não paramétricos para avaliar os dados.

Foi então utilizado o teste Kruskal Wallis (HOLLANDER; WOLFE, 1999), método não paramétrico para teste de hipóteses quando amostras são originadas da mesma distribuição. O teste indicou que o tempo gasto e a acurácia dos grupos tem diferenças estatisticamente significativas.

Uma vez detectada a diferença no tempo e na acurácia associado com o uso dos templates, uma análise foi feita cruzando dados template a template, tentando identificar o que causava as diferenças. Nesse caso, nós utilizamos o teste Mann-Whitney para análise dos dados. Os resultados associados ao uso do template de “Bonifácio e Borba” foram os piores para tempo e acurácia. O tempo gasto usando esse template foi estatisticamente maior que o tempo gasto usando os outros templates. A acurácia foi estatisticamente menor que a acurácia relacionada ao uso dos outros templates. Além disso, o template foi apontado como preferido por apenas 3% dos voluntários.

O uso dos templates de Gomma e de “John e Muthing”, por sua vez, exibiram resultados estatisticamente iguais tanto no tempo para executar as tarefas quanto na acurácia dos resultados. Os dados destes templates indicaram uma diferença positiva estatisticamente significante quando comparada ao template de “Bonifácio e Borba”. O template do Gomma teve preferência de 29.1% dos voluntários do experimento, enquanto que o template de “John e Muthing” teve uma preferência de 21.6%.

Por fim, o uso do template do “Eriksson et al.” mostrou os melhores resultados de tempo e acurácia no experimento. O tempo para executar as tarefas foi o menor e foi possível registrar uma acurácia dos resultados estatisticamente superior quando comparado aos outros templates. Em termos de preferências dos voluntários, ele também foi o favorito com 46.3% de indicação. Dessa forma, o template do Eriksson et al. (2004) além de ser o de melhores resultados em termos de tempo e acurácia, foi também o favorito entre os voluntários.

Destaca-se que o número de tarefas consideradas incorretas gerou um alerta. No total, em cerca de 30% das tarefas registradas a questão final foi respondida de maneira incorreta. Por esse motivo, outras análises foram executadas tentando identificar a fonte do problema. Com base nos dados do questionário pós-experimento, foi possível analisar os dados relaciona- dos a adequabilidade do tempo para completar a tarefa junto com o entendimento do objetivo das tarefas e o entendimento do problema. Os resultados dessa análise indicaram que não há diferença estatisticamente significativa entre os participantes que responderam corretamente a questão final e os que erraram. Logo, isso sinaliza que o erro na questão final não está relacio- nado ao tempo para completar as tarefas.

Devido aos resultados obtidos, outra análise foi executada sobre os dados relaciona- dos ao perfil de cada voluntário. Esse dados estavam associados com as experiências anteriores e o conhecimento dos participantes sobre as tecnologias que iriam ser utilizadas no experimento.

A análise mostrou indícios de que a experiência em diagramas de casos de uso e em LPS não impactou nos resultados, ou seja, os resultados dos participantes com experiência prévia contra os participantes sem experiência foram estatisticamente iguais. Contudo, usando o teste Mann Whitneyfoi detectada uma diferença estatisticamente significativa em relação a experiência com casos de uso expressos em linguagem natural. Logo, o conhecimento prévio em casos de uso descritos em linguagem natural parece ser fortemente associado com a causa dos erros.

A Figura 4.5 ilustra as frequências das respostas relacionadas a experiência em casos de uso descritos em linguagem natural. O grupo com resposta errada na última questão das tarefas tem mais participantes com zero ou baixo conhecimento. Logo, a falta de conhecimento nesse tema tornou mais difícil responder as questões do caso de uso.

Figura 4.5: Conhecimento dos participantes.

Questões de Pesquisa

Depois da execução do experimento foi possível responder as questões de pesquisa propostas (QP):

• QP1: Qual dos templates avaliados favorece o entendimento dos casos de uso descritos com base no seu uso? O template de Eriksson et al. (2004) melhor favorece o entendimento dos casos de uso. Os participantes usando esse template tiveram melhores resultados em termos de tempo gasto e acurácia;

• QP2: Qual dos templates requer menos tempo para o entendimento dos casos de uso descritos com base no seu uso? O template de Eriksson et al. (2004) exige menos tempo para o entendimento do caso de uso. Os participantes usando esse template tiveram melhores resultados em termos de tempo gasto.

• QP3: O uso de templates que modelam variabilidades e similaridades no mesmo caso de uso facilita o entendimento quando comparado a templates que prescrevem a modela- gem destes em lugares diferentes? Foram coletadas duas evidências para responder essa questão: existe uma diferença estatisticamente significativa quando comparado o uso dos templates que modelam variabilidades e similaridades juntas (“Eriksson et al.” e “John e Muthing”) quando comparado a templates que as modelam separadamente (”Bonifá- cio e Borba“ e Gomma). Utilizando o teste Kruskal Wallis percebeu-se que o tempo e

a acurácia são melhores em favor dos templates que modelam variabilidades e similaridades juntas. Além disso, foi registrado uma preferência maior dos participantes pelos templates com variabilidades e similaridades juntas (68%) contra separadamente (32%). Discussão

Com a realização do experimento foi observado que as características de cada template geram impacto no entendimento dos casos de uso. Os voluntários que selecionaram o template do “Eriksson et al.” como o melhor template, por exemplo, reportaram que ele possui uma descrição simples e objetiva, além de uma estrutura clara, organizada e compacta. Essas características tornaram fácil e intuitivo identificar o quanto o passo do caso de uso era obriga- tório, opcional ou alternativo.

Com relação ao template do Gomma (2004), o seu diferencial está no fato de deixar de forma clara, no final do caso de uso, quais features opcionais e alternativas afetam o caso de uso e em que passo do caso de uso elas atuam. Contudo, entrevistas informais com os voluntários e os resultados do experimento indicaram que a desvantagem deste template é que é preciso ir e voltar várias vezes do final do caso de uso para o fluxo principal para entender como funciona de fato o caso de uso.

Também vale mencionar que a desaprovação relacionada ao template de “Bonifácio e Borba” pode ser justificada devido a separação entre o cenário principal e as variações sem uma definição explícita nos casos de uso do tipo de variação, tornando difícil entender se a variação é opcional ou alternativa.

Além disso, conforme observado durante o experimento e comentado por um dos voluntários, o caso de uso que descreve as variabilidades em conjunto com as similaridades torna fácil o entendimento da operação do caso de uso, enquanto que a descrição separada das variabilidades e similaridades torna fácil o reconhecimento das variações.

No documento Um ambiente para geração de cenários de testes para linhas de produtos de software sensíveis ao contexto (páginas 75-78)