Simulação de uso - Resultados com a Base 1

5.2 Resultados com a Base 1

5.2.4 Simulação de uso

O segundo e último experimento para comparar os modelos preditores foi realizado conforme o plano dado na Seção 4.5.4 do Capítulo 4.

Está incluída na comparação a proposta de estimativa de esforço de execução de testes pela mé- trica de eficiência acumulada [77]. Este trabalho originou-se de dados prévios coletados no projeto HARPIA, compreendendo 20 ciclos de testes. Utilizando esta base propôs-se uma forma simples de estimativa de esforço de execução baseada somente no número acumulado de passos de CTs executa- dos e no tempo gasto até então. Esta métrica denomina-se Eficiência Acumulada em Execução e foi

5.2 Resultados com a Base 1 83 avaliada em um estudo de caso com resultados satisfatórios, dada a simplicidade de uso do modelo, mas que mostraram limitações quanto à consideração de outras variáveis que afetam o esforço da execução dos testes, como por exemplo a experiência dos testadores, as características dos sistemas em teste, etc..

A execução do experimento final para a Base 1 tem os resultados mostrados na Tabela 5.15, onde a primeira coluna indica o modelo preditor utilizado, com MEA sendo sigla para o modelo de eficiência acumulada e RL sendo a sigla para o modelo de Regressão Linear; a segunda coluna indica se o modelo foi testado com as variáveis de entrada determinadas pelo método de seleção por filtro ou se pelo método por envoltório (“Env.”); as colunas centrais, cujos rótulos “SxCy” significam “Ciclo #y do Software #x”, contêm os valores de erro relativo, definido por:

𝐸𝑟𝑒𝑙 =

𝐸𝑒𝑠𝑡− 𝐸𝑟𝑒𝑎𝑙

𝐸𝑟𝑒𝑎𝑙

(5.1) e onde 𝐸𝑒𝑠𝑡 é o esforço estimado e 𝐸𝑟𝑒𝑎𝑙 é o esforço realizado de fato; a penúltima coluna contém

a média do erro relativo absoluto e, por último, a coluna com os valores da métrica PRED(0,25), abreviada pela sigla P(0,25).

Tab. 5.15: Simulação de uso dos modelos preditores na Base 1 (valores percentuais). Ciclo de teste

Modelo Seleção S4_C8 S5_C1 S5_C2 S5_C3 S5_C4 S7_C4 S6_C2 S5_C5 S7_C5 MARE P(0,25)

MEA N/A 177,1 139,6 81,6 172,4 135,1 -56,5 152,6 97,9 116,5 125,5 0,0 SVR Filtro 52,4 17,2 -1,4 62,5 -50,2 48,6 62,5 -22,2 18,9 37,3 44,4 Env. 87,4 21,5 23,1 112,0 -13,9 17,3 -10,4 19,0 19,5 36,0 77,8 MLP Filtro 95,0 -22,3 -16,4 95,1 -35,7 0,8 13,5 -11,4 35,8 36,2 55,6 Env. 92,6 -2,1 -5,1 90,9 -31,8 16,7 95,7 -3,6 59,0 44,2 44,4 RL Filtro 66,4 43,0 -11,4 65,3 -2,7 18,6 56,0 -29,1 47,4 37,8 33,3 Env. 52,8 45,1 2,1 66,8 7,8 -62,9 11,2 -14,6 17,0 31,1 55,6 MLPP Filtro 120,9 7,1 8,5 120,6 -30,6 -18,1 53,0 -17,4 19,2 43,9 55,6 Env. 142,0 18,4 16,4 139,6 -16,8 -4,7 53,8 16,5 18,1 47,4 66,7 A primeira observação que pode ser feita dos resultados mostrados na Tabela 5.15 diz respeito ao desempenho ruim do modelo baseado na eficiência acumulada: a média de erro relativo absoluto foi consideravelmente alta, de 125,5%, e nenhuma medida de erro absoluto está abaixo do valor de 25%. Embora no trabalho publicado por SILVAet al.[77] o desempenho inicial tenha sido satisfató-

rio, o experimento de agora demonstra que de fato o modelo possui limitações que o levam ao pior desempenho entre todos os modelos analisados.

Para os modelos de regressão por vetor de suporte e regressão linear as duas métricas observa- das obtiveram um melhor comportamento com as variáveis selecionadas por envoltório do que com

aquelas selecionadas por filtro. Por outro lado, a rede MLP comum teve melhor desempenho com as variáveis do filtro, enquanto a rede MLPP teve um valor de PRED(0,25) melhor para a simulação com as variáveis por envoltório e um valor de MARE melhor para a simulação com as variáveis por filtro. Considerando a proximidade dos valores nas duas métricas, pode-se dizer que houve um empate para a rede MLPP. Fazendo um balanço geral sobre todos os modelos, tem-se que o método por envoltório alcançou melhores resultados neste experimento, da mesma forma como ocorreu na etapa anterior.

O modelo de regressão linear com as variáveis selecionadas por envoltório apresentou o menor valor médio de erro relativo absoluto, de 31,1%, o que se assemelha com o bom desempenho apre- sentado na mesma métrica, no experimento anterior. Também usando as variáveis selecionadas por envoltório, a regressão por vetor de suporte obteve o melhor desempenho com a métrica PRED(0,25), de 77,8%, significando 7 ciclos estimados com erro relativo absoluto abaixo ou igual a 25%. Não obstante, o modelo ainda teve o segundo melhor valor da métrica MARE, de 36%. Já o modelo de rede MLPP, embora não tenha sido o melhor como no experimento anterior, obteve o segundo melhor resultado para a métrica PRED(0,25), também usando como entrada as variáveis selecionadas por envoltório.

A métrica PRED(0,25) pode fornecer uma melhor constatação sobre a regularidade das estimativas do modelo preditor. Outra forma de avaliar tal propriedade, agora no caso dos resultados deste experimento, é por gráficos de barras dos valores de erro relativo. A Figura 5.6 apresenta o grá- fico dos erros obtidos utilizando cada configuração de modelo preditor de melhor desempenho no experimento, entre a opção com variáveis escolhidas por filtro e aquelas escolhidas por envoltório.

Nota-se no gráfico que nenhum modelo conseguiu um erro relativo menor do que 50% para as estimativas de número 1 e 4, que correspondem ao oitavo ciclo testes do software 4 e ao terceiro ciclo de testes do software 5. Tal fato pode indicar que o pequeno número de amostras disponíveis para a síntese dos modelos foi insuficiente para ajustá-los de forma a estimar todas as amostras do con- junto de testes de forma regular, e que estes dois ciclos podem possuir características razoavelmente distintas dos outros ciclos observados.

Também pela visualização do gráfico torna-se mais claro que o modelo de regressão por vetor de suporte com envoltório, indicado pelo segundo tom de cinza mais escuro, teve o comportamento mais regular entre todos os observados. Todas as estimativas, exceto os dois casos de ciclos citados anteriormente (1 e 4), pertencem ao intervalo [−25%, 25%], sendo a maioria (5 em 7) delas positivas, o que significa que o modelo superestimou mais do que subestimou.

Em seguida, no quesito de regularidade, está indicado pela cor preta o modelo MLPP com envol- tório, com 6 medidas dentro do valor absoluto de 25%. Entretanto, apresentou os maiores erros entre todos os modelos para as medidas 1, 4 e 7.

5.3 Resultados com a Base 2 85

No documento Uso de aprendizado de maquina para estimar esforço de execução de testes funcionais (páginas 99-102)