• Nenhum resultado encontrado

Esta fase do estudo corresponde à limpeza, ao tratamento, à transformação e formatação de atributos, de forma a gerar dados consistentes e prontos para a mo- delagem na ferramenta de análise WEKA.

4.3.1 Seleção dos dados

A empresa alvo possui uma base de dados de gestão de projetos volumosa. Para esta pesquisa, restringiu-se aos dados relativos a projetos de desenvolvimento e a manutenções de software de grande vulto, com datas não inferiores a 2007, pois, como afirmado anteriormente, sistemas com maior tempo em produção já pas- saram por diversas manutenções corretivas e evolutivas (legados) e assim, sua qua- lidade já estaria em um patamar aceitável. Dessa forma, seguiram-se os seguintes passos para a seleção dos dados do projeto:

(i) Fez-se uma extração em linguagem SQL do banco de dados do primeiro sis-

tema, por meio de uma funcionalidade própria, em formato TXT, resultando em vários arquivos distintos, cada qual com diferentes dados sobre os projetos de manutenção e desenvolvimento;

(ii) Em seguida, fez-se uma extração de dados em script SQL de todos os projetos

concluídos, registrados na ferramenta Mantis e respeitando os filtros estabele- cidos (projetos com registros de teste e com datas a partir de 2007). Para isso, contou-se com a contribuição do centro de dados da empresa alvo e foi reali- zado por meio de consenso entre analista e especialista de banco de dados da empresa. O arquivo resultante continha um código para cada projeto, a quanti- dade de erros detectada na fase de testes e homologação, categorizados por criticidade leve, média, crítica e o total de erros identificados.

(iii) Por último, fez-se uma extração dos dados do segundo sistema por meio de

consultas à base de dados autorizadas pelo setor responsável da empresa. Es- ta extração foi devidamente negociada com as áreas concernentes. Buscou-se aqui a relação de todos os projetos resultantes da extração do Mantis que pos-

suíam revisão de qualidade realizadas, com os dados de código do projeto e percentual de aderência ao processo da empresa (pontuação da revisão de qualidade).

De acordo com Pfleeger (1994), a densidade de defeitos nos estágios de tes- te é uma forma de medir a qualidade de um produto de software. Assim, com base nas informações disponíveis sobre o processo e o produto, definiu-se, como variá- veis de saída ou dependentes, a densidade de defeitos na fase de testes, a densi- dade de defeitos na fase de homologação e a quantidade relativa de manutenções corretivas após o sistema ter sido implantado em produção. As variáveis indepen- dentes foram escolhidas com base nos fatores que influenciam a qualidade, confor- me preconizado por Sommerville (2007): a tecnologia de desenvolvimento, a quali- dade de processo, a qualidade da equipe envolvida, o custo, o tempo e o esforço despendido.

Após a definição das variáveis e com as extrações já realizadas, procedeu-se a criação de tabelas em planilhas eletrônicas para a posterior integração de todos os dados.

4.3.2 Limpeza dos dados

A preparação dos dados exige a retirada de elementos não relevantes para a pesquisa. Nesta etapa, algumas ações foram realizadas para montagem da planilha final:

(i) Importação dos arquivos texto extraídos de cada base para o formato da plani-

lha eletrônica, uma para cada base do sistema específico;

(ii) Eliminação, em cada planilha, de registros de projetos que não fossem de de-

senvolvimento ou de manutenção evolutiva de grande porte;

(iii) Eliminação dos campos não relevantes ao estudo, ou seja, que não diziam res-

peito àquelas definidas como variáveis independentes ou dependentes;

(iv) Eliminação, em cada planilha, de todas as possíveis formas de acentuação, e

substituição de todos os espaços em branco dos campos alfanuméricos por “_”;

(v) Substituição de todas as vírgulas das casas decimais dos números por pontos,

e retirada dos ponto das casas de milhares;

(vi) Eliminação dos registros incompletos. Embora em pequena quantidade, algu-

(vii) Preenchimento e enriquecimento dos dados. Em registros com campo numéri-

co em branco, foram imputados valores referentes à média aritmética dos valo- res do campo nos demais registros.

Ao final do processo de limpeza, obteve-se uma planilha para a base de da- dos de cada um dos três sistemas de gestão envolvidos, prontas para a integração. Com esse processo de limpeza, cada planilha passou a conter 170 registros referen- tes a projetos de desenvolvimento ou manutenção, de um total inicial de 200 proje- tos registrados. Essa redução se deve à utilização do filtro descrito na seção 4.3.1.

4.3.3 Engenharia dos dados

Nesta fase, fez-se uma filtragem dos atributos escolhidos como variáveis de entrada e a definição das variáveis de saída, que são atributos derivados. Algumas novas variáveis foram incluídas e outras retiradas. Para isso, foram feitos os seguin- tes ajustes nas planilhas já montadas:

 As variáveis de saída previamente definidas foram: (i) a densidade de defeitos na fase de testes, (ii) a densidade de defeitos na fase de homologação e (iii) a quantidade relativa de manutenções corretivas após o sistema ter sido entrado em produção. Essas variáveis foram calculadas em função dos respectivos va- lores de totais de erros em cada fase (teste, homologação e produção) e do PF total realizado do projeto.

total PF erros de Total Densidade 

 Inclusão da variável de entrada TIPO, contendo o tipo do projeto: manutenção evolutiva (“ME”) ou novo sistema (“NS”);

 Retirada do atributo alfanumérico Planejamento de Metas, devido à sua grande diversidade de respostas;

 Inclusão da variável de entrada Esforço Relativo por PF, calculada a partir do Esforço gasto em testes, em homens-dia, e do PF realizado no projeto;

total PF testes em gasto Esforço relativo Esforço

4.3.4 Formatação e integração dos dados

Devido ao pequeno número de registros considerados, foi possível fazer ma- nualmente a integração de dados. Assim, as três planilhas foram unidas em uma única planilha, que foi convertida para o formato “CSV”.

Com relação ao processo de formatação dos dados, alguns passos foram ne- cessários: (i) A chave do número do projeto foi mascarado para o formato PAAA- Número-Fase, conforme mostrado na Figura 5, (ii) padronizou-se em dois dígitos o número de casas decimais dos campos com valores reais e (iii) a variável Métodos foi simplificada para conter apenas um dos seguintes valores: ES (Estruturado) ou OO, (Orientação ao Objetos).

Figura 5 – Formatação do nome do projeto

O processo de formatação reduziu o número de campos iniciais para 12 vari- áveis de entrada (TIPO DE PROJETO, TAMANHO EM PF, TOTAL DE ADERÊNCIA, NÚMERO DE OUTROS SISTEMAS IMPACTADOS, PRODUTIVIDADE, TREINAMENTO DA EQUIPE, LINGUA- GEM DE PROGRAMAÇÃO, BANCO DE DADOS, CICLO DE VIDA ADOTADO, MÉTODOS, PER- CENTUAL DE VOLATILIDADE DOS REQUISITOS e ESFORÇO RELATIVO POR PF) e três de saí- da (DENSIDADE DE DEFEITOS NA FASE DE TESTES, DENSIDADE DE DEFEITOS NA FASE DE HOMOLOGAÇÃO e QUANTIDADE RELATIVA DE MANUTENÇÕES CORRETIVAS APÓS IMPLAN- TAÇÃO).

Documentos relacionados