• Nenhum resultado encontrado

4.2 Metodologia

4.2.1 Entendimento do Problema

4.2.1.2 Planejamento Técnico

Para completar a fase de Entendimento do Problema, é necessário realizar o planejamento técnico do projeto. Este processo envolve a especificação das técnicas de mineração de dados que serão aplicadas, a definição dos prazos e custos, a especificação de metas e dos critérios de sucesso, a identificação dos requisitos para a execução do projeto, a aquisição da documentação sobre as bases de dados e a documentação de novos conhecimentos.

Esse processo recebe todas as saídas do processo de Mapeamento do Problema. Os responsáveis por essa fase são o líder do projeto e o analista de negócios, com o apoio do engenheiro de software. Este só será requisitado caso haja a necessidade de desenvolvimento de software. Se requisitado, o analista de dados também dará apoio a esse processo.

A primeira atividade a ser realizada é a definição da melhor técnica de mineração de dados a ser utilizada para solucionar o problema. A escolha do algoritmo não é uma tarefa fácil, pois não existe um único algoritmo que apresente o melhor desempenho para todos os problemas. As técnicas de mineração de dados são aplicadas com o objetivo de extrair informações estratégicas escondidas em grandes bancos de dados [Goebel & Gruenwald 1999]. Segundo [Harrison 1998], não existe uma técnica que possa resolver todos os problemas de MD. Métodos diferentes servem para diferentes fins. Portanto, é necessário que o analista dos dados (minerador) tenha familiaridade com as diversas técnicas existentes, a fim de auxiliar na escolha de uma delas de acordo com o problema apresentado.

Os seguintes aspectos que devem ser considerados quando selecionando um algoritmo de mineração de dados [Adriaans & Zantinge 1996]:

• Número de exemplos: Alguns algoritmos trabalham melhor com uma quantidade maior de exemplos do que outros;

• Número de atributos: O desempenho de alguns algoritmos, como RNA e Algoritmos Genéticos, deteriora-se consideravelmente à medida que o número de atributos aumenta;

• Representação do conhecimento: Como o conhecimento é apresentado para determinado algoritmo, como no caso das RNA que não fornecem explicação de suas respostas;

• Capacidade de aprender de forma incremental: Quando novos dados tornam-se disponíveis, o algoritmo é capaz de revisar suas teorias, sem refazer completamente o processo de aprendizagem. Isto pode ser de grande relevância em aplicações com bases grandes;

• Habilidade de estimar a significância estatística dos resultados: Em alguns algoritmos, como RNA e AG, normalmente é muito difícil avaliar os resultados estatisticamente;

• Desempenho.

Após a definição das técnicas de mineração de dados, é necessário especificar quais os requisitos para o desenvolvimento do projeto.

Em um projeto de MD, o resultado obtido pode ser apresentado de diversas formas (relatório, gráfico, etc). A definição do formato de apresentação dos resultados pode requerer demandas extras, como a implementação de algum software que dê apoio ao processo de tomada de decisão. Caso haja a necessidade de construção de software, os requisitos devem ser definidos, de acordo com alguma metodologia de engenharia de software, como RUP (Rational Unified Process) [Fuggetta 2000] [Jacobson et al. 1999], XP (eXtreme

Programming) [Wojciechowski 2002] e Agile Software Development [Watson et al. 2003].

Com os requisitos já definidos, devem ser especificadas as metas relacionadas ao projeto e os critérios de sucesso. Em seguida, os prazos e custos do projeto devem ser analisados. A implantação dos resultados obtidos pode afetar o fluxo atual de a tomada de da organização. Neste caso, é necessário avaliar se essa alteração é possível e se será implementada com facilidade e rapidez, quando os resultados forem obtidos.

A definição do prazo e do custo de qualquer projeto de mineração de dados está ligada ao tamanho e ao escopo do projeto. Um fator importante na definição dos prazos é o comprometimento e a dedicação de todos os envolvidos no projeto, principalmente os responsáveis pela parte de T.I. da organização e do especialista do domínio. Outro fator importante é a qualidade e a complexidade dos dados (averiguada na fase de verificações dos dados). Dependendo da necessidade de correções ou aquisições de dados, pode haver atraso nos prazos do projeto. Os custos estão ligados às demandas necessárias para a realização do projeto.

Capítulo 4 – DMBuilding: Metodologia Proposta 53

Caso os prazos e/ou custos estipulados para o projeto não sejam viáveis, é necessário o retorno à atividade de Identificação e Definição do Problema para adequar a definição do problema aos custos e prazos disponíveis.

Por último, um dos passos é a montagem da visão de dados conceitual. O Analista de Negócio é responsável por esta atividade, partindo de seu conhecimento do que este considera ser variáveis importantes para o projeto. Essa visão conceitual é homologada pelo especialista no domínio, que irá verificar a viabilidade da utilização / criação daquelas variáveis, como também sugerir novas variáveis de acordo com o seu entendimento do negócio. Para a realização dessa atividade, é fundamental que a documentação sobre as bases de dados seja a mais completa possível. Diagrama de Entidade e Relacionamento (D.E.R.), Dicionário de dados, meta-dados [Ramakrishnan & Gehrke 2002], relatórios, fichas cadastrais e telas de sistemas são exemplos de documentações importantes a qualquer projeto. É sabido que algumas organizações não possuem uma documentação completa ou não existe documentação disponível para o projeto. Nesses casos, é importante que o analista de negócios documente todas as informações recebidas sobre as bases de dados (com o apoio do especialista em T.I., o especialista em Banco de Dados e do especialista do domínio). Essas documentações serão utilizadas para definir as ações a serem realizadas sobre as bases de dados. Um exemplo disso é a utilização do D.E.R. para visualizar o relacionamento entre as tabelas, verificar problemas inerentes e homologar a estrutura dos dados [Cougo 1999].

Ao chegar ao fim dessas atividades, novos conhecimentos podem ter sido adquiridos. Esses conhecimentos devem ser documentados para futuras consultas.

A fase de entendimento do problema é uma fase iterativa. Em várias situações pode ocorrer o retorno a atividades anteriores, caso algum problema tenha sido encontrado. Essas iterações também devem ser documentadas. Ao final dessa fase, um parecer de viabilidade do projeto deve ser criado pelo analista de negócios.

As entradas, as saídas, os responsáveis e as atividades associadas a este processo estão especificados a seguir:

Entradas:

• Documento com a descrição do problema; • Fluxo da informação;

• Recursos disponíveis e necessários; • Lista de riscos e plano alternativo;

• Glossário do projeto;

• Lista de envolvidos no projeto e suas responsabilidades.

Atividades:

• Especificação da(s) técnica(s) de mineração de dados: definir as técnicas de MD que poderiam ser utilizadas na resolução do problema e especificar a mais apropriada para o projeto;

• Definição de requisitos para o desenvolvimento da solução de mineração de dados: definir os requisitos relacionados à execução do projeto. Caso haja necessidade de desenvolvimento de software, os requisitos do software devem ser especificados de acordo com alguma metodologia de engenharia de software;

• Definição das metas e dos critérios de sucesso: formaliza as metas e os critérios de sucesso associados ao projeto;

• Definição de prazos e custos: formaliza os custos e prazos estipulados para a realização do projeto;

• Definição da visão de dados conceitual e aquisição de documentação sobre as bases de dados: Criar uma visão de dados conceitual do projeto. Caso não haja documentação suficiente sobre a base de dados, o máximo de informações devem ser coletadas e documentadas;

• Documentação de novos conhecimentos obtidos e não documentados. Responsáveis: • Líder do projeto; • Analista de negócios; • Engenheiro de Software; • Analista de dados; • Especialista no domínio. Saídas:

• Documento definindo as técnicas de mineração de dados, os requisitos do projeto, as metas, os critérios de sucesso, os prazos e os custos;

• Visão de dados conceitual, homologada pelo especialista no domínio; • Documentações sobre as bases de dados;

Capítulo 4 – DMBuilding: Metodologia Proposta 55

• Documentação de novos conhecimentos.