• Nenhum resultado encontrado

3 ESTUDO DOS MÉTODOS

3.2 METODOLOGIA CICLO CRISP-DM

Conforme Sharma (2012), A tomada de decisão orientada por dados tornou-se um tema central na estratégia organizacional moderna, dispondo de uma quantidade crescente de dados captados em todas as instâncias de interação entre clientes e empresas. A implementação de projetos de Mineração de Dados ocorre pela utilização de um processo de descobrimento do conhecimento, atividade essa conceituada por KDDM (Knowledge Discovery and Data Mining), composta por múltiplos estágios: entendimento do negócio, preparação dos dados, modelagem, avaliação dos resultados e implementação da solução. Conforme o artigo, dentre todos os possíveis processos utilizados para conduzir o KDDM, destaca-se o processo conhecido por CRISP-DM (Cross-Industry Standard Process for Data Mining).

A sigla CRISP-DM (Cross-Industry Standard Process for Data Mining) (Shearer, 2000) consiste em uma metodologia com o propósito de estruturar o planejamento de um projeto de mineração de dados. Através da Figura 7, é possível visualizar que o modelo CRISP-DM possui um ciclo de ações analíticas definidas, onde a repetição das etapas previstas permite que o projeto de mineração de dados possa continuamente refinar os conhecimentos a respeito da aplicação em desenvolvimento.

Figura 7 - O processo de mineração de dados CRISP-DM

Fonte: Shearer (2000).

Em outro artigo de Sharma (2009), além do destaque a etapa do KDDM sobre o entendimento de negócio, é destacado o CRISP-DM como sendo o processo mais utilizado por profissionais envolvidos em projetos de mineração de dados (KD NUGGETS, 2007). O trabalho apresenta ainda uma estrutura de trabalho com o objetivo de demonstrar como estabelecer, na etapa de entendimento de negócio, as tarefas a serem desempenhadas ao longo do projeto, suas dependências ao longo das diferentes etapas do KDDM, bem como técnicas e ferramentas para sua execução.

3.2.1 Estágio I – Entendimento do negócio

Nesse momento, é necessário selecionar um problema relevante para o estabelecimento da iniciativa de pesquisa, descrevendo suas características e impacto para a empresa. Para a execução dessa etapa, serão considerados o objetivo geral e os objetivos específicos, visto que os mesmos delimitaram uma temática relevante da empresa distribuidora. Adicionalmente, as entregas previstas para esse estágio contemplam:

• Elaboração do plano do projeto: relação de todas as ações previstas para o processo de mineração, informações que serão acessadas, recursos necessários e técnicas que serão inicialmente utilizadas;

• O indicador de processo: consiste na capacidade do modelo estatístico em corretamente classificar se o cliente solicitante do serviço de ligação nova sem obra irá ou não ingressar sua solicitação em até 30 dias.

3.2.2 Estágio II – Compreensão dos dados

A etapa de Compreensão dos Dados requer o acesso aos dados previamente definidos no plano do projeto de mineração de dados, realizando-se inicialmente uma descrição detalhada das características da informação recebida. É recomendável que se elabore um relatório relatando a composição dos dados recebidos em diversos formatos (ex.: quantidade, data de coleta do dado, tipo de variável, etc.).

A fim de atender os requisitos dessa etapa do modelo CRISP-DM, será elaborado um documento Anexo contendo o descritivo de todos os atributos inicialmente considerados para o projeto, incluindo:

• Descrição das características de cada atributo;

• Tipo da variável que compõe o atributo (ex.: variável categórica, variável numérica, etc.);

• Intervalo de variação: para cada atributo, informar sua composição (ex.: para atributo nominal, informar a quantidade de valores possíveis);

3.2.3 Estágio III – Preparação dos dados

Este estágio do ciclo CRISP-DM contempla a seleção de quais informações serão utilizados para a condução do projeto de mineração de dados, envolvendo ações como a seleção de atributos, valores e ou classes de atributos que serão considerados no projeto, escolha de intervalos de dados (ex.: definição de um intervalo em uma série temporal).

Todos os atributos selecionados no Estágio II, descritos no Anexo I, terão as seguintes informações incluídas em seu descritivo:

• Número de casos faltantes: quantificar o total de ocorrências em que o atributo avaliado não apresenta informação nos registros disponíveis;

• Avaliação: validar se o referido atributo tem relação com os serviços executados, ou se compõe apenas informações adicionais;

• Próximos passos: validação se o atributo será ou não utilizado para a modelagem.

3.2.4 Estágio IV – Modelagem

Nesta etapa ocorre a seleção do tipo de técnica de modelagem que será utilizada para o estudo dos dados previamente preparados. Embora a etapa de definição do projeto tenha já previsto de forma mais ampla o algoritmo a ser usado no projeto, é preciso aqui especificar de forma criteriosa a solução a ser usada, definindo todos os parâmetros e condições que serão consideradas na modelagem (ex.: validação do perfil de distribuição dos dados, não utilização de registros com dados incompletos, etc.).

Para a etapa de modelagem de classificação, serão utilizados os modelos de Árvores de Decisão do tipo Decision Tree C4.5, Random Forest e Gradient Boosted Tree. Para a validação da capacidade de assertividade de cada modelo, o conjunto de dados em uso será dividido em duas partes, formando respectivamente:

• Conjunto de dados de treinamento: corresponde a um intervalo dos dados que será utilizado para a construção dos modelos estatísticos;

• Conjunto de teste: parcela de casos que serão utilizados para poder comparar a assertividade do modelo, comparando as classificações realizadas para tais casos frente a sua real condição. Nesse projeto, será comparada a capacidade de classificação dos modelos em definir se o cliente solicitou o serviço comercial no curto prazo ou não, confrontando a estimativa com a real ocorrência do mesmo.

3.2.5 Estágio V – Avaliação

As etapas anteriores tiveram como foco a avaliação de critérios de acurácia e generalização do modelo utilizado na avaliação. Neste estágio, a avaliação que se faz necessária é, diante da possível utilização de vários modelos, selecionar de todos os modelos testados aquele que apresentou os melhores resultados para os objetivos selecionados. É importante destacar que, durante a avaliação dos resultados, é possível que novas hipóteses para outros trabalhos de mineração de dados possam surgir.

Como indicadores de avaliação quantitativa relativos a assertividade de modelos de Árvores de Decisão, serão utilizados os seguintes indicadores:

• Acuracidade;

• Índice de Erro Geral; • Sensitividade;

• Especificidade; • Precisão; • Índice F1

O Índice F1, por ser constituído dos indicadores de Sensitividade e Precisão, será o indicador que definirá a seleção do modelo estatístico com o resultado mais apropriado ao objetivo da pesquisa.

3.2.6 Estágio VI – Implantação

A etapa final consiste na estratégia de implantação do modelo de mineração de dados ao dia a dia de sua utilização. Em um ambiente empresarial, por exemplo, é preciso planejar como gradualmente os processos organizacionais receberão os dados do algoritmo para a melhoria de suas tomadas de decisão. Um fator crítico para sucesso é a garantia da manutenção e monitoramento dos resultados do modelo ao longo do tempo, evitando assim que um possível erro no uso da aplicação se perpetue e influencie decisões.

Cabe também destacar a motivação para assim utilizar a metodologia CRISP-DM (SHEARER, 2000) tem como foco a garantia da qualidade de projetos de mineração de dados através da descrição detalhada das atividades necessárias para o seu ciclo de etapas de compreensão dos dados. Na literatura, autores (OSEI & BRYSON, 2016) destacam metodologias mais recentes, a exemplo da KDDM (Knowledge Discovery via Data Mining) e a KDDA (Knowledge Discovery via Data Analytics), dedicadas a unir o processo de mineração de dados a áreas de gestão de projetos, com aplicação em iniciativas de Big Data.

Documentos relacionados