• Nenhum resultado encontrado

Data mining no contexto de customer relationship management em uma franquia coca cola company

N/A
N/A
Protected

Academic year: 2021

Share "Data mining no contexto de customer relationship management em uma franquia coca cola company"

Copied!
152
0
0

Texto

(1)Pós-Graduação em Ciência da Computação. “DATA MINING NO CONTEXTO DE CUSTOMER RELATIONSHIP MANAGEMENT EM UMA FRANQUIA COCA – COLA COMPANY” Por. RENATA AZEVEDO SANTOS CARVALHO Dissertação de Mestrado Profissional. Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao. RECIFE, OUTUBRO/2010.

(2) Universidade Federal de Pernambuco CENTRO DE INFORMÁTICA PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO. Renata Azevedo Santos Carvalho. “Data mining no contexto de customer relationship management em uma franquia coca – cola company ". Este trabalho foi apresentado à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre Profissional em Ciência da Computação.. ORIENTADOR(A): Phd.. CléberZanchettin. RECIFE,OUTUBRO/2010.

(3) Carvalho, Renata Azevedo Santos Data mining no contexto de customer relationship management em uma franquia coca – cola company / Renata Azevedo Santos Carvalho - Recife: O Autor, 2010. 149 folhas : il., fig., tab. Federal Dissertação (mestrado) Universidade Pernambuco. CIn. Ciência da computação, 2010.. de. Inclui bibliografia e apêndice. 1. Ciência da computação. 2. Computação inteligente. 3. Data Mining. 4. Banco de dados. I. Título. 004. CDD (22. ed.). MEI2010 – 0180.

(4)

(5) Aos meus pais por toda compreensão; A minha tia por sempre acreditar em mim e no valor da educação. 2.

(6) AGRADECIMENTOS. A Deus, pela calma passada nos momentos de mais puro desespero, pela eterna luz usadanos momentos de escuridão e pelas infindáveis força de vontade e confiança que só podemvir Dele; A minha família pelo apoio, carinho e amor demonstrados ao longo detoda a minha vida e, principalmente, durante minha jornada acadêmica e por todos os esforços realizados para me proporcionar este momento; Aos meus mais fieis amigos, pela presença e companheirismo em infinitas jornadas; Ao meu orientador, Dr. Cleber Zanchettin, pelos valiosos ensinamentos e o essencial apoio que tornou esse trabalho uma realidade; Ao meu coordenador e gerente da Coca – Cola (franquia de Aracaju), pela compreensão e apoio durante o período acadêmico, permitindo que pudesse me ausentar das minhas responsabilidades para dedicação ao curso de Mestrado.. 3.

(7) RESUMO. Data Mining é uma área de pesquisa multidisciplinar, incluindo tecnologias de banco de dados, inteligência artificial, redes neurais, aprendizado de máquina, estatística e visualização de dados, tendo como objetivo específico a descoberta de conhecimento novo que por ventura esteja escondido em grandes massas de dados. Como um dos grandes objetivos de uma corporação é conhecer seus clientes, este conhecimento precisa ocorrer em vários níveis, desde o tipo de produto desejado até que tipo de ofertas os clientes estão dispostos a aceitar mesmo que os produtos não sejam essenciais no momento. Esta forma de mercado dirigido pode atingir o extremo de uma relação individual com cada cliente à medida que a empresa deseje investir em segmentações (classificações) sucessivas da sua clientela. Sendo assim, esse trabalho tem como finalidade aplicar técnicas de mineração em conjunto com as diretrizes do CRM à uma franquia da Coca-Cola afim de gerar uma nova classificação dos seus clientes e auxiliar o cumprimento das metas anuais de venda com a criação de novas atividades de marketing dado o resultado da análise dos dados minerados.. Palavras chave:Data Mining; descoberta de conhecimento; CRM; KDD. 4.

(8) ABSTRACT. Data Mining is an area of multidisciplinary research, including database technology, artificial intelligence, neural networks, machine learning, statistical and data visualization, with the specific goal of discovering new knowledge that perhaps is hidden in masses of data. As one of the major goals of a corporation is to know your customers, this knowledge needs to occur at multiple levels, from the type of product required type of offers until the customers are willing to accept even if the products are not essential at this time. This form of targeted marketing can reach the extreme of a relationship with each individual customer as the company wants to invest in segmentation (classification) of the successive his clientele. Thus, this work aims to apply mining techniques in conjunction with the guidelines of the CRM to a Coca-Cola franchise in order to generate a new classification of their clients and assist the achievement of targets annual sales with the creation of new marketing activities given the results of the analysis of data mined.. Keywords:Data Mining;knowledge discovery; CRM; KDD. 5.

(9) SUMÁRIO. 1. 2. INTRODUÇÃO ........................................................................................................................12 1.1. Motivação .........................................................................................................................12. 1.2. Objetivos ...........................................................................................................................14. 1.3. Justificativa........................................................................................................................15. 1.4. Organização da Dissertação ...............................................................................................16. DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS ...........................................17 2.1. Dados ................................................................................................................................19. 2.2. Elementos de apoio ao processo de extração de KDD ........................................................19. 2.2.1. Data Warehouse ........................................................................................................19. 2.2.2. OLTP (On Line Transaction Processing) .......................................................................20. 2.2.3. OLAP (On Line Analytical Processing)..........................................................................21. 2.2.4. Técnicas Estatísticas ...................................................................................................22. 2.2.5. Ferramentas de visualização ......................................................................................22. 2.3. 3. Preparação dos dados........................................................................................................22. 2.3.1. Seleção de dados .......................................................................................................23. 2.3.1.1. Redução de Dados Horizontal ....................................................................................24. 2.3.1.2. Redução de Dados Vertical .........................................................................................24. 2.3.1.3. Redução de Valores ...................................................................................................25. 2.3.2. Limpeza dos Dados ....................................................................................................27. 2.3.3. Transformações .........................................................................................................29. 2.4. Mineração de Dados ..........................................................................................................29. 2.5. Interpretação e emprego do conhecimento obtido ............................................................30. 2.6. Considerações Finais..........................................................................................................30. MINERAÇÃO DE DADOS ......................................................................................................31 3.1. Desafios Motivadores ........................................................................................................31 6.

(10) 3.2. Origens da Mineração de Dados ........................................................................................33. 3.3. Tarefas de Mineração de Dados .........................................................................................34. 3.3.1. Classificação...............................................................................................................36. 3.3.1.1. Árvore de Decisão ......................................................................................................37. 3.3.2. Análise de Regras de Associação ................................................................................41. 3.3.2.1. O Algoritmo Apriori ....................................................................................................43. 3.3.3. Regressão ..................................................................................................................47. 3.3.4. Agrupamento.............................................................................................................49. 3.4 4. 5. Considerações Finais..........................................................................................................51. CRM – CUSTOMER RELATIOBSHIP MANAGEMENT........................................................52 4.1. Aplicações em CRM ...........................................................................................................53. 4.2. Entendimento do Cliente ...................................................................................................54. 4.3. Estratégias do CRM ............................................................................................................55. 4.4. As Relações Virtuais Através da Internet ............................................................................56. 4.5. Database Marketing ..........................................................................................................57. 4.6. Considerações Finais..........................................................................................................59. FIDELIZAÇÃO DOS CLIENTES ATRAVÉS DA MINERAÇÃO DE DADOS .......................60 5.1. O Sistema de Auxílio à Fidelização de Clientes por Mineração de Dados ............................61. 5.2. Coleta e estudo dos dados .................................................................................................63. 5.3. Preparação dos dados........................................................................................................64. 5.4. Definição do alvo ...............................................................................................................65. 5.4.1. Transformação dos dados ..........................................................................................65. 5.4.2. Seleção de variáveis ...................................................................................................66. 5.4.3. Oversampling.............................................................................................................66. 5.5. Modelagem do Sistema .....................................................................................................67. 5.6. Análise de Lucratividade ....................................................................................................68. 5.7. Operacionalização dos Resultados .....................................................................................70 7.

(11) 5.8 6. ESTUDO DE CASO .................................................................................................................71 6.1. Dados disponíveis e suas limitações ...................................................................................75. 6.2. Apresentação e discussão dos resultados ..........................................................................77. 6.3. Validação, exploração e limpeza dos dados........................................................................78. 6.4. Definição do alvo ...............................................................................................................79. 6.5. Adição de variáveis Derivadas e Transformações ...............................................................79. 6.5.1. Seleção de variáveis ...................................................................................................79. 6.5.2. Criação das Bases de Dados .......................................................................................83. 6.5.3. Modelagem ...............................................................................................................84. 6.5.3.1. Classificação dos Clientes ...........................................................................................84. 6.5.3.2. Análise do Perfil dos Clientes .....................................................................................87. 6.5.4. Discussão dos resultados ...........................................................................................92. 6.5.5. Análise da Lucratividade ............................................................................................94. 6.6 7. Considerações Finais..........................................................................................................70. Considerações Finais..........................................................................................................95. CONCLUSÕES ........................................................................................................................96 7.1. Trabalhos Futuros ..............................................................................................................97. REFERÊNCIAS BIBLIOGRÁFICAS ...............................................................................................99. 8.

(12) LISTA DE FIGURAS. Figura 2.1 - Ciclo de Descoberta do Conhecimento em Bases de Dados. (Fonte: [18]) .......................17 Figura 2.2 - As etapas do processo de KDD. (Fonte: [16]) .................................................................19 Figura 2.3 - Particionamento em Células de mesma Cardinalidades ...................................................26 Figura 3.1 - Mineração de Dados como uma confluência de muitas disciplinas. .................................33 Figura 3.2 - Tarefas da Mineração de Dados. .....................................................................................34 Figura 3.3 - Classificação como mapeamento de atributos x no seu rótulo de classe y ........................36 Figura 3.4 - Associações entre registros de dados e classes. (Fonte: [37]) .........................................36 Figura 3.5 - Exemplo de Árvore de decisão. (Fonte: [34]).................................................................38 Figura 3.6 - Exemplo de classificação sem rótulo. (Fonte:[34]) .........................................................39 Figura 3.7 - Proposta do algoritmo ID3 .............................................................................................40 Figura 3.8 - O algoritmo Apriori. (Fonte: [16]) ..................................................................................44 Figura 3.9 - Candidatos de um, dois e três elementos .........................................................................45 Figura 3.10 - Formas diferentes de agrupamento do mesmo conjunto de pontos (Fonte:[34]) .............50 Figura 4.1 - Estratégias de CRM propostas por Meta Group. (Fonte: [18]) .........................................56 Figura 4.2 - Os quatro pilares do Database Marketing (Fonte: [18]) ...................................................59 Figura 5.1 - O sistema de fidelização de clientes por Mineração de Dados. (Fonte: [16]) ...................63 Figura 5.2 - A cadeia de lucro (Fonte: [38]) .......................................................................................69 Figura 5.3 - A importância da duração de um relacionamento para a lucratividade (Fonte:[38]) .........70 Figura 6.1 - Quadrante dos clientes ...................................................................................................72 Figura 6.2 - Ciclo da para validar uma parceria .................................................................................73 Figura 6.3 - Passos para se tornar Líder Estratégico ...........................................................................74 Figura 6.4 - Diagrama de dados da base real para caracterização do cliente........................................76 Figura 6.5 - Resultado após execução do algoritmo Id3 .....................................................................85 Figura 6.6 - Diferença entre a classificação antiga e a proposta pela mineração..................................87 Figura 6.7 - Tela para configuração dos parâmetros do algoritmo. .....................................................88 9.

(13) Figura 6.8 - Resultado após execução do algoritmo Apriori ...............................................................89 Figura 6.9 - Resultado após execução do algoritmo PredictiveApriori................................................91. 10.

(14) LISTADETABELAS Tabela 2-1 - Diferenças entre processamentos OLTP e OLAP. (Fonte:[16]) ......................................21 Tabela 3-1 - Técnicas para os Conjuntos de Treinamento ..................................................................35 Tabela 3-2 - Transações de vendas de uma distribuidora de bebidas ..................................................42 Tabela 3-3 - Algumas notações usadas no Apriori .............................................................................44 Tabela 3-4 - As regras geradas pelo Apriori.......................................................................................46 Tabela 3-5 - Exemplo de base de dados para a regressão. ..................................................................48 Tabela 6-1 - Estrutura da base real para estudo do perfil dos clientes .................................................77 Tabela 6-2 - Estatística básica das variáveis com problemas de inconsistências .................................78 Tabela 6-3 - Variáveis candidatas a classificação...............................................................................80 Tabela 6-4 - Resultados obtidos após a execução do método LSE. .....................................................81 Tabela 6-5 - Resultados obtidos após a execução do método SIE. ......................................................81 Tabela 6-6 - Variáveis após aplicação do método de seleção..............................................................82 Tabela 6-7 - Exemplo das variáveis que serão usadas na tarefa de Associação ...................................83 Tabela 6-8 - Base de dados para a Classificação ................................................................................83 Tabela 6-9 - Levantamento do % de acertos de cada algoritmo. .........................................................84 Tabela 6-10 - Matriz de Confusão .....................................................................................................87 Tabela 6-11 - Estatísticas sobre os dados carregados (conjunto integral de dados)..............................90. 11.

(15) 1 1.1. INTRODUÇÃO. Motivação O mundo passou por profundas e importantes transformações, sobretudo nos últimos. cinco anos, impulsionadas pelo crescimento da Internet. Ao ganhar na Web mais um poderoso canal de comercialização e de comunicação, o setor corporativo precisou rever alguns conceitos e se reestruturar. Na era digital, tudo é muito rápido. Para poder competir nesse cenário, não basta oferecer produtos e serviços com melhor qualidade e preço. É preciso, também, conhecer o consumidor, ser capaz de satisfazê-lo e não perdê-lo, logo a seguir, para a concorrência. Em outras palavras, se faz necessário saber criar e gerenciar o relacionamento com o cliente de forma a gerar valor para a companhia. Não é por acaso que um dos temas que mais tem chamado a atenção das empresas e que vem sendo amplamente debatido em eventos específicos e na mídia especializada é justamente o CRM – Customer Relationship Management[43]. Uma filosofia que envolve pessoas, processos, tecnologia, visandoa criação de uma sistemática para adquirir maior conhecimento sobre o cliente ao longo de toda a vida dele, e não apenas no momento em que realiza uma transação comercial com a empresa. Esses processos têm sido estudados sob muitas abordagens divergentes, o que dificulta o direcionamento estratégico das empresas que assumem ou pretendem assumir o marketing de relacionamento. Paralelamente a isto, nos deparamos também com o crescimento da utilização de sistemas informatizados para o armazenamento e gerenciamento de informações sobre os clientes e suas transações com as empresas prestadoras de serviços. Este relacionamento gera uma enorme quantidade de informação guardada nos bancos de dados, informação esta que é potencialmente importante, mas que ainda não foi descoberta. Estas informações podem ser importantes para a empresa conhecer melhor e entender seus clientes oferecendo assim produtos voltados às suas necessidades. Os dados dos sistemas transacionais, os quais são a fonte para o CRM operacional, aliados às necessidades dos clientes, obtidas através das centrais de relacionamento (CRM analítico), podem gerar uma importante fonte de informações. Porém, nem sempre isso 12.

(16) acontece, pois os dados são armazenados separadamente no repositório de cada departamento, impossibilitando a integração dos dados para que se transformem na inteligência do negócio. Neste momento, entra o processo conhecido comodata mining [29]que desenvolve um processo organizado de transformação de dados em conhecimento, incorporando ferramentas de tecnologia de informação, conhecimento de gestão dainformação e análises de dados sofisticadas, executando assim, do ponto de vista estatístico, uma análise exploratória multivariada de grandes quantidades de dados numéricos. Os dados importantes para o processo demineração estão dentro e fora da empresa. As transações operacionais efetuadas através do uso de sistemas de informação geram estes dados cujo conhecimento implicitamente acumulado pode ser formalizado, estruturado através de técnicas tais como redes neurais artificiais [14], árvores de classificação e regressão[34], regras de associação [15] entre outras. É de grande importância saber que o conceito da Mineração de Dados não é somente aplicar algoritmos sofisticados em qualquer tipo de dado e esperar obter como resultado modelos que irão gerar soluções para os problemas de uma empresa. É indispensável unir um vasto conhecimento do negócio ao uso sábio e certeiro de métodos e algoritmos computacionais, através de um sistema que junte e leve em consideração todas as peculiaridades do problema a ser solucionado. Só assim, o já mencionado conhecimento será realmente encontrado em meio às grandes quantidades de dados disponíveis. Somente desta forma, será gerada inteligência real sobre o negócio, inteligência que pode e deve servir de base no processo decisório empresarial. A maioria das empresas enfrenta este problema, sem conseguir uma abordagem adequada para sua solução. O objetivo desta dissertação é abordar este tema e identificar diferentes ferramentas computacionais que possam ser utilizadas neste contexto. Para isso será utilizado um estudo de caso, a fim de validar os conceitos propostos. A empresa escolhida no estudo de caso possui um vasto volume de dados armazenados,trata-se de uma franquia da Coca-Cola Companye atua nos mercados de Alagoas, Sergipe e Bahia utilizando sistemas informatizados tanto para a venda quanto para a coleta de pesquisas de opinião. Esses dados, porém,não são aproveitados para a geração de. 13.

(17) informação de forma eficiente. Observa-se também um sistema completamente engessado de classificação de seus clientes e pouco conhecimento sobre o comportamento dos mesmos. Desta forma, tornam-se evidentes as vantagens que uma empresa como essa passa a ter ao se utilizar dos resultados fornecidos pela Mineração de Dados juntamente com os conceitos de CRM, e no caso da empresa em estudo isso fica bastante visível devido ao seu tamanho, atividade e público alvo. Hoje essa franquia da Coca-Cola Companypossui anos de dados armazenados sobre seus clientes e suas transações, imensos históricos a respeito de volume de compras, situação de pagamento, segmentos de vendas, tipos dos estabelecimentos clientes, entre outros. Diante desses dados brutos,se pode alcançar um aumento considerável das vendas dessa franquia, bem como da fidelização desses clientes, analisando rapidamente o desempenho da sua força de vendas, organizando e maximizando a colaboração da empresa fornecedora, melhorando assim o serviço de pré-venda e de pós-venda aos seus clientes. 1.2. Objetivos O principal objetivo deste trabalho é a elaboração de um sistema de retenção e. fidelização de clientes, baseado em Mineração de Dados para uma empresa do ramo de produção e distribuição de refrigerantes, e que nesse estudo de caso, será uma franquia da Coca-Cola Company. Sendo assim, temos como objetivos específicos:  Geração de uma nova classificação dos clientes da franquia citada;  Análise detalhada do volume de vendas e associação dos itens aplicando sobre eles as atividades de marketing atuais da empresa, com o intuito de aumentar as vendas e facilitar o alcance das metas;  Através da nova classificação e do aumento das vendas, reposicionar esses clientes, observando com isso um aumento de clientes parceiros essa analise do volume de vendas;  Recomendar aos analistas de negócio da empresa para avaliação e possível implantação como parte da estratégia de fidelização do cliente;  Propor essa nova forma de classificação a CCIL (Coca-Cola Indústrias Ltda), como meio alternativo de obtenção de parceria das suas fabricantes. 14.

(18) Neste trabalho busca-se a solução de um problema de gerenciamento de relação com o cliente através da criação, estudo e otimização do processo de Mineração de Dados como um todo. A questão de fidelização de clientes a uma determinada indústria produtora e distribuidora de bebidas no Brasil, bem como um possível aumento das vendas de produtos será avaliada em busca de uma solução satisfatória. Um processo de data mining cuidadoso, partindo da análise do problema, passando pelo tratamento dos dados e culminando na busca e otimização do modelo que mais se adéqüe a tarefa será a arma para solucionar a questão do aumento da fidelização dos clientes. Objetiva-se também demonstrar o grande valor e vantagem competitiva que podem ser gerados com a utilização da Mineração de Dados em estratégias de retenção de clientes, através da análise da lucratividade que o sistema de retenção de clientes desenvolvido irá gerar para a empresa. 1.3. Justificativa A falta de documentação e de exemplos práticos no meio acadêmico que possam. informar uma aplicação que una os conceitos de CRM (Customer Relationship Management) com a aplicação de técnicas de Mineração de Dados, bem como a escassez de material referente a esse assunto no nosso idioma. Este problema em particular foi escolhido, principalmente devido à existência de uma vasta quantidade de dados reais, como forma de ilustrar todo o processo de Mineração de Dados focado na resolução de um problema específico. A expectativa é de que o leitor seja facilmente capaz de utilizar o conhecimento relatado nesta dissertação e as etapas descritas neste estudo para a solução de outros problemas de Mineração de Dados em outras indústrias. O problema atualmente é tratado no mercado utilizando conceitos de fidelização estáticos, baseados em regras fixas conhecidas como fotografias de sucesso que são questionários que informam a conformidade ou não de um estabelecimento de acordo com as regras impostas pela CCIL, que levam em consideração seu tamanho, tipo e disposição dos produtos dentre outras conformidades. Estas fotografias definem os estados base em que os clientes se encontram para receber diferentes vantagens e promoções dos fornecedores. Como a fotografia de sucesso (FDS) é fornecida pela CCIL (Coca-Cola Indústrias Ltda) a mesma se torna muito genérica e engessada para o atual cenário que estes estabelecimentos passam, com mudanças constantes de perfil, diferenças regionais, sazonalidades, etc. 15.

(19) Hoje existem funcionários somente focados em estudos para mudanças nessa FDS, porém a abrangência dessa análise é simplória devido às limitações de dimensões e de quantidades de dados. Ex: análises feitas no Excel ponderando somente dois ou no máximo três fatores simultâneos. 1.4. Organização da Dissertação Esta dissertação é composta por mais 6 capítulos além deste: •. O capítulo 2 apresenta o conceito do processo de Descoberta de Conhecimento em bases de dados, discutindo os seus elementos de apoio ao processo e pontos importantes.. •. No capítulo 3 é apresentado um conceito mais aprofundado da Mineração de Dados e explicado brevemente suas tarefas, detalhando um pouco mais as tarefas que serão empregadas no estudo, explicando inclusive os algoritmos utilizados.. •. No capítulo 4 é apresentado o conceito do CRM (Customer Relationship Management) e suas aplicações bem como todo o processo de entendimento do cliente e das estratégias que o CRM propõem para a manutenção dos clientes.. •. No capítulo 5 é apresentado o sistema de auxílio na fidelização de clientes proposto, unindo o conhecimento do negócio e do problema com o ferramental computacional na busca de resultados de lucro para uma empresa.. •. O capítulo 6 corresponde ao Estudo de Caso da dissertação, com aplicação do sistema desenvolvido sobre uma base de dados real e a avaliação de seu desempenho.. •. O capítulo 7 apresenta as Conclusões e sugestões para o desenvolvimento de trabalhos futuros.. 16.

(20) 2. DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS. Segundo Fayyad [1], a descoberta de conhecimento em bases de dados(KDD – Knowledge Discovery inDatabases) pode ser definida como um processo não-trivial de identificar padrões novos, válidos, potencialmente úteis e, principalmente, percebíveis em meio às observações presentes em grandes bases de dados, sem nenhuma formulação prévia de hipóteses, informações desconhecidas, válidas e acionáveis, úteis para a tomada de decisão. Os bancos de dados do mundo real são altamente suscetíveis a armazenarem dados incoerentes, inconsistentes, com diferenças de escalas, assim como valores fora da normalidade (outliers) e observações errôneas geralmente armazenadas em quantidade de dados em torno de muitos gigabytes e terabytes. Sendo assim torna-se necessário criar um esforço inicial de consolidação e agrupamento de toda a informação que servirá de base para o processo de mineração, como ilustrado na Figura 2.1. Figura 2.1 - Ciclo de Descoberta do Conhecimento em Bases de Dados. (Fonte: [18]). 17.

(21) A compreensão do negócio e do ambiente no qual os dados estão inseridos é crítica para o entendimento dos mesmos. Dada essa diversidade e heterogeneidade dos dados, esforços de pré-processamento e limpeza dos mesmos são cruciais na geração de dados que possam vir a ser trabalhados em busca de conhecimento útil. Executadas essas tarefas iniciais, que retornam dados tratáveis e homogêneos, a mineração pode ser iniciada, na busca por padrões e relações que façam algum sentido e sejam válidos para o problema a ser solucionado ou para o objetivo a ser alcançado. Finalmente, a interpretação, compreensão e aplicação dos resultados encontrados é o passo que torna o conhecimento adquirido através de bases de dados um real insumo para o apoio às decisões [2]. Segundo Fayyad [1] o processo KDD consiste nas seguintes etapas: 1. Limpeza dos dados: etapa na qual são eliminados ruídos e dados inconsistentes; 2. Integração dos dados: etapa na qual diferentes fontes de dados podem ser combinadas produzindo um único repositório de dados; 3. Seleção: etapa em que são selecionados os atributos que interessam ao usuário. Por exemplo, o usuário pode decidir que informação como endereço e telefone não são de relevância para decidir se um cliente é um bom comprador ou não; 4. Transformação dos dados: etapa na qual os dados são transformados num formato apropriado para aplicação de algoritmos de mineração (por exemplo, através de operações de agregação); 5. Mineração: etapa essencial do processo consistindo na aplicação de técnicas inteligentes a fim de se extrair os padrões de interesse; 6. Avaliação ou Pós-processamento: etapa em que são identificados os padrões interessantes de acordo com algum critério do usuário; 7. Visualização dos Resultados: etapa na qual são utilizadas técnicas de representação de conhecimento a fim de apresentar ao usuário o conhecimento minerado. A Figura 2.2 mostra todas as etapas descritas acima, compondo com isso todo o processo de descoberta do conhecimento (KDD).. 18.

(22) Figura 2.2 - As etapas do processo de KDD. (Fonte: [16]). 2.1. Dados Segundo Bozdogan e Klosgen [3,4], o primeiro passo para que qualquer conhecimento. seja gerado é que os dados existam e estejam disponíveis. Empresas e outras organizações fazem uso de uma grande infra-estrutura de tecnologia da informação para garantir a disponibilidade e o uso adequado da informação no apoio à decisão [2 e 5]. 2.2. Elementos de apoio ao processo de extração de KDD Durante o processo de KDD alguns elementos entram para auxiliar a extração do. conhecimento, abaixo será apresentada uma breve descrição de três dos principais elementos: data warehouse, técnicas estatísticas e visualização de dados. Além disso, a compreensão do domínio é facilitada, posto que as técnicas estatísticas, em conjunto com as ferramentas de visualização, possuem um papel de fundamental importância em todas as etapas do processo KDD, sobretudo nas etapas de seleção e preparação dos dados, Data Mining e avaliação do conhecimento extraído. 2.2.1 Data Warehouse Data Warehouse (DW) é um banco de dados histórico, separado lógica e fisicamente do ambiente de produção da organização, concebido para armazenar dados extraídos deste ambiente. Segundo W.H. Inmon [6], especialista e pioneiro no assunto, um data warehouse é “um conjunto de dados, não volátil, orientado a tópicos, integrado, que varia com o passar do tempo e que serve de suporte para o processo de tomada de decisões da gerencia”.. 19.

(23) Antes de serem armazenados no DW, os dados deve ser selecionados, limpos, integrados e organizados em uma primeira instância para que possam ser acessados de forma mais eficiente, principalmente para garantir que dados de diferentes fontes e formatos passem então a possuir as mesmas definições e obedeçam às mesmas regras. Por vezes, algumas das transformações realizadas nos dados, para se encaixarem no data warehouse, podem comprometer ou até mesmo apagar informações que poderiam vir a ser valiosas no processo de descoberta. Transformações como normalização, agregação e sumarização são exemplos que podem vir a atrapalhar a análise e mineração dos dados. Na medida em que o projeto de data warehouses evolui, eles direcionam cada vez mais o seu foco em antever as necessidades de análise e evitar a perda de informação, mesmo sendo por vezes inevitável, devido às imensas quantidades de dados [4]. Um dos métodos mais populares para análise de data warehouse é conhecido como OLAP (On Line Analytical Processing) que focaliza a manipulação e análise de dados por meio de métodos multidimensionais, com a finalidade de suprir as restrições impostas pelas linguagens de consultas e pelos esquemas e bancos de dados relacionais para armazenamento e acesso a dados [7]. A partir de todos estes elementos envolvidos no data warehouse, o analista do processo KDD, em interação com o especialista do domínio, pode aproveitar essas bases de dados já padronizadas e a facilidade de recuperação dos dados para, por exemplo, selecionar atributos mais significativos para uma conseqüente extração de conhecimento, via algoritmos para a aplicação da mineração dos dados. A seguir será detalhado um pouco mais o termo OLAP e introduzido o conceito sobre sistemas OLTP (On-Line Transaction Processing, ou processamento de transações on-line) 2.2.2 OLTP (On Line Transaction Processing) O OLTP tem como objetivo guardar a integridade da informação necessária para administrar uma organização de maneira eficiente. Esse modelo não corresponde à forma como o usuário percebe a operação de uma organização, uma vez que a estrutura relacional consiste de tabelas e relações, porém a visão do usuário consiste de hierarquias e dimensões, que lhe permite observar os dados em diferentes perspectivas. 20.

(24) Eles não podem ser repositórios de fatos e dados históricos, não atendem satisfatoriamente a consultas e a recuperação rápida dos dados é praticamente impossível. Os dados estão em constante mudança. Basicamente, os bancos OLTP oferecem grandes quantidades de dados brutos que não são facilmente compreendidos, armazenados em um local no qual realizar uma análise complexa sob seus dados pode resultar na degradação do sistema, impactando na operação da organização. 2.2.3 OLAP (On Line Analytical Processing) O OLAP surgiu como um processo para ser usado na análise de vendas e marketing, para elaborar relatórios administrativos e consolidações, para orçamentos e planejamentos, para análise de rentabilidade, relatório da qualidade e outros aplicativos que requerem uma visão reflexível, partindo do topo até os níveis mais baixos da organização. A principal característica dos sistemas OLAP é permitir uma visão conceitual multidimensional dos dados de uma empresa. Os dados trabalhados por OLAP estão armazenados em um data warehouse, modelados em uma estrutura conhecida por cubo, onde cada dimensão representa os temas mais importantes da empresa como produto, cliente, funcionário e tempo [15]. A sua organização é feita levando-se em consideração as diferentes dimensões do negócio, como tempo, tipo de produto e geografia, permitindo que o analista em busca de conhecimento de foco às dimensões do seu interesse. As principais diferenças entre os processamentos OLTP e OLAP podem ser visualizadas na Tabela 2.1. Tabela 2-1 - Diferenças entre processamentos OLTP e OLAP. (Fonte:[16]) OLAP. OLTP. Relevância para dados históricos. Mantém usualmente a situação corrente.. Necessidade de ver o dado sob diferentes perspectivas: aplicações dinâmicas Atualizações quase inexistentes, apenas novas inserções Baseado em dados históricos, consolidados e frequentemente totalizados Operações de agregação e cruzamentos. Voltado para velocidade e automação de funções repetitivas Atualizações em grande número Baseado em transações. Alto nível de detalhe. 21.

(25) 2.2.4 Técnicas Estatísticas A estatística é a área da matemática que estuda a coleta, organização e interpretação de dados numéricos, especialmente a análise de características da população por interferência a partir de amostras [8]. A estatística tem desenvolvido uma vasta teoria como suporte de seus próprios métodos e uma linguagem, o cálculo probabilístico, para descrever suas abordagens para quantificar incerteza associada às interferências a partir dos dados. Estes métodos permitem escrever relações entre variáveis para predição, quantificando efeitos, ou sugerindo caminhos. A relação entre os processos KDD e estatística é bastante estreita. Embora com enfoques diferentes, ambas as áreas objetivam a localização de padrões e a regularidade nos dados. Em geral, o processo KDD particularmente na etapa de mineração dos dados, enfatiza mais a facilidade de entendimento do conhecimento adquirido do que simplesmente a precisão [8]. 2.2.5 Ferramentas de visualização As ferramentas de visualização de dados estão se tornando cada vez mais importantes no processo de KDD, pois permitem uma melhor observação e interpretação dos resultados obtidos, podendo ser utilizadas como uma ferramenta exploratória na análise desses dados. Os principais tipos de ferramentas usadas para realizar as aplicações de visualização são: as linguagens de programação especializadas e as ferramentas Graphic User Interface (GUI). As linguagens de programação exigem geralmente habilidades de programação necessárias para criação de gráficos. Essas linguagens são voltadas, particularmente, para os casos em que se exigem gráficos especializados, não disponíveis no mercado. As ferramentas GUI são apropriadas às situações em que as necessidades de visualização dos dados não excedem a própria capacidade dessas ferramentas[3]. 2.3. Preparação dos dados A seguir, serão discutidas algumas técnicas e práticas utilizadas na preparação de uma. base de dados para a extração do conhecimento através de modelos de Mineração de Dados. Esta etapa, também conhecida como pré-processamento, tem fundamental relevância no 22.

(26) processo de descoberta do conhecimento. Compreende desde a correção de dados errados até o ajuste da formatação dos dados para os algoritmos de Mineração de Dados a serem utilizados. É importante salientar que as técnicas aqui apresentadas são somente alguns exemplos das ações que podem ser tomadas para uma melhoria da qualidade dos dados. Muitos outros procedimentos disponíveis na literatura [2] [5] podem e devem ser aplicados, dependendo dos dados e da questão a ser solucionada. Os métodos em maior detalhe nesta seção serão utilizados no sistema de obtenção e retenção de clientes proposto, por se encaixarem na natureza das bases de dados do problema: dados empresariais coletados de fontes distintas e com grande chance de apresentar imperfeições ou necessitar de uma representação mais adequada para um melhor desempenho dos modelos [19][20]. 2.3.1 Seleção de dados Essa função compreende, em essência, a identificação de quais informações, dentre as bases de dados existentes, devem ser efetivamente consideradas durante o processo de KDD.Em geral, e nesse caso estudado em específico, os dados se encontram organizados em bases de dados transacionais que sofrem constantes atualizações ao longo do tempo. Sendo assim, Pyle [5] recomenda que seja sempre feita uma cópia dos dados a fim de que o processo de KDD não venha eventualmente a interferir nas rotinas relacionadas à base de dados. Em bases que não possuem um Data Warehouse implementado é comum que exista uma congregação dos dados em uma única tabela. Tal fato é justificado, visto que, a maioria dos métodos de mineração pressupõe que os dados estejam organizados em uma única, possivelmente muito grande, estrutura tabular bidimensional. Essa junção pode ser dada de forma direta, onde todos os atributos e registros da base transacional são incluídos na nova tabela; ou orientada, onde o especialista no domínio do negócio, juntamente com o técnico em KDD, escolhe os atributos e os registros com algum potencial para influir no processo de descoberta. Assim, considerando que os dados estejam reunidos em uma mesma estrutura, a função de seleção dos dados pode ter dois enfoques distintos: a escolha de atributos ou a escolha de registros.. 23.

(27) 2.3.1.1 Redução de Dados Horizontal A seleção por redução de dados horizontal é caracterizada pela escolha de casos [21]. Ela pode ser: . Segmentação dos dados: nesta operação se escolhe um ou mais atributos para nortear o processo de segmentação, onde o conjunto de dados resultante se torna conglomerado a ser considerado no processo. Tal operação poderia ser implementada por uma instrução de seleção em SQL do tipo: SELECT * FROM CLIENTE WHERE TP_RES = “P”. O conjunto de dados resultante desta consulta se tornaria o conjunto a ser efetivamente considerado deste ponto em diante no processo de KDD;. . Eliminação direta: é uma variação da anterior e consiste em determinar os casos a serem eliminados ao contrário da segmentação que informa os que devem permanecer. No mesmo exemplo enunciado acima, tal operação poderia ser implementada por um instrução em SQL do tipo: DELETE CLIENTE WHERE TP_RES <> “P”;. . Amostragem aleatória: versa em sortear da base de dados um número preestabelecido de registros de forma que o conjunto resultante possua menos registros que o conjunto atual, para ilustrar esse tipo de redução, suponhamos a existência de um grande número de dados contendo N tuplas, e que n seja o número de amostras desejadas (n<= N), neste caso todas as tuplas possuem a mesma probabilidade de seleção: 1/N. Cada tupla selecionada é excluída do conjunto de dados original durante o processo de forma a evitar uma nova seleção;. . Agregação de informações: nesta operação os dados são reunidos de forma a reduzir o conjunto de dados original, consolidando dados em um nível maior de detalhamento em informações com menor detalhe. Por exemplo: somar os valores de todas as compras de cada cliente, obtendo o total de despesas por ele realizadas durante um determinado período.. 2.3.1.2 Redução de Dados Vertical A redução de dados vertical, também denominada redução de dimensão é uma operação de pré-processamento muito importante para o processo de KDD, tendo como 24.

(28) objetivo a busca por um conjunto mínimo de atributos de tal forma que a informação original seja preservada [5]. Sua implementação poder feita pela eliminação ou pela substituição dos atributos de um conjunto de dados. Sendo assim, se temos um conjunto de dados S com atributos A1, A2, A3, ..., An,o problema da redução de dados vertical consistirá em identificar qual das 2n combinações entre tais atributos deve ser considerada no processo de descoberta de conhecimento. Obviamente quanto maior o valor de n, maior o desafio na escolha dos atributos. Existem duas abordagens para a redução de dados vertical, usualmente utilizadas em problemas de Classificação: (1) a que não considera o algoritmo de mineração que será aplicado aos atributos selecionados (Filter), e (2) a que experimenta o algoritmo de Mineração de Dados para cada conjunto de atributos, avaliando os resultados obtidos (Wrapper) [22]. Na abordagem de Wrapper, existem três estratégias clássicas e simples para escolha do conjunto de atributos, são elas: . Seleção Seqüencial para Frente (Forward Selection)– Essa começa com um subconjunto de atributos candidatos vazio. Este é um processo interativo onde, cada atributo é adicionado individualmente ao subconjunto de atributos candidatos, sendo este avaliado segundo alguma medida de qualidade. Ao final de cada iteração, é incluído no subconjunto de atributos candidatos, aquele atributo que tenha maximizado a medida de qualidade considerada.. . Seleção Seqüencial para Trás (Backward Selection) – processo contrário da seleção seqüencial para frente: o subconjunto de atributos candidatos começa completo, com todos os atributos do problema, sendo assim, cada atributo é retirado do subconjunto, que é avaliado segundo alguma medida de qualidade. Ao final de cada iteração, o atributo que tenha minimizado a medida de qualidade é retirado do subconjunto de atributos candidatos.. . Combinação das estratégias anteriores – a seleção para frente e para trás são combinadas de tal forma que, a cada passo do algoritmo, é selecionado o melhor atributo (incluindo-o no subconjunto de candidatos) e removido o pior atributo dentre os remanescentes do conjunto de atributos.. 2.3.1.3 Redução de Valores A operação de redução de valores é uma alternativa interessante à opção de corte de atributos oferecida pela redução de dados vertical. Essa operação consiste em reduzir o 25.

(29) número de valores distintos em determinados atributos, o que pode proporcionar um melhor desempenho a diversos algoritmos de Mineração de Dados, principalmente àqueles que envolvem manipulações simbólicas e comparações lógicas dos dados. Existem vários métodos de redução de valores, são eles:  Redução de valores nominais – operação aplicável somente a variáveis nominais, sendo que estas possuem um número finito (possivelmente grande) de valores distintos e sem ordenação entre eles. Ex: Suponha que o especialista no domínio da aplicação deve apresentar a hierarquia existente entre os atributos de um conjunto de dados que contenha informações sobre o endereço dos clientes: logradouro, bairro, cidade e unidade federativa. A hierarquia pode ser definida por meio de uma ordenação total entre esses atributos no esquema do conjunto de dados: logradouro ⊂ bairro ⊂ cidade ⊂ unidade federativa, ou seja, logradouro contém bairro que contém a cidade que por sua vez contém a informação de unidade federativa. A partir desta especificação, pode-se estabelecer um nível de corte do detalhamento da informação, pois se for suposto que apenas as informações de cidade fossem de interesse na aplicação, as informações com níveis hierárquicos inferiores à cidade poderiam ser desconsiderados.  Redução de valores contínuos (ou Discretos) – operação aplicável somente a variáveis contínuas ou discretas, visto que essas possuem uma ordenação entre seus valores. Ex: Uns dos métodos de redução, chamado particionamento em células (Bins) de mesma cardinalidade (“Equidepth Bins”), que agrupa os valores em células com o mesmo número de elementos em cada uma delas. A última célula pode conter mais valores em função de um número de valores que não seja múltiplo do número de células. Os valores originais são substituídos pela identificação de cada célula, gerando um novo conjunto de dados. A Figura 2.3 mostra o resultado deste método quando aplicado à variável número de dependentes do conjunto de dados de exemplo. A terceira célula possui 4 valores. As demais apenas 3.. Figura 2.3 - Particionamento em Células de mesma Cardinalidades. 26.

(30) 2.3.2 Limpeza dos Dados Em aplicações reais, é comum que os dados sobre os quais se deseja extrair algum conhecimento estejam incompletos, ruidosos ou inconsistentes. Quando os dados encontramse com informação ausente ou ainda pouco detalhados, para determinados atributos, são considerados incompletos. Os dados ruidosos são dados errados ou que contenham valores considerados divergentes do padrão normal esperado (outliers). Por último, dados que contêm algum tipo de discrepância semântica entre si, são considerados dados inconsistentes. Conforme dito anteriormente, a qualidade dos dados é de grande importância para todo o processo de KDD, quanto pior for a qualidade dos dados informados, pior será a qualidade dos modelos de conhecimento gerados (GIGO – Garbage in, Garbage out). A etapa de pré-processamento envolve, dentre outras funções, a limpeza dos dados. Esta abrange uma verificação da consistência das informações, a correção de possíveis erros e o preenchimento ou a eliminação de valores desconhecidos e redundantes, além da eliminação de valores não pertencentes ao domínio. A execução dessa fase tem como objetivo, portanto, corrigir a base de dados, eliminando consultas desnecessárias que poderiam ser executadas futuramente pelos algoritmos de Mineração de Dados, afetando o desempenho destes algoritmos. Tipicamente, o processo de limpeza de dados não pode ser executado sem o envolvimento de um perito no negócio ao qual correspondem os dados, uma vez que a detecção e correção de anomalias requerem conhecimento especializado. Um exemplo corriqueiro na limpeza de dados é a procura por valores atípicos que não deveriam existir na base simplesmente por serem impraticáveis. Sendo assim ao nos depararmos com bases de dados que possuem idades ou tempos de contrato com clientes podemos encontrar clientes que possuem mais de 120 anos de idade, ou até mesmo clientes com menos de 2 anos de vida. Da mesma forma, podemos nos deparar com consumidores que possuem um relacionamento de 400 anos com a empresa. Tudo isso citado agora não é tão incomum assim. Esses valores são provenientes provavelmente de erros de digitação ou de preenchimento de cadastros sem validação. Na tarefa de limpeza e eliminação das inconsistências dos dados, tais campos, mesmo sendo raros, devem ser preenchidos com valores possíveis, utilizando, por exemplo, médias ou medianas da variável, ou serem simplesmente eliminados da base [21]. A filosofia por trás. 27.

(31) dessas ações é evitar que tal valor atrapalhe a compreensão dos dados pelos modelos, levando-os a tomar conclusões errôneas. Outro caso interessante de limpeza de dados é o tratamento de valores ausentes (missing). Se o número de observações ausentes for significativo, o desempenho de grande parte dos modelos de análise de dados pode ser seriamente comprometido[5]. Para lidar com valores ausentes, em geral utiliza-se uma das seguintes abordagens:  Exclusão dos Casos: método mais simples para a eliminação de informações ausentes. Consiste em excluir do conjunto de dados as tuplas que possuam pelo menos um atributo não preenchido. Esse método deve ser evitado quando o percentual de valores ausentes varia significativamente na mesma base.  Preenchimento Manual de Valores: nesse método os dados devem ser completados via digitação, sendo implementados por meio de pesquisas junto à fonte de dados originais. A sua prática se torna muitas vezes inviável por demandar um alto consumo de tempo e recursos.  Preenchimento com Valores Globais Constantes: esse método consiste em. substituir todos os valores ausentes de um atributo por um valor padrão tal como “desconhecido” ou “null”, onde este pode e deve ser especificado pelo especialista no domínio da aplicação. No entanto, cabe ressaltar que determinados algoritmos de Mineração de Dados podem assumir constantes padrões como valores recorrentes importantes. Assim sendo, embora simples, esse método não está entre os mais indicados.  Preenchimento com Medidas Estatísticas: medidas estatísticas podem ser. empregadas como alternativa à utilização de constantes padrões no processo de preenchimento de valores ausentes, podendo ser citados como exemplo, a média para atributos numéricos e a moda para atributos categóricos.  Preenchimento com Métodos de Mineração de Dados: nesse caso, modelos. preditivos podem ser construídos de forma a sugerir os valores mais prováveis a serem utilizados no preenchimento dos valores ausentes. Algoritmos de Mineração de Dados tais como Redes Neurais, Estatística (Modelo Bayesiano) e Árvores de Decisão são alternativas na construção desse modelo.. 28.

(32) 2.3.3 Transformações Em geral uma transformação nos dados envolve a aplicação de alguma fórmula matemática aos valores de uma variável, buscando obter os dados em uma forma mais apropriada para a posterior modelagem, maximizando a informação, satisfazendo premissas de modelos ou simplesmente prevenindo erros [5]. Entre as transformações mais realizadas e importantes está a normalização ou padronização dos dados, feita com o objetivo de homogeneizar a variabilidade das variáveis de uma base de dados, criando um intervalo de amplitude similar onde todas as variáveis residirão. Em geral a normalização é necessária no caso de variáveis com unidades diferentes ou dispersões muito heterogêneas. Entre as formas mais comuns de normalização estão:  Normalização pelo desvio padrão: ‫= ݕ‬. . ୶ିஜ ஢. (2.1) ୶ି୫୧୬. Normalização pela faixa de variação: ‫ = ݕ‬୫ୟ୶ ି ௠௜௡. (2.2). Nas Equações 2.1 e 2.2, y representa o novo valor normalizado; x, o valor atual; µ e σ, a média e o desvio padrão da variável; e max e min, os valores de máximo e mínimo, respectivamente. Outra maneira muito utilizada para alteração dos dados é a codificação de variáveis categóricas em variáveis dummy, onde uma variável com n categorias é codificada em um vetor de tamanho n com um único valor não nulo, identificando a categoria da qual o registro fazia parte. Além dessas transformações, a aplicação de logaritmos, da função inversa (1/x), a extração de diferenças temporais e outras também são bastante utilizadas na busca por uma representação mais adequada dos dados [21]. 2.4. Mineração de Dados A Mineração de Dados pode ser considerada como uma parte do processo de. descoberta de conhecimento em banco de dados. Ela consiste em utilizar técnicas de estatística e de inteligência computacional bem estabelecidas para construir modelos que predizem o comportamento dos dados.. 29.

(33) “Mineração de Dados é a exploração e a análise, por meio automático ou semiautomático, de grandes quantidades de dados, a fim de descobrir padrões e regras significativos” [2].. Os principais objetivos da Mineração de Dados são descobrir relacionamentos entre dados e fornecer subsídios para que possa ser feita uma previsão de tendências futuras baseada no passado. Os resultados obtidos com a Mineração de Dados podem ser usados no gerenciamento de informação, processamento de pedidos de informação, tomada de decisão, controle de processo e muitas outras aplicações. Mais informações serão fornecidas no capítulo sobre Mineração de Dados. 2.5. Interpretação e emprego do conhecimento obtido Uma etapa fundamental da busca do conhecimento em bases de dados é exatamente a. interpretação dos resultados e a alteração deles em uma real base para decisões. Depois de realizado todo o esforço de se coletar dados, prepará-los e minerá-los, os resultados finais apresentados por qualquer modelo ou técnica que tenha sido utilizada, necessitam de uma avaliação precavida sob o prisma do problema a ser resolvido ou do objetivo a ser alcançado. Somente assim o conhecimento gerado realmente se torna útil no apoio à decisão. 2.6. Considerações Finais Neste capítulo foi explicado o processo de descoberta de conhecimento, com todas as. suas etapas e com os elementos que apóiam esse processo, tanto na etapa final com a visualização dos resultados, quanto na inicial com a utilização de uma base mais uniforme e não transacional. Esse capítulo também deixa claro o papel da Mineração de Dados como uma etapa do processo de KDD e não como o processo em si. Durante a criação do sistema de retenção de clientes todas as etapas participantes do processo de KDD apresentadas nesse capítulo serão utilizadas e aplicadas no estudo de caso proposto. No próximo capítulo será aprofundado o conceito de Mineração de Dados.. 30.

(34) 3. MINERAÇÃO DE DADOS. A Mineração de Dados também habitualmente conhecida na literatura como Data Mining é considerada a principal integral da descoberta de conhecimento em banco de dados (KDD - Knowledge Discovery in Databases). É nesta fase que os algoritmos responsáveis por extrair informações e padrões úteis são aplicados nos dados consolidados das bases de dados. Diversas definições de Mineração de Dados podem ser encontradas na literatura. Entre as diversas definições se destacam as seguintes: Mineração de Dados é a busca de informações valiosas em grandes bancos de dados. É um esforço de cooperação entre homens e computadores. Os homens projetam bancos de dados, descrevem problemas e definem seus objetivos. Os computadores verificam dados e procuram padrões que casem com as metas estabelecidas pelos homens [26]. Mineração de Dados é a exploração e análise de dados, por meios automáticos ou semi-automáticos, em grandes quantidades de dados, com o objetivo de descobrir regras ou padrões interessantes [2]. Mineração de Dados, em poucas palavras, é a análise de dados individual[27]. Mineração de Dados é o processo de proposição de várias consultas e extração de informações úteis,padrões e tendências, freqüentemente desconhecidos, a partir de grande quantidade de dados armazenadas em bancos de dados [28]. Mineração de Dados e, de forma simples, é o processo de extração ou mineração de conhecimento em grandes quantidades de dados [29].. Com base nas definições ditas acima, podemos dizer que a Mineração de Dados é um processo altamente cooperativo entre homens e máquinas, que visa a exploração de grandes bancos de dados, com o objetivo de extrair conhecimentos através do reconhecimento de padrões e relacionamento entre variáveis, conhecimento esses que possam ser obtidos por técnicas comprovadamente confiáveis e validados pela sua expressividade estatística. Com isso o resultado obtido pela aplicação de Mineração de Dados deve ser compacto, legível, interpretável e deve representar fielmente os dados que lhe deram origem [25]. 3.1. Desafios Motivadores Conforme mencionado anteriormente, as técnicas tradicionais de análise de dados. frequentemente encontravam dificuldades práticas para vencer os desafios encontrados pelos 31.

(35) novos conjuntos de dados. A seguir estão alguns dos desafios específicos que vêm motivando o desenvolvimento da Mineração de Dados[37].  Escalabilidade: Devido ao avanço na geração e coleta, conjunto de dados com tamanhos em gigabytes, terabytes e até mesmo em petabytes estão se tornando comuns. Se algoritmos de Mineração de Dados tiverem que lidar com estes conjuntos volumosos de dados, então devem ser escaláveis. Muitos algoritmos de Mineração de Dados empregam estratégias especiais de busca para lidar com problemas de buscas exponenciais. A escalabilidade também requer a implementação de novas estruturas de dados para acessar registros individuais de forma eficiente.  Alta Dimensionalidade: Agora é comum se encontrar conjuntos de dados com centenas ou milhares de atributos ao invés do punhado comum de algumas décadas atrás. Na bioinformática ou nos conjuntos de dados com componentes temporais ou espaciais há tendência de alta dimensionalidade. Técnicas tradicionais de análise de dados que foram desenvolvidas para dados de baixa dimensionalidade muitas vezes não funcionam bem para tais dados de alta dimensionalidade.  Dados Complexos e Heterogêneos: Os métodos tradicionais de análise de dados muitas vezes lidam com conjunto de dados que contêm atributos do mesmo tipo, contínuos ou categorizados. À medida em que o papel da Mineração de Dados nos negócios, na ciência, na medicina e em outras áreas tem aumentado, também o tem a necessidade de técnicas que possam lidar com atributos heterogêneos.  Propriedade e Distribuição de Dados: Às vezes, os dados necessários para uma análise não estão armazenados em um local ou não são de propriedade de uma organização. Em vez disso, eles estão distribuídos geograficamente entre fontes pertencentes a múltiplas entidades. Isto requer o desenvolvimento de técnicas distribuídas de Mineração de Dados. Entre os desafios encontrados pelos algoritmos distribuídos de Mineração de Dados, pode-se citar: redução da quantidade de comunicação, consolidar eficazmente os resultados da Mineração de Dados a partir de múltiplas fontes e por último como abordar questões de segurança de dados. 32.

(36)  Análises Não Tradicionais: Tarefas atuais de análise de dados muitas vezes requerem a. geração. e. a avaliação. de milhares. de. hipóteses. e,. consequentemente, o desenvolvimento de algumas técnicas de Mineração de Dados tem sido motivado pelo desejo de se automatizar o processo de geração e avaliação de hipóteses. Além disso, os conjuntos de dados frequentemente envolvem tipos de dados não tradicionais e a distribuição dos mesmos Na base de dados da empresa onde o sistema será aplicado foram enfrentados alguns dos desafios citados acima, tais como Escalabilidade; Alta Dimensionalidade; Propriedade e Distribuição de Dados. 3.2. Origens da Mineração de Dados Com o intuito de vencer os desafios citados anteriormente, pesquisadores de diferentes. disciplinas começaram a enfocar o desenvolvimento de ferramentas mais eficientes e escaláveis que pudessem lidar com diversos tipos de dados. Este trabalho, que culminou na área de Mineração de Dados, construiu-se sobre a metodologia e algoritmos que os pesquisadores haviam usado anteriormente. Em especial, a Mineração de Dados atrai idéias, como: 1. Amostragem, estimativa e teste de hipóteses a partir de estatísticas; 2. Algoritmos de busca, técnicas de modelagem e teorias de aprendizagem da inteligência artificial, reconhecimento de padrões e aprendizagem de máquina. A Mineração de Dados também foi rápida em adotar idéias de outras áreas, incluindo otimização, computação evolutiva, teoria de informação, processamento de sinais, visualização e recuperação de informações[37].. Figura 3.1 - Mineração de Dados como uma confluência de muitas disciplinas.. 33.

Referências

Documentos relacionados

4 RESULTADOS E DISCUSSÃO 4.1 Caracterização da cobertura florestal e da biodiversidade vegetal no entorno dos cultivos de tomate na região de Apiaí-SP a Módulos

Não podendo mais descançar no poder central, o povo mineiro fez mais do que qualquer outro Estado irmão, e para demonstral-o ahi estão : a Faculdade de Direito, a Academ ia

O presente experimento teve como objetivo avaliar o desenvolvimento até os vinte e oito meses de idade e o desempenho reprodutivo no primeiro período de acasalamento de fêmeas

As seguintes características foram avaliadas: período, em dias, da semeadura à emergência das plantas em 75% das covas; dias da semeadura à abertura da primeira flor; dias da

Do ponto de vista técnico, conseguiu convencer o corpo médico presente ao encontro que a doença seria transmissível, como comprova o primeiro item da resolução final do encontro:

É_Realizada n n (0,3) (0,n) Inscrição Nome RG Expedidor UF Data Média Tipo Nota Questões Número Área Sub-Área Avaliação 3 n Esquema ER para o banco de dados CONCURSO..

Marca Vendedor Veículo Ford João Carro Ford João Caminhão Ford Mário Caminhão Fiat Mário Carro Chevrolet Felipe Carro Chevrolet João Carro Chevrolet João

Membro_Faculdade (Matrícula: Inteiro, Nome: string[50], Carga: Inteiro, IniContrato: data, Curso: string[30], professor: booleano, aluno: booleano). Membro