• Nenhum resultado encontrado

Artigo DataMining OLAP

N/A
N/A
Protected

Academic year: 2021

Share "Artigo DataMining OLAP"

Copied!
13
0
0

Texto

(1)CienteFico. Ano III, v. II, Salvador, julho-dezembro 2003. Conceitos Básicos sobre Data Mining Orientador: Prof. Benedito Tourinho Dantas. Armando Rocha, Daniel Borges Marques Martins, Daniel Lucena Couto e Rogério Rocha. Resumo A globalização levou a uma competição acirrada no mundo inteiro, e a obtenção de informações passou a ser um ponto-chave entre as empresas no mercado. As informações acumuladas nas empresas aumentam cada vez mais, necessitando de uma base que traga lucro às companhias. O artigo pretende mostrar como essa demanda de informações estão sendo tratadas com o uso do Data Mining. Palavras-chave Data Mining; KDD (Knowledge Discovery in Databases); Data Warehouse; Mineração de Dados.. O volume dos dados cresce a cada dia, desafiando a capacidade de armazenamento dos bancos de dados e de obtenção de acesso a estes. Em nível empresarial, os dados são informações sobre os vários processos e procedimentos de um indivíduo, inclusive com históricos dos clientes. Todos estes dados podem contribuir com a empresa, visando a uma rápida ação de seus gestores para a manipulação das informações..

(2) A tecnologia do Data Mining, juntamente com suas ferramentas, permite a "mineração" dos dados com a finalidade de lhes gerar um real valor, transformando-o em informação e conhecimento. Uma empresa que emprega a técnica do Data Mining é capaz de fazer um estudo dos hábitos dos seus clientes, identificá-los e entender os comportamentos habituais. Quando acontece repetições de padrões de comportamento, as ferramentas do Data Mining indicam a presença de oportunidades àquele público consumidor. O diferencial do Data Mining está no fato de as descobertas de padrões ocorrerem por uma lógica de algoritmos, com base em uma rede neural de raciocínios. Trata-se de ferramenta de descobertas matemáticas feitas sobre os registros corporativos já processados contra descobertas empíricas. Tabela 01: Evolução dos questionamentos às bases de dados [1]. Evolução. Tipos de Perguntas. 1960 – Coleção de Dados. “Qual foi meu rendimento total nos últimos anos?”. 1980 – Acesso aos Dados. “Qual foi meu rendimento no Brasil no último mês de janeiro?”. 1990 – Data Warehouseing & Suporte à “Qual foi meu rendimento no Brasil no último Decisão mês de janeiro? Do Sul ao Norte” Atualmente – Data Mining. “Porque alguns produtos são mais vendidos na Região Sul?”. 2. Knowledge Discovery Databases ( KDD ) O processo de KDD consiste em produzir conhecimento a partir de uma base de dados inseridos pelo usuário, a fim de encontrar informações coerentes ao que é desejado, sendo que a principal etapa deste processo é a mineração de dados – fase responsável pela procura dos dados “escondidos” na sua imensa base. Este processo tenta encontrar e interpretar padrões nos dados que foram inseridos, passando por algumas fases, realizando algumas tarefas e executando métodos e algoritmos para se conseguir um resultado[2]..

(3) O KDD, na verdade, é um conjunto de atividades contínuas que geram um conhecimento a respeito da base de dados, sendo dividido em seis etapas: a de limpeza, a de enriquecimento, a de codificação, a de mineração de dados (Data Mining) e, finalmente, a de interpretação do conhecimento descoberto. Este conjunto pode ser visualizado na Figura 01, logo abaixo, na qual contém também o processo realizado em cada etapa.. Figura 01: Etapas do KDD [3]. Primeiramente é feita uma organização da massa de dados na forma de agrupamentos; a seguir vem a etapa de limpeza, também conhecida como préprocessamento, que visa eliminar os dados (não excluí-los da base, mas retirá-los do processo para agilizá-los) que não se adequam às informações, com base nos algoritmos. Em seguida os dados deverão ser armazenados adequadamente, para facilitar na utilização das técnicas de mineração. O Data Warehouse é melhor aplicado nesta fase, em que através do uso dessa tecnologia os dados são armazenados de maneira mais eficiente..

(4) Depois é a etapa de mineração. Inicialmente devem ser definidos quais algoritmos (por exemplo, algoritmos genéticos) ou ferramentas serão utilizados e logo após executá-los. No final desta etapa, um relatório com base nas descobertas feitas é emitido, para que então seja analisado por especialistas e seja tomada uma decisão a respeito das informações obtidas, sendo que o relatório citado, assim como qualquer outro, pode ser alvo de uma nova consulta, caso o usuário queira aprofundar-se na busca do conhecimento. Após a conclusão de todo o processo e da interpretação do resultado é que o conhecimento é encontrado [2].. 3. Data Warehouse Data Warehouse é um conjunto de banco de dados integrados, utilizado para armazenar grandes volumes de dados de sistemas de suporte à decisão e aplicações de KDD. Um Data Warehouse precisa ser estruturado separando-se a organização das bases de dados operacionais, pois seu grande volume de dados é composto de diversas origens heterogêneas, necessitando de uma estrutura flexível para suportar a recuperação destes dados..

(5) Figura 02: KDD exemplificando a heterogeneidade dos dados[2]. Na figura acima estão representadas algumas etapas do KDD, incluindo o Data Warehouse. Nota-se claramente a procedência dos dados que compõem o Data Warehouse, mostrando que eles são de origens distintas; conseqüentemente os dados serão heterogêneos. O Data Warehouse precisa integrar estes dados, eliminando inconsistências, e armazená-los em estruturas flexíveis.. 4. Data Mining.

(6) Data Mining é uma técnica composta por um conjunto de ferramentas que, através do uso de algoritmos de aprendizado ou baseada em redes neurais e estatística, permite buscar em uma grande base de dados as informações que aparentemente estão escondidas, possibilitando a agilidade nas tomadas de decisões. A Data Mining que utiliza a classe de aplicação é composta por um conjunto de algoritmos usados na extração de relacionamentos importantes entre os dados contidos em uma base de dados. Dentre as classes, detalhadas a seguir, estão a clusterização, análise de seqüências, classificação, estimativas e regras de associação. As técnicas mais recentes incluem a lógica nebulosa (fuzzy logic) e os algoritmos genéticos, sendo que cada algoritmo se adapta melhor a um tipo determinado de problema. O processo de clusterização é uma das primeiras etapas da técnica do Data Mining. Baseia-se nos problemas de segmentação, identificando grupos de registros que possuem relação entre seus atributos, para serem usados como base para as próximas pesquisas. A classificação utiliza um conjunto de dados de entrada, pré-escolhidos, sendo gerado a partir daí um novo modelo para posteriores classificações. Depois de desenvolvido o modelo de forma eficiente, este será utilizado para classificar novos registros nas classes identificadas. Os algoritmos de classificação utilizam técnicas de árvores de decisão ou redes neurais, já que essas duas técnicas se adequam melhor à fase de classificação. Os algoritmos de estimativa são uma variação da classificação que simplesmente verifica se o dado está de acordo com a classificação já os de estimativa, como o próprio nome diz gera valores em uma determinada margem em relação o dado que se deseja classificar. O algoritmo que identifica a relação entre itens em um grupo de dados é o algoritmo de descoberta de regras de associação, e a representação do relacionamento entre os dados é feita através de regras de associação. Este algoritmo identifica, por exemplo, que 80% dos homens entre 20 e 28 anos que compram cerveja também compram fraldas. Sua principal utilização é na analise de mercado. A análise de seqüências é uma variação das regras associativas. As regras identificadas são usadas para reconhecer seqüências relevantes que possam ser utilizadas.

(7) para prever comportamentos, possuindo, assim, sempre, o conhecimento do que pode surgir. Um exemplo é o das asseguradoras de cartões de crédito, que, ao perceberem um desvio fora do padrão de utilização do cartão de crédito de um determinado cliente, pode identificar situações de clonagem ou roubo do cartão, entrando em contato com o cliente para saber qual decisão tomar[4].. 4.1 Algoritmos Utilizados em Data Mining Na implementação de um Data Mining são utilizados alguns algoritmos; os mais comuns são: Árvores de Decisão, Regras de Associação e Redes Neurais. Tempo Umidade Nublado Vento S N S N S Normal Alta Ensolarado Sim Chuvoso Não.

(8) Nã o A Árvore de Decisão é utilizada quando os dados a serem analisados possuem atributos diferentes e não existe uma forma lógica para a representação. Por exemplo: uma pessoa pretende jogar uma partida de tênis, mas diversos fatores podem influenciar na decisão de ela jogar ou não, como condições do tempo: o tempo está chuvoso, está ventando, está ensolarado, úmido. Com isso podemos montar uma árvore, como mostra a figura abaixo.. Figura 03 : exemplo de Árvore de Decisão[1]..

(9) As folhas representam a possibilidade de se jogar ou não. A Árvore de Decisão é mais utilizada em domínios onde a transparência das regras de produção é essencial, embora a sua utilização não seja recomendável quando se trabalha com dados de séries temporais. O funcionamento das Redes Neurais artificiais é baseado no funcionamento do cérebro humano, onde temos neurônios interligados que, a partir de uma entrada, analisam uma saída como resposta. O problema dessas redes é que elas necessitam de um treinamento que pode ser custoso e que se não feito corretamente de nada adiantará. A utilização de Redes Neurais é melhor aplicada em domínios complexos, cujo resultado é mais importante do que como se chegar a ele. Sendo assim, não é recomendável a utilização dessa técnica para domínios que possuam transparência do processo. 1 5 2 4 3 6 Entrada 1 P1,5 P1,4 Entrada 2 P1,2 P2,5 P5,6 P4,6 Saída P3,6 P2,4 P2,3.

(10) Figura 04: exemplo de Rede Neural artificial. 4.2 Vantagens do Data Mining A utilização do processo do Data Mining propicia um modelo de fácil compreensão, em que pessoas não ligadas à área de estatística conseguem compará-lo com as suas idéias; andes bases de dados podem ser analisadas extraindo informações valiosas e específicas de acordo com suas necessidades; descoberta de dados não explícitos; obtenção de resultados precisos, já que o processo do Data Mining é validado por técnicas estatísticas[5].. 5. Processamento Analitico On-line - OLAP (On-line Analytical Processing) O processo Analítico On-line é uma ferramenta vagamente semelhante ao Data Mining, cuja função é “minerar dados em diferentes níveis de abstração através de análises multidimensionais dos dados, ou seja, uma visão lógica dos dados.”[6]. O OLAP é uma ferramenta que se comunica com a base de dados fazendo requisições e obtendo respostas imediatas para manter as informações com maior freqüência na memória. A maior diferença entre o OLAP e o Data Mining é que este último consegue extrair os dados implícitos em uma grande base de dados. A tabela a seguir exemplifica isto:.

(11) Figura 05: Comparativo OLAP x Data Mining [6]. 5.CONCLUSÃO.

(12) A exploração e análise dos dados no Data Mining procura definir padrões e regras específicas para a tomada de decisões das empresas, visando atender a seus clientes. Portanto, percebe-se que o Data Mining está sendo aplicado cada vez mais, satisfazendo as organizações, atuando com suas bases de dados que muitas vezes são imensas e repletas de informações úteis para futuras aplicações, as quais estão necessitando de agilidade e confiança para tomadas de decisões futuras, tanto a curto quanto a longo prazo. Essas empresas têm em seus repositórios tesouros valiosíssimos para serem explorados, e o Data Mining vem mostrar que o seu uso é decisivo no mundo competitivo de hoje.. 6. REFERÊNCIAS BIBLIOGRÁFICAS [1] PORRUA. Bernardo Pimenta, SOARES. Marcio Morelli, de CARVALHO. Marcos H. L., BORDINI. Mauricio Madalozzo. Data Mining. Disponível em: http://www.ppgia.pucpr.br Acessado em jun./03 [2] LOPES. Carlos Henrique Pereira. Classificação de registros em banco de dados por evolução de regras de associação utilizando algoritmos genéticos. Pontifícia Universidade Católica do Rio de Janeiro. Abril de 1999. [3] NAVEGA, Sérgio. Princípios Essenciais do Data Mining. Publicado nos Anais do Infoimagem 2002, Cenadem, Novembro. [4] FIGUEIRA. Rafael - Mineração de Dados e Bancos de Dados Orientados a Objetos. Disponível em: http://www.cos.ufrj.br/~rafael/mestrado/bdnc/Monografia.html. Acessado em jun./03. [5] WG System – Data Mining. Disponível em: http://www.wgsystems.com.br/bi/bi_datamining.htm. Acessado em jun./03. [6] MELO. Rubens Nascimento. Professor TecBD/DI PUC-Rio. [7] Database System Implementation, Tombo 30732, Capítulo 11..

(13) [8] “Data Mining – Data Warehouse”, a importância da mineração de dados em tomadas de decisões Disponível em:http://geocities.yahoo.com.br/dugimenes/. Acessado em jun./03.. [9] http://www.lch.dcc.ufmg.br/node8.html.. [10] www.din.uem.br/~intersul/intersul_arquivos/documentos/mineracao.pdf..

(14)

Referências

Documentos relacionados

Assista ao vídeo em nosso canal e descubra por que faz muito mais sentido você trazer os seus recursos para uma Entidade com mais de 50 anos de experiência no assunto.. Você

É concedido aos empregados beneficiados por esta convenção coletiva, não contemplados com os reajustes disciplinados nas cláusulas anteriores (Vigilantes e Auxiliares

Aos empregados afastados do serviço por motivo de doença ou acidente do trabalho, a EMPRESA concederá, por um período de até 180 (cento e oitenta) dias, a complementação de

Os dados contínuos ou de contagem geralmente podem ser convertidos para dados de classificação ou hierarquização, mas não na direção inversa. Por exemplo, as medições

XX Mostra de Iniciação Científica, Pós-Graduação, Pesquisa e Extensão Programa de Pós-Graduação em Administração | 11 relação dos construtos personalidade da marca e amor

Com o objetivo de compreender como se efetivou a participação das educadoras - Maria Zuíla e Silva Moraes; Minerva Diaz de Sá Barreto - na criação dos diversos

Este trabalho objetivou a realização de uma análise cienciométrica das produções científicas sobre hanseníase, no período de 1997 a 2016, no portal de pesquisa Web of

****** Atletas e Cavalos não Filiados, procurar a FCH para fazer a filiação antes do inicio na prova.