• Nenhum resultado encontrado

DATA WAREHOUSE & DATA MINING

N/A
N/A
Protected

Academic year: 2021

Share "DATA WAREHOUSE & DATA MINING"

Copied!
10
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DE SANTA CATARINA – UFSC

Centro Tecnológico - Departamento de Informática e Estatística - INE

Disciplina: EPS 5216 – Sistemas de Informações Gerenciais

Professora: Aline França de Abreu

DATA WAREHOUSE

&

DATA MINING

Adriana Orthmann Fernandes Everton Fernandes

Júlio Gonçalves Reinaldo Paulo Naves Veloso Sérgio Videira Thiago Schneider

(2)

Introdução:

Temos como objetivos neste trabalho explicar com clareza o que são Data Warehouse e Data Minig.

Data Warehouse (armazém de dados) é um sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada.

Data Mining (Mineração de dados) é o processo de varrer grandes bases de dados a procura de padrões como regras de associação, sequências temporais, para classificação de ítens ou agrupamento.

(3)

Data Warehouse:

Definição e Objetivos:

Data Warehouse que pode ser definido como uma coleção de dados, orientados por assunto, integrados, variáveis com o tempo e não voláteis, para dar suporte ao processo de tomada de decisão.

As bases de dados convencionais possuem caracteristicas, tais como, o fato de serem dinâmicas, incompletas, redundantes e ruidosas, que tornam confusa e não viável a extração de informação delas próprias. Os Data Warehouses surgiram com o objetivo de fornecer os subsídios necessários para a transformação de uma base de dados de uma organização de OLTP (On-Line Transaction Processing: Processamentos que executam as operações do dia-a-dia da organização) para OLAP (On Line Analytical Processing: Processamentos que suportam a tomada de decisões) e, assim, providenciar os elementos necessários a quem toma as decisões nas organizações.

Descrição das Principais Características:

Conforme já descrito, o Data Warehouse (DW) possui um conjunto de características que o distingue de outros ambientes de sistemas convencionais:

- Orientado Por Assunto: o DW está orientado em torno do principal assunto da organização, armazenando informações agrupadas por assuntos de interesse da empresa que são considerados mais importantes, sendo estes chamados de processos de negócio de um empreendimento.

- Integrado: é uma das principais características de um DW. Num Data Warehouse os dados devem ser transformados em formatos comuns de medida referência e armazenamento para que possam ser aproveitados.

- Variável no Tempo: Os dados de um Data Warehouse são precisos em relação ao tempo e representam resultados operacionais do momento em que foram capturados. A cada mudança, uma nova entrada é criada, ou seja, os dados não são atualizáveis.

- Não Volátil: os dados após serem integrados, são carregados e armazenados no banco de dados analítico, possibilitando ao usuário realizar apenas consultas e geração de relatórios necessários à tomada de decisão, não permitindo, portanto atualizações nos mesmos, apenas acesso de “leitura”.

Passos Para a Elaboração de um Data Warehouse

Data Warehouse (DW) não é um produto que se compra, mas sim um projeto que envolve a análise e implementação, com a participação de várias tecnologias. Os sete passos para a criação de um DW, que pode ser inicialmente um Data Mart (assunto específico) até chegar ao DW no nível corporativo, são:

1° Passo - Disponibilizar resultados a curto prazo.

Os primeiros resultados devem estar disponíveis a curto prazo. É importante traduzir rapidamente as necessidades do negócio em uma especificação que possa ser construída em etapas. Minimiza riscos e o tempo de apresentação dos resultados iniciais.

(4)

2° Passo - Integrar os sistemas.

O desafio principal deste passo é o de conseguir integrar os diversos sistemas da organização. Assim, os Dados de produção e das fontes externas precisam ser mapeados para o modelo de dados do DW.

Estas tarefas terão de ser feitas com sincronismo, de forma a evitar problemas de acesso aos dados e também para conseguir fazer devida separação entra os dados operacionais e os dados de tomada de decisão.

3° Passo - Escolher o Banco de Dados.

A escolha do banco de dados de suporte ao DW necessita ser criteriosa, ao nível do desempenho na carga e indexação dos dados, tempo de resposta, capacidade de armazenamento, paralelismo, escalabilidade.

4° Passo - Escolher a ferramenta a ser utilizada

Considerar as ferramentas disponíveis no mercado. Estas devem prover, interfaces amigáveis, geração de relatórios, análises multi-dimensionais, acesso via web e data mining.

5° Passo - Construir visando expansão.

Construir um DW que possa ser expandido, mantendo níveis aceitáveis de desempenho até gigabytes.

6° Passo - Manter o sistema aberto para mudanças.

Ambiente DW deve ser aberto para permitir que os componentes ou ferramentas identificadas no passo 4 possam ser substituídas por outras mais atuais e eficientes.

7° Passo - Disponibilizar os equipamentos adequados.

Considerar o sistema de armazenamento que fisicamente gerência, o tráfego, alocação, backup e a restauração dos dados

Qualquer sistema de Data Warehouse (DW) só funciona e pode ser utilizado plenamente, com boas ferramentas de exploração. Com o surgimento do DW, a tecnologia de Data Mining (mineração de dados) também ganhou a atenção do mercado.

Como o DW, possui bases de dados bem organizadas e consolidadas, as ferramentas de Data Mining ganharam grande importância e utilidade. Essa técnica, orientada a mineração de dados, oferece uma poderosa alternativa para as empresas descobrirem novas oportunidades de negócio e acima de tudo, traçarem novas estratégias para o futuro.

(5)

Data Mining:

Definição e Objetivos:

Data Mining consiste em um processo analítico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negócios, mercado ou pesquisas científicas), na busca de padrões consistentes e/ou relacionamentos sistemáticos entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: exploração, construção de modelo ou definição do padrão e validação/verificação.

Talvez a definição mais importante de Data Mining tenha sido elaborada por Usama Fayyad:

"...o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis", (Fayyad et al. 1996).

A premissa do Data Mining é uma argumentação ativa, isto é, em vez do usuário definir o problema, selecionar os dados e as ferramentas para analisar tais dados, as ferramentas do Data Mining pesquisam automaticamente os mesmos a procura de anomalias e possíveis relacionamentos, identificando assim problemas que não tinham sido identificados pelo usuário. Em outras palavras, as ferramentas de Data Mining analisam os dados, descobrem problemas ou oportunidades escondidas nos relacionamentos dos dados, e então diagnosticam o comportamento dos negócios, requerendo a mínima intervenção do usuário. Assim, ele se dedicará somente a ir em busca do conhecimento e produzir mais vantagens competitivas.

Como podemos ver, as ferramentas de Data Mining, baseadas em algoritmos que forma a construção de blocos de inteligência artificial, redes neurais, regras de indução, e lógica de predicados, somente facilitam e auxiliam o trabalho dos analistas de negócio das empresas, ajudando as mesmas a conseguirem serem mais competitivas e maximizarem seus lucros.

(6)

Principais Técnicas de Data Mining:

O Data Mining (DM) descende fundamentalmente de 3 linhagens. A mais antiga delas é a estatística clássica. Sem a estatística não seria possível termos o DM, visto que a mesma é a base da maioria das tecnologias a partir das quais o DM é construído.

A segunda linhagem do DM é a Inteligência Artificial (IA). Essa disciplina, que é construída a partir dos fundamentos da heurística, em oposto à estatística, tenta imitar a maneira como o homem pensa na resolução dos problemas estatísticos. E a terceira e última linhagem do DM é a chamada machine learning, que pode ser melhor descrita como o casamento entre a estatística e a IA. Enquanto a IA não se transformava em sucesso comercial, suas técnicas foram sendo largamente cooptadas pela machine learning, que foi capaz de se valer das sempre crescentes taxas de preço/performance oferecidas pelos computadores nos anos 80 e 90, conseguindo mais e mais aplicações devido às suas combinações entre heurística e análise estatística.

O DM é um campo que compreende atualmente muitas ramificações importantes. Cada tipo de tecnologia tem suas próprias vantagens e desvantagens, do mesmo modo que nenhuma ferramenta consegue atender todas as necessidades em todas as aplicações

Existem inúmeras ramificações de Data Mining, sendo algumas delas:

Redes neurais: são sistemas computacionais baseados numa aproximação à

computação baseada em ligações. Nós simples (ou "neurões", "neurônios", "processadores" ou "unidades") são interligados para formar uma rede de nós - daí o termo "rede neural". A inspiração original para esta técnica advém do exame das estruturas do cérebro, em particular do exame de neurónios. Exemplos de ferramentas: SPSS Neural Connection, IBM Neural Network Utility, NeuralWare NeuralWork Predict.

Indução de regras: A Indução de Regras, ou Rule Induction, refere-se à detecção

de tendências dentro de grupos de dados, ou de “regras” sobre o dado. As regras são, então, apresentadas aos usuários como uma lista “não encomendada”. Exemplos de ferramentas: IDIS da Information Discovey e Knowledge Seeker da Angoss Software.

Árvores de decisão: baseiam-se numa análise que trabalha testando

automaticamente todos os valores do dado para identificar aqueles que são fortemente associados com os itens de saída selecionados para exame. Os valores que são encontrados com forte associação são os prognósticos chaves ou fatores explicativos, usualmente chamados de regras sobre o dado. Exemplos de ferramentas: Alice d’Isoft, Business Objects BusinessMiner, DataMind.

Analise de séries temporais: A estatística é a mais antiga tecnologia em DM, e é

parte da fundação básica de todas as outras tecnologias. Ela incorpora um envolvimento muito forte do usuário, exigindo engenheiros experientes, para construir modelos que descrevem o comportamento do dado através dos métodos clássicos de matemática. Interpretar os resultados dos modelos requer “expertise” especializada. O uso de técnicas de estatística também requer um trabalho muito forte de máquinas/engenheiros. A análise de séries temporais é um exemplo disso, apesar de freqüentemente ser confundida como um gênero mais simples de DM chamado “forecasting” (previsão). Exemplos de ferramentas: S+, SAS, SPSS.

(7)

Visualização: mapeia o dado sendo minerado de acordo com dimensões

especificadas. Nenhuma análise é executada pelo programa de DM além de manipulação estatística básica. O usuário, então, interpreta o dado enquanto olha para o monitor. O analista pode pesquisar a ferramenta depois para obter diferentes visões ou outras dimensões. Exemplos de ferramentas: IBM Parallel Visual Explorer, SAS System, Advenced Visual Systems (AVS) Express - Visualization Edition.

(8)

Estudo de Caso:

Sabesp investe em Data Warehouse

[10/11/2006 - 11:05] -Visão integrada das informações permite reavaliar procedimentos e

reduzir gastos (http://www.clientesa.com.br - Cases)

Quando a Companhia de Saneamento Básico do Estado de São Paulo, a Sabesp, decidiu implementar um projeto de Data Warehouse com o objetivo de desenvolver uma cultura de autocontrole na empresa, não imaginava que a transformação de dados em informação estratégica fosse tão complexa. Com mais de 17 mil funcionários, faturamento anual na ordem dos R$ 5 bilhões, modelo administrativo descentralizado e capital aberto nas Bolsas de Valores de São Paulo e de Nova York, a Sabesp se deparou com um projeto do tamanho de sua estrutura.

O volume de dados e a complexidade para fazer o rastreamento, o tratamento e o armazenamento das informações, levaram os responsáveis da Sabesp a buscar fornecedores de solução que pudessem atender a um grande número de usuários e efectivamente agregar valor ao negócio por meio de análises comparativas, de performance e de resultados, entre unidades. Com investimentos de aproximadamente R$ 3 milhões aplicados em infra-estrutura, software e consultoria, a Sabesp deu início a uma nova cultura de auto controle das unidades, chamada Avaliação de Controles e Resultados (ACR), apoiada pelo Teradata Data Warehouse.

A partir da base analítica de dados foram desenvolvidas as aplicações que geraram indicadores, gráficos, painéis, quadros de notas, amostras e relatórios que puderam servir de apoio à tomada de decisão nos diferentes níveis organizacionais, fossem eles estratégicos, táticos ou operacionais. A base única proporcionou uma visão global do negócio, e com isso, uma gestão mais integrada com foco nos resultados. Além do Teradata Data Warehouse, foram contemplados no ACR softwares aplicativos para administração do banco de dados e definição de modelos, que geram cruzamentos de informações mais completos, além de consultas concorrentes e cargas de trabalho mistas. A grande vantagem de um ambiente analítico inteligente é que ele permite uma gestão integrada dos negócios ao facilitar a análise de perfis de consumo, de atendimento ao cliente, de pessoal interno, dentre outros.

Gestão integrada - A primeira aplicação do Data Warehouse da Sabesp foi implantada no final de 2005. Uma segunda fase do projeto envolvendo novas aplicações está em desenvolvimento, com previsão de implantação até o final de 2006. Até o momento, a solução está disponível para aproximadamente 500 usuários das áreas Comercial, RH, Suprimentos, Obras e Serviços Operacionais.

Por meio do ACR foi possível o rastreamento de informações de processos críticos que envolvem a região metropolitana de São Paulo e os mais de 300 municípios operados pela Sabesp no interior e no litoral. Na prática, isso significa a busca efetiva por melhores resultados, permitindo à alta administração da Sabesp reconhecer oportunidades de melhoria dos indicadores de rentabilidade e de margem operacional, transformadas em estímulo para que os gerentes do negócio possam conquistar suas metas.

"Com o Data Warehouse conseguimos identificar, por exemplo, variações significativas de consumo de água. O trabalho empreendido a partir deste indicador e das informações comparativas geradas pelo ACR, permitiu calcular um incremento anual R$ 2 milhões na receita da Sabesp", conta o CIO da companhia, Fernando Antonio Menezes.

(9)

Outros Casos:

Uma rede varejista descobriu que a venda de colírios aumentava na véspera dos feriados. (Por quê? Mistério...) Passou a preparar seus estoques e promoções do produto com base nesse cenário.

O Itaú costumava enviar mais de 1 milhão de malas diretas, para todos os correntistas. No máximo 2% deles respondiam às promoções. Hoje, o banco tem armazenada toda a movimentação financeira de seus 3 milhões de clientes nos últimos 18 meses. A análise desses dados permite que cartas sejam enviadas apenas a quem tem maior chance de responder. A taxa de retorno subiu para 30%. A conta do correio foi reduzida a um quinto.

A Sprint, um dos líderes no mercado americano de telefonia de longa distância, desenvolveu, com base no seu armazém de dados, um método capaz de prever com 61% de segurança se um consumidor trocaria de companhia telefônica dentro de um período de dois meses. Com um marketing agressivo, conseguiu evitar a deserção de 120 000 clientes e uma perda de 35 milhões de dólares em faturamento.

Outra empresa de telefonia detectou, ao implantar seu armazém de dados, que quatro grandes clientes empresa-riais eram responsáveis por mais da metade das chamadas de manutenção. Um deles estava prestes a abandonar os serviços. A telefônica fez reparos imediatos, convenceu o cliente a ficar e manteve uma receita anual de 150 milhões de dólares.

O governo de Massachusetts, nos Estados Unidos, compilava informações financeiras imprimindo telas e mais telas de terminais dos computadores de grande porte. Era preciso seis pessoas só para reunir os relatórios necessários ao orçamento anual. Com o armazém de dados, informações atualizadas estão disponíveis on-line para 1 300 usuários. Só em papel, economizam-se 250 000 dólares por ano. Em 1995, pela primeira vez em dez anos, o orçamento estadual foi assinado antes do início do ano fiscal.

O Brasil quer a mesma agilidade. O Serpro, órgão responsável pelo processamento dos dados do governo federal, já investiu 2 milhões no seu projeto de data warehouse, desenvolvido com a Oracle. Só consolidou 5% de suas informações, mas já é possível fazer em cinco minutos cruzamentos de dados que antes demandavam quinze dias de trabalho.

(10)

Conclusão:

Com a realização deste trabalho pudemos desenvolver melhor os conceitos de Data Warehouse e Data Mining, entre outros, e perceber um pouco melhor a realidade do mercado destas tecnologias. Assim percebemos que a crescente disponibilização de informações que tem surgido na medida em que mais e mais organizações utilizam-se das ferramentas de Business Intelligence, esta a provocar também que apareçam novas necessidades de análise das informações disponibilizadas.

Para atender essas novas necessidades, as ferramentas de SAD (Sistemas de Apoio à Decisão) têm sido incrementadas com sofisticadas funções de Data Warehouse, tais como, a analise OLAP, formatações de relatórios cada vez mais flexíveis, visualizações 3D, filtros, classificações, alertas, entre outros. De todas essas sofisticações a OLAP é sem duvida a melhor desenvolvida, na medida em que possibilitas aos usuários estudar os dados de maneira multidimensional, de forma que os mesmos podem “perfurar” os dados até aos seus detalhes (Drill Down), ou ainda ver porções sumariadas desses dados (Slice-and-Dice).

Por sua vez, os sistemas de Data Mining apresentam um sistema alternativo e automático de descobrir padrões nos dados. O DM é extremamente adequado para analisar grupos grandes de dados, visto estes serem grandes demais para serem navegados, ou explorados manualmente, ou ainda porque contêm dados muito densos ou não intuitivos.

Bibliografia:

http://www.datawarehouse.inf.br/ http://www.dwbrasil.com.br/ http://www.relativasol.com.br/noticias.asp?Id=3 http://conteudo.imasters.com.br/1446/datawarehouse.ppt http://pt.wikipedia.org/wiki/Data_warehouse http://pt.wikipedia.org/wiki/Data_mining

Referências

Documentos relacionados

Os empregadores se obrigam ao pagamento de um adicional por tempo de serviço prestado pelo empregado ao mesmo empregador, igual a 5% (cinco por cento), por biênio trabalhado,

a) A remuneração dos empregados com salário fixo será paga em dobro; para os comissionistas puros o cálculo dessa remuneração corresponderá ao pagamento do valor de mais 01

Serão consideradas dispensas ao trabalho, sem prejuízo da remuneração, o atraso ou ausência do empregado quando para acompanhar filho menor de 16 (dezesseis) anos

Aos empregados afastados do serviço por motivo de doença ou acidente do trabalho, a EMPRESA concederá, por um período de até 180 (cento e oitenta) dias, a complementação de

As Empresas pagarão aos seus empregados que tenham filho (a) portador (a) de necessidades especiais derivadas de problemas neurológicos, comprovadamente, bem como àqueles

a) Soluções aquosas de mesma molalidade de I e de IV apresentam praticamente a mesma temperatura de início de solidificação. b) O abaixamento da temperatura de

Análise modal numérica da parte girante da bomba A figura 9 ilustra o modelo para a simulação numérica da parte girante superior da bomba hidráulica (induzido do mo- tor elétrico),

14.00h Mega Sprinter (Meias Finais) Infantis A Femininos 14.10h Mega Sprinter (Meias Finais) Infantis A Masculinos 14.20h Mega Sprinter (Meias Finais) Infantis B Femininos