Nos primórdios do Data Warehouse, Data Mining era visto como um subconjunto das atividades associadas com o Data Warehouse. Mas atualmente os caminhos do Data Warehouse e do Data Mining estão divergindo. Enquanto o warehouse pode ser uma boa fonte de dados para minerar, o Data Mining foi reconhecido como uma tarefa genuína, e não mais como uma colônia do warehouse [PAR99].
Apesar de o termo Data Mining ter se tornado bastante popular nos últimos anos, existe ainda certa confusão quanto à sua definição. Data Mining (ou mineração de dados) é o processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar decisões cruciais. Data Mining vai muito além da simples consulta a uma banco de dados, no sentido de que permite aos usuários explorar e inferir informação útil a partir dos dados, descobrindo relacionamentos escondidos no banco de dados. Pode ser considerada uma forma de descobrimento de conhecimento em bancos de dados KDD (Knowledge Discovery in Databases), área de pesquisa de bastante evidência no momento, envolvendo Inteligência Artificial e Banco de Dados.
Um ambiente de apoio à tomada de decisões, integrando técnicas de Data Mining sobre um ambiente de Data Warehousing, possibilita um grande número de aplicações, que já vêm sendo implementadas em diversos segmentos de negócios, como manufatura, automação de pedido de remessas, varejo, gerenciamento de inventários, financeiro, análise de risco, transporte, gerenciamento de frotas, telecomunicação, análise de chamadas, saúde, analise de resultados, markenting, estabelecimento do perfil dos consumidores, seguros, detecção de fraude, dentre outros [PIN99].
Data Mining pode ser utilizado com os seguintes objetivos:
• Explanatório: explicar algum evento ou medida observada, tal como porque a venda de sorvetes caiu no Rio de Janeiro;
• Confirmatório: confirmar uma hipótese. Uma companhia de seguros , por exemplo, pode querer examinar os registros de seus clientes para determinar se famílias de duas rendas tem mais probabilidade de adquirir um plano de saúde do que famílias de uma renda;
• Exploratório: analisar os dados buscando relacionamentos novos e não previstos. Uma companhia de cartão de crédito pode analisar seus registros históricos para determinar que fatores estejam associados a pessoas que representam risco para créditos.
Quando determinados padrões de comportamento, como associação de produtos durante um processo de compras, por exemplo, começam a se repetir com freqüência, as ferramentas Data Mining indicam a presença de oportunidades e "insights" em relação àquele público consumidor. O diferencial do Data Mining está no fato de que as descobertas de padrões de consumo se dão por uma lógica de algoritmos com base em uma rede neural de raciocínios. São ferramentas de descobertas matemáticas feitas sobre os registros corporativos já processados contra descobertas empíricas [POL99].
CONCLUSÃO
Para concluir, vale dizer que o desenvolvimento de um Data Warehouse constitui um avanço em relação as metodologias anteriores, pois apresenta uma sistemática mais apropriada baseada na realidade dos sistemas existentes nas empresas. Essa metodologia também valoriza a experiência da equipe no desenvolvimento de sistemas transacionais, pois as fases que a compõem já são largamente utilizadas no desenvolvimento dos mesmos. Também é importante que a metodologia seja suportada por uma ferramenta de desenvolvimento que aumente a produtividade, simplificando e automatizando tarefas complexas no processo de data warehousing. Isto evidencia algumas questões que merecem uma avaliação mais aprofundada. É o caso da metodologia. Considerando diferentes arquiteturas de data warehouse e a exploração detalhada dos níveis conceitual e lógico.
Os processos de extração, filtragem, carga e recuperação dos dados são bastante complexos, exigindo que pessoas altamente capacitadas façam parte do projeto para que os objetivos sejam atingidos no menor espaço de tempo possível e sem gastos de recursos desnecessários.
Como o Data Warehouse não é um sistema ou programa, mas sim um ambiente que necessita ser adaptado as necessidades das empresas é normal que cada ambiente de Data
Warehouse possua características próprias, inviabilizando seu uso para outros objetivos que
não os descritos no início do projeto.
Para a informática o ambiente de Data Warehouse mostrou ser um desafio aos processos que normalmente são utilizados para desenvolver um software. Um dos desafios é conseguir modelar os dados de maneira que todas as informações estejam disponíveis de forma clara e rápida para os usuários que a estão requisitando, outro desafio é disponibilizar as informações sobre os dados (metadados), para que os usuários possam saber quais informações estão disponíveis.
Também pode ser considerado um desafio aos profissionais de informática a melhor maneira de extração dos dados do Data Warehouse, de forma que ele realmente se torne um sistema de apoio a decisão.
As duas maneiras estudadas neste trabalho foram a analise multidimensional através do OLAP e o Data Mining.
OLAP fornece para organizações um método de acessar, visualizar, e analisar dados corporativos com alta flexibilidade e performance. No mundo globalizado de hoje as
empresas estão enfrentando maior concorrência e expandindo sua atuação para novos mercados. Portanto, a velocidade com que executivos obtêm informações e tomam decisões determina a competitividade de uma empresa e seu sucesso de longo prazo. OLAP apresenta informações para usuários via um modelo de dados natural e intuitivo. Através de um simples estilo de navegação e pesquisa, usuários finais podem rapidamente analisar inúmeros cenários, gerar relatórios "ad-hoc", e descobrir tendências e fatos relevantes independente do tamanho, complexidade, e fonte dos dados corporativos. De fato, colocar informação em bancos dados corporativos sempre foi mais fácil do que retirá-los. Quanto maior e complexa a informação armazenada, mais difícil é para retirá-la. A tecnologia OLAP acaba com estas dificuldades levando a informação mais próxima ao usuário que dela necessite. Portanto, o OLAP é freqüentemente utilizado para integrar e disponibilizar informações gerenciais contidas em bases de dados operacionais, sistemas ERP e CRM, sistemas contábeis, e Data Warehouses. Estas características tornaram-no uma tecnologia essencial em diversos tipos de aplicações de suporte à decisão e sistemas para executivos.
Sobre a ferramenta de Data Mining, obviamente, ainda há muito a se falar sobre o assunto (clustering, redes neurais, métodos genéticos, mineração em textos, roll up/drill down. etc), mas é importante notar que em praticamente todos esses casos o que se deseja é descobrir padrões em volumes de dados. É importante ressaltar também que o Data Mining não é o final da atividade de descoberta de conhecimentos, mas é tão somente o início. É imprescindível (ao menos com a tecnologia atual) dispor de analistas capacitados que saibam interagir com os sistemas de forma a conduzí-los para uma extração de padões úteis e relevantes.
A diferença básica entre ferramentas OLAP e Data Mining está na maneira como a exploração dos dados é abordada. Com as ferramentas OLAP a exploração é feita na base da verificação, isto é, o analista conhece a questão, elabora uma hipótese e utiliza a ferramenta para confirmá-la. Com Data Mining, a questão é total ou parcialmente desconhecida e a ferramenta é utilizada para a busca de conhecimento.
Por fim, é importante destacar que este trabalho contribuiu muito para a ampliação dos conhecimentos do autor em relação aos ambientes de suporte a decisão. O que com certeza poderá ser aplicado na sua futura vida profissional.
BIBLIOGRAFIA
[BIS99] BISPO, Carlos Alberto F. & CAZARINI, Edson Walmir. Análises sofisticadas com o On-Line Analytical Processing. Developer’s Magazine, São Paulo, n.32, p.28-31, abril de 1999.
[INM97] INMON, William H.. Como construir o Data Warehouse. 2ª ed. New York: Editora Campus, 1997.
[PER99] PEREIRA, Max Roberto. Data Warehouse: otimizando seu
desempenho.Developer’s Magazine, São Paulo, n.32, p.22-26, abr de 1999.
[PIN99] PINHEIRO, Carlos André Reis. Data Mining: obtendo vantagens com seu Data Warehouse.
[HAISTEN99], M. Real time data warehouse: the next stage in data warehouse evolution, part 1. DM Review, June 1999.