• Nenhum resultado encontrado

Datamining e Datawarehouse

No documento GestãodaTecnologiadaInformação (páginas 119-165)

DATAMINING E DATAWAREHOUSE

Aqui você aprenderá a identifi car relações de consumo utilizando o Datamining, um sistema de mineração de dados que ajuda a ampliar as vendas e oportunidades de negócios em uma em- presa.

Você encontrará alguns exemplos de como aplicá-lo nos diversos segmentos de negócios como empresas de vendas de produtos e de serviço, de que forma utilizá-lo na Internet e também as principais diferenças entre o Datamining e o CRM. No último tópico deste módulo você acompa- nhará um case para conhecer passo-a-passo como consolidar dados de diferentes áreas utilizan- do o Datawarehouse.

6.1 - A Empresa e suas Informações

6.2 - Minerando os Dados e Descobrindo Relações de Consumo 6.3 - Alguns Exemplos de Utilização

6.4 - Recomendações para a Implementação 6.5 - Datamining e a Internet

6.6 - A Diferença entre Datamining e CRM

MÓDULO 6

DATAMINING E DATAWAREHOUSE

6.1 - A EMPRESA E SUAS INFORMAÇÕES

Muitas vezes uma empresa passa por difi culdades e nem sequer imagina que a solução para os seus problemas pode estar em seus próprios bancos de dados. É que, com o passar do tempo, esses sistemas vão acumulando uma série de dados que podem revelar informações valiosas e que eram desconhecidas. O Datamining é, literalmente, um processo de mineração de dados. Os bancos de dados da empresa são vasculhados e analisados em busca de informações que, embora sempre estivessem lá, não eram conhecidas. Isso é feito utilizando softwares específi cos, usualmente adquiridos de fornecedores ou de- senvolvedores.

Você saberia dizer que tipo de informação o Datamining disponibiliza para as empresas?

Exemplo

Uma determinada loja de roupas vende modelos mais clássicos de calças, jaquetas de couro, camisetas e também alguns acessórios como cintos e emblemas. Alguns desses emblemas, não mais do que 15 modelos diferentes, eram de uma tradicional marca de motocicletas. As vendas dos emblemas não eram nada signifi cativas e davam pouco retorno. Além disso, havia uma certa difi culdade em importá-los, o que desestimulava ainda mais a sua comercialização. Pensando nisso e procurando concentrar a venda em itens mais rentáveis, a administração da loja resol- veu não comercializar mais os emblemas. Pouco tempo depois, verifi cou-se que as vendas de determinados itens, como jaquetas de couro e camisetas, caíram. Eram modelos mais clássicos e alguns deles mais caros. A administração da loja acreditou que o interesse por esses modelos estava realmente diminuindo. A seqüência lógica seria cancelar a compra de modelos mais clás- sicos que, apesar de rentáveis, não despertavam mais tanto interesse.

Apenas com base nas informações fornecidas no exemplo da loja de roupas, você saberia dizer por que as vendas dos itens disponíveis na loja estavam caindo?

A resposta é que a interrupção nas vendas dos emblemas da famosa marca de motocicletas pode ter sido um dos fatores que contribuíram para a queda nas vendas dos outros produtos da loja.

Em situações como essa, devemos considerar todas as informações disponíveis, mesmo que elas não façam tanto sentido de início.

Após algum tempo, a gerente da loja teve a oportunidade de conversar um pouco mais com um cliente antigo, o qual reclamava da falta dos emblemas daquele tradicional fabricante de motocicletas. Ele fazia

parte de um grupo de veteranos motociclistas, muitos dos quais empresários ou profi ssionais liberais, que eram afi cionados por aquela marca. Esse consumidor argumentou que muitos de seus amigos freqüen- tavam aquela loja apenas por causa dos emblemas, pois sabiam que eles eram realmente originais. Com isso, eles acabavam comprando outros itens, muitos dos quais mais caros.

Resumidamente, as pessoas compravam um emblema para fi xá-lo em uma jaqueta e depois aprovei- tavam e compravam a jaqueta que combinava com aquele acessório.

Parece um desfecho inusitado? Não, isso acontece todos os dias, embora muitas empresas não per- cebam. Como saber que um determinado item pode alavancar a venda de uma série de outros produtos? Às vezes é necessário um certo feeling, mas isso também pode estar contido nos bancos de dados da empresa, embora muitas delas não percebam isso.

Agora fi cou mais fácil entender por que comparamos o Datamining com um processo de mineração / garimpagem de informações.

Às vezes nos deparamos com uma área rochosa e nada damos por ela, mas não sabemos que nela podem estar ocultos elementos preciosos, que só serão descobertos se explorarmos o terreno minucio- samente.

6.2 - MINERANDO OS DADOS E DESCOBRINDO RELAÇÕES DE CONSUMO

Em uma loja ou em um supermercado, por exemplo, quando um cupom fi scal é emitido ele apresenta algumas relações de consumo interessantes. Partindo de um exemplo que é razoavelmente óbvio, pode- mos ampliar sua abrangência e conseguir descobrir outras “novidades”.

Quando uma pessoa vai ao supermercado e compra pizza congelada, existe uma grande possibilidade de que ela compre alguma bebida, como refrigerante ou cerveja, e também aproveite a oportunidade para levar alguma sobremesa, como sorvete ou tortas doces. Descobrir qual é a pizza mais vendida não é difícil, basta verifi car os pedidos nos últimos meses. Da mesma forma com o refrigerante, a cerveja e o sorvete.

A partir dessas informações, poderíamos acreditar que a maioria das pessoas compra uma determina- da marca e tipo de pizza e, conseqüentemente, compra a marca de refrigerante ou cerveja mais vendida. Parece existir uma relação óbvia entre esses dois produtos: a pizza mais vendida é acompanhada da bebida mais vendida. Pode ser que isso também não seja verdade, afi nal, as pessoas compram bebidas pelos mais diversos motivos, sendo que a associação com pizzas é apenas um deles.

Em resumo, o que queremos explicar é que os pontos de venda, como os supermercados, mantêm determinados produtos em exposição para atrair consumidores que poderão se interessar por outros itens. Esse tipo de informação está disponível através da análise dos diversos cupons fi scais emitidos. Embora não seja possível conhecer os consumidores (nomes, endereços etc.), é possível verifi car o que cada um deles consome. A partir daí, é possível estabelecer relações de consumo muito úteis para o planejamento da empresa.

Para estabelecer essas relações de consumo é necessário, literalmente, minerar os dados. Para isso, existem sistemas comerciais que analisam todos os dados disponíveis nos bancos de dados em busca de informações realmente interessantes.

As etapas envolvidas no processo de Datamining são:

1ª etapa do processo – Histórico de compras (por meio de notas ou cupons fi cais emitidos) e histórico de pedidos.

Etapa intermediária – Datamining: Pesquisa, análise e extração de informações a partir de um conjunto volumoso de dados.

Resultado do processo – Padrões de comportamento de consumidores e relações de consu- mo.

Como podemos observar, os sistemas de mineração de dados pesquisam, analisam e extraem infor- mações a partir de um conjunto volumoso de dados (históricos de compra e de pedidos). Com isso, eles identifi cam padrões de comportamento de consumidores e relações de consumo.

6.3 - ALGUNS EXEMPLOS DE UTILIZAÇÃO

Vimos que o Datamining pode ser muito útil no conhecimento de relações ou padrões de consumo co- laborando de maneira importante no planejamento de uma empresa. Além de determinar se é conveniente ou não a manutenção de determinado produto nos pontos de venda, a mineração de dados pode colaborar com o layout de lojas e supermercados.

Exemplo

Ao verifi car que existe uma relação clara e forte de consumo entre pizzas, refrigerantes e sor- vetes, o layout de um supermercado pode colocar esses produtos em locais próximos. Dessa forma, quando a pessoa for comprar pizza e refrigerante, ela passará em frente aos freezers com sorvetes. Mesmo que inicialmente ela não tenha pensado na sobremesa, ela provavelmente vai ter o impulso de adquirir o sorvete ao passar próximo a eles, uma vez que existe uma forte relação de consumo entre os produtos.

Situação Recomendada

Os produtos que possuem forte relação de consumo podem ser colocados um próximo ao outro. Dessa forma, a pessoa entra com o carrinho para comprar pizza. Próximo ao freezer com as pizzas, ela encontra os refrigerantes e também o sorvete. Ela lembra que tem de levar os dois produtos e vai para o caixa com três itens ao invés de comprar apenas a pizza.

Situação Não Recomendada

Neste caso, a pessoa entra no supermercado apenas para comprar pizza. Dirige-se ao setor es- pecífi co e em nenhum momento passa próximo ao setor de refrigerantes ou sorvetes. Com isso, caso ela não se lembre de comprar esses itens, ela não será lembrada pelo supermercado. Ela entrou para comprar um único produto e saiu apenas com ele.

Exemplo Utilização do Datamining

Um outro exemplo de aplicação do Datamining é no planejamento de rotas aéreas. Uma compa- nhia pode constatar que existe uma forte associação entre determinadas rotas, mostrando que muitos passageiros acabam fazendo conexões em uma determinada cidade em busca de um vôo

especifi co para outra localidade. Por exemplo: antigamente, quando não havia grande oferta de vôos diretos entre São Paulo e Porto Seguro, na Bahia, muitas pessoas pegavam a ponte aérea até o Rio de Janeiro e de lá pegavam outro vôo até Porto Seguro. Com a mineração de dados, seria possível quantifi car os passageiros interessados em vôos saindo de São Paulo com destino a Porto Seguro, ajudando na análise da viabilidade econômica desse tipo de rota.

Operadoras de planos ou seguros-saúde podem benefi ciar-se muito com a análise feita pelo Data- mining. É sabido que determinadas doenças apresentam uma incidência muito maior em determinadas faixas etárias. Por exemplo: catapora afeta preferencialmente crianças, ao passo que doenças do coração afetam com maior freqüência pessoas mais velhas. Entretanto, os novos hábitos de vida e alimentação das pessoas têm feito com que determinadas doenças apareçam em jovens com maior freqüência do que antes. Porém, nem sempre essas tendências se manifestam claramente, até o momento em que elas começam a repercutir nos custos da empresa. Sendo assim, é muito importante agir preventivamente e procurar identifi car tendências em relação a doenças em determinadas faixas etárias. Dessa forma, campanhas e exames preventivos poderão ser feitos para que as pessoas evitem determinadas doenças como, por exemplo, obesidade infantil ou hipertensão em adolescentes, reduzindo os custos das opera- doras de planos ou seguro-saúde.

Atualmente, a grande maioria das faculdades é informatizada, mantendo um completo histórico sobre seus alunos. Assim, utilizando o Datamining, é possível verifi car qual a região de origem de seus alunos ou se houve mudanças ao longo dos anos. Com isso, é possível direcionar as campanhas de captação de alunos nas regiões ou em escolas de onde vem a maioria dos alunos. Similarmente, é possível detectar os setores em que a maioria dos alunos trabalha. Isso poderá ajudar nos trabalhos de colocação profi ssional dos alunos em busca de estágios ou vagas efetivas.

Resumidamente:

O Datamining contribui com o planejamento e criação de estratégias mercadológicas de uma empresa.

O Datamining é utilizado, sobretudo, para identifi car relações de consumo.

As informações obtidas nas análises realizadas pelo Datamining ajudam a verifi car a viabilida- de econômica de possíveis alterações em produtos e/ou serviços de uma empresa.

O Datamining pode colaborar para identifi car novas tendências de consumo e modifi cações nos hábitos dos consumidores.

6.4 - RECOMENDAÇÕES PARA A IMPLEMENTAÇÃO

Geralmente, quando uma empresa decide utilizar o Datamining, ela é motivada por algum problema com relação aos seus resultados. Neste caso é preciso saber qual o nível de conhecimento sobre o problema. Existem três possibilidades básicas em relação ao conhecimento do(s) problema(s). Ele pode ser bem conhecido, pode ser pouco conhecido, ou ele pode ser muito pouco conhecido ou completamente desconhecido.

Bem conhecido: Neste item a causa do problema é de total conhecimento da empresa. Por exemplo: sabe-se que houve uma redução das vendas devido à descontinuidade de um produto específi co.

Pouco conhecido: Neste caso o nível de conhecimento sobre o problema é menor. Por exem- plo: sabe-se que houve uma redução do número de clientes, possivelmente devido a mudanças ocorridas nas formas de fi nanciamento.

Muito pouco conhecido ou completamente desconhecido: Neste caso o nível de conheci-

mento da empresa em relação ao problema é mínimo ou é inexistente. Por exemplo: a causa do problema está diretamente ligada a relações específi cas de consumo.

Após ter identifi cado que nível de conhecimento se possui em relação ao problema, é preciso defi nir o que será efetuado para resolvê-lo. É aqui que entra o Plano de Ação.

Problema Bem Conhecido: No caso de um problema bem conhecido, será efetuada a modela- gem de dados, a qual possibilitará conhecer a extensão do problema e das variáveis envolvidas.

Por exemplo: um supermercado sabe que há uma forte relação de consumo entre pizzas/massas e certos tipos de bebidas ou sobremesas. O conhecimento sobre esse fato poderá ser ampliado através do Datamining, com a obtenção de informações adicionais, como se existe relação entre marcas específi cas (os compradores da pizza de marca X preferem os refrigerantes da marca Y, por exemplo).

Modelagem de dados: No processo de Datamining, a modelagem de dados envolve o processo

de escolha, separação e utilização apenas dos dados necessários à obtenção das informações ou relações desejadas. Por exemplo: se uma empresa sabe da existência de uma relação de consumo entre dois produtos, num primeiro momento poderá não ser importante envolver a va- riável tempo (quando esses produtos são adquiridos). Na modelagem de dados, serão utilizados apenas aqueles dados necessários à verifi cação da relação conhecida apenas para distinguir maiores detalhes sobre a mesma. Uma vez caracterizada a relação de consumo entre dois pro- dutos, poderá ser realizado um refi namento desse levantamento, verifi cando se outras variáveis infl uenciam essa relação.

Problema Pouco Conhecido: No caso de um problema pouco conhecido, será feito um teste de hipótese a fi m de verifi car se as suposições efetuadas acerca do mesmo são reais ou factíveis.

Por exemplo: um plano de saúde acredita que esteja havendo crescimento de determinadas do- enças em certas faixas etárias. Entretanto, a real dimensão desse crescimento (ou se de fato ele realmente existe) é desconhecida. Através de um processo de mineração de dados, é possível testar essa hipótese, verifi cando se essa suposição é verdadeira ou não.

Teste de hipótese: Quando uma relação é suposta, é formulada uma hipótese como, por exem-

plo, os passageiros que vão para determinadas regiões acabam fazendo novas conexões para cidades específi cas. Quando o processo de dataming é realizado, ele é orientado para o teste de hipóteses existentes, direcionando o trabalho de mineração de dados. Enquanto a modelagem trabalha com relações conhecidas (mas que precisam ser mais bem detalhadas ou caracteriza- das), o teste de hipótese trabalha com relações supostas sobre as quais paira um relativo grau de incerteza sobre sua existência ou não.

Muito Pouco Conhecido ou Completamente Desconhecido: No caso de um problema muito

pouco conhecido ou completamente desconhecido será efetuada a descoberta não supervisio-

nada de conhecimento. Por exemplo: uma companhia aérea desejava cancelar vôos de linhas

pouco rentáveis, concentrando esforços naquelas rotas mais procuradas. Entretanto, temia-se que existisse uma relação de consumo em que as linhas menos rentáveis abastecessem de passageiros as linhas mais procuradas. Para orientar esse processo de reformulação, ela reali- zou um processo de Datamining para conhecer as relações de consumo existentes entre suas diversas rotas.

Descoberta não supervisionada de conhecimento: Quando relações não são conhecidas ou

supostas, é necessário fazer um trabalho mais amplo de mineração dos dados, evitando um di- recionamento que possa excluir relações existentes. Por isso o termo “não supervisionada”, uma vez que o processo é executado de maneira mais ampla. Posteriormente, tendo sido verifi cadas algumas possíveis relações, o trabalho poderá ser refi nado através do teste de hipótese. Adicio- nalmente após esse primeiro levantamento, se algumas relações fi carem evidentes, elas poderão ser melhor caracterizadas com uma modelagem de dados.

Agora que você já conhece algumas premissas de como iniciar a utilização do Datamining, vamos partir para uma parte mais prática. Para a correta aplicação e efi ciente utilização do sistema é preciso seguir algumas recomendações durante sua implantação. São elas:

1. Escolha da técnica e das ferramentas: essa etapa requer a presença de um especialista no

processo de mineração de dados, o qual poderá deliberar sobre o uso de técnicas como estima- ção, classifi cação ou previsão e ferramentas, como redes neurais artifi ciais, árvore de decisão ou algoritmos genéricos.

2. Fase operacional de preparo dos dados: para efetuar a mineração de dados é necessário

verifi car os dados necessários e aqueles disponíveis. Isso permitirá estabelecer uma estratégia para obter os dados que eventualmente estejam ausentes ou descartar aqueles desnecessários, considerando que nem todos os campos disponíveis em um banco de dados são de real inte- resse. Ao selecionar os dados que merecerão atenção, a mineração será agilizada. Em seguida,

é necessário consolidar alguns dados e promover a complementação necessária. Nessa etapa, dados incompletos ou mesmo inconsistentes serão analisados e complementados ou então des- cartados, eliminando os ruídos que eles possam causar. Entretanto, é necessária especial aten- ção, pois nos procedimentos de enriquecimento existe sempre o risco de que, ao tentar recuperar ou completar informações, seja introduzido um viés que comprometa a analise efetuada. Uma alternativa é determinar que apenas as informações completas sejam consideradas na mineração dos dados.

3. Codifi cação: consiste em simplifi car um conjunto de dados facilitando o seu processamento

e aumentando o potencial de aproveitamento dos resultados. Embora seja uma atividade que poderia ser considerada parte da preparação de dados, a codifi cação envolve um pré-processa- mento que tem como objetivo facilitar o Datamining propriamente dito.

Normalmente, um banco de dados grava a data de nascimento das pessoas e não a sua idade. É claro que, com a data, é possível verifi car qual a idade atual de uma pessoa, mas o inverso não ocorre (a partir da idade, não conheceremos a data de nascimento). Porém, quando analisamos consumidores, nos interessa agrupar as pessoas em faixas etárias e não pela data de nascimen- to.

Nesse caso, é necessário um pré-processamento para que as datas de nascimento sejam trans- formadas em faixas etárias. Caso contrário, os resultados apresentados poderão ter um excessi- vo grau de detalhe que impedirá o seu bom aproveitamento. Além da idade, a defi nição de faixas pode ocorrer com outros tipos de dados, como a renda ou gastos.

4. Realização do Datamining: agora será efetuada a mineração de dados propriamente dita,

procurando descobrir relações ou testar hipóteses.

5. Resultado: aqui descobrimos relações matemáticas de um problema bem conhecido ou temos

a confi rmação de hipóteses formuladas anteriormente ou a descoberta de relações antes sequer suspeitadas. Os resultados podem ser apresentados de diversas maneiras, desde listagens de conjunto de dados até diagramas e gráfi cos.

6. Avaliação dos Resultados: com as informações da etapa Resultados, podemos partir para o

item Avaliação dos Resultados. Aqui é feita a análise dos resultados obtidos, descarte daque- las consideradas pouco promissoras e verifi cação da viabilidade prática (ou forma de utilização) dos resultados mais factíveis. Essa análise é efetuada por pessoas e não por computadores ou algoritmos. É sempre importante considerar que, em diversos casos, existe a necessidade de um reprocessamento dos dados, fazendo uma espécie de tuning (ajuste). Por exemplo: as faixas etárias ou de renda anteriormente defi nidas podem não ter sido sufi cientes para mapear determi- nadas tendências ou, então, podem ter gerado um detalhamento excessivo. Dados que estavam ausentes e foram complementados podem ter gerado ruído, prejudicando os resultados fi nais.

No documento GestãodaTecnologiadaInformação (páginas 119-165)

Documentos relacionados