3 DATA WAREHOUSE E DATA MINING
3.3 DATA MINING
3.3.8 Reutilização das amostras
Diretamente relacionada à política de armazenagem e temporalidade dos dados está a reutilização das amostras para novas análises. Ao fazer uso de sistemas analíticos, Matheus et al. (1993) afirma que a armazenagem e a reutilização das descobertas até então feitas sobre os dados são importantes para que tais sistemas aprendam com as experiências realizadas.
No tocante ao uso do exploration warehouse para armazenagem, quatro tipos diferentes dele exemplificam as possíveis abordagens aplicadas à reutilização da amostra de exploração:
- estáticos e temporários; - estáticos e permanentes; - dinâmicos e temporários; - dinâmicos e permanentes.
Estático ou dinâmico refere-se à freqüência de atualização do exploration warehouse. Temporário ou permanente diz respeito ao período de tempo em que a estrutura será utilizada.
EWs estáticos e temporários bem como EWs dinâmicos e permanentes são os mais encontrados na prática.
Observa-se ainda que a correta e clara documentação sobre o exploration warehouse e seu conteúdo são imprescindíveis para que se possa reutilizá-lo seguramente em novos processos de análise.
3.3.9 Data Mining e o reconhecimento de padrões
O próprio conceito de Mineração de Dados regularmente se confunde e se mistura com a atividade de descoberta de padrões (GORODETSKY, 2003). Porém, a relação entre as áreas é a de uma intersecção em que nenhum dos dois domínios de aplicação, métodos e características abrange o outro. De acordo com Duda (1973):
O reconhecimento de padrões é um campo que se preocupa com o reconhecimento por máquina de regularidades significativas em ambientes com ruído ou complexos.
O autor ainda afirma que não há uma teoria simples de reconhecimento de padrão que consiga abranger todos os tópicos importantes devido à singularidade de cada domínio de aplicação.
Conforme Schalkoff (1992), o PR caracteriza-se como um processo de redução, mapeamento ou rotulação da informação. Este autor destaca a diferença entre o conceito de característica (feature) e padrão (pattern): padrão pode ser simplesmente um conjunto de medidas ou observações representadas em vetores ou matrizes; já característica é qualquer medida de extração utilizada.
Existem três abordagens principais para o reconhecimento de padrões:
1) estatística (ou teórica de decisão); 2) sintática (ou estrutural); e
Do mesmo modo como o DM é uma área multidisciplinar, as técnicas de PR relacionam-se com outras áreas de conhecimento (DUDA, 1973), entre as quais estão os sistemas de processamento de sinais (adaptativos), a inteligência artificial, a modelagem neural, a teoria da comunicação, os conjuntos difusos, a psicologia, a teoria de autômatos, a teoria de controle e as linguagens formais (lingüística).
Mas alguns pontos essenciais distinguem essas duas áreas de conhecimento, e a principal diferença está nos conceitos de descobrir e reconhecer. Basicamente o PR não descobre padrões, apenas os reconhece, isto é, identifica padrões já conhecidos, sendo uma de suas maiores aplicações a Classificação (DUDA, 1973). Enquanto isso, a mineração de dados, nesse contexto, interessa-se somente pela descoberta de novos padrões e por sua validação. Em PR, os padrões já estão validados.
Indo mais além, verifica-se que a área de reconhecimento de padrões possui a capacidade de extrair características de um objeto, transformá-las em dados e classificar o objeto segundo padrões já conhecidos (por exemplo, identificação de impressões digitais e análise de texturas). A atividade de mineração obrigatoriamente parte do princípio da existência de dados, deixando para as tarefas de KDD (anteriores a ela) toda a extração e preparação desses dados. Além disso, o DM executa a busca orientando-a a um foco de forma a considerar o interesse da análise, ou seja, nem todo padrão encontrado constitui-se em conhecimento não óbvio ou útil.
Como afirmado por Matheus et al. (1993), a combinação de novos domínios de conhecimento e técnicas empíricas deverá se tornar cada vez mais importante para o processo de reconhecimento de padrões em DM, visto que as pessoas estarão buscando descobrir não somente qual o padrão mas também o porquê de sua ocorrência entre os dados.
Para que o processo seja efetivo, algumas condições básicas devem ser seguidas conforme Inmon et al. (2001), tais como o nível de detalhe adequado e as diversas ocorrências das variáveis múltiplas e com dados que possuam certa homogeneidade.
3.3.9.1 Relação entre as variáveis e a análise de correlação
Determinar a relação existente entre as variáveis (campos valorados) de um conjunto de informações é importante para que se possa definir a causalidade dos padrões encontrados, além de definir a força com que essas variáveis agem sobre o comportamento da outra.
Inmon et al. (2001) ressaltam a necessidade de se observarem a força da relação encontrada, sua natureza e a inter-relação entre os fatores causais, identificando três tipos de relação possível entre as variáveis:
1) relação causal direta: é a mais forte, mais simples e mais rara de ser encontrada; 2) relação indireta: também chamada correlativa, é a mais comum, porém pode ser
complexa;
3) relação randômica: relação em que não há um padrão de comportamento identificável entre as variáveis.
A medida de correlação estatística irá ajudar a definir a força das relações existentes no conjunto de informações, permitindo descartar variáveis que não estão envolvidas com o ponto de interesse focalizado pelo analista ou fazendo-o perceber pontos anteriormente tidos como irrelevantes do ambiente de dados.
3.3.9.2 Análise de tendência
Considerando que os dois principais objetivos de DM são a descrição e a predição (COLLARD et al., 2001), a análise de tendência torna-se uma das tarefas mais comumente encontradas no processo de mineração.
A análise de tendência não é necessariamente feita sobre um eixo temporal. Qualquer intervalo de valores de uma variável, devidamente valorada para todos os dados da análise, permite gerar uma função matemática que demonstra o comportamento aproximado da informação ao longo dessa variável (por exemplo, análise do índice de carregamento de potência pela quantidade de consumidores ligados àquele circuito elétrico em que o número de consumidores está em uma escala que varia de 10 até 100).