3. Tecnologia de Extracção do Conhecimento à Detecção de Suspeitas de Perdas
3.6. Data Mining: Uma Visão Detalhada
3.6.1. Tarefas de Data Mining
Segundo (Baptista, 2003), para explicar bem as tarefas de Data Mining deveremos realçar primeiro que a indução é um meio de inferência lógica que permite que conclusões gerais sejam obtidas de exemplos particulares. É caracterizada como o raciocínio que parte do específico para o geral. Ainda este autor defende que um argumento indutivo e correcto pode, perfeitamente, admitir uma conclusão falsa, ainda que as suas premissas sejam verdadeiras. Se as premissas de um argumento indutivo são verdadeiras, pode-se considerar que a conclusão é provavelmente verdadeira. Desta forma, esse recurso deve ser utilizado com muito cuidado, dado que se o número de observações for insuficiente ou se
os dados forem mal escolhidos, as hipóteses induzidas podem produzir conclusões falsas. Batista (Baptista, 2003) defende ainda que apesar disso, a inferência indutiva é um dos principais meios de criar novos conhecimentos e prever eventos futuros.
As tarefas de Data Mining podem ser divididas em dois tipos de aprendizagens indutivas (Resende et al, 2003):
• Aprendizagem Supervisionada – Consiste na generalização de exemplos ou experiências passadas com respostas conhecidas ou regras de negócios estabelecidas por especialistas usando uma linguagem capaz de estabelecer a classe de um exemplo. Pode-se dizer ainda que é onde se realizam as inferências nos dados com o intuito de realizar predições, envolvendo o uso de atributos de um conjunto de dados para prever o valor futuro do alvo (target). Este tipo de actividade é direccionado para a tomada de decisões.
• Aprendizagem não supervisionada – Consiste na identificação de comportamentos intrínsecos do conjunto de dados, sendo que estes dados não possuem uma classe especificada, ou seja, onde o tipo de actividades são descritivas e procuram padrões interpretáveis pelos humanos que descrevam os dados. Permitem a descoberta de padrões e novo conhecimento.
A escolha da tarefa é feita de acordo com os objectivos desejáveis para a solução a ser encontrada. As tarefas possíveis de um algoritmo de extracção de padrões podem ser agrupadas em actividades preditivas e descritivas, conforme indicado na figura abaixo.
Esquema 6 - Descrição de DM (Adaptado de Silva, 2004)
A Aprendizagem Supervisionada tem como objectivo identificar a classe a que pertence uma nova amostra de dados, a partir do conhecimento adquirido de um conjunto de amostras com classes previamente conhecidas. Neste tipo de aprendizagem é sempre conhecida a classe dos dados que são utilizados para treino e existe um histórico de dados que permite prever sobre dados futuros. As tarefas preditivas podem ser divididas em classificação e regressão.
Segundo (Rezende et al, 2003), a Classificação prediz valores discretos (classes) e permite determinar o valor de um atributo, através dos valores de um subconjunto dos demais atributos da base de dados. Ainda, tem como objectivo a construção de modelos que possa ser aplicado a dados não classificados, permitindo o agrupamento deles em classes.
Estes modelos são construídos através da análise do conjunto de treino que é retirado aleatoriamente do conjunto de dados. Após essa análise são criadas regras de classificação que são testadas com o conjunto de testes que serve para determinar a precisão das regras
de classificação.
A classificação de dados é utilizada em aplicações de diagnóstico médico, previsão de tendências, determinação de estratégias de marketing, etc., e vem sendo estudada em estatística, machine learning, redes neuronais e sistemas periciais (Weiss e Kulikowski, 1991) e é um importante tema em Data Mining (Fayyad et al.1996).
Por seu lado, a Regressão ou Estimativa tem como objectivo definir um valor numérico de alguma variável desconhecida a partir de valores de variáveis conhecidas utilizando um conjunto de dados históricos como modelo. Han, (Han et al, 2001), diz que a regressão trata principalmente de valores numéricos em detrimento das variáveis categóricas.
(Fayyad, 1996), diz ainda que a regressão é aprender uma função que permite mapear um item de dado para uma variável de predição real estimada.
Na perspectiva de (Silva, 2004), a Aprendizagem não supervisionada o atributo de cada classe amostra de treino não é conhecida e o número ou conjunto de classe a ser treinado pode não ser conhecido à priori. São algoritmos descritivos, pois descrevem de forma concisa os dados disponíveis, fornecendo características das propriedades gerais dos dados submetidos a Data Mining.
Uma vez escolhida a tarefa a ser realizada, existe uma variedade de algoritmos para executá-la. A definição do algoritmo de extracção e a posterior configuração de seus parâmetros também são realizadas nesta etapa. Por isso, a escolha de vários algoritmos para realizar a tarefa desejada pode ser feita, levando à obtenção de diversos modelos que, na etapa posterior ao processamento, são tratados para fornecer o conjunto de padrões mais adequado ao utilizador final.
As actividades descritivas trabalham com conjuntos de dados que não possuem uma classe determinada e têm o objectivo de identificar padrões de comportamento semelhantes nestes dados (Gonçalves et al, 2005). As tarefas descritivas podem ser divididas em regras de associação, clustering ou segmentação e sumarização.
De acordo com (Harrison, 1998), a tarefa de associação consiste em determinar quais factos ou objectos tendem a serem adquiridos juntos em uma mesma transacção. O exemplo clássico é determinar quais produtos costumam ser colocados juntos em um carrinho de supermercado, daí o termo ‘análise de market basket’.
relativamente simples, que não envolve predição da mesma forma que a tarefa de classificação (Freitas, 2000). Os algoritmos para as regras de associação determinam um padrão de relacionamento entre itens de dados.
A segmentação é um processo de partição de uma população heterogénea em vários subgrupos ou clusters mais homogéneos (Harrison, 1998). Na segmentação, não há classes predefinidas, os registos são agrupados de acordo com a semelhança, o que a diferencia da tarefa de classificação.
Exemplos de segmentação: agrupar os clientes por região do país, agrupar clientes com comportamento de compra similar (Goebel e Gruenwald, 1999).
Segundo Fayyad (1996), a tarefa de sumarização envolve métodos para encontrar uma descrição compacta para um subconjunto de dados. Um simples exemplo desta tarefa poderia ser tabular o significado e desvios padrão para todos os itens de dados. Métodos mais sofisticados envolvem a derivação de regras de sumarização.