4. Objectivos e Abordagens em Data Mining
4.2. Diferentes objectivos em Data Mining
Como foi atrás referido, a escolha do algoritmo de DM a aplicar depende do tipo de objectivo do mesmo. Genericamente e segundo Fayyad et al., 1996, podem distinguir-se dois objectivos principais no Data mining:
1) Verificação - que consiste apenas na verificação da hipótese do utilizador;
2) Descoberta – que consiste na procura de novos padrões, que se subdivide em:
a. Previsão – procura de padrões que permitam prever o futuro;
b. Descrição – procura de padrões que apresentem o conhecimento de forma compreensível.
4.2.1. Previsão
A previsão envolve a utilização de algumas variáveis ou campos de uma base de dados, no sentido de prever valores desconhecidos ou valores para outras variáveis de interesse. O principal objectivo do Data Mining Preditivo consiste em automatizar o processo de tomada de decisão, criando um modelo capaz de estimar ou prever um determinado valor. Por norma, os resultados do modelo são utilizados directamente nos dados, tornando a accuracy do modelo como a medida de desempenho mais importante para a sua avaliação.
80 Para estudos com o objectivo de previsão, os problemas são tratados como pertencentes a uma das seguintes classes:
1) Classificação – encontrar uma função que faça o mapeamento dos dados em classes pré-definidas (e.g. diagnóstico de uma doença a partir de um conjunto de sintomas; ou detecção de abandono de um cliente perante uma série de variáveis descritivas do seu comportamento;
2) Regressão – encontrar uma função desconhecida cuja saída tem um domínio de valores reais (e.g. previsão do valor das acções da bolsa).
4.2.1.1. Classificação
Trata-se de um dos tipos de problema mais frequente em DM e consiste basicamente na análise das características de um objecto através de um classificador, que classifica o objecto num número de possíveis categorias, definidas a priori pelo analista. Uma vez que as classes ou categorias estão previamente definidas, o objectivo do processo é a aprendizagem de uma função que faça o mapeamento de um novo elemento numa das várias classes, tendo em conta o seu “comportamento” ou seja, os valores que esse mesmo elemento tem nas variáveis explicativas.
O processo de classificação é supervisionado, o que implica ser necessária que a especificação de características com os respectivos valores para cada classe ou categoria, quer proporcionar ao sistema um conjunto de dados preparado (em que existam instâncias pertencentes a diferentes categorias), permitindo assim ao sistema aprender, generalizar e classificar novos padrões.
Algumas das técnicas de aplicação comum em problemas de classificação são as árvores de decisão, a indução de regras, e as redes neuronais artificiais.
4.2.1.2. Regressão
A regressão, que é frequentemente intitulada de previsão, tem como objectivo encontrar uma função de mapeamento, entre um conjunto de variáveis independentes (de entrada), e uma variável dependente (de saída) que é do tipo numérico. Normalmente, a regressão
81 é utilizada quando se pretende prever o comportamento de uma determinada variável.
Os algoritmos que mais se aplicam nesta abordagem são a regressão múltipla, as árvores de decisão, as redes neuronais artificiais, e as máquinas de vectores de suporte.
4.2.2. Descrição
Pode dizer-se sumariamente que o objectivo primário do Data Mining Descritivo consiste em aumentar o conhecimento e a compreensão sobre os dados, na medida em que foca a procura de padrões descritivos reconhecidos ou interpretáveis pelo ser humano. Ao contrário do DM Preditivo, os resultados obtidos nem sempre se traduzem em acções de aplicação directa. As novas perspectivas e o conhecimento adquirido sobre os dados durante a construção do modelo, são o aspecto mais importante do processo.
Para este objectivo de descrição há vários métodos, tais como:
1) Segmentação (clustering) - procura de um número finito de conjuntos (clusters) que descrevam os dados;
2) Sumariação – procura de uma descrição compacta de um conjunto ou subconjunto de dados;
3) Associação ou Análise de Dependências – procura de um modelo que descreva as relações entre as variáveis;
4) Detecção de desvios – descoberta de alterações significativas nos dados.
5) Visualização – possibilitar a representação gráfica dos resultados finais ou intermédios.
4.2.2.1. Segmentação (Clustering)
A segmentação consiste na identificação de um conjunto finito de categorias ou clusters usados para descrição dos dados de acordo com uma métrica, segundo a qual se procura maximizar as semelhanças e minimizar as diferenças dos clusters entre si.
82 Neste tipo de modelos, a aprendizagem é não supervisionada, ao que corresponde na prática, à inexistência de qual a informação inicial no sistema, assumindo-se portanto que este aprende por si mesmo. Nesta técnica, a pesquisa é realizada sobre os dados tendo em conta todas as características dos mesmos.
Ao contrário do que acontece na classificação, não existe um conjunto predefinido de categorias nos dados. Estas são descobertas em função da análise dos dados e da sua natureza. Esta técnica permite o agrupamento de dados em diferentes clusters, sobre os quais se poderão realizar estudos mediante o recurso a técnicas estatísticas, a árvores de decisão ou a redes neuronais. Como exemplos de técnicas que podem ser aplicadas tem-se o algoritmo K-means e as redes neuronais do tipo Kohonen.
4.2.2.2. Sumariação
O objectivo da sumariação consiste em determinar uma descrição compacta para um subconjunto de dados através da aplicação de métodos próprios. Os métodos de sumariação mais sofisticados derivam de regras de resumo e descobertas de relações funcionais entre variáveis, sendo sempre aplicadas à análise exploratória de dados e à geração automática de relatórios.
4.2.2.3. Associação ou Análise de Dependências
A Análise de Dependências é a tarefa responsável por encontrar um modelo que descreva dependências significativas entre as variáveis. Normalmente esta abordagem é utilizada em dados transaccionais. Identificam-se atributos que estão directa ou indirectamente relacionados, ou seja, são utilizadas regras que permitam identificar essas relações. Esta técnica é muito na análise de compras (basket analysis), e um dos algoritmos mais utilizado é o apriori.
4.2.2.4. Visualização
A visualização possibilita a representação gráfica dos resultados (finais ou intermédios) de DM recorrendo a formas visuais facilmente perceptíveis. O objectivo da visualização
83 consiste em descrever as informações complexas através de diagramas, permitindo uma melhor representação de padrões e tendências. Quanto melhor for a descrição de um conjunto de dados, maior é a possibilidade de o entender e de compreender o domínio em que está inserido.