4 Tecnologias e Normas Utilizadas
4.4 Data Mining
4.4.1 Tarefas de Data Mining
A utilização de técnicas de data mining começa pela definição de quais os resultados que se pretendem obter. Uma vez definidos os objetivos pode escolher-se qual ou quais os
ADAPT – Plataforma Adaptativa de Ensino à Distância
algoritmos a utilizar para a aquisição do conhecimento que se procura. Nesta secção são descritas as tarefas de Segmentação (Clustering), Classificação e Sumarização.
4.4.1.1 Segmentação (Clustering)
As tarefas de segmentação também conhecidas como clustering, são processos que consistem na divisão de uma população heterogénea em vários subgrupos ou clusters mais homogéneos (Klosgen e Zytkow, 1996). Um cluster é um conjunto de exemplos com características semelhantes entre si e diferentes dos restantes conjuntos.
As tarefas de clustering procuram semelhanças e diferenças num conjunto de dados e agrupam os dados semelhantes em segmentos ou clusters, de acordo com algum critério ou métrica. Os segmentos obtidos nesta técnica de aprendizagem correspondem a padrões escondidos numa grande quantidade de dados (Berkhin, 2002).
Nas tarefas de segmentação não é necessário definir os conjuntos nem os atributos que devem ser utilizados para segmentar o conjunto de dados. No processo de clustering o algoritmo parte de dados não catalogados, ou seja, não utiliza dados de treino previamente classificados (Xu e Wunsch, 2005). Por esta razão, as técnicas de clustering constituem um método não supervisionado.
A segmentação é útil em situações como: tomadas de decisão, situações de machine learning e análise e exploração de padrões em conjunto de dados com conteúdo desconhecido (Jain, et al., 1999).
4.4.1.2 Classificação
As tarefas de classificação são consideradas métodos de aprendizagem supervisionada onde é construído um modelo (classificador) com recurso a um conjunto de dados de treino (training set) que possui exemplos previamente classificados e que permitem classificar novos exemplos que façam parte de um outro conjunto de dados.
A aprendizagem de um classificador ocorre na fase de treino. Os dados de treino são o conjunto de dados que servem de exemplo sendo utilizados no processo de aprendizagem, em que é necessário proceder ao ajuste de vários parâmetros (Ripley, 1996).
Um classificador pode ser um conjunto de regras, uma árvore de decisão ou uma rede neuronal. Ao aplicar o classificador obtido em novos exemplos, está-se a classificar e a prever qual a classe a que corresponde um novo exemplo.
ADAPT – Plataforma Adaptativa de Ensino à Distância
82
Durante o processo de classificação podem ocorrer falhas que têm como consequência a não atribuição da classe correta a todos os exemplos. Este problema, faz com que seja importante estudar o erro do classificador que determina a probabilidade com que um dado exemplo é mal classificado.
Para determinar a quantidade de erros e assim avaliar a confiabilidade nos modelos gerados são utilizados vários indicadores:
Taxa de erro = n.° de erros / total;
Validação Cruzada: Divide os dados (treino/teste) em n partições e calcula o erro médio; Matriz de Confusão: Separa os diversos tipos de erro: Falso Positivo (o classificador prevê
que é de uma classe e não é) e Falso Negativo (o classificador não deteta que o exemplo é de uma determinada classe).
Um método comum de avaliação consiste em dividir o conjunto de dados em dois conjuntos: um conjunto de dados de treino (training set) para treinar o classificador e um conjunto de dados de teste (test set), utilizado para estimar a taxa de erro. O conjunto de dados de teste é independente do conjunto de dados de treino, mas segue a mesma distribuição de probabilidade. Se um modelo for simultaneamente ajustado ao conjunto de dados de treino e ao conjunto de dados de teste, significa que o sobre ajuste (overfit) foi mínimo. Um melhor ajuste do conjunto de dados de treino em relação ao conjunto de dados de teste geralmente significa um overfit elevado. Quando um classificador induzido sobre ajusta o conjunto de treino, significa que o modelo fica mais adaptado às instâncias utilizadas na sua indução do que aquelas que vão ser classificadas futuramente. Esta taxa de erro é conhecida como erro aparente também conhecido como erro de generalização. Deste modo, um classificador deve ser avaliado tendo em conta o seu desempenho (capacidade de generalização) naqueles exemplos que não foram utilizados na sua construção.
A Figura 23 ilustra um conjunto de dados de treino e um conjunto de dados de teste da mesma população representados através de pontos azuis. Dois modelos preditivos são ajustados ao conjunto de dados de treino. Ambos os modelos ajustados são ilustrados nos conjuntos de treino e teste. No conjunto de treino, o ajuste representado pela curva laranja possuí um Erro Quadrático Médio (EQM) = 4 enquanto o ajuste representado pela curva verde possui um EQM = 9. No conjunto de dados de teste, o ajuste representado pela curva laranja possui um EQM = 15 enquanto o ajuste representado pela curva verde possui um EQM = 13. O modelo preditivo representado pela curva laranja possui um overfit considerável nos dados de treino, uma vez
ADAPT – Plataforma Adaptativa de Ensino à Distância
que o seu EQM aumenta aproximadamente quatro vezes ao comparar-se o conjunto de teste com o conjunto de treino. O modelo preditivo representado pela curva verde possui um overfit consideravelmente menor nos dados de treino, dado o seu EQM possuir um aumento duas vezes menor.
Figura 23 - Exemplo de conjunto de dados de treino (training set) e conjunto de dados de teste (test set) (Training, test, and validation sets, 2018).
Existem vários tipos de algoritmos de classificação, sendo alguns dos mais utilizados, as Árvores de Decisão, Naive Bayes, Regras, Redes Neuronais Artificiais (RNA) e Máquinas de Suporte Vetorial (Support Vector Machines - SVM).
Podem ser considerados como exemplos de tarefas de classificação: a classificação de um pedido de crédito como sendo de baixo, médio e alto risco ou tarefas de diagnóstico.
4.4.1.3 Sumarização
Segundo (Fayyad et al., 1996), as tarefas de sumarização envolvem métodos para encontrar uma descrição compacta para um subconjunto de dados. A Sumarização é constituída por duas etapas: caracterização de dados e discriminação dos dados.
A Caracterização de dados, consiste em efetuar uma sumarização das propriedades gerais dos objetos existentes numa determinada classe, e desta forma produzir regras de caracterização. Os dados relevantes para a criação de uma classe são normalmente disponibilizados através de uma consulta a uma base de dados e processados por um módulo de sumarização que efetua a extração dos dados em diferentes níveis de abstração. Como possível exemplo, pode considerar-se a identificação de clientes que regularmente compram mais de 20 livros por ano numa livraria.
ADAPT – Plataforma Adaptativa de Ensino à Distância
84
A Discriminação de dados produz regras de discriminação e pode ser definida como uma comparação de propriedades gerais de objetos entre duas classes. Por exemplo, pode comparar-se as características gerais de consumidores que compraram mais de 20 livros no ano passado com aqueles cujas compras não ultrapassaram as 5 unidades. As técnicas utilizadas no processo de discriminação são semelhantes às técnicas de caracterização com a diferença de que os resultados obtidos na discriminação incluem medidas comparativas.
Segundo (Han e Kamper, 2000), as técnicas de data mining podem também ser aplicadas a tarefas como análise de exceções (deteção de outliers), ou seja, dados que não podem ser agrupados numa classe predefinida, e também a análises de evolução, que dizem respeito ao estudo de padrões sequenciais.
A análise de exceções lida com dados que não podem ser agrupados numa classe predefinida e efetua uma análise de dados que podem ser descartados em certas situações, permitindo aumentar a eficiência, como podem também revelar informações importantes sobre um dado domínio. Esta técnica é utilizada em eventos que ocorrem com pouca frequência como por exemplo, a deteção de fraudes onde é possível detetar a utilização indevida de cartões de crédito ao descobrir clientes que efetuaram compras com um valor muito elevado, fora de seu padrão habitual de gastos.
A análise de evolução dedica-se ao estudo de dados que se alteram ao longo do tempo e efetua a representação de tendências utilizando processos de caracterização, comparação, classificação ou agrupamento de dados relacionados entre si. Como exemplo, pode considerar-se a evolução do estoque em empresas que necessitem decidir regularmente sobre a sua ampliação em função da regularidade das vendas, e assim melhorar a distribuição dos seus produtos.