2.2. Data Mining
2.2.1. Tarefas de Data Mining
As tarefas de DM tal como descrito anteriormente dividem-se em duas categorias distintas, a previsão e a descrição. Neste documento apenas vão estar descritas as tarefas de previsão.
A classificação é a tarefa de DM utilizada mais frequentemente, esta tem como objetivo analisar dados históricos de um conjunto de dados e automaticamente gerar um modelo que consiga prever um comportamento futuro.
Os modelos de classificação têm como objetivo identificar relações recorrentes entre variáveis que são consideradas características de uma única classe. Estas relações estão traduzidas em regras de classificação que podem obter diferentes valores de acordo com o tipo de modelo utilizado (E Turban et al., 2008; Vercellis, 2009).
Num problema de classificação, existe um conjunto de dados que contém observações descritas em vários atributos explicativos e um atributo alvo que tem de ter formato categórico. Os atributos explicativos também conhecidos como variáveis de previsão podem ser categóricos e numéricos. O atributo alvo também é conhecido como classe e as observações podem ser chamadas de instâncias ou exemplos. A variável-alvo tem um número finito de valores. A classificação pode ser binária se o problema envolver apenas duas classes e multi-classe ou multi-categoria se este tiver mais que duas classes.
Dois casos práticos em que a tarefa de classificação poderia ser utilizada são, por exemplo, na tomada de decisão dos bancos, pois, quando estes tentam determinar se o empréstimo a um determinado cliente é considerado ‘arriscado’ ou então ‘seguro’. Outro caso no qual pode ser aplicado é na criação de um modelo para um hospital que ajude um médico a determinar qual tratamento que um específico doente deve receber ‘Tratamento A’, ‘Tratamento B’ ou ‘Tratamento C’ (Han et al., 2012; E Turban et al., 2008). As técnicas de DM mais comuns para elaborar modelos de classificação são, redes neuronais artificiais, árvores de decisão, classificadores de Bayes e algoritmos genéticos (Efraim Turban, 2010).
Nos últimos anos surgiram outras técnicas que têm tido excelentes resultados em problemas de classificação, como é o caso das Support Vector Machine (SVM).
As Redes neuronais são modelos de computação utilizados para o processamento de informações e são particularmente úteis para a identificação de uma relação fundamental entre um conjunto de variáveis ou até mesmo padrões. Elas cresceram a partir da pesquisa em inteligência artificial, mais especificamente tenta imitar a aprendizagem das redes neuronais biológicas, especialmente aquelas em que o cérebro humano pode conter mais neurónios interligados. Embora as redes neuronais artificiais sejam abstrações extremamente simples de sistemas biológicos são bastante limitadas em tamanho, capacidade e poder comparando com as redes neuronais biológicas. As redes artificiais e biológicas compartilham duas características muito importantes, o processamento paralelo de informações e a aprendizagem e generalização da experiência (Maimon, Oded; Rokach, 2010).
42
As árvores de decisão (AD) classificam os dados num número finito de classes que se baseiam no valor das variáveis de entrada. Este método é essencialmente uma hierarquia de instruções “𝑠𝑒 → 𝑒𝑛𝑡ã𝑜” e são significativamente mais rápidos que as redes neuronais. São métodos mais apropriados para identificar dados categóricos e intervalos de dados (E Turban et al., 2008).
São os algoritmos de classificação mais conhecidos e mais utilizados em aplicações de DM. As razões para a sua popularidade estão na sua simplicidade conceitual, a sua facilidade de uso, a velocidade computacional, a robustez em relação à falta de dados e outliers e, acima de tudo, a sua capacidade de interpretar as regras que geram. Para separar as observações pertencentes a diferentes classes, os métodos baseados em árvores obtêm regras simples e explicativas para a relação existente entre a variável-alvo e variáveis de previsão (Vercellis, 2009).Na Figura 12 está um exemplo de uma árvore de decisão.
Figura 12 - Exemplo Árvore de Decisão retirado de (“Genómica Funcional e Bioinformática,” 2012)
Classificação de Bayes é uma técnica estatística, relacionada com a probabilidade condicional, baseada no teorema de Thomas Bayes. É calculada a probabilidade posterior 𝑃 (𝑦|𝑥) que uma determinada observação pertence a uma classe específica de destino, uma vez que a probabilidade anterior 𝑃 (𝑦) e as probabilidades condicionais classe 𝑃 (𝑥|𝑦) são conhecidas. A teoria de Bayes pode ser expressada pela seguinte expressão:
𝑃 (𝑦|𝑥) =𝑃 (𝑥|𝑦)𝑃 (𝑦) 𝑃 (𝑥)
Na qual 𝑃 (𝑦|𝑥)representa a probabilidade à posteriori, 𝑃 (𝑦) a probabilidade à priori, 𝑃 (𝑥|𝑦) a função densidade de probabilidade (a probabilidade da classe 𝑥) e 𝑃 (𝑦|𝑥) a função densidade de probabilidade incondicional (Langley, Iba, & Thompson, 1992)
Support Vector Machine (SVM) é um algoritmo de aprendizagem que visa resolver problemas de classificação de duas classes. A máquina conceitualmente coloca em prática a seguinte ideia. Os vetores de entrada são mapeados para um espaço de características de elevada dimensão de uma forma não linear e, neste espaço, é construída uma decisão, garantindo as características especiais deste espaço e tendo uma grande e generalizada capacidade de aprendizagem da máquina. Inicialmente este algoritmo foi desenvolvido especificamente para os casos onde os dados do conjunto de treino podiam ser separados sem erros mas, posteriormente, este objetivo foi alargado de modo a incluir dados dos conjuntos de treino que não estejam separados (Cortes & Vapnik, 1995). O SVM coloca todos os casos possíveis distribuídos no espaço tentando depois encontrar a separação ótima entre valores.
Lazy Learners (LL) ao contrário das técnicas de classificação descritas até agora utilizam um conjunto de dados de treino para aprender a classificar um novo registo. Assim, quando são submetidas a um novo registo elas já estão preparadas, ou seja, já aprenderam. Existe, no entanto, uma outra categoria de métodos, que somente realizam essa aprendizagem quando é solicitada a classificação de um novo registo. Neste caso, a aprendizagem é considerada tardia (Lazy Learning). Apesar de precisar de um tempo menor para efetuar a fase de treino, estes métodos são muito dispendiosos computacionalmente, pois necessitam de técnicas que armazenem e recuperem os dados de treino. Por outro lado, estes métodos permitem uma aprendizagem superior (W. Aha, 1997).
Os conjuntos Fuzzy foram propostos por Lotfi Zadeh (Zadeh, 1965), a ideia dos conjuntos Fuzzy é de em vez de se realizar um corte direto, as variáveis sejam caracterizadas e agrupadas em categorias e que a lógica Fuzzy seja aplicada para definição dos limites destas categorias. Com isso, ao contrário de se ter as categorias com limites de corte bem definidos, tem-se um certo grau de flexibilidade entre as categorias.