4.4 Descoberta do Conhecimento
4.4.2 Métodos de Data Mining
O conceito deData Mining, como mencionado na secção2.4, envolve uma grande variedade de técnicas/métodos capazes de analisar um grande número de variáveis e complexidades [73]. Estes procedimentos estão organizados em diferentes categorias para metodizar distintos problemas de DM, que visam
38 CAPÍTULO 4. TECNOLOGIAS E METODOLOGIAS a previsão ou descrição de conhecimento. Nos estudos deste projeto, que en- volvem a descoberta de conhecimento, são aplicadas técnicas de classicação e de clustering, descritas de seguida.
Técnicas de Classicação
A classicação, ou aprendizagem supervisionada, refere-se à construção de modelos para prever valores discretos, dado um conjunto de dados distri- buídos em categorias ou classes. Um problema de classicação envolve deter- minar se dado objeto representa, ou não, um determinado comportamento, tendo em conta um conjunto de indicadores/atributos. Assim, o modelo de aprendizagem é induzido para classicar o novo objeto numa categoria. Num problema de regressão, a previsão é feita para valores reais, e não para clas- ses, permitindo alcançar uma estimativa do resultado [73,123]. De seguida são apresentados os métodos de classicação de DM utilizados no projeto.
• Árvores de Decisão (AD): a sua função de aprendizagem processa as características de um registo e aproxima a sua variável target (de res- posta) a valores discretos, podendo ser representada por um conjunto de regras "Se-Então". Uma AD apresenta-se com três tipos de nodos: a raiz, os nodos internos e as folhas (nodos das extremidades). A raiz e os nodos internos contêm as condições para testar atributos e separar os registos com diferentes características. As folhas estão associadas com a classe atribuída ao registo, onde termina a iteração [124,125]; • Naïve Bayes (NB): uma abordagem bayesiana compreende associações
complexas entre atributos, negligenciadas por outras técnicas de clas- sicação. Este método é facilmente construído, possuí uma grande eciência computacional e é capaz de iterar sobre grandes conjuntos de dados. A sua estrutura estatística classica padrões em classes, baseada em probabilidades [126,127];
• Modelos Lineares Generalizados (MLG): este método proporciona uma estrutura geral capaz de simplicar a implementação de modelos es- tatísticos comuns. Consideram-se três componentes: um componente
4.4. DESCOBERTA DO CONHECIMENTO 39 aleatório, que especíca a distribuição condicional da variável de res- posta, um agente de previsão linear que consista numa função linear de regressão, e uma função regular de linearização para transformar e classicar a variável de resposta [128];
• Support Vector Machines (SVM): considerado um método robusto e preciso, a técnica SVM é insensível ao número de dimensões e requer poucos registos no conjunto de treino para produzir modelos válidos. Esta técnica exerce o mapeamento de dados não lineares de forma a transformar o conjunto de dados em dimensões superiores, para procu- rar o plano ótimo de separação linear dos registos, criando uma barreira de decisão. Esta margem é encontrada a partir de vetores de suporte e das suas margens [129];
• Redes Neuronais Articiais (RNA): são conhecidas por replicar as capa- cidades de processamento de informação do sistema nervoso humano, como organização, aprendizagem, generalização e tolerância a erros. Depois de devidamente treinadas, as RNAs são capazes de encontrar soluções razoáveis para problemas similares através da associação e ge- neralização dos dados. UmaRNAé constituída por unidades de proces- samento simples, os neurónios, e pelas conexões, diretas e balanceadas, entre estas estruturas, que consistem nos componentes e variáveis dos registos. A informação é transferida entre os neuróneos, através das conexões.
A escolha destas técnicas foi baseada na interoperabilidade dos modelos, na eciência do motor onde os estudos foram conduzidos e na adequação destes métodos em relação às características dos dados introduzidos. Além disso, na indústria, e em particular no sector da saúde, a utilização destes al- goritmos tem sido vastamente aplicada, provando a sua viabilidade na criação de bons modelos de previsão para resolver problemas de negócio [78].
40 CAPÍTULO 4. TECNOLOGIAS E METODOLOGIAS Técnicas de Clustering
Clustering reune um conjunto de métodos não supervisionados que ca- tegorizam padrões através da criação de grupos: clusters. Esta técnica de DM é adequada a grandes conjuntos de dados e atributos, e é capaz de or- ganizar objetos que estão relacionados entre si, ou possuem características semelhantes. Esta organização pode ser hierárquica, compartilhada, baseada em densidades, no modelo ou na rede de clusters, dependendo do algoritmo utilizado [130]. As técnicas de clustering induzidas neste projeto foram:
• K-Means: constituí a técnica de clustering mais utilizada em aplica- ções cientícas e industriais, viável numa perspetiva geométrica e esta- tística para variáveis numéricas. A função objetivo utiliza a soma das distâncias entre elementos de um conjunto de pontos e uma função de distâncias para expressar os seus centroídes;
• Expectation-Maximization (EM): processo iterativo de otimização ba- seado em densidades, que encontra a estimativa máxima mais provável dos parâmetros para a sua média e desvio padrão de cada grupo. Pri- meiramente estima as probabilidades, seguindo-se da aproximação a um modelo, dado as suas atribuições [131];
• Farthest First (FF): é modelado a partir de uma abordagem simples de K-Means, que aproxima os pontos de forma rápida e simplicada [132]. Para a resolução deste projeto foram selecionados estes algoritmos de Clustering tendo por base a sua disponibilidade nas tecnologias utilizadas, descritas na seguinte secção, e por constituírem escolhas comuns para agrupar e categorizar conjuntos de características em propósitos clínicos [133].