• Nenhum resultado encontrado

Mendonça compararam os métodos Data Mining para a previsão de demência [51] Foram

no Âmbito da Medicina

A. Mendonça compararam os métodos Data Mining para a previsão de demência [51] Foram

comparados os métodos de classificação tradicionais: Linear Discriminant Analysis, Quadratic

Discriminant Analysis e Logistic Regression, com os classificadores não paramétricos derivados

dos métodos Data Mining: Multilayer Perceptrons Neural Networks, Radial Basis Function Neural

Networks, Support Vector Machine, CART, CHAID and QUEST Classification Trees e Random Forests. Para a comparação destes dez métodos, foram usados os valores da precisão de

classificação, especificidade, sensibilidade, área abaixo da curva ROC e o poder discriminante. As pessoas sobre as quais se realizou o estudo, foram escolhidas a partir de um grupo de 921 idosos não demêncionados, mas que padeciam de querelas cognitivas, os quais foram encaminhados para uma avaliação neuropsicológica. Foram seleccionados quatrocentos pacientes para o estudo, os quais foram classificados como padecendo de demência, por um lado, ou de danos cognitivos leves, por outro, tendo sido divididos num grupo de 125 e noutro de 275, respetivamente.

A fim de ser realizado o diagnóstico da doença, foram usados dez testes neuropsicológicos, avaliando, assim, várias áreas cognitivas. Com vista a prevenir problemas de sobreajustamento e precisão artificial incorreta, os dados foram divididos em cinco amostras, e em cada uma delas, 4/5 dos dados foram usados para o treino e 1/4 para os testes. Após cinco provas, oriundas das cinco amostras de teste, foram então consideradas as comparações.

53

Por um lado, a rede neuronal Multilayer Perceptron foi treinada com 11 entradas, obtidas através dos testes neuropsicológicos supra citados; 1 camada interna com 4-7 neurónios e uma função de ativação hiperbólica. A saída possuía uma função de activação Softmax com

cross-entropy error function. Os pesos da rede neuronal foram obtidos com 80% dos dados para

o treino e 20% para o teste.

Por seu turno, a rede neuronal Radial Basis Function, foi desenvolvida com 11 entradas, similarmente à Multilayer Perceptron, mas com uma camada interna com 2-8 neurónios e uma função de activação Softmax. Já quanto à sua saída, esta teve a identity function com sum of

squares error function. Em ambas as redes neuronais, o número de neurónios na camada interna

foi alterado, iterativamente por software, entre os valores citados, até se obter a minimização do erro.

Quanto aos resultados, para problemas de classificação binários, como é o caso da matéria estudada no presente trabalho, os seguintes métodos: Random Forests e Linear

Discriminant Analysis provaram ter mais alta precisão, sensibilidade, especificidade e poder

discriminante. Pelo contrário, os métodos: Suport Vector Machines, Neural Networks e

Classification Trees, mostraram baixa sensibilidade, pelo que são recomendados para problemas

de classificação onde a classe de interesse é menos representada.

Ainda no mesmo ano, em 2011, foi desenvolvido por D. Yeh, C. Cheng e Y. Chen, um modelo de diagnóstico de doenças cerebrovasculares, com recurso aos métodos Data Mining [52]. Os algoritmos de classificação usados foram os seguintes: Decision Tree, Bayesian Classifier

e Backpropagation Neural Network.

Foram recolhidas 493 amostras válidas da base de dados do programa de prevenção e tratamento da doença cerebrovascular, das quais foram usadas 8 de 10 variáveis de diagnóstico (doenças associadas a doença cerebrovascular), 12 de 30 variáveis de testes de sangue e 9 de 24 variáveis de exames físicos. A existência ou não de doenças foi expressa em “Y” ou “N” (1 ou 0), respectivamente. As variáveis dos testes de sangue foram, por sua vez, expressas em “L” para níveis abaixo do normal, “N” para níveis normais e “H” para níveis acima do normal, de acordo com a tabela 1.

O diagnóstico gerado pelos algoritmos pode conter as seguintes formas: “CD” para identificar apenas a presença de doença cerebrovascular; “BH” para doença cerebrovascular, bem como uma das seguintes doenças: hipertensão, “rheumaticimmuneblood”, “hiperlipidemia”, “stenocardia”, arritmia, astenia cardíaca e infarto do miocárdio; “DM” para diabetes mellitus; e “SM” para a situação de o doente sofrer de dois tipos de doenças cardiovasculares.

Com a finalidade de se lograr uma melhor análise, os dados foram agrupados de três formas, a primeira, T1, que engloba todos os dados; a segunda, T2, apenas as variáveis de diagnóstico e físicas; e a terceira, T3, que junta as variáveis de diagnóstico com as variáveis dos testes de sangue.

54

Na rede neuronal foi usado o método de treino Backpropagation, com número de neurónios definido em 5 e incrementado até 100, procurando atingir a melhor precisão. Quanto ao método de classificação Decision Tree, foi adotado o algoritmo C4.5.

Sensibilidade e precisão foram os indicadores usados para comparar os três métodos de classificação. Com o modo de dados de entrada T1, o que obteve melhores resultados, A Rede Neuronal e Decision Tree obtiveram resultados aproximados. A sua sensibilidade e precisão foram 95.29% e 98.01% em Decision Tree e 94.82% e 97.87% em Rede Neuronal.

Mais recentemente, em 2012, B. Amma (2012) criou um sistema de previsão de doenças cardiovasculares combinando o poder de aprendizagem de uma rede neuronal com as vantagens do algoritmo genético [53]. Para o treino e teste do sistema, foi fornecido pela Universidade da Califórnia uma base de dados cardíaca. Nela estão contidos 303 conjuntos de 14 dados, sendo 13 as entradas para análise e 1 doença a elas associada. Todos os dados passam por um mecanismo de pré-processamento para a limpeza, suavização do ruído e normalização dos mesmos. Por sua vez, os pesos da RNA são calculados recorrendo ao algoritmo genético que, analogamente ao comportamento natural, consegue tirar partido dos valores com mais aptidão para resolver os problemas desejados. Estes valores finais para os pesos são então usados para iniciar o treino da RNA, o qual é realizado com o mecanismo Backpropagation. A RNA criada tem então 13 neurónios na camada de entrada, 7 na camada escondida e 1 apenas na camada de saída, a previsão. Esta concretiza-se num de cinco valores possíveis, que se materializam na isenção, baixa, média, alta e séria possibilidade de doença, atribuídos aos números de 0 a 4, respectivamente.

Os resultados obtidos neste projeto revelaram-se bastante satisfatórios, obtendo uma eficácia de 94,17% na previsão.

4.2. Casos de Estudo aplicados à Doença de Alzheimer

No que concerne especificamente aos trabalhos relacionados com a prevenção da doença de Alzheimer, começaremos por referir o estudo levado a cabo em 2006, por M. Torabi,