Resultados após variar o threshold - REDES CEREBRAIS DE PACIENTES COM DESORDEM DO ESPECTRO AUTI

REDES CEREBRAIS DE PACIENTES COM DESORDEM DO ESPECTRO AUTISTA

7.4.1 Resultados após variar o threshold

Os resultados obtidos após variar o threshold se encontram na tabela 22. Da tabela, percebe-se que os resultados da predição foram inferiores aos obtidos pela esquizofrenia, assim como critério para a próxima etapa, utilizou-se um valor de acurácia superior a 0.6 e de AUC superior a 0.6. A tabela23 contém os melhores desempenhos obtidos para cada classificador e o threshold correspondente a esse desempenho. Assim os classificadores considerados serão: árvore de decisão; combinação k-NN e árvore de decisão; combinação entre k-NN, redes neurais e árvore de decisão; combinação entre k-NN, naive bayes e redes neurais. E o threshold escolhido foi o de 0.6, uma vez que foi esse que mais aumentou o desempenho dos classificadores.

7.4.2 Resultados após seleção

Assim aos classificadores selecionados anteriormente foram submetidos aos processos de seleção: por ordem de importância, remoção de características redundantes e RFE.

Primeiramente utilizou-se o processo de remoção de características por importância, a tabela24contém as medidas e sua respectiva importância obtida, percebe-se que menores foram o pageRank e a assortatividade; assim primeiramente foi excluída a assortatividade, seguida pela medida pageRank. Os resultados após esse processo de seleção se encontram na tabela25.

Tabela 24 – Tabela contendo as medidas e sua respectiva importância. Em rosa destacou-se aquelas que obtiveram a menor medida medida de importância.

Medidas Importâncias

Complexidade 0.60

segundo momento da distribuição de grau 0.60

grau médio 0.59

média dos menores caminhos 0.56

diâmetro 0.55

transitividade 0.55

eigenvector centrality 0.55

closeness centrality 0.54

betweenness centrality 0.53

coeficiente de aglomeração médio 0.52

dominancia.central 0.51

pageRank 0.51

assortatividade 0.51

Da tabela 25, percebe-se que a seleção só aumentou a performance do classificador combinação de classificadores k-NN, redes neurais e árvore de decisão; sendo que para o restante dos classificadores esse processo de seleção contribuiu para a piora de seus desempenhos.

7.4. Resultados 113

Tabela 22 – Tabela contendo os desempenhos de cada cada classificador ao se variar o threshold.

Threshold Acurácia Kappa(Ac.) Sensitividade Especificidade AUC 0.3 0.48 -0.08 0.61 0.23 0.47 0.4 0.55 0.047 0.69 0.28 0.44 0.5 0.47 -0.07 0.71 0.31 0.49 k-NN 0.6 0.47 -0.07 0.61 0.17 0.39 0.3 0.58 0.13 0.74 0.43 0.52 0.4 0.54 0 1 0 0.50 0.5 0.55 0.03 0.98 0.03 0.49 Naive Bayes 0.6 0.5 0.09 1 0.09 0.55 0.3 0.64 0.25 0.90 0.43 0.66 0.4 0.58 0.12 0.82 0.44 0.62 0.5 0.63 0.21 0.96 0.23 0.5925 Árvore de decisão 0.6 0.66 0.29 0.88 0.38 0.66 0.3 0.56 0.06 0.73 0.36 0.55 0.4 0.54 0.03 0.69 0.41 0.54 0.5 0.63 0.23 0.63 0.38 0.52 Redes neurais 0.6 0.59 0.14 0.77 0.25 0.57 0.3 0.55 0.1 0.86 0.22 0.53 0.4 0.56 0.11 0.71 0.44 0.66 0.5 0.56 0.11 0.71 0.44 0.66 k-NN e RN 0.6 0.61 0.20 0.86 0.33 0.54 0.3 0.66 0.29 0.65 0.19 0.52 0.4 0.59 0.15 0.78 0.35 0.63 0.5 0.50 -0.08 0.69 0.28 0.54 k-NN e AD 0.6 0.64 0.23 0.90 0.35 0.69 0.3 0.54 0.05 0.81 0 0.25 0.4 0.65 0.28 0.76 0.31 0.57 0.5 0.59 0.12 0.81 0.23 0.59 k-NN e NB 0.6 0.54 0.05 0.92 0.13 0.51 0.3 0.65 0.28 0.83 0.04 0.33 0.4 0.58 0.14 0.75 0.49 0.57 0.5 0.53 -0.01 0.77 0.46 0.60 AD e RN 0.6 0.63 0.22 0.74 0.39 0.52 0.3 0.61 0.20 0.74 0.47 0.60 0.4 0.50 -0.06 0.72 0.55 0.54 0.5 0.52 -0.02 0.90 0.12 0.47 AD e NB 0.6 0.65 0.25 0.92 0.32 0.56 0.3 0.60 0.17 0.74 0.48 0.60 0.4 0.56 0.06 0.92 0 0.46 0.5 0.53 -0.01 0.86 0.16 0.46 NB e RN 0.6 0.57 0.09 0.88 0.26 0.62 0.3 0.53 0.02 0.71 0.41 0.61 0.4 0.61 0.19 0.78 0.22 0.46 0.5 0.59 0.18 0.80 0.34 0.66 k-NN, RN e NB 0.6 0.57 0.08 0.8 0.35 0.64 0.3 0.55 0.08 0.76 0.49 0.60 0.4 0.60 0.16 0.69 0.22 0.51 0.5 0.54 0.05 0.77 0.42 0.67 k-NN,RN e AD 0.6 0.62 0.20 0.93 0.34 0.63 0.3 0.59 0.16 0.75 0.45 0.65 0.4 0.60 0.18 0.76 0.45 0.69 0.5 0.59 0.14 0.73 0.48 0.60 NB , RN e AD 0.6 0.59 0.15 0.75 0.41 0.64 0.3 0.65 0.28 0.75 0.55 0.69 0.4 0.60 0.17 0.74 0.43 0.67 0.5 0.60 0.17 0.80 0.48 0.63 k-NN, NB e AD 0.6 0.59 0.13 0.74 0.45 0.63 0.3 0.67 0.31 0.65 0.43 0.54 0.4 0.63 0.24 0.70 0.32 0.46 0.5 0.59 0.13 0.81 0.26 0.58 k-NN, RN, AD e NB 0.6 0.58 0.13 0.76 0.46 0.63

114 Capítulo 7. Redes cerebrais de pacientes com desordem do espectro autista

Tabela 23 – Tabela contendo as melhores perfomances para cada classificador. Em vermelho está des- tacado aqueles que possuem acurácia e AUC superior a 0.6; e em negrito o threshold que resultou na maioria do aumento de performance .

Melhor theshold Acurácia Kappa(Ac.) Sensitividade Especificidade AUC

k-NN 0.4 0.57 0.05 0.69 0.28 0.44 Naive Bayes 0.3 0.58 0.13 0.74 0.43 0.54 Árvore de decisão 0.6 0.67 0.30 0.98 0.26 0.62 Redes neurais 0.5 0.63 0.23 0.63 0.38 0.52 k-NN e RN 0.6 0.62 0.20 0.90 0.33 0.54 k-NN e AD 0.6 0.64 0.23 0.90 0.35 0.69 k-NN e NB 0.4 0.65 0.29 0.76 0.31 0.57 AD e RN 0.6 0.63 0.22 0.74 0.39 0.52 AD e NB 0.6 0.65 0.25 0.92 0.32 0.56 NB e RN 0.6 0.57 0.09 0.88 0.26 0.63 k-NN,RN e NB 0.5 0.60 0.18 0.80 0.34 0.66 k-NN,RN e AD 0.6 0.62 0.20 0.92 0.34 0.63 NB , RN e AD 0.3 0.59 0.16 0.75 0.45 0.65 k-NN,NB e AD 0.3 0.65 0.28 0.75 0.55 0.69 k-NN,RN, AD e NB 0.3 0.67 0.31 0.65 0.43 0.54

Tabela 25 – Tabela contendo os resultados obtidos após o processo de seleção por importância extraindo- se primeiramente a assortatividade, seguida pela medida pageRank. Em negrito, destacou-se os processos de seleção que mais aumentaram o desempenho de cada um dos classificadores.

Acurácia Kappa(Ac.) Sensitividade Especificidade AUC com todas as medidas 0.67 0.30 0.98 0.26 0.62 sem assortatividade 0.68 0.23 0.96 0.30 0.63 Árvore de decisão sem assortatividade e pageRank 0.67 0.28 0.87 0.34 0.63 com todas as medidas 0.64 0.23 0.90 0.35 0.69 sem assortatividade 0.67 0.28 0.95 0.32 0.58 k-NN e AD sem assortatividade e pageRank 0.67 0.29 0.94 0.33 0.61 com todas as medidas 0.62 0.20 0.93 0.34 0.63 sem assortatividade 0.61 0.18 0.90 0.37 0.71 k-NN, RN e AD sem assortatividade e pageRank 0.61 0.17 0.88 0.38 0.71 com todas as medidas 0.6522222 0.28 0.75 0.55 0.69 sem assortatividade 0.62 0.19 0.82 0.31 0.57 k-NN, NB e RN sem assortatividade e pageRank 0.59 0.14 0.84 0.35 0.55

Tabela 26 – Tabela contendo os resultados obtidos após submeter os classificadores ao processo de remoção de características com redundância superior a 70%. Percebe-se que esse processo de seleção não aumentou o desempenho de nenhum dos classificadores.

Acurácia Kappa(Ac.) Sensitividade Especificidade AUC com todas as medidas 0.67 0.30 0.98 0.26 0.62 Árvore de decisão remoção de características

redundantes 0.65 0.25 0.89 0.32 0.61 com todas as medidas 0.63 0.23 0.90 0.35 0.69 k-NN e AD remoção de características

redundantes 0.64 0.23 0.73 0.48 0.63 com todas as medidas 0.62 0.20 0.93 0.34 0.63 k-NN, RN e AD remoção de características

redundantes 0.57 0.11 0.90 0.28 0.46 com todas as medidas 0.65 0.28 0.75 0.56 0.69 k-NN, NB e RN remoção de características

redundantes 0.61 0.19 0.73 0.12 0.38

Em seguida, realizou-se a remoção de atributos redundantes, eliminando-se aqueles com correlação superior a 70%, os resultados se encontram na tabela26. Percebe-se desta tabela que esse processo de seleção não contribuiu para aumentar a performance de nenhum dos classificadores.

7.5. Normalização 115

anteriormente, esse tipo de seleção é configurado para explorar todos os grupos de atributos possíveis. O grupo que obteve o menor erro foi o que continha nove variáveis, sendo elas: segundo momento da distribuição de grau, complexidade, grau.médio, assortatividade, diâmetro, coeficiente de aglomeração médio, média dos menores caminhos, closeness centrality, pageRank. Dessa forma, utilizaram-se essas nove medidas para realizar a predição com os classificadores anteriores. Os resultados se encontram na tabela27.

Tabela 27 – Tabela contendo os resultados obtidos após o processo de seleção RFE.

Acurácia Kappa(Ac.) Sensitividade Especificidade AUC com todas as medidas 0.67 0.30 0.98 0.27 0.63 Árvore de decisão RFE 0.68 0.33 0.95 0.33 0.64 com todas as medidas 0.64 0.23 0.90 0.35 0.69 k-NN e AD RFE 0.65 0.25 0.94 0.31 0.56 com todas as medidas 0.62 0.20 0.93 0.34 0.63 k-NN, RN e AD RFE 0.65 0.25 0.79 0.30 0.59 com todas as medidas 0.65 0.28 0.75 0.56 0.69 k-NN, NB e RN RFE 0.61 0.16 0.90 0.32 0.45

Da tabela 27, percebe-se que o processo de seleção RFE aumentou a performance somente do algoritmo árvore de decisão. Os melhores desempenhos serão utilizados na próxima etapa de normalização da seção seguinte.

7.5 Normalização

Após o processo de seleção foram realizadas as duas normalizações: z-score e softmax scaling(elas foram escolhidas por terem sido as únicas que contribuíram para o aumento do desempenho dos classificadores na base relacionada a esquizofrenia), cujos resultados se encontram na tabela28. Percebe-se que somente o z-score aumentou a performance do classificador árvore de decisão, sendo que para todos os outros classificadores o desempenho piorou com o uso das normalizações. A tabela29contém o resumo dos melhores desempenhos obtidos e os processos que contribuíram para isso.

Tabela 28 – Tabela contendo os resultados após realizar os processos de normalização. Em negrito, destacou-se as melhores performance obtidas, e com as cores laranja e rosa, os resultados obtidos, respectivamente, para as normalizações softmax scaling e z-score.

Processo de seleção Normalização Acurácia Kappa(Ac.) Sensitividade Especificidade AUC sem normalização 0.68 0.33 0.94 0.33 0.64 softmax scaling 0.67 0.29 0.94 0.39 0.66 Árvore de decisão RFE z-score 0.68 0.34 0.96 0.37 0.67 sem normalização 0.64 0.23 0.90 0.35 0.69 softmax scaling 0.58 0.12 0.86 0.29 0.61 k-NN e AD sem seleção z-score 0.63 0.22 0.79 0.37 0.68 sem normalização 0.61 0.81 0.90 0.37 0.70 softmax scaling 0.59 0.16 0.66 0.39 0.57 k-NN, RN e AD

seleção por ordem de importância sem assortatividade

z-score 0.59 0.14 0.64 0.53 0.65 sem normalização 0.65 0.28 0.75 0.56 0.69 softmax scaling 0.61 0.21 0.69 0.37 0.51 k-NN, NB e RN sem seleção z-score 0.62 0.21 0.64 0.45 0.56

116 Capítulo 7. Redes cerebrais de pacientes com desordem do espectro autista

Tabela 29 – Tabela contendo o resumo dos desempenhos obtidos pelos classificadores em questão e os processos que contribuíram para isso.

Processo de Seleção Processo de normalização Acurácia Kappa(Ac.) Sensitividade Especificidade AUC Árvore de decisão RFE z-score 0.68 0.34 0.96 0.38 0.67 k-NN e AD sem seleção sem normalização 0.64 0.23 0.90 0.35 0.69 k-NN, RN e AD

seleção por ordem de importância sem assortatividade

sem normalização 0.61 0.81 0.90 0.37 0.70 k-NN, NB e AD sem seleção sem normalização 0.65 0.28 0.75 0.56 0.69

7.6 Conclusão

A tabela 29 contém o resumo dos resultados obtidos nesta seção, em que pode ser observado que o maior desempenho obtido foi para o classificador obtido da combinação k-NN, RN e AD, que apesar de ter resultado na menor acurácia, obteve as outras maiores medidas. Quanto à normalização, somente a z-score contribui para o aumento da acurácia para o classificador árvore de decisão; e, ao método de seleção, somente o RFE e seleção por ordem de importância que contribuíram, respectivamente, para o aumento da performance dos classificadores: árvore de decisão e aquele obtido da combinação dos classificadores k-NN, RN e AD.

A sensitividade que mede a taxa de verdadeiro positivo que se refere às amostras da classe ASD, ou seja, aquelas que apresentam a doença, foi superior à taxa especificidade. Sendo a maior sensitividade obtida foi de 0.96 pela árvore de decisão.

Em relação à literatura, em (PETROV et al.,2016), utilizando a mesma base e modelo de validação (validação cruzada) do presente trabalho, porém considerando diferentes medidas de rede (Coeficiente de aglomeração com peso, Coeficiente de aglomeração médio normalizado,comprimento de caminho característico, comprimento de característica normalizado, modularidade, e coeficiente de mundo pequeno) e classificadores (regressão logística, Máquina de vetores de suporte com kernel linear, Random forest, e árvore de decisão com a técnica boosting), a maior AUC obtida foi de 0.77 (pelo classificador Máquina de vetores de suporte), e a pior 0.57 (pela árvore de decisão com a técnica boosting). Comparando, apesar dos classificadores serem diferentes, a maior AUC obtida (0.71) é bem próxima à do artigo e pelo fato de ter sido utilizado outras medidas, torna o modelo obtido mais confiável. Em outro artigo (ZHUKOV; PETROV; DODONOVA,2015), também foi utilizada a mesma base e várias medidas de rede (grau médio, knn médio, closennes centrality, betweenness centrality, eigenvector centrality, coeficiente de aglomeração com peso, número de triângulo ao redor do nó, densidade de rede, coeficiente de assortatividade, tamanho máximo de clique, transitividade e diâmetro) classificadas pela máquina de vetores de suporte, e foram obtidos os seguintes desempenhos: 0.64 de acurácia, 0.61 de precisão e 0.88 de revocação (também denominada de sensitividade). Apesar dos classificadores serem diferentes, a árvore de decisão obteve uma acurácia e sensitividade superior ao do artigo em questão.

117

CAPÍTULO

8

REDES CEREBRAIS DE PACIENTES COM

No documento Diagnóstico de doenças mentais baseado em mineração de dados e redes complexas (páginas 114-119)