• Nenhum resultado encontrado

Descoberta de biomarcadores em neuroimagem associados à doença de Alzheimer

N/A
N/A
Protected

Academic year: 2021

Share "Descoberta de biomarcadores em neuroimagem associados à doença de Alzheimer"

Copied!
93
0
0

Texto

(1)

Universidade Estadual de Campinas Instituto de Computação

INSTITUTO DE COMPUTAÇÃO

Alexandre Yukio Yamashita

Descoberta de biomarcadores em neuroimagem

associados à doença de Alzheimer

CAMPINAS

2017

(2)

Descoberta de biomarcadores em neuroimagem associados à

doença de Alzheimer

Dissertação apresentada ao Instituto de Computação da Universidade Estadual de Campinas como parte dos requisitos para a obtenção do título de Mestre em Ciência da Computação.

Orientador: Prof. Dr. Alexandre Xavier Falcão Coorientador: Prof. Dr. Neucimar Jerônimo Leite

Este exemplar corresponde à versão final da Dissertação defendida por Alexandre Yukio Yamashita e orientada pelo Prof. Dr. Alexandre Xavier Falcão.

CAMPINAS

2017

(3)

Agência(s) de fomento e nº(s) de processo(s): Não se aplica.

Ficha catalográfica

Universidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação Científica Ana Regina Machado - CRB 8/5467

Yamashita, Alexandre Yukio,

Y14d YamDescoberta de biomarcadores em neuroimagem associados à doença de Alzheimer / Alexandre Yukio Yamashita. – Campinas, SP : [s.n.], 2017.

YamOrientador: Alexandre Xavier Falcão. YamCoorientador: Neucimar Jerônimo Leite.

YamDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de Computação.

Yam1. Análise de imagem. 2. Neuroimagem. 3. Aprendizado de máquina. 4. Alzheimer, Doença de. 5. Biomarcadores. I. Falcão, Alexandre Xavier,1966-. II. Leite, Neucimar Jerônimo,1961-. III. Universidade Estadual de Campinas. Instituto de Computação. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: Discovery of biomarkers in neuroimaging associated with the

Alzheimer's disease Palavras-chave em inglês: Image analysis Neuroimaging Machine learning Alzheimer's disease Biomarkers

Área de concentração: Ciência da Computação Titulação: Mestre em Ciência da Computação Banca examinadora:

Alexandre Xavier Falcão [Orientador] Clarissa Lin Yasuda

Fábio Augusto Menocci Cappabianco

Data de defesa: 28-04-2017

Programa de Pós-Graduação: Ciência da Computação

(4)

Alexandre Yukio Yamashita

Descoberta de biomarcadores em neuroimagem associados à

doença de Alzheimer

Banca Examinadora:

• Prof. Dr. Alexandre Xavier Falcão IC/UNICAMP

• Profa. Dra. Clarissa Lin Yasuda FCM/UNICAMP

• Prof. Dr. Fábio Augusto Menocci Cappabianco ICT/UNIFESP

A ata da defesa com as respectivas assinaturas dos membros da banca encontra-se no processo de vida acadêmica do aluno.

(5)

Dedicatória

Aos meus pais, Flavio e Regina, e à memória do prof. Dr. Neucimar Jerônimo Leite, coorientador desta dissertação.

(6)
(7)

Agradecimentos

A realização deste trabalho tornou-se possível devido à contribuição de várias pessoas e instituições às quais gostaria de agradecer.

Primeiramente, agradeço ao prof. Dr. Alexandre Xavier Falcão, que assumiu a ori-entação deste trabalho, dedicando seu tempo e conhecimento. Suas excelentes instruções foram essenciais para a conclusão desta dissertação.

À Universidade Estadual de Campinas (UNICAMP) e ao Instituto de Computação pelo ensino de qualidade e apoio.

Aos meus pais, Flavio e Regina, pelo amor e carinho que sempre me deram.

Aos meus irmãos, Carolina, Danilo, Gabriel e Guilherme, pelo companheirismo e ami-zade. A Daniela, Roseli e Walter pelo amor e incentivos.

Aos colegas do Laboratório de Informática Visual (LIV) e Laboratório de Ciência de Dados de Imagem (LIDS) pelas discussões e contribuições a este trabalho.

Ao Instituto de Pesquisas Eldorado, empresa que me apoiou e ofereceu suporte, recur-sos e horários diferenciados para o desenvolvimento do trabalho. Em especial, agradeço aos colaboradores Janaina Ruas, Edgar Gadbem, Luiz Pinto, Mário Camillo e Otávio Gomes que contribuíram para que este trabalho fosse realizado.

(8)

A doença de Alzheimer (DA) é a principal causa de demência no mundo, afetando 47.5 mi-lhões de pessoas. No Brasil, estima-se que a doença atinja cerca de 1.2 milhão de pessoas, com previsão de dobrar a prevalência até 2030. A DA é uma patologia neurodegenerativa crônica que causa problemas de memória, pensamento e comportamento. Face a sua gra-vidade, seu diagnóstico precoce é crucial para melhorar a qualidade de vida do paciente e reduzir os altos impactos econômicos causados pela doença. No entanto, o diagnóstico preciso é um problema complexo que exige testes cognitivos e objetivos, registro histó-rico do paciente, exames clínicos e laboratoriais. Neste contexto, técnicas de aprendizado de máquina têm sido investigadas para auxiliar o diagnóstico através da descoberta de biomarcadores em neuroimagem (descritores de imagem) relacionados a padrões neuro-degenerativos. Este trabalho apresenta um estudo sobre a busca desses biomarcadores, propõe um novo descritor de imagem, denominado Residual Center of Mass (RCM), e valida este descritor no problema de diferenciar imagens de indivíduos sem e com DA. Os experimentos envolveram imagens anotadas como pertencentes a indivíduos com DA e a indivíduos sem DA, provenientes de Ressonância Magnética (RM) e de Tomografia por Emissão de Pósitrons (TEP), e disponibilizadas pela Alzheimer’s Disease Neuroimaging Initiative. O descritor RCM explora momentos invariantes de imagens e outras operações para realçar regiões periféricas do cérebro. A descrição final das imagens é obtida por seleção das regiões mais relevantes ao problema, determinadas por Análise de Variância (ANOVA). A classificação de padrões usa Support Vector Machine (SVM) e os resultados demonstram desempenhos superiores ou equivalentes em comparação aos de métodos do estado da arte. Através de validação cruzada, k-fold com k = 10, foram alcançadas taxas de acerto de 95.1% e 90.3%, sobre 507 imagens de TEP e 1374 imagens de RM, respec-tivamente. As regiões do cérebro, quando ordenadas por relevância à detecção de DA, demonstram que as mais discriminativas coincidem com os achados da Medicina.

(9)

Abstract

The Alzheimer’s disease (AD) is the main cause of dementia in the world, affecting 47.5 million people. In Brazil, it is estimated that 1.2 million people have the disease, with prevalence expected to double by 2030. AD is a chronic neurodegenerative disorder that causes problems in memory, thinking and behavior. Because of its severity, its early di-agnosis is crucial to improve the patient’s quality of life and reduce the high economic impacts caused by the disease. However, an accurate diagnosis is a complex task that re-quires cognitive and objective tests, patient records, clinical and laboratory exams. In this context, machine learning techniques have been investigated to aid the diagnosis, aiming the discovery of neuroimaging biomarkers (image descriptors) related to neurodegenera-tive patterns. This work presents a study about the search for these biomarkers, proposes a new image descriptor, named Residual Center of Mass (RCM), and validates this de-scriptor in the problem of classifying images of individuals with and without AD. The experiments involved images labeled as belonging to individuals with AD and individuals without AD, acquired by Magnetic Resonance Imaging (MRI) and Fluorodeoxyglucose-Positron Emission Tomography (FDG-PET), provided by the Alzheimer’s Disease Neu-roimaging Initiative. The RCM descriptor explores image invariant moments and other operations to enhance peripheral regions of the brain. The final description of the im-ages is obtained by selecting the most relevant regions to the problem, determined by Analysis of Variance (ANOVA). The pattern classification uses Support Vector Machine (SVM) and the results show superior or equal performances compared to state-of-the-art methods. Performing 10-folds cross-validation, we achieved correct classification rates of 95.1% and 90.3% for 507 FDG-PET and 1374 MRI scans, respectively. The brain regions, when ordered by relevance for the detection of AD, show that the most discriminative ones coincide with the findings in Medicine.

(10)

1.1 Representação de cérebro normal e com Alzheimer . . . 18

1.2 Ilustração de evolução dos estágios da DA . . . 20

2.1 Diagrama de processos para métodos de CAD para DA . . . 25

3.1 Gráfico com autovetores correspondentes às direções de maior variância dos dados . . . 35

3.2 Representação de mapeamento de características para separação de classes com hiperplano por SVM . . . 39

3.3 Estrutura de um neurônio real . . . 41

3.4 Modelo de neurônio artificial . . . 41

3.5 Ilustração de rede neural artificial . . . 42

3.6 Ilustração de autoencoder . . . 44

3.7 Valores de KL em relação a média das saídas das camadas ocultas . . . 45

3.8 Características extraídas de uma ConvNet . . . 46

3.9 Exemplo de cálculo de laplaciano da gaussiana . . . 48

3.10 Exemplo de extração de top-hat claro . . . 49

3.11 Formas geométricas com centróides encontrados por momentos invariantes de imagens . . . 50

4.1 Fluxograma do processo de pré-processamento . . . 52

4.2 Fluxograma do método para extração do descritor RCM . . . 53

5.1 Imagens de RM da base de dados da ADNI . . . 58

5.2 Imagens de TEP da base de dados da ADNI . . . 58

5.3 Fluxograma de etapas do método de validação . . . 59

5.4 Imagem pré-processada e características extraídas . . . 61

5.5 Pontuações calculadas utilizando imagens pré-processadas e suas caracte-rísticas . . . 62

5.6 Acurácias de classificação por SVM variando o número de características selecionadas . . . 63

5.7 Curvas ROC de experimentos realizados com imagens pré-processadas . . . 64

5.8 Curvas ROC de experimentos realizados com RCM . . . 65

5.9 Curvas ROC de experimentos realizados com top-hat . . . 66

5.10 Curvas ROC de experimentos realizados com mexican-hat . . . 67

5.11 Acurácias de classificação de características extraídas por ACI . . . 69

5.12 Acurácias de classificação de características extraídas por ACP . . . 70

5.13 Gráficos de caixa de valores κ referentes aos experimentos realizados com diferentes métodos de CAD por neuroimagem . . . 72 5.14 Gráficos de ranks médios obtidos pelo teste Nemenyi analisando valores de κ 73

(11)

5.15 Captura de tela do software MARINA . . . 74

A.1 Referências para o cálculo da tabela de soma de volumes . . . 91

B.1 Arquitetura de ConvNet 2D com AEEs para detecção de DA . . . 92

(12)

2.1 Desempenhos de classificação de DA por imagens de RM . . . 26

2.2 Desempenhos de classificação de DA por imagens de TEP . . . 26

5.1 Informação demográfica da base de dados por grupo . . . 57

5.2 Informação demográfica da base de dados por severidade . . . 57

5.3 Desempenhos de classificação obtidos com SVM por tipo de característica . 68 5.4 Desempenhos de classificação obtidos com diferentes métodos por validação cruzada k-fold com k = 10 . . . 68

5.5 Interpretação de κ baseado em intervalos de valores . . . 71

5.6 Lista de regiões mais discriminantes em imagens de RM . . . 75

(13)

Lista de Abreviações e Siglas

2D: bidimensional ou duas dimensões 3D: tridimensional ou três dimensões

ACI: Análise em Componentes Independentes ACP: Análise de Componentes Principais ACU: acurácia

AD: Alzheimer’s Disease

ADNI: Alzheimer’s Disease Neuroimaging Initiative AE: autoencoder

AEE: autoencoder esparso

AIBL: Australian Imaging, Biomarkers and Lifestyle ANOVA: Análise de Variância ou Analysis of Variance BET: Brain Extraction Tool

BET2: Brain Extraction Tool v. 2 BSS: blind source separation CAD: Computer-Aided Diagnosis

CADDementia: Computer-Aided Diagnosis of Dementia based on structural MRI data CN: cognitivo normal

ConvNet: rede convolucional DA: Doença de Alzheimer DTI: Diffusion Tensor Imaging ESP: especificidade

FDG-PET Fluorodeoxyglucose Positron Emission Tomography FMRIB: Oxford Centre for Functional MRI of the Brain FN: falsos negativos

FP: falsos positivos

FSL FMRIB Software Library FWHM: full width at half maximum

GLMNET Lasso and Elastic-Net Regularized Generalized Linear Models H0: Hipótese nula

Ha: Hipótese alternativa

KL: Kullback-Leibler

MCI: Mild Cognitive Impairment MD: Doutor em Medicina

mm: milímetro

MMSE: Mini-Mental State Examination MNI: Montreal Neurological Institute MRI: Magnetic Resonance Imaging No: número

(14)

RDI: região de interesse RL: regressão logística

RLE: regressão logística esparsa RLP: regressão logística penalizada RM: Ressonância Magnética

RNA: rede neural artificial

ROC: Receiver Operating Characteristic SEN: sensibilidade

SPM: Statistical Parametric Mapping SSI: Structural Similarity Index SVM: Support Vector Machine

SyN: Symmetric diffeomorphic registration TEP: Tomografia por Emissão de Pósitrons

TEP-TC: Tomografia por Emissão de Pósitrons-Tomografia Computadorizada UP: unidade de processamento

v: versão

VBM: Voxel-Based Morphometry VDI: volume de interesse

VN: verdadeiros negativos VP: verdadeiros positivos

(15)

Sumário

1 Introdução 17

1.1 Objetivos . . . 20

1.2 Organização do trabalho e contribuições . . . 21

2 Trabalhos relacionados 23 2.1 Trabalhos que utilizam diretamente os voxels das imagens para classificação 25 2.1.1 Casanova et al. [17] . . . 27 2.1.2 Klöppel et al. [64] . . . 27 2.1.3 Rao et al. [92] . . . 27 2.1.4 Ambastha et al. [4] . . . 28 2.1.5 Gupta et al. [46] . . . 28 2.1.6 Liu et al. [78] . . . 29 2.1.7 Payan et al. [86] . . . 29 2.1.8 Sarraf et al. [98] . . . 29

2.2 Trabalhos com seleção de características . . . 30

2.2.1 Chincarini et al. [22] . . . 30

2.2.2 Garali et al. [42] . . . 31

2.2.3 Liu et al. [77] . . . 31

2.3 Trabalhos com redução de características . . . 31

2.3.1 Illán et al. [55] . . . 32

2.3.2 Khedher et al. [62] . . . 32

2.3.3 Wenlu et al. [116] . . . 32

2.3.4 Yang et al. [121] . . . 33

3 Fundamentação teórica 34 3.1 Técnicas de redução de características . . . 34

3.1.1 Análise de Componentes Principais (ACP) . . . 34

3.1.2 Análise em Componentes Independentes (ACI) . . . 36

3.2 Seleção de características por ANOVA . . . 37

3.3 Regressão logística (RL) . . . 37

3.4 Support Vector Machine (SVM) . . . 38

3.5 Deep-learning . . . 40

3.5.1 Rede neural artificial (RNA) . . . 40

3.5.2 Autoencoder (AE) . . . 43

3.5.3 Rede convolucional (ConvNet) . . . 45

3.6 Filtros de imagem . . . 46

3.6.1 Mexican-hat . . . 46

(16)

4.2 Extração de características do descritor Residual Center of Mass (RCM) . 53 4.3 Seleção de características . . . 54 5 Experimentos e resultados 56 5.1 Bases de dados . . . 56 5.2 Método de validação . . . 57 5.3 Resultados . . . 59

5.4 Ordenação de regiões por relevância . . . 71

5.5 Discussão . . . 74

6 Conclusão 77

Referências Bibliográficas 79

A Implementação do extrator de características RCM 90

(17)

Capítulo 1

Introdução

A Doença de Alzheimer (DA) é uma patologia neurodegenerativa crônica que causa pro-blemas de memória, pensamento e comportamento. É a forma mais comum de demência, contabilizando de 60 a 80% dos casos [3]. Estima-se que a doença afete 47.5 milhões de pessoas no mundo [118]. No Brasil, ela atinge cerca de 1.2 milhão de pessoas, mas a maioria dos casos permanece sem diagnóstico [9].

Seu desenvolvimento é gradual e progressivo. Mas, se diagnosticada nos estágios ini-ciais, é possível retardar seu avanço. Um dos principais fatores de risco é a idade. A prevalência da doença é de 2% aos 65 anos e de 35% aos 85 anos [109]. Devido ao au-mento da expectativa de vida nos países desenvolvidos, o total de pessoas com DA também tende a aumentar, com previsão de dobrar o número de casos até 2030 [9].

O alto índice de doentes com demência também ocasiona um alto impacto econômico. Nos Estados Unidos, a DA é a terceira doença de custos mais elevados, depois do câncer e da doença arterial coronária [83]. O custo americano anual em cuidados com pacientes de DA foi estimado entre 80 e 100 bilhões de dólares [35]. Em 2016, o Medicare1e o Medicaid2 gastaram cerca de 160 bilhões de dólares com pacientes de DA e outras demências [2].

O psiquiatra e neuropatologista alemão Dr. Alois Alzheimer foi o primeiro a descrever a DA, ao qual se deve o nome oficial da doença [9]. Ele relatou o caso de Auguster Deter que aos 51 anos desenvolveu sintomas de perda de memória, distúrbio de linguagem e desorientação. Examinando os registros médicos de Deter, ele descreveu anormalidades cerebrais que são conhecidas hoje como características da DA.

A origem da DA é desconhecida, mas sabe-se que ela provoca lesões cerebrais e degene-ração progressiva das células cerebrais. A característica principal da doença é o depósito da proteína beta-amilóide nos espaços entre as células, criando placas denominadas senis. O agrupamento da beta-amilóide bloqueia as sinapses celulares e causa inflamações, pro-vocando degeneração celular. Uma representação das diferenças de um cérebro normal e com DA é apresentada na Figura 1.1.

Ainda não existe cura para a DA, mas um tratamento adequado permite aliviar os sintomas e reduzir o seu agravamento. Portanto, seu diagnóstico precoce é crucial para 1Sistema de saúde americano destinado à pessoas com idade igual ou superior a 65 anos, indivíduos

com deficiências ou doença renal em estágio final [18]

2Programa de saúde social do governo dos Estados Unidos para ajudar indivíduos de baixa renda e

recursos limitados [18]

(18)

Figura 1.1: Representação de cérebro normal e com Alzheimer, indicando efeitos de de-generação celular e o surgimento de placas amiloides [60].

melhorar a qualidade de vida do paciente e reduzir os altos impactos econômicos causa-dos pela doença. No entanto, o diagnóstico preciso é um problema complexo que exige registro histórico do paciente, exames clínicos e laboratoriais, testes cognitivos e objeti-vos como o Mini-Exame do Estado Mental — Mini-Mental State Examination (MMSE) [33]. Ademais, o diagnóstico definitivo só é possível por exame histopatológico do tecido cerebral após a morte do paciente [61].

Nos estágios iniciais, a DA é mais difícil de ser detectada e os sintomas de outras demências são muito similares [106]. Especialistas classificam a DA em três fases incluindo um estágio de pré-demencia [88].

• Pré-demência ou Déficit Benigno de Memória, Mild Cognitive Impairment (MCI) – o estágio de déficit benigno de memória caracteriza-se por deficiências de memórias isoladas, não causando comprometimento para as atividades da vida diária e não envolvendo perda de outras funções cognitivas, além da memória. Os portadores de MCI devem realizar acompanhamento médico periódico já que os quadros de MCI e DA iniciais são similares. Algumas pessoas com MCI não desenvolvem DA e eventualmente melhoram.

• Estágio inicial ou leve – a fase inicial da DA caracteriza-se por perda de memória recente, dificuldade de raciocínio e expressão, repetitividade de questões, desorienta-ção espaço-temporal, desmotivadesorienta-ção e indícios de depressão. Apesar dos sintomas, o paciente é capaz de viver sua vida de forma independente. Os problemas na memória

(19)

CAPÍTULO 1. INTRODUÇÃO 19

e raciocínio tornam-se evidentes para a família e para os médicos que acompanham o paciente.

• Estágio moderado – este estágio é o mais longo dos demais, caracterizando-se pela progressão de deficiências cognitivas. As atividades diárias ficam impactadas pela doença. Os sintomas incluem esquecimento de fatos antigos, mal-humor, dificul-dades de lembrar o endereço e o telefone pessoais, distúrbios no sono, riscos de se perder, mudanças na personalidade e comportamento repetitivo. O paciente pode ficar extremamente dependente de um cuidador ou da família, necessitando de ajuda para as tarefas cotidianas como se vestir e fazer a higiene pessoal.

• Estágio grave – neste último estágio, todas as funções cognitivas estão seriamente ou completamente comprometidas. Os sintomas incluem incapacidade de comunicação, distúrbio comportamental, incontinência urinária e fecal, perda de peso e habilidades motoras. O paciente não é mais capaz de realizar as atividades da vida diária, dependendo de outras pessoas para sobreviverem.

O período de evolução do estágio leve para o grave é de cerca de 10 anos. A Figura 1.2 ilustra esta evolução dos estágios da DA. Cada estágio tem correlação com uma faixa de pontuação obtida com o teste MMSE [33]. O teste consiste em um questionário de 30 pontos que avalia cinco áreas das funções cognitivas: orientações temporal e espacial, repetição de lista de palavras, atenção e cálculo, linguagem e compreensão, e habilidades motores básicas. Pontuações menores ou iguais a 23 são indicativos de comprometimento cognitivo.

Clinicamente, um paciente não pode ser diagnosticado como “provável doente de Alzheimer” até que ele apresente graves déficits cognitivos que afetam significativamente suas atividades cotidianas [43]. Entretanto, alterações no cérebro causadas pela doença ocorrem décadas antes de surgirem os primeiros sintomas [40]. Assim, esforços têm sido investidos para a descoberta de biomarcadores que auxiliem o diagnóstico.

Biomarcadores ou marcadores biológicos são alterações celulares, bioquímicas ou mo-leculares que podem ser medidas em meios biológicos como tecidos, células ou fluidos [53]. Em práticas clínicas, biomarcadores são úteis para diagnóstico ou indicação de riscos de doenças. Neste trabalho, o conceito de biomarcadores está relacionado a descritores de imagens para auxiliar o diagnóstico da DA.

Trabalhos recentes demostram que biomarcadores em neuroimagem podem ser obtidos por técnicas de processamento de imagem e aprendizagem de máquina [22, 42, 77]. Com-putadores também podem detectar essas alterações nas imagens de forma mais precisa do que clínicos, uma vez que são livres de fadiga e são capazes de lidar com padrões neurode-generativos de difícil visualização nas imagens [17, 64]. Além disso, estudos demonstram que diferenças de volumes na maioria das regiões do cérebro podem não ser evidentes entre indivíduos normais e com DA. Efeitos de envelhecimento também provocam alterações cerebrais [4], dificultando a identificação de padrões.

Pesquisas em análise de imagens de Ressonância Magnética (RM) e Tomografia por Emissão de Pósitrons (TEP) têm relatado altas acurácias na detecção de alterações neu-rodegenerativas. O uso de técnicas de neuroimagem é fortemente recomendado para o

(20)

Figura 1.2: Ilustração da evolução dos estágios da DA ao decorrer do tempo com suas faixas de pontuação MMSE correlacionadas [88].

diagnóstico de demência em conjunto com exames clínicos, permitindo o exame do cé-rebro in vivo de maneira não invasiva [82]. RM e TEP consistem de modalidades de aquisição de imagens distintas. A RM fornece informações estruturais do sistema nervoso através da irradiação de ondas de rádio sob a influência de um forte campo magnético. É utilizada para detecção de alterações estruturais de doenças intracranianas como lesões e tumores. A TEP faz o mapeamento dos processos metabólicos do corpo humano. O exame mede o fluxo sanguíneo no cérebro através da injeção de substâncias radioativas e o monitoramento da absorção da radiotividade. As regiões mais ativas possuem um fluxo sanguíneo elevado, transportando mais substâncias radiotivas para as áreas ativas. Áreas menos ativas consomem menos substâncias.

Para a aplicação clínica, é importante avaliar as diferentes técnicas presentes na li-teratura. No entanto, diferenças de dados utilizados e métodos de validação dificultam uma comparação confiável dos trabalhos existentes. Frente ao exposto, este trabalho apre-senta um estudo comparativo de descritores de imagem (biomarcadores em neuroimagem) recentemente associados à DA.

1.1

Objetivos

Os objetivos principais deste trabalho são apresentar um estudo comparativo de descri-tores de neuroimagem, RM e TEP, relacionados à DA e propor avanços na descoberta desses biomarcadores. Para tanto, o trabalho está dividido nas seguintes etapas.

(21)

CAPÍTULO 1. INTRODUÇÃO 21

• Revisão, implementação, e análise de descritores de imagem associados à DA; • Proposta de um novo descritor de imagem associado à DA;

• Validação do novo descritor por análise comparativa com outros da literatura em bases públicas de imagem de RM e TEP.

Analisando os métodos da literatura, observa-se que as regiões de imagem discrimina-tivas para a DA são concentradas na periferia do cérebro. Com base nesta observação, o trabalho propõe um descritor de imagem denominado Residual Center of Mass (RCM), que realça características dessas regiões reduzindo o espaço de características por análise de variância. A extração do descritor envolve a remoção dos centroides locais das regiões de cada voxel, preservando os valores nas bordas do cérebro.

As bases de dados utilizadas para validação estão disponíveis no site da Alzheimer’s Disease Neuroimaging Initiative (ADNI) [1]. Elas consistem de imagens de RM e de TEP, obtidas de pacientes com DA e de indivíduos saudáveis, junto com as demais informações clínicas. Estas bases representam as maiores e principais fontes de dados padronizadas para o estudo da DA, sendo utilizadas em várias pesquisas recentes.

Os experimentos utilizam validação cruzada, k-fold com k = 10, e imagens de RM e TEP com normalização de intensidade e espaço.

1.2

Organização do trabalho e contribuições

Este trabalho está organizado em seis capítulos, conforme apresentação a seguir.

O Capítulo 2 apresenta uma revisão bibliográfica sobre descritores de imagem e o uso desses descritores para discriminar pacientes com DA de indivíduos saudáveis em imagem de RM e TEP. Em cada método, são descritos os procedimentos de pré-processamento, técnicas de processamento de imagem e aprendizado de máquina, métricas de desempenho e processo de validação utilizados no trabalho original. Também são apresentadas as informações das imagens que foram utilizadas, visto que a base de dados e a quantidade de imagens afetam os desempenhos reportados nos trabalhos publicados.

O Capítulo 3 aborda as técnicas de processamento de imagem e de aprendizado de máquina consideradas no desenvolvimento e nos experimentos do presente trabalho. O capítulo apresenta técnicas de redução e seleção de características como filtros por Análise de Variância ou Analysis of Variance (ANOVA), Análise de Componentes Principais (ACP) e Análise em Componentes Independentes (ACI); métodos de aprendizado de máquina como regressão logística (RL), Support Vector Machine (SVM) e Deep learning; e técnicas de processamento de imagem como momentos invariantes, filtros top-hat e mexican-hat.

O Capítulo 4, por sua vez, apresenta o decritor proposto, denominado RCM, incluindo o procedimento de pré-processamento adotado, e o processo de seleção das características mais relevantes.

O Capítulo 5 apresenta as bases de imagens da ADNI, descreve a metodologia de validação, e discute os resultados experimentais, demonstrando uma comparação justa de desempenho dos métodos considerados. A significância estatística de desempenho

(22)

método proposto neste trabalho, foram alcançadas altas taxas de acerto de 95.1% e 90.3% em 507 imagens de TEP e 1374 imagens de RM, respectivamente. Estes resultados são relevantes considerando o número de imagens bem mais alto do que o utilizado na maioria dos trabalhos da literatura. Ao ordenar as regiões do cérebro por relevância à detecção de DA, os resultados demonstram que as mais discriminativas coincidem com os achados da Medicina. Portanto, o descritor proposto é um biomarcador para DA consistente com o que vem sendo observado pelos especialistas na doença.

Por fim, o Capítulo 6 traz a conclusão deste trabalho, com algumas considerações finais e direcionamento para trabalhos futuros.

(23)

Capítulo 2

Trabalhos relacionados

Os avanços das tecnologias de aquisição e armazenamento de imagem têm aumentado o interesse em técnicas de diagnóstico assistido por computador ou Computer-Aided Diagno-sis (CAD). Para aplicações em neuroimagem, projetos como Alzheimer’s Disease Neuroi-maging Initiative (ADNI) [1], Australian INeuroi-maging, Biomarkers and Lifestyle (AIBL) [94] e Computer-Aided Diagnosis of Dementia based on structural MRI data (CADDementia) [14] têm estimulado a investigação de técnicas de processamento de imagem e aprendizado de máquina através da disponibilização de bases de imagens anotadas.

Este capítulo faz uma revisão dos principais trabalhos relacionados à métodos de CAD para a Doença de Alzheimer (DA) na literatura. De modo geral, esses métodos são constituídos de um conjunto processos conforme apresentado no diagrama da Figura 2.1. No entanto, a ordem e execução dos processsos variam em cada método. Na etapa de pré-processamento, o crânio e tecido muscular são removidos pois não são relevantes para classificação. O uso de diferentes scanners e configurações na aquisição das imagens pode causar grandes variações de intensidade. Assim, as intensidades dos voxels são nor-malizadas para um mesmo intervalo de valores. As imagens também são nornor-malizadas espacialmente devido às diferenças de forma e tamanho naturais do cérebro. Opcional-mente, as imagens são redimensionadas para uma resolução menor e suavizadas por filtros passabaixas frequências (Gaussiano ou média). Na etapa de extração de características, alguns trabalhos extraem descritores ou aplicam transformações de redução de caracte-rísticas diretamente nos valores dos voxels para representação das imagens. Depois, as características mais relevantes para classificação podem ser selecionadas através de técni-cas de seleção de característitécni-cas ou segmentação por região de interesse (RDI) e volume de interesse (VDI). Os RDIs correspondem a regiões anatômicas do cérebro segmentadas através de máscaras ou técnicas como Atlas [16], e os VDIs são blocos volumétricos extraí-dos das imagens, estabeleciextraí-dos com conhecimento prévio em um espaço de coordenadas de referência. As características de imagem selecionadas formam um descritor de imagem e os classificadores são treinados e avaliados com o descritor dado, através de algum método de validação.

Apesar de alguns trabalhos realizarem experimentos na mesma base de dados, seus desempenhos não podem ser justamente comparados devido às diferenças nos métodos de validação e quantidade de dados utilizada. A revisão bibliográfica desse capítulo apresenta trabalhos validados com hold-out, repeated random sub-sampling, k-fold, e leave-one-out.

(24)

• Hold-out – este método é o tipo mais simples de validação. Os dados são separados em dois conjuntos: um de treinamento e outro de teste. O classificador é treinado utilizando o conjunto de treinamento e validado com o conjunto de teste. Um problema crucial é que os resultados podem ter uma alta variância por depender das amostras selecionadas para treinamento e teste.

• Repeated random sub-sampling – o método consiste em divisões aleatórias dos dados em conjuntos de treinamento e teste. Em cada divisão, o classificador é treinado com os dados de treinamento e validado com o conjunto de teste. Os resultados são obtidos calculando a média e o desvio dos desempenhos de todas as divisões. Uma desvantagem deste método é que algumas amostras podem nunca serem selecionadas para classificação, enquanto outras serem selecionadas diversas vezes.

• K-fold – nesse método os dados são divididos em k conjuntos, e k validações são realizadas por hold-out. Em cada validação, um dos k conjuntos é utilizado como conjunto de teste e o classificador é treinado com os outros k − 1 conjuntos. Então, a média e o desvio dos desempenhos das validações é reportada como resultado. Uma vantagem desse método é que todas as amostras são consideradas tanto para treinamento, quanto para teste. Cada amostra é testada uma vez e selecionada para treinamento k − 1 vezes. A desvantagem do método é o longo tempo computacional exigido para execução das k validações.

• Leave-one-out – é um caso particular do hold-out, quando k é igual ao número total de amostras m. Assim, m validações são realizadas. A cada validação o classificador é treinado utilizando todos os dados com exceção de uma amostra que é utilizada para teste. A média e o desvio dos desempenhos das validações é reportada como resultado. O método é bastante custoso, devido ao tempo computacional de treinamento e teste do classificador em m validações, susceptível ao sobreajuste dos dados, e indicado apenas no caso de bases com poucas imagens.

Ao utilizar métodos de validação cruzada k-fold, repeated random sub-sampling ou leave-one-out, os processos de seleção/redução de características, classificação e validação são executados novamente para cada fold ou iteração. Quando é necessário realizar ajus-tes de parâmetros de classificadores, o conjunto de treinamento pode ser dividido em dois subconjuntos. Um subconjunto é utilizado para treinar o classificador e o outro, deno-minado conjunto de validação, é utilizado para determinar quais os melhores parâmetros para o ajuste do classificador. Assim, a validação final é realizada com o conjunto de testes utilizando o classificador ajustado com os parâmetros que obtiveram melhor desempenho sobre o conjunto de validação.

Para cada trabalho é apresentado um resumo do método e das técnicas das etapas no fluxo de processos. Também, são descritos o procedimento de validação e os valores de métricas de desempenho como acurácia (ACU), precisão (PRE), sensibilidade (SEN) e especificidade (ESP).

(25)

CAPÍTULO 2. TRABALHOS RELACIONADOS 25

Figura 2.1: Diagrama de processos para métodos de CAD para DA.

As métricas de desempenho são definidas como:

ACU = V P + V N V P + V N + F P + F N, P RE = V P V P + F P, SEN = V P V P + F N, ESP = V N F P + V N, (2.1)

onde verdadeiros positivos (VP) são os pacientes com DA corretamente classificados, verdadeiros negativos (VN) são os indivíduos CNs corretamente classificados, falsos posi-tivos (FP) são os CNs incorretamente classificados com DA e falsos negaposi-tivos (FN) são os pacientes com DA incorretamente identificados como CN.

A revisão bibliográfica considerou analisar trabalhos utilizando imagens de duas moda-lidades de aquisição: Ressonância Magnética (RM) e Tomografia por Emissão de Pósitrons (TEP). As Tabelas 2.1 e 2.2 apresentam os métodos mencionados neste trabalho com seus valores de desempenho e quantidade de indivíduos estudados.

Os métodos podem ser classificados em três tipos de abordagens: métodos que utilizam diretamente os voxels das imagens para classificação, métodos que aplicam operações de transformação nas imagens para redução de características, e métodos que selecionam características das imagens para classificação. Os trabalhos organizados pelo tipo de abordagem adotada são descritos nas próximas seções.

2.1

Trabalhos que utilizam diretamente os voxels das

imagens para classificação

A abordagem mais simples de sistemas de CAD por neuroimagem consiste em utilizar diretamente os voxels de imagens, não envolvendo redução ou seleção de características. Alguns trabalhos utilizam voxels de tecidos segmentados para classificação [17, 64, 92] por regressão logística (RL) ou Support Vector Machine (SVM). Outros trabalhos fazem o treinamento de arquiteturas de Deep-learning com imagens do cérebro inteiro [4, 46, 78,

(26)

Tabela 2.1: Desempenhos de classificação de indivíduos CNs e pacientes com DA por imagens de RM.

Método Indivíduos ACU (%) PRE (%) SEN (%) ESP (%) ConvNet 3D + AdaBoost [4] 50 DA, 50 CN 81.8 − − − ConvNet 3D com AEE [4] 50 DA, 50 CN 81.8 − − −

voxels da massa branca e cinzenta + RLP [17] 49 DA, 49 CN 85.7 ± 1.0 − 82.9 ± 1.9 90.0 ± 1.5 VDIs + SVM [22] 144 DA, 189 CN − − 89.0 94.0 ConvNet 2D com AEE [46] 200 DA, 232 CN 94.7 − 95.2 94.3 ACP + SVM [62] 188 DA, 229 CN 87.8 − 90.0 85.1 voxels da massa cinzenta + SVM [64] 34 DA, 34 CN 96.4 − 100.0 92.9 Biomarcadores + SVM [77] 198 DA, 229 CN 90.2 ± 0.5 − 85.3 ± 0.6 94.3 ± 0.4 AEs empilhados [78] 85 DA,

77 CN 82.6 ± 5.3 84.3 ± 7.4 86.8 ± 6.8 77.8 ± 10.8 ConvNet 3D com AEE [86] 200 DA, 232 CN 95.4 − − − voxels da massa cinzenta + RLE [92] 69 DA, 60 CN 85.3 ± 1.4 − 90.8 ± 3.7 80.3 ± 3.9 ConvNet 2D [98] 211 DA, 91 CN 98.8 − − − ACI + SVM [121] 202 DA, 236 CN 88.9 − 80.9 95.8

Tabela 2.2: Desempenhos de classificação de indivíduos CN e pacientes com DA por imagens de TEP.

Método Indivíduos ACU (%) SEN (%) ESP (%)

RDIs + SVM [42] 61 DA, 81 CN 94.4 − −

ACI + SVM [55] 95 DA, 97 CN 87.0 87.8 86.4

ACP + SVM [55] 95 DA, 97 CN 88.2 87.7 88.6

(27)

CAPÍTULO 2. TRABALHOS RELACIONADOS 27

86, 98].

Em Deep-learning, a maioria dos trabalhos envolvem modelos com arquitetura bidimensional (2D) devido ao custo computacional para processar dados volumétricos. Entretanto, os avanços em hardware e algoritmos também têm possibitado aplicações em três di-mensões (3D) [4, 28, 59, 75, 86, 123]. Para aplicações em neuroimagem, diferentes tipos de arquiteturas têm sido utilizadas como: rede convolucional (ConvNet) [4, 98], autoencoder (AE) [78] e autoencoder esparso (AEE) [46, 86].

2.1.1

Casanova et al. [17]

Classificador: regressão logística penalizada (RLP). Indivíduos classificados: 49 DA, 49 CN.

Modalidade: RM.

Método de validação: validação cruzada k-fold com k = 10.

Resultados: ACU = 85.7 ± 1.0%, SEN = 82.9 ± 1.9%, ESP = 90.0 ± 1.5%.

Pré-processamento: normalização espacial e remoção do crânio por Symmetric dif-feomorphic registration (SyN) [10], segmentação de tecidos com Statistical Parametric Mapping (SPM) [6].

Descrição: inicialmente, as imagens são normalizadas e os crânios são removidos por SyN. Os tecidos do cérebro são segmentados com a ferramenta SPM [6]. E a partir dos tecidos da massa branca e cinzenta, a classificação é realizada por RLP implementada pela biblioteca Lasso and Elastic-Net Regularized Generalized Linear Models (GLMNET) [38]. Resultados demonstram que informações para discriminar DA estão presentes tanto na massa branca quanto na massa cinzenta. No entanto, os maiores desempenhos foram obtidos utilizando a massa cinzenta.

2.1.2

Klöppel et al. [64]

Classificador: SVM.

Indivíduos classificados: 34 DA, 34 CN. Modalidade: RM.

Método de validação: leave-one-out.

Resultados: ACU = 96.4%, SEN = 100.0%, ESP = 92.9%.

Pré-processamento: segmentação de tecidos com SPM [6], normalização espacial por registro difeomórfico [5].

Descrição: as imagens foram primeiramente segmentadas em massa cinzenta, massa branca e fluido cerebral-espinhal usando SPM [6]. A massa cinzenta é normalizada espa-cialmente por registro difeomórfico [5]. Por último, as imagens são classificadas por um classificador SVM.

2.1.3

Rao et al. [92]

Classificador: regressão logística esparsa (RLE). Indivíduos classificados: 69 DA, 60 CN.

(28)

Resultados: ACU = 85.3 ± 1.4%, SEN = 90.8 ± 3.7%, ESP = 80.3 ± 3.9%.

Pré-processamento: segmentação de tecidos com SPM [6], normalização espacial com a ferramenta DARTEL [5], suavização com filtro gaussiano isotrópico.

Descrição: primeiro, os tecidos são segmentados com SPM em massa cinzenta e branca. Depois, os tecidos são alinhados usando a ferramenta DARTEL. As imagens são suavi-zadas por um filtro gaussiano isotrópico para compensar erros eventuais do processo de normalização. A partir dos tecidos de massa cinzenta, é realizada a classificação por RLE. A validação dos resultados é realizada através de validação cruzada k-fold com k = 10.

2.1.4

Ambastha et al. [4]

Classificador: ConvNet 3D e AdaBoost. Indivíduos classificados: 50 DA, 50 CN. Modalidade: RM.

Método de validação: validação cruzada k-fold com k = 10. Resultados: ACU = 81.8%.

Pré-processamento: remoção do crânio, normalização espacial, segmentação de tecidos e suavização.

Descrição: na etapa inicial de pré-processamento, o crânio foi removido e as imagens foram segmentadas. Depois, os tecidos segmentados foram normalizados para o espaço pa-drão do Montreal Neurological Institute (MNI) [34]. As imagens foram suavizadas por um filtro full width at half maximum (FWHM) [68] de tamanho 8x8x8. Características foram extraídas utilizando ConvNets 3D treinadas com regiões do cérebro pré-selecionadas. Por fim, a classificação foi realizada a partir das características extraídas, utilizando AdaBoost [37].

2.1.5

Gupta et al. [46]

Classificador: ConvNet 2D com AEE. Indivíduos classificados: 200 DA, 232 CN. Modalidade: RM.

Método de validação: hold-out.

Resultados: ACU = 94.7%, SEN = 95.2%, ESP = 94.3%.

Pré-processamento: normalização espacial com SPM [6], redimensionamento de dados, normalização de intensidade.

Descrição: as imagens foram normalizadas espacialmente para o modelo do International Consortium for Brain Mapping [81] utilizando SPM [6]. A dimensão das imagens foram reduzidas para 79x95x68. Depois, as imagens foram normalizadas através do método min-max [49]. Após o pré-processamento, características foram extraídas por uma ConvNet 2D treinada com AEE [85] a partir de um conjunto de imagens 2D de paisagens da natureza. Para classificação, foi treinada uma camada totalmente conectada (fully-connected layer ) de 800 a 1600 unidades escondidas.

(29)

CAPÍTULO 2. TRABALHOS RELACIONADOS 29

2.1.6

Liu et al. [78]

Classificador: AEs empilhados.

Indivíduos classificados: 85 DA, 77 CN. Modalidade: RM e TEP.

Método de validação: validação cruzada k-fold com k = 10. Resultados: RM – ACU = 82.6 ± 5.3%, PRE = 84.3 ± 7.4%,

SEN = 86.8 ± 6.8%, ESP = 77.8 ± 10.8%;

RM + TEP – ACU = 91.4 ± 5.6%, PRE = 92.9 ± 6.2%, SEN = 92.3 ± 6.3%, ESP = 90.4 ± 6.9%. Pré-processamento: normalização espacial e de intensidade.

Descrição: inicialmente, as imagens foram normalizadas espacialmente e as intensidades dos voxels foram ajustadas para o intervalo de zero a um, deslocando os valores negativos e reescalonando. Características foram extraídas através de uma rede composta por AEs empilhados [111]. A classificação dos dados foi realizada através de regressão por softmax [12]. Experimentos foram feitos com a rede treinada apenas com características de RM e também em uma abordagem multimodal com imagens de RM e TEP. Resultados utilizando as duas modalidades de imagem alcançaram os maiores desempenhos.

2.1.7

Payan et al. [86]

Classificador: ConvNet 3D com AEE. Indivíduos classificados: 200 DA, 232 CN. Modalidade: RM.

Método de validação: hold-out. Resultados: ACU = 95.4%.

Pré-processamento: normalização espacial com SPM [6], normalização de intensidade, redimensionamento de dados.

Descrição: as imagens foram normalizadas espacialmente para o modelo do Internati-onal Consortium for Brain Mapping [81] utilizando SPM [6]. Depois, a intensidade das imagens foram normalizadas, subtraindo a média e dividindo pelo desvio padrão das ima-gens. Como etapa final do pré-processamento, as imagens foram redimensionadas para o tamanho 68x95x79, resultando em 510 340 voxels. Características foram extraídas por uma ConvNet 3D treinada com AEE [85]. Por fim, os dados foram classificados treinando uma camada totalmente conectada de 800 unidades escondidas.

2.1.8

Sarraf et al. [98]

Classificador: ConvNet 2D.

Indivíduos classificados: 211 DA, 91 CN. Modalidade: RM.

Método de validação: Repeated random sub-sampling com 5 iterações. Resultados: ACU = 98.8%.

Pré-processamento: remoção do crânio por FSL-BET [104], normalização espacial e segmentação de tecidos por FSL-VBM [29], suavização por filtro gaussiano.

(30)

das imagens utilizando Brain Extraction Tool (BET) do pacote FMRIB Software Library (FSL) [104]. Através da biblioteca Voxel-Based Morphometry (VBM), as imagens foram normalizadas espacialmente e segmentadas em massa cinzenta, massa branca e fluido cerebral-espinhal. Adicionalmente, as imagens foram filtradas por filtro gaussiano com diferentes valores de desvio-padrão. A partir de fatias 2D extraídas das imagens da massa cinzenta, foram treinadas duas ConvNets 2D: GoogleNet [107] e LeNet [71]. As duas redes apresentaram taxas de acerto de classificação acima de 98%. Apesar das altas acurácias, a forma que os experimentos foram realizados indicam viés no treinamento, visto que um mesmo indivíduo poderia ter imagens em ambos conjuntos de treinamento e teste.

2.2

Trabalhos com seleção de características

Um dos principais desafios em trabalhos com neuroimagem é a maldição da dimensio-nalidade. Em estudos de neuroimagem, geralmente há centenas de imagens para serem analisadas e milhares de características, causando problemas de sobre-ajuste (overfitting). Alguns estudos evitam esses problemas, introduzindo parâmetros de regularização para treinar modelos esparsos [17, 92]. Outros métodos, abordados nessa seção, usam técnicas de seleção de características [22, 42, 77].

2.2.1

Chincarini et al. [22]

Classificador: SVM.

Indivíduos classificados: 144 DA, 189 CN. Modalidade: RM.

Método de validação: validação cruzada k-fold com k = 20. Resultados: SEN = 89.0%, ESP = 94.0%.

Pré-processamento: remoção de ruídos, normalização espacial, normalização de inten-sidade.

Descrição: a primeira etapa do pré-processamento consiste em remover os ruídos das imagens utilizando um filtro piramidal [89]. Os ruídos são identificados através da mé-trica Structural Similarity Index (SSI) [115], ajustando um limiar de decisão. Depois, as imagens são normalizadas espacialmente para o espaço de referência do MNI [34] por registro afim de 12 parâmetros [7]. As imagens registradas são normalizadas pela média de regiões segmentadas. Após o pré-processamento, são segmentados VDIs estabelecidos por conhecimento prévio. Dos VDIs, são extraídos vários descritores utilizando filtros gaussiano, mexican-hat, de entropia, média e desvio padrão. Depois, as imagens passam por mais um processo de seleção de características, selecionando os voxels de maiores importâncias relativas calculadas por um classificador Random forest [13]. Por fim, é realizada a classificação das imagens por SVM.

(31)

CAPÍTULO 2. TRABALHOS RELACIONADOS 31

2.2.2

Garali et al. [42]

Classificador: SVM.

Indivíduos classificados: 61 DA, 81 CN. Modalidade: TEP.

Método de validação: leave-one-out. Resultados: ACU = 94.4%.

Pré-processamento: normalização espacial com SPM [6], suavização com filtro gaussi-ano, normalização de intensidade.

Descrição: as imagens foram normalizadas espacialmente para o espaço de referência do MNI [34] com SPM [6]. Depois, as imagens foram suavizadas por um filtro gaussiano para mitigar variações entre indivíduos e aumentar a relação sinal-ruído. As intensida-des dos voxels foram posteriormente normalizadas, fazendo a divisão pela média de uma ou mais regiões. Através de máscaras anatômicas, o cérebro foi segmentado em 116 re-giões. Dessas regiões, 29 foram escolhidas para classificação. Com o método SelectKBest [65], os voxels mais discriminantes dessas 29 regiões foram selecionadas para classificação utilizando SVM.

2.2.3

Liu et al. [77]

Classificador: SVM.

Indivíduos classificados: 198 DA, 229 CN. Modalidade: RM.

Método de validação: validação cruzada com k-fold com k = 10.

Resultados: ACU = 90.2 ± 0.5%, SEN = 85.3 ± 0.6%, ESP = 94.3 ± 0.4%.

Pré-processamento: normalização de intensidade; remoção do crânio, segmentação de tecidos, normalização espacial.

Descrição: a intensidade das imagens foram normalizadas usando o algoritmo não para-métrico proposto por Sled et al. [103]. Depois, o cerebelo e o crânio foram removidos com a aplicação de um método automático [114]. Cada imagem foi segmentada em massa cin-zenta, massa branca e fluido cerebral-espinhal. No fim da etapa de pré-processamento, os tecidos segmentados foram registrados para um espaço padrão pelo algoritmo de distorção proposto em [102]. Depois, foram selecionadas as características mais relevantes da massa cinzenta para classificação, utilizando um método de construção em árvore. O método é baseado em um algoritmo de clusterização hierárquica, levando em conta adjacências espaciais, similaridade e discriminabilidade de características. A partir das características selecionadas, é realizada a classificação por SVM.

2.3

Trabalhos com redução de características

Técnicas de redução de características como Análise de Componentes Principais (ACP) e Análise em Componentes Independentes (ACI) têm demonstrado ser bastante eficientes na análise de neuroimagem [55, 62, 116, 121]. A representação das imagens em um espaço de menor dimensão ajuda a evitar o problema da maldição da dimensionalidade, reduzindo

(32)

utilizam rótulos de classes, também diminue-se os riscos de overfitting.

2.3.1

Illán et al. [55]

Classificador: SVM.

Indivíduos classificados: 95 DA, 97 CN. Modalidade: TEP.

Método de validação: hold-out.

Resultados: ACU = 88.2%, SEN = 87.7%, ESP = 88.6%.

Pré-processamento: normalização espacial com SPM [6], normalização de intensidade. Descrição: as imagens foram normalizadas através de um modelo geral afim usando SPM [6]. Depois, a intensidade das imagens foram normalizadas para um valor máximo obtido pela média dos 0.1% voxels de maior intensidade excedendo um limiar. O limiar foi fixado no valor de intensidade da décima célula (bin) de um histograma de 50 células, descartando baixas intensidades de regiões externas do cérebro e preservando a saturação das imagens. Através de ACP e ACI, a dimensão dos dados foram reduzidas. Por fim, a classificação foi realizada por SVM. Os maiores desempenhos foram obtidos com características extraídas por ACP.

2.3.2

Khedher et al. [62]

Classificador: SVM.

Indivíduos classificados: 188 DA, 229 CN. Modalidade: RM.

Método de validação: validação cruzada k-fold com k = 10. Resultados: ACU = 87.8%, SEN = 90.0%, ESP = 85.1%.

Pré-processamento: normalização espacial e segmentação de tecidos com SPM [6], re-dimensionamento de dados.

Descrição: as imagens foram normalizadas espacialmente e segmentada por SPM. As imagens foram posteriormente redimensionadas para o tamanho 121x145x121 com tama-nho de voxel igual a 1.5x1.5x1.5 mm3. Depois, os dados de cada imagem foram reduzidos

por ACP. A classificação foi realizada com SVM utilizando núcleos (kernels) linear e radial (RBF - Radial Basis Function). Experimentos com kernel linear apresentaram melhores resultados.

2.3.3

Wenlu et al. [116]

Classificador: SVM.

Indivíduos classificados: 80 DA, 80 CN. Modalidade: TEP.

Método de validação: leave-one-out.

Resultados: ACU = 86.8%, SEN = 73.9%, ESP = 99.7%.

Pré-processamento: normalização espacial com SPM [6], redimensionamento de dados. Descrição: inicialmente, as imagens foram alinhadas e normalizadas espacialmente com

(33)

CAPÍTULO 2. TRABALHOS RELACIONADOS 33

SPM [6]. Depois, as imagens foram recortadas e os tamanhos dos voxels ajustados para 2x2x2 mm3. Os dados das imagens foram reduzidos através de ACI e classificados com

SVM, considerando diferentes números de componentes independentes.

2.3.4

Yang et al. [121]

Classificador: SVM.

Indivíduos classificados: 202 DA, 236 CN. Modalidade: RM.

Método de validação: hold-out, leave-one-out.

Resultados: ACU = 88.9%, SEN = 80.9%, ESP = 95.8%.

Pré-processamento: normalização espacial, segmentação de tecidos e suavização com SPM [6].

Descrição: as imagens foram normalizadas espacialmente, suavizadas e segmentadas com a ferramenta SPM [6]. Posteriormente, foi aplicado ACI sobre a massa cinzenta das imagens. Os dados foram classificados por SVM e validados com os métodos hold-out e leave-one-out. Os melhores resultados foram obtidos com hold-out, selecionando 90% dos dados para treinamento e 10% para testes.

(34)

Fundamentação teórica

Este capítulo aborda as técnicas de aprendizado de máquina e processamento de imagem utilizadas no desenvolvimento deste trabalho. A Seção 3.1 apresenta técnicas de redução de características como Análise de Componentes Principais (ACP) e Análise em Compo-nentes Independentes (ACI). A Seção 3.2 descreve o método de seleção de características por Análise de Variância (ANOVA), utilizado para extração de biomarcadores. As Seções 3.3, 3.4 e 3.5 fazem um resumo de algoritmos de aprendizado de máquina aplicados em sistemas de diagnóstico assistido por computador (CAD). E as Seções 3.6 e 3.7 apresen-tam técnicas de processamento de imagem e extração de características para classificação da Doença de Alzheimer (DA).

3.1

Técnicas de redução de características

Técnicas de redução de características transformam dados em espaços de alta dimensão para espaços de menores dimensões. Em aplicações de aprendizado de máquina, essas téc-nicas são importantes para remoção de ruídos e características redundantes, melhorando o desempenho dos classificadores. Para realizar o espaço de representação dos dados, as características são combinadas através de métodos como ACP e ACI.

3.1.1

Análise de Componentes Principais (ACP)

A ACP é um procedimento matemático proposto por Karl Pearson [87] para redução de dimensionalidade, criando uma base ortogonal que maximiza a variância dos dados. Essa base é calculada a partir da matriz de covariância dos dados. Sendo x um conjunto de dados com m amostras de n dimensões onde:

x = (x(1), x(2), ..., x(m−1), x(m))T, (3.1) sua matriz de covariância Cx é dada por:

Cx = E{(x − ¯x)(x − ¯x)T}. (3.2)

(35)

CAPÍTULO 3. FUNDAMENTAÇÃO TEÓRICA 35

O termo ¯x denota a média das amostras definida como: ¯ x = E(x) = P ix (i) m . (3.3)

Os componentes de Cx, denotados por Cij com 1 ≤ i, j ≤ n, representam as covariâncias

entre as variáveis xi e xj. Cij é calculado por:

Cij = E{(xi− ¯xi)(xJ − ¯xJ)T} = Pm k=1(x (k) i − ¯xi)(x (k) j − ¯xj) m − 1 , (3.4)

onde ¯xi e ¯xj são as médias das variáveis xi e xj, respectivamente.

A base ortogonal é calculada através dos autovalores e autovetores de Cx. Os

autove-tores vi e seus autovalores λi são encontrados, resolvendo as equações:

Cxvi = λivi, 1 ≤ i ≤ n,

det(Cx− λI) = 0,

(3.5)

onde I é a matriz identidade de mesma ordem que Cx e det(Cx− λI) é o determinante

da matriz Cx− λI.

A base ortogonal V é composta pelos autovetores ordenados pela ordem descrescente de seus autovalores correspondentes. Os autovetores com maiores autovalores constituem as direções de maior variância dos dados. Assim, as amostras x(i)podem ser transformadas

para o espaço de coordenadas dos autovetores V por: c

x(i) = V (x(i)− ¯x). (3.6)

Um exemplo de autovetores encontrados a partir de um conjunto de dados x é apresentado no gráfico da Figura 3.1.

Figura 3.1: Gráfico com autovetores correspondentes às direções de maior variância dos dados.

(36)

de coordenadas constituído por um subconjunto dos autovetores de V . Dado a base Vk

composta pelos k autovetores de maior autovalor, pode-se transformar as amostras x(i) para um espaço de coordenadas de dimensão reduzida k por:

c x(i) = V

k(x(i)− ¯x). (3.7)

Os dadosbx com dimensão reduzida podem ser reconstruídos para o espaço de dimensão original por:

x(i) = VkTxc(i)+ ¯x. (3.8)

3.1.2

Análise em Componentes Independentes (ACI)

A ACI é um método para encontrar uma representação linear de dados não-gaussianos em componentes estatisticamente independentes ou os mais independentes possíveis [54]. Através da ACI, pode-se capturar informações sobre as estruturas básicas dos dados como características de imagens e sinais de sons, sendo útil em aplicações de aprendizado de máquina [30, 55, 108, 116, 121].

A ACI é formalmente definido pelo modelo estatístico de variáveis latentes. Dado um conjunto de dados com m observações x(1), x(2), ..., x(m) n-dimensionais, cada observação

x(i) pode ser representada pela combinação linear de n componentes independentes:

x(i) =

n

X

j=1

A(i)j sj, 1 ≤ i ≤ m, (3.9)

onde A é uma matriz referente aos pesos das misturas das componentes independentes s n-dimensionais. As componentes independentes são variáveis latentes e não podem ser diretamente observadas. O objetivo da ACI é estimar A e s apenas através da análise de x.

Segundo o Teorema central do limite, a distribuição da soma de variáveis aleatórias independentes se aproxima de uma distribuição gaussiana. Assim, A pode ser calculado maximizando a não gaussianidade de s. Isso pode ser feito encontrando uma matriz de transformação linear W que maximize medidas de não gaussianidade como kurtosis e negentropia. A partir de W , s é definido como:

sj = m

X

i=1

Wj(i)x(i), 1 ≤ j ≤ n. (3.10)

Estimando W , é possível encontrar A pela inversa de W :

A = W−1. (3.11)

Se considerarmos s como fontes de sinais, a ACI pode ser utilizada para separação cega de fontes ou blind source separation (BSS). Essa separação é dita cega porque é realizada sem a utilização de informações adicionais além das misturas de sinais. Em trabalhos de

(37)

CAPÍTULO 3. FUNDAMENTAÇÃO TEÓRICA 37

neuroimagem, a ACI é uma técnica que demonstrou ser eficiente para extrair informações de voxels de imagens de RM e TEP [55, 116, 120, 121].

3.2

Seleção de características por ANOVA

Uma técnica popular utilizada em aplicações de aprendizagem de máquina é a seleção de características por ANOVA [20, 25, 26, 32, 42, 44, 45]. Ela consiste em selecionar as características mais relevantes para classificação por meio do cálculo de pontuações (ou scores) com o teste F da ANOVA [56]. Pode-se definir as pontuações como o valor F :

F = S

2 B

SW2 , (3.12)

onde SB2 é a variabilidade entre grupos (conjuntos de amostras por classe), dada por: SB2 =

P

ini( ¯xi− ¯x)2

K − 1 , (3.13)

onde ni e ¯xi são, respectivamente, o total e a média de observações no grupo de amostras

referentes a classe de índice i. ¯x é a média geral dos dados e K denota o número de grupos (ou classes).

S2

W é a variabilidade dentro do grupo, definida como:

SW2 = P ij(x (j) i − ¯xi)2 N − K , (3.14)

onde x(j)i é a ja observação no io grupo e N é o número total de amostras.

Para a seleção de características, são calculados os valores F de cada característica, selecionando as com maiores pontuações e filtrando as com pontuações mais baixas.

3.3

Regressão logística (RL)

A regressão logística (RL) [52] é uma técnica de aprendizado de máquina bastante comum para classificação binária. Em sistemas de CAD, RLs fornecem probabilidades de classe que podem ser úteis como métricas de diagnóstico e ajustar limiares de decisão. O modelo de RL consiste na aplicação de uma transformação linear sobre os dados e o cálculo de probabilidades de classe através de uma função logística (ou sigmóide) da forma:

σ(z) = 1

1 + e−z. (3.15)

Essa função faz o mapeamento da entrada ao intervalo [0, 1], podendo ser interpretada como uma probabilidade. Nesse modelo, tenta-se predizer o rótulo y(i) ∈ {0, 1} para uma dada amostra x(i), onde 1 ≤ i ≤ m, sendo i o índice da amostra de um conjunto de dados e m o total de amostras. x(i) é um vetor de dimensão n correspondente ao número de características. A função que estima as probabilidades de uma amostra ser da classe “1”

(38)

P (y = 1|x) = hθ(x) = σ(θTx),

P (y = 0|x) = 1 − P (y = 1/x) = 1 − σ(θTx), (3.16) onde θ é um vetor de parâmetros com n dimensões, calculado através da minimização de uma função de custo J (θ). O primeiro termo dos parâmetros, θ0, é chamado de viés (ou

bias) e os valores das primeiras características, x(i)0 , são fixados em 1. A função de custo é definida por: J (θ) = 1 2m " m X i=1 (hθ(x(i)) − y(i))2+ λ n−1 X j=1 θj2 # , (3.17)

onde λ é o parâmetro de regularização que penaliza a função de custo para reduzir a magnitude de θ, evitando overfitting. Quando λ > 0, o modelo de RL também é conhecido como regressão logística penalizada (RLP). A estimativa de θ é realizada, diferenciando (3.17): ∂J (θ) ∂θj =    1 m Pm i=1(hθ(x

(i)) − y(i))x(i)

j , se j = 0 1

m

Pm

i=1(hθ(x

(i)) − y(i))x(i)

j +mλθj, caso contrário

. (3.18) Os parâmetros θ são iterativamente atualizados por:

θj = θj− α

∂J (θ) ∂θj

, j ∈ {1, 2, ...n}, (3.19)

onde α é a taxa de aprendizado que controla a velocidade de atualização.

A predição é realizada, atribuindo a classe predita como a de maior probabilidade em (3.16). Alguns trabalhos de neuroimagem [92, 97] também adicionam um termo na função de custo para treinar regressores lógisticos esparsos (RLEs):

J (θ) = 1 2m " m X i=1 (hθ(x(i)) − y(i))2− λ n−1 X j=1 θ2j − β n−1 X j=1 θj # . (3.20)

O termo λ denota o parâmetro de regularização e β o parâmetro para controlar a es-parsidade em θ, reduzindo seus coeficientes para zero. O termo de eses-parsidade visa a seleção de características, eliminando variáveis ruidosas que prejudicam o desempenho de classificação.

3.4

Support Vector Machine (SVM)

O Support Vector Machine (SVM) é modelo de aprendizagem supervisionado [110] para problemas de classificação de duas classes. Ele é baseado no conceito de mapeamento dos dados para um espaço de alta dimensão onde as classes podem ser linearmente separadas. Nesse espaço, um hiperplano é criado para separar os dados, maximizando a margem entre as duas classes. A Figura 3.2 ilustra esse processo de mapeamento de características para separação de classes com um hiperplano.

(39)

CAPÍTULO 3. FUNDAMENTAÇÃO TEÓRICA 39

Figura 3.2: Representação de mapeamento de características para separação de classes com hiperplano por SVM.

O SVM tenta predizer rótulos y(i) ∈ {−1, 1} para amostras x(i), onde 1 ≤ i ≤ m sendo

i o índice da amostra do conjunto de dados e m o total de amostras. O hiperplano é definido por:

f (x) = β0+ βTx, (3.21)

onde β é o vetor dos parâmetros do hiperplano e β0 é o viés.

O hiperplano que separa as classes com a maior margem é encontrado resolvendo o problema de otimização: Minimizar 1 2||β|| 2 + C m X i=1 ξi, (3.22) sujeito a: y(i)(βT · x(i)+ β 0) ≥ 1 − ξi, ξi ≥ 0, (3.23)

onde ξi é uma variável de folga positiva que permite que uma amostra esteja dentro de

uma margem de erro se 0 ≤ ξi ≤ 1 ou erroneamente classificada se ξi > 1. C é o parâmetro

de penalidade que controla a penalização de erros de classificação e margens de erros. O problema de otimização pode ser resolvido expandindo o vetor dos parâmetros do hiperplano em termos de x(i) e introduzindo multiplicadores de Lagrange:

β =

m

X

i=1

αiy(i)x(i). (3.24)

As amostras x(i) relacionadas aos multiplicadores αi > 0 são os vetores de suporte.

Esses pontos definem a fronteira de decisão do modelo. A classificação de uma amostra x(i) pode ser feita por:

g(x) = sinal(

m

X

i=1

(40)

Se os dados não forem linearmente separáveis, é possível utilizar uma função de ker-nel K para mapear os dados a um espaço de alta dimensão. Nesse caso, a função de classificação é definida por:

g(x) = sinal(

m

X

i=1

αiy(i)K(x(i), x) + β0). (3.26)

Os kernels K mais comuns são:

• Polinomial : (x(i)· x)d, onde d é o grau polinomial;

• Função de base radial gaussiana (ou Radial Basis Function — RBF): exp(−γ||x(i)

x||2),

com γ > 0;

• Tangente hiperbólica: tanh(κx(i)· x + c), com κ > 0 e c < 0.

3.5

Deep-learning

Deep Learning (ou Aprendizado profundo) é uma classe de técnicas de aprendizagem de máquina que utiliza arquiteturas com várias camadas de processamento de informação não lineares, organizadas de forma hierárquica [122]. Essas técnicas têm sido aplicadas com sucesso em vários domínios de trabalhos em processamentos de sinais e informações como: segmentação de imagens [79, 93], reconhecimento de imagens [51, 72], reconhecimento de gestos [119], processamento de linguagem natural [24] e classificação de áudio [73].

Seu fundamento é tentar encontrar os melhores modelos para representar informações em bases de dados de grande escala. Esses modelos possuem várias camadas com diferentes níveis de abstração. Camadas de níveis mais elevados são formadas a partir de camadas de níveis menos elevados e com menor abstração. As camadas são constituídas de unidades de processamento não lineares, incluindo conjuntos de fórmulas proposicionais. A forma em que essas unidades são organizadas e conectadas definem o tipo de arquitetura da rede. Alguns exemplos de arquiteturas de Deep learning são: redes neurais artificiais profundas [70], redes neurais convolucionais [66], deep belief networks [51] e redes neurais recorrentes [41].

3.5.1

Rede neural artificial (RNA)

A rede neural artificial (RNA) é um modelo computacional para aprendizagem de má-quina, inspirado em redes neurais biológicas. Em analogia ao cérebro humano, uma RNA é composta por várias unidades de processamento (UPs) conectadas entre si, representando neurônios. Um neurônio real constitui-se basicamente de três partes, conforme ilustrado na Figura 3.3: corpo celular ou soma, dendritos e axônios. O corpo celular é o centro metabólico que contém o núcleo e as organelas do neurônio. Os dendritos são prolonga-mentos responsáveis pela recepção de impulsos nervosos. Quando esses impulsos atingem

(41)

CAPÍTULO 3. FUNDAMENTAÇÃO TEÓRICA 41

um certo limiar de ação, o neurônio passa a transmitir impulsos para outros neurônios por prolongamentos denominados axônios.

Figura 3.3: Estrutura de um neurônio real.

Em neurônios artificiais, os sinais recebidos pelos dendritos são representados por um conjunto de valores de entrada (x0, x1, ...xn), sendo n+1 o número de entradas e x0fixo em

um. A saída do neurônio y referente ao axônio é calculada por uma função matemática conhecida como função de ativação. A Figura 3.4: apresenta um modelo de neurônio artificial com suas entradas e saída.

O valor de saída do neurônio artificial é defindo por uma função hθ:

y = hθ(x) = f (g(x)), (3.27)

g(x) = z = θTx, (3.28)

onde θ é o vetor dos pesos do neurônio com n + 1 dimensões, e f é uma função não linear chamada de função de ativação. As funções de ativação mais utilizadas são a sigmóide (3.15) e a tangente hiperbólica definida por:

f (z) = tanh(z) = e

z− e−z

ez+ e−z. (3.29)

(42)

Figura 3.5: Ilustração de rede neural artificial apresentando camadas de entrada, ocultas e de saída.

A função tanh tem um intervalo de saída diferente da sigmóide. Seu intervalo de saída é [−1, 1] em vez de [0, 1].

Um único neurônio artificial é semelhante ao modelo de RL. Na rede neural, várias unidades são interligadas entre camadas. Cada camada pode ter uma ou mais UPs. As saídas das camadas anteriores são conectadas como entradas às camadas seguintes. A primeira camada representa os dados x e também é chamada de camada de entrada. As camadas entre a primeira e a última são denominadas camadas ocultas ou escondidas. A última camada é chamada de camada de saída e geralmente tem uma unidade por rótulo de classe, retornando probabilidades condicionais. Se os rótulos de classe são binários, a camada de saída pode ter também uma em vez de duas unidades. A Figura 3.5 apresenta uma ilustração de uma rede neural artificial com três unidades na camada de saída.

A saída de cada camada l é definida por a(l):

a(l) =    xi, se l = 1 f (Θ(l−1)a(l−1)), caso contrário , (3.30)

com a sendo um vetor de duas dimensões, onde a primeira dimensão corresponde ao índice da camada e a segunda, a unidade. Os valores de saídas da primeira unidade de cada camada são fixos em um para o cálculo dos valores do viés.

Os parâmetros da rede (Θ) possuem três dimensões, onde Θ(l)jk é utilizado para denotar o peso associado a uma conexão entre a unidade k na camada l e a unidade j na camada l + 1. Seus valores podem ser encontrados através do algoritmo backpropagation descrito por Werbos [117]. Esse algoritmo é baseado no método de gradiente descendente também utilizado para treinar outros modelos como a RL. Para uma rede com uma UP na camada

Referências

Documentos relacionados

No panorama internauta são vários os softwares à disposição do utilizador que servem para converter ficheiros PDF em flipbooks, que nada mais são que livros ou publicações

Contudo, sendo um campo de pesquisa e de atuação muito específico e novo no Brasil, ainda existe uma série de dificuldades para a eleição de parâmetros de conservação

Pela sociedade do nosso tempo: para que as pessoas não se deixem vencer pela tentação do ateísmo, do consumismo e do hedonismo, mas se esforcem por construir a vida de

Ninguém quer essa vida assim não Zambi.. Eu não quero as crianças

Resumidamente a forma de comercialização dos apartamentos FLAT e operação de locação dos apartamentos do HOTEL para uma bandeira hoteleira proposta a seguir objetiva a

Hoje o gasto com a saúde equivale a aproximada- mente 8% do Produto Interno Bruto (PIB), sendo que, dessa porcentagem, o setor privado gasta mais que o setor público (Portal

Este trabalho traz uma contribuição conceitual sobre a utilização do sistema de gestão de produtividade que poderá motivar futuras pesquisas sobre o tema, bem

O Custeio Baseado em Atividade nas empresas de prestação de serviço, assim como na indústria, envolve os seguintes passos: os recursos consumidos são acumulados por