• Nenhum resultado encontrado

MAPAS AUTO-ORGANIZÁVEIS NO DESENVOLVIMENTO DE UMA ESCALA DE GRAVIDADE PARA PACIENTES COM POLINEUROPATIA AMILOIDÓTICA FAMILIAR

N/A
N/A
Protected

Academic year: 2021

Share "MAPAS AUTO-ORGANIZÁVEIS NO DESENVOLVIMENTO DE UMA ESCALA DE GRAVIDADE PARA PACIENTES COM POLINEUROPATIA AMILOIDÓTICA FAMILIAR"

Copied!
54
0
0

Texto

(1)

MAPAS AUTO-ORGANIZÁVEIS NO

DESENVOLVIMENTO DE UMA ESCALA DE

GRAVIDADE PARA PACIENTES COM

POLINEUROPATIA AMILOIDÓTICA FAMILIAR

Felipe Gonzalez Tubio Machado

Projeto de Graduação apresentado ao Curso de Engenharia Eletrônica e de Computação da Escola Politécnica, Universidade Federal do Rio de

Janeiro, como parte dos requisitos necessários à obtenção do título de Engenheiro.

Orientadores: José Manoel de Seixas Debora Foguel

Márcia Waddington Cruz

Rio de Janeiro Abril de 2016

(2)

ii

MAPAS AUTO-ORGANIZÁVEIS NO

DESENVOLVIMENTO DE UMA ESCALA DE

GRAVIDADE PARA PACIENTES COM

POLINEUROPATIA AMILOIDÓTICA FAMILIAR

Felipe Gonzalez Tubio Machado

PROJETO DE GRADUAÇÃO SUBMETIDO AO CORPO DOCENTE DO CURSO DE ENGENHARIA ELETRÔNICA E DE COMPUTAÇÃO DA ESCOLA POLITÉCNICA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO ELETRÔNICO E DE COMPUTAÇÃO

Autor:

_________________________________________________ Felipe Gonzalez Tubio Machado

Orientador:

_________________________________________________ Prof. José Manoel de Seixas, D. Sc.

Orientador:

_________________________________________________ Profª. Debora Foguel, D. Sc.

Orientador:

_________________________________________________ Profª. Márcia Waddington Cruz, D. Sc.

Examinador:

_________________________________________________ Profª. Mariane Rembold Petraglia, D. Sc.

Examinador:

_________________________________________________ Prof. Flávio Luis de Mello, D. Sc

Rio de Janeiro – RJ, Brasil Abril de 2016

(3)

iii

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

Escola Politécnica – Departamento de Eletrônica e de Computação Centro de Tecnologia, bloco H, sala H-217, Cidade Universitária Rio de Janeiro – RJ CEP 21949-900

Este exemplar é de propriedade da Universidade Federal do Rio de Janeiro, que poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento.

É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado, para pesquisa acadêmica, comentários e citações, desde que sem finalidade comercial e que seja feita a referência bibliográfica completa.

(4)

iv Machado, Felipe Gonzalez Tubio

Mapas Auto-Organizáveis no Desenvolvimento de Uma Escala de Gravidade Para Pacientes com Polineuropatia Amiloidótica Familiar/ Felipe Gonzalez Tubio Machado. – Rio de Janeiro: UFRJ/ Escola Politécnica, 2016.

XIII, 41 p.: il.; 29,7 cm.

Orientadores: José Manoel de Seixas Debora Foguel

Márcia Waddington Cruz

Projeto de Graduação – UFRJ/ Escola Politécnica/ Curso de Engenharia Eletrônica e de Computação, 2016. Referências Bibliográficas: p. 40-41.

1. Sistema de Apoio à Decisão. 2. Mapas Auto-Organizáveis. 3. Polineuropatia Amiloidótica Familiar. I. Seixas, José Manoel de et al. II. Universidade Federal do Rio de Janeiro, Escola Politécnica, Curso de Engenharia Eletrônica e de Computação. III. Titulo.

(5)

v

DEDICATÓRIA

Dedico esse trabalho à minha família e a todos que de alguma forma contribuíram para o seu desenvolvimento.

(6)

vi

AGRADECIMENTO

Agradeço à minha mãe, meu pai, meus irmãos, meus tios e minha namorada pela educação, incentivo, paciência e pelo carinho que sempre tiveram por mim.

Agradeço ao meu orientador, José Manoel de Seixas, pela confiança e ensinamentos que foram fundamentais para o desenvolvimento desse projeto.

Agradeço às coorientadoras, Márcia Waddington Cruz e Debora Foguel. Duas pessoas incríveis que tenho muito orgulho de ter tido a oportunidade de conhecer.

Agradeço aos que em algum momento também foram alunos desse projeto, Victor Barros e Shenia Novis, que também participaram e ajudaram no seu desenvolvimento.

Agradeço aos funcionários, professores e amigos da faculdade, por terem feito parte dessa trajetória.

Agradeço ao Laboratório de Processamento de Sinais, por ser a segunda casa que é e que continuará sendo para os seus alunos.

(7)

vii

Resumo do Projeto de Graduação apresentado à Escola Politécnica/ UFRJ como parte dos requisitos necessários para a obtenção do grau de Engenheiro.

Mapas Auto-Organizáveis no Desenvolvimento de uma Escala de Gravidade Para Pacientes com Polineuropatia Amiloidótica Familiar

Felipe Gonzalez Tubio Machado Abril/2016

Orientadores: José Manoel de Seixas Debora Foguel

Márcia Waddington Cruz Curso: Engenharia Eletrônica e de Computação

A Polineuropatia Amiloidotica Familiar (PAF) é uma doença rara caracterizada pelo depósito de fibrilas amiloides nos orgãos e tecidos A grande quantidade de sintomas da doença e as diferentes manifestações, que dependem da origem étnico-geográfica do paciente, tornam a avaliação do estágio de gravidade do paciente, uma tarefa complexa. Novas abordagens que auxiliem na classificação de um paciente quanto ao seu grau de severidade podem então ser de grande ajuda para a área médica. A proposta desse projeto é o desenvolvimento de um sistema de apoio à decisão, com a utilização de técnicas de inteligência computacional para a divisão dos pacientes em grupos. A partir dos sintomas, exames e outros dados clínicos dos pacientes, uma rede neural não-supervisionada, SOM (Self-Organizing Map), foi utilizada no processo de agrupamento. Este é um modelo de rede que agrupa eventos similares, com o objetivo de criar clusters que representam diferentes estágios da doença. A intensa interação com a área médica, faz com que esse projeto tenha como proposta uma relação interdisciplinar para atingir os objetivos definidos. Cinco grupos foram obtidos e cada um representa um estágio específico para a doença. No grupo 1, a maioria dos sintomas estava ausente, representando os pacientes assintomáticos ou com um estágio inicial da doença. O grupo 2 representa os casos leves da doença. O grupo 3 é caracterizado pelos casos moderados. O grupo 4 é representado pelos pacientes em um estágio moderado-grave e a o grupo 5 pelos casos graves da doença. Como proposto, a escala de severidade foi então capaz de classificar o atual estágio da doença no paciente, podendo auxiliar assim o serviço médico.

Palavras-Chave: Polineuropatia Amiloidótica Familiar, Inteligência Computacional, Rede Neural Artificial.

(8)

viii

Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillment of the requirements for the degree of Engineer.

Self-Orginizing Maps on the Development of a Severity Score for Patients with Familial Amyloid Polyneuropathy

Felipe Gonzalez Tubio Machado April/2016

Orientadores: José Manoel de Seixas Debora Foguel

Márcia Waddington Cruz Course: Electronic & Computer Engineering

The Familial Amyloid Neuropathy is a rare disease characterized by the amyloid fibrils deposition in organs and tissues. It presents a large amount of symptoms and different manifestations can be found, depending on ethnic and geographic origin of the patient. This fact makes the patient severity stage evaluation a complex task. Therefore, new approaches to assist in patient classification can be of great help to the medical field. The purpose of this project is to develop a decision support system, using computational intelligence techniques to divide patients into groups. An unsupervised neural network, known as Self-Organizing Map, was used in the clustering process. Based on a set of symptoms, this neural network groups similar events, creating clusters that represents different stages of the disease. Due to the intense interaction with the medical field, the interdisciplinary perspective is needed in order to achieve the goals on this project. Five groups were defined and each one represents a specific stage of the disease. In group 1, most of the symptoms were absent, representing asymptomatic patients or those with a very mild stage. Group 2 was related to mild cases and group 3 to a moderate stage. The Group 4 was characterized by patients with moderate-severe stage and group 5 was represented by the severe cases. Finally, the severity score was able to identify the patient current stage of the disease, and can be used to assist the medical service.

Key-words: Familial Amyloid Neuropathy, Computational Intelligence, Self-Organizing Map.

(9)

ix

SIGLAS

BMU – Best Matching Unit

CEPARM – Centro de Estudos em Paramiloidose Antônio Rodrigues de Mello ECG – Eletrocardiograma

NYHA – New York Heart Association PAF – Polineuropatia Amiloidótica Familiar PND – Polyneuropathy Disability

RNA – Rede Neural Artificial SAD – Sistema de Apoio à Decisão SNP – Sistema Nervoso Periférico SOM – Self Organizing Map

THAOS – Transthyretin Amyloidosis Survey TTR – Transtirretina

(10)

x

Sumário

Lista de figuras xii

Lista de Tabelas xiii

1 Introdução 1 1.1 - Tema . . . 1 1.2 - Delimitação . . . 1 1.3 - Justificativa . . . 2 1.4 - Objetivos . . . 4 1.5 - Metodologia . . . 4 1.6 - Descrição . . . 5

2 Polineuropatia Amiloidótica Familiar 7 2.1 - A Polineuropatia Amiloidótica Familiar associada à proteína TTR. . . 7

2.2 - Características clínicas da PAF . . . 8

2.3 - Diagnótico da PAF . . . 9

2.4 - PAF tipo I em diversas regiões geográficas . . . 9

2.5 - Escalas no acompanhamento da doença . . . 10

3 Fundamentação Teórica 11 3.1 - Agrupamento de dados . . . 11 3.2 - Mapas Auto-Organizáveis . . . 12 3.3 - Clusterização . . . 16 4 Resultados 17 4.1.1 - Base de dados. . . 17

(11)

xi

4.1.2 - Codificação dos dados. . . 19

4.2 - Mapa Base . . . 21

4.2.1 - Clusterização com 30 variáveis . . . 21

4.2.2 - Análise dos grupos formados . . . 24

4.3 - Estudo da redução do número de variáveis. . . 29

4.3.1 - Clusterização com 28 variáveis . . . 30

4.3.2 - Análise do grupo formado para o novo mapa . . . 32

5 Conclusão 38

(12)

xii

Lista de Figuras

3.1- Diagrama de um mapa auto-organizável. Fonte: Dissertação,Cascão[1] . . . . 13

4.1- U-Matrix obtida para o treinamento com 30 variáveis. . . 22

4.2- Índice de Davies-Bouldin para diferentes quantidades de clusters. . . 23

4.3- Agrupamento obtido pelo k-means, definindo o Mapa Base. . . 24

4.4- U-Matrix obtida para o treinamento com 28 variáveis. . . 30

4.5- Índice de Davies-Bouldin para o novo mapa. . . 31

4.6- Agrupamento obtido pelo k-means, definindo o novo mapa. . . 32

4.7- Movimentação de pacientes no grupo 1. . . 34

4.8- Movimentação de pacientes no grupo 2. . . 35

4.9- Movimentação de pacientes no grupo 3. . . 35

(13)

xiii

Lista de Tabelas

4.1 – Codificação para todas as variáveis utilizadas. . . 20 4.2- Distribuição dos pacientes nos grupos do mapa com 30 variáveis . . . 25 4.3- Quantidade de pacientes e índice PND no grupo 1. . .

26 4.4- Quantidade de pacientes e índice PND no grupo 2. . .

26 4.5- Quantidade de pacientes e índice PND no grupo 3. . . 27 4.6- Quantidade de pacientes e índice PND no grupo 4. . .

27 4.7- Quantidade de pacientes e índice PND no grupo 5. . .

28 4.8- Presença de cada grau da escala PND nos grupos do mapa . . .

28 4.9- Distribuição dos pacientes nos grupos do mapa com 28 variáveis. . . 33

(14)

1

Capítulo 1

Introdução

1.1 – Tema

O tema do trabalho é o desenvolvimento de um Sistema de Apoio à Decisão (SAD), utilizando mapas auto-organizáveis, para auxiliar no serviço médico de diagnóstico e acompanhamento de pacientes. A fusão de informações de diferentes naturezas, devido à intensa interação com a área médica, faz com que esse projeto tenha como proposta uma relação multidisciplinar para atingir os objetivos definidos. A proposta do projeto é então desenvolver um SAD capaz de auxiliar no acompanhamento dos pacientes portadores de Polineuropatia Amiloidótica Familiar (PAF).

1.2 – Delimitação

A facilidade de armazenamento e disponibilização de dados gerada pelo desenvolvimento tecnológico, fez com que o volume de informação se tornasse cada vez maior. Diante desse ambiente complexo e informatizado, os sistemas de apoio à decisão (SAD) ganharam um importante papel. Os SADs são sistemas que auxiliam em tarefas que envolvem tomada de decisão. Eles são capazes de lidar com uma grande quantidade de dados a serem analisados, combinando conhecimentos prévios sobre o tema e modelos matemáticos pertinentes para propor uma solução, auxiliando na tomada de decisão necessária.

As vantagens que a utilização dos SADs apresenta, como a rapidez para propor a solução de um problema, além da facilidade de sua utilização, tornam esses sistemas atrativos para diversas áreas. Todas as atividades que envolvem tomadas de decisões importantes podem se beneficiar desse sistema. Eles são empregados em áreas como o planejamento estratégico, auxiliando na decisão dos setores que merecem mais investimento; controle gerencial contribuindo para especificar as necessidades imediatas de uma empresa; finanças, assistindo decisões relativas à análise de

(15)

2

crédito; na área médica em particular, são capazes de fornecer uma importante contribuição.

Na área médica, o principal propósito na utilização do SAD é para o diagnóstico e prognóstico de doenças, auxiliando o serviço médico no acompanhamento da situação do paciente. Com o avanço das técnicas de Inteligência Computacional, há a possibilidade de desenvolver sistemas que aprendam com experiências passadas e/ou reconheçam padrões ou características relevantes nos dados clínicos dos pacientes. Em muitas situações, a grande quantidade de dados, que no caso seriam os sintomas, dificultam a análise e o julgamento clínico. A dificuldade em lidar com dados em alta-dimensionalidade faz com que o reconhecimento de padrões seja trabalhoso e complicado para os profissionais de saúde. Há então a possibilidade de implementação de um SAD que auxilie nesse tipo de tarefa.

Sendo assim, é possível utilizar métodos baseados no conhecimento e experiência de especialistas sobre determinado problema, juntamente com métodos estatísticos lineares e não-lineares de reconhecimento de padrões e extração de característica, de modo que seja possível o desenvolvimento de apoio à decisão clínica por exemplo [1].

Vale ressaltar aqui uma importante limitação da escala de gravidade proposta nesse trabalho. As variáveis dos pacientes (sintomas, exames e outros dados clínicos) constituem as informações necessárias para que o SAD utilizado divida os pacientes em grupos de severidade da doença. O banco de dados utilizado nesse projeto se restringe a brasileiros, limitando a variabilidade genética. Como essa doença possui diferentes sintomas característicos na sua manifestação em outros países, um estudo com outras populações seria necessário para expandir a utilização do classificador no uso clínico.

1.3 – Justificativa

A PAF é uma doença progressiva que, se não tratada, pode levar à morte em 10 anos em média. Portanto é relevante qualquer sistema ou método que possa de alguma forma auxiliar no tratamento dos pacientes. Verificando-se a dificuldade de determinar exatamente em que estágio de desenvolvimento da doença estava cada paciente, constatou-se a potencialidade do desenvolvimento de uma escala de gravidade para a mesma.

(16)

3

Sendo assim, com o auxílio de ferramentas de Inteligência Computacional, obter um sistema que, alimentado com os dados clínicos, exames e sintomas de um paciente, fosse capaz de apresentar como resposta o nível de gravidade para o indivíduo analisado, poderia ser de importante ajuda na prática clínica e em uma possível tomada de decisão, assim como no entendimento da relação dos sintomas com a doença.

O baixo custo de sua utilização, aliado à velocidade com que os resultados são obtidos, além da capacidade de trabalhar com um número elevado de dados, fez com que o SAD fosse uma opção interessante para o apoio clínico da Polineuropatia Amiloidótica Familiar (PAF).

A PAF é uma doença rara caracterizada pelo depósito da proteína Amilóide nos órgãos e tecidos ocasionando a sua disfunção. A doença é dividida em quatro grupos, cada um com uma origem étnico-geográfica diferente. A PAF tipo I, ou tipo Português, é predominante na população brasileira e está associada às mutações do gene da proteína Transtirretina (TTR). Esse tipo é caracterizado por danos no sistema nervoso periférico com um acometimento lento e progressivo.

O fígado é responsável pela produção de 98% da TTR. Mutações nessa proteína desestabilizam sua estrutura tetramérica e levam a sua dissociação em monômeros, potencializando a formação de fibrilas que se tornam depósitos amiloidóticos nos tecidos. Esses depósitos geram danos por um mecanismo tóxico ainda não totalmente compreendido. Além dos danos neurológicos, há também sintomas como diarreia, constipação, náusea, vômito, perda de peso. Há ainda alguns casos, que apresentam acometimentos cardíacos, com anormalidades da condução cardíaca, além dos danos causados pelo depósito de amiloide na parede ventricular e no septo.

A PAF, apesar de ser considerada uma doença rara, já é encontrada em todo o mundo e com regiões endêmicas em países como Portugal, Suécia, Japão e Brasil. Há um interesse por parte dos centros de referência em atendimento dos pacientes com PAF que se desenvolva uma escala de gravidade que determine a progressão da doença e que auxilie os médicos a determinarem um nível de gravidade para dado paciente. Contudo, a natureza sistêmica da doença, caraterizada por uma grande quantidade de sintomas, aliada às diferentes manifestações influenciadas pela origem geográfica, tornam essa tarefa complexa.

Nesse contexto, a utilização de um SAD mostrou-se oportuna. Identificou-se a potencialidade de aplicar uma Rede Neural Artificial (RNA) para criar uma escala

(17)

4

de gravidade para a PAF. Sintomas neurológicos, cardíacos e outras manifestações características seriam extraídas do banco de dados Transthyretin Amyloidosis Survey (THAOS). Esses dados correspondem aos dos pacientes tratados no Centro de Estudos em Paramiloidose Antônio Rodrigues de Mello (CEPARM), localizado no Hospital Universitário Clementino Fraga Filho, da UFRJ.

Há um histórico na utilização de RNAs como Sistema de Apoio à Decisão na área médica. Um exemplo foi o trabalho feito para a utilização de um SAD no diagnóstico e prognóstico da Tuberculose. Inspirados nesse e em outros projetos de acompanhamento médico, optou-se pelo uso de sistemas de Inteligência Computacional para obter um escore de gravidade para a PAF.

1.4 – Objetivos

O principal objetivo desse trabalho é o de desenvolver uma escala de gravidade para PAF. Para tal, utilizou-se redes neurais não-supervisionadas do tipo Self

Organizing Map (SOM), buscando obter agrupamentos entre pacientes, com base nos

seus sintomas e dados clínicos obtidos. Cada grupo corresponderia a um diferente nível de gravidade da doença e a determinação de qual grupo representava qual grau de severidade seria feita com a ajuda de especialistas da área médica.

Além disso, com objetivo de adicionar uma maior praticidade na escala proposta, um estudo para verificar a possibilidade de redução do número de variáveis necessárias para obter o nível de gravidade do paciente também foi desenvolvido.

1.5 – Método

Em um primeiro momento, era importante decidir os critérios de inclusão do banco de dados que seria usado para o treinamento da Rede. Nessa fase, decidiu-se que os pacientes com alguma mutação especificada no gene da proteína Transtirretina, acompanhados no CEPARM e que estivessem no banco de dados internacional THAOS, seriam os que constituiriam os dados de entrada para a RNA. Nesse momento, 98 pacientes encontravam-se elegíveis e foram incorporados no banco de dados.

Em uma segunda etapa, para o desenvolvimento da escala de gravidade, era necessário fazer a seleção dos sintomas relevantes característicos da doença que serviriam de dados de entrada para a RNA. Foram escolhidos 30 variáveis, dentre eles

(18)

5

alguns considerados importantes sobre a história genética, outros relacionados aos sintomas sistêmicos, e também foram incluídos alguns sintomas cardíacos.

Com os dados já selecionados e extraídos do THAOS, uma codificação dos mesmos era fundamental para que se possuísse um banco de dados capaz de ser utilizado como entrada para o treinamento de uma RNA. Portanto, valores numéricos tiveram que ser atribuídos às variáveis categóricas, possibilitando seu uso para o sistema de Inteligência Computacional desejado.

Decidiu-se utilizar a rede neural não-supervisionada SOM. Um dos motivos para essa escolha foi que já havia uma experiência positiva adquirida com o uso dessa ferramenta para o diagnóstico e prognóstico de Tuberculose. Além disso, as características do problema proposto, como o agrupamento de pacientes por similaridade, indicavam que o SOM seria capaz de propor uma solução adequada.

A última etapa desse processo seria a análise dos resultados obtidos com a implementação da RNA. Era necessário verificar se os agrupamentos refletiam a situação clínica dos pacientes e se realmente pacientes similares estavam em um mesmo grupo. Para essa investigação contou-se com a ajuda médica para avaliação dos sintomas predominantes em cada grupo e na determinação de quais grupos representavam estágios iniciais da doença e quais correspondiam aos mais graves.

Esse procedimento permitiu o desenvolvimento de um sistema de apoio à decisão, com a utilização de ferramentas e métodos de Inteligência Computacional, cujo o objetivo principal foi o de fornecer uma escala para gravidade da PAF.

Um estudo foi também realizado para verificar a possibilidade da redução do número de variáveis utilizadas no desenvolvimento da escala. A mesma metodologia já descrita foi aplicada nessa etapa.

1.6 – Descrição

No próximo capítulo será apresentada uma breve descrição da doença em estudo, introduzindo os principais sintomas, algumas possíveis manifestações em relação à origem étnico-geográfica e o seu processo de diagnóstico. Além disso será apresentada uma escala já desenvolvida para o acompanhamento da doença.

No capítulo 3 a fundamentação teórica e a descrição das técnicas de inteligência computacional utilizadas são apresentadas. é apresentada a base de dados e como foi feita sua codificação para que fosse possível utilizá-la nos objetivos desse projeto.

(19)

6

No capítulo 4 é apresentada a base de dados e como foi feita sua codificação para que fosse possível utilizá-la nos objetivos desse projeto. Além disso os resultados obtidos e a análise dos mesmos são apresentados. Esse processo é desenvolvido para a base dados com 30 diferentes variáveis e para o banco reduzido com 28 variáveis.

A conclusão sobre a escala de gravidade da PAF proposta é apresentada no capítulo 5, assim como as perspectivas futuras para a continuidade dos trabalhos de pesquisa nesse assunto.

(20)

7

Capítulo 2

Polineuropatia Amiloidótica Familiar

A Amilloidose, caracterizada pelo depósito de substância amiloidótica em órgãos e tecidos, representa um grupo de doenças. Ela pode ser adquirida ou hereditária. Considerando as adquiridas pode-se desenvolver a Amiloidose Sistêmica Primária, a Amiloidose Secundária e a Amiloidose Sistêmica Senil. Essa última é identificada por um início tardio e se dá pelo depósito da forma selvagem da proteína TTR, que não apresenta mutação genética. A TTR é uma das proteínas capaz de formar fibrilas amiloides em seres vivos que podem ser depositadas em tecidos. [2-5]

Há mais de 20 proteínas que podem gerar a doença amiloidótica, a maioria delas apresentam essa característica devido às mutações genéticas em sua estrutura. A mutação da proteína TTR é a forma mais comum. As doenças amiloidóticas hereditárias acometem principalmente o Sistema Nervoso Periférico (SNP), por isso são conhecidas como Polineuropatia Amiloidótica Familiar. É importante ressaltar que há uma subclassificação da doença de acordo com a origem étnico-geográfica dos pacientes. O tipo I, ou Português está relacionado à mutação Val30Met da proteína TTR. O tipo II, ou Suíço também apresenta mutação na proteína TTR. O tipo III, ou Iowa, é causado pela apolipoproteína A1 mutante [6]. O tipo IV, ou Finlandês, extremamente raro, apresenta a mutação no gene da proteína gelsolina [7].

2.1

A Polineuropatia Amiloidótica Familiar associada à proteína TTR

A PAF associada à proteína TTR é a doença hereditária amiloidótica mais comum. Devido à alguma mutação genética, a estrutura da proteína fica desestabilizada, o que potencializa a formação de fibrilas. É uma doença progressiva e fatal, caracterizada por uma neuropatia sensitiva, motora e autonômica, porém outros órgãos podem ser afetados, principalmente o coração. Devido à sua grande quantidade de sintomas, com diferentes possíveis mutações na proteína TTR, muitas especialidades médicas são responsáveis no seu reconhecimento e acompanhamento [4]. Das neuropatias hereditárias, a PAF configura a de pior prognóstico, com um maior impacto na funcionalidade e qualidade de vida dos pacientes [8].

(21)

8

A mutação Val30Met da proteína TTR é a mais prevalente no mundo para pacientes com PAF. Devido a esse fato, é comum se dividir os pacientes em portadores da mutação Val30Met e aqueles com outras mutações não Val30Met [3].

A PAF, relacionada às mutações no gene TTR, é de especial importância para a população brasileira, pois é a mais comum em populações de ascendência portuguesa. Vale ressaltar a grande quantidade de descendentes portugueses no Brasil, principalmente no Rio de Janeiro, que é considerada a cidade portuguesa fora de Portugal. Em 1984, na Universidade Federal do Rio de Janeiro, foi criado o CEPARM, que registra os pacientes portadores de PAF no Brasil desde então. Em anos de acompanhamento, foi observada a mesma apresentação clínica de Portugal, apesar da grande miscigenação no país [9].

2.2

Características clínicas da PAF

A doença amiloidótica ligada à TTR possui uma grande variabilidade clínica, com sintomas neurológicos e cardíacos predominantes. O início da manifestação da doença, em geral, acontece da terceira à quinta década em pessoas de origem portuguesa e japonesa. O óbito ocorre em média 10 anos após o início da doença [4,8,10].

Tipicamente, a neuropatia sensitiva começa nos membros inferiores. Quando atingidido o nível dos joelhos, geralmente se observa um acometimento nas mãos também. Em alguns casos a neuropatia autonômica é a primeira manifestação da doença e seus achados incluem constipação alternada com diarreia, náuseas e vômitos, impotência sexual, retenção ou incontinência urinária, entre outros. A progressão da doença pode causar perda de sensibilidade tátil e do equilíbrio além de ocasionar dificuldade da marcha [11,12].

O tecido cardíaco também é afetado pelo depósito de fibrilas amiloides. Os sintomas estão relacionados à insuficiente cardíaca, arritmia, síncope, entre outros. O sistema de condução é o mais comumente afetado, gerando desordem da condução cardíaca. O espessamento da parede ventricular e do septo interatrial, além da redução da fração de ejeção ventricular esquerda também são possíveis sintomas nos casos de pacientes com acometimento cardíaco [5].

(22)

9

Um sintoma importante é a disfunção renal. Quando presente, ela é um indicativo que esse paciente está em um estágio avançado da doença. Além disso, glaucoma, olho seco e alterações pupilares também são comuns.

2.3

Diagnóstico da PAF

Os sintomas clínicos, a identificação da mutação da TTR e o depósito de amiloide em material de biópsia são importantes para o diagnóstico da PAF. A coloração Vermelho do Congo é utilizada para detectar deposito de amilóide no tecido afetado. A biópsia do nervo continua a ser usada em casos seletivos, porém procedimentos menos invasivos, como por exemplo a biópsia da gordura abdominal e glândula salivar labial são preferidos [5, 13].

Os portadores de mutação da TTR podem não apresentar sintomas até idades avançadas, sendo conhecido como portadores assintomático da doença. Esse é um fato que influencia no conhecimento da história familiar, já que muitos indivíduos podem negar conhecimento de outros casos na família por serem portadores assintomáticos com morte prematura antes do início dos sintomas.

2.4

PAF tipo I em diversas regiões geográficas

Países como Portugal, Suécia, Japão e Brasil são áreas endêmicas da PAF e possuem a mutação Val30Met como a mutação mais identificada. Mas é importante considerar que diferenças importantes na manifestação da doença, particularmente a idade de início são observadas entre os países. Os principais determinantes dessa variabilidade são a origem geográfica e o tipo de mutação [4,9].

É comum o caso de polineuropatia sensitivo-motora com início aos 30 anos em Portugal e no Japão. Já na Suécia, a idade de início se faz em média aos 56 anos e o quadro tem progressão mais lenta. [4,3]

Em 2005, um estudo publicado por Bitterncourt e colaboradores, efetuado com 44 pacientes brasileiros com PAF, concluiu que o tipo de manifestação da doença nesses pacientes era semelhante ao encontrado nos pacientes portugueses. Características como idade de início, sinais clínicos e sintomas da doença se assemelhavam quando feita a comparação com os dois países. Todos os pacientes estudados apresentaram a mutação Val30Met. [14]

(23)

10

Mais recentemente foi relatada uma mutação no Brasil diferente da Val30Met. Duas famílias brasileiras foram diagnosticadas com a mutação Ile107Val, com início tardio dos sintomas, alterações neuropáticas e disfunção cardíaca [9].

2.5

Escalas no acompanhamento da doença

Algumas escalas para o acompanhamento da situação do paciente foram criadas. Entre elas, destaca-se a Polineuropathy Disability Score (PND) que retrata a dificuldade de marcha e classifica o paciente em: estágio 0, quando não há comprometimento de marcha; estágio I, quando há distúrbios sensoriais, mas a capacidade de andar está preservada; estágio II, quando a capacidade de andar está prejudicada, mas não há a necessidade de auxílio para deslocar-se; estágio IIIa, quando um apoio é necessário para andar; estágio IIIb, quando dois apoios se tornam necessários; estágio IV, quando os pacientes necessitam de cadeira de rodas. [3]

Contudo as escalas desenvolvidas até o momento, apesar de úteis, não são abrangentes e enfatizam principalmente a disfunção neurológica relacionada à sensibilidade e capacidade de marcha. Não incluem portanto, outros achados sistêmicos, referência à história familiar e ao tipo de mutação genética, que são importantes variáveis no desenvolvimento da doença.

Sendo assim, a escala proposta nesse projeto se diferencia das outras existentes, já que mais variáveis são levadas em consideração na sua composição. Além disso, o modelo proposto possibilita a vantagem da praticidade, com rápido resultado para o paciente analisado, além de apresentar informações visuais de fácil análise, como será descrito ao longo do trabalho.

(24)

11

Capítulo 3

Fundamentação teórica

3.1 – Agrupamento de dados

Dado o grande volume de informação visual a que os seres humanos têm acesso, a divisão de objetos em grupos facilita e propicia um reconhecimento rápido do ambiente. Essa é uma das formas de impor alguma ordem a uma grande quantidade de informação, de modo a propiciar um entendimento prévio por parte do observador. Esse mecanismo é feito de forma instintiva, porém quando trata-se de informações numéricas, o processo de reconhecimento de padrões e de agrupamento de objetos por similaridade torna-se uma tarefa complexa. Para tal, percebeu-se então a necessidade da utilização de algoritmos especializados na exploração e formação de grupos de dados [1].

O Agrupamento de dados, ou clusterização, é uma área de pesquisa fundamental na análise de dados. O objetivo desse tipo de procedimento é o de explorar, segundo uma métrica de semelhança pré-definida, a existência de dados similares. Tem-se a partir desse processo, a formação de grupos ou clusters que contém exemplos de dados similares entre si [15, 16].

Uma das maneiras de medir a simililaridade existente entre dados é utilizando a distância geométrica. Considerando-se que a similaridade seja apropriadamente representada no espaço dos vetores de características, então quanto mais similares dois indivíduos de uma população, maior será a proximidade, segundo uma métrica, dos seus vetores de características, podendo ser geometricamente próximos quando utilizado uma métrica geométrica [1].

Para se medir distância geométrica, um critério bastante utilizado é o formulado por Minkowski, no qual, para dois vetores 𝑥 e 𝑦 de dimensão 𝑙, tem-se:

𝑑𝑝(𝑥, 𝑦) = (∑𝑛 |𝑥𝑖 − 𝑦𝑖|𝑝

𝑖=1 )

1

𝑝 ∈ ℜ𝑙 (3.1)

onde 𝑥𝑖 e 𝑦𝑖 são componentes dos vetores 𝑥 e 𝑦, 𝑛 é a quantidade de elementos desses vetores e 𝑝 é um número inteiro qualquer maior ou igual a 1. Quando 𝑝

(25)

12

assume o valor 2, temos a distância euclidiana, que é usada como medida de similaridade.

Quando não há conhecimento sobre as classes de dados, somente de seus atributos e deseja-se fazer agrupamentos, o método de aprendizado não-supervisionado para realizar essa tarefa é comumente utilizado na área de Inteligência Computacional.

3.2 – Mapas Auto-Organizáveis

A motivação principal desse trabalho é propor um SAD que indique o nível de gravidade de um paciente portador de PAF. Para atingir esse objetivo, optou-se pela utilização da técnica de clusterização, para que se analisasse a relação da situação dos pacientes com os clusters formados, investigando-se assim os grupos que representariam cada estágio da doença.

Quando não há conhecimento sobre as classes de dados, somente de seus atributos e deseja-se fazer agrupamentos, o método de aprendizado não-supervisionado para realizar essa tarefa é comumente utilizado na área de Inteligência Computacional.

Os Mapas Auto-Organizáveis são um tipo de rede neural artificial que utilizam o treinamento não-supervisionado para mapear de maneira não-linear o espaço de entrada. Portanto, tem-se como finalidade obter uma representação de baixa dimensionalidade (geralmente bidimensional), possibilitando uma visualização menos complexa dos resultados obtidos, já que os mesmos podem ser representados de forma gráfica, facilitando assim a análise.

A rede neural conhecida como SOM (Self-Orginizing Map) foi utilizada então pelas vantagens, já mencionadas, da visualização em baixa dimensão e da possibilidade de representação gráfica dos resultados. O mapa é composto por neurônios que estão conectados entre si, como mostrado na figura 3.1:

(26)

13

Figura 3.1- Diagrama de um mapa auto-organizável.

Os neurônios dessa rede neural são organizados em duas camadas: uma camada de entrada, formada por n neurônios, um neurônio para cada vetor de entrada, e uma camada de saída, onde a informação é processada. Os neurônios dessa segunda camada são geralmente distribuídos em um mapa bidimensional.

O objetivo é que diferentes padrões dos dados de entrada ativem diferentes neurônios, que estão dispostos na estrutura bidimensional citada. Sendo assim é possível interferir em diversos locais no mapa. Através desse processo de ativação de diferentes regiões, torna-se possível fazer uma separação das entradas que não são similares.

O método de aprendizagem do SOM, é dividido em três etapas: competição, cooperação e adaptação. Na fase de competição, para cada vetor de entrada, há apenas um neurônio vencedor. O mesmo é conhecido como BMU (Best Matching

Unit). Os neurônios que estão conectados ao vencedor e portanto estão próximos a

ele, serão excitados a partir de uma função de vizinhança. Os pesos sinápticos do BMU e de seus vizinhos são então atualizados conforme o padrão de entrada. Percebe-se então que cada vetor de entrada é capaz de modificar o mapa, principalmente a região que for ativada por ele.

Os neurônios da camada de saída são caracterizados por um vetor peso com a mesma dimensão do vetor de entrada. Por exemplo, o neurônio 𝑖, 𝑗 (i-ésima linha e e j-ésima coluna) é caracterizado pelo vetor 𝑤𝑖𝑗 = [𝑤𝑖𝑗1 𝑤𝑖𝑗2 𝑤𝑖𝑗3 … 𝑤𝑖𝑗𝑛 ] [17].

Considerando os vetores de entrada 𝑥𝑖𝑗 = [𝑥1 𝑥2 𝑥3 … 𝑥𝑛 ], a atualização do vetor de pesos do BMU é feito sequencialmente através da equação 3.2:

(27)

14

onde 𝜂 representa uma taxa de aprendizagem monotonicamente decrescente e ℎ é conhecida como uma função de vizinhança. O valor da função depende da distância entre o BMU e o neurônio a ser atualizado, quanto mais perto estiverem os dois neurônios, maior seu valor. Além disso, o número de neurônios abrangidos por ela decresce com tempo.

A função de vizinhança pode ser definida de diferentes maneiras, desde funções simples como um degrau com valores constantes na vizinhança de um neurônio vencedor BMU, até funções baseadas em distribuições gaussianas,

𝑖𝑗(𝑡) = 𝑒𝑥𝑝 (−𝑑𝑖𝑗2

2𝜎2(𝑡)

⁄ ) (3.3)

onde 𝑑𝑖𝑗 é a distância euclidiana entre o neurônio 𝑗 e o BMU, 𝜎(𝑡) é a largura da vizinhança dos neurônios na iteração 𝑡.

Os neurônios do mapa podem ainda ser treinados utilizando o conceito de batelada. Esse método também é iterativo, mas ao invés de usar um vetor de dados por vez, um conjunto de vetores da base de dados é apresentado ao mapa antes dos pesos serem atualizados.

Antes de detalhar esse outro método de treinamento, vale introduzir o Diagrama de Voronoi. Esse diagrama representa informações relacionadas à proximidade. Por exemplo, seja um conjunto de objetos chamados Geradores, cada célula do Voronoi define o conjunto de pontos em um plano (ou em qualquer outra dimensão mais elevada) que estão mais próximos de um determinador Gerador do que de qualquer outro. O contorno de todas as células forma o Diagrama de Voronoi.

Voltando então ao treinamento por batelada, tem-se que a cada iteração, a base de dados é dividida conforme a disposição do Diagrama de Voronoi formado pelos neurônios do mapa. Assim, os vetores da base dados são associados ao seu BMU, fazendo que cada neurônio possua um conjunto de vetores da base de dados mais similares. Para cada neurônio é calculado o somatório desse conjunto:

(28)

15

onde 𝑛𝑉𝑖 é o número de eventos em cada célula 𝑖 do diagrama de Voronoi. Após

essa etapa, os vetores dos pesos sinápticos dos neurônios do mapa são atualizados conforme a equação 3.5:

𝑤

𝑖(𝑡+1)

=

∑𝑚𝑚𝑗=1𝑛ℎ𝑖𝑗(𝑡)𝑠𝑗

𝑗=1 𝑉𝑖ℎ𝑖𝑗(𝑡) (3.5)

onde 𝑚 o número de neurônios utilizando no mapa. Sendo assim, no treinamento por batelada, os pesos sinápticos dos neurônios são médias ponderadas, obtidas pela função de vizinhança dos eventos contidos na base de dados [1].

Neste projeto, utiliza-se o treinamento por batelada e a função de vizinhança gaussiana descrita na equação 3.3. Na camada de saída, são utilizados 100 neurônios no mapa bidimensional, com dimensão de 10x10 neurônios. O processo de treinamento do SOM pode ser resumido então por 5 etapas. Primeiramente há a inicialização dos pesos sinápticos dos neurônios do mapa de maneira aleatória, com os pesos escolhidos a partir de uma distribuição uniforme com valores máximos e mínimos dados pelos respectivos valores da base de dados. Em uma segunda etapa há a escolha de um vetor de entrada ou conjunto de vetores da base de dados para que o mapa seja ativado pelo mesmo. Em um terceiro momento há a medida de similaridade entre os pesos dos neurônios do mapa com as entradas, geralmente a distância euclidiana é usada como medida de similaridade. O neurônio mais similar ao vetor de entrada é ativado e é chamado de BMU. Na quarta etapa do algoritmo há a atualização dos pesos sinápticos dos neurônios do mapa, modificando-se devido à ativação que sofreram do vetor de entrada. Um novo vetor ou conjunto de vetores de entrada pode ser selecionado para uma nova ativação do mapa, repetindo-se o processo a partir de então [17].

Neste projeto o treinamento foi divido em três partes que utilizaram o conceito de batelada. Na primeira utiliza-se um treinamento mais abrangente, com uma largura de vizinhança maior (𝜎 = 3). Utilizando-se então o mapa já treinado pela fase anterior, na segunda e na terceira parte essa largura de vizinhança diminui, assumindo respectivamente os valores 𝜎 = 2 e 𝜎 = 1, suavizando as alterações no mapa.

(29)

16

3.3 – Clusterização

Uma maneira de interpretar o SOM é considerar que, durante o treinamento, o BMU e os neurônios adjacentes, também ativados pelo efeito da função de vizinhança, irão se mover para uma mesma direção. Esse processo ocorrerá na mesma região sempre que eventos similares da base de dados de entrada ativarem o mapa. Sendo assim o SOM forma um mapa onde eventos similares são agrupados e os dissimilares separados. Esse mapeamento pode visualizado através da U-Matrix do SOM [13].

A ideia básica da U-Matrix é a de utilizar a mesma métrica de distância empregada no processo de treinamento. Essa matriz representa um elemento visual considerável para a análise do resultado obtido após o treinamento. Cada coordenada de cada pixel é derivada das coordenadas dos neurônios no mapa, e a coloração de cada pixel na imagem, corresponde a uma distância calculada entre os neurônios adjacentes. Na figura da U-Matrix as cores quentes, avermelhadas, representam uma distância elevada entre os neurônios (são neurônios que foram pouco ativados no mapa). As cores frias, azuladas, representam proximidade entre os neurônios (indicando neurônios que foram ativados por muitas entradas).

Pode-se então interpretar o mapa, agrupando neurônios mais próximos, que possuem a cor azulada e considerando as regiões com neurônios avermelhados como fronteiras entre os grupos, já que representam neurônios distantes entre si.

Percebe-se que apesar de ser possível visualizar agrupamentos através da figura de uma U-Matrix, nem sempre é uma tarefa simples fazer todos os agrupamentos de maneira visual. Portanto um algoritmo para a clusterização do SOM é utilizado após o treinamento do mapa, com o objetivo de fazer os agrupamentos desejados.

O mapa foi clusterizado utilizando-se o algoritmo conhecido como K-means. O mesmo tem como intuito agrupar da melhor forma o mapa para que se tenha o número de clusters que se deseja alcançar. Há ainda a possibilidade de se utilizar o índice de Davies-Bouldin, para que se tenha uma espécie de avaliação da qualidade dos agrupamentos gerados.

O índice de Davies-Bouldin é uma medida de similaridade entre agrupamentos. O mesmo não depende do método de partição que foi utilizado e é comumente utilizado para a avaliação dos clusters formados. Esse índice é dado pela equação 3.6:

(30)

17

𝐼

𝐷𝐵

=

1𝐶

𝑚𝑎𝑥

𝑙≠𝑘

{

𝑆𝑐(𝑄𝑘)+𝑆𝑐(𝑄𝑙)

𝑑𝑐𝑒(𝑄𝑘,𝑄𝑙)

}

𝐶

𝑘=1 (3.6)

onde 𝑄 é um cluster, 𝐶 é o número de clusters e 𝑆𝑐, dado pela equação 3.7, é uma medida de similaridade intra cluster, dado por 3.7:

𝑆

𝑐

=

𝑁1

𝑘

‖𝑥

𝑖

− 𝑐

𝑘

𝑁𝑘

𝑖=1 (3.7) Sendo, 𝑁𝑘 o número de eventos pertencentes ao cluster de centroide 𝐶𝑘. O termo 𝑑𝑐𝑒 é a distância entre os clusters, conforme 3.8:

𝑑𝑐𝑒 = ‖𝑐𝑘− 𝑐𝑙‖ (3.8)

Quanto menor for o índice de Davies-Bouldin, melhor foi o agrupamento do mapa obtido, e mais definidos e separados entre si se encontram os clusters formados [1].

(31)

18

Capítulo 4

Resultados

Este capítulo tem como objetivo mostrar os resultados obtidos pelo método seguido nesse trabalho, onde técnicas de clusterização foram utilizadas para propor o escore clínico.

Nesse capítulo será apresentada a base de dados utilizada, assim como sua codificação. Também serão discutidos e analisados os resultados dos agrupamentos obtidos. Vale ressaltar que para essa etapa foi de grande importância a interação com a área médica, para que fosse possível investigar cada grupo e seu nível de gravidade.

Além disso, será apresentado o estudo sobre a viabilidade da redução do número de variáveis usadas no treinamento do mapa.

4.1.1 – Base de dados

O banco de dados utilizado nesse trabalho refere-se às informações clínicas dos pacientes atendidos no CEPARM, localizado na UFRJ. Os pacientes portadores de alguma mutação no gene da proteína Transtirretina, sendo eles sintomáticos ou portadores assintomáticos e que estão incluídos no banco de dados internacional THAOS foram considerados. No momento que o trabalho foi realizado, esse banco possuía 98 pacientes brasileiros portadores da PAF.

Os pacientes atendidos no CEPARM são avaliados com exames físicos e laboratoriais. Antes da extração dos dados inseridos no THAOS, era importante selecionar os sintomas e dados relevantes para a utilização no trabalho proposto. Foram selecionadas então, dentre as variáveis clínicas e laboratoriais, aquelas que possuem maior importância no acompanhamento da PAF e as que representam informações marcantes para indicação de sua gravidade. Esse processo de seleção foi auxiliado pela neurologista Drª. Marcia Waddington Cruz, que possui grande experiência no acompanhamento de pacientes portadores da PAF, além da médica Shenia Sbardellotto Colnaghi Novis. A seleção dos parâmetros cardiológicos foi definida com o auxílio de cardiologistas da UFRJ, com supervisão do Dr. Roberto Coury Pedrosa. Essa seleção foi

(32)

19

inspirada em artigos atuais relacionados à essa doença, contando também com a experiência clínica e conhecimento dos especialistas envolvidos [3].

Em um primeiro momento foram selecionados 24 dados clínicos considerados mais relevantes sendo três sobre a histórica genética e o restante relacionado aos sintomas sistêmicos. Em uma segunda etapa foram adicionados alguns parâmetros cardiológicos de Eletrocardiograma (ECG) e Ecocardiograma, totalizando 30 informações selecionadas para cada paciente, compondo assim o banco de dados do projeto.

4.1.2 – Codificação dos dados

Os dados extraídos do THAOS, referentes aos pacientes brasileiros atendidos no CEPARM necessitavam ser modificados. Para que pudessem ser utilizados para treinar a Rede Neural, valores numéricos deveriam ser associados aos campos.

As variáveis categóricas que apresentavam informações como a presença e a ausência do sintoma foram modificados respectivamente para os valores 1 e -1. Os campos que não apresentavam qualquer preenchimento foram considerados como ignorados e o valor 0 (zero) foi associado ao mesmo. Assim foram codificadas as informações do Conhecimento da História Familiar, Tontura, Síncope, Retenção Urinária, Incontinência Urinária, Insuficiência Renal, sinais de Saciedade Precoce, Náusea, Vômito. Constipação, Alternância de Diarreia e Constipação, Diarreia, Incontinência Fecal, Perda de Peso, Dor Neuropática, Sensação de Agulhadas, Dormência, Perda de Sensibilidade para Temperatura e Dor, Alteração do Equilíbrio, Disfunção Erétil e Dificuldade de Marcha.

A escala de função cardíaca New York Heart Association (NYHA) foi também modificada. Todos os pacientes que foram graduados com qualquer estágio nessa escala (I, II, III ou IV) receberam o valor 1 para esse campo. Para todos os pacientes que não possuíam sinais de insuficiência cardíaca e não foram graduados na escala NYHA, o valor -1 foi associado. Seguindo o mesmo critério, os pacientes graduados na escala de

Polyneuropathy Disability (PND), que mede a dificuldade de marcha do paciente, foram

também modificados. Para qualquer valor associado para um dado paciente na escala PND (I, II, IIIa, IIIb ou IV), foi atribuído valor 1. Quando o paciente não apresentava nenhuma dificuldade de marcha, o valor -1 foi preenchido para esse campo. Para os

(33)

20

dados clínicos do NYHA e do PND não há a opção de informação ignorada. A tabela 4.1 apresenta essa codificação dos dados.

Tabela 4.1- Codificação para todas as variáveis utilizadas.

O campo relacionado à informação genética foi também alterado, associando-se o valor 1 para a mutação Val30Met. Para todas as outras possíveis mutações encontradas nos pacientes, como a Gly53Glu, Ile107Val, Val122Ile e Ala19Asp/Gly6Ser, o valor -1 foi associado a esse campo. Nesse caso não houve

Variáveis Codificado como +1 Codificado como -1

Codificado como 0 Tipo de mutação Val30Met Não Val30Met Ignorado

Herança paterna ou materna Mãe Pai -

Náusea Presente Ausente Ignorado

Sincope Presente Ausente Ignorado

Tontura Presente Ausente Ignorado

Retenção Urinária Presente Ausente Ignorado

Incontinência Urinária Presente Ausente Ignorado

Incontinência Fecal Presente Ausente Ignorado

Perda de sensibilidade para

temperatura e dor Presente Ausente Ignorado Saciedade precoce Presente Ausente Ignorado

História Familiar Presente Ausente Ignorado

Vômito Presente Ausente Ignorado

Constipação Presente Ausente Ignorado

Diarreia Presente Ausente Ignorado

Alternância de diarreia e constipação Presente Ausente Ignorado

Perda de peso Presente Ausente Ignorado

Dor neuropática Presente Ausente Ignorado

Sensação de Agulhadas Presente Ausente Ignorado

Alteração do equilíbrio Presente Ausente Ignorado

Dormência Presente Ausente Ignorado

Disfunção Erétil Presente Ausente Ignorado

Dificuldade de Marcha (PND) Presente (com qualquer índice)

Ausente -

Escala cardiológica NYHA Presente (com qualquer indice)

Ausente -

Insuficiência Renal Presente Ausente Ignorado

Anormalidade no Ritmo Cardíaco Presente Ausente Ignorado

Anormalidade na Condução Presente Ausente Ignorado

Baixa voltagem Presente Ausente Ignorado

Espessura do Septo Ventricular ≥ 11 mm < 11 mm Ignorado

Espessura da Parede Posterior Ventricular

≥ 11 mm < 11 mm Ignorado

(34)

21

informação ignorada, já que não foram considerados, para o banco de dados, pacientes que não possuíam mutações identificadas.

Para a informação que indica de quem foi herdada a doença, utilizou-se 1 quando herdada da mãe, -1 quando herdada do pai e 0 (zero) quando ignorado.

Considerando os parâmetros de Eletrocardiograma, o valor 1 foi associado à presença de baixa voltagem, anormalidade da condução e do ritmo cardíaco. O valor -1 foi atribuído quando havia a ausência desses sintomas e 0 para quando essa informação era ignorada.

As variáveis relacionadas ao Ecocardiograma também foram alteradas. O valor 1 foi associado à espessura do septo ventricular e da parede posterior ventricular quando a espessura foi maior ou igual a 11mm e -1 quando menor. A fração de ejeção recebeu o valor 1 quando menor ou igual a 55% e -1 quando maior que esse valor. Para todos esses dados, o valor 0 foi atribuído quando a informação era ignorada.

4.2– Mapa Base

Foi proposta a criação, utilizando as técnicas já mencionadas, de um mapa com 5 grupos, onde cada um representaria um nível diferente da doença. Para o treinamento do mesmo seria utilizada a base de dados disponível, com 30 variáveis e 98 pacientes.

4.2.1 – Clusterização com 30 variáveis

Serão apresentados os grupos formados a partir da clusterização da base de dados, utilizando-se o Self-Organizing Map. Na construção do mapa, como já especificado anteriormente, foi utilizado um mapa bidimensional, de tamanho 10x10, com treliça hexagonal, função de vizinhança gaussiana e aprendizado por batelada.

A U-Matrix é então uma ferramenta de visualização do mapa treinado. Nela é possível, através de uma inspeção visual, reconhecer possíveis grupos formados pelos neurônios. A figura 4.1 apresenta a U-Matrix obtida.

(35)

22

Figura 4.1- U-Matrix obtida para o treinamento com 30 variáveis.

Percebe-se dois grupos bem definidos com a análise da U-Matrix. Há uma separação entre a região superior e a inferior do mapa, com uma fronteira representada por neurônios de cor avermelhada. Verifica-se também, pela informação de proximidade dos neurônios de cores azuladas, que há uma concentração significativa dos mesmos na região superior do mapa. Isso indica que uma grande quantidade de eventos ativou os neurônios nessa localidade.

É possível inferir outros agrupamentos em outros locais do mapa, mas essas possíveis divisões não estão tão evidentes, nem com suas fronteiras explícitas. Para tal procedimento, utiliza-se então o método k-means, que se encarrega de formar os grupos desejados no mapa.

Para determinar a quantidade de clusters que deveria ser utilizado pelo k-means para dividir a U-Matrix em grupos, algumas técnicas poderiam ser utilizadas, dentre elas a Water Filling. Porém nesse projeto, decidiu-se estabelecer e propor 5 diferentes níveis de gravidade da doença, sendo assim o mesmo número de grupos precisava ser formado para que se representasse cada nível. Essa decisão foi inspirada em um índice já existente conhecido como Polyneuropathy Disability

Score (PND). O mesmo possui diferentes graus de severidade para o

comprometimento da marcha, em ordem crescente de gravidade, e cada paciente do banco de dados possuía seu nível de PND associado. A partir da base dados, era possível ter acesso a essa informação, parecendo então ser interessante dividir os

(36)

23

pacientes em 5 grupos. Essa estratégia possibilitava dispor de uma variável que permitiria analisar o mapa criado. Era viável então avaliar se no mapa havia um grupo que continha apenas pacientes com níveis baixos de PND, refletindo um grupo com estágio inicial da doença, e do mesmo modo avaliar os grupos com alta incidência de pacientes com níveis mais elevados de PND, representando grupos mais graves da doença. Essa análise poderia ser feita para todos os grupos.

Além disso, os grupos formados podem ser avaliados usando-se o índice de Davies-Bouldin, como mostrado na figura 4.2:

Figura 4.2- Índice de Davies-Bouldin para diferentes quantidades de clusters.

Nesse caso, percebe-se que o menor índice de Davies-Bouldin, o valor aproximado 𝐼𝐷𝐵 = 0,84, se dá quando o mapa é dividido em 19 agrupamentos

distintos. Como o objetivo é o de criar uma escala de gravidade para pacientes portadores de PAF, utilizar 19 grupos poderia não ser útil para o serviço médico, já que representaria um número elevado de diferentes níveis de gravidade, dificultando assim a distinção dos grupos, principalmente os que representariam os níveis intermediários da doença.

Verifica-se então que, seguindo a estratégia inicial de dividir o mapa em 5 grupos, tem-se o valor, 𝐼𝐷𝐵 = 1,0868, que apesar de não ser o menor índice

(37)

24

calculado, representa um valor razoável quando comparado com outros números de clusters possíveis, validando assim o número de agrupamentos pretendido.

4.2.2 – Análise dos grupos formados

Após então da análise do índice de Davies-Bouldin e da clusterização do mapa feito pelo k-means, tem-se a configuração de clusters apresentada na figura 4.3

Figura 4.3- Agrupamento obtido pelo k-means, definindo o Mapa Base.

A partir do momento em que já se tem o mapa definido com seus grupos formados, a etapa da investigação do conteúdo e das características de cada grupo se faz necessária. O objetivo passa então a ser o entendimento de que nível de gravidade da doença representa cada grupo.

A numeração dos clusters, apresentada na figura 4.3, foi adicionada após a análise, representando a ordem crescente de gravidade dos grupos. O processo que levou a especificação dos níveis dos grupos será descrito a seguir.

Primeiramente, identificou-se os pacientes presentes em cada cluster. Os pacientes de cada grupo, com sua respectiva identificação são apresentados na tabela 4.2:

(38)

25

Tabela 4.2- Distribuição dos pacientes nos grupos do mapa com 30 variáveis. As identificações em vermelho representam os pacientes assintomáticos.

Os neurônios do grupo 1 foram ativados por 39 eventos, pacientes nesse caso, da base de dados de entrada. As identificações destacadas em vermelho na tabela, representam os pacientes assintomáticos. Sendo assim, essa quantidade de indivíduos pertence a esse grupo. Como já dito, a variável PND foi utilizada para investigar a situação dos pacientes de cada cluster. No grupo 1, 35 pacientes são assintomáticos, representando aproximadamente 90% do grupo. Apenas 4 pacientes são sintomáticos, e desses, somente 2 pontuam na escala PND, porém ainda no estágio inicial, apresentando nível I para essa escala. A tabela mostra a quantidade de pacientes sintomáticos e seus respectivos níveis na escala PND.

Grupo 1 (39 pacientes) Grupo 2 (14 pacientes) Grupo 3 (16 pacientes) Grupo 4 (19 pacientes) Grupo 5 (10 pacientes)

Paciente 1 Paciente 21 Paciente 40 Paciente 54 Paciente 70 Paciente 89

Paciente 2 Paciente 22 Paciente 41 Paciente 55 Paciente 71 Paciente 90

Paciente 3 Paciente 23 Paciente 42 Paciente 56 Paciente 72 Paciente 91

Paciente 4 Paciente 24 Paciente 43 Paciente 57 Paciente 73 Paciente 92

Paciente 5 Paciente 25 Paciente 44 Paciente 58 Paciente 74 Paciente 93

Paciente 6 Paciente 26 Paciente 45 Paciente 59 Paciente 75 Paciente 94

Paciente 7 Paciente 27 Paciente 46 Paciente 60 Paciente 76 Paciente 95

Paciente 8 Paciente 28 Paciente 47 Paciente 61 Paciente 77 Paciente 96

Paciente 9 Paciente 29 Paciente 48 Paciente 62 Paciente 78 Paciente 97

Paciente 10 Paciente 30 Paciente 49 Paciente 63 Paciente 79 Paciente 98

Paciente 11 Paciente 31 Paciente 50 Paciente 64 Paciente 80 ---

Paciente 12 Paciente 32 Paciente 51 Paciente 65 Paciente 81 ---

Paciente 13 Paciente 33 Paciente 52 Paciente 66 Paciente 82 ---

Paciente 14 Paciente 34 Paciente 53 Paciente 67 Paciente 83 ---

Paciente 15 Paciente 35 --- Paciente 68 Paciente 84 ---

Paciente 16 Paciente 36 --- Paciente 69 Paciente 85 ---

Paciente 17 Paciente 37 --- --- Paciente 86 ---

Paciente 18 Paciente 38 --- --- Paciente 87 ---

Paciente 19 Paciente 39 --- --- Paciente 88 ---

(39)

26

Tabela 4.3- Quantidade de pacientes e índice PND no grupo 1

PND Quantidade de pacientes no grupo

Nível 0 2

Nível I 2

Parece então que os neurônios do grupo 1 foram ativados pelo padrão de entrada que representava os pacientes assintomáticos ou em um estágio muito leve da doença, dado a grande quantidade de pacientes que não apresentavam nenhum sintoma, e a presença de apenas 2 pacientes com o menor nível para a escala PND.

No grupo 2, 11 dos 14 pacientes apresentaram nível 1 na escala PND, aproximadamente 79%, e apenas 1 não apresentou dificuldade de marcha, não possuindo nenhum nível na escala PND. Há ainda um paciente com o nível II e um com o nível IIIb. A tabela a seguir apresenta o índice PND para os pacientes desse grupo.

Tabela 4.4- Quantidade de pacientes e índice PND no grupo 2

PND Quantidade de pacientes no grupo

Nível 0 1

Nível I 11

Nível II 1

Nível IIIb 1

Essa distribuição de pacientes nesse grupo indica que o mesmo foi ativado por pacientes em uma pior situação que os do grupo 1, mas ainda assim, dado a alta incidência do nível I da escala PND, pode-se inferir que esse cluster representa um estágio inicial da doença.

Para o grupo 3, os pacientes estão distribuídos em vários níveis de PND, mas é importante ressaltar, como mostrado na tabela, que não há mais pacientes com PND nível 0, nem pacientes com PND nível IV.

(40)

27

Tabela 4.5- Quantidade de pacientes e índice PND no grupo 3

PND Quantidade de pacientes no grupo

Nível I 7

Nível II 4

Nível IIIa 2

Nível IIIb 3

Dado o aumento da quantidade de pacientes com nível mais alto para o índice PND, quando comparado com o grupo 2, além da ausência de pacientes sem dificuldade de marcha, é possível caracterizar o grupo 3 como representativo para pacientes com um nível de gravidade intermediário para a doença.

O grupo 4 apresenta pacientes com diversos níveis de PND e é o primeiro a apresentar pacientes que pontuaram com o nível IV, o mais alto da escala.

Tabela 4.6- Quantidade de pacientes e índice PND no grupo 4

PND Quantidade de pacientes no grupo

Nível I 6

Nível II 5

Nível IIIa 3

Nível IIIb 1

Nível IV 4

O grupo 5 também apresenta pacientes com diversos níveis de PND e assim como o grupo 4, apresenta também pacientes com nível IV para essa escala.

(41)

28

Tabela 4.7- Quantidade de pacientes e índice PND no grupo 5

PND Quantidade de pacientes no grupo

Nível I 3

Nível II 2

Nível IIIa 2

Nível IIIb 1

Nível IV 2

A distinção entre os grupos 4 e 5 não ocorreu de maneira tão imediata, como para os outros grupos que possuíam fortes indicadores para seu nível de gravidade. Decidiu-se então analisar a incidência dos parâmetros clínicos para os pacientes de cada classe. O grupo 5 possuía pelo menos 13 sintomas com maior frequência do que na grupo 4. Essa predominância da presença de dados clínicos nos pacientes do grupo 5 influenciou na conclusão de que esse representava o grupo mais grave da doença.

A análise comparativa entre os clusters, levando-se em consideração a escala PND, sustenta a ideia da ordem crescente de gravidade apresentada pelos grupos. A tabela 4.8 contém essa informação.

Tabela 4.8- Presença de cada grau da escala PND nos grupos do mapa.

PND Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5

0 95% 7% 0% 0% 0% I 5% 79% 44% 32% 30% II 0% 7% 25% 26% 20% IIIa 0% 0% 12% 16% 20% IIIb 0% 7% 19% 5% 10% IV 0% 0% 0% 21% 20%

Percebe-se que há uma presença maior de níveis mais severos da escala PND na ordem crescente de numeração dos grupos. Com esse resultado é possível concluir

(42)

29

que houve a separação dos pacientes em cinco diferentes níveis de gravidade. O grupo 1 representa então os pacientes assintomáticos ou com uma manifestação muito leve da doença. O grupo 2 representa aqueles com um estágio leve. O grupo 3 representa os pacientes com um nível moderado da doença. O grupo 4 já representa pacientes com um estágio moderado-grave. O grupo 5 representa os pacientes mais severos. Esse foi então fixado como mapa base para a escala de gravidade proposta.

4.3 – Estudo de redução do número de variáveis

Observou-se que poderia ser investigada a remoção de algumas variáveis do banco de dados do projeto. Essa possibilidade surgiu da percepção de que, nesse cenário específico da base de dados disponível, algumas variáveis poderiam estar agregando pouca informação, podendo nesse caso estar afetando o processo de clusterização.

Foi proposta então uma redução do número de variáveis consideradas para o treinamento da rede neural, avaliando assim o resultado obtido para um banco de dados mais compacto. A comparação do novo mapa com o já desenvolvido passa a ser o objetivo da análise nessa etapa.

Duas variáveis foram removidas. No banco de dados, a variável Disfunção Erétil apresentava sua informação como ignorada para muitos pacientes. Devido a esse fato, considerou-se então a sua remoção.

As variáveis de Espessura do Septo Ventricular e Espessura da Parede Posterior Ventricular, após a codificação, apresentavam a mesma informação para todos os pacientes na base de dados, exceto para o paciente 36. Esse paciente apresentava o valor 1 (espessura ≥ 11 mm) para o Septo Ventricular, porém possuía o valor -1 (espessura < 11 mm) para a outra variável citada. Foi considerado então que pouca informação era agregada utilizando-se as duas variáveis para o treinamento da rede. Decidiu-se então pela retirada do dado clínico que apresentava informação sobre a Espessura do Septo Ventricular, até mesmo para ser possível avaliar se a falta de informação desse sintoma, principalmente para o paciente 36, será relevante para a formação do mapa e agrupamento dos pacientes.

É importante frisar que não há nessa investigação de redução de sintomas, o juízo de que essas variáveis removidas não são importantes informações para caracterizar a situação ou gravidade do paciente portador de PAF. Contudo, no caso

Referências

Documentos relacionados

Um tempo em que, compartilhar a vida, brincar e narrar são modos não lineares de viver o tempo na escola e aprender (BARBOSA, 2013). O interessante é que as crianças

(2013 B) avaliaram a microbiota bucal de oito pacientes submetidos à radioterapia na região de cabeça e pescoço através de pirosequenciamento e observaram alterações na

Para conhecer os efeitos de um sistema integrado de gestão nas Instituições Federais de Ensino Superior – IFES – sobre a utilização da informação contábil, o Departamento

A empresa aqui denominada ARTCOURO COMERCIAL LTDA – pequena empresa de confecção de artigos de couro de uso pessoal de alta qualidade (bolsas, malas, cintos, carteias)

In line with these findings, this dissertation further explores the investigation and measure of effects of different visual representations concerning an e-commerce

Los gastos relacionados con el ambiente pueden ser divididos en cuatro grandes áreas: gastos de capital, costos operativos, remediación, e investigación y

Também, em sua maior parte (96%), não recebiam orientação contábil. A partir deste dado, procuramos relacionar a idade destas com a orientação contábil recebida e

De seguida, vamos adaptar a nossa demonstrac¸ ˜ao da f ´ormula de M ¨untz, partindo de outras transformadas aritm ´eticas diferentes da transformada de M ¨obius, para dedu-