• Nenhum resultado encontrado

Seleção de principais atributos para Redes Neurais Artificiais do tipo MLP: um estudo de caso sobre mineração de dados para diagnóstico de dengue.

N/A
N/A
Protected

Academic year: 2021

Share "Seleção de principais atributos para Redes Neurais Artificiais do tipo MLP: um estudo de caso sobre mineração de dados para diagnóstico de dengue."

Copied!
87
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE ENSINO SUPERIOR DO SERIDÓ DEPARTAMENTO DE COMPUTAÇÃO E TECNOLOGIA

BACHARELADO EM SISTEMAS DE INFORMAÇÃO

MOISÉS DE MEDEIROS

SELEÇÃO DE PRINCIPAIS ATRIBUTOS PARA REDES NEURAIS ARTIFICIAIS DO TIPO MLP: UM ESTUDO DE CASO SOBRE MINERAÇÃO DE DADOS PARA

DIAGNÓSTICO DE DENGUE.

Caicó - RN 2018

(2)

SELEÇÃO DE PRINCIPAIS ATRIBUTOS PARA REDES NEURAIS ARTIFICIAIS DO TIPO MLP: UM ESTUDO DE CASO SOBRE MINERAÇÃO DE DADOS PARA

DIAGNÓSTICO DE DENGUE.

Trabalho de Conclusão de Curso II apresentado como parte dos requisitos para a obtenção do título de Bacharel em Sistemas de Informação da Universidade Federal do Rio Grande do Norte.

Orientador: Prof. Ms. Humberto Rabelo

Co-orientador: Prof. DSc. Almir Miranda

Ferreira

Caicó - RN 2018

(3)

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Profª. Maria Lúcia da Costa Bezerra - CERES-Caicó

Medeiros, Moisés de.

Seleção de principais atributos para redes neurais

artificiais do tipo MLP: um estudo de caso sobre mineração de dados para diagnóstico de dengue / Moisés de Medeiros. - Caicó: UFRN, 2018.

79f.: il.

Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) - Universidade Federal do Rio Grande do Norte. - Campus Caicó. Departamento de Computação e Tecnologia. Curso de Graduação em Sistemas de Informação.

Orientador: Ms. Humberto Rabelo.

Coorientador: Dr. Almir Miranda Ferreira.

1. Diagnóstico de Dengue. 2. Seleção de atributos. 3. MLP. 4. Pré-processamento de dados. 5. Mineração de Dados. I. Rabelo, Humberto. II. Miranda, Almir. III. Título.

RN/UF/BS-CAICÓ CDU 004.032.26 Elaborado por FERNANDO CARDOSO DA SILVA - CRB-15/759

(4)

SELEÇÃO DE PRINCIPAIS ATRIBUTOS PARA REDES NEURAIS ARTIFICIAIS DO TIPO MLP: UM ESTUDO DE CASO SOBRE MINERAÇÃO DE DADOS PARA

DIAGNÓSTICO DE DENGUE.

Trabalho de Conclusão de Curso II apresentado como parte dos requisitos para a obtenção do título de Bacharel em Sistemas de Informação da Universidade Federal do Rio Grande do Norte.

Orientador: Prof. Ms. Humberto Rabelo

Co-orientador: Prof. DSc. Almir Miranda Ferreira

Aprovado em 20 de Junho de 2018.

Prof. Ms. Humberto Rabelo / DCT-UFRN Orientador e Presidente da Banca

Prof. Dsc. Almir Miranda Ferreira / DCT-UFRN Co-orientador e examinador

Esp. Danieli Silva de Souza Rabelo / LAIS-SEDIS-UFRN Examinadora

(5)

Primeiramente à Deus que me deu todas as forças necessárias para superar as adversidades que encontrei no meu caminho.

A minha família e em especial meus pais, Maria e Geraldo, que foram a base para que eu caminhasse até aqui.

A minha namorada Raine que esteve sempre do meu lado me dando incentivo, apoio e compreendendo minhas ausências necessárias.

Aos meus colegas de trabalho da Secretaria Municipal de Saúde e Saneamento de Ipueira-RN que me apoiaram e tiveram a compreensão necessária quando precisei me ausentar.

Ao ex-presidente Luiz Inácio Lula da Silva em seu papel fundamental de democratização da educação desse país que possibilitou o acesso à universidade para muitos que outrora foram excluídos.

A Secretaria Estadual de Saúde Pública do Estado do Rio Grande do Norte pela disponibilização da base de dados utilizada neste estudo.

Aos meus queridos amigos e colegas de curso Adnama Lins Gorgônio Costa, Cássio Alves Galvão, Ciro Morais Medeiros e Sâmia Lorena Oliveira Medeiros pelo companheirismo durante todo o período que estudamos juntos.

A todo o quadro de professores do Bacharelado em Sistemas de Informação que com muito zelo, dedicação e competência repassaram todo o conteúdo que me fez chegar até aqui.

A professora Adrianne Paula Vieira de Andrade pelos valiosos direcionamentos dados ao meu projeto.

A Danieli Silva de Souza Rabelo, examinadora, pelas valiosas contribuições dadas ao estudo.

Ao professor Almir Miranda Ferreira, co-orientador deste estudo, por toda a sua disponibilidade, atenção e contribuições importantes dadas ao estudo.

Ao professor Flavius Da Luz e Gorgônio pelos ensinamentos valiosos que foram transmitidos durante todo o curso, alguns desses na disciplina de Mineração de Dados da qual pude extrair toda a base necessária para desenvolver esse estudo. Também pelos diversos papéis que assumiu frente a este estudo abdicando de

(6)

ao estudo, pela disponibilidade que sempre mostrou para me direcionar, tirar dúvidas, incentivar e mostrar os mais variados ângulos de situações distintas.

(7)

RESUMO

Este estudo se propõe a investigar quais atributos são mais significativos para predição do diagnóstico de Dengue utilizando seleção de atributos e redes neurais do tipo MLP. Neste estudo, foi utilizada uma base de dados do SINAN Online – Sistema de Informação de Agravos de Notificação, do Ministério da Saúde, que é uma base de dados real e de domínio público. A etapa de pré-processamento de dados foi realizada para otimizar a adaptação da base para os algoritmos de mineração de dados. A seleção de atributos se deu através da produção de um ranking de melhores atributos de acordo com oito algoritmos de seleção de atributos: ChiSquareAttributeEval, FilteredAttributeEval, GainRatioAttributeEval, InfoGainAttributeEval, OneRAttributeEval, ReliefFattributeEval, SVMAttributeEval e SymmetricalUncertAttributeEval. Através da utilização do algoritmo classificador MLP foi possível identificar quais os melhores atributos nas abordagens de validação cruzada e validação normal (com Split 70%), testando todo o subconjunto de melhores atributos definido pelo ranking. Dessa forma também foi possível verificar a melhoria de desempenho do classificador e a consequente redução da dimensionalidade dos dados após a seleção de atributos.

Palavras-chave: Diagnóstico de Dengue. Seleção de atributos. MLP. Pré-processamento de dados. Mineração de Dados.

(8)

This study proposes to investigate which attributes are most significant for predicting the diagnosis of Dengue using attribute selection and MLP neural networks. In this study, a database was used by the SINAN Online - Notification of Injury Information System, of the Ministry of Health, which is a real database and public domain. The data preprocessing step was performed to optimize the base adaptation to the data mining algorithms.Feature selection was provided by selecting a ranking of best attributes according to the eight feature selection algorithms: ChiSquareAttributeEval, FilteredAttributeEval, GainRatioAttributeEval, InfoGainAttributeEval, OneRAttributeEval, ReliefFattributeEval, SVMAttributeEval, and SymmetricalUncertAttributeEval. Through the use of the MLP classifier algorithm, it was possible to identify the best attributes in the cross validation and normal validation approaches (with split 70%), testing the subset of the best attributes defined by the ranking. Thus, it was also possible to verify the performance improvement of the classifier and the consequent reduction of the dimensionality of the data after the selection of attributes.

Keywords: Dengue diagnosis. Feature selection. MLP. Pre-processing of data. Data Mining.

(9)

LISTA DE FIGURAS

Figura 1 - Componentes do neurônio biológico.

Figura 2 - Representação do modelo MCP do neurônio artificial. Figura 3 - Algumas arquiteturas de RNAs.

Figura 4 - Ilustração de uma rede MLP típica com uma camada intermediária. Figura 5 - Interface gráfica da ferramenta Weka.

Figura 6 - Ilustração da Metodologia.

Figura 7 - Acurácia do MLP com validação normal. Figura 8 - Acurácia do MLP com validação cruzada.

(10)

LISTA DE TABELAS

Tabela 1 - Demonstrativo da base de dados recebida da SESAP/RN com atributos e respectivas descrições

Tabela 2 - Matriz de Confusão

Tabela 3 - Base de Dados após Pré-processamento de Dados.

Tabela 4 - Resultado da execução dos algoritmos de seleção de atributos.

Tabela 5 - Atributos e suas respectivas posições de relevância nos algoritmos de seleção de atributos.

Tabela 6 - Ranking de atributos e suas respectivas pontuações na seleção de atributos.

Tabela 7 - Matriz de Confusão do MLP com validação normal Tabela 8 - Matriz de Confusão do MLP com validação cruzada Tabela 9 - Testes com os algoritmos que formam subconjuntos. Tabela 10 - Testes com os algoritmos que formam o ranking.

(11)

1. INTRODUÇÃO ... 5

1.1 Contextualização e problema ... 5

1.2 Objetivo geral ... 7

1.2.1 Objetivos específicos ... 7

1.3 Delimitação do estudo ... 7

1.4 Motivação e justificativa do estudo ... 8

1.5 Apresentação do trabalho ... 9

2. REVISÃO DA LITERATURA ... 10

2.1 Diagnóstico de dengue ... 10

2.2 Mineração de Dados ... 12

2.2.1 Pré-processamento dos dados ... 13

2.3 Classificadores ... 14

2.3.1 Redes Neurais Artificiais e o Perceptron de Múltiplas camadas... 14

2.4 Seleção de atributos... 19

2.4.1 Algoritmos de seleção de atributos ... 21

2.5 Trabalhos relacionados ... 23

3. MÉTODO DE SELEÇÃO DE PRINCIPAIS ATRIBUTOS PARA UTILIZAR EM REDES NEURAIS ARTIFICIAIS DO TIPO MLP: UM ESTUDO DE CASO SOBRE MINERAÇÃO DE DADOS PARA DIAGNÓSTICO DE DENGUE. ... 29

3.1 Base de Dados ... 29

3.2 Weka ... 35

3.3 Avaliação de Classificadores ... 36

3.4 Metodologia ... 37

3.4.1 Pré-processamento dos Dados... 39

(12)

3.4.2 Execução dos algoritmos de seleção de atributos ... 43

3.4.3 Ranking dos atributos mais significativos segundo as técnicas de seleção de atributos propostas ... 44

3.4.4 Validação com MLP ... 47

3.4.5 Testes adicionais ... 49

3.4.5.1 Testes com algoritmos que formam subconjunto de melhores atributos ... 50

3.4.5.2 Testes com cada algoritmo de seleção de atributos que forma o ranking. ... 50

4. CONCLUSÕES E TRABALHOS FUTUROS ... 53

4.1 Trabalhos futuros ... 55

REFERÊNCIAS ... 56

APÊNCIDE A - Código-fonte sobre tratamento da base de dados. ... 61

Apêndice B - Testes com todos os subconjuntos de melhores experimentos do ranking em validação normal e validação cruzada usando MLP. ... 73

Apêndice C - Teste com cada algoritmo de seleção de atributos que forma o ranking 74 Anexo I – Ficha de notificação ... 75

Anexo II – Requisição da base de dados e avaliação do comitê de ética ... 77

(13)

1. INTRODUÇÃO

Este capítulo apresenta uma introdução e contextualização do problema em questão, assim como os objetivos desta pesquisa com sua delimitação e as respectivas motivações e justificativas. Por fim, a apresentação do trabalho.

1.1 Contextualização e problema

O avanço da Tecnologia da Informação tem propiciado um grande número de bases de dados advindos dos mais diferentes dispositivos e softwares, no entanto, entende-se que o valor destes dados está muito atrelado à capacidade de se adquirir conhecimento a partir deles para que se possa ter auxílio em tomada de decisão, exploração e entendimento sobre sua geração (GOLDSCHMIDT; BEZERRA; PASSOS, 2015). Esse processo de conversão de dados brutos em informações úteis é denominado por Tan, Steinback e Kumar (2009) como descoberta de conhecimento em banco de dados, ou KDD – Knowledge Discovery in Databases.

No entanto, para se adquirir conhecimento em bases de dados reais se faz necessário um pré-processamento dos dados, a fim de tornar esses dados mais apropriados para essa tarefa. De modo geral essa tarefa se divide em duas categorias: selecionar objeto de dados e atributos para a análise e/ou criar/alterar os atributos (TAN; STEINBACK; KUMAR, 2009).

Como exemplo fictício, pressupõe-se dados a respeito de uma investigação de pacientes suspeitos de uma doença: sintomas, doenças pré-existentes e um exame laboratorial confirmando ou não a doença. Feito isso então aplicar-se-á alguma técnica computacional para que através dos dados se possa extrair informações, e dessas informações gerar conhecimento. Seguindo esse exemplo, a técnica computacional pode dizer que dentre os pacientes suspeitos os que de fato contraíram a doença sempre apresentam uma doença pré-existente “Y” e um sintoma “Z”, ou seja, agora se adquiri conhecimento através de um volume de dados.

A literatura mostra que as Redes Neurais Artificiais (RNA’s) são bons exemplos de técnicas computacionais capazes de transformar dados em conhecimento e

(14)

seres vivos que são capazes de realizar tarefas bem específicas como a de classificação (AMARAL, 2016). Isto é, se esta técnica for aplicada no exemplo abordado no parágrafo anterior ela seria capaz de poder classificar novos indivíduos como doentes e não-doentes, dado um conjunto de casos da doença para treinamento, com um percentual “x” de acerto como descrevem Braga, Carvalho e Ludemir (2011). Por conseguinte, o desempenho de um classificador está muito ligado ao seu percentual de acerto e sua capacidade de generalização, isto é, obter um desempenho satisfatório quando classifica instâncias as quais não foram introduzidas na fase de treinamento da rede.

As deficiências de generalização de um classificador são: (1) Problemas de Classe Rara: quando uma classe tem poucas instâncias de um tipo específico na fase de treinamento; (2) Problemas de atributos desconhecidos: quando na classificação um atributo recebe valor diferente dos valores recebidos pela rede na fase de treinamento, e (3) Maldição da Dimensionalidade: alto número de atributos (AMARAL, 2016).

De maneira prática ater-se-á o sistema SINAN Online (Sistema de Informação de Agravos de Notificação), implantado pelo Ministério da Saúde em 2011 com o objetivo de investigar e acompanhar de maneira ágil os casos de Dengue em todo Brasil, como assim narra a Nota Técnica 25/2011 do Ministério supracitado (BRASIL, 2011).

Adentrando um pouco mais aos pormenores do sistema, o anexo I mostra a ficha de investigação (BRASIL, 2016) que expõe os atributos inseridos, e estes assumem valores diversos de informações pessoais, residenciais, dados clínicos, dados laboratoriais, hospitalização, conclusão, entre outros que geram um total de aproximadamente 100 atributos.

Nesse sentido, e considerando os problemas que degradam o desempenho de um classificador ditos anteriormente, essa pesquisa trata da seguinte reflexão: quais atributos ou variáveis do sistema SINAN Online são mais significativos para um diagnóstico Dengue? Tan, Steinback e Kumar (2009) consideram como cenário ideal testar todos os subconjuntos de atributos, no entanto essa alternativa é pouco prática tendo em vista que o número de subconjuntos de n atributos é de 2𝑛, e uma solução apontada para resolver esse problema é usar algoritmos de seleção de atributos para encontrar o melhor subconjunto destes.

(15)

1.2 Objetivo geral

Identificar principais atributos para diagnóstico de caso de Dengue na base de dados do SINAN Online.

1.2.1 Objetivos específicos

1 - Realizar pré-processamentos necessários e pertinentes a esse estudo na base de dados do sistema SINAN Online do estado do Rio Grande do Norte no ano de 2016. 2 - Identificar os atributos mais significativos utilizando algoritmos de seleção de atributos.

3 - Fazer um ranking dos atributos mais significativos com a junção das técnicas de seleção de atributos usadas.

4 - Validar os resultados da seleção de atributos executando uma Rede Neural do tipo MLP como classificador para comparar os resultados de antes e depois da seleção de atributos.

5 - Descrever e analisar resultados.

1.3 Delimitação do estudo

O estudo se atém a analisar os dados do SINAN Online, que é um Sistema responsável por investigações de casos de Dengue no Brasil, e verificar numa tarefa computacional de classificação quais seriam os atributos mais significativos nesse processo. O conjunto de dados é formado por 63.345 registros de casos investigados no Rio Grande do Norte em 2016.

O algoritmo classificador utilizado foi o MLP, que tem reconhecidos resultados sobre diagnóstico de doenças e por isso foi selecionado.

(16)

1.4 Motivação e justificativa do estudo

O estudo de caso busca agregar conhecimento sobre a Dengue que é um problema complexo que há décadas requer da sociedade brasileira grande esforço para controle da doença e do vetor. Segundo Brasil (2018), dados até a semana epidemiológica nº 52 de 2017 (01/01/2017 à 30/12/2017), tem-se registrado neste período 252.054 casos prováveis de dengue no Brasil e mais 141 óbitos confirmados. Cruz (2014) expõe a dificuldade no tocante ao diagnóstico da doença devido a manifestações semelhantes a outras infecções febris agudas.

Em face computacional a redução dos atributos bem realizada conduz a modelos de conhecimento mais concisos e com melhor desempenho, ou seja, se o algoritmo de seleção de atributos for rápido também se observa um desempenho melhor que executar todo o conjunto de atributos (GOLDSCHMIDT; BEZERRA; PASSOS, 2015).

Pode-se observar também na base de dados 63.345 casos suspeitos de Dengue, mas somente 3.350 com exames laboratoriais realizados, apenas 5,28% do total de casos. Ou seja, este estudo pode viabilizar também uma maneira de obter uma avaliação mais precisa sobre quantidades de pessoas que tiveram ou não a Dengue em todo o território nacional, além de trazer aspectos importantes do diagnóstico da mesma que podem servir para desenvolvimento de um software de apoio a decisão voltado ao diagnóstico de dengue, ou mesmo, propiciar uma melhora na triagem de pacientes com suspeita de Dengue em hospitais.

(17)

1.5 Apresentação do trabalho

No capítulo 1 mostra-se inicialmente a contextualização do problema, tratando de KDD - Knowledge Discovery and Data Mining, pré-processamento de base de dados, Redes Neurais como classificador e algoritmos de seleção de atributos, mostrando o problema em questão e a pretensão do autor de enfrenta-lo. Nessa parte o trabalho também mostra os objetivos do presente estudo, sua delimitação, motivações e justificativas.

O capítulo 2 aborda a revisão da literatura, imprescindível para sequência dos estudos, onde são destacados o Diagnóstico de Dengue, Mineração de Dados e Pré-processamento de dados, Classificadores e Redes Neurais Artificiais do tipo MLP, Algoritmos de seleção de atributos e trabalhos relacionados a este estudo.

O capítulo 3 traz uma descrição minuciosa da base de dados, a ferramenta Weka a qual servirá para executar os experimentos do trabalho, e em seguida entra na parte da metodologia. De início uma breve explanação de como se realizarão as etapas do trabalho, descrevendo de forma cuidadosa cada passo do Pré-processamento da base de dados e a execução dos algoritmos de seleção de atributos e seus respectivos atributos selecionados.

Na sequência mostra o ranking dos atributos mais significativos montado para contemplar as seleções de atributos realizadas pelos oito algoritmos. Em seguida apresenta uma seção para validar experimentos realizados com o classificador MLP. Ainda assim, o autor do estudo apresenta testes adicionais afim de fazer uma avaliação dos algoritmos que montaram o ranking dos melhores atributos, e também realiza teste com outros algoritmos que tem diferentes abordagens sobre seleção de atributos.

Por fim, o capítulo 4 mostra a análise dos resultados obtidos, concluindo que a seleção de atributos melhora o desempenho do classificador e, por conseguinte mostrando o subconjunto de atributos principais e as sugestões de trabalhos futuros.

(18)

Esse capítulo é destinado a tratar conceitos e fundamentos que são abordados no trabalho, além de uma pesquisa na literatura sobre os trabalhos relacionados a este estudo.

2.1 Diagnóstico de dengue

Como se sabe, a principal forma de transmissão da Dengue se dá pela picada do mosquito Aedes Aegypti, infectado por um dos quatro vírus da doença. A susceptibilidade ao vírus da Dengue é universal, e observa-se uma imunidade permanente para um mesmo sorotipo (homóloga), e uma imunidade cruzada (heteróloga) temporária por 2 ou 3 meses (BRASIL, 2014). Ou seja, um indivíduo que contrair um determinado tipo de vírus da dengue consegue ficar imune para o resto de sua vida para aquele tipo de vírus, e temporariamente para os outros tipos do vírus da doença.

A gravidade da doença pode ser determinada por alguns fatores de risco como idade, etnicidade e possivelmente comorbidades como asma brônquica, diabetes mellitus, anemia falciforme e infecção secundária (BRASIL, 2014). Há casos onde o indivíduo é picado pelo mosquito, adquire o vírus, e, no entanto, não desenvolve os sintomas da doença ou estes se apresentam de forma discreta e esse mal-estar é erroneamente atribuído a outras causas, trata-se da Dengue assintomática. Na posteridade, quando em contato com outros tipos de vírus da doença haverá maior risco de desenvolver formas mais graves da Dengue (VARELLA, 2009).

Brasil (2014), considera como caso suspeito de dengue, indivíduo que tenha tido contato nos últimos 14 dias com áreas que contém o vetor e/ou doença, apresentar febre usualmente entre 2 e 7 dias, e duas ou mais das seguintes manifestações:

 Náusea, vômitos;

 Exantema;

 Mialgias, artralgia;

 Cefaleia, dor retro-orbital;

(19)

 Prova do laço positiva;

 Leucopenia.

Crianças com quadro febril agudo, usualmente entre 2 e 7 dias, sem infecção aparente e em contato com áreas de transmissão da doença também são consideradas como caso suspeito de dengue.A OMS, Organização Mundial de Saúde, popôs um novo sistema que divide os casos de dengue em duas categorias de gravidade: 1) Dengue (com ou sem sinais de alerta) e 2) Dengue grave, como relata Verdeal et al. (2010):

Dengue sem sinais de alerta: os sintomas correspondem à fase febril aguda,

caracterizada por mialgias, cefaleia, artralgias, exantemas em variados graus de intensidade. Deve-se chamar a atenção que esses achados clínicos não distinguem casos que evoluirão de forma benigna ou grave.

Dengue com sinais de alerta: A diminuição abrupta da temperatura, dor

abdominal intensa e contínua, náusea e vômitos persistentes, hepatomegalia, redução do nível de consciência, sangramentos espontâneos, sinais clínicos de acumulação de líquidos (derrame pleural, ascite, derrame pericárdico) e o aumento do hematócrito acompanhado de diminuição das plaquetas, caracterizam os chamados sinais de alerta, que resultam do aumento da permeabilidade capilar com extravasamento de plasma para o terceiro espaço e determinam o início da fase crítica. A atenção para a presença de sinais de alerta no curso da evolução da dengue é fundamental, pois indica a possibilidade de evolução para dengue grave.

Dengue grave: definida como a forma de evolução que apresenta a fase

crítica na sua maior intensidade, com importante extravasamento de plasma levando ao choque e/ou insuficiência respiratória, bem como, sangramento considerado relevante pelos médicos assistentes e ou evolução para disfunção orgânica.

No entanto, os aspectos clínicos da doença não são suficientes para formulação de um diagnóstico, uma vez que devido a manifestações semelhantes a outras infecções febris agudas como leptospirose, rubéola, malária, sarampo e outras arboviroses (CRUZ, 2014).

Para detecção do vírus da dengue são utilizadas algumas técnicas como: pesquisa de anticorpos IgM por testes sorológicos (ELISA), pesquisa de vírus (tentativa de isolamento viral), pesquisa de genoma do vírus dengue por reação em cadeia da polimerase de transcrição reversa (RT-PCR), pesquisa por antígeno NS1 e estudo anatomopatológico seguido de pesquisa de antígenos virais por imuno-histoquímica (BRASIL, 2014).

Como já mencionado anteriormente, existem quatro (4) tipos de vírus da dengue. Então, o isolamento viral, além de diagnosticar a doença, identifica o sorotipo

(20)

pacientes até 5 dias após o início da febre. Depois do isolamento, o vírus então pode ser identificado e soropitado, comumente por imunofluorescência, utilizando monoclonais sorotipos específicos (PINHO, 2013).

Dentre os testes sorológicos, o ELISA é considerado uma técnica importante para diagnóstico de rotina da dengue, e também o procedimento sorológico mais útil para detecção de anticorpos IgM, sendo amplamente empregado para confirmação de infecções recentes pelo vírus da dengue (CRUZ, 2014).Segundo Verdealet al. (2011), o IgM Elisa apresenta uma positividade de 70% a partir do sétimo dia, e 100% a partir do décimo dia da evolução da doença.

2.2 Mineração de Dados

A Mineração de Dados está associada ao aprendizado de máquina, subárea da Inteligência Artificial, e trata-se de processos com finalidade de explorar e analisar grandes volumes de dados em busca de padrões, previsões, associações, entre outros, (AMARAL, 2016).

De acordo com Tan, Steinback e Kumar (2009) as tarefas da Mineração de Dados são geralmente divididas em dois grupos: Tarefas de Previsão e Tarefas Descritivas. Nas Tarefas de Previsão o objetivo é prever o valor de uma variável (variável dependente) utilizando as variáveis explicativas, enquanto que as Tarefas descritivas objetivam derivar padrões (correlações, tendências, grupos, trajetórias e anomalias) que resumam relacionamentos subjacentes nos dados.

No entanto, para que se possa executar algoritmos de Mineração de Dados afim de executar as tarefas citadas é fundamental fazer uma série de adaptações nas bases de dados, as quais denomina-se Pré-processamento de Dados.

(21)

2.2.1 Pré-processamento dos dados

O pré-processamento dos dados são todas as funções relacionadas a captação, organização e o tratamento dos dados, de forma a preparar os dados para os algoritmos de Mineração de Dados. Essa atividade tem quatro etapas principais: Seleção de Dados, Limpeza de Dados, Codificação de Dados e Enriquecimento de Dados (GOLDSCHMIDT; BEZERRA; PASSOS, 2015).

Uma abordagem que ajuda na redução da dimensionalidade é a Seleção de Dados, onde se busca evitar na base de dados informações irrelevantes ou redundantes. Exemplo de atributo irrelevante é um campo com ID de alunos quando se tem um objetivo de prever médias em disciplinas, ou um exemplo de redundância seria informação de pacientes sobre data de nascimento e idade, juntos, quando se busca uma predição de doença (TAN; STEINBACK; KUMAR, 2009).

Em Bases de Dados reais é comum que se tenham dados incompletos, ruidosos ou inconsistentes. Dados incompletos ocorre quando há pouca informação para determinados atributos, enquanto que dados ruidosos são valores considerados errados ou fora do seu padrão normal. Uma forma simples de lidar com esse tipo de problema é removendo os dados com esses problemas, mas existem também algumas técnicas de preenchimento desses valores como preencher os campos ausentes com um valor médio (GOLDSCHMIDT; BEZERRA; PASSOS, 2015).

Contudo, ainda se faz necessário adaptar os dados para os algoritmos de Mineração de Dados. Algumas vezes é preciso transformar um atributo contínuo em atributo categórico e/ou simplesmente transformar em valores binários esses atributos (TAN; STEINBACK; KUMAR, 2009).

Uma importante etapa de Pré-processamento de dados é o Enriquecimento dos Dados que consiste em agregar mais informações a cada registro do conjunto de dados. Dentre as possibilidades está a criação de novos atributos que também pode se dar através de incorporação de informações fornecidas por outras bases de dados complementares. (GOLDSCHMIDT; BEZERRA; PASSOS, 2015).

Há outras possibilidades de operação nas bases de dados como exemplo de algumas normalizações, mas em geral essas operações são fundamentais para execução de algoritmos de Mineração de Dados como é o caso dos Classificadores, que podem ser utilizados no diagnóstico de doenças.

(22)

2.3 Classificadores

A “Classificação é a tarefa de aprender uma função alvo f que mapeie cada conjunto de atributos x para um dos rótulos de classes y pré-determinados” (TAN; STEINBACK; KUMAR, 2009). Os Classificadores assumem uma modelagem descritiva ou preditiva. Na modelagem descritiva os classificadores servem como ferramenta para distinção entre objetos e classes diferentes, enquanto que na preditiva se busca prever rótulo da classe de registros não conhecidos (TAN; STEINBACK; KUMAR, 2009).

De acordo com Amaral (2015), os algoritmos de classificação são capazes de executar tarefas devido ao fato de executar um processo de aprendizado baseado em dados históricos, experiência, o que usualmente chamam de treinamento. Segundo Passos e Goldschmidt (2005), a tarefa de classificação pode ser aplicada em situações como: análise de crédito, análise de risco em seguros, diagnóstico de doenças e prescrição de tratamento, análise de defeitos em equipamentos, entre outros. A secção de trabalhos relacionados deste capítulo mostra uma série de estudos científicos de Classificadores aplicados ao diagnóstico de doenças diversas, e um destes é o Perceptron de Múltiplas Camadas.

2.3.1 Redes Neurais Artificiais e o Perceptron de Múltiplas camadas

De um determinado conjunto de entradas, obtêm-se um determinado conjunto de saídas. As Redes Neurais ou Redes Neurais Artificiais (RNAs) funcionam basicamente aprendendo sob esse conjunto de entradas e saídas, de forma que se possa, através desse aprendizado, predizer a saída sob uma nova entrada, de um conjunto de dados similares. HAYKIN (2007) as define da seguinte forma: “Uma rede neural é um processador maciçamente paralelo e distribuído, constituído por unidades de processamento simples, o qual tem a propensão natural de armazenar conhecimento experimental e torná-lo disponível para uso”.

Os primeiros trabalhos sobre Redes Neurais Artificiais foram registrados em 1943 por Warren McCulloch e Walter Pitts. Apesar de bem simples diante de todas as

(23)

informações já disponíveis na época sobre o comportamento elétrico da célula nervosa, até hoje é a referência número 1 para a teoria das redes neurais artificiais, conforme explica Kovács (2006).O neurônio biológico divide-se de forma simplificada em três secções: o corpo celular, os dendritos e o axônio, cada um com funções específicas e complementares, conforme a Figura 1:

Figura 1 - Componentes do neurônio biológico.

Fonte: Braga, Carvalho e Ludemir (2011).

Braga, Carvalho e Ludemir (2011), explicam que os dendritos têm a função de receber as informações, impulsos nervosos, oriundas de outros neurônios e conduzi-las até o corpo celular onde a informação é processada e são gerados novos impulsos. Esses impulsos são transmitidos a outros neurônios, passando através do axônio até os dendritos dos neurônios seguintes. O ponto de contato entre a terminação axônica de um neurônio e o dendrito de outro é chamado de sinapse. É pelas sinapses que os neurônios se unem funcionalmente, formando as redes neurais biológicas.

Destacam-se como algumas das funções da rede neural biológica do ser humano a capacidade de reconhecer padrões e relacioná-los, usar e armazenar conhecimento por experiência, além de interpretar observações, como descrevem Braga, Carvalho e Ludemir (2011).

Toda essa capacidade das redes biológicas naturalmente acabou por inspirar a formulação de um algoritmo extremamente utilizado pela ciência: as redes neurais artificiais ou RNAs. Na Figura 2 os valores x1, x2 e xn representam valores de entrada na rede, w1, w2 e wn os pesos sinápticos e y a saída.

(24)

Figura 2 - representação do modelo MCP do neurônio artificial.

Fonte: Braga, Carvalho e Ludemir (2011)

Braga, Carvalho e Ludemir (2011) descrevem esse modelo, como na Figura 2, com n terminais de entrada observados pelos valores de x, e que representam os dendritos e um terminal de saída, o axônio, correspondente ao y. Os valores de w seriam os pesos, os quais se ajustam conforme treinamento da RNA.

Por conseguinte, cada valor x de entrada é ponderado com seu peso w, e esses todos somados em Σ. Nesse modelo compreende-se que o neurônio dispara uma saída y, com valor 0 ou 1, através da aplicação da função de ativação, f(.), dependendo do valor da soma ponderada das suas entradas. Pode-se encontrar na literatura diferentes arquiteturas de RNAs, as quais podem possuir diferentes números de camadas, como se observa na Figura 3.

(25)

Figura 3 - Algumas arquiteturas de RNAs.

Fonte: Braga, Carvalho e Ludemir (2011).

Também chamada de MLP, multilayer perceptron, e sugestivamente representando uma generalização da perceptron de camada única, Haykin (2007) destaca que tipicamente essa rede consiste de um conjunto de unidades sensoriais que constituem a camada de entrada, um ou mais camadas ocultas de nós computacionais e uma camada de saída de nós computacionais, como ilustrado na Figura 4.

Figura 4 - Ilustração de uma rede MLP típica com uma camada intermediária

(26)

De acordo com Braga, Carvalho e Ludemir (2011), uma rede MLP apresenta um poder computacional maior em relação às redes de apenas uma camada simples. Em problemas de classificação, por exemplo, ela pode lidar com problemas que não sejam linearmente separáveis.

Haykin (2007), explica que os perceptrons de múltiplas camadas são usados com sucesso para resolver diversos problemas difíceis, através de seu treinamento de forma supervisionada com um algoritmo conhecido como back-propagation, ou algoritmo de retropropagação de erro, que se baseia na regra de aprendizagem por correção de erro.

Esse aprendizado por retropropagação consiste basicamente em dois passos através das diferentes camadas da rede segundo Haykin (2007):

1. Propagação: Um padrão de atividade (vetor de entrada) é aplicado aos nós sensoriais da rede e seu efeito se propaga através da rede, camada por camada. Depois disso um conjunto de saídas é reproduzido com a resposta real da rede, que tem seus pesos fixos.

2. Retropropagação: Os pesos sinápticos são ajustados de acordo com uma regra de correção de erro. Então a resposta real da rede é subtraída de uma resposta desejada para produzir um sinal de erro. Esse sinal de erro é então propagado para trás através da rede, contra a direção das conexões sinápticas.

Os pesos sinápticos são então ajustados para fazer com que a resposta da rede se mova o mais próximo possível da resposta desejada.

Como o Perceptron de múltiplas camadas faz uso mais comumente do algoritmo de treinamento back-propagation, temos um aprendizado supervisionado, ou seja, estimulado por um supervisor que faz as entradas e observa a saída, comparando-a com a saída desejada, Braga, Carvalho e Ludemir (2011). Segundo Raykin (2006), podemos destacar três características distintas de uma MLP:

1) O modelo de cada neurônio de rede inclui uma função de ativação não-linear, normalmente uma não-linearidade sigmoide;

(27)

3) A rede exibe um alto grau de conectividade, determinado pelas sinapses da rede;

Essas três características juntamente com essa condição de aprender através de treinamento são responsáveis pelo poder de processamento da MLP, segundo Haykin (2007). Ao mesmo tempo dificultam a análise teórica e visualização do processo de aprendizagem.

Genericamente, as redes neurais artificiais são capazes de executar várias tarefas. Seguem as principais segundo Braga, Carvalho e Ludemir (2011):

 Classificação: reconhecimento de caracteres, reconhecimento de imagens, diagnóstico (médico, de equipamentos, etc.) análise de risco de crédito, detecção de fraudes, detecção de falhas em sistemas industriais;

 Categorização: Agrupamento de sequências de DNA, mineração de dados, análise de expressão gênica, agrupamento de clientes;

 Previsão: Previsão do tempo, previsão financeira (câmbio, bolsa, etc.), modelagem de sistemas dinâmicos, previsão de sequências de DNA.

Como visto, o MLP tem uma vasta capacidade de execução de tarefas, e em se tratando de classificação se observa uma melhoria de desempenho quando se consegue reduzir a dimensionalidade dos dados, selecionando os atributos mais significativos.

2.4 Seleção de atributos

Segundo Amaral (2016), seleção de atributos são técnicas para encontrar um subconjunto de atributos de características da relação que são mais relevantes na classificação. Uma das motivações da seleção de atributos está na redução da dimensionalidade, consistindo essencialmente numa tarefa onde se busca remover atributos irrelevantes e/ou redundantes. Atributos irrelevantes podem ser removidos sem prejuízo no desempenho de aprendizagem de máquina, (HUAN; MOTODA, 2008). Frank e Witten (2005) relatam que nas situações práticas há muitos atributos nas bases de dados as quais se pretende lidar com aprendizado de máquina, e em

(28)

aprendizado de máquina busquem selecionar os atributos de forma adequada e ignorar os irrelevantes, mas, na prática tem-se observado um desempenho desses algoritmos abaixo do esperado quando não se tem uma pré-seleção na base de dados antes do seu uso.

Em geral um atributo é considerado relevante, se ele tiver relação com o atributo classe, ou se ele fizer parte de um grupo que tem relação com o atributo classe (DE LIMA, 2016). Segundo Huan e Motoda (2008), várias estratégias de busca para subconjuntos de atributos são propostas, dentre elas:

•forward: Quando o início do subconjunto de atributos é vazio e vai-se adicionando, um a um, atributos relevantes no subconjunto;

•backward: Quando o início se dá com um conjunto completo de atributos, passando o processo a remover um a um.

Huan e Motoda (2008) destacam como principais abordagens de seleção de atributos são wrapper e filtro. O wrapper, segundo os autores, conta com um algoritmo preditivo que avalia a qualidade de um subconjunto de atributos. De Lima (2016) comenta que essa abordagem tem como desvantagens a dependência desse algoritmo, a solução que não fica generalizada para outros algoritmos e a complexidade da solução.

Já no filtro a seleção de atributos é independente do algoritmo de classificação, e produz uma avaliação individual de cada atributo de acordo com sua relevância individual ou discriminativa em relação ao atributo classe (HUAN; MOTODA, 2008). Lima (2016) destaca algumas métricas usadas nessa abordagem, tais como entropia, correlação, informação mútua, chi-quadrado e etc.

Para Tan, Steinback e Kumar (2009) o cenário ideal para redução da dimensionalidade é testar todos os subconjuntos possíveis de atributos, no entanto, essa tarefa não se mostra prática e os autores apontam como uma solução para seleção de atributos o uso de algoritmos. Algoritmos de seleção de atributos são normalmente classificados em dois grupos: os que selecionam um subconjunto de atributos e os que fazem um ranking dos melhores atributos de acordo com sua efetividade na classificação.

(29)

2.4.1 Algoritmos de seleção de atributos

Uma abordagem de algoritmos de seleção de atributos é o método de ranking. O ranking visa classificar os atributos por um índice de qualidade do atributo que reflete a relevância e o poder de discriminação do atributo (DE LIMA, 2016), e exemplifica-se a seguir alguns desses algoritmos.

O ChiSquareAttributeEval também é conhecido por Qui-Quadrado (x²) e avalia os atributos individualmente usando a medida x² em relação à classe. Quanto maior a medida de x² mais provável é a correlação das variáveis (atributo e classe). Por fim, o algoritmo faz um ranking dos melhores atributos de acordo com sua relevância (TAKAMOTO; TOMAZELA, 2013).

OFilteredAttributeEval é um algoritmo avaliador arbitrário de dados que foram

passados por um filtro (SARKAR; COOLEY; SRIVASTAVA, 2012).

Segundo Netto (2013) o algoritmo GainRatioAttributeEval usa uma métrica para ranquear os atributos de uma base de dados calculando o ganho de informação (Gain) de um atributo contra o número de saídas que um teste com aquele atributo pode resultar (SplitInfo). O algoritmo por tanto é uma árvore de decisão que ranqueia os melhores atributos por ganho de informação e redução da entropia (TAKAMOTO; TOMAZELA, 2013). Para De Lima (2016) o algoritmo GainRatioAttributeEval é uma versão ponderada do algoritmo InfoGainAttributeEval que visa solucionar uma limitação desta, procurando selecionar atributos que maximizam o ganho de informação, enquanto minimizam o número de valores de um atributo.

Witten, Frank e Hali (2016) notam que o algoritmo InfoGainAttributeEval avalia os atributos medindo seu ganho de informação em relação à classe. Takamoto e Tomazela (2013) notam que ele segue as mesmas especificações do Gain Ratio no sentido de que ranqueia os atributos através de ganho de informação.

Para Witten, Frank e Hali (2016) o OneRAttributeEval usa medida simples de precisão adotada pelo classificador OneR. Usa dados do treinamento para validação ou faz validação cruzada. Segundo De Lima (2016), o algoritmo ReliefFattributeEval é uma técnica de seleção de atributos supervisionada baseada em filtragem, a qual faz uma análise univariada de cada atributo em relação à classe. No algoritmo é calculada para cada instância, a instância mais próxima da mesma classe e a instância mais próxima da classe diferente, e posteriormente a diferença entre as duas.

(30)

que avalia os atributos usando a eliminação de atributos recursivamente com uma máquina de vetores de suporte linear. Os atributos são selecionados com base no tamanho de seus coeficientes. Opera em dados de classes discretos ou contínuos. Já o algoritmo SymmetricalUncertAttributeEval avalia atributos baseados na sua incerteza simétrica com relação a classe (BAHL; SHARMA, 2015). Uma segunda abordagem dos algoritmos de seleção de atributos se baseia na seleção de um subconjunto de atributos mais relevantes, diferente do ranking.

O Algoritmo CfsSubsetEval (Seleção de Atributos baseada em correlação) utiliza correlação em subconjuntos e avalia a capacidade de predição de cada um dos atributos no subconjunto juntamente com o grau de redundância entre os atributos (NETTO, 2013). Takamoto e Tomazela (2011) consideram um bom algoritmo quando os atributos são altamente correlacionados com a classe e contém atributos não correlacionados entre si.

Segundo Witten, Frank e Hali (2016) o FilteredSubsetEval aplica um avaliador de subconjunto aos dados filtrados.

De acordo com Tan, Steinback e Kumar (2009) a Análise de Componentes Principais (PCA) tem por objetivo encontrar um novo conjunto de atributos que capture a melhor variabilidade dos dados e tem uma tendência de identificar os padrões mais fortes nos dados que muitas vezes são uma pequena fração do conjunto total. Esta técnica de seleção de atributos utiliza conceitos de Álgebra Linear, mais especificamente autovetores e automotores de uma matriz, e tem custo computacional relativamente baixo (GOLDSCHMIDT; BEZERRA; PASSOS, 2015).

De acordo com Yildirim (2015) o ConsistencySubsetEval adota a taxa de consistência de classe como avaliação de medida.

Além dos algoritmos supracitados é possível encontrar outros algoritmos que produzem a seleção de atributos. O autor mostra a seguir trabalhos relacionados ao referente estudo que mostram outros exemplos desses algoritmos, além de classificadores e especialmente do MLP no diagnóstico de doenças e trabalho sobre pré-processamento em base de dados.

(31)

2.5 Trabalhos relacionados

Foi possível encontrar na Literatura relatos de trabalho sobre a preparação de uma Base de Dados da área de saúde real para uso de algoritmos de Mineração de Dados.

Os estudos de Barros et al (2011) visaram preparar uma base de dados de um plano de saúde suplementar (PSS) para utilização de algoritmos de Mineração de Dados, através das técnicas de pré-processamento: Entendimento do domínio de aplicação, seleção de um conjunto de dados alvo, limpeza de dados, pré-seleção de atributos relevantes e redução e projeção de dados. Todas as informações pessoais relativas aos beneficiários do Plano de Saúde foram excluídas da base. O conceito utilizado na seleção de atributos foi o de Prevalência de Classe e foi reduzido o número de atributos de 120 para 55.

Com relação a classificadores e especificamente Redes Neurais aplicadas ao diagnóstico de doenças, inclusive a Dengue, se encontra um vasto material.

Aguiar el. al (2016) utilizaram as redes neurais SOM e MLP para diagnosticar a tuberculose pulmonar. A base de dados utilizada nesse estudo compreende informações de 315 pacientes internados no Clementino Fraga Filho Hospital (CFFH) da Universidade Federal do Rio de Janeiro no período de março de 2013 até dezembro de 2004, e consistia basicamente em sete atributos: classificação radiológica, idade, sexo, tosse, suor noturno, perda de peso e anorexia.

O modelo MLP teve o melhor desempenho para diagnosticar, enquanto que o modelo SOM conseguiu se sair melhor na atribuição a pacientes a grupos de riscos entre: baixo e médio/ alto risco. Dessa forma os autores supracitados concluíram que as redes são promissoras para avaliação inicial de pacientes com suspeita clínica e radiológica de tuberculose pulmonar.

Costa, Motta e Nogueira (2010) fizeram um estudo comparativo entre o modelo MLP - Multilayer Perpectron, e o mapa auto organizável, para diagnóstico de doenças meningocócicas. Fazendo uso de uma base de dados da Secretaria de Vigilância Epidemiológica da prefeitura do Rio de Janeiro, conseguiram 125 registros para treinamento e teste das redes.

Os autores consideraram as informações clínicas e laboratoriais para seu conjunto de atributos, tais como: cefaleia, febre, vômito, convulsão, rigidez de nuca,

(32)

bacterioscopia, aglutinação pelo látex, agente bacteriano, agente asséptico, agente de outra etiologia, sorogrupo, neutrófilo, glicose, leucócito, proteína, leucócito mononuclear e idade do enfermo. Por conseguinte, Costa, Motta e Nogueira (2010) fizeram uso da ferramenta Weka, abordada no capítulo 3, para executar os experimentos.

Diante disso puderam concluir que o modelo MLP (Perceptron de Múltiplas Camadas) teve desempenho melhor que o modelo de mapa auto organizável, além de mostrar percentuais de acertos satisfatórios na tarefa de classificar essas patologias.

De Oliveira (2009) desenvolveu um estudo visando diagnosticar as formas graves da Dengue para um paciente já acometido pela doença. Esta pesquisa se baseou em dados genônimos (polimorfismos genéticos) de 105 pacientes acometidos por Dengue usando MLP, e obteve como resultado uma classificação com acurácia de 85% para a maioria das classes.

Dos Santos (2016) fez um estudo comparativo de classificadores voltado ao diagnóstico de Dengue, o qual demostra que os algoritmos classificadores LibSVM, Perceptron de Múltiplas Camadas e J48 conseguiram um melhor desempenho nessa tarefa. A base de dados utilizada no experimento tinha 781 instâncias, e englobava informações de moradia, pessoais, sintomas e classificação final, sendo resultado de uma seleção de atributos usando algoritmo de árvore de decisão J48, através da ferramenta WEKA.

Steiner (2004) desenvolveu um estudo com a finalidade de realizar diagnóstico médico classificando pacientes em ictéricos com câncer e ictéricos com cálculo e para isso comparou seis técnicas de Mineração de Dados, sendo três delas Árvores de Decisão (AdTree, DecisionStump e C4.5) e três de Regras de Classificação (Decision Table, ZeroR e OneR). Foram coletados dados de 118 pacientes perfazendo 14 variáveis (medidas de exames clínicos) as quais foram indicadas por um especialista.

No estudo evidenciou-se as Árvores de Decisão com desempenho satisfatório e superior as Regras de Decisão, média de 91.55% de acerto, e ainda se atestou um melhor desempenho dos algoritmos AdTree e DecisionStump em relação ao C4.5.

Fathima e Hundewale (2012) realizaram uma análise comparativa entre os algoritmos SVM e Naive’s Bayes na tarefa de classificação para pacientes suspeitos de Dengue. Foram coletados dados de cinco mil (5.000) pacientes com dengue e outras doenças, através de questionários aplicados em Chennai e Tirunelveli, na Índia,

(33)

contendo vinte e nove (29) informações clínicas associadas a doença. Ao final do trabalho os autores constataram que o algoritmo SVM supera o Naive Bayes no Diagnóstico de Dengue com taxa de acerto em 90.42%.

No trabalho de Castanheira (2008) encontra-se um estudo comparativo entre os algoritmos J4.8 e Perceptron de Múltiplas Camadas para o diagnóstico de Hepatite utilizando uma base de dados pública com mesmo nome da doença, a qual contém 86 casos de pacientes que apresentam a patologia citada e outros 69 casos que não apresentam essa patologia perfazendo 20 atributos cada. Nessa base de dados específica e para o diagnóstico de Hepatite a autora concluiu que o algoritmo J4.8 conseguiu ser mais eficiente para classificar os pacientes.

Gonçalves Souza e Tostes e Souza (2004), produziram uma pesquisa com objetivo de diagnosticar doenças reumáticas usando sintomas, exames e características dos pacientes. Para tal realizaram um teste comparativo entre duas Redes Neurais Artificiais: Kohonen e o Perceptron de Múltiplas Camadas, no qual a última se sobressaiu. Foram abordados quatro diagnósticos: Artrite Reumatóide, Fibromialgia, Gota e Osteoartrose, com uma média geral de acerto em 87,33%.

Há também na literatura outros diversos que tratam da seleção de atributos, boa parte deles com finalidade de reduzir a dimensionalidade dos dados e melhorar desempenho de classificadores.

Ferreira et al (2016) mostraram um estudo sobre desordens orais potencialmente malignas, com 1.385 trabalhadores rurais do Seridó do Rio Grande do Norte. O autor buscou, através da Regressão Logística Binária, associar uma variável dependente: presença de lesão, com variáveis independentes: sexo, idade, escolaridade, cor da pele, exposição acumulada aos raios solares, uso de proteção, a condição de ex-fumantes e consumidores de bebidas alcóolicas.

Com o resultado do estudo, o autor supracitado conseguiu revelar que dentre o subconjunto de variáveis, três delas tem maior significância estatística para determinar a variável presença de lesão (dependente): sexo, cor da pele e tempo de exposição prolongada aos raios solares.

Herrera (2013) desenvolveu um estudo objetivando o diagnóstico da doença de Alzheimer (DA) a partir de imagens de ressonância magnética (MRI) utilizando o algoritmo SVM e classificando as MRI do cérebro humano como normal ou anormal. O trabalho mostrou que a redução da dimensionalidade dos dados com a técnica Análise dos Principais Componentes – PCA junto com o algoritmo NMIRS reduziram a acurácia

(34)

de classificação, mas que, mesmo assim, o algoritmo SVM teve desempenho promissor nessa área.

Fuzaro (2010), investigou métodos para redução de dimensionalidade de dados, um baseado em seleção de características (Rough Sets) e outro baseado em transformação de características (PCA) para reconhecimento de padrões em exames de saúde por imagem. Através do software RSES (Rough Set Exploration System) aplicou-se o método de seleção de características (Rough Sets), enquanto que com software R-Project foi aplicado o método de transformação de características (PCA) usando as bases de dados públicas: Iris database, Wine database, Wisconsin Diagnostic Breast Cancer database, Wisconsin Diagnostic Breast Cancer database e Wisconsin Prognostic Breast Cancer.

Depois desse pré-processamento as bases foram submetidas aos classificadores BayesNet, Decision Table, J48, LibSVM, Multilayer Perceptron através do WEKA, e ainda um classificador produzido pelo autor chamado JADE. Ao final dos experimentos constatou-se que o método baseado em Rough Sets nem sempre apresenta redução da dimensionalidade satisfatória, e que o método PCA depende da distribuição dos dados.

Lahijanian et al (2016) desenvolveram um estudo para diagnóstico de doenças eritematoescamosas baseado na combinação de três classificadores: MLP, KNN e SVM, e uso de seleção de atributos. A seleção de atributos se deu pela técnica Rough

Set-Based que reduziu a dimensionalidade dos dados, selecionando 12 de 34 atributos

além de melhorar cerca de 2% o desempenho de cada classificador. O MLP conseguiu uma acurácia de 95%, KNN de 95,55% e SVM de 96,11%. A combinação dos classificadores chegou a 97,78% de acurácia.

Wibawa el al (2015) realizaram uma pesquisa afim de diagnosticar a doença de Parkinson através da medição de dados de voz obtidos no repositório UCI. Esses dados por sua vez passaram por algumas técnicas de seleção de atributos: CFS, PCA e Wrapper, para depois aplicar os classificadores SVM, KNN, Rede Bayesiana e MLP usando a ferramenta Weka.

Os resultados mostraram que o algoritmo CFS aumentou a acurácia da Rede Bayesiana e do MLP, mas diminuiu a acurácia do SVM e KNN. O PCA aumentou a acurácia do SVM e da Rede Bayesiana, mas diminuiu no KNN e MLP. O Wrapper aumentou a acurácia do SVM, KNN e da Rede Bayesiana enquanto diminuiu do MLP.

(35)

O melhore resultado obtido nesse trabalho foi na junção da seleção de atributos do Wrapper com o classificador KNN com 98,97% de acurácia.

Dang et al (2016) estudaram como diagnosticar câncer através de dados de micro arranjos de expressão gênica, usando o algoritmo de classificação MLP juntamente com as técnicas de seleção de atributos PCA e Árvore de decisão. O estudo concluiu que o algoritmo MLP conseguiu melhorar seu desempenho quando se usou PCA para seleção de atributos, mas quando foram combinadas as técnicas de PCA com Árvore de decisão o desempenho foi o melhor entre todos.

Mahmood e Allawi (2016) propuseram um estudo baseado técnica de seleção de atributos PCA modificada através do método JK (PCA-JK). Para isso os autores usaram 3 algoritmos de classificação: Naive Bayes, MLP e Arvore de decisão, além de seis bases de dados diferentes dispostas no repositório UCI Machine Learning.

Os resultados demonstraram que a técnica de seleção de atributos obteve sucesso em todos as seis bases de dados com acurácia média dos classificadores em 92,5% para o Naive Bayes, 93,6% para o MLP e 95,7% para a Árvore de decisão, todos estes também bem superiores a experimentos realizados simplesmente com a técnica de PCA simples.

Ebrahimzadeh et al (2017) desenvolveram um estudo com finalidade de prever a morte subida cardíaca. A base de dados usada foi de uma base de dados aberta fornecida pelo MITBIH Database com 41 pacientes. O método de seleção de atributos foi a árvore de decisão e o algoritmo de classificação utilizado foi o MLP indicado para diferenciar sujeitos propensos a ter morte súbita cardíaca de sujeitos sem essa propensão. Os resultados mostraram sucesso do experimento tendo em vista que foi capaz de uma previsão com até 12 minutos de antecedência.

Tendo em vista o material explicitado nessa seção faz-se necessário ressaltar a importância desse estudo proposto, observando primeiramente que se trata do primeiro relato sobre diagnóstico de Dengue através dos dados do Sistema oficial do Ministério da Saúde que faz o acompanhamento destes casos, o SINAN Online. Por conseguinte, foi necessário fazer uma série de tratamentos nesta base de dados, os pré-processamentos para uso de algoritmos de mineração de dados, o que resultou num trabalho que passa por diversas etapas da mineração de dados.

Por outro lado, a seleção de atributos é uma área que ainda carece de estudos, visto as dificuldades um pouco maiores que o autor enfrentou para encontrar material bibliográfico comparando com outras áreas. Também nesse sentido, o presente estudo

(36)

o classificador MLP, o qual a literatura e os próprios trabalhos mencionados acima descrevem como um algoritmo de grande valia para diagnóstico de doenças. Desta forma, o autor acredita que com a realização deste estudo, experimentos e principalmente com os respectivos resultados, esse trabalho seja de extrema relevância e possa apoiar, subsidiar e guiar a continuidade de novos estudos na área de diagnósticos em saúde.

(37)

3. MÉTODO DE SELEÇÃO DE PRINCIPAIS ATRIBUTOS PARA UTILIZAR EM REDES NEURAIS ARTIFICIAIS DO TIPO MLP: UM ESTUDO DE CASO SOBRE MINERAÇÃO DE DADOS PARA DIAGNÓSTICO DE DENGUE.

Essa seção do trabalho aborda o Banco de Dados, seu Pré-processamento e a aplicação de oito algoritmos que fazem ranking de melhores atributos para que se monte um ranking com base nessas oito técnicas.

Além disso, são aplicados testes adicionais que mostram o desempenho de cada uma desses oito algoritmos que formam o ranking, e outros testes com algoritmos que fazem um subconjunto de algoritmos mais importantes.

3.1 Base de Dados

O SINAN Online é um Sistema do Ministério da Saúde que tem como endereço eletrônico http://sinan.saude.gov.br/sinan/login/login.jsf, e segundo seu guia rápido disponibilizado na própria página inicial: “tem por objetivo a inserção e disseminação dos dados de agravos de notificação compulsória nas três esferas de governo em tempo real, fornecendo dados de forma rápida e íntegra para análise e tomada de decisões”.

O guia eletrônico desse sistema ainda faz menção sobre seu acesso, o qual é feito de forma exclusiva por profissionais da área. No processo de notificação da dengue através do SINAN Online, são colhidas uma série de informações as quais são mostradas na Tabela 1, que descreve a Base de Dados cedida pela Secretaria Estadual de Saúde do Estado do Rio Grande do Norte – SESAP/RN - para o referente estudo.

O Anexo II traz o documento pelo qual foi requisitada essa base de dados e em seguida um print do projeto na Plataforma Brasil, mostrando que o Comitê de Ética da FACISA-UFRN descartou a necessidade de uma avaliação mais profunda, em virtude das informações da base ser de domínio público. A base de dados cedida registra 63.345 casos, cada um deles com 112 variáveis, sendo todos eles relativos a

(38)

2016 através do Sinan Online.

Tabela 1 – Demonstrativo da base de dados recebida da SESAP/RN com atributos e respectivas

descrições.

CAMPO DESCRIÇÃO S

1 TP_NOT Tipifica a Notificação em 1- individual ou 2 – coletiva C 2 ID_AGRAVO Especifica suspeição do agravo: Dengue (A90) ou

Chikungunya (A92) C

3 DT_NOTIFIC Data que foi realizada a notificação

4 SEM_NOT Semana que foi realizada a notificação R

5 NU_ANO Ano que foi realizada a notificação C

6 SG_UF_NOT Unidade da Federação que foi realizada a notificação

(24) C

7 ID_MUNIC_N OTIFICACAO

Identificador do Município que foi realizada a notificação E 8 DT_SIN_PRI Data dos primeiros sintomas da doença

9 SEM_PRI Semana dos primeiros sintomas da doença R 10 DT_NASC Data de nascimento do paciente notificado R 11 NU_IDADE_

N

Idade do paciente notificado 12 CS_SEXO Sexo do paciente notificado 13 CS_GESTAN

T

Informação sobre possível gravidez do paciente notificado

14 CS_RACA Raça do paciente notificado P

15 CS_ESCOL_ N

Grau de escolarização do paciente notificado

P 16 SG_UF Unidade Federativa de residência do paciente notificado C 17 ID_MN_RESI Identificador do município de residência do paciente

notificado E

18 ID_BAIRRO Identificador do bairro de residência do paciente

notificado E

19 NM_BAIRRO Nome do bairro de residência do paciente notificado E 20 DT_INVEST Data que se iniciou a investigação, obrigatoriamente

maior que a data de notificação 21 ID_OCUPA_

N

Identificador da ocupação

P 22 FEBRE Sinal clínico ou achados laboratoriais inespecíficos para

Febre (Assinala 1 para SIM e 2 para NÃO)

23 MIALGIA Sinal clínico ou achados laboratoriais inespecíficos para Mialgia (Assinala 1 para SIM e 2 para NÃO).

24 CEFALEIA Sinal clínico ou achados laboratoriais inespecíficos para Cefaleia (Assinala 1 para SIM e 2 para NÃO).

25 EXANTEMA Sinal clínico ou achados laboratoriais inespecíficos para Exantema (Assinala 1 para SIM e 2 para NÃO).

26 VOMITO Sinal clínico ou achados laboratoriais inespecíficos para Vômito (Assinala 1 para SIM e 2 para NÃO).

27 NAUSEA Sinal clínico ou achados laboratoriais inespecíficos para Náuseas (Assinala 1 para SIM e 2 para NÃO).

(39)

28 DOR_COST AS

Sinal clínico ou achados laboratoriais inespecíficos para Dor nas costas (Assinala 1 para SIM e 2 para NÃO). 29 CONJUNTVI

T

Sinal clínico ou achados laboratoriais inespecíficos para Conjuntivite (Assinala 1 para SIM e 2 para NÃO).

30 ARTRITE Sinal clínico ou achados laboratoriais inespecíficos para Artrite (Assinala 1 para SIM e 2 para NÃO).

31 ARTRALGIA Sinal clínico ou achados laboratoriais inespecíficos para Artralgia (Assinala 1 para SIM e 2 para NÃO).

32 PETEQUIA_ N

Sinal clínico ou achados laboratoriais inespecíficos para Petéquias (Assinala 1 para SIM e 2 para NÃO).

33 LEUCOPENI A

Sinal clínico ou achados laboratoriais inespecíficos para Leucopenia (Assinala 1 para SIM e 2 para NÃO).

34 LACO

Sinal clínico ou achados laboratoriais inespecíficos para Prova do laço positiva (Assinala 1 para SIM e 2 para NÃO).

35 DOR_RETR O

Sinal clínico ou achados laboratoriais inespecíficos para dor retro orbital (Assinala 1 para SIM e 2 para NÃO). 36 DIABETES

Sinal clínico ou achados laboratoriais inespecíficos para pré-existência de Diabetes (Assinala 1 para SIM e 2 para NÃO).

37 HEMATOLO G

Sinal clínico ou achados laboratoriais inespecíficos para pré-existência doenças hematológicas (Assinala 1 para SIM e 2 para NÃO).

38 HEPATOPAT

Sinal clínico ou achados laboratoriais inespecíficos para pré-existência de doenças hepatopatias (Assinala 1 para SIM e 2 para NÃO).

39 RENAL

Sinal clínico ou achados laboratoriais inespecíficos para pré-existência de doenças Doença Renal Crônica (Assinala 1 para SIM e 2 para NÃO).

40 HIPERTENS A

Sinal clínico ou achados laboratoriais inespecíficos para pré-existência de Hipertensão arterial (Assinala 1 para SIM e 2 para NÃO).

41 ACIDO_PEP T

Sinal clínico ou achados laboratoriais inespecíficos para pré-existência de doença ácido-péptica (Assinala 1 para SIM e 2 para NÃO).

42 AUTO_IMUN E

Sinal clínico ou achados laboratoriais inespecíficos para pré-existência de doenças auto-imunes (Assinala 1 para SIM e 2 para NÃO).

43 DT_CHIK_S1 Data da Coleta Exame Sorológico (IgM) Chikungunya

soro 1 P

44 DT_CHIK_S2 Data da Coleta Exame Sorológico (IgM) Chikungunya

soro 2 P

45 DT_PRNT Data da Coleta Exame PRNT (Para Chikungunya) P 46 RES_CHIKS

1

Resultado do Exame Sorológico (IgM) soro 1 para

Chikungunya P

47 RES_CHIKS 2

Resultado do Exame Sorológico (IgM) soro 2 para

Chikungunya P

48 RESUL_PRN T

Resultado do Exame Sorológico (IgM) PRNT (Para

(40)

50 RESUL_SOR O

Resultado do Exame Sorológico (IgM) Dengue

L 51 DT_NS1 Data da coleta Exame Sorologia ELISA (Para Dengue) P 52 RESUL_NS1 Resultado do Exame Sorologia ELISA (Para Dengue) P

53 DT_VIRAL Data da Coleta Isolamento Viral P

54 RESUL_VI_N Resultado Exame de Isolamento Viral P

55 DT_PCR Data de Coleta do Exame de RT-PCR P

56 RESUL_PCR _

Resultado do Exame de RT-PCR

P 57 SOROTIPO Sorotipo –Identifica o vírus da Dengue P 58 HISTOPA_N Resultado Exame de Histopatologia (Para Dengue) P 59 IMUNOH_N Resultado Exame de Imunohistoquímica (para Dengue) P 60 HOSPITALIZ Informa se ocorreu hospitalização P 61 DT_INTERN

A

Informar a data de internação do paciente

P 62 UF Sigla da UF onde o paciente foi hospitalizado C 63 MUNICIPIO Código e nome completo do município onde o paciente

foi hospitalizado E

64 HOSPITAL Nome completo da unidade de saúde em que o paciente

foi notificado E

65 CLASSI_FIN

Informar a classificação do caso. (5-Descartado; 10-Dengue; 11-Dengue com sinais de alarme; 12-Dengue grave e 13-Chikungunya)

66 CRITERIO

Informar o critério de confirmação/descarte (1-Laboratório;

2-Clínico epidemiológico; 3-Em investigação)

C

67 DOENCA_TR A

NÃO IDENTIFICADO

P 68 CLINC_CHIK Informar apresentação clínica do caso de Chikungunya P 69 EVOLUCAO

Informar a evolução do caso. (1- cura; 2- óbito pelo Agravo; 3- óbito por outras Causas; 4- óbito em Investigação; 9- ignorado.

P

70 DT_OBITO Informar a data do óbito. P

71 DT_ENCERR A

Informar a data do encerramento do caso

72 ALRM_HIPO T

Informar se sinal de alarme Hipotensão foi encontrado (Requer campo nº 65=11. Assinala 1 para SIM e 2 para NÃO).

P

73 ALRM_PLAQ

Informar se sinal de alarme Queda abrupta de

Plaquetas foi encontrado (Requer campo nº 65=11.Assinala 1 para SIM e 2 para NÃO).

P

74 ALRM_VOM

Informar se sinal de alarme Vômitos persistentes foi encontrado (Requer campo nº 65=11.Assinala 1 para SIM e 2 para NÃO).

P

75 ALRM_SANG

Informar se sinal de alarmeSangramento de

mucosa/outras hemorragias foi encontrado (Requer campo nº 65=11.Assinala 1 para SIM e 2 para NÃO).

(41)

76 ALRM_HEM AT

Informar se sinal de alarme Aumento hematócrito foi encontrado (Requer campo nº 65=11. Assinala 1 para SIM e 2 para NÃO).

P

77 ALRM_ABDO M

Informar se sinal de alarme Hipotensão foi encontrado (Requer campo nº 65=11. Assinala 1 para SIM e 2 para NÃO).

P

78 ALRM_LETA R

Informar se sinal de alarme Hipotensão foi encontrado (Requer campo nº 65=11.Assinala 1 para SIM e 2 para NÃO).

P

79 ALRM_HEPA T

Informar se sinal de alarme Hepatomegalia foi encontrado (Requer campo nº 65=11.Assinala 1 para SIM e 2 para NÃO).

P

80 ALRM_LIQ

Informar se sinal de alarme Hipotensão foi encontrado (Requer campo nº 65=11.Assinala 1 para SIM e 2 para NÃO).

P 81 DT_ALRM Data de início dos sinais de alarme P 82 GRAV_PULS

O

Informar se sinal de gravidade Pulso débil ou indectável foi encontrado (Requer campo nº 65=12.Assinala 1 para SIM e 2 para NÃO).

P

83 GRAV_CON V

Informar se sinal de gravidade PA convergente foi encontrado (Requer campo nº 65=12.Assinala 1 para SIM e 2 para NÃO).

P

84 GRAV_ENC H

Informar se sinal de gravidade Tempo de enchimento capilar foi encontrado (Requer campo nº 65=12.Assinala 1 para SIM e 2 para NÃO).

P

85 GRAV_INSU F

Informar se sinal de gravidade Acúmulo de líquidos com insuficiência respiratória foi encontrado (Requer campo nº 65=12.Assinala 1 para SIM e 2 para NÃO).

P

86 GRAV_TAQU I

Informar se sinal de gravidade Taquicardia foi encontrado (Requer campo nº 65=12.Assinala 1 para SIM e 2 para NÃO).

P

87 GRAV_EXTR E

Informar se sinal de gravidade Extremidades frias foi encontrado (Requer campo nº 65=12.Assinala 1 para SIM e 2 para NÃO).

P

88 GRAV_HIPO T

Informar se sinal de gravidade Hipotensão arterial em fase tardia foi encontrado (Requer campo nº 65=12. Assinala 1 para SIM e 2 para NÃO).

P

89 GRAV_HEM AT

Informar se sinal de gravidade Hematêmese foi encontrado (Requer campo nº 65=12.Assinala 1 para SIM e 2 para NÃO).

P

90 GRAV_MELE N

Informar se sinal de gravidade Melena foi encontrado (Requer campo nº 65=12.Assinala 1 para SIM e 2 para NÃO).

P

91 GRAV_MET RO

Informar se sinal de gravidade Metrorragia volumosa foi encontrado (Requer campo nº 65=12.Assinala 1 para SIM e 2 para NÃO).

P

92 GRAV_SAN G

Informar se sinal de gravidadeSangramento do SNC foi encontrado (Requer campo nº 65=12.Assinala 1 para SIM e 2 para NÃO).

Referências

Documentos relacionados

Figura A53 - Produção e consumo de resinas termoplásticas 2000 - 2009 Fonte: Perfil da Indústria de Transformação de Material Plástico - Edição de 2009.. A Figura A54 exibe

Sendo assim, percebe-se que o serviço de acolhimento constituiu-se, sobretudo, da necessidade de humanizar o atendimento, bem como de torna-lo mais ágil e efetivo, garantindo, desse

Com base nos resultados da pesquisa referente à questão sobre a internacionalização de processos de negócios habilitados pela TI com o apoio do BPM para a geração de ganhos para

Para identificar quais treinamentos serão necessários para cada trabalhador ou equipe dentro de uma organização desenvolver um programa eficaz de T&D, pode-se buscar

“O aumento da eficiência e o plano de produção fizeram com que a disponibilidade das células de fabricação aumentasse, diminuindo o impacto de problemas quando do

Este trabalho traz uma contribuição conceitual sobre a utilização do sistema de gestão de produtividade que poderá motivar futuras pesquisas sobre o tema, bem

A abordagem mais usual de fadiga, que utiliza a tensão nominal e a classificação de detalhes geométricos para previsão da vida em fadiga, não abrange conexões mais complexas e

Ninguém quer essa vida assim não Zambi.. Eu não quero as crianças