Análise preditiva baseada em dados para criação de perfil de grupos de risco no SUS: um estudo de caso aplicado a sífilis no Brasil

(1)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS DA SAÚDE

PROGRAMA DE PÓS-GRADUAÇÃO EM GESTÃO E INOVAÇÃO EM SAÚDE

RODRIGO DANTAS DA SILVA

ANÁLISE PREDITIVA BASEADA EM DADOS PARA CRIAÇÃO DE PERFIL DE GRUPOS DE RISCO NO SUS: UM ESTUDO DE CASO APLICADO À SÍFILIS NO

BRASIL

NATAL/RN 2020

(2)

RODRIGO DANTAS DA SILVA

ANÁLISE PREDITIVA BASEADA EM DADOS PARA CRIAÇÃO DE PERFIL DE GRUPOS DE RISCO NO SUS: UM ESTUDO DE CASO APLICADO À SÍFILIS NO

BRASIL

Relatório apresentado como requisito para obtenção do título de Mestre em Gestão e Inovação em Saúde pela Universidade Federal do Rio Grande do Norte.

Orientador: Prof. Dr. Ricardo Alexsandro de Medeiros Valentim.

Co-Orientadora: Profa_{. Dr}a_{. Karilany Dantas}

Coutinho

NATAL 2020

(3)

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial do Centro Ciências da Saúde - CCS Silva, Rodrigo Dantas da.

Análise preditiva baseada em dados para criação de perfil de grupos de risco no SUS: um estudo de caso aplicado à sífilis no Brasil / Rodrigo Dantas da Silva. - 2020.

78f.: il.

Dissertação (Mestrado em Gestão e Inovação em Saúde) -

Universidade Federal do Rio Grande do Norte, Centro de Ciências da Saúde, Programa de Pós-Graduação em Gestão e Inovação em Saúde. Orientador: Ricardo Alexsandro de Medeiros Valentim.

1. Ciência de Dados - Dissertação. 2. Big Data - Dissertação. 3. Sífilis - Dissertação. I. Valentim, Ricardo Alexsandro de Medeiros. II. Título.

RN/UF/BS-CCS CDU 004.6

(4)

_____________________________________________________________ Dr. Ricardo Alexsandro de Medeiros Valentim - Presidente

Universidade Federal do Rio Grande do Norte (UFRN) Orientador

________________________________________________________________ Dra_{. Karilany Dantas Coutinho – Examinador Interno ao Programa}

Universidade Federal do Rio Grande do Norte (UFRN) Co-Orientadora

________________________________________________________________ Dr. Aquiles Medeiros Filgueira Burlamaqui – Examinador Externo ao Programa

Universidade Federal do Rio Grande do Norte (UFRN)

____________________________________________________________ Dr. Agnaldo Souza Cruz – Examinador Externo ao Programa

Universidade Federal do Rio Grande do Norte (UFRN)

______________________________________________________________ MsC. Carlos Alberto Pereira De Oliveira – Examinador Externo à Instituição

Universidade do Estado do Rio de Janeiro (UERJ)

____________________________________________________________ Dr. Leonardo Judson Galvao De Lima – Examinador Externo à Instituição

Laboratório de Inovação Tecnológica em Saúde (LAIS)

__________________________________________________________ Dra_{. Thaisa Gois Farias de Moura Santos Lima – Examinador Externo à Instituição}

(5)

DEDICATÓRIA

À minha esposa, por todo incentivo e dedicação que tem depositado em mim ao longo da nossa caminhada, assim como à minha mãe, que na presença de todas as dificuldades que a vida lhe impôs jamais deixou acreditar em nossa educação.

(6)

AGRADECIMENTOS

À minha esposa, minha mãe, minhas irmãs, amigos e família por confiarem e apoiarem minhas decisões. À minha equipe de desenvolvimento, sem eles boa parte do projeto ainda estaria pendente e ao LAIS por acreditar no projeto, apoiando e dando o suporte essencial para o desenvolvimento.

(7)

PRODUÇÃOREALIZADA

A Big Data Architecture to a Multiple Purpose in Healthcare Surveillance: The Brazilian Syphilis Case.

10th Euro American Conference on Telematics and Information Systems – EATIS 2020

Rodrigo Dantas da Silva – Universidade Federal do Rio Grande do Norte Jean Jar Pereira de Araújo – Universidade Federal do Rio Grande do Norte Álvaro Ferreira Pires de Paiva – Universidade Federal do Rio Grande do Norte

Ricardo Alexsandro de Medeiros Valentim – Universidade Federal do Rio Grande do Norte Karilany Dantas Coutinho – Universidade Federal do Rio Grande do Norte

Jailton Carlos de Paiva – Universidade Federal do Rio Grande do Norte Azim Roussanaly – Universidade de Lorraine (França)

Anne Boyer – Universidade de Lorraine (França)

https://doi.org/10.1145/3401895.3402092 (aguardando publicação prevista para nov/2020)

Strategies for Content Recommendation in the Brazilian Rapid Response to Syphilis Project.

10th Euro American Conference on Telematics and Information Systems – EATIS 2020

Philippi Sedir Grilo de Morais – Universidade Federal do Rio Grande do Norte Rodrigo Dantas da Silva – Universidade Federal do Rio Grande do Norte José Arilton Pereira Filho – Universidade Federal do Rio Grande do Norte

Carlos Alberto Pereira de Oliveira – Universidade Estadual do Rio de Janeiro Azim Roussanaly – Universidade de Lorraine (França)

https://doi.org/10.1145/3401895.3402089 (aguardando publicação prevista para nov/2020) Assessing the Impact of Public Health Campaigns Through Epidemiological, Communication and Education Indicators.

IEEE 20th International Conference on Advanced Learning Technologies - ICALT 2020

Rafael de Morais Pinto – Universidade Federal do Rio Grande do Norte Lyrene Silva – Universidade Federal do Rio Grande do Norte

Ricardo Alexsandro de Medeiros Valentim – Universidade Federal do Rio Grande do Norte Carlos Alberto Pereira de Oliveira– Universidade Estadual do Rio de Janeiro

Juciano Lacerda – Universidade Federal do Rio Grande do Norte

Rodrigo Dantas da Silva – Universidade Federal do Rio Grande do Norte Jailton Carlos de Paiva – Universidade Federal do Rio Grande do Norte Vivekanandan Kumar – Universidade de Athabasca (Canadá)

https://doi.org/10.1109/ICALT49669.2020.00050 (publicado em 04/08/2020)

A recommendation system on educational resources for the rapid response to syphilis project.

International Council for Open and Distance Education - ICDE 2019

Philippi Sedir Grilo de Morais – Universidade Federal do Rio Grande do Norte Rodrigo Dantas da Silva – Universidade Federal do Rio Grande do Norte

(8)

Carlos Alberto Pereira de Oliveira– Universidade Estadual do Rio de Janeiro Karilany Dantas Coutinho – Universidade Federal do Rio Grande do Norte Azim Roussanaly – Universidade de Lorraine (França)

Data Flow Framework: A persona-based repository to modeling recommender systems.

Learning & Student Analytics Conference - LSAC 2019

Rodrigo Dantas da Silva – Universidade Federal do Rio Grande do Norte José Arilton Pereira Filho – Universidade Federal do Rio Grande do Norte Philippi Sedir Grilo de Morais – Universidade Federal do Rio Grande do Norte

Azim Roussanaly – Universidade de Lorraine (França) Anne Boyer – Universidade de Lorraine (França)

Carlos Alberto Pereira de Oliveira– Universidade Estadual do Rio de Janeiro Serviço de Análise de Grandes Séries Temporais.

Registro de Programa de Computador - BR512020000429-6 Expedido em 10 de março de 2020

Ricardo Alexsandro de Medeiros Valentim – Universidade Federal do Rio Grande do Norte Philippi Sedir Grilo de Morais – Universidade Federal do Rio Grande do Norte

Rodrigo Dantas da Silva – Universidade Federal do Rio Grande do Norte Pablo Holanda Cardoso – Universidade Federal do Rio Grande do Norte Jailton Carlos de Paiva – Universidade Federal do Rio Grande do Norte Rafael de Morais Pinto – Universidade Federal do Rio Grande do Norte

João Henrique Vieira da Silva Neto – Universidade Federal do Rio Grande do Norte Adriana Benício Galvão – Universidade Federal do Rio Grande do Norte

GeoSUS – Gestão de Pacientes.

Registro de Programa de Computador - BR512019003008-7 Expedido em 31 de dezembro de 2019

Ricardo Alexsandro de Medeiros Valentim – Universidade Federal do Rio Grande do Norte Rodrigo Dantas da Silva – Universidade Federal do Rio Grande do Norte

Ion Garcia Mascarenhas de Andrade – Centro de Formação de Pessoal para Serviços de Saúde (CEFOPE)

Jean Jar Pereira de Araújo – Universidade Federal do Rio Grande do Norte Daniel Souza Affonso Ferreira – Universidade Federal do Rio Grande do Norte Álvaro Ferreira Pires de Paiva – Universidade Federal do Rio Grande do Norte Adonias Delmiro Dantas Neto – Universidade Federal do Rio Grande do Norte Mônica Baumgardt Bay – Secretaria Estadual de Saúde Pública

(9)

ANÁLISEPREDITIVABASEADAEMDADOSPARACRIAÇÃODEPERFILDE

GRUPOSDERISCONOSUS

RESUMO

Há muitas décadas a sociedade entendeu que se fazia necessário o monitoramento da sua população. Diversas iniciativas surgiram, foram aperfeiçoadas e hoje, na era da sociedade digital, se tornaram ainda mais incisivas. A adoção do monitoramento permitiu que vivêssemos mais, entendêssemos certas doenças e controlássemos pandemias. Com a vida da sociedade permeada com “ser” digital as necessidades se mostraram mais amplas. Quando antes a carência se restringia ao fato de coletar dados, no presente vivenciamos o excesso de dados provenientes de diversas fontes. Este trabalho explora os dados públicos referentes aos registros compulsórios de sífilis no Brasil, como parte dos esforços contidos no projeto “Sífilis Não!” para compreender e identificar como se constitui os diversos grupos sociais dos pacientes com sífilis. É compreendido na literatura grupos específicos de população-chave para as infecções sexualmente transmissíveis, contudo, entende-se igualmente que as características loco-regionais da população podem igualmente apresentar influências. Para tanto, se fez necessário a construção de ferramentas capazes de analisar o grande volume de dados, tais como uma arquitetura de servidores em cluster associado com plataforma de big data bem como estratégias de análise e ciência de dados. Foi aplicado técnicas de agrupamento aos dados, após um processo de curadoria dos dados. Os resultados mostraram que é possível observar que há múltiplos agrupamentos de populações que se unem por características sociais. Tal observação e comprovação permite especializar políticas de saúde pública para além dos grupos macros de população-chave, permite ainda o desenvolvimento de outras soluções tecnológicas para a indução de capacitação dos profissionais de saúde, por exemplo. Durante o desenvolvimento o estudo contou com cooperações internacionais com a Universidade de Athabasca (Canadá) e a Universidade de Lorraine (França) cujo objetivo foi de intercâmbio de experiências e adoção dos resultados como base para outras pesquisas.

(10)

ABSTRACT

For many decades, society understood that it was necessary to monitor its population. Several initiatives emerged, were perfected and today, in the era of the digital society, they have become even more incisive. The adoption of monitoring has allowed us to live longer, understand certain diseases and control pandemics. With the life of society permeated with digital “being”, the needs were broader. When before the lack was restricted to the fact of collecting data, at present we experience the excess of data from different sources. This paper explores public data on compulsory syphilis registrations in Brazil, as part of the efforts contained in the “No Syphilis!” Project. to understand and identify how the different social groups of syphilis patients are constituted. It is understood in the literature specific groups of key population for sexually transmitted infections, however, it is also understood that the loco-regional characteristics of the population may also have influences. For that, it was necessary to build tools capable of analyzing the large volume of data, such as a cluster server architecture associated with big data platform as well as data analysis and science strategies. Grouping techniques were applied to the data, after a data curation process. The results showed that it is possible to observe that there are multiple groups of populations that are united by social characteristics. Such observation and verification allows to specialize public health policies in addition to the macro groups of key population, it also allows the development of other technological solutions to induce the training of health professionals, for example. During development, the study included international cooperation with the University of Athabasca (Canada) and the University of Lorraine (France) whose aim was to exchange experiences and adopt the results as a basis for further research.

(11)

Sumário

PRODUÇÃO REALIZADA ... 1 RESUMO ... 3 ABSTRACT ... 4 1. INTRODUÇÃO ... 6 2. REFERÊNCIAL TEÓRICO ... 9

2.1. Big Data em Saúde ... 9

2.2. Arquitetura Lambda vs. Arquitetura Kappa ... 11

2.3. ETL vs. ELT ... 13

2.4. Dados Agnósticos ... 15

2.5. Aprendizado de Máquina em Saúde ... 16

2.6. Lei Geral de Proteção de Dados ... 17

3. METODOLOGIA ... 21

3.1. Os Dados ... 21

3.2. O Cluster de Processamento ... 22

3.3. O Processo de Profiling ... 23

3.4. Cooperação Técnicas Internacional ... 25

4. RESULTADOS E DISCUSSÃO ... 27

5. CONCLUSÃO ... 38

5.1. Gestão da Saúde Pública ... 38

5.2. Educação e Formação ao Longo da Vida ... 38

5.3. Pesquisas (Painel do Pesquisador) ... 39

6. REFERÊNCIAS BIBLIOGRÁFICAS ... 40

Anexo I ... 45

Anexo II – Relatórios Técnicos da Missão Internacional - Canadá ... 46

(12)

1. INTRODUÇÃO

Na década de 1950 a Organização Mundial de Saúde (OMS) reuniu um comitê que pudesse propor um método capaz de definir e avaliar o nível de vida de uma população. Chegou-se, no entanto, à conclusão de que seria impossível construir um único índice. Foi sugerido então 12 itens que deveriam ser avaliados separadamente, sendo o primeiro deles “Saúde e Demografia”, voltada para o que se expressa como o nível de saúde de uma população (LAURENTI et al, 2005).

A avaliação do nível de vida de populações humanas é assunto de interesse de instituições públicas e privadas há muito tempo. À medida que as sociedades evoluem, novos problemas de saúde ganham relevância. No Brasil, a transição epidemiológica começa com a queda das taxas de mortalidade na década de 1940, devido principalmente à redução dos óbitos por doenças infecciosas (COSTA, 2006). Duas décadas seguintes tornou-se evidente a necessidade de evolução do monitoramento da saúde pública, além do aumento da expectativa de vida, este deveria ser sensível o bastante para refletir outras dimensões relacionadas ao estado de saúde das populações (PATRICK; ERICKSON, 1993). Atualmente monitoramos cada pequeno passo do paciente dentro do sistema, desde seu nascimento até sua morte, detalhado por cada passagem sua no sistema de saúde pública.

No Brasil, o sistema público de saúde é composto, hoje, por diversos sistemas de informação em saúde (SIS), apresentando diversas bases de dados, compondo um grande volume de informações sobre a Saúde no Brasil. De acordo com o próprio Ministério da Saúde, o mesmo apresenta um catálogo de aproximadamente 300 softwares, sendo destes apenas 48 de uso nacional (BRASIL, 2014). Dentre este montante de softwares estão os Sistemas de Informação, são sistemas de notificação oficial para mortalidade, internações, agravos, procedimentos, natalidade, imunização e etc.

O uso corrente e diário de todos esses sistemas, por todos os 5570 municípios do Brasil, gera um volume surpreendente de dados que retrata a saúde da população brasileira. Avaliando apenas uma amostra dos dados de 3 sistemas destes (SIM, SIA e SIH) observando apenas um intervalo de 5 anos, de 2011 a 2015, podemos contabilizar 161.380.477 entradas de pacientes nas bases de dados, representando aproximadamente 16,5 bilhões de dados disponíveis (SILVA, 2017).

(13)

Esta imensa quantidade de dados cria novos desafios a serem vencidos, desafios estes que vão desde o armazenamento até o ponto de saber quais informações podem ser extraídas deste oceano de dados e quais conhecimentos podemos obter com tais informações. Em outras palavras, este oceano é a base fundamental para a evolução no monitoramento da saúde pública e o planejamento de ações rápidas e eficazes.

Embora sejam palavras que aparentemente se confundem como sinônimos, “dado”, “informação” e “conhecimento” têm definições diferentes. Dado é um fato, um valor documentado e registrado. Quando um valor semântico ou um significado é atribuído a um ou mais dados, gera-se informação. Quando estes significados se tornam familiares e um agente os aprende, se tornando este consciente e capaz de tomar decisões a partir destes significados, surge o conhecimento (SILVA, PERES, BOSCARIOLI, 2016).

Há grandes desafios na gestão e análise de dados ligados à área de saúde, tais como a agregação, manutenção, interoperabilidade, interpretação desses dados, sem mencionar questões de privacidade devido à evidente sensibilidade dos dados (NAMBIAR et al., 2013). Outro problema crítico e persistente nos dados da saúde é a completude, em vista que muitos estabelecimentos de saúde no Brasil ainda não são contemplados com estruturas de informatização, seus profissionais ainda trabalham com o preenchimento de fichas, que por vezes são rasuradas ou mesmo permanecem com campos ignorados.

O presente trabalho propõe-se a criação de um sistema de análise e descrição automática de perfis populacionais em grupos de risco dentro da rede do Sistema Único de Saúde (SUS), o qual se baseará nos dados públicos dos sistemas de informação utilizados pelo SUS e mantidos pelo Ministério da Saúde, a fim de se obter um sistema preditor que direcione a gestão e as políticas públicas de saúde. Para tanto, há a premência prévia da construção de uma arquitetura que dê o suporte necessário para este propósito. Há ainda necessidade de obter dados sociais, econômicos e educacionais para que se possa entender os distintos grupos sociais e seus aspectos dentro do âmbito da saúde pública.

Entende-se por “grupo de risco” neste trabalho um grupo de indivíduos mapeados a partir de suas características sociais e logo-regionais como perfil populacional com um alto índice de participação nos casos já mapeados de sífilis no

(14)

país. Com isso, pretende-se na realidade, aumentar a granularidade dos atuais grupos já trabalhados na saúde pública compreendidos como população-chave.

(15)

2. REFERÊNCIAL

TEÓRICO

Nesta apresentação do estado da arte apresentarei uma base teórica sobre os assuntos intrínsecos à temática do trabalho proposto. No capítulo 2.1 uma introdução sobre Big Data e quais os impactos esperados desta tecnologia na área de saúde. No capítulo 2.2 uma visão técnica sobre as arquiteturas existentes em Big Data. No capítulo 2.3 uma apresentação sobre os meios básicos de manipulação de dados em grandes volumes. No capítulo 2.4 apresentamos o conceito de agnosticismo no conceito de tecnologia e dados. O capítulo 2.5 trás uma visão das influências do uso de aprendizado de máquina na área de saúde. Por fim, o capítulo 2.6 trás qual a visão da Lei nº 13.709/2018 sobre o tema central deste trabalho.

2.1. B

IG

D

ATA EM

S

AÚDE

Surgindo ainda no ido dos anos 90, crescido nos anos 2000 e ganhado força na década seguinte, “big data” se tornou nos últimos anos um buzzword. Diversas são as empresas e governos afirmando que utilizam das mais sofisticadas tecnologias de big data para entregar aos seus clientes o melhor produto. Amplamente utilizada no mercado de e-commerce, convivemos com o poder desta tecnologia diariamente. Basta uma simples busca ou comentário no seu computador, celular ou tablet para em questão de segundos começarmos a receber diversas propagandas sobre o termo da busca. As principais aplicações, além das diversas publicidades que recebemos, são para combate e prevenção à fraude, riscos financeiros, recursos humanos em processos de contratação, logística e outros.

Muito tem se falado sobre Big Data e seus possíveis benefícios se aplicado na área de saúde. Para CHIAVEGATTO (2015) a revolução do big data dentro da saúde está apenas no começo, entretanto destacam-se as áreas da medicina de precisão, prontuário eletrônico do paciente (PEP) e internet das coisas (IoT). Para ele, a medicina de precisão será possível a partir do uso de diversas fontes de dados a fim de identificarmos precisamente paciente e condições antes que, por exemplo, seja receitado um determinado medicamento. Para o PEP, ainda haverá uma batalha no Brasil que necessitará do protagonismo do SUS para garantir 100% de integração, mas em sua visão o uso de big data possibilitará a “entrega” do prontuário de um paciente em parte do país com rapidez e eficiência, e seu preenchimento poderá se dar de tal forma otimizada evitando assim os vieses de incompletude, por exemplo.

(16)

Por fim, para o autor a adoção de dispositivos IoT, como os equipamentos vestíveis, proverão dados prévios, como iminência de um infarto, acidente vascular cerebral ou a queda de um idoso. De fato, cada uma destas áreas apontadas pelo autor necessita de uma estrutura ampla e robusta de tecnologias próprias de big data sem as quais, em seu desenho, se tornariam rapidamente inviáveis.

Para ANDREU-PEREZ (et al., 2015) trata-se de uma oportunidade única e recai na integração da informática médica tradicional com saúde móvel (dispositivos móveis) e saúde social (redes sociais), focando em doenças crônicas e agudas de uma forma ainda não vista. Os autores citam ainda que é necessário levar a telemedicina para um novo patamar, com o envolvimento de redes sociais induzindo interações sociais entre os atores. “Um quarto dos pacientes com doenças crônicas como diabetes, câncer e doenças cardíacas, estão hoje utilizando redes sociais para compartilhar experiências com outros pacientes com condições similares, provendo assim mais uma fonte potencial de dados [...]” relata os autores.

Para ALYASS, TURCOTTE e MEYRE (2015) o acesso a recentes tecnologias levaram os sistemas biológicos de ciências holísticas para a aquisição de modelos precisos de doenças complexas. Os autores enaltecem que a capacidade de entender e analisar os grandes volumes de dados gerados nos levam para uma nova medicina. Assim como CHIAVEGATTO (2015), a visão dos autores revela que esse novo passo pode elevar também as distâncias existentes entre países desenvolvidos e em desenvolvimento. Para eles a área dos “ômicas” já revolucionou a biologia e nos levou a entender melhor os sistemas biológicos. Genômica, proteômica, epigenômica, metabolômica, nutriômica e outras nos permitirão exercer a medicina direcionada ao paciente, que eles chamam de “medicina personalizada”. Contudo alertam que há ainda um gargalo para esse processo evolutivo que passa desde as necessidades de armazenamento dos dados, equipes multidisciplinares, integração e interpretação dos dados e acesso financeiro do paciente.

Todos esses exemplos representam menos da metade de todas as possibilidades existentes, mas retratam os caminhos que algumas empresas e países já adotaram. Representam, antes de tudo, as necessidades existentes, como por exemplo, entender o comportamento “ambiental” dos pacientes e integrar essas informações aos seus dados clínicos para obter novos conhecimentos a respeito de uma doença. A medicina personalizada ou de precisão também não é algo 100% recente, mas irá demandar cada vez mais das tecnologias que permitam

(17)

processamento de grandes volumes de dados. Em 2013 o Reino Unido anunciou o 100K Genomes Project, um ambicioso projeto para o mapeamento genético de 100 mil pacientes do sistema público de saúde, o NHS. O projeto durou pouco mais de 5 anos e todos os dados foram anexados aos prontuários dos pacientes. O objetivo foi a análise de doenças raras, câncer e doenças infecciosas, e tem auxiliado o NHS a desenvolver tratamentos preventivos1_.

2.2. A

RQUITETURA

L

AMBDA VS

.

A

RQUITETURA

K

APPA

Quando falamos de dados necessitamos retomar diversos conceitos básicos. Dados são a menor unidade de uma informação e conhecimento é o conjunto agregados de informações que promovem uma mudança de estado. No mundo da computação a forma mais tradicional de se armazenar dados é através de bancos de dados. O Teorema do CAP, ou Teorema de Brewer, nos diz que é impossível que o armazenamento de dados de forma distribuída forneça simultaneamente mais de duas das três garantias que são:

• Consistência: cada partição recebe a escrita mais recente ou um erro; • Disponibilidade: o sistema continua a funcionar como esperado mesmo

que nós apresentem falhas;

• Partição Tolerante a Falhas: o sistema continua a funcionar apesar de um número arbitrário de mensagens descartadas (ou atrasadas) pela rede entre os nós.

Em outras palavras o teorema afirma que para um sistema particionado tolerante a falha, seria necessário escolher entre a consistência ou a disponibilidade. Em termos de grandes volumes de dados o processamento destes podem levar muito tempo para executar uma simples consulta. Essas consultas não poderiam ser executadas em tempo real e o delay do processamento acabaria por retornar um resultado de horas atrás. Buscando solucionar esses tipos de problemas Nathan Marz publicou em seu blog pessoal, em 2011, uma possível solução que permitia as três garantias para sistemas distribuídos de armazenamento de dados, ele batizou de Arquitetura Lambda.

1_{Sobre o projeto 100 mil genomas:}

(18)

A arquitetura Lambda resolve esse problema criando dois caminhos para o fluxo de dados. Todos os dados recebidos pelo sistema passam pelos dois fluxos de dados. • Camada de Lote ou Camada Fria armazena todos os dados de entrada em sua forma bruta e disponibiliza os dados para processamento em lotes. Os resultados são armazenados em outra área para serem consumidos;

• Camada Rápida ou Camada Quente analisa os dados em tempo real. Estes dados são restritos por requisitos de latência, de modos que possam ser processados o mais rapidamente possível. Geralmente isso exige alguma desvantagem, que neste caso é o nível de precisão.

Figura 1 - Representação da Arquitetura Lambda. Imagem do autor.

Ambas as camadas servem uma camada de serviços, que indexa os dados em lote e recebe atualizações incrementais dos dados quentes. Os dados brutos armazenados na camada de lote são imutáveis. Ou seja, os dados novos são sempre acrescentados e os dados anteriores nunca são substituídos. Qualquer alteração de um dado específico é tomado como um novo registro, com um novo timestamp. Essas regras permitem o recálculo em qualquer ponto no tempo do histórico dos dados. A capacidade de recalcular os dados brutos é importante, pois permite que novas exibições sejam criadas conforme o sistema evolui.

Uma desvantagem da arquitetura Lambda é a sua complexidade. A lógica de processamento dos dados aparece em dois caminhos (quente e frio) utilizando estruturas diferentes. A complexidade de administração e o risco de duplicidades nos cálculos podem ser um problema sério. A arquitetura Kappa surge como uma

(19)

simplificação da Lambda. A proposta é similar, basta excluir apenas o caminho frio e para processar dados em lote basta envia-los como stream e processá-los pelo caminho quente.

Figura 2 - Representação da Arquitetura Kappa. Imagem do autor.

A arquitetura Kappa surge com a proposta de tornar os dados canônicos, ou seja, padroniza os dados de forma a ser possível selecionar e moldar dinamicamente a execução de um ou mais serviços de negócio. Simplificando a forma como o Kappa trabalha é como se todos os dados fossem registrados como um log de um sistema ou serviço, e este log é fornecido para a arquitetura processar e armazenar através de um fluxo contínuo de ingestão. Esta arquitetura foi idealizada por Jay Kreps em 2014. Uma avaliação realizada por SANLA e NUMNONDA (2019) para comparar as arquiteturas mostrou que a Lambda utiliza 2,2 vezes mais tempo que a arquitetura Kappa, e que a arquitetura Lambda necessita cerca de 10~20% mais de CPU e 0.5 GB de memória RAM.

2.3. ETL

VS

.

ELT

Desde o surgimento de soluções de Business Intelligence e toda a área de

Analytics algumas técnicas e conceitos foram criados, se desenvolveram e ganharam

seu espaço, principalmente quando falamos da fonte principal: os dados. Uma das principais estruturas nessas áreas são os chamados Data Warehouses (DW), grandes armazéns de dados que buscam estruturar os dados de forma a responder as perguntas operacionais de uma área de negócio. Com o advento dos DWs um processo evoluiu e se tornou essencial, o de Extração-Transformação-Carga (do inglês Extract-Transform-Load) também conhecido pela sigla ETL.

(20)

Figura 3 - Processo de Extração, Transformação e Carga (ETL). Imagem do autor.

O ETL é uma técnica de processamento de dados dividida em três etapas, como o próprio nome diz, e que na prática significa extrair os dados de uma fonte, transformá-los para corrigir eventuais anormalidades e adequar as necessidades do negócio, e por fim carrega-lo em uma nova estrutura que suporte as consultas desejadas. Apesar do ETL providenciar ótimas soluções para diversos problemas, ele gera alguns outros problemas para ele próprio. Quando falamos de grandes volumes e diversidades de dados a técnica do ETL deixa de atender as necessidades. Suponha a necessidade de processar milhares de arquivos com muitos GB de dados e que estes dados precisam ser disponibilizados para inúmeras aplicações. Segundo WIBOWO (2015) e PETROVA, JOTSOV e SGUREV (2018) o processo de ETL pode ser tornar facilmente complexo, de baixo desempenho e enfrentando problemas de disponibilidade dos dados. Ainda segundo os autores, o processo de ETL foi concebido de forma tal que as etapas de Extração e Carga devem ocorrer em momentos em que os sistemas de origem e de destino dos dados estejam em suas janelas de manutenção, para que não ocorra a para total dos serviços.

Para os autores MARÍN-ORTEGA, DMITRIYEV, ABILOV e GÓMEZ (2014) enquanto as tecnologias de banco de dados utilizadas para DW evoluíram em performance e escalabilidade nos últimos anos, o processo de ETL não evoluiu ao mesmo passo. Como resultado, a maior parte das infraestruturas de BI estão enfrentando gargalos: não conseguem obter dados facilmente conforme a demanda. Os autores afirmam ainda que, para eliminar as desvantagens do ETL, a adoção dos novos meios de armazenamento. Eles sugerem que a abordagem do ELT (Extrair-Carregar-Transformar) pode suplantar estas necessidades. A ideia básica por trás do processo é extrair os dados, armazená-los conforme capturados e transformá-los apenas no momento do uso, adequando as transformações conforme as diversas necessidades. Os autores sugerem quatro vantagens do ELT sobre o ETL:

(21)

• Flexibilidade em adicionar novos dados (parte EL do processo);

• Agregação pode ser aplicada inúmeras vezes sobre o mesmo dado (parte T do processo);

• A transformação pode ser readaptada mesmo nos dados legados; • Processo acelerado de implementação.

Figura 4 - Processo de Extração, Carga e Transformação (ELT). Neste processo o resultado de uma transformação pode gerar novas cargas. Imagem do autor.

2.4. D

ADOS

A

GNÓSTICOS

Dentro do campo da tecnologia da informação e comunicação (TIC), classificamos como “agnóstico” os sistemas ou hardwares que possuem a capacidade de trabalhar com diversos outros sistemas, mesmo quando foram desenhados para um fim específico. Como exemplo podemos citar um caso bem comum ao nosso cotidiano, os aplicativos híbridos. Surgiram com a necessidade de redução de custo no processo de desenvolvimento, com o objetivo principal de atendar todas as plataformas móveis com um único código, e logo passaram a atender demandas de mercado, como a padronização do aplicativo e experiência de uso. Atualmente, os aplicativos híbridos são capazes de rodar não apenas em dispositivos móveis, como também em computadores, televisores, carros e eletrodomésticos. As principais tecnologias por trás dos aplicativos híbridos são HTML, CSS e JavaScript, todos criados para atender as necessidades de sistemas web. Basicamente um “site” é construído, encapsulado em uma aplicação capaz de interpretar estas tecnologias e executar as ações, tal como um aplicativo nativo ou desenvolvido com outra tecnologia. Estes podem ser chamados de softwares agnósticos de dispositivo ou agnósticos de plataforma, os conceitos nestes casos são bem próximos.

(22)

Analogamente, um sistema que possui “dados agnósticos” é aquele que pode trabalhar com informações recebidas de diversas fontes, em diversos formatos. Da mesma forma, deve haver uma camada acima deste sistema capaz de “interpretar” os dados em um formato que seja possível utilizar, de forma que os serviços de consumo possam manipulá-los como desejarem. Em outras palavras, um sistema agnóstico de dados, armazena os dados independente de seus formatos e os disponibiliza na mesma estrutura obtida, ficando a cargo da aplicação que os utilizará as manipulações desejadas. Trata-se de uma forma de tornar os dados interoperáveis entre os diversos consumidores.

2.5. A

PRENDIZADO DE

M

ÁQUINA EM

S

AÚDE

Aprendizado de máquina é um conjunto de técnicas matemáticas que permite um software reagir à determinados cenários conforme os mesmos evoluem, baseados nos resultados dos cenários anteriores, sem intervenção humana no processo. É o processo pelo qual um computador desenvolve a capacidade de reconhecer padrões ou de aprender continuamente a partir de dados ou fazer previsões, fazendo ajustes e tomando decisões, sem necessariamente serem programados para isso.

Não se trata de uma tecnologia nova, o termo foi cunhado no final da década de 1950, mas tem ganhado notoriedade na última década graças ao nível computacional que a nossa sociedade atingiu. Nos últimos anos ganhamos a capacidade de processar e armazenar dados a uma velocidade que se mostrava impossível há 20 ou 30 anos atrás. Ao mesmo passo que criamos cada vez mais dados e mais rápido. Cada minuto que passamos utilizando alguma tecnologia atual, estamos gerando centenas de dados por minuto.

Figura 5 - A velocidade de processamento de um iPhone 11 (2019) é o equivalente a 12 processadores Pentium®_{II (1997). O iPhone tem dimensões próximas a que estes}

(23)

Conversas com amigos no WhatsApp®_{, curtidas no Facebook}®_{, vídeos} assistidos no Youtube®_{e buscas pelo Google}®_{geram rastros digitais que são} utilizados por diversas empresas para te conhecer melhor e te recomendar produtos que talvez você esteja querendo comprar. Este processo todo só é capaz graças aos processos de aprendizado de máquinas.

Na área de saúde o uso de aprendizado de máquinas tem elevado o modo de colocar a medicina em prática a um novo nível. O ponto é que muitos dados, no passado, eram ignorados pois não possuíamos a capacidade de processá-los de forma eficiente e obter, a partir deles, o conhecimento fino dos padrões. Com as capacidades atuais, algumas das técnicas de aprendizados de máquina, como classificação, já são utilizadas no processo de diagnóstico de câncer de mama, câncer de pulmão, cardiopatias e outros.

Para WIENS e SHENOY (2017) o grande volume de dados sobre os pacientes, os casos de doenças e estabelecimentos de saúde trabalhados com o uso de técnicas de aprendizado de máquinas pode provocar um avanço no papel da epidemiologia. Em particular, estes dados podem levar a um melhor entendimento dos fatores de risco para o desenvolvimento de infecções associadas ao cuidado, a melhores estratificações do risco-paciente, e na identificação dos caminhos de proliferação de doenças infecciosas dentro e fora dos estabelecimentos de saúde, o que poderia levar a melhores abordagens de prevenção.

Para NGIAM e KHOR (2019) a análise de grandes volumes de dados com o uso de aprendizado de máquina oferece consideráveis vantagens quando falamos de dados de saúde complexos. Muitas são as limitações a serem consideradas, como a implementação clínica e ética das soluções criadas. Contudo, as vantagens do uso de aprendizado de máquina sobre as técnicas tradicionais tornam possível o seu uso em diversas áreas, como estratificação de risco, diagnóstico e classificação, e predição de sobrevivência. Outra grande vantagem é a habilidade de analisar diversos tipos de dados, como demográficos, relatórios, exames de imagem e anotações dos profissionais, podendo incorporar todos em um processo de predição de risco doença, diagnóstico, prognóstico e tratamentos apropriados.

(24)

Estamos de fato gerando mais dados que nunca na história da humanidade e diversas são as empresas que se beneficiam disso. Em um relatório da IBM® publicado em 2017, àquela altura 90% de todos os dados criados pela humanidade haviam surgido nos 2 anos anteriores. Segundo o site physics.org seriam necessários 3 milhões de anos para fazer download de todo o conteúdo da internet, considerando uma velocidade média de conexão de 44mbps (megabits por segundo). O atual problema é, criamos imensidões de dados e de livre e espontânea vontade os entregamos a um conjunto de empresas, que os analisam constantemente com o objeto de saber quem somo, o que gostamos, o que fazemos e o porquê fazemos.

Com o objetivo de limitar o poder que diversas dessas empresas acabam tendo sobre seus usuários, garantindo os direitos de privacidade e proteção dos dados pessoais, foi criada em 2012 uma Comissão Europeia (CE) uma subcomissão para discutir e preparar a proposta do que veio a se tornar o Regulamento Geral sobre a Proteção de Dados (RGPD), publicado em 2016 e entrando em vigor em 2018. Esta iniciativa logo se refletiu em outras nações, como o México que aprovou em 2017 a

Ley General de Protección de Datos Personales (LGPDP).

No Brasil, a Câmara dos Deputados propôs o projeto de Lei 053/2018, que em julho do mesmo ano foi aprovado por unanimidade no Congresso. A Lei nº 13.709/2018 foi sancionada pelo então presidente do Brasil, Michel Temer, em agosto de 2018. Algumas particularidades foram alteradas com a Medida Provisória 869 de 27 de dezembro de 2018, e agora o prazo para adequação de empresas e instituições é até 27 de dezembro de 2020.

A lei brasileira dispõe ainda de caracterizações especificas em seu Art. 5º, entre muitas as principais são:

• Dados pessoais: é toda informação relacionada a pessoa natural identificada ou identificável, tal como nome, RG, CPF, e-mail, etc. Dados relativos a uma pessoa jurídica não são considerados dados pessoais; • Dados pessoais sensíveis: é todo dado pessoal que pode gerar

qualquer tipo de discriminação, tais como os dados sobre origem racial ou étnica, convicção religiosa, opinião política, filiação a sindicato ou a organização de caráter religioso, filosófico ou político, dado referente à saúde ou à vida sexual, dado genético ou biométrico;

(25)

• Tratamento: toda operação realizada com dados pessoais, como as que se referem a coleta, produção, recepção, classificação, utilização, acesso, reprodução, transmissão, distribuição, processamento, arquivamento, armazenamento, eliminação, avaliação ou controle da informação, modificação, comunicação, transferência, difusão ou extração;

• Controlador: pessoa natural ou jurídica, de direito público ou privado, a quem competem as decisões referentes ao tratamento de dados pessoais;

• Processador: pessoa natural ou jurídica, de direito público ou privado, que realiza o tratamento de dados pessoais em nome do controlador; • Consentimento: manifestação livre, informada e inequívoca pela qual o

titular concorda com o tratamento de seus dados pessoais para uma finalidade determinada;

• Anonimização: processos e técnicas por meio dos quais um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo;

• Dado anonimizado: dado relativo a titular que não possa ser identificado, considerando a utilização de meios técnicos razoáveis e disponíveis na ocasião de seu tratamento. O dado anonimizado não é considerado dado pessoal para fins de aplicação da LGPD;

• Pseudoanonimização: processos e técnicas por meio dos quais um dado tem sua possibilidade de associação dificultada. O dado pseudoanonimizado é considerado dado pessoal para fins de aplicação da LGPD, tendo em vista a possibilidade de associação desse dado a uma pessoa natural;

• Transferência internacional de dados: transferência de dados pessoais para país estrangeiro ou organismo internacional do qual o país seja membro;

• Órgão de pesquisa: órgão ou entidade da administração pública direta ou indireta ou pessoa jurídica de direito privado sem fins lucrativos legalmente constituída sob as leis brasileiras, com sede e foro no País, que inclua em sua missão institucional ou em seu objetivo social ou

(26)

estatutário a pesquisa básica ou aplicada de caráter histórico, científico, tecnológico ou estatístico.

A lei apresenta ainda sob seu Art. 25 que “os dados deverão ser mantidos em formato interoperável e estruturado para o uso compartilhado, com vistas à execução de políticas públicas, à prestação de serviços públicos, à descentralização da atividade pública e à disseminação e ao acesso das informações pelo público em geral”.

A lei trata também sobre a responsabilidade em razão do tratamento dos dados e responsabilidades (Art. 42), da segurança e do sigilo dos dados (Art. 46), das boas práticas e governança dos dados (Art. 50), e das sanções administrativas cabíveis aos agentes de tratamento dos dados (Art. 52).

(27)

3. METODOLOGIA

O objetivo principal deste trabalho é desenvolver uma sistemática que permita a classificação de pacientes em grupos de risco a partir de dados históricos da sociedade nas áreas da saúde pública, demográfica, econômica e da educação. Para tanto se fez necessário, previamente, a construção de um ambiente que tornasse possível tais análises em tempo hábil, de forma robusta e eficaz.

3.1. O

S

D

ADOS

Foram avaliados os principais sistemas de uso amplo dentro do Sistema Único de Saúde (SUS) que fazem parte da rotina diária de atendimento e notificação. Os sistemas foram listados não apenas pelo seu uso, como também pela disponibilidade de acesso aos dados. Os dados de educação foram obtidos a partir dos censos educacionais, aplicados anualmente em cada município e estado do país. Os dados econômicos foram obtidos a partir das publicações e projeções anuais do IBGE e Banco Mundial, bem como os dados sócio demográficos. Das fontes de dados listadas foram estudados os dicionários de dados, disponíveis através do site oficial de cada entidade correspondente. Está em desenvolvimento um mecanismo capaz de obter dados a partir das redes sociais. Este módulo necessitou ser reiniciado devido as novas imposições previstas na LGPD, publicada durante o processo inicial das pesquisas, onde as principais redes sociais mudaram ou adaptaram seus serviços de integração. Todos os dados utilizados nesta pesquisa são públicos, aberto ou semi-aberto2_{, e totalmente anonimizados.}

Os parâmetros de Sexo e Raça/Cor seguem a nomenclatura utilizada pelo DATASUS e IBGE. Para Faixa Etária, foi optado trabalhar com o padrão utilizado pelo IBGE, grupos de 5 anos. Para escolaridade, foi simplificada a nomenclatura para melhor leitura dos gráficos, conforme mostra a tabela a seguir:

Nomenclatura Original Nomenclatura Adotada

Ensino Fundamental Incompleto EFI

Ensino Fundamental Completo EFC

Ensino Médio Incompleto EMI

(28)

Ensino Médio Completo EMC

Ensino Superior Incompleto ESI

Ensino Superior Completo ESC

Não Informado ou Ignorado NI

Tabela 1 – Tabela de conversão da nomenclatura para as categorias da variável escolaridade.

No Anexo I há uma tabela com os dados que estão sendo trabalhados/capturados, bem como um breve descritivo de periodicidade, documentação e disponibilidade.

3.2. O

C

LUSTER DE

P

ROCESSAMENTO

Foi construído um cluster com capacidade para armazenamento e processamento de 8TB (terabytes) de dados. Este cluster foi estruturado segundo a arquitetura Lambda, utilizando como plataforma de desenvolvimento e gerenciamento o Apache Hadoop na versão 3.0.3. Para repositório dos dados foi implementado o Apache Hive na versão 3.1.2 sobre o Hadoop. Como repositório para os dados originais, utiliza-se uma partição a parte no nó master, que deverá ser substituído na próxima fase de implementação para um servidor a parte. A opção por essa estrutura foi devido a capacidade de escalabilidade da infraestrutura de armazenamento e processamento.

Sobre o cluster foi implementado um serviço de indexação invertida, a fim de se obter maior eficiência no processo de busca e processamento dos dados. A indexação invertida funciona como o índice remissivo de um livro, que mostra em quais páginas ocorrem determinado termo, ao contrário das formas tradicionais de se armazenar dados onde se associa um id para um dado conjunto de dados. Este serviço é utilizado como “porta de entrada” pelo ingestor de dados, permitindo assim uma análise prévia dos dados antes de armazená-los no repositório. O processo de análise prévia permite mapear todos os valores que aquele conjunto de dados possui, após essa análise o sistema cria um código hash único para este conjunto de dados, inserindo-o no repositório. O serviço fornece ainda um serviço RESTfull para que outras aplicações possam consumir os dados conforme desejado.

Está em fase de planejamento uma plataforma específica para que os pesquisadores tenham acesso ao repositório de dados, da mesma maneira para que possam acessar os dados e realizar suas pesquisas. Esta plataforma necessita ainda

(29)

de uma revisão jurídica para parecer de conformidade com a LGPD e GDPR, esta segunda em vista das parcerias que o Laboratório de Inovação Tecnológica em Saúde (LAIS) possui com países europeus.

O sistema ingestor de dados em uso para testes e adoção está sendo aproveitado do trabalho de pesquisa do mestrando deste mesmo programa, Jean Jar de Araújo Pereira.

3.3. O

P

ROCESSO DE

P

ROFILING

O processo de profiling dos grupos de risco se dá pelo uso de técnicas de mineração de dados chamados de clusterização. Entre as principais técnicas de

clusterização utilizadas nos testes estão: k-means, k-medians, hierarchical clustering.

Os algoritmos de clusterização são baseados no processo de agrupar conjuntos de dados baseados em suas similaridades a fim de se criarem grupos com características únicas.

Técnicas Vantagens Desvantagens

K-Means

- Garantia de Convergência - Especializado em clusters de diferentes tamanhos e padrões - Simples implementação e escalável

- Necessita de análise prévia para definição de K

K-Medians

- Garantia de Convergência - Especializado em clusters de diferentes tamanhos e padrões - Simples implementação e escalável

- Necessita de análise prévia para definição de K

Hierarchical Clustering

- Manipula facilmente

diferentes métricas de distância - Aplicável a qualquer tipo de atributo

- Computacionalmente caro para grandes bases de dados - Não apresenta resultados satisfatórios quando o resultado está múltiplas dimensões (2D ou 3D)

Tabela 2- Características das técnicas de clusterização.

Dada as características acima, optou-se por explorar a técnica do K-Means, visto que se trata principalmente de uma grande base de dados de múltiplas dimensões. O processo de clusterização de um conjunto de dados se dá minimamente em 4 diferentes etapas:

(30)

1. Calcular a Matriz de Dissimilaridade (MD): A matriz de dissimilaridade é uma matriz NxN, dado que N é o número total de elementos do dataset em questão, cujo a coordenada (i,j) é a distância matemática entre o elemento Ni e o elemento Nj. Para o cálculo das distâncias pode-se utilizar qualquer abordagem, como a euclidiana por exemplo. Esta é a etapa mais importante no processo visto que todas as etapas seguintes serão baseadas na MD;

2. Escolha do Método de Clusterização: Existem duas abordagens distintas para serem utilizadas, independente do algoritmo escolhido. Há o método divisivo, onde (pensando em uma árvore binária) a construção dos clusters parte da raiz em direção das folhas (top-down), e há o método aglomerativo, onde o processo é inverso (bottom-up). O primeiro método é excelente para o manejo de grandes grupos, o segundo por sua vez é ideal para a descoberta de pequenos grupos;

3. Definição do Número de Clusters e Testagem: Existem dois métodos para checagem do número ideal de clusters baseado nos dados. O método do Cotovelo é um gráfico que mostra a porcentagem que os dados são explicados conforme o número de clusters cresce, o objetivo é observar em que ponto o crescimento do número de clusters deixa de explicar significativamente os dados, normalmente onde o gráfico muda bruscamente de direção, formando um “cotovelo”. O método da Silhueta mostra a consistência dos dados conforme o número de clusters cresce, em outras palavras, mostra a medida da distância dos pontos internos de um cluster até o cluster vizinho. A testagem auxilia na observância das diferentes variações comportamentais dos agrupamentos.

4. Acessando os Clusters: Checagem e verificação dos resultados, por muitas vezes a etapa onde se pode visualmente observar o comportamento dos dados.

Para a manipulação dos dados, ajustes e ensaios está sendo utilizado a linguagem de programação estatística R. A seleção dos descritores se deu a partir da análise dos dados disponíveis e revisão bibliográfica. A métrica de calculo de distância adotada foi a Euclidiana, ou seja, a menor reta entre dois pontos no (hiper)plano.

(31)

3.4. C

OOPERAÇÃO

T

ÉCNICAS

I

NTERNACIONAL

Com vistas do intercambio de conhecimentos e práticas, bem como para a ampliação dos alcances possíveis no trabalho em desenvolvimento, foram criadas duas parcerias de cooperação internacional com o presente trabalho. A primeira foi com a Universidade de Lorraine (UL - França) e a segunda com a Universidade de Athabasca (UA - Canadá). Ambas as cooperações se tornaram possíveis, dentre tantas outras motivações, pelo fato do grande conjunto de dados que está sendo coletado e processado.

Ambas as cooperações estão focadas nas ações de educação continuada dos profissionais de saúde, sendo a primeira voltada para sistemas de recomendação de conteúdo, que deverá utilizar também dados do AvaSUS (Ambiente Virtual de Aprendizado do SUS) além dos dados observados neste trabalho. A segunda é mais voltada para os impactos das ações de comunicação e divulgação do Ministério da Saúde, especificamente como essas ações refletem nos números gerais da saúde pública e no processo de capacitação dos profissionais.

Os estudos de casos, em ambas as cooperações são os mesmos que o do presente trabalho, a sífilis no Brasil. Para tanto, foram feitos momentos de intercambio prático com os pesquisadores destas universidades, onde foi apresentado os resultados primários deste trabalho, como estes resultados poderiam auxiliar nas pesquisas em desenvolvimento e como poderia haver a integração dos resultados. Igualmente, nestes processos imersivos de intercambio, os pesquisadores destas universidades apresentaram abordagens técnicas que foram utilizadas para obter resultados neste trabalho, tais como processos otimizados de manipulação de grandes volumes de dados e técnicas inteligentes para análise e processamento.

Os primeiros resultados das cooperações são vistos nas contribuições acadêmicas, tais como artigos publicados em periódicos de alto impacto e apresentados em eventos científicos internacionais. Também foi realizada uma missão internacional para o Marrocos, fruto dos resultados obtidos após a primeira missão à França, onde foi apresentado o modelo de interação entre os pesquisadores do LAIS e da UL/França. Ao todo, já foram realizadas 3 missões à França e 1 ao Canadá, além as reuniões virtuais.

(32)

A contribuição destes pesquisadores e a troca de conhecimentos se mostrou essencial para a construção do resultado final deste trabalho, visto que auxiliou a modelar o resultado de forma a contribuir com suas pesquisas.

(33)

4. RESULTADOS

E

DISCUSSÃO

A proposta do estudo mostrou algumas dificuldades técnicas em sua fase inicial, tais como aquisição da infraestrutura de hardware necessária para implementação do cluster e aquisição de alguns dados da saúde importantes para o estudo de caso elencado. Todos os problemas foram sanados em trabalho conjunto com a coordenação do LAIS, que mostrou total acolhimento ao projeto.

O cluster está em pleno funcionamento, possuindo ao total 4 (quatro) nós, sendo duas máquinas instaladas fisicamente na Superintendência de Informática da Universidade Federal do Rio Grande do Norte (SINFO/UFRN) e outras duas máquinas no Instituto Metrópole Digital também da mesma universidade (IMD/UFRN). As localidades são distantes geograficamente há 1,5 km uma da outra. Apesar da necessidade ter surgido com o presente trabalho, o cluster foi construído com o objetivo de servir e atender as necessidades dos demais pesquisadores do laboratório, para tanto, para além do trabalho atual está sendo desenvolvido uma ferramenta web para uso democratizado da infraestrutura preparada.

Figura 6 - Painel administrativo do cluster criado para análise de dados de saúde no Laboratório de Inovação Tecnológica em Saúde (LAIS/UFRN). É possível observar os 4 nós e aproximadamente 4Tb de dados armazenados. Imagem do autor.

Está sendo utilizado, como estudo de caso, casos de Sífilis no Brasil dos anos que compreendem de 2010 até 2019. Esses casos são referentes a notificações de

(34)

sífilis adquirida, sífilis em gestante e sífilis congênita. Análises iniciais permitiram enxergar regras de associação entre os descritores selecionados, o que também permitiram melhores ajustes nos dados e nos modelos de aprendizado de máquinas utilizados. Análises espaciais também permitiram observar cenários distintos dos casos de sífilis dentro de um mesmo estado, entre estados e entre regiões, o que confirma a necessidade de uma visão direcionada para o fomento de políticas públicas de enfrentamento. Utilizando técnicas de clusterização foram encontrados 130 perfis diferentes, com acuidade de 97,41%.

Figura 7 - Diagrama de Sankey representando os diversos perfis de pessoas que contraíram sífilis entre os anos de 2007 até 2019. As colunas da esquerda para a direita são: sexo, cor,

escolaridade e faixa etária. Imagem do autor.

A Figura 7 acima exprime as diversas interações existentes entre os quatro parâmetros escolhidos. Dentre todos os demais dados disponibilizados para sífilis adquirida, foram elencados apenas o sexo, a raça/cor, a escolaridade e a faixa etária por serem dentre todos os parâmetros que permitem uma linkagem com os dados da sociedade. As demais variáveis apenas relatam o acompanhamento do caso do paciente. Analisando exclusivamente o dataset de Sífilis Adquirida percebe-se um total de 650.258 casos registrados, destes apenas 464.825 (71,48%) registros são úteis, ou seja, já foram investigados, confirmados e não possuem duplicatas. Ao todo, 6.599 casos foram descartados e 154.628 ainda não tinham sido investigados. Pouco mais de 24 mil registros eram casos duplicados.

(35)

Visto as diversidades encontradas no Brasil, tais como a miscigenação da população, árvore etária e escolaridade dos estados, optou-se por reduzir o espaço amostral para se fazer as análises. Além de simplificar o processamento dos dados e observação dos resultados, atribuir um ponto focal mais bem delimitado permite a análise mais precisa dos cenários. Observando o Rio Grande do Norte para o primeiro caso, podemos ver na Figura 8 a matriz de dissimilaridade entre os grupos.

Figura 8 - Matriz de dissimilaridade para os casos de Sífilis Adquirida no estado do Rio Grande do Norte. Quanto mais escuro o ponto, mais próximo estão as variáveis observadas.

(36)

Figura 9 - Matriz de dissimilaridade para os casos de Sífilis Adquirida no Distrito Federal. Quanto mais escuro o ponto, mais próximo estão as variáveis observadas. Imagem do autor.

A diagonal da MD sempre será nula, ou seja, representa a análise combinatório da variável consigo própria. A imagem acima percebemos facilmente conjuntos menores e maiores de “quadrados”, tanto azuis quanto brancos. Os quadrados azuis representam na realidade um grupo de registros no dataset com as mesmas características. Em outras palavras, cada quadrado é um cluster e cada cluster maior pode agregar um conjunto de outros clusters menores. Para entendermos melhor a imagem acima, podemos observar os dendogramas (árvores) a seguir.

As figuras 8 e 9 mostram claramente as diversidades encontradas para os pacientes de Sífilis Adquirida em duas regiões totalmente distintas, respectivamente Rio Grande do Norte e Distrito Federal. Comprova ainda a hipótese que fatores que vão além das clássicas determinações de população-chave também descrevem os

(37)

pacientes, nos mostrando quão granular pode ser na verdade o problema da Sífilis no Brasil.

Figura 10 - Dendograma utilizando a abordagem Divisiva (top-down), ou seja, a divisão dos grupos é feita a partir do grupo maior que é formado por todos os registros. Observação

(38)

Figura 11 - Dendograma utilizando a abordagem Aglomerativa (bottom-up), ou seja, os grupos são formados a partir de cada registro no dataset, tomados como grupos de apenas

um elemento. Observação para o Rio Grande do Norte. Imagem do autor.

Ao observar as Figuras 10 e 11 percebemos mais claramente a organização dos clusters para o conjunto de dados observados sobre sífilis adquirida. Percebemos, no entanto, que a abordagem divisiva se mostra mais equilibrada que a abordagem

aglomerativa, visto que esta última se mostra mais à esquerda. Esta conformação das

árvores indica que a primeira abordagem deverá render melhores resultados. Contudo se fez necessário observar outros pontos destas abordagens para que se opta-se por qual utilizar.

(39)

Figura 12 - Gráfico do Cotovelo para abordagem divisiva indicando que o número ideal de clusters é 8. Imagem do autor.

Figura 13 - Gráfico do Cotovelo para abordagem aglomerativa indicando que o número ideal de clusters é 6. Imagem do autor.

É natural a observação de diferentes valores para a definição de quantos clusters representam melhor os dados. A Figura 12 nos mostra que o número mínimo

(40)

ideal que melhor representa os dados é 8, já a Figura 13 nos mostra que este número é 6. Em outras palavras, estes testes nos dizem que há entre 6 e 8 grupos que melhor conseguem descrever os pacientes com sífilis adquirida no estado do Rio Grande do Norte. Assim, fez-se necessário mais um teste para validar que abordagem utilizar.

Figura 14 - Simulação dos resultados a partir da variação do total de clusters, observando a abordagem divisiva (top-down). Observação para o Rio Grande do Norte. Imagem do autor.

Figura 15 - Simulação dos resultados a partir da variação do total de clusters, observando a abordagem aglomerativa (bottom-up). Observação para o Rio Grande do Norte. Imagem do

(41)

As Figuras 14 e 15 acima revelam mais detalhes sobre os resultados dos gráficos de cotovelo. Observe que apesar da abordagem aglomerativa sugerir um número menor de clusters, essa abordagem tende a criar grupos muito pequenos e até mesmo individuais, o que representa um sobreajuste da análise ou grupos muitos específicos. Visto que o objetivo é observar padrões que possam classificar grupos de risco em pacientes, a abordagem aglomerativa foi descartada por não auxiliar na representação de grandes grupos, ou generalizando muito o resultado ou restringindo muito o mesmo.

Por fim, foram geradas 50 (número aleatório escolhido ao acaso) simulações para agregação dos casos e para melhor assentamento dos resultados. A acuidade do resultado final foi de 79,9%, abaixo dos 95,37% obtidos nos ensaios iniciais, contudo apresentando um número razoável de grupos. Nos primeiros resultados, para o RN foram encontrados 32 grupos distintos de pacientes com Sífilis Adquirida, o resultado final apresenta apenas 8. Essa redução não é apenas dos grupos encontrados, mas também dos sobreajustes, permitindo inclusive um melhor manejo por profissionais de saúde, visto que trabalhar com um número menor de possibilidades é mais fácil.

(42)

Figura 16 - Representação do processo final de clusterização dos pacientes com sífilis adquirida em forma de um dendograma para facilitar a visualização do resultado.

Observação para o Rio Grande do Norte. Imagem do autor.

Figura 17 - Representação bi-dimensional do processo final de clusterização dos pacientes com sífilis adquirida. Observação para o Rio Grande do Norte. Imagem do autor.

(43)

Na Figura 17 é possível observar a mesma composição do dendogramas na Figura 16. O que parece estar sobreposto é na realidade um efeito visual devido ao tipo do gráfico. O resultado final é uma matriz de quarta ordem, ou seja, o gráfico deveria ser um elemento 4D (4 dimensões) para que se fosse possível observar o resultado.

Por fim, acredita-se também que a melhoria das descrições dos parâmetros auxiliou no processo de obtenção dos resultados. Entretanto, percebeu-se que se os dados públicos das diversas áreas observadas neste trabalho fossem conectados entre si, ou seja, cada objeto uma referência externa para uma outra base, a observância dos padrões e até mesmo a acurácia dos resultados poderia ser maior. Percebe-se assim que ainda há espaço para exploração dessa linha de estudo, que, no entanto, não foi explorada neste trabalho devido aos prazos do programa de pós graduação e por fugir do escopo principal do estudo.

(44)

5. CONCLUSÃO

Espera-se que com a metodologia desenvolvida e os resultados obtidos outros sistemas computacionais possam fazer uso e auxiliar os profissionais de saúde em seus processos diários laborais. Apesar do estudo de caso ter focado na sífilis, dada sua crescente jornada no país e no mundo, o conhecimento desenvolvido e os algoritmos implementados se aplicam para qualquer outra infecção sexualmente transmissível (IST), doenças crônicas, morbidades hospitalares e outros. Estes modelos podem evoluir de forma independente e se adaptarem conforme novos dados são fornecidos.

Infelizmente, dada a total ausência de marcador específico para os casos de reinfecção, não foi possível mapear e remover estas novas inserções dos pacientes na base de dados. Este fato pode facilmente enviesar os resultados, mudando significativamente a percepção dos diversos grupos encontrados.

Este estudo pode ainda, facilmente, embasar outras políticas públicas que não as de enfrentamento, tais como:

5.1. G

ESTÃO DA

S

AÚDE

P

ÚBLICA

Características loco-regional de uma sociedade, sua economia, demografia e educação, define grupos particulares. A realidade vivida no SUS por estes grupos representa demandas e necessidades tão particulares quanto. O amplo entendimento pelos gestores municipais, estaduais e da união destas características, demandas e necessidades permite o direcionamento eficaz de recursos financeiros e humanos, bem como das atividades desenvolvidas nos Centros de Informações Estratégicas em Vigilância em Saúde (Cievs).

5.2. E

DUCAÇÃO E

F

ORMAÇÃO AO

L

ONGO DA

V

IDA

Compreender o histórico de saúde de uma população permite não apenas o direcionamento de recursos, como também o direcionamento da formação de profissionais conforme as necessidades observadas e previstas. Auxilia ainda o processo de formação ao longo da vida dos profissionais já existentes, podendo estes modelos serem bases para os processos de recomendação de conteúdo. O que poderia ser chamado de Saúde Baseada em Dados.

(45)

5.3. P

ESQUISAS

(P

AINEL DO

P

ESQUISADOR

)

Dada toda a estrutura criada para o presente estudo foi decidido construir um serviço que disponibilizará o poder computacional disponível para os demais pesquisadores do LAIS, da UFRN, bem como os parceiros nacionais e internacionais. Trata-se de um Painel do Pesquisador que flexibilizará o uso e alocação de recursos computacionais, assim como acesso a uma base de dados unificada e higienizada, comum a todos e certificada por especialistas. O proposito primário desta plataforma é assegurar um caminho seguro entre o pesquisador e os dados, limitado aos objetivos, registrando conforme regem as leis vigentes os acessos e procedimentos realizados.

(46)

6. REFERÊNCIAS

BIBLIOGRÁFICAS

10 Key Marketing Trends for 2017 and Ideas for Exceeding Customer Expectations. IBM Marketing Cloud. 2017.

Agnostic (data). Acessível em < https://en.wikipedia.org/wiki/Agnostic_(data)>

Agnostic. Acessível em <https://whatis.techtarget.com/definition/agnostic>

ALYASS, A.; TURCOTTE, M.; MEYRE, D. From big data analysis to personalized medicine for all: challenges and opportunities. BMC Medical Genomics, v. 8, p. 33, 2015.

ANDREU-PEREZ, J.; POON, C. C. Y.; MERRIFIELD, R. D.; WONG, S. T. C.; YANG, G. Z. Big Data for Health. IEEE Journal of Biomedical and Health Informatics, v. 19, p. 1193-1208, 2015.

ARUN, K.; SRIRAM, V. A data-agnostic dashboard visualization framework with customizable layout for e-commerce data analytics. ACM SIGSOFT Software Engineering Notes, v. 39(4), p.1-5, 2014. DOI: 10.1145/2632434.2632444.

Big Data Now: Current Perspectives from O’Reilly Radar. Sebastopol, CA: O’Reilly Media, 2012.

BRASIL. Departamento de Informática do SUS. Plano Diretor de Tecnologia da Informação – PDTI. Brasília, 2014. Original disponível em: http://datasus.saude.gov.br/images/PDTI_20142015_Vs_Atualizada_jul2015.pdf. Acessado em: 04 de outubro de 2017.

BRASIL. Lei nº 13.709, de 14 de agosto de 2018. Lei Geral de Proteção de Dados Pessoais (LGPD). Diário Oficial da União: seção 1, Brasília, DF, ed. 157, p. 59, 15 ago. 2018.