Estratégias Propostas - TESE_LENA VEIGA_VERSÃO FINAL

As estratégias propostas para esta tese são baseadas no fluxo de trabalho do processo de Knowledge Discovery in Databases (KDD), adaptada de Fayyad et al (1996), com o objetivo de extrair dados relevantes, a partir de uma série temporal robusta e extensa de óbitos, para prever, através de técnicas de aprendizado de máquina, um comportamento esperado (previsto) e compará-lo aos comportamento observado, a fim de identificar as anomalias (excessos de óbitos) que possam ocorrer em determinados períodos de ocorrência da doença epidêmica.

Desse modo, torna-se possível estimar as subnotificações de mortalidade da doença e criar cenários epidemiológicos mais precisos.

As estratégias propostas são divididas em três etapas principais, que são representadas na Figura 5.1.

Figura 5.1- Estratégias Proposta pelo Trabalho.

Fonte: Elaborada pela autora do trabalho.

A seguir são descritas cada uma das etapas de forma genérica, de tal feito que podem ser aplicadas em diferentes cenários epidemiológicos, regiões e períodos selecionados.

5.2.1 Primeira Etapa das Estratégias Propostas

A primeira etapa representa as ações de pré-processamento dos dados relativos à série histórica de óbitos com o objetivo de gerar uma base unificada a partir de diferentes fontes de dados oficiais, que possuam dados de mortes natural de um determinado país.

Nessa etapa, são realizadas atividades de seleção, processamento e transformação dos dados de óbitos. A atividade de seleção corresponde uma tarefa importante, pois a partir dela são selecionadas as principais fontes públicas de dados oficiais de um determinado país. Essas fontes devem conter registros de óbitos que estejam relacionados à doença epidêmica a ser estudada, de maneira que quando forem unificados compreenderão a série histórica usada na metodologia. Na seção 2.7 e 2.8, são apresentadas algumas dessas fontes no Brasil e em outros países, respectivamente.

Os dados de óbitos coletados das diferentes fontes públicas podem apresentar inconsistências e divergências. Assim, faz-se necessário realizar as atividades de processamento nesses dados, que utilizam técnicas de filtragem, extração e tratamento, com o objetivo de manter dados mais confiáveis nas análises. Nessa atividade, são retirados então registros duplicados, nulos e inconsistentes. Além da realização da atividade de seleção dos registros de óbitos que são correspondentes às doenças equivalentes à epidemia que deverão ser analisadas.

Por fim, caso as fontes de dados sejam incompatíveis entre si, realiza-se a atividade de transformação dos dados para permitir a concatenação das diferentes fontes de dados e a criação de uma base unificada, contendo a série histórica de dados de óbitos.

A base unificada gerada nessa etapa permite manter uma série histórica de óbitos de longos períodos para diferentes regiões e doenças selecionadas. Uma vez gerada, pode ser disponibilizada para auxiliar em outros estudos e minimizar os efeitos das divergências de informações oficiais relacionadas aos óbitos de doenças epidêmicas. Essa etapa também pode ser refeita no decorrer do tempo para atualização da base unificada. De tal maneira que acrescente novos períodos (anos seguintes), doenças e regiões que se deseja analisar.

5.2.2 Segunda Etapa das Estratégias Propostas

A segunda etapa, correspondente à geração de cenários, inicia com uma análise exploratória na base unificada para identificar padrões de ocorrências dos óbitos e garantir a qualidade dos dados. Aplicam-se métricas estatísticas baseadas na média histórica para identificar as ocorrências dos óbitos na série por determinada causa específica durante o período que se deseja analisar.

Nessa análise, compara-se a quantidade de óbitos ocorridos no período da série histórica com a quantidade de óbitos ocorrida no período de ocorrência da doença epidêmica, as comparações são baseadas na média histórica das ocorrências de mortes dos anos passados com o ano a ser estudado, a fim de identificar padrões de ocorrência dos óbitos por localidade (regiões, estados, municípios), período (semanal, mensal, semestral, anual), sazonalidade e/ou tipo de doença a ser estudada.

Posteriormente, executa a previsão de séries temporais usando técnicas de aprendizado de máquina para criar modelos e prever o comportamento esperado da doença (sem considerar a epidemia) no período que se deseja estudar. As técnicas computacionais utilizadas na previsão de séries temporais podem variar de acordo com a qualidade, tamanho e variação dos dados da base unificada. Sendo assim, importante realizar a validação da técnica a ser utilizada, de maneira que garanta maior acurácia nos modelos gerados.

Nessa etapa, são realizadas atividades de validação e interpretação dos dados para identificação de outliers, que representam os excessos de óbitos encontrados. Esses excessos correspondem a comparação entre os resultados preditos pelos modelos com os dados de mortes oficiais observados. A fim de identificar os possíveis números de óbitos subnotificados provocados de forma direta ou indireta pela epidemia.

Por fim, a partir dos resultados encontrados e da análise de diferentes variáveis da doença, é possível gerar cenários epidemiológicos apresentando dados mais acurados. Esses cenários podem ser gerados a partir de diferentes taxas de letalidade encontradas na literatura, pois, sabendo-se a estimativa mais precisa do número de óbitos provocados pela epidemia, é possível estimar, através dessas taxas, o número de infectados.

Os cenários gerados podem ser divididos de forma regionalizada: por região do país, estados ou municípios. Essa etapa pode ser realizada em diversas fases da epidemia, considerando diferentes variáveis, períodos de tempos e doenças a serem estudadas.

5.2.3 Terceira Etapa das Estratégias Propostas

A terceira etapa constitui uma análise comparativa de cenários gerados pela segunda etapa, na qual foram criados diferentes cenários epidemiológicos de previsões de casos de infectados e óbitos relacionados à epidemia.

Nesta etapa, podem ser comparados os cenários gerados de diferentes regiões ou da mesma região em momentos diferentes. Essas comparações podem ser feitas através de gráficos de previsões de ocorrência da doença, dos índices de morbidade e mortalidade previstos, das estimativas das taxas de subnotificação de mortalidade e de infecção, de ondas relativas aos números de casos ou mortes da doença corrigidos pelos modelos (dois, três ou mais picos que representam momentos críticos); assim como, de comparação entre os percentuais das doenças mais notificadas erroneamente no lugar da doença epidêmica em diferentes regiões ou período.

Nas comparações podem ser utilizados métricas estatísticas baseadas na média ou valores absolutos e relativos encontrados nas análises realizadas na segunda etapa.

Esta etapa é discricionária, mas se torna importante para as autoridades públicas terem uma compreensão mais ampla dos efeitos gerados pela epidemia em diferentes momentos e localidades. Propiciando assim que as autoridades de saúde possam detectar quais as regiões estão menos capacitadas no reconhecimento de determinadas doença ou as que foram mais afetadas, permitindo a criação de planos de ações de capacitações para os profissionais de saúde mais efetivos. Nessa etapa comparativa, também é possível identificar qual período e região foi mais afetada em número de óbitos e casos da doença em diferentes momentos, possibilitando a revisão e reformulação de ações de controle da doença no decorrer do tempo.

No documento TESE_LENA VEIGA_VERSÃO FINAL - PPGEE (páginas 76-80)