• Nenhum resultado encontrado

UNIVERSIDADE FEDERAL DO PARANÁ JULIANO LUIZ DA SILVA ANÁLISE DE DADOS NO SISTEMA DE INFORMAÇÃO SOBRE MORTALIDADE (SIM) PARA OS MUNICÍPIOS DO PARANÁ CURITIBA 2019

N/A
N/A
Protected

Academic year: 2021

Share "UNIVERSIDADE FEDERAL DO PARANÁ JULIANO LUIZ DA SILVA ANÁLISE DE DADOS NO SISTEMA DE INFORMAÇÃO SOBRE MORTALIDADE (SIM) PARA OS MUNICÍPIOS DO PARANÁ CURITIBA 2019"

Copied!
66
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO PARANÁ

JULIANO LUIZ DA SILVA

ANÁLISE DE DADOS NO SISTEMA DE INFORMAÇÃO SOBRE MORTALIDADE (SIM) PARA OS MUNICÍPIOS DO PARANÁ

CURITIBA

2019

(2)

JULIANO LUIZ DA SILVA

ANÁLISE DE DADOS NO SISTEMA DE INFORMAÇÃO SOBRE MORTALIDADE (SIM) PARA OS MUNICÍPIOS DO PARANÁ

Trabalho de conclusão de curso apresentado ao curso de Graduação em Gestão da Informação, departamento de Ciência e Gestão da Informação, do Setor de Ciências Sociais Aplicadas da Universidade Federal do Paraná, como requisito parcial à obtenção do título de Bacharel em Gestão da Informação.

Orientadora: Profª Drª Denise Fukumi Tsunoda

CURITIBA

2019

(3)

TERMO DE APROVAÇÃO

JULIANO LUIZ DA SILVA

ANÁLISE DE DADOS NO SISTEMA DE INFORMAÇÃO SOBRE MORTALIDADE (SIM) PARA OS MUNICÍPIOS DO PARANÁ

Trabalho de Conclusão de Curso apresentado ao curso de Graduação em Gestão da Informação Setor de Ciências Sociais Aplicadas, Universidade Federal do Paraná, como requisito parcial à obtenção do título de Bacharel em Gestão da Informação.

______________________________________

Profa. Dra. Denise Fukumi Tsunoda - Orientadora Departamento de Ciência e Gestão da Informação UFPR

______________________________________

Prof. Dr. Cicero Aparecido Bezerra

Departamento de Ciência e Gestão da Informação UFPR

______________________________________

Profa. Dra. Deborah Ribeiro Carvalho

Programa de Pós-graduação em Tecnologia em Saúde PUCPR

Curitiba, 24 de junho de 2019.

(4)

AGRADECIMENTOS

Agradeço a todos que me auxiliaram nesta caminhada, à professora Denise

pela paciência e cuidado, a Luana por sempre me incentivar, aos amigos e familiares

pela força nos momentos em que tudo não fazia sentido. Aos colegas do grupo de

estudos de estatística espacial da PUC pela oportunidade.

(5)

O que não me faz morrer me torna mais forte. (Friedrich Nietzsche, 2004, p. 10)

(6)

RESUMO

A saúde infantil destaca-se como um dos objetivos do milênio da Organização das Nações Unidas, a qual descreve a redução da mortalidade infantil como ponto crítico para desenvolvimento dos países. A saúde infantil pode ser mensurada através de índices e taxas, como a taxa de mortalidade infantil e materna. Nos últimos dez anos a taxa de mortalidade infantil apresenta redução no mundo e o Brasil acompanha essa tendência, assim como o estado do Paraná que apresentou em 2016 a taxa de 11,93‰. Pretende-se, a partir desse estudo, verificar as variáveis que influenciam a taxa de mortalidade infantil a partir da estatística, estatística espacial e mineração de dados. Para isso foi utilizada a base de dados SIM (Sistema de Informação sobre Mortalidade) e SINASC (Sistema de Informação sobre Nascidos Vivos) além de variáveis demográficas disponibilizadas pelo IBGE e indicador de cobertura de atenção básica dos municípios. Com a utilização de métodos de mineração de dados para a descoberta de padrões, verifica-se uma grande quantidade de padrões reportados nas árvores de decisão. Obteve com o algoritmo J48 a taxa de classificação corretas dos municípios do Paraná de 45,36% para a classificação a partir do triênio, 45,61% no ano de 2014, 48,62% para o ano de 2015 e 44,36% para o ano de 2016. Sob a perspectiva geográfica destaca-se a verificação de padrões de taxas similares entre municípios próximos e a verificações de mudanças ao longo do triênio (2014-2016) em especial na redução da taxa de mortalidade infantil na região sul do estado.

Palavras-chave: Mortalidade infantil. Sistema de Informação sobre Mortalidade.

Mineração de dados. Estatística espacial. Brasil. Paraná.

(7)

LISTA DE FIGURAS

Figura 1 - Etapas do Estudo ... 22

Figura 2 - Processo de KDD... 24

Figura 3 - Fluxo dos testes estatísticos ... 37

Figura 4- Box-plot da taxa de mortalidade infantil no Paraná entre os anos de 2014 a 2016 ... 39

Figura 5 - Box-plot das variáveis de IDHM dimensões renda e educação ... 41

Figura 6 - Boxplot mortalidade infantil 2014 a 2016 e triênio ... 44

Figura 7 - Box-map da taxa de mortalidade infantil do Triênio ... 46

Figura 8 - Box-map da taxa de mortalidade infantil 2014-2016 ... 47

Figura 9 - Recorte da árvore de decisão geradas partir do algoritmo J48 com atributo meta taxa de mortalidade infantil triênio ... 49

Figura 10 - Recorte da árvore de decisão gerada a partir do algoritmo J48 com atributo meta taxa de mortalidade infantil 2014 ... 52

Figura 11 - Recorte da árvore de decisão gerada a partir do algoritmo J48 com atributo meta taxa de mortalidade infantil 2016 ... 53

(8)

LISTA DE QUADROS

Quadro 1 - Quantidade de artigos resultantes no portal de periódicos da CAPES nos

últimos 5 anos (2015 a 2019) de acordo com idioma. ... 19

Quadro 2 - Razões utilizadas para construção de Indicadores na Epidemiologia ... 26

Quadro 3 - Ferramentas mais presentes nos artigos de Mortalidade Infantil ... 33

Quadro 4 - Variáveis utilizadas na construção da base de dados ... 34

Quadro 5 - Classificação dos valores encontrados na correlação de Spearman ... 38

Quadro 6 - Regra de Agrupamento da variável Taxa de Mortalidade Infantil ... 40

Quadro 7 - Teste estatístico de normalidade Shapiro-Wilk (p-valor com 5 casas decimais) ... 45

Quadro 8 - Correlação Spearman das variáveis com taxa de mortalidade infantil triênio Paraná ... 45

Quadro 9 - Matriz de confusão atributo meta mortalidade infantil triênio (2014-2016) ... 48

Quadro 10 - Resultados da classificação do algoritmo J48 com atributo meta taxa de mortalidade infantil no Paraná (triênio) ... 48

Quadro 11 - Resultados da classificação por triênio do algoritmo J48 ... 50

Quadro 12 - Matriz de confusão usando atributo meta taxa de mortalidade infantil 2014 ... 50

Quadro 13 - Matriz de confusão usando atributo meta taxa de mortalidade infantil 2015 ... 51

Quadro 14 - Matriz de confusão usando atributo meta taxa de mortalidade infantil

2016 ... 51

(9)

LISTA DE TABELAS

Tabela 1 - Artigos resultantes das buscas no portal de periódicos CAPES que

atenderam aos critérios de seleção a partir dos termos mortalidade

infantil e SIM. ... 30

Tabela 2 - Descritivo da variável cobertura de atenção básica e suas subdivisões .. 42

Tabela 3 - Descritivo da variável população ... 43

Tabela 4 - Descritivo do PIB ... 43

Tabela 5 - Descritivo das variáveis de adequação do saneamento básico ... 43

(10)

SUMÁRIO

1 INTRODUÇÃO ... 16

1.1 PROBLEMATIZAÇÃO ... 17

1.2 OBJETIVOS ... 18

1.3 JUSTIFICATIVA ACADÊMICA ... 18

1.4 JUSTIFICATIVA CIENTÍFICA ... 18

1.5 DELIMITAÇÕES DA PESQUISA ... 21

1.6 ESTRUTURA DO DOCUMENTO ... 22

2 REVISÃO DE LITERATURA ... 23

2.1 ANÁLISE DE DADOS... 23

2.2 SISTEMA ÚNICO DE SAÚDE BRASILEIRO ... 25

2.3 EPIDEMIOLOGIA ... 26

2.4 MORTALIDADE INFANTIL ... 27

2.5 DIVISÃO GEOGRÁFICA E ANÁLISE ESPACIAL ... 28

2.5.1 ESTATÍSTICA ESPACIAL ... 28

2.6 RELAÇÕES ENTRE A MORTALIDADE INFANTIL E SISTEMA DE INFORMAÇÃO SOBRE MORTALIDADE ... 29

3 ENCAMINHAMENTOS METOLÓGICOS ... 32

3.1 CARACTERIZAÇÃO DA PESQUISA ... 32

3.2 MATERIAIS E MÉTODOS ... 32

3.2.1 FERRAMENTAS ... 32

3.2.2 CONSTRUÇÃO DA BASE DE DADOS ... 34

3.2.3 MÉTODOS ESTATÍSTICOS ... 36

3.2.4 MINERAÇÃO DE DADOS ... 39

4 APRESENTAÇÃO DOS RESULTADOS ... 41

4.1 ESTATÍSTICA ... 41

4.2 ESTATÍSTICA ESPACIAL ... 46

4.3 MINERAÇÃO DE DADOS ... 47

5 CONSIDERAÇÕES FINAIS ... 54

5.1 RECOMENDAÇÕES PARA TRABALHOS FUTUROS ... 55

REFERÊNCIAS ... 56 APÊNDICE TRATAMENTO DA VARIÁVEL COBERTURA DE ATENÇÃO BÁSICA

16

(11)

APÊNDICE ÁRVORE DE DECISÃO COM TAXA DE MORTALIDADE INFANTIL DE 2014 16

APÊNDICE ÁRVORE DE DECISÃO COM TAXA DE MORTALIDADE INFANTIL DE 2015 18

APÊNDICE ÁRVORE DE DECISÃO COM TAXA DE MORTALIDADE INFANTIL DE 2016 20

APÊNDICE ÁRVORE DE DECISÃO COM TAXA DE MORTALIDADE INFANTIL DO

TRIÊNIO (2014-2016) ... 23

(12)

1 INTRODUÇÃO

A saúde infantil é um tema de constante preocupação das instituições de saúde ao redor do mundo. Esta preocupação é materializada pela elaboração das metas do milênio pela Organização das Nações Unidas, estabelece a ampliação do cuidado materno infantil, mensurado por índices e indicadores como a taxa de mortalidade infantil e a taxa de mortalidade materna.

Nos últimos dez anos, a taxa de mortalidade infantil apresenta redução no mundo, o Brasil acompanha essa tendência caminhando para números próximos aos dos países desenvolvidos, reduzindo sua taxa de mortalidade infantil de 30,4 ‰ nos anos 2000 para 14,5 ‰ em 2014. Entretanto, há disparidades entre regiões dentro do território brasileiro, por exemplo: a região norte do país apresenta uma taxa de 17,6

‰ contra 9,4 ‰ na região sul. Esta diferença pode ser atribuída à multiplicidade de fatores, dentre os quais, destaca-se o nível de atuação da rede de atenção básica local, concentração e distribuição de renda, poder aquisitivo familiar e nível de saneamento básico.

A mortalidade infantil é definida como o óbito de crianças entre zero a um ano de idade, dentro deste composto é possível segmentar em dois componentes:

mortalidade neonatal e mortalidade pós-neonatal (BRASIL, 2005).

A situação da mortalidade infantil vem sendo monitorada por gestores de saúde do estado do Paraná, disso promovem políticas de atenção e cuidado a população. A partir do ano de 2011 houve a implantação do Programa Rede Mãe Paranaense cujo objetivo é acompanhamento materno infantil, da fase pré-natal até a criança completar um ano de idade. Dentre as ações estabelecidas pela Secretária de Saúde com o programa estão: “estabelecimento de no mínimo de sete consultas pré- natal, realização de exames, estratificação e atendimento especializado dos pacientes alvos do programa de acordo com o risco e garantia de parto em hospital de acordo com o nível de risco” (PARANÁ, 2012, p. 13). O programa tem como objetivos a redução da mortalidade materno-infantil e manutenção do funcionamento da rede de atenção materno-infantil no estado do Paraná.

Segundo Paraná (2012) O programa teve início oriundo do sucesso do

programa Mãe Curitibana (focado no público materno-infantil da capital do estado do

Paraná) e da análise dos dados realizada nas bases de dados do DATASUS pela

Secretária de Saúde entre os anos de 2006 a 2010. Por certo a análise de dados sob

(13)

este aspecto, auxiliou na tomada de decisão e na construção desta política pública.

Para efetuar a análise deste tipo é fundamental a existência de tratamento e de transformação dos dados, a fim de atribuir a estes valor e conclusões diferentes das encontradas inicialmente.

Portanto, o presente estudo se propõe aplicar métodos de análise de dados, para identificar padrões que possam estar associados à fatores relacionados para entender a variações da taxa de mortalidade infantil no Estado do Paraná.

1.1 PROBLEMATIZAÇÃO

Políticas públicas auxiliam no aumento da qualidade de saúde. No Paraná o programa Rede Mãe Paranaense permite políticas assistenciais relacionadas ao cuidado materno-infantil. Netto et al. (2017) avalia o programa Rede Mãe Paranaense sob ponto de vista da 9ª regional de saúde do Paraná, nessa análise é possível acompanhar os óbitos sob ponto de vista de sua das causas evitáveis, ou seja, óbitos que poderiam ser evitados caso houvesse um adequado cuidado a mãe e ao recém- nascido. Como desfecho do estudo apresenta que houve “discreta redução nos óbitos após a implementação do programa na regional analisada. Assim sendo, a identificação do grau de evitabilidade do óbito se traduz em ações mais assertivas, para traçar com eficácia os investimentos e direcionar o atendimento a atenção materno-infantil.

Diante desses fatos, é válido mencionar que há poucos estudos relacionados a avaliação do programa Rede Mãe Paranaense e sua eficácia. Foi encontrado seis resultados com a busca pelos termos “mortalidade infantil” e “mãe paranaense”, logo sendo um assunto relevante a abordar com estudos direcionados. Desta forma, a mortalidade infantil a partir da rede assistencial otimizada necessita de acompanhamento e possivelmente de sugestões de melhorias.

Nesse contexto, procura-se identificar o panorama dos óbitos infantis no

Paraná, a partir de um estudo de seus municípios respondendo o seguinte problema

de pesquisa: quais os variáveis que influenciam na variação da taxa de

mortalidade infantil entre os municípios do Paraná, entre os anos de 2014 a 2016,

utilizando a base de dados SIM (Sistema de Informação sobre Mortalidade)?

(14)

1.2 OBJETIVOS

A partir do problema de pesquisa foram elaborados os objetivos gerais e os específicos, reduzindo escopo deste trabalho à resposta de seu problema. Este estudo se propõe a aplicar métodos de análise de dados, para identificar padrões associados a fatores relacionados a variações da taxa de mortalidade infantil entre os municípios do Estado do Paraná.

Os objetivos específicos estão diretamente ligados com o objetivo geral, propondo um detalhamento deste, são objetivos específicos:

− analisar a base de dados de mortalidade infantil por meio da estatística descritiva;

− utilizar métodos de mineração de dados a fim de descobrir padrões relevantes na base de dados do estado do Paraná no período estudado;

− descrever geograficamente a mortalidade infantil no Paraná.

1.3 JUSTIFICATIVA ACADÊMICA

Destaca-se então o papel do analista de dados junto ao profissional de saúde na construção do cerne de conhecimento necessário para uma análise efetiva. O analista de dados é uma das possíveis atribuições que o Gestor da Informação pode praticar, o qual possui conhecimento das áreas estatísticas e de aprendizado de máquina, o que propicia sua capacidade de para construir a rede de conhecimento a partir de dados. Ademais, possui as competências necessárias para ser o elo entre a área estratégica e o profissional de saúde, tal qual este profissional, multidisciplinar que é está acostumado a trabalhar. Visto que a Gestão da Informação, conforme constituída em seu curso da Universidade Federal do Paraná, possui como tripé as áreas de Tecnologia da Informação, Administração e Ciência da Informação.

1.4 JUSTIFICATIVA CIENTÍFICA

A seção de justificativa busca descrever a contribuição de determinado estudo

para a produção científica de sua área. Uma forma de analisar a contribuição é

revisitar os estudos relacionados publicados. Portanto, foi realizado um levantamento

(15)

bibliográfico de artigos publicados nos últimos cinco anos (2015 a 2019) a partir do portal de periódicos da CAPES, o portal é uma biblioteca virtual que reúne e disponibiliza às instituições de ensino e pesquisa no Brasil o melhor da produção científica internacional.

A estratégia deste levantamento foi fundamentada na combinação de termos a partir de operadores de booleanos (AND e OR), em conjunto com os filtros disponíveis no portal de periódicos CAPES. Os termos de buscas utilizados foram exatos, ou seja, termos compostos deveriam aparecer sequencialmente. Foram utilizados os filtros:

− por idioma (português e inglês);

− local onde o termo aparece no artigo (por título);

− por período (últimos 5 anos)

No Quadro 1 é possível verificar a descrição dos termos e quantidade de resultados encontrados, tanto em inglês como em português, a partir da busca efetuada em 06 de abril de 2019.

Quadro 1 - Quantidade de artigos resultantes no portal de periódicos da CAPES nos últimos 5 anos (2015 a 2019) de acordo com idioma.

termo PT-

BR

EN termo

SEM FILTRO: (mortalidade infantil)

379 17.984

QUALQUER: (infant mortality)

TÍTULO: (mortalidade infantil)

36 622

TÍTULO: (infant mortality)

TÍTULO: (mortalidade infantil) AND QUALQUER: (brasil)

27 58

TÍTULO: (infant mortality) AND QUALQUER: (brazil)

TÍTULO:(mortalidade infantil) AND SIM

11 20

TÍTULO:(infant mortality) AND SIM

TÍTULO:(mortalidade infantil) AND SIM AND paraná

2 4

TÍTULO:(infant mortality) AND SIM AND paraná

FONTE: O Autor (2019).

Foram analisados os 31 artigos resultantes das buscas que continham os termos mortalidade infantil e a base de dados SIM, e selecionadas as que atenderam aos critérios:

− tema principal sendo a mortalidade infantil no Brasil;

− não deve ser Meta-Análise ou revisão de bibliografia;

(16)

− apresentar estatística descritiva dos dados utilizados;

− apresentar a fonte dos dados;

− apresentar o método e a ferramenta utilizada para a sua aplicação;

− apresentar resultados relevantes (conclusões tais como “precisamos melhorar as políticas públicas” foram suprimidas).

Destes, somente nove atenderam a todos os critérios, excluídos oito artigos duplicados e demais por não conformidade. A partir dos artigos restantes será detalhado o estudo de cinco, como critério de escolha foi a pertinência e relação com o presente estudo.

Kropiwiec et. al. (2017) procuram identificar os fatores associados à mortalidade infantil no município de Joinville no estado de Santa Catarina. A partir das bases de dados SIM e SINASC, CNES (cadastro nacional de estabelecimentos de saúde) e Relatório Anual para a categorização de dois modelos de atenção básica. A partir de variáveis demográficas da mãe, das variáveis: etnia, escolaridade, ocupação, situação conjugal materna, nascimento em outro município, modelo de atenção básica, local do nascimento, tipo de estabelecimento, complexidade do hospital, número de filhos mortos, paridade materna, mês do início do pré-natal, número de consultas pré-natal, tipo de parto, idade materna, tipo de gestão, idade gestacional, sexo e peso do recém-nascido, índice de Agpar no 1º e 5º minuto e presença da má formações. A partir disso foi realizada a análise estatística com a utilização de modelos de regressão logística. Como resultado, apresenta que fatores que constituem risco para os óbitos são: Mãe adolescente, duração da gestação menor que 32 semanas, peso ao nascer menor que 1.500 g, Apgar no 1º e no 5º minuto de vida menor que 7.

Leal et al. (2017) estudam os determinantes sociais, demográficos, da saúde

reprodutiva e utilização dos serviços de saúde e sua associação com a mortalidade

infantil em 75 munícipios de pequeno porte no Vale do Jequitinhonha e nas regiões

Norte e Nordeste do Brasil. Por meio de um estudo caso-controle, verificam variáveis

demográficas maternas, de saúde reprodutiva, adequação de pré-natal através de um

método estatístico regressão logística. Apresentam fatores já então conhecidos, como

ocorrência de óbito entre mães com história de perda fetal e infantil e que não fizeram

pré-natal adequado. Destacam o não encaminhamento de mulheres de alto risco

durante o pré-natal para serviços especializados, o grande número de partos em

domicílios que ocorrem em municípios de pequeno e médio porte por conta de

(17)

dificuldade de acesso à maternidades. Por fim, reforçam maior adesão dos profissionais de saúde aos protocolos assistenciais do Ministério da Saúde.

Lima et al. (2017) estudam fatores relacionados à mortalidade infantil nas mães residentes de Cuiabá no estado do Mato Grosso. Utilizam da estatística através da regressão logística e obtém como resultado a taxa de mortalidade: mães sem companheiro, baixo número de consultas de pré-natal, baixo preso ao nascer, prematuridade, Agpar <= 7 no 1º minuto, malformação congênita e sexo masculino.

Apresentam ainda, reflexos positivos do programa Bolsa Alimentação e Bolsa Família na redução da mortalidade infantil em Cuiabá.

Sanders et al. (2017) analisam fatores associados a mortalidade infantil no município de Fortaleza no estado do Ceará através de um estudo de caso-controle.

Utilizam da regressão logística e tem como resultado variáveis associadas à mortalidade infantil, sendo estas: gestação gemelar, idade gestacional <= 36 semanas.

Rodrigues et al. (2014) apresentam um estudo utilizando análise espacial da mortalidade infantil e a adequação das informações vitais no estado de Pernambuco.

Utilizam dados secundários do SIM e SINASC para o desenvolvimento de cinco (5) indicadores por município: coeficiente de mortalidade geral padronizado por idade, desvio médio relativo do coeficiente de mortalidade geral, razão entre nascidos vivos informados e estimados, desvio médio relativo da taxa de natalidade e proporção de óbitos sem definição de causa básica. Com isso, foi utilizado a estatística espacial a partir do índice de Moran Local, para identificar agregados espaciais de mortalidade infantil. Como resultado relatam que 76,6% dos municípios apresentam informações vitais consolidadas. Concluem descrevendo a formação de cluster para a mortalidade infantil em 34 municípios, formando três agregados espaciais.

1.5 DELIMITAÇÕES DA PESQUISA

Trata-se de um estudo com crianças que vieram à óbito, de idade de zero a

um ano, residentes no estado do Paraná no Brasil, no período entre os anos de 2014

a 2016. Sendo este período o triênio (período de três anos) mais recente completo

disponível na base de dados SIM (Sistema de Informação sobre Mortalidade).

(18)

O presente estudo não abordará questões relacionadas a subnotificação de óbitos, ou seja, a possibilidade da existência de óbitos além dos registrados na base SIM.

1.6 ESTRUTURA DO DOCUMENTO

A figura apresenta um compilado das seções principais (Figura 1) e dos principais tópicos abordados em cada etapa. Esta é uma esquematização visual que tem como objetivo representar fielmente todas as etapas relacionadas em cada fase.

Figura 1 - Etapas do Estudo

FONTE: O autor (2019).

A figura apresenta distinção entre as quatro principais etapas do desenvolvimento deste estudo, todavia a forma de sua construção não foi procedural, muitas vezes alternando entre as etapas ou então realizando-as em paralelo. A revisitação das seções já trabalhadas é comum e busca alinhar o estado atual do artigo com o que já foi desenvolvido, esta etapa sendo por vezes árdua e repetitiva.

INTRODUÇÃO

contextualização

problematização

REVISÃO DE LITERATURA

apresentação de estudos correlatos

definição de termos e coceitos

MATERIAIS E MÉTODOS

Base de dados

Procedimentos realizados

CONSIDERAÇÕES FINAIS

resultados obtidos

estudos futuros

(19)

2 REVISÃO DE LITERATURA

A revisão de literatura tem como tarefa de familiarizar o leitor com o conteúdo que está sendo apresentado. Portanto, será exposto a contextualização sobre termos como a Análise de dados, atrelada em seu uso na tomada de decisão na área de saúde. Em seguida será apresentado o papel fundamental do Sistema Único de Saúde para a população brasileira, bem como seu histórico.

2.1 ANÁLISE DE DADOS

O termo análise vem do grego análusis,eōs, que significa dissolução, separação em partes. Já o termo dado, pode ser definido como registro sobre algum fato observado. Neste contexto, a análise de dados é o processo de quebra dos dados em unidades menores, a fim de entender algum fenômeno. Ou então sob uma ótica de termo genérico guarda-chuva, ao qual é possível entender como um aglomerado das áreas como mineração de dados e a estatística. Teixeira descreve análise de dados sob ponto de vista da metodologia científica como:

O processo de formação de sentido além dos dados, e esta formação se dá consolidando, limitando e interpretando o que as pessoas disseram e o que o pesquisador viu e leu, isto é, o processo de formação de significado (TEIXEIRA, 2003, p. 191-192).

Diante disso, a análise de dados como ferramenta de entendimento de algum fenômeno perpassa na socialização deste conhecimento para evolução da ciência, ao qual só é possível a partir de uma metodologia passível de reprodução dos resultados.

Serão utilizados conceitos e métodos da mineração de dados, estatística descritiva e estatística espacial.

O processo de mineração de dados é um dos componentes da descoberta de

conhecimento em bases de dados (KDD), e tem como objetivo a produção de

conhecimento a partir dos dados (Figura 2).

(20)

Figura 2 - Processo de KDD

Fonte: Fayyad (1996).

Dentre as etapas estão a seleção de dados, ou seja, a partir de determina população se faz necessário selecionar uma amostra para trabalho, além do estabelecimento de determinado problema a ser solucionado. Pré-processamento ocupa-se com a limpeza e adequação da base, como o tratamento de outliers, valores incorretos ou faltantes. A seguir se dá a etapa de transformação de dados, pois em alguns algoritmos é necessário alterar escala em determinadas variáveis. Perpassa pela etapa de mineração de dados que ocupa na aplicação dos algoritmos e por último a análise interpretação dos resultados, nesta etapa o resultado da mineração é analisado levando em conta fatores como: taxa de acerto, velocidade de processamento, adequação ao problema proposto.

O algoritmo a ser implementado é o J48, que é a implementação na linguagem

de programação Java do algoritmo escrito em C denominado C 4.5 que por sua vez

tem origem no algoritmo ID3 (CHENG 2008). DUTRA (2008) relata que o método C4.5

tem sido largamente empregado para construir árvores de decisão que são muito

comumente utilizadas para descoberta de padrões. O algoritmo tem como resultado a

porcentagem de classificação de registros correto e incorretos, a árvore de decisão e

a matriz de confusão HAY (1988).

(21)

A outra dimensão da análise de dados a ser tralhada é a abordagem da estatística descritiva. Esta pode ser entendida a partir da organização e descrição dos dados, a partir de sumários e indicadores segundo Silvestre (p. 4, 2007). As variáveis das bases de dados constituem-se conforme descrito por Gonçalves (p. 13, 1978) a partir de dois tipos: variáveis qualitativas e quantitativas.

2.2 SISTEMA ÚNICO DE SAÚDE BRASILEIRO

O Departamento de Informática do Sistema Único de Saúde (DATASUS) é o ator que promove e mantém os dados vitais sobre mortalidade, dito isso o papel fundamental do Sistema Único de Saúde (SUS), seu funcionamento e histórico auxiliam no entendimento da base de dados a ser estudada.

A partir do relatório publicado pelo Ministério da Saúde é possível entender o SUS como um sistema de abrangência nacional, democrático apoiado pela participação social (BRASIL, 2001, p. 5). Criado no período da redemocratização pós ditadura (1985), momento de grandes mudanças estruturais políticas (ASSUNÇÃO et al. 2014). Convocada pela Presidência da República da época, a CNS (Conferência Nacional de Saúde) aprova demandas da sociedade a favor da reforma da saúde.

Dentre as pautas aprovadas estão o fortalecimento do setor público de saúde, expansão da cobertura a todos os cidadãos e unificação da medicina previdenciária à saúde pública, constituindo assim um sistema único. Paim aponta os conceitos e concepções levados para a CNS como:

Determinação social do processo saúde-doença, organização social dos serviços de saúde, com matriz teórica marxista, mas também a promoção da saúde, consciência sanitária, políticas públicas e a noção de sistema de saúde (PAIM, 2008, p. 99).

Portanto, o SUS tem como papel muito além da cura de agravos, mas na

melhoria da qualidade de vida de determinada população (BRASIL, 2001, p. 5) e

apresenta como princípios a universalidade, integridade e equidade.

(22)

2.3 EPIDEMIOLOGIA

A epidemiologia trata entre outras coisas o componente de saúde de determinada população, logo, engloba o tema mortalidade infantil. Pode-se entender epidemiologia como: “conceitos, métodos e teorias que permitam estudar, conhecer e transformar o processo saúde-doença na dimensão coletiva” (FRANCO e PASSOS, 2005, p. 31). Estes métodos perpassam no processo de construção do diagnostico coletivo conforme explica Soares et al. (2019, p. 184) como: levantamento de dados da população, de doenças encontradas nesta população, da contabilização da morbidade e por fim de registros do serviço de saúde local. Demonstra que é necessário dimensionar estas variáveis a partir de três vertentes: pessoas, tempo e espaço. Retrata a origem da epidemiologia, que até o início do século XX focava mais fortemente nas doenças infecciosas. Atualmente, relata uma mudança no perfil epidemiológico da população e com isso a mudança do foco da epidemiologia. A partir de métodos do século XX os estudos focam em outros tipos de doenças como doenças não infeciosas, agravos de causas externas ou então desvios nutricionais.

Os estudos de epidemiologia atualmente conforme conta Soares et al. (2019, p. 186) adere a métodos da epidemiologia analítica que atua na descoberta das causas para a ocorrência das doenças. A descoberta das causas perpassa na utilização de dados e em sua transformação em indicadores, para que possam ser comparados com outros locais ou momentos do tempo. Destaca que não é comum elaborar comparações a partir de números absolutos, portanto elabora-se frequência relativas por meio de proporção ou coeficientes (Quadro 2).

Quadro 2 - Razões utilizadas para construção de Indicadores na Epidemiologia

Nome Descrição

Proporção Representa a importância desses casos ou mortes no conjunto total Coeficiente Representa o risco de determinado evento ocorrer na população

Fonte: Adaptado de Soares (2019).

Relata a diferença do índice, que diferentemente de coeficiente não expressa

probabilidade, porque o numerador não apresenta a ocorrência do evento. Esclarece

(23)

então que o termo mais indicado para a mortalidade infantil é índice de mortalidade infantil não coeficiente.

2.4 MORTALIDADE INFANTIL

A mortalidade infantil é estudada a partir das mais variadas visões como:

social, epidemiológica e estatística. Dentre as diversas abordagens, o ponto de partida é o significado de mortalidade e mortalidade infantil e suas implicações. Logo, buscando aprofundar a análise, será adotado uma das definições do Ministério da Saúde brasileiro sobre o tema, que traz a definição de mortalidade como:

“desaparecimento de qualquer sinal de vida em qualquer momento após o nascimento, sem possibilidade de ressuscitação (MINISTÉRIO DA SAÚDE, 2007, p.

9). A morte sob esta visão é um dado a ser registrado com intuito de elaborar ações para a melhoria da qualidade de vida da população. No Brasil, a mortalidade é registrada pelo departamento de informática do SUS a partir da declaração de óbito, documento base do Sistema de Informação sobre Mortalidade, composta de três vias de igual conteúdo distribuídas pelas secretárias estaduais e municipais (BRASIL, 2009). Seu conteúdo apresenta informações relativas à identificação do indivíduo, bem como causa de morte e informações demográficas utilizadas para ações do âmbito de saúde pública. As causas de morte são agrupadas em evitáveis e não evitáveis, sendo as evitáveis “definidas como uma morte que pode ser evitável com adequação do cuidado de saúde, a partir de serviços efetivos de saúde (MALTA, 2007).

Ainda é possível estratificar a mortalidade infantil em dois grupos etários, mortalidade neonatal e mortalidade pós-neonatal, onde a mortalidade neonatal conta desde o nascimento até 28 dias incompletos e a mortalidade pós neonatal que abrange 28 dias após o nascimento até 365 dias incompletos. A taxa de mortalidade infantil ou TMI, por isso, é calculado utilizando duas variáveis, conforme a fórmula (1):

𝑇𝑀𝐼 =

Ó𝑏𝑖𝑡𝑜𝑠 𝑝𝑜𝑟 𝑟𝑒𝑠𝑖𝑑ê𝑛𝑐𝑖𝑎

𝑁𝑎𝑠𝑐𝑖𝑑𝑜𝑠 𝑣𝑖𝑣𝑜𝑠 𝑝𝑜𝑟 𝑟𝑒𝑠𝑖𝑑ê𝑛𝑐𝑖𝑎

∗ 1000 (1)

(24)

Com a taxa de mortalidade infantil é possível comparar e verificar a qualidade de vida da população e com isso promover a criação de políticas públicas coerentes com o estado de saúde desta população.

Como os casos de mortalidade serão analisados a partir da unidade federativa do Paraná, é essencial conhecer a geografia e as características demográficas do estado, para então inferir se os padrões encontrados a partir dos algoritmos possuem relevância. Portanto a próxima seção tratará de estabelecer este elo.

2.5 DIVISÃO GEOGRÁFICA E ANÁLISE ESPACIAL

Um dos pontos importantes na utilização dos indicadores conforme explanado na seção de epidemiologia, é a possibilidade de comparação temporal e geográfica, dito isso, é essencial entender o contexto em que se estabelece os dados de saúde infantil, no Paraná, a partir de uma análise de seu território. O paraná constitui-se como unidade federativa dentro do território brasileiro (27º estado mais populoso do país), possui 399 municípios e extenso território e uma população de 10.444.526 pessoas de acordo com o último censo do IBGE em 2010. Faz fronteira com estados de São Paulo, Santa Catarina, Mato Grosso do Sul e com os países Argentina e Paraguai. Dentre as características dos municípios estão o PIB (Produto Interno Bruto) que é a soma de todas as riquezas de determinado município.

2.5.1 ESTATÍSTICA ESPACIAL

A estatística espacial será uma das visões utilizadas para a identificação de padrões, conforme definição de Andrade (2019, p.17) estatística espacial é:

O ramo da estatística que permite analisar a localização espacial de eventos.

Ou seja, além de identificar, localizar e visualizar a ocorrência de fenômenos que se materializam no espaço, tarefas possibilitadas pelo uso dos SIG (Sistema de Informação Geográfica), utilizando-se a estatística espacial é possível modelar a ocorrência destes fenômenos, incorporando, por exemplo, os fatores determinantes, a estrutura de distribuição espacial ou a identificação de padrões (ANDRADE, 2007, p. 17).

Constata-se a partir o potencial da estatística espacial na identificação de

padrões, conforme estudado por BEZERRA FILHO (2007) et al. Dos determinantes

(25)

da taxa de mortalidade infantil no Ceará e MORAIS NETO et al. (2001) para identificar as áreas de risco no município de Goiânia.

Como insumos para a utilização dos métodos de estatística espacial estão alguns conceitos chave como: ponto, áreas e dependência espacial. Sendo o ponto, explicado por Andrade et al. (2007) como o uma localização pontual (coordenadas).

Descreve que o termo área como áreas geográficas com limites definidos, utiliza-se na literatura o conceito de polígonos.

A estatística espacial apresenta variados meios de análise, dentre os diversos algoritmos existentes dentre deste campo será utilizado o box-map para visualização dos quadrantes conforme NASCIMENTO et al. (2014) realizaram no estudo com a mortalidade neonatal em São Paulo.

2.6 RELAÇÕES ENTRE A MORTALIDADE INFANTIL E SISTEMA DE INFORMAÇÃO SOBRE MORTALIDADE

A partir de um detalhamento da tabela apresentada na justificativa (Tabela 5) é possível verificar que: 5 (cinco) dos 9 (nove) trabalhos recuperados utiliza regressão (logística ou polinomial) em suas análises. Ainda, 4 (quatro) explicitam o uso da ferramenta SPSS e 2 (dois) o software STATA. Apesar de apenas 2 (dois) artigos mencionarem o Excel, é provável que todos os trabalhos o utilizem, visto que é uma ferramenta bastante conhecida para a tabulação e visualização de dados.

Visualizando os estudos a partir de sua geografia é possível observar que não

foram encontrados estudos dentro dos filtros propostos que tem como objeto o estado

do Paraná ou então as suas cidades.

(26)

Tabela 1 - Artigos resultantes das buscas no portal de periódicos CAPES que atenderam aos critérios de seleção a partir dos termos mortalidade infantil e SIM.

Método Comum

Quantidade de Artigos

Título FERRAMENTAS

Regressão

Logística 4

FATORES ASSOCIADOS À MORTALIDADE INFANTIL EM MUNICÍPIO COM ÍNDICE DE DESENVOLVIMENTO HUMANO ELEVADO. (KROPIWIEC et. al. 2017).

SPSS

DETERMINANTES DO ÓBITO INFANTIL NO VALE DO

JEQUITINHONHA E NAS REGIÕES NORTE E NORDESTE DO BRASIL.

(LEAL et. al. 2017)

R

ESTUDO DE BASE POPULACIONAL SOBRE MORTALIDADE INFANTIL.

(LIMA et. al. 2017)

Registry Plus Link Plus, STATA FATORES ASSOCIADOS À

MORTALIDADE INFANTIL EM UMA CAPITAL DO NORDESTE

BRASILEIRO. (SANDERS et. al. 2017)

SPSS, EXCEL

Estatística

Descritiva 2

MORTALIDADE INFANTIL SEGUNDO COR OU RAÇA COM BASE NO CENSO DEMOGRÁFICO DE 2010 E NOS SISTEMAS NACIONAIS DE INFORMAÇÃO EM SAÚDE NO BRASIL.

(CALDAS et. al. 2017)

SPSS, EXCEL

MORTALIDADE INFANTIL POR COR OU RAÇA EM RONDÔNIA, AMAZÔNIA BRASILEIRA (GAVA, et. al 2017)

SPSS

Joinpoint 1 TENDÊNCIA DA MORTALIDADE

INFANTIL NO MUNICÍPIO DE RIO BRANCO, AC, 1999 A

2015. (RAMALHO et. al. 2018)

Joinpoint

Índice de auto correlação espacial Moran Local

1

ANÁLISE ESPACIAL DA MORTALIDADE INFANTIL E

ADEQUAÇÃO DAS INFORMAÇÕES VITAIS: UMA PROPOSTA PARA DEFINIÇÃO DE ÁREAS

PRIORITÁRIAS. (RODRIGUES et. al.

2014)

GEODA

Regressão Polinomial

1 TENDÊNCIA SECULAR DA MORTALIDADE INFANTIL, COMPONENTES ETÁRIOS E

EVITABILIDADE NO ESTADO DE SÃO PAULO – 1996 A 2012. (ARECO et. al.

2012)

STATA

Total 9

FONTE: O Autor (2019).

(27)

Após a explanação dos conceitos fundamentais, a próxima seção

apresenta os encaminhamentos metodológicos, que compreende a caracterização da

pesquisa, definição das ferramentas de trabalho utilizadas, construção da base de

dados e definição dos métodos utilizados.

(28)

3 ENCAMINHAMENTOS METOLÓGICOS

Esta seção apresenta a caracterização da pesquisa, a elaboração da base dados e a seleção das ferramentas e os métodos utilização na condução da pesquisa.

3.1 CARACTERIZAÇÃO DA PESQUISA

A presente pesquisa pode ser descrita como quantitativa, de caráter descritivo experimental (GIL, p. 52, 2008), identificado dentro da área da saúde como estudo ecológico retrospectivo, onde o foco é analisar grupos de pessoas ao invés de indivíduos (BEARGLEHOLE, p. 41-42, 2003). O estudo caracteriza-se como experimental e quantitativo, do ponto de vista que as variáveis apresentam caráter numérico discreto e descritivo por se tratar de um estudo sobretudo de estatística descritiva, o qual visa entender o cenário a partir de métodos de visualização comuns na estatística.

Sob o ponto de vista epidemiológico o estudo é ecológico, pois tem como foco uma área geográfica e estes dados são comparados temporalmente com a mesma região e calculados a partir de taxas de agregados de dados.

3.2 MATERIAIS E MÉTODOS

A seção materiais e métodos visa apresentar o caminho na elaboração da pesquisa sob ponto de vista ferramental e de implementação. A seguir, serão apresentados as ferramentas e o método para sua escolha.

3.2.1 FERRAMENTAS

A partir da escolha das ferramentas e sua utilização, é possível aferir o nível de domínio do autor em determinada área de estudo, visto que, algumas áreas possuem ferramentas que proporcionam agilidade e grau de confiabilidade dos resultados singulares. Para a escolha das ferramentas deve-se considerar:

− custos de licença da ferramenta;

− prazo permitido de uso;

(29)

− quantidade de dados processada pela ferramenta;

− visualização esperada das informações.

Foi realizado um levantamento de alguma das ferramentas mais comuns utilizadas nos estudos sobre área da saúde por profissionais de análise de dados, conforme Quadro 3.

Quadro 3 - Ferramentas mais presentes nos artigos de Mortalidade Infantil

Áreas Ferramentas

Estatísticas SPSS, R, Stata, Matlab Epidemiológicas TabWin, Epiinfo

Geoespaciais MapInfo, Terraview e ArcGis, QGIS, Geoda Linguagem de Programação R e Python

Planilhas Eletrônicas Microsoft Office Excel, OpenOffice Calc

Mineração de Dados Weka (Waikato Environment for Knowledge Analysis) FONTE: O Autor (2019).

Foram selecionadas as ferramentas deste estudo a partir do Quadro 3 com os critérios: formatos de arquivo, personalização dos resultados, tempo de processamento da análise, familiaridade das ferramentas, sendo elas:

− Sistema TabWin para coletar os dados das bases disponibilizadas pelo DATASUS;

− Software QGIS 3.2 para preparação de dados de mapa;

− Preparação da base de dados tabulares utilizando o Microsoft Office Excel;

− Preparação da base de dados foi utilizada a linguagem de programação Python versão 3.5;

− Mineração de dados com a ferramenta Weka;

− Análise espacial dos dados com o software Geoda.

Com a descrição das ferramentas a serem utilizadas, serão descritos os

detalhes destas ferramentas e seu propósito neste estudo. Para coleta de dados, a

ferramenta online TabWin auxiliará na tarefa de capturar dados epidemiológicos

(30)

relacionados a mortalidade infantil. Após isso, foi utilizado o software QGIS para agrupar os polígonos dos municípios com os dados de tabulação simples, esta união tem como objetivo propiciar a análise espacial. E então com o software Geoda foi aplicado ferramentas de estatística espacial. A seguir, será utilizado estatística com a linguagem de programação R, para criação de box-plots, testes de normalidade e correlação. Por fim, o software Weka será utilizado para a realização do método de mineração de dados através do algoritmo J48 e PART.

3.2.2 CONSTRUÇÃO DA BASE DE DADOS

A construção da base de dados foi realizada conforme Quadro 4, obtidas por meio de sistemas online abertos do DATASUS (Departamento de Informática do SUS), IBGE (Instituto Brasileiro de Geografia e Estatística) e do sistema de Atenção Básica E-Gestor.

Quadro 4 - Variáveis utilizadas na construção da base de dados

Variáveis Descrição Fonte Endereço Eletrônico

Óbitos Quantidade de óbitos por ano/munícipio SIM (DATASUS)

http://tabnet.datasus.gov.br/cgi /deftohtm.exe?sim/cnv/inf10pr.

def Nascidos

Vivos

Quantidade de nascidos vivos por ano/munícipio

SINASC (DATASUS)

http://tabnet.datasus.gov.br/cgi /deftohtm.exe?sinasc/cnv/nvpr .def

IDHM Dimensão renda e escolaridade do índice de desenvolvimento humano municipal

Atlas Brasil http://www.atlasbrasil.org.br/20 13/pt/consulta/

Taxa de Desemprego

Proporção (%) da população Residente economicamente ativa de 16 anos e mais que se encontra sem trabalho na semana de referência, em determinado espaço geográfico, no ano considerado1

IBGE http://www2.datasus.gov.br/DA TASUS/index.php?area=0206

&id=7401000&VObj=http://tab net.datasus.gov.br/cgi/deftoht m.exe?ibge/censo/cnv/desem pr

_______________

1http://tabnet.datasus.gov.br/cgi/ibge/censo/Taxa_Desemprego.pdf

(continua)

(31)

Variáveis Descrição Fonte Endereço

Cobertura de Atenção Básica

Percentual da população coberta por equipes da Estratégia da Saúde da Família e por equipes de Atenção Básica tradicional e padronizadas em relação a estimativa populacional2

EGESTOR https://egestorab.sa ude.gov.br/paginas/

acessoPublico/relat orios/relHistoricoCo berturaAB.xhtml Municípios do Paraná Polígonos dos municípios do Brasil IPEA http://www.ipea.gov.

br/ipeageo/malhas.

html

Demográficas População por município IBGE http://www2.datasus

.gov.br/DATASUS/i ndex.php?area=020 6&id=7401000&VO

bj PIB por município Produto Interno Bruno do município IBGE

Taxa de Saneamento Básico Adequado

Leva em conta escoto, abastecimento de agua e coleta de lixo conforme nota técnica

https://biblioteca.ibge.gov.br/visualizaca o/livros/liv54598.pdf

IBGE

ftp://ftp.ibge.gov.br/

Censos/Censo_De mografico_2010/indi

cadores_sociais_m unicipais/Unidades_

da_Federacao/para na.zip Taxa de Saneamento

Básico semiadequado Taxa de Saneamento Básico inadequado

FONTE: O Autor (2019).

Destaca-se a escolha da variável do Índice de Desenvolvimento Humano Municipal, este índice é capaz de identificar o desenvolvimento humano a partir de três dimensões, longevidade, educação e renda. No presente estudo será utilizado somente duas das três dimensões, pois a dimensão longevidade leva em conta a expectativa de vida, sendo este índice influenciado pela taxa de mortalidade infantil, portanto, para evitar relações errôneas.

Em geral, a união de diversas fontes de dados é realizada por meio de uma variável comum entre todas estas bases como o caso do linkage (ALMEIDA et al.

1996). Neste caso foi utilizado o código do município fornecido pelo IBGE, conforme explica a nota técnica do IBGE:

_______________

2https://egestorab.saude.gov.br/paginas/acessoPublico/relatorios/nota_tecnica/nota_tecnica_relatorio _de_cobertura_AB.pdf

(continuação)

(32)

Os códigos dos municípios no IBGE são construídos de maneira que os dois primeiros dígitos representam a Unidade da Federação a que pertencem, os quatro dígitos seguintes são a própria identificação do município em ordem alfabética e o último é um dígito verificador formado a partir dos anteriores (IBGE, 2010, p. 17).

O código do munícipio aparecia sem o digito verificador no mapa, portando este foi retirado em todas as outras bases para possibilitar a junção, esta tarefa foi realizada com apoio do software QGIS 3.2.6. O próximo passo é agregar os dados oriundos das bases de dados SIM e SINASC, disponibilizadas pelo DATASUS também em formato .csv no TABNET

3

, que é o tabulador de domínio público disponibilizado pelo governo brasileiro.

Em seguida, foi realizado o calculo o indicador da taxa de mortalidade infantil, este indicador será calculado pela função do QGIS a seguir:

round(

(coalesce("obito_2014",0) + coalesce("obito_2015",0) + coalesce("obito_2016" ,0))

/

(coalesce("nasc_2014",0) + coalesce("nasc_2015",0) + coalesce("nasc_2016",0))

* 1000 ,3) (3)

Com a construção deste indicador, a descoberta de padrões e inferências entre os municípios se torna mais acertada, pois o uso do indicador reduz o impacto dos óbitos em municípios de pequeno porte.

Após a construção da base, será realizado a seguir, a esquematização da aplicação dos métodos estatísticos, de mineração de dados e estatística.

3.2.3 MÉTODOS ESTATÍSTICOS

Os métodos estatísticos atuam como componente chave de grandes partes dos estudos acadêmicos, sobretudo ferramentas que utilizam a estatística descritiva.

Portanto, será realizado uma abordagem a partir da estatística, a fim de verificar e tentar encontrar padrões de acordo com fluxo da Figura 3.

_______________

3http://www2.datasus.gov.br/DATASUS/APRESENTACAO/TABNET/Tutorial_tabNet_FINAL.pptx_html /html/index.html#8

(33)

Figura 3 - Fluxo dos testes estatísticos

FONTE: O Autor (2019).

O primeiro passo foi a aplicação do teste de normalidade Shapiro Wilk (ROYSTON, 1992), o qual foi adotado o nível de confiança de 95%. O teste tem como as seguintes hipóteses:

𝑯

𝟎

= 𝐷𝑎𝑑𝑜𝑠 𝑁𝑜𝑟𝑚𝑎𝑖𝑠 𝑯

𝟏

= 𝐷𝑎𝑑𝑜𝑠 𝑛ã𝑜 𝑛𝑜𝑟𝑚𝑎𝑖𝑠

Sendo a hipótese nula 𝑯

𝟎

admite que a distribuição é normal, e 𝑯

𝟏

(p < 0,05) rejeita-

se a hipótese nula, logo a distribuição não é normal. A partir da normalidade de

determinado conjunto de dados é então efetuado o teste de correlação. Para dados

(34)

que se aproximam da curva normal utiliza-se o teste de correlação Spearman (SPEARMAN, 1904), caso contrário, utiliza-se o teste de correlação Pearson (PEARSON, 1896).

Figueiredo Filho (2009, p. 119) explica a variação do resultado do teste de correlação de Pearson que varia de -1 a 1. Relata que o sinal indica direção positiva ou negativa do relacionamento e o valor sugere a força da relação entre as variáveis, ou seja, em qual grau uma variável varia em função da outra. Uma correlação com valor de (-1 ou 1) indica que o valor de uma variável pode ser determinado exatamente ao se saber o valor da outra. E um valor zero (0) ou próximo a zero indica que não a relação linear entre as variáveis. Esta relação será verificada a partir do seguinte teste de hipótese:

𝑯

𝟎

= 𝑁ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝑙𝑖𝑛𝑒𝑎𝑟 𝑝𝑎𝑟𝑎 𝑒𝑠𝑡𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜 𝑯

𝟏

= 𝐸𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝑝𝑎𝑟𝑎 𝑒𝑠𝑡𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜

Este teste será avaliado de acordo com Quadro 5 descrito por Cohen, no qual 𝑯

𝟎

representará valores pequenos e 𝑯

𝟏

se dará a partir de valores médios ou grandes.

Quadro 5 - Classificação dos valores encontrados na correlação de Spearman

Valor Intervalo

Pequenos 0,10 e 0,29

Médios 0,30 e 0,49

Grandes 0,50 e 1

FONTE: Adaptado de Cohen (1988).

Este quadro apresenta uma das propostas de interpretação do valor de correlação de Spearman, dentre as diversas existentes.

Concluída a preparação da área estatística, inicia-se então a etapa de

mineração de dados. A qual será realizada de acordo com a seção de análise de

dados.

(35)

3.2.4 MINERAÇÃO DE DADOS

.

A mineração de dados inicia-se pela etapa de pré-processamento, esta foi realizada com objetivo de adequar a base de dados aos softwares utilizados, levando em conta os requisitos do algoritmo em questão. O algoritmo a ser utilizado será o J48 conforme descrito na seção de revisão de literatura, disponível no software Weka. Um dos requisitos para aplicação do algoritmo é que seu atributo meta (resposta) necessita ser do tipo discreto. Todavia, o campo taxa de mortalidade infantil foi transformado de numérico para variável discreta com a utilização dos quartis com o software R-Studio a partir do comando boxplot(variavel)$stats

4

. Este comando apresenta o boxplot conforme Figura 4 e quartis.

Figura 4- Box-plot da taxa de mortalidade infantil no Paraná entre os anos de 2014 a 2016

FONTE: O Autor (2019).

Verifica-se que 75% dos municípios possuem uma taxa de mortalidade infantil abaixo de 16,66‰ e que há outliers com taxa de mortalidade infantil elevadíssimas.

Foi definido a aplicação de dois testes distintos, o primeiro utilizando a taxa de mortalidade infantil por ano e o segundo por triênio, ambos utilizando o intervalo dos _______________

4

https://stat.ethz.ch/R-manual/R-devel/library/graphics/html/boxplot.html

(36)

anos de 2014 a 2015. Ambos os testes terão utilizarão os agrupamentos do Quadro 6, estes dados oriundos do comando do box-plot.

Quadro 6 - Regra de Agrupamento da variável Taxa de Mortalidade Infantil

Grupo Intervalo Quantidade de Municípios

Grupo 1 0 - 10,5945 176

Grupo 2 10,5945 - 16,6670 146

Grupo 3 16,6670 - 41,6670 75

Grupo 4 41,6670 - 117,6470 2

FONTE: O Autor (2019).

Concluída a etapa de preparação da base de dados foi dado, início a etapa

de aplicação do algoritmo J48, o qual apresenta como resultado um texto de

informações relativas a classificação além da árvore de decisão. Os parâmetros do

algoritmo foram deixados como padrão (validação cruzada), como atributo meta foi

utilizado campo taxa de mortalidade infantil por grupos.

(37)

4 APRESENTAÇÃO DOS RESULTADOS

Nesta seção serão apresentados os resultados, estes serão divididos em três componentes estatísticos gerais, de estatística espacial e mineração de dados.

4.1 ESTATÍSTICA

Para os resultados estatísticos inicialmente foi apresentado as variáveis utilizando box-plots. Possibilitam sumarização dos dados e verificação de conglomerados significativos de dados e valores fora da curva, os chamados outliers, conforme Figura 5.

Figura 5 - Box-plot das variáveis de IDHM dimensões renda e educação

FONTE: O Autor (2019).

Observa-se que a maior quantidade de municípios da dimensão renda do

indicador de IDHM renda está acima da dimensão educação. A figura ainda apresenta

outliers especialmente abaixo do primeiro quartil. A variável IDHM na dimensão

educação apresentam 2 (dois) munícipios (Doutor Ulysses e de Cerro Azul) com seu

índice abaixo de 0,4, sendo os munícipios de. Apesar de seu índice pequeno o

município de Doutor Ulysses apresenta a taxa de mortalidade infantil do triênio

(38)

próxima a média nacional (10‰ contra 12,70‰), já o município que Cerro Azul possui uma elevada taxa de mortalidade infantil 34‰. Esta diferença de 24 pontos entre os municípios, pode revelar que este indicador não é um bom candidato a ser utilizado para descobrir padrões sobre mortalidade.

A seguir, a tabela 2 apresenta os descritos do quartil da variável cobertura de atenção básica a partir de sua agregação por ano e pelo triênio

Tabela 2 - Descritivo da variável cobertura de atenção básica e suas subdivisões

Valor

mínimo 1º quartil Mediana Média 3º quartil Valor máximo

Cobertura

Atenção Básica do triênio

29,25 88,82 99,06 92,18 100 100

Cobertura Atenção Básica 2014

25,70 87,56 99,68 91,25 100 100

Cobertura Atenção Básica 2015

20,02 89,12 100 92,61 100 100

Cobertura Atenção Básica 2016

32,66 88,65 100 92,69 100 100

Variância 8,42 0,46 0,20 0,44 100 100

FONTE: O Autor (2019).

Os registros de atenção básica conforme apresentam significativos outliers abaixo do primeiro quartil, não há grandes variações entre na média, mediana e primeiro quartil das variáveis apresentadas, com exceção do valor mínimo que apresenta a variância de 8,42 pontos.

A variável população apresentada na Tabela 3, demonstra significativa

variação entre a população dos municípios do estado do Paraná, o que pode indicar

perfis sociodemográficos distintos.

(39)

Tabela 3 - Descritivo da variável população

Valor

mínimo 1º quartil Mediana Média 3º quartil Valor máximo

1409 5037 9026 26177 17274 1751907

FONTE: O Autor (2019).

Já a Tabela 4 apresenta o descritivo do PIB (Produto Interno Bruto) dos munícipios. Demonstra da mesma forma que a variável população apresenta grande diferença entre o perfil produtivo dos munícipios do estado.

Tabela 4 - Descritivo do PIB

Valor

mínimo 1º quartil Mediana Média 3º quartil Valor máximo

19955 60335 120887 544586 262626 53106497

FONTE: O Autor (2019).

O PIB apresenta grande variabilidade dentre os munícipios do estado, tanto que há outliers significativos acima no terceiro quartil. Por fim, apresenta-se a Tabela 5 com as variáveis de adequação saneamento básico.

Tabela 5 - Descritivo das variáveis de adequação do saneamento básico

Valor

mínimo 1º quartil Mediana Média 3º quartil Valor máximo

Taxa de

saneamento adequado

0,240 4,975 22,525 29,302 46,767 96,020

Taxa de

saneamento semiadequado

2,97 37,53 54,89 54,34 74,06 96,43

Taxa de

saneamento inadequado

0,01 7,01 13,14 16,43 23,61 65,67

FONTE: O Autor (2019).

A seguir, é apresentado o box-plot (Figura 6) com os dados da mortalidade

infantil. É possível verificar que o indicador do triênio suaviza os outilers extremos

como acontece no ano de 2016.

(40)

Figura 6 - Boxplot mortalidade infantil 2014 a 2016 e triênio

FONTE: O Autor (2019).

Grande parte dos munícipios do estado do Paraná possuem sua taxa abaixo de 20 pontos, um valor próximo da média nacional. Porém, há algumas exceções, como o caso do munícipio Rancho Alegre D'Oeste que apresenta a taxa de mortalidade de 117‰ no ano de 2014.

A seguir, será utilizado o teste estatístico de Shapiro (Quadro 7) visando

verificar se os dados se aproximam de uma distribuição normal, conforme explicado

na seção de metodologia.

(41)

Quadro 7 - Teste estatístico de normalidade Shapiro-Wilk (p-valor com 5 casas decimais)

Variável p-valor Resultado do Teste

IDHM renda 0,02813

Aceita-se a hipótese nula

DHM educação 0

Atenção básica 0

Taxa de mortalidade infantil triênio 0

População 0

PIB 0

Saneamento adequado 0

Saneamento semiadequado 0

Saneamento inadequado 0

FONTE: O Autor (2019).

A partir do resultado do teste de normalidade, foi utilizado o teste de correlação Spearman, pois foi aceita a hipótese nula no teste de normalidade. A correlação foi realizada a partir da variável dependente taxa de mortalidade infantil, a partir de outras variáveis disponíveis, conforme quadro 8.

Quadro 8 - Correlação Spearman das variáveis com taxa de mortalidade infantil triênio Paraná

Variável Correlação p-valor Resultado

IDHM Renda -0,06348814 0,2057

Não existe correlação linear para esta

população (Pequeno)

IDHM Educação -0,03153197 0,5300

População 0,06265366 0,2117

PIB 0,06573179 0,1901

Saneamento Adequado

0,06174722 0,2190

Saneamento Semiadequado

0,05729965 0,2535

Saneamento inadequado

0,03101261 0,5368

FONTE: O Autor (2019).

A partir da correlação, é constado que apesar de existir certo grau de

correlação entre as variáveis e a taxa de mortalidade infantil, esta correlação é

(42)

pequena, portanto, adota-se a hipótese 𝑯

𝟎

, que tem como proposição a não existência existe correlação linear para variáveis testadas.

A seguir, foi utilizado a estatística espacial para verificar a relação espacial na taxa de mortalidade infantil.

4.2 ESTATÍSTICA ESPACIAL

Com a ferramenta Geoda foi gerado um box-map, nele visualiza-se nas cores mais escuras a taxa de mortalidade infantil mais elevada, (Figura 7), encontram-se principalmente na região centro e sudeste do estado do Paraná.

Figura 7 - Box-map da taxa de mortalidade infantil do Triênio

FONTE: O Autor (2019).

Verifica-se o agrupamento de municípios próximos em conglomerados dentro

do mesmo grupo classificado pelo mapa, em espacial ao grupo que apresenta a taxa

de mortalidade entre 11 e 15. Com a visão por ano, é possível descrever e visualizar

a dimensão temporal nas relações especiais de saúde do estado conforme Figura 8.

(43)

Figura 8 - Box-map da taxa de mortalidade infantil 2014-2016

FONTE: O Autor (2019).

Verifica-se que o perfil espacial ao longo do triênio é modificado, a região sul por exemplo, apresenta diminuição da taxa de mortalidade infantil, da mesma forma que a região sudeste.

4.3 MINERAÇÃO DE DADOS

Dentre as três aplicações definidas na metodologia, inicia-se a primeira com

a execução algoritmo J48 utilizando as seguintes variáveis: taxa de mortalidade infantil

do triênio (2014-2016), IDHM dimensão renda, IDHM dimensão escolaridade,

população (censo 2010), cobertura de atenção básica, produto interno bruto

municipal, taxa de adequação de saneamento, taxa de saneamento semi-adequado,

taxa de saneamento inadequado. Foi aplicado na base de forma integral (399

registros) e teve como tempo processamento do algoritmo de menos que um segundo,

e resultou na seguinte matriz de confusão:

(44)

Quadro 9 - Matriz de confusão atributo meta mortalidade infantil triênio (2014-2016) Classificado como

a b c d Valor de referência 60 78 8 0 a = GRUPO 2 53 113 9 1 b = GRUPO 1 23 44 8 0 c = GRUPO 3 0 2 0 0 d = GRUPO 4

FONTE: O Autor (2019).

O quadro apresenta os grupos e a respectiva classificação realizada pelo algoritmo, todos os municípios do grupo 4 (de 41,6670 a 117,6470) foram classificados incorretamente. Dos municípios do grupo 3 (16,6670 - 41,6670) apenas seis (6) dos municípios foram classificados corretamente, já o grupo 2 apenas 60 dos 146 municípios foram classificados corretamente. Por fim, o grupo 1 (0 - 10,5945) apresentou a maioria dos municípios (113 dos 176) classificados corretamente. O quadro 10 condessa o resultado da classificação em instâncias classificadas corretamente e as classificadas incorretamente.

Quadro 10 - Resultados da classificação do algoritmo J48 com atributo meta taxa de mortalidade infantil no Paraná (triênio)

Instâncias Registros Porcentagem (%) Classificadas corretamente 167 45,36 Classificadas incorretamente 232 54,64

FONTE: O Autor (2019).

Mais da metade (54,64) dos municípios foram classificados incorretamente.

Dentre as instâncias classificadas corretamente foram encontradas as regras, das

quais destacam-se a apresenta na Figura 9, as demais regras estão descritas no

apêndice.

(45)

Figura 9 - Recorte da árvore de decisão geradas partir do algoritmo J48 com atributo meta taxa de mortalidade infantil triênio

FONTE: O Autor (2019).

A adequação do saneamento revela-se como ponto de importância na criação de regras para municípios com mais de 17.240 habitantes. Pois, conforme diminui a taxa de saneamento adequado do município e aumenta a taxa de saneamento semiadequado, pode acarretar o aumento da taxa de mortalidade infantil.

A seguir, foi realizado o teste agrupando a taxa de mortalidade infantil por ano,

neste caso procura-se observar alterações sazonais em decorrência de fatores como

migração ou epidemias, por exemplo. Foram utilizadas as mesmas variáveis do

primeiro teste. A aplicação do algoritmo demorou menos de 1 (um) segundo em cada

um dos três testes e teve como resultado a classificação do Quadro 11.

Referências

Documentos relacionados

Não obstante a reconhecida necessidade desses serviços, tem-se observado graves falhas na gestão dos contratos de fornecimento de mão de obra terceirizada, bem

intitulado “O Plano de Desenvolvimento da Educação: razões, princípios e programas” (BRASIL, 2007d), o PDE tem a intenção de “ser mais do que a tradução..

[r]

Ressalta-se que mesmo que haja uma padronização (determinada por lei) e unidades com estrutura física ideal (física, material e humana), com base nos resultados da

2 Denominação fictícia dada às escolas vinculadas.. dificultam a efetiva recuperação da aprendizagem dos alunos, além de investigar os efeitos sobre o desempenho

A presente dissertação é desenvolvida no âmbito do Mestrado Profissional em Gestão e Avaliação da Educação (PPGP) do Centro de Políticas Públicas e Avaliação

Muito embora, no que diz respeito à visão global da evasão do sistema de ensino superior, o reingresso dos evadidos do BACH em graduações, dentro e fora da

Janaína Oliveira, que esteve presente em Ouagadougou nas últimas três edições do FESPACO (2011, 2013, 2015) e participou de todos os fóruns de debate promovidos