• Nenhum resultado encontrado

Indicador de saúde e ambiente para doenças de veiculação hídrica e seus efeitos na mortalidade infantil pós neonatal

N/A
N/A
Protected

Academic year: 2021

Share "Indicador de saúde e ambiente para doenças de veiculação hídrica e seus efeitos na mortalidade infantil pós neonatal"

Copied!
112
0
0

Texto

(1)

Indicador de sa´

ude e ambiente para doen¸

cas

de veicula¸

ao h´ıdrica e seus efeitos na

mortalidade infantil p´

os neonatal.

Niter´oi - RJ, Brasil 13 de Julho de 2018

(2)

Raphael Paes Pinto

Indicador de sa´

ude e ambiente para

doen¸

cas de veicula¸

ao h´ıdrica e seus

efeitos na mortalidade infantil p´

os

neonatal.

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientadora: Profa. Ludmilla da Silva Viana Jacobson

Niter´oi - RJ, Brasil 13 de Julho de 2018

(3)

Raphael Paes Pinto

Indicador de sa´

ude e ambiente para doen¸

cas

de veicula¸

ao h´ıdrica e seus efeitos na

mortalidade infantil p´

os neonatal.

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “Indi-cador de sa´ude e ambiente para doen¸cas de veicula¸c˜ao h´ıdrica e seus efeitos na mortalidade infantil p´os neonatal.”, defendida por Raphael Paes Pinto e aprovada em 13 de Julho de 2018, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Profa. Dra. Ludmilla da Silva Viana Jacobson Departamento de Estat´ıstica – UFF

Prof. Dr. Hugo Henrique Kegler dos Santos Departamento de Estat´ıstica – UFF

Profa. Dra. Jessica Quintanilha Kubrusly Departamento de Estat´ıstica – UFF

(4)

Bibliotecário responsável pela unidade: Carlos R. S. de Lima – CRB7 5531

P659 Pinto, Raphael Paes Pinto

Indicador de saúde e ambiente para doenças de veiculação hídrica e seus efeitos na mortalidade infantil pós neonatal / Raphael Paes Pinto. – Niterói, RJ: [s.n.], 2018.

112f.

Orientador: Profª. Drª. Ludmila da Silva Viana Jacobson

TCC ( Graduação de Bacharelado em Estatística) – Universidade Federal Fluminense, 2018.

1. Indicadores. 2. Mortalidade infantil. 3. Veiculação hídrica.I. Título.

(5)

O Brasil apresenta tendˆencia de decrescimento nas taxas de mortalidade infantil e de nascimento, por´em quando comparado aos pa´ıses desenvolvidos estas estat´ısticas s˜ao pre-ocupantes. Como a mortalidade infantil ´e o indicador mais utilizado para avaliar situa¸c˜oes socioeconˆomicas de uma determinada regi˜ao e pode ser desagregado em trˆes grupos (mor-talidade infantil neonatal precoce, mor(mor-talidade infantil neonatal tardia e mor(mor-talidade in-fantil p´os neonatal); foi de interesse para o presente trabalho a utiliza¸c˜ao da taxa de mortalidade infantil p´os neonatal (representada pelo n´umero de ´obitos infantis entre 28 dias e 1 ano de idade), uma vez que, quando comparada com a cria¸c˜ao de um indicador integrado de sa´ude e ambiente baseado nas doen¸cas de veicula¸c˜ao h´ıdrica, ambos indi-cadores podem ser avaliados devido a suas semelhan¸cas geogr´aficas, socioeconˆomicas e pelas condi¸c˜oes de infra-estrutura e saneamento habitacional. ´E importante ressaltar que apesar dos avan¸cos da globaliza¸c˜ao, muitas pessoas continuam em situa¸c˜oes insalubres pela ausˆencia ou ineficiˆencia de abastecimento de ´agua. Dessa forma o objetivo deste tra-balho ´e elaborar um indicador composto de sa´ude e ambiente para doen¸cas de veicula¸c˜ao h´ıdrica e avaliar sua associa¸c˜ao com a mortalidade infantil p´os neonatal. As unidades de observa¸c˜ao ser˜ao as microrregi˜oes do Brasil, definidas pelo Instituto Brasileiro de Geogra-fia e Estat´ıstica (IBGE). O indicador ser´a constru´ıdo a partir de dois m´etodos: (i) modelo FPEEE definido pela Organiza¸c˜ao Mundial de Sa´ude (OMS), no qual identifica indica-dores simples para cada um dos dom´ınios de for¸ca motriz, press˜ao, estado, exposi¸c˜ao e efeito na sa´ude, e agrega estes indicadores por meio de correla¸c˜ao e m´edia aritm´etica; (ii) o segundo m´etodo ser´a a An´alise Fatorial Explorat´oria. Os dois m´etodos ser˜ao compara-dos. Os resultados ser˜ao apresentados em mapas tem´aticos. Modelos de Regress˜ao ser˜ao estimados, tendo como vari´avel resposta a mortalidade infantil p´os neonatal, e a vari´avel explicativa ser´a o indicador composto. Todas as an´alises foram realizadas no programa estat´ıstico R, a partir do RStudio e Python, a partir do Spyder.

Palavras-chaves: Indicador; Veicula¸c˜ao H´ıdrica; Mortalidade Infantil; Mortalidade Neo-natal; Risco.

(6)

Dedico este trabalho a todas e todos LGBTQI+ que assim como eu, tem orgulho de ser quem ´e.

(7)

Agrade¸co,

Aos meus pais, Gleice e Guilherme por cada segundo de amor, torcida e apoio nas minhas escolhas. Meu amado irm˜ao Andr´e, que ap´os anos de conflitos hoje me ensina o significado de cumplicidade e claro o meu imenso carinho a minha cunhada L´ıdia, pelo carinho em todos os nossos momentos juntos.

Meu namorado Max, pelas lutas, vivˆencias e por construir comigo um amor doce em meio a um mundo ´acido. E seus pais, Alessandra e Odiley, por me permitirem ser parte da fam´ılia.

Minha av´o Maria do C´eu pelo amor de v´o e as melhores risadas com seu temperamento ´

unico. Ao meu avˆo paterno Oswaldo (in memoriam), pelas nossas longas conversas e seu jeito ´unico de demonstrar amor. Ao meu avˆo Natalino (in memoriam), que n˜ao pude conhecer, mas que de alguma forma esteve comigo e por ´ultimo ao sorriso mais lindo e a sua do¸cura de v´o, minha av´o materna Rosalina (in memoriam).

As minhas tias e tios pela torcida, pelo carinho e amor.

A minha madrinha e tia Ana Paula, pelas inesquec´ıveis lembran¸cas e ao Matheus, seu filho, que foi um presente que chegou quando tinha 10 anos. Te amo lind˜ao!

Minha prima Let´ıcia por ser mais que uma prima, ser uma irm˜a e por ser minha confidente. A minha prima Cynthia por expressar seu amor incondicional independente de qualquer limita¸c˜ao e por me ensinar a lidar com o que ´e dito como diferente.

As minhas primas Gabriella, Giovanna, Paloma, St´ephanie pelas melhores festas de fim de ano.

Ao meu afilhado Lucas, por me tornar um Dindo feliz. Te amo.

As minhas amigas B´arbara, La´ıs, Rafaela e Tha´ıssa pelos nossos longos anos de ami-zade, por serem minha fam´ılia e por termos lembran¸cas t˜ao doces. Sem esquecer do carinho a cada uma de suas fam´ılias.

(8)

A Camilinha, por ser a minha fofinha, a Marcinha pelo aconchego desse cora¸c˜ao de ouro e a Tayna, pelos nossos anos de companheirismo. Meu cora¸c˜ao ´e de vocˆes. E por fim, a Pethra, por ser um sol nos meus dias de chuva, obrigado.

Aos meus maravilhosos amigos da UFF, por tornarem meus dias de aula o melhor lugar para se estar. Amo cada um de vocˆes do fundo do meu cora¸c˜ao.

A Moradia Estudantil da UFF, por ser um lar quando precisei, aos amigos que fiz em especial a Alexandre, Dion´ısio, Eduardo, Marlon, Matheus, Mayane e Mayara por trazerem as cores que eu precisava na minha vida.

Ao meu segundo lar, Mans˜ao Sandra Godinho, que estava repleto dos cora¸c˜oes de Felipe, Isis, Jorge, Juliana e Nat´alia. Sem vocˆes eu n˜ao conseguiria evoluir em muitas etapas da minha vida, o meu cora¸c˜ao tamb´em ´e de vocˆes.

A Arya, Elis e Pandora por serem os melhores animais do mundo.

Ao Renato Cerceau, por acreditar em mim a cada segundo e a ANS - Agˆencia Nacional de Sa´ude Suplementar, por ser uma escola e uma casa.

A empresa MAiS pela oportunidade de estagiar e me descobrir quanto profissional. A Estante M´agica por ser minha nova casa e me mostrar que ser feliz e trabalhar ao mesmo tempo ´e poss´ıvel.

A Camila, Gabriel e Victor, amigos que fiz na MAiS e que eu guardo no cora¸c˜ao com muito carinho e amor.

Ao Departamento de Estat´ıstica da UFF e seu corpo docente, por me ensinarem at´e onde eu poderia chegar.

A UFF por tornar isso poss´ıvel.

A minha orientadora, Ludmilla, pelo exemplo de profissional e pelo carinho que teve comigo quando quis desistir. Obrigado, vocˆe ´e maravilhosa.

E por ´ultimo, a mim mesmo, por encontrar dentro de mim e em for¸cas externas, a luz para caminhar, aceitar o tempo que precisava e n˜ao desistir quando essa, foi a solu¸c˜ao mais pr´atica. Um salve ao meu processo cont´ınuo de evolu¸c˜ao.

(9)

Lista de Figuras Lista de Tabelas 1 Introdu¸c˜ao p. 15 2 Objetivos p. 18 2.0.1 Objetivos Espec´ıficos . . . p. 18 3 Materiais e M´etodos p. 19 3.1 M´etodos . . . p. 19 3.1.1 Constru¸c˜ao do Indicador Integrado de Sa´ude e Ambiente . . . . p. 19 3.1.1.1 M´etodo 1 - Correla¸c˜ao e M´edia Aritm´etica . . . p. 19 3.1.1.2 M´etodo 2 - An´alise Fatorial Explorat´oria . . . p. 20 Modelo Fatorial Ortogonal . . . p. 20 Estima¸c˜ao dos Parˆametros do Modelo Fatorial Ortogonal . . . . p. 26 M´etodo dos Componentes Principais . . . p. 28 Estima¸c˜ao dos Escores dos Fatores F . . . p. 33 3.1.2 An´alise Espacial do Indicador . . . p. 33 3.1.2.1 ´Indice de Moran Global . . . p. 34 3.1.3 An´alise de Mortalidade Infantil P´os-Neonatal . . . p. 36 3.1.3.1 Taxa de Mortalidade Infantil P´os-Neonatal . . . p. 36 3.1.3.2 Modelo de Regress˜ao Linear Simples . . . p. 38

(10)

Prova: . . . p. 39 MRLS em forma matricial . . . p. 41 Ajuste de Reta por M´ınimos Quadrados . . . p. 42 Estima¸c˜ao de M´ınimos Quadrados para o MRLS . . . p. 44 Coeficiente de Correla¸c˜ao . . . p. 49 Coeficiente de Determina¸c˜ao - R2 . . . p. 50 An´alise de Res´ıduos . . . p. 50 Interpreta¸c˜ao do RLS . . . p. 51 3.2 Material . . . p. 51

4 Resultados p. 53

4.1 Indicadores . . . p. 53 4.1.1 An´alise Explorat´oria do Indicador pela OMS . . . p. 53 4.1.2 Resultados da An´alise Fatorial Explorat´oria . . . p. 59 4.2 An´alise Espacial do Indicador . . . p. 66 4.3 Taxa de Mortalidade Infantil P´os Neonatal . . . p. 69 4.3.1 An´alise Explorat´oria . . . p. 69 4.3.2 Modelo de Regress˜ao . . . p. 73 4.3.3 An´alise de Sensibilidade . . . p. 75

5 Conclus˜ao p. 77

Referˆencias p. 79

Apˆendice A -- Doen¸cas selecionadas para a composi¸c˜ao do Indicador,

2015 p. 82

A . . . p. 82 B . . . p. 82

(11)

D . . . p. 83 E . . . p. 83 F . . . p. 84 G . . . p. 84 H . . . p. 84 I . . . p. 85 L . . . p. 86 M . . . p. 86 P . . . p. 86 S . . . p. 87 T . . . p. 87

Apˆendice B -- Microrregi˜oes do Brasil no ano de 2015 p. 88

Apˆendice C -- Ranking para os dez melhores e dez piores Microrregi˜oes

segundo os Indicadores Integrados de Sa´ude e Ambiente, 2015 p. 100

Apˆendice D -- Ranking para as dez melhores e dez piores Microrregi˜oes

segundo a Taxa de Mortalidade Infantil P´os Neonatal, 2015 p. 104

Apˆendice E -- Diagn´osticos dos Modelos p. 106

E.1 Modelos de Regress˜ao Simples . . . p. 106 E.2 An´alise de Sensibilidade: Modelos de Regress˜ao Simples . . . p. 109

(12)

1 Esquema explicativo do diagrama de Moran. (Retirado e Adaptado de

Campos et al, 2013 [27] . . . p. 36 2 Matriz de Correla¸c˜ao. Microrregi˜oes, 2015. . . p. 54 3 Primeiro Indicador Composto de Sa´ude e Ambiente para Doen¸cas de

Veicula¸c˜ao H´ıdrica. Microrregi˜oes, 2015. . . p. 55 4 Segundo Indicador Composto de Sa´ude e Ambiente para Doen¸cas de

Veicula¸c˜ao H´ıdrica. Microrregi˜oes, 2015. . . p. 56 5 Terceiro Indicador Composto de Sa´ude e Ambiente para Doen¸cas de

Vei-cula¸c˜ao H´ıdrica. Microrregi˜oes, 2015. . . p. 57 6 Scree plot. Microrregi˜oes, 2015. . . p. 60 7 PCA - Biplot. Microrregi˜oes, 2015. . . p. 61 8 Quarto Indicador Composto de Sa´ude e Ambiente para Doen¸cas de

Vei-cula¸c˜ao H´ıdrica. Microrregi˜oes, 2015. . . p. 65 9 Estratifica¸c˜ao dos Indicadores Integrados de Sa´ude e Ambiente, segundos

os resultados do Gr´afico de espelhamento de Moran (Box Map).

Micror-regi˜oes, 2015. . . p. 67 10 Estratifica¸c˜ao dos Indicadores Integrados de Sa´ude e Ambiente pautada

no resultado do Espelhamento de Moran com o Lisa Map. Microrregi˜oes,

2015. . . p. 68 11 Taxa de Mortalidade Infantil P´os Neonatal. Microrregi˜oes, 2015. . . p. 69 12 Histograma para Taxa de Mortalidade Infantil P´os Neonatal.

Micror-regi˜oes, 2015. . . p. 70 13 Boxplot para a Taxa de Mortalidade Infantil P´os Neonatal.

(13)

15 Gr´aficos de Dispers˜ao com a Regress˜ao Linear para cada Indicador.

Mi-crorregi˜oes, 2015. . . p. 74 16 An´alise de Sensibilidade: Gr´aficos de Dispers˜ao com a Regress˜ao Linear

para cada Indicador. Microrregi˜oes, 2015. . . p. 76 17 Diagn´ostico do Modelo de Regress˜ao Simples para o Indicador 1.

Mi-crorregi˜oes, 2015. . . p. 106 18 Diagn´ostico do Modelo de Regress˜ao Simples para o Indicador 2.

Mi-crorregi˜oes, 2015. . . p. 107 19 Diagn´ostico do Modelo de Regress˜ao Simples para o Indicador 3.

Mi-crorregi˜oes, 2015. . . p. 107 20 Diagn´ostico do Modelo de Regress˜ao Simples para o Indicador 4.

Mi-crorregi˜oes, 2015. . . p. 108 21 An´alise de Sensibilidade: Diagn´ostico do Modelo de Regress˜ao Simples

para o Indicador 1. Microrregi˜oes, 2015. . . p. 109 22 An´alise de Sensibilidade: Diagn´ostico do Modelo de Regress˜ao Simples

para o Indicador 2. Microrregi˜oes, 2015. . . p. 110 23 An´alise de Sensibilidade: Diagn´ostico do Modelo de Regress˜ao Simples

para o Indicador 3. Microrregi˜oes, 2015. . . p. 110 24 An´alise de Sensibilidade: Diagn´ostico do Modelo de Regress˜ao Simples

(14)

1 ANOVA . . . p. 49 2 Indicadores simples selecionados para a constru¸c˜ao do indicador

com-posto. Microrregi˜oes, 2015. . . p. 52 3 Indicadores criados a partir das correla¸c˜oes. Microrregi˜oes, 2015. . . p. 55 4 Resumo dos Indicadores Integrados de Sa´ude e Ambiente. Microrregi˜oes,

2015. . . p. 58 5 Resumo dos Componentes Principais. Microrregi˜oes, 2015. . . p. 59 6 Comunalidades. Microrregi˜oes, 2015. . . p. 62 7 Cargas Fatoriais Rotacionadas. Microrregi˜oes, 2015. . . p. 62 8 Cargas Fatoriais Rotacionadas e Comunalidades sem a Vari´avel PIB.

Microrregi˜oes, 2015. . . p. 63 9 Matriz W: Pesos Ponderados. Microrregi˜oes, 2015. . . p. 64 10 Resumo do Quarto Indicador Integrado de Sa´ude e Ambiente.

Micror-regi˜oes, 2015. . . p. 65 11 Autocorrela¸c˜ao Espacial. Microrregi˜oes, 2015. . . p. 66 12 Resumo da Taxa de Mortalidade Infantil P´os Neonatal. Microrregi˜oes,

2015. . . p. 70 13 Resultados dos Modelos de Regress˜ao Linear. Microrregi˜oes, 2015. . . . p. 73 14 An´alise de Sensibilidade: Resultados dos Modelos de Regress˜ao Linear.

Microrregi˜oes, 2015. . . p. 75 15 Dez melhores Microrregi˜oes segundo o Primeiro Indicador . . . p. 100 16 Dez piores Microrregi˜oes segundo o Primeiro Indicador . . . p. 101 17 Dez melhores Microrregi˜oes segundo o Segundo Indicador . . . p. 101

(15)

19 Dez melhores Microrregi˜oes segundo o Terceiro Indicador . . . p. 102 20 Dez piores Microrregi˜oes segundo o Terceiro Indicador . . . p. 102 21 Dez melhores Microrregi˜oes segundo o Quarto Indicador . . . p. 102 22 Dez piores Microrregi˜oes segundo o Quarto Indicador . . . p. 103 23 Dez melhores Microrregi˜oes segundo a Taxa de Mortalidade Inftantil P´os

Neonatal . . . p. 104 24 Dez piores Microrregi˜oes segundo a Taxa de Mortalidade Inftantil P´os

(16)

1

Introdu¸

ao

Os nascimentos no Brasil vem declinando de forma progressiva. Segundos dados do Minist´erio da Sa´ude [1] e do IBGE [2] em 2000 o n´umero de nascidos vivos para cada mil habitantes era de 20,3 e em 2011 esse n´umero decaiu para 15,6. Ao comparar as taxas de natalidade no Brasil com pa´ıses desenvolvidos, como por exemplo o Canad´a, pode-se observar uma grande diferen¸ca j´a que em 2011 os n´umeros eram de 4,9 a cada mil habitantes e no mesmo ano no Brasil os n´umeros foram trˆes vezes maiores (Santos, 2016)[3]. Por outro lado, o Brasil, em 2011, apresentou taxa de mortalidade infantil de 15,3 ´obitos por mil nascidos vivos (NV), atingindo uma das metas propostas nos Objetivos de Desenvolvimento de Milˆenio (ODM), na ´area de sa´ude materno infantil, cujo objetivo era reduzir a n´ıveis inferiores a 15,7 ´obitos por mil NV, at´e o ano de 2015 (Lansky et al., 2014) [4]. Ainda que as tendencias da mortalidade infantil e de nascimento no Brasil sejam de decrescimento, quando comparado aos pa´ıses desenvolvidos estas estat´ısticas s˜ao preocupantes.

A mortalidade infantil ´e o indicador de sa´ude mais usado para avaliar as condi¸c˜oes socioeconˆomicas de uma localidade. A taxa de mortalidade infantil considera os ´obitos infantis menores de um ano de idade. Este indicador pode ser desagregado em trˆes grupos, respeitando a faixa de idade, a saber: mortalidade infantil neonatal precoce (at´e 7 dias de vida); mortalidade infantil neonatal tardia (> 7 at´e 28); e mortalidade infantil p´os neonatal que compreende os ´obitos ocorridos com mais de 28 dias de idade at´e 365 dias.

Estudos indicam que a mortalidade infantil neonatal ´e determinada pelas condi¸c˜oes da gesta¸c˜ao e do parto, ou seja, est´a associada h´a idade gestacional at´e 36 semanas, relato de realiza¸c˜ao de menos de seis consultas de pr´e-natal, gesta¸c˜ao m´ultipla, parto vaginal e baixo peso ao nascer do rec´em-nascido. (Medronho, 2008) [5]

Por outro lado, a mortalidade infantil p´os neonatal ´e mais sens´ıvel aos fatores ambi-entais e sociais, particularmente associada `as condi¸c˜oes de infra-estrutura e saneamento habitacional e fatores nutricionais. Alguns exemplos s˜ao: necessidade de interna¸c˜ao do

(17)

rec´em-nascido ap´os a alta materna, gravidez indesejada, chefe de fam´ılia desempregado, irm˜ao < 2 anos e m˜ae sem companheiro (Baldin, 2008)[6]. Portanto, este indicador re-flete as condi¸c˜oes desfavor´aveis de vida da popula¸c˜ao, al´em das desigualdades regionais e socioeconˆomicas. (Medronho, 2008) [5]

Apesar da globaliza¸c˜ao, muitas popula¸c˜oes vivem em condi¸c˜oes de vida muito prec´arias, seja pela falta de ´agua pot´avel ou pela falta de saneamento b´asico e infraestrutura (Car-valheiro, 2015)[7]. Muitas das morbidades relacionadas `as condi¸c˜oes prec´arias, princi-palmente a falta da ´agua e saneamento, poderiam ser evitadas com pol´ıticas p´ublicas direcionadas. No Brasil, ainda que os indicadores de cobertura de ´agua encanada tenham mostrado aumento na propor¸c˜ao de pessoas com acesso a ´agua canalizada para um ou mais cˆomodos (Corvalan et al., 2014)[8], sabe-se que mesmo em ´areas urbanas existem locais que n˜ao recebem ´agua de rede de abastecimento p´ublica. A falta da ´agua pot´avel pode levar a diversas problem´aticas, tais como as doen¸cas de veicula¸c˜ao h´ıdrica.

As doen¸cas de veicula¸c˜ao h´ıdrica s˜ao aquelas: “[...] causadas por organismos ou ou-tros contaminantes disseminados diretamente por meio da ´agua [...]. A falta de ´agua tamb´em pode causar doen¸cas, pois, sua escassez impede uma higiene adequada. Incluem-se tamb´em na lista de doen¸cas de transmiss˜ao h´ıdrica, aquelas causadas por insetos que se desenvolvem na ´agua. S˜ao in´umeros os contaminantes: microrganismos, como bact´erias, v´ırus e parasitas, toxinas naturais, produtos qu´ımicos, agrot´oxicos, metais pe-sados, etc.”(Secretaria de Estado da Sa´ude de S˜ao Paulo - SES/SP, 2009)[9].

Diante disso, a vigilˆancia epidemiol´ogica tem um papel fundamental para conhecer a frequˆencia, os determinantes e a distribui¸c˜ao das doen¸cas de veicula¸c˜ao h´ıdrica, para assim propor ´areas de tratamento e preven¸c˜ao. Os indicadores de sa´ude, ambiente e sociais s˜ao ferramentas importantes para identifica¸c˜ao das ´areas de risco.

Neste contexto, a constru¸c˜ao de indicadores integrados de sa´ude e ambiente ´e uma necessidade para as pol´ıticas p´ublicas, visto que desempenham um papel importante na identifica¸c˜ao de problemas e tendˆencias socioambientais. Os indicadores integrados de sa´ude e ambiente revelam a condi¸c˜ao da sa´ude de uma popula¸c˜ao e sua rela¸c˜ao com o ambiente (Hacon et al., 2005)[10]. Esses indicadores s˜ao importantes para a gest˜ao e planejamento, j´a que evidenciam precariedades ambientais que podem ter alguma inter-ferˆencia na sa´ude da popula¸c˜ao local, ou seja, podem ser fatores de risco `a sa´ude humana. Nessa perspectiva, tais indicadores representam ferramentas de alerta para situa¸c˜oes de risco, assim como instrumentos auxiliares para monitoramento e defini¸c˜ao de estrat´egias para preven¸c˜ao de riscos.

(18)

Embora o Brasil tenha diminu´ıdo sua taxa de mortalidade infantil ao longo do tempo, considera-se que os n´ıveis atuais est˜ao muito abaixo do potencial do pa´ıs, uma vez que os ´obitos nesta faixa de idade podem ser evitados com melhorias nas condi¸c˜oes de vida locais. Dessa forma, vale investigar mais intensamente os fatores associados, em n´ıvel populacional mais desagregado como, por exemplo, microrregi˜oes do pa´ıs, especialmente os indicadores socioeconˆomicos e ambientais, a partir de indicadores integrados de sa´ude e ambiente, especificamente relacionados `as doen¸cas de veicula¸c˜ao h´ıdrica.

Este trabalho est´a organizado em cap´ıtulos: Introdu¸c˜ao; Objetivos, este cap´ıtulo descreve o objetivo geral e os espec´ıficos; Material e M´etodos, onde s˜ao apresentadas as t´ecnicas para a constru¸c˜ao do indicador integrado e avalia¸c˜ao da rela¸c˜ao com a mortalidade infantil p´os neonatal, assim como a descri¸c˜ao das vari´aveis de pesquisa e do banco de dados final; Resultados, est´a divido em se¸c˜oes de acordo com os objetivos espec´ıficos; e Conclus˜ao.

(19)

2

Objetivos

O objetivo principal deste trabalho ´e elaborar um indicador composto de sa´ude e ambiente para doen¸cas de veicula¸c˜ao h´ıdrica e avaliar sua associa¸c˜ao com a mortalidade infantil p´os neonatal.

2.0.1

Objetivos Espec´ıficos

ˆ Utilizar a metologia definida pela OMS para constru¸c˜ao de indicador composto de sa´ude e ambiente;

ˆ Comparar a metodologia definida pela OMS com a t´ecnica de an´alise fatorial; ˆ Avaliar espacialmente o indicador composto de sa´ude e ambiente;

ˆ Ajustar o modelo de regress˜ao linear para avaliar o efeito do indicador composto de sa´ude e ambiente na mortalidade infantil p´os-neonatal.

(20)

3

Materiais e M´

etodos

3.1

etodos

3.1.1

Constru¸

ao do Indicador Integrado de Sa´

ude e Ambiente

Nessa se¸c˜ao ser˜ao apresentados dois m´etodos de constru¸c˜ao para o Indicador Integrado de Sa´ude e Ambiente.

3.1.1.1 M´etodo 1 - Correla¸c˜ao e M´edia Aritm´etica

A metodologia a ser utilizada para a constru¸c˜ao de indicadores integrados ser´a base-ada no modelo FPEEEA (For¸ca Motriz - Press˜ao - Estado - Exposi¸c˜ao - Efeito - A¸c˜ao), proposto por Corval´an et al. (1997) e aplicado no projeto Geo-Sa´ude realizado em S˜ao Paulo (PNUMA, 2008)[11]. Segundo Hacon et al. (2005) [10], este modelo procura ”ex-plicar a maneira como as v´arias for¸cas condutoras do desenvolvimento econˆomico geram press˜oes que afetam o estado do meio ambiente e exp˜oem a popula¸c˜ao a riscos que podem afetar a sa´ude humana.”

O indicador de For¸ca Motriz determina a estrutura e dinˆamica do modelo de desen-volvimento s´ocio-econˆomico local; o indicador de Press˜ao determina as press˜oes sobre o ambiente; o indicador de Estado reflete a condi¸c˜ao ou estado do meio ambiente; o indica-dor de Exposi¸c˜ao baseia-se nas condi¸c˜oes diretas consideradas de risco para a popula¸c˜ao alvo; os indicadores de Efeitos `a Sa´ude determinam o grau do problema de sa´ude.

Para a elabora¸c˜ao dos indicadores, um conjunto de indicadores simples baseados em dados secund´arios dispon´ıveis em sistemas nacionais de informa¸c˜ao, como o SIH/SUS [1] e o IBGE [2], no per´ıodo de 2000 a 2010, ser´a selecionado para o estudo. A escolha final e defini¸c˜ao dos indicadores de FPEEE ser´a baseada nas correla¸c˜oes entre os indica-dores simples. Os indicaindica-dores que apresentarem correla¸c˜oes mais fortes e positivas com os demais indicadores definir˜ao a cadeia FPEEE. O indicador integrado ser´a calculado

(21)

atrav´es de m´edia aritm´etica entre os indicadores de FPEEE, devidamente padronizados. A padroniza¸c˜ao dos indicadores ser´a baseada na seguinte f´ormula 3.1:

Indicador padronizado (%) = (valor m´aximo - valor observado)

(valor m´aximo - valor m´ınimo) × 100. (3.1) E o Indicador Integrado ser´a:

Indicador Integrado = I1+ I2+ I3+ I4+ I5

5 , (3.2)

sendo Ip os indicadores simples padronizados e p = 1, . . . , 5 (um indicador para cada

dom´ınio da cadeia FPEEE).

3.1.1.2 M´etodo 2 - An´alise Fatorial Explorat´oria

A an´alise fatorial explorat´oria consiste, quando for poss´ıvel modelar, em explicar todas as covariˆancias ou correla¸c˜oes, utilizando algumas poucas vari´aveis n˜ao-observ´aveis ou latentes ou constructo, que s˜ao denominadas fatores comuns (Ferreira, 2008) [12]. Neste trabalho as vari´aveis n˜ao-observ´aveis representam os dom´ınios da cadeia FPEEE.

Modelo Fatorial Ortogonal

Considerando o vetor aleat´orio p-dimensional Y = [Y1, Y2, . . . , Yp]> com um vetor de

m´edias µ(p×1) e matriz de covariˆancias Σ(p×p), ent˜ao o modelo fatorial pode ser definido por

Y − µ = ΓF + ε, (3.3)

em que Γ = [γij] ´e uma matriz (p × m) de coeficientes conhecidos por cargas fatoriais de

posto m ≤ p, F ´e um vetor aleat´orio (m × 1) de fatores comuns latentes n˜ao observ´aveis e ε ´e um vetor (p × 1) de erros aleat´orios ou de fatores espec´ıficos. Os elementos γij da

matriz Γ representam as cargas fatoriais associadas ´e i-´esima vari´avel (Yi) e ao j-´esimo

fator (Fj).

(22)

Y1− µ1 = γ11F1+ γ12F2+ · · · + γ1mFm+ ε1 .. . ... ... ... ... ... Y1− µ1 = γi1F1+ γi2F2+ · · · + γimFm+ εi .. . ... ... ... ... ... Y1− µ1 = γp1F1+ γp2F2+ · · · + γpmFm+ εp.

Comumente, gera-se algumas suposi¸c˜oes adicionais a respeito dos fatores comuns, fatores espec´ıficos e vari´aveis, originais tais como E(Y) = µ, E(F) = E() = 0, Cov(F) = Im, Cov(Y) =P, Cov(ε) = Ψ e Cov(F, ε) = 0(m × p), sendo Ψ dada por

Ψ =        ψ1 0 · · · 0 0 ψ2 · · · 0 .. . ... . .. ... 0 0 · · · ψp        com ψi > 0, ∀i = 1, 2, . . . , p. `

A vista disso, pode-se notar que

Cov(Y) = Σ = E(Y − µ)(Y − µ)> = E(ΓF + )(ΓF + )> = E(ΓFF>Γ>) + E(ΓF>) + E(F>Γ>) + E(>) = ΓE(FF>)Γ>+ ΓE(Γ>) + E(F>)Γ>+ Ψ = ΓImΓ>+ Γ0m×p+ 0p×mΓ>+ Ψ,

resultando-se em

Σ = ΓΓ>+ Ψ. (3.4)

Dessa rela¸c˜ao podemos verificar que

Var(Yi) = σii = γ2i1+ γ 2 i2+ · · · + γ 2 im+ ψ1 (3.5) Cov(Yi, Yk) = σik = γi1γk1+ γi2γk2+ · · · + γimγkm.

(23)

Assim, como mencionado anteriormente, os fatores comuns e os fatores espec´ıficos s˜ao respons´aveis por explicar as variˆancias de cada vari´avel, j´a as covariˆancias s˜ao explicadas inteiramente pelos fatores comuns. Quando n˜ao ´e poss´ıvel determinar a decomposi¸c˜ao fatorial ou quando um m´etodo de decomposi¸c˜ao fatorial baseado na an´alise de componente principais. Dessa forma, os elementos da diagonal ΓΓT s˜ao nomeados de comunalidades ou variˆancias comuns e definidos por

h2i =

m

X

j=1

γij2 = γi12 + γi22 + · · · + γim2

, correspondente `a primeira parte dos fatores comuns n˜ao observ´aveis de uma divis˜ao do modelo fatorial em duas partes (Yi− µ1) = ci+ εi, onde a segunda parte titulada de parte

´

unica, relacionada aos fatores espec´ıficos. Defini-se a parte comum ci por

ci = γi1F1+ γi2F2+ · · · + γimFm.

Logo, a variˆancia da vari´avel aleat´oria Yi pode ser representada por

σii = h2i + ψi,

onde a variˆancia comum h2i ´e a representa¸c˜ao da variˆancia dessa vari´avel, explicada pelos fatores comuns, ou seja, descreve a variˆancia de ci e a variˆancia espec´ıfica ψi representa a

fra¸c˜ao explicada pelo i-´esimo fator espec´ıfico, isto ´e, a variˆancia de εi.

Determina-se a Cov(Y | F) tamb´em por

Cov(Y | F) = E[(Y − µ)(FT)] = E[(ΓF + ε)FT] = FE(FFT) + E(εFT) = ΓIm+ 0p×m,

resultando em

Cov(Y, F) = Γ.

As cargas fatoriais γij representam as covariˆancias entre a vari´avel Yi e o fator latente

comum Fj, por isso, a interpreta¸c˜ao do j-´esimo fator pode ser feita observando suas cargas

fatoriais γ1j, γ2j, . . . , γpj. Algumas vari´aveis do vetor Y, com grandes cargas de um fator,

(24)

fatorial tem como objetivo determinar as matrizes Γ, Ψ e os escores dos fatores comuns F.

´

E poss´ıvel expressar o modelo (3.3) como um modelo de regress˜ao, apresentado por Timm (2002) [13] como

E(Y|F = f ) = µ + Γf

Cov(Y|F = f ) = Ψ. (3.6)

Observa-se que dado F = f , o modelo (3.6) especializa-se em um modelo de regress˜ao, cuja covariˆancia condicional tem como diagonal Ψ. Deste modo, o vetor de fatores F ´e respons´avel por toda intercorrela¸c˜ao existente entre as vari´aveis e por todas as rela¸c˜oes lineares existentes entre os elementos de Y. Consequentemente, n˜ao existem correla¸c˜oes entre os elementos do vetor de vari´aveis Y e embora n˜ao haja correla¸c˜oes, as variˆancias condicionadas, s˜ao heterogˆeneas.

Analisando-se vari´aveis padronizadas Z = V−1/2(Y − µ), a matriz de covariˆancias ´e ρ. Para esse caso, o modelo fatorial (3.4) se torna

ρ = Γ?Γ?>+ Ψ?,

do qual que as cargas fatoriais γ?

ij s˜ao correla¸c˜oes e a equa¸c˜ao (3.18) se transforma em

Var(Zi) = 1 = γ?2i1+ γ ?2 i2+ · · · + γ ?2 im+ ψ ? i Cov(Zi, Yk) = ρik = γ?i1γ?k1+ γ?i2γ?k2+ · · · + γ?imγ?km.

Devido a cada vari´avel padronizada Zi ser igual `a unidade, ent˜ao

h?2i + ψi? = 1, em que h?2 i = Pm j=1γ ?2

ij, valor que representa o produto interno da i-´esima linha de

Γ? por ela mesma; entendida como a distˆancia quadr´atica entre o ponto coordenado no espa¸co m-dimensional, definido pela i-´esima linha de Γ?, e a origem no espa¸co dos fatores.

(25)

de reproduzir a mesma matriz de covariˆancias Σ. Como a estima¸c˜ao n˜ao ´e ´unica para os parˆametros do modelo, utiliza-se de forma favor´avel para uma melhor interpreta¸c˜ao dos fatores, os procedimentos de rota¸c˜ao fatorial.

Essa caracter´ıstica pode ser demonstrada utilizando uma transforma¸c˜ao ortogonal das cargas fatoriais e dos fatores do modelo (3.3), onde considera-se uma matriz (m × m) ortogonal T, ou seja, uma matriz para a qual T>T = TT> = I. Sejam as transforma¸c˜oes ortogonais

(

Γ∗ = ΓT

F∗ = T>F, (3.7)

´

e poss´ıvel reescrever o modelo fatorial (3.3) como

Y − µ = Γ∗F∗+ 

= ΓTT>F +  = ΓF + ,

e o modelo (3.17) pode ser reescrito por

Σ = Γ∗Γ∗>+ Ψ

= ΓTT>Γ>+ Ψ = ΓT>+ Ψ,

pois TT> = I.

As propriedades estat´ısticas permanecem as mesmas, para a matriz de covariˆancias Σ e para o novo fator F∗. Como mencionado anteriormente, a comunalidade da i-´esima vari´avel ´e obtida pelo produto interno da i-´esima linha de Γ por ela mesma. Seja γ∗>i a i-´esima linha de Γ∗, a comunalidade ´e dada por

h∗2i = γ∗>i γi∗.

(26)

h∗2i = γ∗>i γi∗ = γi>TT>γi

= γi>γi = h2i.

Com tal caracter´ıstica, as comunalidades n˜ao s˜ao alteradas pela transforma¸c˜ao orto-gonal, uma vez que, a transforma¸c˜ao realizada ´e uma transforma¸c˜ao ortogonal dos eixos fatoriais que n˜ao alteram as distˆancias quadr´aticas entre o ponto definido por γi e a origem

no plano fatorial original; e entre o ponto definido por γi∗ e a origem no plano fatorial obtido pela rota¸c˜ao.

Um m´etodo para avaliar se as vari´aveis s˜ao suficientemente correlacionadas ´e atrav´es teste de Barlett [14], que examina a matriz de correla¸c˜ao interna, e fornece a probabilidade estat´ıstica de que a matriz de correla¸c˜oes possui correla¸c˜oes, estatisticamente significativas entre pelo menos uma par de vari´aveis.

As hip´oteses s˜ao,

(

H0 : a matriz de correlacao da popula¸c˜ao ´e uma matriz identidade;

H1 : a matriz de correlacao da popula¸c˜ao nao ´e uma matriz identidade.

A Estat´ıstica de Teste foi criada no Software R [15], definida por: linhas = Tamanho da amostra

colunas = N´umero de vari´aveis Deter = Determinante da matriz1

corr=cor(base) Deter=det(corr)

cat("\n qobservado = ",qobs=-((linhas-1)-(2*colunas+5)/6)*log(abs(Deter)), "qTabelado = ",qchisq(0.95,df=colunas*(colunas-1)/2)).

Outro m´etodo para avaliar a adequaridade da analise fatorial ´e o ´Indice KMO (Kaiser-Meyer-Olkin) [14]. O m´etodo verifica se a matriz de correla¸c˜ao inversa ´e pr´oxima da matriz diagonal o que consiste em comparar os valores dos coeficientes de correla¸c˜ao linear observados, com os valores dos coeficientes de correla¸c˜ao parcial.

1O determinante pode ser definido como a fun¸ao que transforma os valores de uma matriz quadrada

em um n´umero real, associando uma matriz de ordem qualquer com um escalar, dependente do valor dos termos dessa matriz(Traduzido de Johnson, 2012)[16]

(27)

Dessa forma a fun¸c˜ao que calcula a matriz de correla¸c˜ao parcial foi criada no Software R, definida como: library("Rcmdr") partial.cor <- function (X, ...) { R <- cor(X, ...) RI <- solve(R) D <- 1/sqrt(diag(RI)) Rp <- -RI * (D %o% D) diag(Rp) <- 0

rownames(Rp) <- colnames(Rp) <- colnames(X) Rp

}.

A estat´ıstica KMO pode ser calculada atrav´es da fun¸c˜ao abaixo, tamb´em criada no Software R

idiag <- seq(1, by = colunas + 1, length = colunas) somar2 <- sum((as.numeric(corr)[-idiag])^2)

cat("\n KMO = ",somar2 / (somar2 + sum((as.numeric(matcorp)[-idiag])^2))).

Baseado na defini¸c˜ao de Hair et al (1987) [17] s˜ao aceit´aveis valores entre 0, 5 a 1, 0, para o KMO. Ou seja, valores abaixo de 0.5 indicam que a Analise Fatorial ´e inaceit´avel e quanto mais perto de 1 melhor adequa¸c˜ao de um ajuste.

Estima¸c˜ao dos Parˆametros do Modelo Fatorial Ortogonal

Os parˆametros do modelo fatorial s˜ao desconhecidos e carecem ser estimados a partir de uma amostra aleat´oria de tamanho n. O modelo fatorial faz sentido quando a matriz Σ difere de uma matriz diagonal ou a matriz de correla¸c˜oes ρ difere da matriz identidade I, uma vez que as vari´aveis aleat´orias s˜ao n˜ao-correlacionadas.

Para todos os casos que ser˜ao descritos abaixo, se assume que Y1, Y2, . . . , Yn s˜ao

vetores aleat´orios p-dimensionais amostrados de uma distribui¸c˜ao qualquer multivariada com m´edia µ e matriz de covariˆancias Σ. Para o caso particular do m´etodo da m´axima

(28)

verossimilhan¸ca assumisse o modelo normal multivariado para a distribui¸c˜ao do j-´esimo vetor aleat´orio Yj, j = 1, 2, . . . , n. Sendo poss´ıvel especificar os estimadores n˜ao-viesados

de µ e Σ, respectivamente por ¯ Y = Pn j=1Yj n e S = 1 n−1  Pn j=1YjY > j − (Pn j=1Yj)(Pnj=1Yj) > n  .

e o estimador de m´axima verosimilhan¸ca (viesado) de Σ por

Sn =

(n − 1)S

n .

Seguindo o racioc´ınio, para modelar a matriz de correla¸c˜ao, deve-se estimar ρ a partir da amostra aleat´oria dispon´ıvel. Seja para isso a matriz diagonal D1/2 dos estimadores dos desvios padr˜oes definida por

D1/2 =        √ S11 0 · · · 0 0 √S22 · · · 0 .. . ... . .. ... 0 0 · · · pSpp        ,

ent˜ao, o estimador de ρ ´e

R = D−1/2SD−1/2 = D−1/2n SnD−1/2n ,

sendo Dn, a matriz diagonal correspondente aos estimadores viesados das variˆancias

contidos na diagonal da matriz da matriz Sn. Concluindo que, praticamente n˜ao existem

diferen¸cas nos processos para se estimar ρ a partir de S ou de Sn.

Assumisse que n˜ao existe estimativa da matriz de covariˆancias espec´ıficas para o m´etodo dos componentes principais. Para a descri¸c˜ao a seguir, assumisse que o n´umero m de fatores ´e conhecido.

(29)

M´etodo dos Componentes Principais

O m´etodo dos componentes principais baseia-se na decomposi¸c˜ao espectral2 da matriz

Σ. Assim, utilizando os resultados do teorema a matriz Σ pode ser decomposta em

Σ = PΛP>= PΛ1/2ΛP>= ΓΓ>,

em que P = [e1, . . . , ep] representa a matriz constitu´ıda dos autovetores de Σ em suas

colunas e Λ = [λi] uma matriz diagonal (p × p) dos autovalores de Σ e Γ = PΛ1/2 ´e a

matriz das cargas fatoriais, dada por

Γ = PΛ1/2 =hpλ1e1,

p

λ2e2, . . . ,pλpep

i ,

sendo que as cargas do j-´esimo fator s˜ao dadas pelo j-´esimo autovetor ejde Σ multiplicado

pelo fator de escala √λj, para j = 1, 2, . . . , p, sendo λ1 > λ2 > . . . > λp.

Em fun¸c˜ao da matriz Σ ser reproduzida exclusivamente pelas cargas fatoriais, pos-suindo mais parˆametros do que os que determinam a matriz de covariˆancias populacional e ignorar os fatores espec´ıficos, esse modelo n˜ao ´e adequado; n˜ao possuindo utilidade pr´atica por considerar que o n´umero de fatores ´e igual ao n´umero de vari´aveis (m = p), perdendo a caracter´ıstica de ser parcimonioso, e por explicar toda a variabilidade apenas pelos fatores comuns. Para a constru¸c˜ao de um modelo parcimonioso, considera-se apenas m < p autovetores e os correspondentes m < p autovalores da matriz Σ, na qual o n´umero de fatores ´e menor do que o n´umero de vari´aveis. Por´em, esse modelo possui o problema onde a matriz Σ n˜ao ´e produzida fielmente. Para essa constru¸c˜ao, inicialmente definisse a matriz Γ = PmΛ1/2m = hp λ1e1, p λ2e2, . . . , p λmem i ,

em que Pm = [e1, . . . , em] ´e uma matriz p×m formada pelos primeiros m autovetores de Σ

em suas colunas e Λ1/2m = [

λi] ´e uma matriz diagonal m×m composta pela raiz quadrada

dos autovalores de Σ. Deste modo, a matriz Σ pode ser parcialmente representada por

2Express˜ao de uma matriz complexa normal A como U DU, onde U ´e unit´aria e D ´e diagonal; U pode

(30)

Σ ∼= ΓΓ>,

negligenciando a contribui¸c˜ao dos ´ultimos p − m autovalores e autovetores de Σ nesse modelo. A submatriz p × (p − m) de cargas, negligenciada, ´e dada por

[pλm+1em+1,

p

λm+2em+2, . . . ,pλpep].

Ocorre negligencia na contribui¸c˜ao dos fatores espec´ıficos da matriz Σ, podendo-se assim incorporar os fatores ao modelo na forma

Σ ∼= ΓΓ>+ Ψ, (3.8)

em que Ψ = diag(Σ − ΓΓ>), ou seja, ψi = σii−

Pm

j=1γij2, para i = 1, 2, . . . , p.

Conforme o modelo (3.8), ´e poss´ıvel verificar que a diagonal da matriz Σ ´e reproduzida por σii=

Pm

j=1γ

2

ij− ψi = h2i + ψi. Todavia, o modelo estruturado dessa forma, apresenta

deficiˆencias, uma vez que, as covariˆancias s˜ao reproduzidas parcialmente. A altera¸c˜ao do modelo (3.4), apresentada na express˜ao (3.8) possibilita a estima¸c˜ao das cargas fatoriais e das variˆancias espec´ıficas atrav´es do modelo mais simples dos componentes principais.

A come¸car pela amostra aleat´oria de tamanho n estimasse Σ utilizando S = bP bΛ bP> e o modelo amostral resultante ´e

S ∼= bΓbΓ>+ bΨ, (3.9) sendo b Γ = bPmΛb1/2m = q b λ1be1, q b λ2be2, . . . , q b λmbep  ,

em que bPm = [be1,be2, . . . ,bem] ´e uma matriz (p × x) formada pelos primeiros m autovetores de S em suas colunas e bΛ1/2m = q b λi  ´

(31)

quadrada dos autovalores de S e b Ψ = diagS − bΓbΓ> =        b ψ1 0 · · · 0 0 ψb2 · · · 0 .. . ... . .. ... 0 0 · · · ψbp        =        S11− bh21 0 · · · 0 0 S22− bh22 · · · 0 .. . ... . .. ... 0 0 · · · Spp− bh2p        =        S11− Pm j=1bγ 2 1j 0 · · · 0 0 S22−Pmj=1bγ 2 2j · · · 0 .. . ... . .. ... 0 0 · · · Spp− Pm j=1bγ 2 pj        .

Com base na decomposi¸c˜ao espectral de S exibisse os estimadores das cargas fatoriais e das variˆancias espec´ıficas e a partir das express˜oes anteriores, verifica-se que o estimador da i-´esima comunalidade ´e bh2i =Pm

j=1bγ

2

ij, para i = 1, 2, . . . , p. De modo igual as variˆancias

espec´ıficas s˜ao estimadas por bψi = Sii− bh2i. Para esse m´etodo as variˆancias amostrais s˜ao

reproduzidas integralmente, mas as covariˆancias s˜ao reproduzidas apenas parcialmente. O vetor (p × 1) conhecido porbγj correspondente a j-´esima coluna do estimador da matriz de

cargas fatoriais bΓ, ´e obtido porbγj =

q b

λjbej. Utilizando esse vetor, ´e poss´ıvel representar a soma dos quadrados da j-´esima coluna de bΓ por bγj>bγj, correspondente a

b γjbj = p X i=1 b γij2 = q b λ1jbe > j, q b λjbe > j = bλjbe > jbej = bλj,

uma vez quebe>jbej = 1.

A vari´avel da i-´esima vari´avel pode ser decomposta em

Sii = bh2i + bψi = m X j=1 b γij2 + bψi (3.10) = bγi12 +bγi22 + · · · +bγim2 + bψi.

Desta forma, considerasse a contribui¸c˜ao do j-´esimo fator comum para a variˆancia da i-´esima vari´avel, sendo estimada porbγ2

ij, como constatada na express˜ao (3.10). Somando

(32)

o estimador da sua contribui¸c˜ao para a variˆancia total tr(S) = S11+ S22+ . . . + Spp.

Assim, a variˆancia atribu´ıda ao j-´esimo fator comum ´e dada por

p

X

i=1

b

γij2 = bλj,

correspondente `a distˆancia quadr´atica determinada pelo ponto coordenado bγj em rela¸c˜ao

`

a origem no plano fatorial.

Consequentemente, ´e poss´ıvel esclarecer a varia¸c˜ao total atribu´ıda ao j-´esimo fator por

Pp i=1bγ 2 ij tr(S) = b λj tr(S).

Com base na decomposi¸c˜ao espectral, a matriz de covariˆancias S sendo ajustada considerando apenas as cargas fatoriais e n˜ao as variˆancias especificas, da forma S ∼= bΓbΓ>, obtˆem-se a matriz de res´ıduos, definida por

E∗ = S − bΓbΓ> = bP bΛ bP>− bPmΛbmPb>m.

Considerando a soma de quadrados dos elementos da matriz E∗, tˆem-se

tr(E∗>E∗) =  tr bP bΛ2Pb>  − 2trPbmΛb2m0Pb>m  + tr  b PmΛb2mPb>m  , na qual a matriz diagonal Λ2m0 ´e dada por

Λ2m0 = m p − m  Λ2 m 0  m, e Λ2

m×p= diag[bλi] ´e a matriz diagonal m × m dos autovalores para o modelo reduzido e

0 ´e uma matriz de zeros (p − m) × m. Sendo assim, utilizando a propriedade do tra¸co3

3O tra¸co (tr) de uma matriz quadrada de ordem n ´e a soma de todos os elementos da diagonal

(33)

dada por tr(AB) = tr(BA), simplificasse a express˜ao anterior por tr(E∗2) = p X i=1 b λ2i − 2 m X i=1 b λ2i + m X i=1 b λ2i = p X i=1 b λ2i − m X i=1 b λ2i = p X i=m+1 b λ2i.

Estimasse a matriz E∗2 como o desvio de um modelo fatorial contendo apenas os m fatores comuns, desprezando os fatores espec´ıficos. Por´em, no modelo (3.9) as variˆancias espec´ıficas s˜ao contempladas e a matriz de res´ıduos ´e especificada por:

E = S − ΓΓ>− Ψ.

A soma de quadrados dos res´ıduos estabelecida por tr(E2) possui limite superior, considerando as demonstra¸c˜oes anteriores e que E difere de E∗ pelo fato dos elementos da diagonal principal serem nulos em E, determinada por

tr(E2) = p X i=1 p X j=1 e2ij 6 p X i=m+1 b λ2i.

Deste modo, a quantidade ´e utilizada para avaliar a qualidade do ajuste do modelo, uma vez que, os res´ıduos sendo pequenos em m´odulos, os p − m ´ultimos autovalores s˜ao pequenos e a soma de quadrados, tamb´em ´e pequena. Assim sendo, quanto menor for a soma de quadrados dos ´ultimos p − m autovalores de S, melhor a qualidade do ajuste. O m´etodo dos componentes principais, avalia a qualidade do ajuste, sem o calculo do limite superior para a soma de quadrados do res´ıduo, onde calculasse diretamente e utilizasse esse crit´erio para validar o atributo do ajuste do modelo fatorial.

Segundo Reis (1997) [18] o crit´erio da porcentagem da variˆancia explicada est´a fun-damentado na conquista de um percentual cumulativo da variˆancia total extra´ıda por fatores sucessivos. O n´umero ´e determinado de modo que o conjunto de fatores explique uma porcentagem m´ınima da variabilidade global, de modo que se obtenha a significˆancia dos fatores. Para o presente trabalho pode-se estipular um n´ıvel de explica¸c˜ao de pelo menos 70% da variabilidade para ter uma explica¸c˜ao “razo´avel” e de 90% pra obter uma explica¸c˜ao considerada “´otima” do total dos dados.

(34)

Estima¸c˜ao dos Escores dos Fatores F

Segundo Lattin et al; (2010) [19] os escores s˜ao valores num´ericos para cada elemento amostral. Para cada elemento amostral k, k = 1, · · · , n, o seu escore no fator Fj, j =

1 · · · , m, ´e calculado como:

b

Fjk = Wj1Z1k+ Wj2Z2k+ · · · + WjpZpk, (3.11)

onde:

ˆ (Z1k, Z2k,...,Zpk s˜ao valores observados das vari´aveis padronizadas Zi para o k-´esimo

elemento amostral;

ˆ Wji, i = 1, . . . , p s˜ao os pesos de pondera¸c˜ao de cada vari´avel Zi no fator Fj.

´

E poss´ıvel obter Wji por 3 m´etodos, para o presente trabalho foi escolho o m´etodo

dos m´ınimos quadrados ponderados, descrito como:

ˆ

Fjk = ( ˆL0ψˆ−1L)ˆ −1Lˆ0ψˆ−1Zk= Wm×pZk (3.12)

Wm×p= ( ˆL0ψˆ−1L)ˆ −1Lˆ0ψˆ−1.

O indicador de sa´ude e ambiente ser´a a m´edia das vari´aveis latentes resultantes do modelo fatorial ortogonal estimado.

3.1.2

An´

alise Espacial do Indicador

A an´alise espacial pode ser definida como o estudo quantitativo dos fenˆomenos alo-cados no espa¸co e tem como objetivos descrever a distribui¸c˜ao espacial, os clusters4 es-paciais, verificar a existˆencia ou n˜ao existˆencia de processamentos espaciais e por fim a identifica¸c˜ao de observa¸c˜oes incomuns (outliers.) (Hadaad, 2006)[21].

Com o intuito de descrever e/ou explicar esses fenˆomenos, existem m´etodos que ex-plicam situa¸c˜oes onde disp˜oem-se de dados observados a partir de um certo sistema que

4Defini¸ao utilizada para formar grupos homogˆeneos atrav´es de medidas de proximidade, semelhan¸ca,

(35)

opera no espa¸co. Estes dados s˜ao dividios em trˆes categorias: dados padr˜ao de pontos, dados espacialmente cont´ınuos e dados de ´area.

Para o presente trabalho foi realizada a an´alise para dados de ´area, uma vez que, os dados est˜ao relacionados com mapas geogr´aficos. Com o intuito de verificar a existˆencia de dependˆencia espacial entre os dados calcula-se as medidas de autocorrela¸c˜ao espacial e autocorrela¸c˜ao local, onde mede-se a correla¸c˜ao para a mesma vari´avel. Para a verifica¸c˜ao proposta utilizou-se o ´Indice de Moran Global.

3.1.2.1 ´Indice de Moran Global

Proposto por Luc Anselin (1994) [22] o ´Indice de Moran Global ´e uma estat´ıstica afim de medir a existˆencia de autocorrela¸c˜ao espacial entre os vizinhos, ou seja, avalia a seme-lhan¸ca do indicador entre os vizinhos, e leva em considera¸c˜ao uma matriz de proximidade definida como matriz W5. Quanto mais pr´oximo de -1 ou 1, mais forte ´e a correla¸c˜ao.

Para facilitar a explica¸c˜ao do ´Indice de Moran Global, se faz necess´aria a defini¸c˜ao do ´Indice de Moran Local; definida como uma ferramenta estat´ıstica que possibilita avaliar

os outliers espaciais. Sua f´ormula ´e descrita como:

Ii = zi×

X

j

wij × zj. (3.13)

Onde:

ˆ wij ´e o valor na matriz de proximidade espacial para a regi˜ao i com a regi˜ao j em

fun¸c˜ao da distˆancia entre eles;

ˆ zi e zj s˜ao os desvios em rela¸c˜ao `a m´edia.

O ´Indice de Moran Local permite a interpreta¸c˜ao da indica¸c˜ao de n˜ao estacionariedade espacial (outliers) e a possibilidade de testar as hip´otese sobre interdependˆencia dos dados.

As hip´oteses s˜ao:

(

H0 : I = 0 ,existe independˆencia espacial entre os dados;

H1 : I 6= 0 ,existe dependˆencia espacial entre os dados.

5Uma matriz W (n×n) com elementos w

ijque representam uma medida de proximidade espacial entre

´

(36)

Por consequˆencia ´e poss´ıvel relacionar o ´Indice de Moran Local e o Global, que define o I global como: I = Pn i=1 Pn j=1wij(zi− z)(zj− z) Pn i=1(zi− z)2 . (3.14) Onde:

ˆ n ´e o n´umero de observa¸c˜oes;

ˆ zi e zj s˜ao os desvios em rela¸c˜ao `a m´edia;

ˆ z ´e o valor m´edio para a regi˜ao de estudo; ˆ P wij ´e a matriz de proximidade.

´

E de importˆancia ressaltar que para o c´alculo do ´Indice Global de Moran, ´e necess´ario determinar uma quantidade de k vizinhos. Essa quantidade ser´a determinado pela m´edia da contagem de vizinhos para cada microrregi˜ao.

Para visualiza¸c˜ao do presente trabalho, ser˜ao utilizadas t´ecnicas gr´aficas, tais como Box Map e Lisa Map que s˜ao baseadas no resultado do ´Indice de Moran Local e Gr´afico de Espalhamento de Moran (Rodrigues et al., 2008 [24]; Gon¸calves, 2007 [25]; Atanaka-Santos et al., 2007 [26]; Hadaad, 2006 [21])

Para a constru¸c˜ao do Box Map ´e necess´aria a classifica¸c˜ao dos objetos de estudo a partir do Gr´afico de Espalhamento de Moran, este gr´afico indica diferentes regimes espaciais nos dados e ´e descrito, de maneira espacial, como a rela¸c˜ao entre os valores do vetor de desvios (z) e os valores de m´edias locais (Wz). Por fim o Box Map ´e gerado

quando cada objeto ´e classificado conforme sua posi¸c˜ao em rela¸c˜ao aos quadrantes do gr´afico de espalhamento.

Os quadrantes podem ser visualizados na Figura 1 e descritos como

ˆ Q(+/+) = valores positivos, m´edias positivas;

ˆ Q(-/-) = valores negativos, m´edias negativas - regi˜oes (microrregi˜oes) com valor de atributo consider´avel, est˜ao cercados de regi˜oes com comportamento similar; ˆ Q(+/-) = valores positivos, m´edias negativas;

(37)

ˆ Q(-/+) = valores negativos, m´edias positivas - uma regi˜ao possui vizinhos com valores distintos.

Figura 1: Esquema explicativo do diagrama de Moran. (Retirado e Adaptado de Campos et al, 2013 [27]

Para a confec¸c˜ao do Lisa Map, a significˆancia dos valores do ´Indice de Moran Local obtido para cada objeto, ´e avaliada em rela¸c˜ao `a hip´otese nula de n˜ao existˆencia de autocorrela¸c˜ao espacial. Assim, os objetos s˜ao classificados em grupos: Q(+/+), Q(-/-), Q(+/-), Q(-/+) e N˜ao significativo.

3.1.3

An´

alise de Mortalidade Infantil P´

os-Neonatal

Mortalidade infantil refere-se aos ´obitos sucedidos ao longo do per´ıodo antes de se completar a idade de 1 ano. ´E usualmente medida pela taxa de mortalidade infantil. Podendo ser medida pela propor¸c˜ao de ´obitos de menores de um ano, com rela¸c˜ao ao total de ´obitos registrados em uma determinada ´area e per´ıodo. (Medronho, 2008) [5]

3.1.3.1 Taxa de Mortalidade Infantil P´os-Neonatal

A taxa de mortalidade infantil (TMI), pode ser similarmente chamada de coeficiente de mortalidade infantil. Para o estudo em quest˜ao, ser´a utilizado o termo TMI – Taxa de

(38)

Mortalidade Infantil.

A TMI ´e uma estimativa do risco de morte a que est´a exposta uma popula¸c˜ao de nascidos vivos em uma determinada ´area e per´ıodo, antes de 1 ano de vida completo. Como descrito anteriormente, a TMI relaciona os ´obitos de indiv´ıduos pertencentes a uma coorte 6 de nascidos vivos antes de completar um ano de vida; descrevendo-se como

uma estimativa direta do risco de morte ou “incidˆencia de morte” experimentado por uma coorte de nascidos vivos ao longo do primeiro ano de vida.

A equa¸c˜ao que representa a TMI est´a descrita abaixo (3.15)

TMI = N´umero de ´obitos de crian¸cas menores de um ano, da ´area A no per´ıodo P

N´umero de nascidos vivos da ´area A no per´ıodo P × 100.000. (3.15) Onde:

´

Area A = Microrregi˜oes do Brasil; Per´ıodo P = Ano de 2015.

O risco de morte varia ao longo do primeiro ano de vida, especialmente quando se considera as causas de ´obito e seus respectivos fatores determinantes. Por consequˆencia, a TMI, ´e subdividida em trˆes componentes, denominados, neonatal precoce, neonatal tardia e p´os-neonatal. Para o tema em quest˜ao ser´a utilizada a taxa de mortalidade infantil p´os-neonatal (TMIPN).

A TMIPN ´e uma estimativa do risco de morte associada a popula¸c˜ao de nascidos vivos em certa ´area e per´ıodo, desde os 28 dias de idade at´e um ano incompleto de vida. Sendo calculada pela f´ormula abaixo (3.16)

TMIPN = N´umero de ´obitos de 28 dias at´e um ano de vida, da ´area A no per´ıodo P

N´umero de nascidos vivos da ´area A no per´ıodo P × 1000. (3.16) Sendo:

´

Area A = Microrregi˜oes do Brasil; Per´ıodo P = Ano de 2015.

6Uma coorte ´e um grupo de pessoas que partilham algo em comum, como o mesmo ano de nascimento,

(39)

3.1.3.2 Modelo de Regress˜ao Linear Simples

Sendo Y uma vari´avel aleat´oria de interesse, diversas vezes denominada vari´avel res-posta, e seja X uma vari´avel aleat´oria que, para este estudo, ser´a denominada auxiliar ou regressora. O modelo de regress˜ao linear simples descreve a vari´avel Y como uma soma de quantidade determin´ıstica e uma quantidade aleat´oria. A parte determin´ıstica, uma reta em fun¸c˜ao de X, representa a informa¸c˜ao sobre Y que j´a pode ser “esperada”, apenas com o conhecimento pr´evio da vari´avel X. A parte aleat´oria, denominada erro, representa os in´umeros fatores que, conjuntamente, podem interferir em Y (Charnet, 1999) [28].

Pode-se interpretar que o erro provoca uma distor¸c˜ao sobre a parte determin´ıstica na defini¸c˜ao de Y . Supondo-se erros positivos ou negativos que possam ocorrer, tem-se que o erro possui esperan¸ca igual a zero. Nesse contexto, por suposi¸c˜ao, a vari´avel erro n˜ao depende do valor espec´ıfico de X.

Utilizando-se β0 e β1 para denotar os coeficientes da reta, , a vari´avel erro, σ2, a

variˆancia da vari´avel erro, e x, um valor espec´ıfico da vari´avel X, pode-se sintetizar o modelo de regress˜ao linear simples (MRLS) da seguinte forma:

Y = β0 + β1x + , (3.17)

onde:

β0, β1 e x : s˜ao constantes;

E[] = 0; Var[] = σ2.

Para o estudo, por suposi¸c˜ao, o modelo de probabilidade do erro ´e o modelo normal. Neste caso, podemos sumarizar o modelo de regress˜ao linear simples normal (MRLS) na forma:

Y = β0 + β1x + , (3.18)

onde:

β0, β1 e x : s˜ao constantes;

 ∼ N (0, σ2).

(40)

de normalidade do erro.

Resultado 1.1

A distribui¸c˜ao de probabilidade de Y , corresponde ao valor prefixado, x, de X, dada por:

Y ∼ N (β0+ β1x; σ2). (3.19)

Prova:

Perante o modelo de regress˜ao linear simples, Y ´e a soma de uma constante, β0 + β1x

com a vari´avel aleat´oria ε, de modelo N (0, σ2). Desta maneira, para o valor x de X, Y ´e normal com parˆametros:

E[Y |x] = E[β0+ β1x + ε] = E[β0+ β1x] + E[ε] = β0+ β1x + 0 = β0+ β1x. Var[Y |x] = Var[β0+ β1x + ε] = Var[β0+ β1x] + Var[ε] = 0 + σ2 = σ2. ⇒ Y ∼ N (β0+ β1x; σ2).  O Resultado 1.1 mostra que a esperan¸ca de Y , para X = x, ´e β0+ β1x. Desta forma,

pode-se interpretar o parˆametro β1 como a mudan¸ca esperada em Y , correspondente ao

aumento de uma unidade em X.

At´e o presente momento foi abordado o modelo de regress˜ao linear simples com a suposi¸c˜ao dos parˆametros conhecidos e as demais suposi¸c˜oes atendidas.

(41)

Deste ponto em diante tem-se como enfoque a inferˆencia estat´ıstica sobre o modelo. Ser´a apresentado o modelo amostral, correspondente ao modelo de regress˜ao linear sim-ples. Ou seja, ser´a discutida a obten¸c˜ao de uma amostra aleat´oria, que constituir´a a base para a estima¸c˜ao do modelo e, ap´os adequa¸c˜ao do modelo, as inferˆencias para a popula¸c˜ao geral. Nesse estudo ser´a tratado apenas a defini¸c˜ao da amostra, atrav´es da defini¸c˜ao do modelo de regress˜ao linear simples amostral. Denomina-se modelo de regress˜ao li-near simples amostral o conjunto de suposi¸c˜oes j´a apresentadas sob o modelo de regress˜ao linear simples, acrescido da suposi¸c˜ao sobre a rela¸c˜ao entre as unidades amostrais.

Pode-se considerar duas maneiras para obten¸c˜ao de uma amostra: valores de X, prefixados e para estes valores obten¸c˜ao de observa¸c˜oes independentes de Y , ou, obten¸c˜ao de uma amostra de (X, Y ). Em ambos os casos, existe uma amostra de tamanho n, sendo x1, x2, ..., xn os valores prefixados de X, ou os valores observados de X, e y1, y2, ..., yn os

correspondentes valores observados de Y .

Substanciando o modelo de regress˜ao linear simples amostral (MRLS - Amostral), temos: yi = β0+ β1xi+ i, (3.20) onde: β0, β1 e xi : s˜ao constantes; E[i] = 0; Var[i] = σ2; Cov[i, j] = 0 , i 6= j; i, j = 1, ..., n.

E, correspondendo ao modelo de regress˜ao linear simples quando o modelo de proba-bilidade de erro ´e o modelo normal, temos o modelo amostral abaixo:

Y = β0+ β1xi+ i, (3.21) onde: β0, β1 e xi : s˜ao constantes; E[i] ∼ N (0; σ2). Cov[i, j] = 0 , i 6= j; i, j = 1, ..., n.

(42)

Deste ponto em diante, o uso do modelo de regress˜ao linear simples amostral se d´a com a suposi¸c˜ao de normalidade do erro.

MRLS em forma matricial

Anteriormente foi visto que a amostra aleat´oria sob o modelo de regress˜ao linear ´e dada por: y1 = β0+ β1x1+ 1 y1 = β0+ β1x2+ 2 . . . yn= β0+ β1xn+ n i ∼ N (0; σ2) Cov[j, i] = 0, i 6= j; i, j = 1, ..., n, β0 e β1, constantes desconhecidas, x1, ..., xnconstantes conhecidas.

Expressa-se este modelo usando nota¸c˜ao matriarcal. Seguem os vetores:

y =        y1 y2 .. . yn        ,  =        1 2 .. . n        e β = " β0 β1 # . (3.22) E seja a matriz X: X =        1 x1 1 x2 .. . ... 1 xn        ,

denominada matriz do modelo. Ent˜ao,

Xβ +  =        1 x1 1 x2 .. . ... 1 xn        " β0 β1 # +        1 2 .. . n        =        β0+ β1x1+ 1 β0+ β1x2+ 2 .. . β0+ β1xn+ n        =        y1 y2 .. . yn        = y.

(43)

O vetor aleat´orio  ´e composto de vari´aveis independentes, com distribui¸c˜ao N (0; σ2). Assim sendo, o vetor de esperan¸cas dos elementos de  ´e o vetor nulo de dimens˜ao n e a matriz, cuja diagonal ´e formada pelas variˆancias e os demais elementos s˜ao as covariˆancias, conhecida por        σ2 0 0 · · · 0 0 σ2 0 · · · 0 .. . ... ... . .. ... 0 0 0 · · · σ2        = σ2I,

sendo I a matriz identidade de ordem n. Resumi-se o MRLS amostral pela forma:

y = Xβ + . (3.23)

onde: ∼ N (0; σ2I). (3.24)

Ajuste de Reta por M´ınimos Quadrados

O m´etodo de m´ınimos quadrados tem como objetivo solucionar a escolha de uma reta que melhor se ajuste a um conjunto de n pontos (x1, y1), (x2, y2), . . . , (xn, yn). Seja

y = a + bx a representa¸c˜ao de uma reta gen´erica, onde a e b s˜ao valores reais. O objetivo ´e encontrar o argumento m´ınimo da fun¸c˜ao 3.25, onde a ∈ < e b ∈ <.

O estimador ˆβ por m´ınimos quadrados ´e definido por:

ˆ β = argmin n X i=1 [yi − (a + bxi)]2 ! . (3.25)

Para encontrar esse argumento que minimiza a fun¸c˜ao ´e necess´ario obter as seguintes derivadas parciais: ∂ ∂a n X i=1 [yi− (a + bxi)]2, e ∂ ∂b n X i=1 [yi− (a + bxi)]2.

(44)

cr´ıticos7.

Denomina-se por ˆa e ˆb os valores que minimizam a fun¸c˜ao e obtˆem-se o sistema:

−2 n X i=1 [yi− (ˆa + ˆbxi)]2 = 0, −2 n X i=1 [yi− (ˆa + ˆbxi)]2xi = 0, ou ainda, n X i=1 yi− nˆa − ˆb n X i=1 xi = 0, (3.26) n X i=1 xiyi− ˆa n X i=1 xi− ˆb n X i=1 x2i = 0, (3.27)

denominado sistema de equa¸c˜oes normais. Pela equa¸c˜ao (3.26), obtˆem-se

nˆa = n X i=1 yi− ˆb n X i=1 xi ⇒ ˆa = 1 n n X i=1 yi− ˆb 1 n n X i=1 xi,

logo, substituindo na equa¸c˜ao (3.27), tˆem-se

n X i=1 xiyi− 1 n n X i=1 yi− ˆb 1 n n X i=1 xi ! n X i=1 xi− ˆb n X i=1 x2i = 0 ⇒ n X i=1 xiyi− 1 n n X i=1 yi n X i=1 xi+ ˆb 1 n n X i=1 xi !2 − ˆb n X i=1 x2i = 0 ⇒ ˆb = Pn i=1xiyi− 1 n Pn i=1yi Pn i=1xi Pn i=1x 2 i − n1 ( Pn i=1xi) .

7Ponto cr´ıtico ´e um ponto no dom´ınio de uma fun¸ao onde a primeira derivada ´e nula ou n˜ao ´e definida

(45)

E assim encontram-se ˆa e ˆb, pontos cr´ıticos da fun¸c˜ao 3.25. Esse ponto cr´ıtico n˜ao necessariamente ´e ponto de m´ınimo, como deseja-se, o mesmo pode ser tamb´em ponto de m´aximo ou inflex˜ao.

Por´em ´e poss´ıvel notar que n˜ao existe um ponto m´aximo para esta fun¸c˜ao, uma vez que, para qualquer reta que passe totalmente acima (ou abaixo) dos pontos, pode-se apontar outra reta cuja soma dos quadrados das diferen¸cas ´e ainda maior. Logo, o ponto extremo ´e ponto de m´ınimo.

Portanto, sejam ˆyi = ˆa + ˆbxi, para i = 1, . . . , n os valores da reta de m´ınimos

qua-drados, ajustada ao conjunto de n pontos (x1, y1), (x2, y2), . . . , (xn, yn). Chama-se de ˆyi a

estimativa da vari´avel resposta.

Desta forma, ´e poss´ıvel definir a fun¸c˜ao ˆyi = ˆa + ˆbxi substituindo ˆa por

Estima¸c˜ao de M´ınimos Quadrados para o MRLS

Os estimadores de m´ınimos quadrados para os parˆametros β0 e β1 s˜ao definidos

con-forme a solu¸c˜ao de m´ınimos quadrados, s˜ao eles

ˆ β0 = y − ˆβ1x, ˆ β1 = Pn i=1(yi− y)(xi− x) Pn i=1(xi− x)2 ou Pn i=1yi(xi− x) Pn i=1(xi− x)2 .

Pelo Resultado 1.1 sob o MRLS Y |x ∼ N (β0+ β1x; σ2), tˆem-se

yi ∼ N (β0+ β1x; σ2),

independentes para i = 1, . . . , n. Os estimadores ˆβ0 e ˆβ1 possuem distribui¸c˜ao normal por

serem combina¸c˜oes lineares de y1, . . . , yn.

(46)

E[ ˆβ1] = E  Pn i=1yi(xi− x) Pn i=1(xi− x)2  = Pn 1 i=1(xi− x) 2 n X i=1

(xi− x) E[yi], por linearidade da esperan¸ca

= 1 Pn i=1(xi− x) 2 n X i=1 (xi− x) (β0+ β1xi) = 1 Pn i=1(xi− x) 2      β0 n X i=1 (xi− x) | {z } 0 +β1 n X i=1 xi(xi− x)      = Pn β1 i=1xi(xi− x)2 n X i=1 xi(xi− x) = Pn β1 i=1xi(xi− x)2 n X i=1 (xi− x)(xi− x) = β1.

A esperan¸ca de ˆβ0, expressa em termos de ˆβ1, ´e

E[ ˆβ0] = E[y − ˆβ1x] = E[y] − xE[ ˆβ1] = 1 nE " n X i=1 yi # − xE[ ˆβ1] = 1 n n X i=1 (β0 + β1xi) − xβ1 = β0+ β1 Pn i=1xi n − xβ1 = β0.

Notasse que os estimadores de m´ınimos quadrados de ˆβ0 e ˆβ1 s˜ao n˜ao viciados.

(47)

Var[ ˆβ1] = Var  Pn i=1yi(xi − x Pn i=1(xi− x)2  = 1 [Pn i=1xi(xi− x)2] 2 n X i=1 Var(yi) | {z } σ2 (xi− x)2 = σ 2 [Pn i=1xi(xi− x)2] 2 n X i=1 (xi− x)2 = σ 2 Pn i=1(xi− x)2 . Var[ ˆβ0] = Var[y − ˆβ1x]

= Var[y] + Var[ ˆβ1x] − 2Cov[y, ˆβ1x]

= σ 2 n + x 2 σ 2 Pn i=1(xi− x)2 − 0 = σ2 1 n + x2 Pn i=1(xi− x)  .

Em conclus˜ao, obtˆem-se a covariˆancia entre ˆβ0 e ˆβ1

Cov[ ˆβ0, ˆβ1] = Cov[y − ˆβ1x, ˆβ1] = Cov[y, ˆβ1] + Cov[− ˆβ1, ˆβ1] = 0 − xVar[ ˆβ1] = −xσ 2 Pn i=1(xi − x)2 .

Assim, as distribui¸c˜oes de ˆβ0 e ˆβ1 s˜ao:

ˆ β0 ∼ N  β0; σ2  1 n + x2 Pn i=1(xi− x)2  , (3.28) e ˆ β1 ∼ N  β1; σ2 Pn i=1(xi− x)2  . (3.29)

(48)

Portanto ˆy ´e definido por:

ˆ

yi = ˆβ0+ ˆβ1xi. (3.30)

Necessita-se estimar a variˆancia do erro, σ2, que representa a distor¸c˜ao `a reta. O estimador de m´ınimos quadrados de σ2 ´e

ˆ σ2 = Pn i=1(yi− ˆyi) 2 n − 2

Este estimador ´e n˜ao viciado e, sob o modelo MRLS, (n − 2)ˆσ2

σ2 ∼ χ 2

(n−2). (3.31)

Logo, a variˆancia de ˆσ2 ´e

Var[ˆσ2] = 2(σ

2)2

n − 2.

A partir das distribui¸c˜oes em (3.28), (3.29) e (3.31), defini-se os intervalos de confian¸ca para os parˆametros, a contar da vari´avel dada em (3.31) e das seguintes quantidades pivotais: ˆ β0− β0 r ˆ σ2h1 n + x2 Pn i=1(xi−x)2 i ∼ t(n−2), ˆ β1− β1 r h ˆ σ2 Pn i=1(xi−x)2 i ∼ t(n−2). (3.32)

Os intervalos de confian¸ca (1 − α)100 para os parˆametros β0, β1 e σ2 s˜ao

respectiva-mente ˆ β0± t(α/2,n−2) s ˆ σ2 1 n + x2 Pn i=1(xi− x)2  ,

(49)

ˆ β1± t(α/2,n−2) s  ˆ σ2 Pn i=1(xi− x)2  , e " Pn i=1(yi− ˆyi) 2 χ2 (α/2,n−2) ; Pn i=1(yi− ˆyi) 2 χ2 (1−α/2,n−2) # .

Como primeira etapa na an´alise estat´ıstica, testa-se as hip´oteses: (

H0 : β1 = 0;

H1 : β1 6= 0.

que avaliam a contribui¸c˜ao da vari´avel regressora X para a explica¸c˜ao da vari´avel Y , uma vez que se H0 for verdadeira, essa contribui¸c˜ao n˜ao ´e significativa.

Considerando o MRLS e a distribui¸c˜ao em (3.32), sob H0, tˆem-se,

ˆ β1 r h ˆ σ2 Pn i=1(xi−x)2 i ∼ t(n−2). (3.33)

Em um teste de n´ıvel de significˆancia α rejeita-se H0, se a estat´ıstica de teste for maior que

t(α/2)(n−2). Em virtude da distribui¸c˜ao do quadrado da vari´avel aleat´oria com distribui¸c˜ao

t de Student com n graus de liberdade for uma vari´avel com distribui¸c˜ao F com 1 e n graus de liberdade, equivalentemente, rejeita-se H0, quando o quadrado da estat´ıstica em

(3.33), ˆ β12 ˆ σ2 Pn i=1(xi− x)2 = ˆ β2 1 Pn i=1(xi− x) 2 ˆ σ2 , (3.34)

for maior do que F(n−2)(α), o quantil (1 − α) de distribui¸c˜ao F com 1 e (n − 2) graus de

liberdade.

Nota-se que os testes realizados anteriormente comparam variˆancias, apesar do parˆametro testado fazer parte da defini¸c˜ao de esperan¸ca.

As quantidades necess´arias para calcular o valor observado da estat´ıstica de teste, s˜ao comumente dispostas na Tabela abaixo, denominada tabela de ANOVA.

Pela Tabela (1) tˆem-se: ˆ SQT → Pn

i=1(yi− y)2´e soma de quadrados total (ajustada), ou seja, representa¸c˜ao

(50)

Tabela 1: ANOVA Fonte GL SQ QM F0 (Fonte de varia¸c˜ao) (Graus de liberdade) (Soma de quadrados) (Quadrado m´edio)

Regress˜ao 1 SQReg SQReg SQReg

SQE/(n − 2)

Erro n − 2 SQE SQE/(n − 2)

Total n − 1 SQT

ˆ SQE → Pn

i=1(yi − ˆyi)

2 ´e soma de quadrados do erro, ou seja, representa¸c˜ao da

varia¸c˜ao total de Y em torno da reta; ˆ SQReg →

Pn

i=1(ˆyi− y)2 ´e soma de quadrados da regress˜ao, ou seja, representa¸c˜ao

das esperan¸cas de Y , dado x, em torno da sua m´edia.

Coeficiente de Correla¸c˜ao

Considerando duas vari´aveis aleat´orias X e Y com variˆancias σ2

xe σy2, respectivamente,

e covariˆancia Cov[X, Y ]. O coeficiente de correla¸c˜ao ´e definido por

ρ(X, Y ) = Cov[X, Y ] pσ2

xσy2

.

Composto pelo produto dos desvios padr˜oes das vari´aveis X e Y , o denominador de ρ(X, Y ), tem como objetivo padronizar; e assim tornar o coeficiente de correla¸c˜ao isento de unidades de medidas de X e Y . E por fim, medir a poss´ıvel rela¸c˜ao linear existente entre as vari´aveis aleat´orias X e Y , de forma que:

ˆ ρ(X, Y ) ´e sempre um valor entre -1 e 1;

ˆ quanto maior a tendˆencia de uma rela¸c˜ao linear positiva, ρ(X, Y ) tem valor mais pr´oximo de 1;

ˆ quanto maior a tendˆencia de uma rela¸c˜ao linear negativa, ρ(X, Y ) tem valor mais pr´oximo de -1;

(51)

Coeficiente de Determina¸c˜ao - R2

O coeficiente de determina¸c˜ao, R2, descrito abaixo, ´e a propor¸c˜ao da variabilidade

dos Y ’s observados, explicada por um modelo considerado.

R2 = SQReg SQT .

O valor de R2 ´e pertencente a um intervalo [0, 1] e, quanto mais pr´oximo de 1, melhor

o ajuste.

An´alise de Res´ıduos

Os res´ıduos de um modelo de regress˜ao, ´e definido por:

ei = yi− ˆyi,

onde: E[ei] = 0;

Var[ei] = Var(yi) + Var(ˆyi) − 2Cov(yi, ˆyi);

Cov(ei, ej) = σ2 h 1 −n1 − (xi−x)2 Pn i=1(xi−x)2 i , para i 6= j.

Algumas transforma¸c˜oes s˜ao propostas para os res´ıduos:

1. Res´ıduo padronizado:

Zi = √ eˆi V ar(ei)

,

onde σ2 ´e substitu´ıdo por ˆσ2.

2. Res´ıduo estudentizado:

Zi∗ = √ ei

ˆ V ar(ei)

,

onde ˆσ2´e substitu´ıdo por ˆσ2(i). Sendo ˆσ(i)2 definido como a soma de quadrados m´edios dos res´ıduos do modelo ajustado sem utilizar a i-´esima observa¸c˜ao.

Referências

Documentos relacionados

Embora acreditemos não ser esse o critério mais adequado para a seleção dos professores de Sociologia (ou de qualquer outra disciplina), cabe ressaltar que o Conselho

O objetivo deste artigo é justamente abordar uma metodologia alternativa para a elaboração de análises contábeis e financeiras, denominada de balanço perguntado e

of head black, extending to end of parietals and adjacent dorsal scales; lateral scales of head black with pale greenish yellow pigments above anterior (nasals and anterior

transientes de elevada periodicidade, cujos poros de fusão, de maior diâmetro, se mativeram abertos durante mais tempo. A expressão das quatro isoformas de HCN foi confirmada

Pinturas, depilatórios, unguentos mamilares, colorantes para o cabelo e até pomadas à base de vidro em pó (que, aparentemente, permitiam simular a virgindade) (Braunstein, 1990),

13 Além dos monômeros resinosos e dos fotoiniciadores, as partículas de carga também são fundamentais às propriedades mecânicas dos cimentos resinosos, pois

A mortalidade infantil é obviamente um problema de saúde pública e é utilizado como indicador do estado de reprodução de uma população. O baixo ganho ponderal foi

No final, os EUA viram a maioria das questões que tinham de ser resolvidas no sentido da criação de um tribunal que lhe fosse aceitável serem estabelecidas em sentido oposto, pelo