Indicador de sa´
ude e ambiente para doen¸
cas
de veicula¸
c˜
ao h´ıdrica e seus efeitos na
mortalidade infantil p´
os neonatal.
Niter´oi - RJ, Brasil 13 de Julho de 2018
Raphael Paes Pinto
Indicador de sa´
ude e ambiente para
doen¸
cas de veicula¸
c˜
ao h´ıdrica e seus
efeitos na mortalidade infantil p´
os
neonatal.
Trabalho de Conclus˜ao de Curso
Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.
Orientadora: Profa. Ludmilla da Silva Viana Jacobson
Niter´oi - RJ, Brasil 13 de Julho de 2018
Raphael Paes Pinto
Indicador de sa´
ude e ambiente para doen¸
cas
de veicula¸
c˜
ao h´ıdrica e seus efeitos na
mortalidade infantil p´
os neonatal.
Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “Indi-cador de sa´ude e ambiente para doen¸cas de veicula¸c˜ao h´ıdrica e seus efeitos na mortalidade infantil p´os neonatal.”, defendida por Raphael Paes Pinto e aprovada em 13 de Julho de 2018, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:
Profa. Dra. Ludmilla da Silva Viana Jacobson Departamento de Estat´ıstica – UFF
Prof. Dr. Hugo Henrique Kegler dos Santos Departamento de Estat´ıstica – UFF
Profa. Dra. Jessica Quintanilha Kubrusly Departamento de Estat´ıstica – UFF
Bibliotecário responsável pela unidade: Carlos R. S. de Lima – CRB7 5531
P659 Pinto, Raphael Paes Pinto
Indicador de saúde e ambiente para doenças de veiculação hídrica e seus efeitos na mortalidade infantil pós neonatal / Raphael Paes Pinto. – Niterói, RJ: [s.n.], 2018.
112f.
Orientador: Profª. Drª. Ludmila da Silva Viana Jacobson
TCC ( Graduação de Bacharelado em Estatística) – Universidade Federal Fluminense, 2018.
1. Indicadores. 2. Mortalidade infantil. 3. Veiculação hídrica.I. Título.
O Brasil apresenta tendˆencia de decrescimento nas taxas de mortalidade infantil e de nascimento, por´em quando comparado aos pa´ıses desenvolvidos estas estat´ısticas s˜ao pre-ocupantes. Como a mortalidade infantil ´e o indicador mais utilizado para avaliar situa¸c˜oes socioeconˆomicas de uma determinada regi˜ao e pode ser desagregado em trˆes grupos (mor-talidade infantil neonatal precoce, mor(mor-talidade infantil neonatal tardia e mor(mor-talidade in-fantil p´os neonatal); foi de interesse para o presente trabalho a utiliza¸c˜ao da taxa de mortalidade infantil p´os neonatal (representada pelo n´umero de ´obitos infantis entre 28 dias e 1 ano de idade), uma vez que, quando comparada com a cria¸c˜ao de um indicador integrado de sa´ude e ambiente baseado nas doen¸cas de veicula¸c˜ao h´ıdrica, ambos indi-cadores podem ser avaliados devido a suas semelhan¸cas geogr´aficas, socioeconˆomicas e pelas condi¸c˜oes de infra-estrutura e saneamento habitacional. ´E importante ressaltar que apesar dos avan¸cos da globaliza¸c˜ao, muitas pessoas continuam em situa¸c˜oes insalubres pela ausˆencia ou ineficiˆencia de abastecimento de ´agua. Dessa forma o objetivo deste tra-balho ´e elaborar um indicador composto de sa´ude e ambiente para doen¸cas de veicula¸c˜ao h´ıdrica e avaliar sua associa¸c˜ao com a mortalidade infantil p´os neonatal. As unidades de observa¸c˜ao ser˜ao as microrregi˜oes do Brasil, definidas pelo Instituto Brasileiro de Geogra-fia e Estat´ıstica (IBGE). O indicador ser´a constru´ıdo a partir de dois m´etodos: (i) modelo FPEEE definido pela Organiza¸c˜ao Mundial de Sa´ude (OMS), no qual identifica indica-dores simples para cada um dos dom´ınios de for¸ca motriz, press˜ao, estado, exposi¸c˜ao e efeito na sa´ude, e agrega estes indicadores por meio de correla¸c˜ao e m´edia aritm´etica; (ii) o segundo m´etodo ser´a a An´alise Fatorial Explorat´oria. Os dois m´etodos ser˜ao compara-dos. Os resultados ser˜ao apresentados em mapas tem´aticos. Modelos de Regress˜ao ser˜ao estimados, tendo como vari´avel resposta a mortalidade infantil p´os neonatal, e a vari´avel explicativa ser´a o indicador composto. Todas as an´alises foram realizadas no programa estat´ıstico R, a partir do RStudio e Python, a partir do Spyder.
Palavras-chaves: Indicador; Veicula¸c˜ao H´ıdrica; Mortalidade Infantil; Mortalidade Neo-natal; Risco.
Dedico este trabalho a todas e todos LGBTQI+ que assim como eu, tem orgulho de ser quem ´e.
Agrade¸co,
Aos meus pais, Gleice e Guilherme por cada segundo de amor, torcida e apoio nas minhas escolhas. Meu amado irm˜ao Andr´e, que ap´os anos de conflitos hoje me ensina o significado de cumplicidade e claro o meu imenso carinho a minha cunhada L´ıdia, pelo carinho em todos os nossos momentos juntos.
Meu namorado Max, pelas lutas, vivˆencias e por construir comigo um amor doce em meio a um mundo ´acido. E seus pais, Alessandra e Odiley, por me permitirem ser parte da fam´ılia.
Minha av´o Maria do C´eu pelo amor de v´o e as melhores risadas com seu temperamento ´
unico. Ao meu avˆo paterno Oswaldo (in memoriam), pelas nossas longas conversas e seu jeito ´unico de demonstrar amor. Ao meu avˆo Natalino (in memoriam), que n˜ao pude conhecer, mas que de alguma forma esteve comigo e por ´ultimo ao sorriso mais lindo e a sua do¸cura de v´o, minha av´o materna Rosalina (in memoriam).
As minhas tias e tios pela torcida, pelo carinho e amor.
A minha madrinha e tia Ana Paula, pelas inesquec´ıveis lembran¸cas e ao Matheus, seu filho, que foi um presente que chegou quando tinha 10 anos. Te amo lind˜ao!
Minha prima Let´ıcia por ser mais que uma prima, ser uma irm˜a e por ser minha confidente. A minha prima Cynthia por expressar seu amor incondicional independente de qualquer limita¸c˜ao e por me ensinar a lidar com o que ´e dito como diferente.
As minhas primas Gabriella, Giovanna, Paloma, St´ephanie pelas melhores festas de fim de ano.
Ao meu afilhado Lucas, por me tornar um Dindo feliz. Te amo.
As minhas amigas B´arbara, La´ıs, Rafaela e Tha´ıssa pelos nossos longos anos de ami-zade, por serem minha fam´ılia e por termos lembran¸cas t˜ao doces. Sem esquecer do carinho a cada uma de suas fam´ılias.
A Camilinha, por ser a minha fofinha, a Marcinha pelo aconchego desse cora¸c˜ao de ouro e a Tayna, pelos nossos anos de companheirismo. Meu cora¸c˜ao ´e de vocˆes. E por fim, a Pethra, por ser um sol nos meus dias de chuva, obrigado.
Aos meus maravilhosos amigos da UFF, por tornarem meus dias de aula o melhor lugar para se estar. Amo cada um de vocˆes do fundo do meu cora¸c˜ao.
A Moradia Estudantil da UFF, por ser um lar quando precisei, aos amigos que fiz em especial a Alexandre, Dion´ısio, Eduardo, Marlon, Matheus, Mayane e Mayara por trazerem as cores que eu precisava na minha vida.
Ao meu segundo lar, Mans˜ao Sandra Godinho, que estava repleto dos cora¸c˜oes de Felipe, Isis, Jorge, Juliana e Nat´alia. Sem vocˆes eu n˜ao conseguiria evoluir em muitas etapas da minha vida, o meu cora¸c˜ao tamb´em ´e de vocˆes.
A Arya, Elis e Pandora por serem os melhores animais do mundo.
Ao Renato Cerceau, por acreditar em mim a cada segundo e a ANS - Agˆencia Nacional de Sa´ude Suplementar, por ser uma escola e uma casa.
A empresa MAiS pela oportunidade de estagiar e me descobrir quanto profissional. A Estante M´agica por ser minha nova casa e me mostrar que ser feliz e trabalhar ao mesmo tempo ´e poss´ıvel.
A Camila, Gabriel e Victor, amigos que fiz na MAiS e que eu guardo no cora¸c˜ao com muito carinho e amor.
Ao Departamento de Estat´ıstica da UFF e seu corpo docente, por me ensinarem at´e onde eu poderia chegar.
A UFF por tornar isso poss´ıvel.
A minha orientadora, Ludmilla, pelo exemplo de profissional e pelo carinho que teve comigo quando quis desistir. Obrigado, vocˆe ´e maravilhosa.
E por ´ultimo, a mim mesmo, por encontrar dentro de mim e em for¸cas externas, a luz para caminhar, aceitar o tempo que precisava e n˜ao desistir quando essa, foi a solu¸c˜ao mais pr´atica. Um salve ao meu processo cont´ınuo de evolu¸c˜ao.
Lista de Figuras Lista de Tabelas 1 Introdu¸c˜ao p. 15 2 Objetivos p. 18 2.0.1 Objetivos Espec´ıficos . . . p. 18 3 Materiais e M´etodos p. 19 3.1 M´etodos . . . p. 19 3.1.1 Constru¸c˜ao do Indicador Integrado de Sa´ude e Ambiente . . . . p. 19 3.1.1.1 M´etodo 1 - Correla¸c˜ao e M´edia Aritm´etica . . . p. 19 3.1.1.2 M´etodo 2 - An´alise Fatorial Explorat´oria . . . p. 20 Modelo Fatorial Ortogonal . . . p. 20 Estima¸c˜ao dos Parˆametros do Modelo Fatorial Ortogonal . . . . p. 26 M´etodo dos Componentes Principais . . . p. 28 Estima¸c˜ao dos Escores dos Fatores F . . . p. 33 3.1.2 An´alise Espacial do Indicador . . . p. 33 3.1.2.1 ´Indice de Moran Global . . . p. 34 3.1.3 An´alise de Mortalidade Infantil P´os-Neonatal . . . p. 36 3.1.3.1 Taxa de Mortalidade Infantil P´os-Neonatal . . . p. 36 3.1.3.2 Modelo de Regress˜ao Linear Simples . . . p. 38
Prova: . . . p. 39 MRLS em forma matricial . . . p. 41 Ajuste de Reta por M´ınimos Quadrados . . . p. 42 Estima¸c˜ao de M´ınimos Quadrados para o MRLS . . . p. 44 Coeficiente de Correla¸c˜ao . . . p. 49 Coeficiente de Determina¸c˜ao - R2 . . . p. 50 An´alise de Res´ıduos . . . p. 50 Interpreta¸c˜ao do RLS . . . p. 51 3.2 Material . . . p. 51
4 Resultados p. 53
4.1 Indicadores . . . p. 53 4.1.1 An´alise Explorat´oria do Indicador pela OMS . . . p. 53 4.1.2 Resultados da An´alise Fatorial Explorat´oria . . . p. 59 4.2 An´alise Espacial do Indicador . . . p. 66 4.3 Taxa de Mortalidade Infantil P´os Neonatal . . . p. 69 4.3.1 An´alise Explorat´oria . . . p. 69 4.3.2 Modelo de Regress˜ao . . . p. 73 4.3.3 An´alise de Sensibilidade . . . p. 75
5 Conclus˜ao p. 77
Referˆencias p. 79
Apˆendice A -- Doen¸cas selecionadas para a composi¸c˜ao do Indicador,
2015 p. 82
A . . . p. 82 B . . . p. 82
D . . . p. 83 E . . . p. 83 F . . . p. 84 G . . . p. 84 H . . . p. 84 I . . . p. 85 L . . . p. 86 M . . . p. 86 P . . . p. 86 S . . . p. 87 T . . . p. 87
Apˆendice B -- Microrregi˜oes do Brasil no ano de 2015 p. 88
Apˆendice C -- Ranking para os dez melhores e dez piores Microrregi˜oes
segundo os Indicadores Integrados de Sa´ude e Ambiente, 2015 p. 100
Apˆendice D -- Ranking para as dez melhores e dez piores Microrregi˜oes
segundo a Taxa de Mortalidade Infantil P´os Neonatal, 2015 p. 104
Apˆendice E -- Diagn´osticos dos Modelos p. 106
E.1 Modelos de Regress˜ao Simples . . . p. 106 E.2 An´alise de Sensibilidade: Modelos de Regress˜ao Simples . . . p. 109
1 Esquema explicativo do diagrama de Moran. (Retirado e Adaptado de
Campos et al, 2013 [27] . . . p. 36 2 Matriz de Correla¸c˜ao. Microrregi˜oes, 2015. . . p. 54 3 Primeiro Indicador Composto de Sa´ude e Ambiente para Doen¸cas de
Veicula¸c˜ao H´ıdrica. Microrregi˜oes, 2015. . . p. 55 4 Segundo Indicador Composto de Sa´ude e Ambiente para Doen¸cas de
Veicula¸c˜ao H´ıdrica. Microrregi˜oes, 2015. . . p. 56 5 Terceiro Indicador Composto de Sa´ude e Ambiente para Doen¸cas de
Vei-cula¸c˜ao H´ıdrica. Microrregi˜oes, 2015. . . p. 57 6 Scree plot. Microrregi˜oes, 2015. . . p. 60 7 PCA - Biplot. Microrregi˜oes, 2015. . . p. 61 8 Quarto Indicador Composto de Sa´ude e Ambiente para Doen¸cas de
Vei-cula¸c˜ao H´ıdrica. Microrregi˜oes, 2015. . . p. 65 9 Estratifica¸c˜ao dos Indicadores Integrados de Sa´ude e Ambiente, segundos
os resultados do Gr´afico de espelhamento de Moran (Box Map).
Micror-regi˜oes, 2015. . . p. 67 10 Estratifica¸c˜ao dos Indicadores Integrados de Sa´ude e Ambiente pautada
no resultado do Espelhamento de Moran com o Lisa Map. Microrregi˜oes,
2015. . . p. 68 11 Taxa de Mortalidade Infantil P´os Neonatal. Microrregi˜oes, 2015. . . p. 69 12 Histograma para Taxa de Mortalidade Infantil P´os Neonatal.
Micror-regi˜oes, 2015. . . p. 70 13 Boxplot para a Taxa de Mortalidade Infantil P´os Neonatal.
15 Gr´aficos de Dispers˜ao com a Regress˜ao Linear para cada Indicador.
Mi-crorregi˜oes, 2015. . . p. 74 16 An´alise de Sensibilidade: Gr´aficos de Dispers˜ao com a Regress˜ao Linear
para cada Indicador. Microrregi˜oes, 2015. . . p. 76 17 Diagn´ostico do Modelo de Regress˜ao Simples para o Indicador 1.
Mi-crorregi˜oes, 2015. . . p. 106 18 Diagn´ostico do Modelo de Regress˜ao Simples para o Indicador 2.
Mi-crorregi˜oes, 2015. . . p. 107 19 Diagn´ostico do Modelo de Regress˜ao Simples para o Indicador 3.
Mi-crorregi˜oes, 2015. . . p. 107 20 Diagn´ostico do Modelo de Regress˜ao Simples para o Indicador 4.
Mi-crorregi˜oes, 2015. . . p. 108 21 An´alise de Sensibilidade: Diagn´ostico do Modelo de Regress˜ao Simples
para o Indicador 1. Microrregi˜oes, 2015. . . p. 109 22 An´alise de Sensibilidade: Diagn´ostico do Modelo de Regress˜ao Simples
para o Indicador 2. Microrregi˜oes, 2015. . . p. 110 23 An´alise de Sensibilidade: Diagn´ostico do Modelo de Regress˜ao Simples
para o Indicador 3. Microrregi˜oes, 2015. . . p. 110 24 An´alise de Sensibilidade: Diagn´ostico do Modelo de Regress˜ao Simples
1 ANOVA . . . p. 49 2 Indicadores simples selecionados para a constru¸c˜ao do indicador
com-posto. Microrregi˜oes, 2015. . . p. 52 3 Indicadores criados a partir das correla¸c˜oes. Microrregi˜oes, 2015. . . p. 55 4 Resumo dos Indicadores Integrados de Sa´ude e Ambiente. Microrregi˜oes,
2015. . . p. 58 5 Resumo dos Componentes Principais. Microrregi˜oes, 2015. . . p. 59 6 Comunalidades. Microrregi˜oes, 2015. . . p. 62 7 Cargas Fatoriais Rotacionadas. Microrregi˜oes, 2015. . . p. 62 8 Cargas Fatoriais Rotacionadas e Comunalidades sem a Vari´avel PIB.
Microrregi˜oes, 2015. . . p. 63 9 Matriz W: Pesos Ponderados. Microrregi˜oes, 2015. . . p. 64 10 Resumo do Quarto Indicador Integrado de Sa´ude e Ambiente.
Micror-regi˜oes, 2015. . . p. 65 11 Autocorrela¸c˜ao Espacial. Microrregi˜oes, 2015. . . p. 66 12 Resumo da Taxa de Mortalidade Infantil P´os Neonatal. Microrregi˜oes,
2015. . . p. 70 13 Resultados dos Modelos de Regress˜ao Linear. Microrregi˜oes, 2015. . . . p. 73 14 An´alise de Sensibilidade: Resultados dos Modelos de Regress˜ao Linear.
Microrregi˜oes, 2015. . . p. 75 15 Dez melhores Microrregi˜oes segundo o Primeiro Indicador . . . p. 100 16 Dez piores Microrregi˜oes segundo o Primeiro Indicador . . . p. 101 17 Dez melhores Microrregi˜oes segundo o Segundo Indicador . . . p. 101
19 Dez melhores Microrregi˜oes segundo o Terceiro Indicador . . . p. 102 20 Dez piores Microrregi˜oes segundo o Terceiro Indicador . . . p. 102 21 Dez melhores Microrregi˜oes segundo o Quarto Indicador . . . p. 102 22 Dez piores Microrregi˜oes segundo o Quarto Indicador . . . p. 103 23 Dez melhores Microrregi˜oes segundo a Taxa de Mortalidade Inftantil P´os
Neonatal . . . p. 104 24 Dez piores Microrregi˜oes segundo a Taxa de Mortalidade Inftantil P´os
1
Introdu¸
c˜
ao
Os nascimentos no Brasil vem declinando de forma progressiva. Segundos dados do Minist´erio da Sa´ude [1] e do IBGE [2] em 2000 o n´umero de nascidos vivos para cada mil habitantes era de 20,3 e em 2011 esse n´umero decaiu para 15,6. Ao comparar as taxas de natalidade no Brasil com pa´ıses desenvolvidos, como por exemplo o Canad´a, pode-se observar uma grande diferen¸ca j´a que em 2011 os n´umeros eram de 4,9 a cada mil habitantes e no mesmo ano no Brasil os n´umeros foram trˆes vezes maiores (Santos, 2016)[3]. Por outro lado, o Brasil, em 2011, apresentou taxa de mortalidade infantil de 15,3 ´obitos por mil nascidos vivos (NV), atingindo uma das metas propostas nos Objetivos de Desenvolvimento de Milˆenio (ODM), na ´area de sa´ude materno infantil, cujo objetivo era reduzir a n´ıveis inferiores a 15,7 ´obitos por mil NV, at´e o ano de 2015 (Lansky et al., 2014) [4]. Ainda que as tendencias da mortalidade infantil e de nascimento no Brasil sejam de decrescimento, quando comparado aos pa´ıses desenvolvidos estas estat´ısticas s˜ao preocupantes.
A mortalidade infantil ´e o indicador de sa´ude mais usado para avaliar as condi¸c˜oes socioeconˆomicas de uma localidade. A taxa de mortalidade infantil considera os ´obitos infantis menores de um ano de idade. Este indicador pode ser desagregado em trˆes grupos, respeitando a faixa de idade, a saber: mortalidade infantil neonatal precoce (at´e 7 dias de vida); mortalidade infantil neonatal tardia (> 7 at´e 28); e mortalidade infantil p´os neonatal que compreende os ´obitos ocorridos com mais de 28 dias de idade at´e 365 dias.
Estudos indicam que a mortalidade infantil neonatal ´e determinada pelas condi¸c˜oes da gesta¸c˜ao e do parto, ou seja, est´a associada h´a idade gestacional at´e 36 semanas, relato de realiza¸c˜ao de menos de seis consultas de pr´e-natal, gesta¸c˜ao m´ultipla, parto vaginal e baixo peso ao nascer do rec´em-nascido. (Medronho, 2008) [5]
Por outro lado, a mortalidade infantil p´os neonatal ´e mais sens´ıvel aos fatores ambi-entais e sociais, particularmente associada `as condi¸c˜oes de infra-estrutura e saneamento habitacional e fatores nutricionais. Alguns exemplos s˜ao: necessidade de interna¸c˜ao do
rec´em-nascido ap´os a alta materna, gravidez indesejada, chefe de fam´ılia desempregado, irm˜ao < 2 anos e m˜ae sem companheiro (Baldin, 2008)[6]. Portanto, este indicador re-flete as condi¸c˜oes desfavor´aveis de vida da popula¸c˜ao, al´em das desigualdades regionais e socioeconˆomicas. (Medronho, 2008) [5]
Apesar da globaliza¸c˜ao, muitas popula¸c˜oes vivem em condi¸c˜oes de vida muito prec´arias, seja pela falta de ´agua pot´avel ou pela falta de saneamento b´asico e infraestrutura (Car-valheiro, 2015)[7]. Muitas das morbidades relacionadas `as condi¸c˜oes prec´arias, princi-palmente a falta da ´agua e saneamento, poderiam ser evitadas com pol´ıticas p´ublicas direcionadas. No Brasil, ainda que os indicadores de cobertura de ´agua encanada tenham mostrado aumento na propor¸c˜ao de pessoas com acesso a ´agua canalizada para um ou mais cˆomodos (Corvalan et al., 2014)[8], sabe-se que mesmo em ´areas urbanas existem locais que n˜ao recebem ´agua de rede de abastecimento p´ublica. A falta da ´agua pot´avel pode levar a diversas problem´aticas, tais como as doen¸cas de veicula¸c˜ao h´ıdrica.
As doen¸cas de veicula¸c˜ao h´ıdrica s˜ao aquelas: “[...] causadas por organismos ou ou-tros contaminantes disseminados diretamente por meio da ´agua [...]. A falta de ´agua tamb´em pode causar doen¸cas, pois, sua escassez impede uma higiene adequada. Incluem-se tamb´em na lista de doen¸cas de transmiss˜ao h´ıdrica, aquelas causadas por insetos que se desenvolvem na ´agua. S˜ao in´umeros os contaminantes: microrganismos, como bact´erias, v´ırus e parasitas, toxinas naturais, produtos qu´ımicos, agrot´oxicos, metais pe-sados, etc.”(Secretaria de Estado da Sa´ude de S˜ao Paulo - SES/SP, 2009)[9].
Diante disso, a vigilˆancia epidemiol´ogica tem um papel fundamental para conhecer a frequˆencia, os determinantes e a distribui¸c˜ao das doen¸cas de veicula¸c˜ao h´ıdrica, para assim propor ´areas de tratamento e preven¸c˜ao. Os indicadores de sa´ude, ambiente e sociais s˜ao ferramentas importantes para identifica¸c˜ao das ´areas de risco.
Neste contexto, a constru¸c˜ao de indicadores integrados de sa´ude e ambiente ´e uma necessidade para as pol´ıticas p´ublicas, visto que desempenham um papel importante na identifica¸c˜ao de problemas e tendˆencias socioambientais. Os indicadores integrados de sa´ude e ambiente revelam a condi¸c˜ao da sa´ude de uma popula¸c˜ao e sua rela¸c˜ao com o ambiente (Hacon et al., 2005)[10]. Esses indicadores s˜ao importantes para a gest˜ao e planejamento, j´a que evidenciam precariedades ambientais que podem ter alguma inter-ferˆencia na sa´ude da popula¸c˜ao local, ou seja, podem ser fatores de risco `a sa´ude humana. Nessa perspectiva, tais indicadores representam ferramentas de alerta para situa¸c˜oes de risco, assim como instrumentos auxiliares para monitoramento e defini¸c˜ao de estrat´egias para preven¸c˜ao de riscos.
Embora o Brasil tenha diminu´ıdo sua taxa de mortalidade infantil ao longo do tempo, considera-se que os n´ıveis atuais est˜ao muito abaixo do potencial do pa´ıs, uma vez que os ´obitos nesta faixa de idade podem ser evitados com melhorias nas condi¸c˜oes de vida locais. Dessa forma, vale investigar mais intensamente os fatores associados, em n´ıvel populacional mais desagregado como, por exemplo, microrregi˜oes do pa´ıs, especialmente os indicadores socioeconˆomicos e ambientais, a partir de indicadores integrados de sa´ude e ambiente, especificamente relacionados `as doen¸cas de veicula¸c˜ao h´ıdrica.
Este trabalho est´a organizado em cap´ıtulos: Introdu¸c˜ao; Objetivos, este cap´ıtulo descreve o objetivo geral e os espec´ıficos; Material e M´etodos, onde s˜ao apresentadas as t´ecnicas para a constru¸c˜ao do indicador integrado e avalia¸c˜ao da rela¸c˜ao com a mortalidade infantil p´os neonatal, assim como a descri¸c˜ao das vari´aveis de pesquisa e do banco de dados final; Resultados, est´a divido em se¸c˜oes de acordo com os objetivos espec´ıficos; e Conclus˜ao.
2
Objetivos
O objetivo principal deste trabalho ´e elaborar um indicador composto de sa´ude e ambiente para doen¸cas de veicula¸c˜ao h´ıdrica e avaliar sua associa¸c˜ao com a mortalidade infantil p´os neonatal.
2.0.1
Objetivos Espec´ıficos
Utilizar a metologia definida pela OMS para constru¸c˜ao de indicador composto de sa´ude e ambiente;
Comparar a metodologia definida pela OMS com a t´ecnica de an´alise fatorial; Avaliar espacialmente o indicador composto de sa´ude e ambiente;
Ajustar o modelo de regress˜ao linear para avaliar o efeito do indicador composto de sa´ude e ambiente na mortalidade infantil p´os-neonatal.
3
Materiais e M´
etodos
3.1
M´
etodos
3.1.1
Constru¸
c˜
ao do Indicador Integrado de Sa´
ude e Ambiente
Nessa se¸c˜ao ser˜ao apresentados dois m´etodos de constru¸c˜ao para o Indicador Integrado de Sa´ude e Ambiente.
3.1.1.1 M´etodo 1 - Correla¸c˜ao e M´edia Aritm´etica
A metodologia a ser utilizada para a constru¸c˜ao de indicadores integrados ser´a base-ada no modelo FPEEEA (For¸ca Motriz - Press˜ao - Estado - Exposi¸c˜ao - Efeito - A¸c˜ao), proposto por Corval´an et al. (1997) e aplicado no projeto Geo-Sa´ude realizado em S˜ao Paulo (PNUMA, 2008)[11]. Segundo Hacon et al. (2005) [10], este modelo procura ”ex-plicar a maneira como as v´arias for¸cas condutoras do desenvolvimento econˆomico geram press˜oes que afetam o estado do meio ambiente e exp˜oem a popula¸c˜ao a riscos que podem afetar a sa´ude humana.”
O indicador de For¸ca Motriz determina a estrutura e dinˆamica do modelo de desen-volvimento s´ocio-econˆomico local; o indicador de Press˜ao determina as press˜oes sobre o ambiente; o indicador de Estado reflete a condi¸c˜ao ou estado do meio ambiente; o indica-dor de Exposi¸c˜ao baseia-se nas condi¸c˜oes diretas consideradas de risco para a popula¸c˜ao alvo; os indicadores de Efeitos `a Sa´ude determinam o grau do problema de sa´ude.
Para a elabora¸c˜ao dos indicadores, um conjunto de indicadores simples baseados em dados secund´arios dispon´ıveis em sistemas nacionais de informa¸c˜ao, como o SIH/SUS [1] e o IBGE [2], no per´ıodo de 2000 a 2010, ser´a selecionado para o estudo. A escolha final e defini¸c˜ao dos indicadores de FPEEE ser´a baseada nas correla¸c˜oes entre os indica-dores simples. Os indicaindica-dores que apresentarem correla¸c˜oes mais fortes e positivas com os demais indicadores definir˜ao a cadeia FPEEE. O indicador integrado ser´a calculado
atrav´es de m´edia aritm´etica entre os indicadores de FPEEE, devidamente padronizados. A padroniza¸c˜ao dos indicadores ser´a baseada na seguinte f´ormula 3.1:
Indicador padronizado (%) = (valor m´aximo - valor observado)
(valor m´aximo - valor m´ınimo) × 100. (3.1) E o Indicador Integrado ser´a:
Indicador Integrado = I1+ I2+ I3+ I4+ I5
5 , (3.2)
sendo Ip os indicadores simples padronizados e p = 1, . . . , 5 (um indicador para cada
dom´ınio da cadeia FPEEE).
3.1.1.2 M´etodo 2 - An´alise Fatorial Explorat´oria
A an´alise fatorial explorat´oria consiste, quando for poss´ıvel modelar, em explicar todas as covariˆancias ou correla¸c˜oes, utilizando algumas poucas vari´aveis n˜ao-observ´aveis ou latentes ou constructo, que s˜ao denominadas fatores comuns (Ferreira, 2008) [12]. Neste trabalho as vari´aveis n˜ao-observ´aveis representam os dom´ınios da cadeia FPEEE.
Modelo Fatorial Ortogonal
Considerando o vetor aleat´orio p-dimensional Y = [Y1, Y2, . . . , Yp]> com um vetor de
m´edias µ(p×1) e matriz de covariˆancias Σ(p×p), ent˜ao o modelo fatorial pode ser definido por
Y − µ = ΓF + ε, (3.3)
em que Γ = [γij] ´e uma matriz (p × m) de coeficientes conhecidos por cargas fatoriais de
posto m ≤ p, F ´e um vetor aleat´orio (m × 1) de fatores comuns latentes n˜ao observ´aveis e ε ´e um vetor (p × 1) de erros aleat´orios ou de fatores espec´ıficos. Os elementos γij da
matriz Γ representam as cargas fatoriais associadas ´e i-´esima vari´avel (Yi) e ao j-´esimo
fator (Fj).
Y1− µ1 = γ11F1+ γ12F2+ · · · + γ1mFm+ ε1 .. . ... ... ... ... ... Y1− µ1 = γi1F1+ γi2F2+ · · · + γimFm+ εi .. . ... ... ... ... ... Y1− µ1 = γp1F1+ γp2F2+ · · · + γpmFm+ εp.
Comumente, gera-se algumas suposi¸c˜oes adicionais a respeito dos fatores comuns, fatores espec´ıficos e vari´aveis, originais tais como E(Y) = µ, E(F) = E() = 0, Cov(F) = Im, Cov(Y) =P, Cov(ε) = Ψ e Cov(F, ε) = 0(m × p), sendo Ψ dada por
Ψ = ψ1 0 · · · 0 0 ψ2 · · · 0 .. . ... . .. ... 0 0 · · · ψp com ψi > 0, ∀i = 1, 2, . . . , p. `
A vista disso, pode-se notar que
Cov(Y) = Σ = E(Y − µ)(Y − µ)> = E(ΓF + )(ΓF + )> = E(ΓFF>Γ>) + E(ΓF>) + E(F>Γ>) + E(>) = ΓE(FF>)Γ>+ ΓE(Γ>) + E(F>)Γ>+ Ψ = ΓImΓ>+ Γ0m×p+ 0p×mΓ>+ Ψ,
resultando-se em
Σ = ΓΓ>+ Ψ. (3.4)
Dessa rela¸c˜ao podemos verificar que
Var(Yi) = σii = γ2i1+ γ 2 i2+ · · · + γ 2 im+ ψ1 (3.5) Cov(Yi, Yk) = σik = γi1γk1+ γi2γk2+ · · · + γimγkm.
Assim, como mencionado anteriormente, os fatores comuns e os fatores espec´ıficos s˜ao respons´aveis por explicar as variˆancias de cada vari´avel, j´a as covariˆancias s˜ao explicadas inteiramente pelos fatores comuns. Quando n˜ao ´e poss´ıvel determinar a decomposi¸c˜ao fatorial ou quando um m´etodo de decomposi¸c˜ao fatorial baseado na an´alise de componente principais. Dessa forma, os elementos da diagonal ΓΓT s˜ao nomeados de comunalidades ou variˆancias comuns e definidos por
h2i =
m
X
j=1
γij2 = γi12 + γi22 + · · · + γim2
, correspondente `a primeira parte dos fatores comuns n˜ao observ´aveis de uma divis˜ao do modelo fatorial em duas partes (Yi− µ1) = ci+ εi, onde a segunda parte titulada de parte
´
unica, relacionada aos fatores espec´ıficos. Defini-se a parte comum ci por
ci = γi1F1+ γi2F2+ · · · + γimFm.
Logo, a variˆancia da vari´avel aleat´oria Yi pode ser representada por
σii = h2i + ψi,
onde a variˆancia comum h2i ´e a representa¸c˜ao da variˆancia dessa vari´avel, explicada pelos fatores comuns, ou seja, descreve a variˆancia de ci e a variˆancia espec´ıfica ψi representa a
fra¸c˜ao explicada pelo i-´esimo fator espec´ıfico, isto ´e, a variˆancia de εi.
Determina-se a Cov(Y | F) tamb´em por
Cov(Y | F) = E[(Y − µ)(FT)] = E[(ΓF + ε)FT] = FE(FFT) + E(εFT) = ΓIm+ 0p×m,
resultando em
Cov(Y, F) = Γ.
As cargas fatoriais γij representam as covariˆancias entre a vari´avel Yi e o fator latente
comum Fj, por isso, a interpreta¸c˜ao do j-´esimo fator pode ser feita observando suas cargas
fatoriais γ1j, γ2j, . . . , γpj. Algumas vari´aveis do vetor Y, com grandes cargas de um fator,
fatorial tem como objetivo determinar as matrizes Γ, Ψ e os escores dos fatores comuns F.
´
E poss´ıvel expressar o modelo (3.3) como um modelo de regress˜ao, apresentado por Timm (2002) [13] como
E(Y|F = f ) = µ + Γf
Cov(Y|F = f ) = Ψ. (3.6)
Observa-se que dado F = f , o modelo (3.6) especializa-se em um modelo de regress˜ao, cuja covariˆancia condicional tem como diagonal Ψ. Deste modo, o vetor de fatores F ´e respons´avel por toda intercorrela¸c˜ao existente entre as vari´aveis e por todas as rela¸c˜oes lineares existentes entre os elementos de Y. Consequentemente, n˜ao existem correla¸c˜oes entre os elementos do vetor de vari´aveis Y e embora n˜ao haja correla¸c˜oes, as variˆancias condicionadas, s˜ao heterogˆeneas.
Analisando-se vari´aveis padronizadas Z = V−1/2(Y − µ), a matriz de covariˆancias ´e ρ. Para esse caso, o modelo fatorial (3.4) se torna
ρ = Γ?Γ?>+ Ψ?,
do qual que as cargas fatoriais γ?
ij s˜ao correla¸c˜oes e a equa¸c˜ao (3.18) se transforma em
Var(Zi) = 1 = γ?2i1+ γ ?2 i2+ · · · + γ ?2 im+ ψ ? i Cov(Zi, Yk) = ρik = γ?i1γ?k1+ γ?i2γ?k2+ · · · + γ?imγ?km.
Devido a cada vari´avel padronizada Zi ser igual `a unidade, ent˜ao
h?2i + ψi? = 1, em que h?2 i = Pm j=1γ ?2
ij, valor que representa o produto interno da i-´esima linha de
Γ? por ela mesma; entendida como a distˆancia quadr´atica entre o ponto coordenado no espa¸co m-dimensional, definido pela i-´esima linha de Γ?, e a origem no espa¸co dos fatores.
de reproduzir a mesma matriz de covariˆancias Σ. Como a estima¸c˜ao n˜ao ´e ´unica para os parˆametros do modelo, utiliza-se de forma favor´avel para uma melhor interpreta¸c˜ao dos fatores, os procedimentos de rota¸c˜ao fatorial.
Essa caracter´ıstica pode ser demonstrada utilizando uma transforma¸c˜ao ortogonal das cargas fatoriais e dos fatores do modelo (3.3), onde considera-se uma matriz (m × m) ortogonal T, ou seja, uma matriz para a qual T>T = TT> = I. Sejam as transforma¸c˜oes ortogonais
(
Γ∗ = ΓT
F∗ = T>F, (3.7)
´
e poss´ıvel reescrever o modelo fatorial (3.3) como
Y − µ = Γ∗F∗+
= ΓTT>F + = ΓF + ,
e o modelo (3.17) pode ser reescrito por
Σ = Γ∗Γ∗>+ Ψ
= ΓTT>Γ>+ Ψ = ΓT>+ Ψ,
pois TT> = I.
As propriedades estat´ısticas permanecem as mesmas, para a matriz de covariˆancias Σ e para o novo fator F∗. Como mencionado anteriormente, a comunalidade da i-´esima vari´avel ´e obtida pelo produto interno da i-´esima linha de Γ por ela mesma. Seja γ∗>i a i-´esima linha de Γ∗, a comunalidade ´e dada por
h∗2i = γ∗>i γi∗.
h∗2i = γ∗>i γi∗ = γi>TT>γi
= γi>γi = h2i.
Com tal caracter´ıstica, as comunalidades n˜ao s˜ao alteradas pela transforma¸c˜ao orto-gonal, uma vez que, a transforma¸c˜ao realizada ´e uma transforma¸c˜ao ortogonal dos eixos fatoriais que n˜ao alteram as distˆancias quadr´aticas entre o ponto definido por γi e a origem
no plano fatorial original; e entre o ponto definido por γi∗ e a origem no plano fatorial obtido pela rota¸c˜ao.
Um m´etodo para avaliar se as vari´aveis s˜ao suficientemente correlacionadas ´e atrav´es teste de Barlett [14], que examina a matriz de correla¸c˜ao interna, e fornece a probabilidade estat´ıstica de que a matriz de correla¸c˜oes possui correla¸c˜oes, estatisticamente significativas entre pelo menos uma par de vari´aveis.
As hip´oteses s˜ao,
(
H0 : a matriz de correlacao da popula¸c˜ao ´e uma matriz identidade;
H1 : a matriz de correlacao da popula¸c˜ao nao ´e uma matriz identidade.
A Estat´ıstica de Teste foi criada no Software R [15], definida por: linhas = Tamanho da amostra
colunas = N´umero de vari´aveis Deter = Determinante da matriz1
corr=cor(base) Deter=det(corr)
cat("\n qobservado = ",qobs=-((linhas-1)-(2*colunas+5)/6)*log(abs(Deter)), "qTabelado = ",qchisq(0.95,df=colunas*(colunas-1)/2)).
Outro m´etodo para avaliar a adequaridade da analise fatorial ´e o ´Indice KMO (Kaiser-Meyer-Olkin) [14]. O m´etodo verifica se a matriz de correla¸c˜ao inversa ´e pr´oxima da matriz diagonal o que consiste em comparar os valores dos coeficientes de correla¸c˜ao linear observados, com os valores dos coeficientes de correla¸c˜ao parcial.
1O determinante pode ser definido como a fun¸c˜ao que transforma os valores de uma matriz quadrada
em um n´umero real, associando uma matriz de ordem qualquer com um escalar, dependente do valor dos termos dessa matriz(Traduzido de Johnson, 2012)[16]
Dessa forma a fun¸c˜ao que calcula a matriz de correla¸c˜ao parcial foi criada no Software R, definida como: library("Rcmdr") partial.cor <- function (X, ...) { R <- cor(X, ...) RI <- solve(R) D <- 1/sqrt(diag(RI)) Rp <- -RI * (D %o% D) diag(Rp) <- 0
rownames(Rp) <- colnames(Rp) <- colnames(X) Rp
}.
A estat´ıstica KMO pode ser calculada atrav´es da fun¸c˜ao abaixo, tamb´em criada no Software R
idiag <- seq(1, by = colunas + 1, length = colunas) somar2 <- sum((as.numeric(corr)[-idiag])^2)
cat("\n KMO = ",somar2 / (somar2 + sum((as.numeric(matcorp)[-idiag])^2))).
Baseado na defini¸c˜ao de Hair et al (1987) [17] s˜ao aceit´aveis valores entre 0, 5 a 1, 0, para o KMO. Ou seja, valores abaixo de 0.5 indicam que a Analise Fatorial ´e inaceit´avel e quanto mais perto de 1 melhor adequa¸c˜ao de um ajuste.
Estima¸c˜ao dos Parˆametros do Modelo Fatorial Ortogonal
Os parˆametros do modelo fatorial s˜ao desconhecidos e carecem ser estimados a partir de uma amostra aleat´oria de tamanho n. O modelo fatorial faz sentido quando a matriz Σ difere de uma matriz diagonal ou a matriz de correla¸c˜oes ρ difere da matriz identidade I, uma vez que as vari´aveis aleat´orias s˜ao n˜ao-correlacionadas.
Para todos os casos que ser˜ao descritos abaixo, se assume que Y1, Y2, . . . , Yn s˜ao
vetores aleat´orios p-dimensionais amostrados de uma distribui¸c˜ao qualquer multivariada com m´edia µ e matriz de covariˆancias Σ. Para o caso particular do m´etodo da m´axima
verossimilhan¸ca assumisse o modelo normal multivariado para a distribui¸c˜ao do j-´esimo vetor aleat´orio Yj, j = 1, 2, . . . , n. Sendo poss´ıvel especificar os estimadores n˜ao-viesados
de µ e Σ, respectivamente por ¯ Y = Pn j=1Yj n e S = 1 n−1 Pn j=1YjY > j − (Pn j=1Yj)(Pnj=1Yj) > n .
e o estimador de m´axima verosimilhan¸ca (viesado) de Σ por
Sn =
(n − 1)S
n .
Seguindo o racioc´ınio, para modelar a matriz de correla¸c˜ao, deve-se estimar ρ a partir da amostra aleat´oria dispon´ıvel. Seja para isso a matriz diagonal D1/2 dos estimadores dos desvios padr˜oes definida por
D1/2 = √ S11 0 · · · 0 0 √S22 · · · 0 .. . ... . .. ... 0 0 · · · pSpp ,
ent˜ao, o estimador de ρ ´e
R = D−1/2SD−1/2 = D−1/2n SnD−1/2n ,
sendo Dn, a matriz diagonal correspondente aos estimadores viesados das variˆancias
contidos na diagonal da matriz da matriz Sn. Concluindo que, praticamente n˜ao existem
diferen¸cas nos processos para se estimar ρ a partir de S ou de Sn.
Assumisse que n˜ao existe estimativa da matriz de covariˆancias espec´ıficas para o m´etodo dos componentes principais. Para a descri¸c˜ao a seguir, assumisse que o n´umero m de fatores ´e conhecido.
M´etodo dos Componentes Principais
O m´etodo dos componentes principais baseia-se na decomposi¸c˜ao espectral2 da matriz
Σ. Assim, utilizando os resultados do teorema a matriz Σ pode ser decomposta em
Σ = PΛP>= PΛ1/2ΛP>= ΓΓ>,
em que P = [e1, . . . , ep] representa a matriz constitu´ıda dos autovetores de Σ em suas
colunas e Λ = [λi] uma matriz diagonal (p × p) dos autovalores de Σ e Γ = PΛ1/2 ´e a
matriz das cargas fatoriais, dada por
Γ = PΛ1/2 =hpλ1e1,
p
λ2e2, . . . ,pλpep
i ,
sendo que as cargas do j-´esimo fator s˜ao dadas pelo j-´esimo autovetor ejde Σ multiplicado
pelo fator de escala √λj, para j = 1, 2, . . . , p, sendo λ1 > λ2 > . . . > λp.
Em fun¸c˜ao da matriz Σ ser reproduzida exclusivamente pelas cargas fatoriais, pos-suindo mais parˆametros do que os que determinam a matriz de covariˆancias populacional e ignorar os fatores espec´ıficos, esse modelo n˜ao ´e adequado; n˜ao possuindo utilidade pr´atica por considerar que o n´umero de fatores ´e igual ao n´umero de vari´aveis (m = p), perdendo a caracter´ıstica de ser parcimonioso, e por explicar toda a variabilidade apenas pelos fatores comuns. Para a constru¸c˜ao de um modelo parcimonioso, considera-se apenas m < p autovetores e os correspondentes m < p autovalores da matriz Σ, na qual o n´umero de fatores ´e menor do que o n´umero de vari´aveis. Por´em, esse modelo possui o problema onde a matriz Σ n˜ao ´e produzida fielmente. Para essa constru¸c˜ao, inicialmente definisse a matriz Γ = PmΛ1/2m = hp λ1e1, p λ2e2, . . . , p λmem i ,
em que Pm = [e1, . . . , em] ´e uma matriz p×m formada pelos primeiros m autovetores de Σ
em suas colunas e Λ1/2m = [
√
λi] ´e uma matriz diagonal m×m composta pela raiz quadrada
dos autovalores de Σ. Deste modo, a matriz Σ pode ser parcialmente representada por
2Express˜ao de uma matriz complexa normal A como U DU∗, onde U ´e unit´aria e D ´e diagonal; U pode
Σ ∼= ΓΓ>,
negligenciando a contribui¸c˜ao dos ´ultimos p − m autovalores e autovetores de Σ nesse modelo. A submatriz p × (p − m) de cargas, negligenciada, ´e dada por
[pλm+1em+1,
p
λm+2em+2, . . . ,pλpep].
Ocorre negligencia na contribui¸c˜ao dos fatores espec´ıficos da matriz Σ, podendo-se assim incorporar os fatores ao modelo na forma
Σ ∼= ΓΓ>+ Ψ, (3.8)
em que Ψ = diag(Σ − ΓΓ>), ou seja, ψi = σii−
Pm
j=1γij2, para i = 1, 2, . . . , p.
Conforme o modelo (3.8), ´e poss´ıvel verificar que a diagonal da matriz Σ ´e reproduzida por σii=
Pm
j=1γ
2
ij− ψi = h2i + ψi. Todavia, o modelo estruturado dessa forma, apresenta
deficiˆencias, uma vez que, as covariˆancias s˜ao reproduzidas parcialmente. A altera¸c˜ao do modelo (3.4), apresentada na express˜ao (3.8) possibilita a estima¸c˜ao das cargas fatoriais e das variˆancias espec´ıficas atrav´es do modelo mais simples dos componentes principais.
A come¸car pela amostra aleat´oria de tamanho n estimasse Σ utilizando S = bP bΛ bP> e o modelo amostral resultante ´e
S ∼= bΓbΓ>+ bΨ, (3.9) sendo b Γ = bPmΛb1/2m = q b λ1be1, q b λ2be2, . . . , q b λmbep ,
em que bPm = [be1,be2, . . . ,bem] ´e uma matriz (p × x) formada pelos primeiros m autovetores de S em suas colunas e bΛ1/2m = q b λi ´
quadrada dos autovalores de S e b Ψ = diagS − bΓbΓ> = b ψ1 0 · · · 0 0 ψb2 · · · 0 .. . ... . .. ... 0 0 · · · ψbp = S11− bh21 0 · · · 0 0 S22− bh22 · · · 0 .. . ... . .. ... 0 0 · · · Spp− bh2p = S11− Pm j=1bγ 2 1j 0 · · · 0 0 S22−Pmj=1bγ 2 2j · · · 0 .. . ... . .. ... 0 0 · · · Spp− Pm j=1bγ 2 pj .
Com base na decomposi¸c˜ao espectral de S exibisse os estimadores das cargas fatoriais e das variˆancias espec´ıficas e a partir das express˜oes anteriores, verifica-se que o estimador da i-´esima comunalidade ´e bh2i =Pm
j=1bγ
2
ij, para i = 1, 2, . . . , p. De modo igual as variˆancias
espec´ıficas s˜ao estimadas por bψi = Sii− bh2i. Para esse m´etodo as variˆancias amostrais s˜ao
reproduzidas integralmente, mas as covariˆancias s˜ao reproduzidas apenas parcialmente. O vetor (p × 1) conhecido porbγj correspondente a j-´esima coluna do estimador da matriz de
cargas fatoriais bΓ, ´e obtido porbγj =
q b
λjbej. Utilizando esse vetor, ´e poss´ıvel representar a soma dos quadrados da j-´esima coluna de bΓ por bγj>bγj, correspondente a
b γj>γbj = p X i=1 b γij2 = q b λ1jbe > j, q b λjbe > j = bλjbe > jbej = bλj,
uma vez quebe>jbej = 1.
A vari´avel da i-´esima vari´avel pode ser decomposta em
Sii = bh2i + bψi = m X j=1 b γij2 + bψi (3.10) = bγi12 +bγi22 + · · · +bγim2 + bψi.
Desta forma, considerasse a contribui¸c˜ao do j-´esimo fator comum para a variˆancia da i-´esima vari´avel, sendo estimada porbγ2
ij, como constatada na express˜ao (3.10). Somando
o estimador da sua contribui¸c˜ao para a variˆancia total tr(S) = S11+ S22+ . . . + Spp.
Assim, a variˆancia atribu´ıda ao j-´esimo fator comum ´e dada por
p
X
i=1
b
γij2 = bλj,
correspondente `a distˆancia quadr´atica determinada pelo ponto coordenado bγj em rela¸c˜ao
`
a origem no plano fatorial.
Consequentemente, ´e poss´ıvel esclarecer a varia¸c˜ao total atribu´ıda ao j-´esimo fator por
Pp i=1bγ 2 ij tr(S) = b λj tr(S).
Com base na decomposi¸c˜ao espectral, a matriz de covariˆancias S sendo ajustada considerando apenas as cargas fatoriais e n˜ao as variˆancias especificas, da forma S ∼= bΓbΓ>, obtˆem-se a matriz de res´ıduos, definida por
E∗ = S − bΓbΓ> = bP bΛ bP>− bPmΛbmPb>m.
Considerando a soma de quadrados dos elementos da matriz E∗, tˆem-se
tr(E∗>E∗) = tr bP bΛ2Pb> − 2trPbmΛb2m0Pb>m + tr b PmΛb2mPb>m , na qual a matriz diagonal Λ2m0 ´e dada por
Λ2m0 = m p − m Λ2 m 0 m, e Λ2
m×p= diag[bλi] ´e a matriz diagonal m × m dos autovalores para o modelo reduzido e
0 ´e uma matriz de zeros (p − m) × m. Sendo assim, utilizando a propriedade do tra¸co3
3O tra¸co (tr) de uma matriz quadrada de ordem n ´e a soma de todos os elementos da diagonal
dada por tr(AB) = tr(BA), simplificasse a express˜ao anterior por tr(E∗2) = p X i=1 b λ2i − 2 m X i=1 b λ2i + m X i=1 b λ2i = p X i=1 b λ2i − m X i=1 b λ2i = p X i=m+1 b λ2i.
Estimasse a matriz E∗2 como o desvio de um modelo fatorial contendo apenas os m fatores comuns, desprezando os fatores espec´ıficos. Por´em, no modelo (3.9) as variˆancias espec´ıficas s˜ao contempladas e a matriz de res´ıduos ´e especificada por:
E = S − ΓΓ>− Ψ.
A soma de quadrados dos res´ıduos estabelecida por tr(E2) possui limite superior, considerando as demonstra¸c˜oes anteriores e que E difere de E∗ pelo fato dos elementos da diagonal principal serem nulos em E, determinada por
tr(E2) = p X i=1 p X j=1 e2ij 6 p X i=m+1 b λ2i.
Deste modo, a quantidade ´e utilizada para avaliar a qualidade do ajuste do modelo, uma vez que, os res´ıduos sendo pequenos em m´odulos, os p − m ´ultimos autovalores s˜ao pequenos e a soma de quadrados, tamb´em ´e pequena. Assim sendo, quanto menor for a soma de quadrados dos ´ultimos p − m autovalores de S, melhor a qualidade do ajuste. O m´etodo dos componentes principais, avalia a qualidade do ajuste, sem o calculo do limite superior para a soma de quadrados do res´ıduo, onde calculasse diretamente e utilizasse esse crit´erio para validar o atributo do ajuste do modelo fatorial.
Segundo Reis (1997) [18] o crit´erio da porcentagem da variˆancia explicada est´a fun-damentado na conquista de um percentual cumulativo da variˆancia total extra´ıda por fatores sucessivos. O n´umero ´e determinado de modo que o conjunto de fatores explique uma porcentagem m´ınima da variabilidade global, de modo que se obtenha a significˆancia dos fatores. Para o presente trabalho pode-se estipular um n´ıvel de explica¸c˜ao de pelo menos 70% da variabilidade para ter uma explica¸c˜ao “razo´avel” e de 90% pra obter uma explica¸c˜ao considerada “´otima” do total dos dados.
Estima¸c˜ao dos Escores dos Fatores F
Segundo Lattin et al; (2010) [19] os escores s˜ao valores num´ericos para cada elemento amostral. Para cada elemento amostral k, k = 1, · · · , n, o seu escore no fator Fj, j =
1 · · · , m, ´e calculado como:
b
Fjk = Wj1Z1k+ Wj2Z2k+ · · · + WjpZpk, (3.11)
onde:
(Z1k, Z2k,...,Zpk s˜ao valores observados das vari´aveis padronizadas Zi para o k-´esimo
elemento amostral;
Wji, i = 1, . . . , p s˜ao os pesos de pondera¸c˜ao de cada vari´avel Zi no fator Fj.
´
E poss´ıvel obter Wji por 3 m´etodos, para o presente trabalho foi escolho o m´etodo
dos m´ınimos quadrados ponderados, descrito como:
ˆ
Fjk = ( ˆL0ψˆ−1L)ˆ −1Lˆ0ψˆ−1Zk= Wm×pZk (3.12)
Wm×p= ( ˆL0ψˆ−1L)ˆ −1Lˆ0ψˆ−1.
O indicador de sa´ude e ambiente ser´a a m´edia das vari´aveis latentes resultantes do modelo fatorial ortogonal estimado.
3.1.2
An´
alise Espacial do Indicador
A an´alise espacial pode ser definida como o estudo quantitativo dos fenˆomenos alo-cados no espa¸co e tem como objetivos descrever a distribui¸c˜ao espacial, os clusters4 es-paciais, verificar a existˆencia ou n˜ao existˆencia de processamentos espaciais e por fim a identifica¸c˜ao de observa¸c˜oes incomuns (outliers.) (Hadaad, 2006)[21].
Com o intuito de descrever e/ou explicar esses fenˆomenos, existem m´etodos que ex-plicam situa¸c˜oes onde disp˜oem-se de dados observados a partir de um certo sistema que
4Defini¸c˜ao utilizada para formar grupos homogˆeneos atrav´es de medidas de proximidade, semelhan¸ca,
opera no espa¸co. Estes dados s˜ao dividios em trˆes categorias: dados padr˜ao de pontos, dados espacialmente cont´ınuos e dados de ´area.
Para o presente trabalho foi realizada a an´alise para dados de ´area, uma vez que, os dados est˜ao relacionados com mapas geogr´aficos. Com o intuito de verificar a existˆencia de dependˆencia espacial entre os dados calcula-se as medidas de autocorrela¸c˜ao espacial e autocorrela¸c˜ao local, onde mede-se a correla¸c˜ao para a mesma vari´avel. Para a verifica¸c˜ao proposta utilizou-se o ´Indice de Moran Global.
3.1.2.1 ´Indice de Moran Global
Proposto por Luc Anselin (1994) [22] o ´Indice de Moran Global ´e uma estat´ıstica afim de medir a existˆencia de autocorrela¸c˜ao espacial entre os vizinhos, ou seja, avalia a seme-lhan¸ca do indicador entre os vizinhos, e leva em considera¸c˜ao uma matriz de proximidade definida como matriz W5. Quanto mais pr´oximo de -1 ou 1, mais forte ´e a correla¸c˜ao.
Para facilitar a explica¸c˜ao do ´Indice de Moran Global, se faz necess´aria a defini¸c˜ao do ´Indice de Moran Local; definida como uma ferramenta estat´ıstica que possibilita avaliar
os outliers espaciais. Sua f´ormula ´e descrita como:
Ii = zi×
X
j
wij × zj. (3.13)
Onde:
wij ´e o valor na matriz de proximidade espacial para a regi˜ao i com a regi˜ao j em
fun¸c˜ao da distˆancia entre eles;
zi e zj s˜ao os desvios em rela¸c˜ao `a m´edia.
O ´Indice de Moran Local permite a interpreta¸c˜ao da indica¸c˜ao de n˜ao estacionariedade espacial (outliers) e a possibilidade de testar as hip´otese sobre interdependˆencia dos dados.
As hip´oteses s˜ao:
(
H0 : I = 0 ,existe independˆencia espacial entre os dados;
H1 : I 6= 0 ,existe dependˆencia espacial entre os dados.
5Uma matriz W (n×n) com elementos w
ijque representam uma medida de proximidade espacial entre
´
Por consequˆencia ´e poss´ıvel relacionar o ´Indice de Moran Local e o Global, que define o I global como: I = Pn i=1 Pn j=1wij(zi− z)(zj− z) Pn i=1(zi− z)2 . (3.14) Onde:
n ´e o n´umero de observa¸c˜oes;
zi e zj s˜ao os desvios em rela¸c˜ao `a m´edia;
z ´e o valor m´edio para a regi˜ao de estudo; P wij ´e a matriz de proximidade.
´
E de importˆancia ressaltar que para o c´alculo do ´Indice Global de Moran, ´e necess´ario determinar uma quantidade de k vizinhos. Essa quantidade ser´a determinado pela m´edia da contagem de vizinhos para cada microrregi˜ao.
Para visualiza¸c˜ao do presente trabalho, ser˜ao utilizadas t´ecnicas gr´aficas, tais como Box Map e Lisa Map que s˜ao baseadas no resultado do ´Indice de Moran Local e Gr´afico de Espalhamento de Moran (Rodrigues et al., 2008 [24]; Gon¸calves, 2007 [25]; Atanaka-Santos et al., 2007 [26]; Hadaad, 2006 [21])
Para a constru¸c˜ao do Box Map ´e necess´aria a classifica¸c˜ao dos objetos de estudo a partir do Gr´afico de Espalhamento de Moran, este gr´afico indica diferentes regimes espaciais nos dados e ´e descrito, de maneira espacial, como a rela¸c˜ao entre os valores do vetor de desvios (z) e os valores de m´edias locais (Wz). Por fim o Box Map ´e gerado
quando cada objeto ´e classificado conforme sua posi¸c˜ao em rela¸c˜ao aos quadrantes do gr´afico de espalhamento.
Os quadrantes podem ser visualizados na Figura 1 e descritos como
Q(+/+) = valores positivos, m´edias positivas;
Q(-/-) = valores negativos, m´edias negativas - regi˜oes (microrregi˜oes) com valor de atributo consider´avel, est˜ao cercados de regi˜oes com comportamento similar; Q(+/-) = valores positivos, m´edias negativas;
Q(-/+) = valores negativos, m´edias positivas - uma regi˜ao possui vizinhos com valores distintos.
Figura 1: Esquema explicativo do diagrama de Moran. (Retirado e Adaptado de Campos et al, 2013 [27]
Para a confec¸c˜ao do Lisa Map, a significˆancia dos valores do ´Indice de Moran Local obtido para cada objeto, ´e avaliada em rela¸c˜ao `a hip´otese nula de n˜ao existˆencia de autocorrela¸c˜ao espacial. Assim, os objetos s˜ao classificados em grupos: Q(+/+), Q(-/-), Q(+/-), Q(-/+) e N˜ao significativo.
3.1.3
An´
alise de Mortalidade Infantil P´
os-Neonatal
Mortalidade infantil refere-se aos ´obitos sucedidos ao longo do per´ıodo antes de se completar a idade de 1 ano. ´E usualmente medida pela taxa de mortalidade infantil. Podendo ser medida pela propor¸c˜ao de ´obitos de menores de um ano, com rela¸c˜ao ao total de ´obitos registrados em uma determinada ´area e per´ıodo. (Medronho, 2008) [5]
3.1.3.1 Taxa de Mortalidade Infantil P´os-Neonatal
A taxa de mortalidade infantil (TMI), pode ser similarmente chamada de coeficiente de mortalidade infantil. Para o estudo em quest˜ao, ser´a utilizado o termo TMI – Taxa de
Mortalidade Infantil.
A TMI ´e uma estimativa do risco de morte a que est´a exposta uma popula¸c˜ao de nascidos vivos em uma determinada ´area e per´ıodo, antes de 1 ano de vida completo. Como descrito anteriormente, a TMI relaciona os ´obitos de indiv´ıduos pertencentes a uma coorte 6 de nascidos vivos antes de completar um ano de vida; descrevendo-se como
uma estimativa direta do risco de morte ou “incidˆencia de morte” experimentado por uma coorte de nascidos vivos ao longo do primeiro ano de vida.
A equa¸c˜ao que representa a TMI est´a descrita abaixo (3.15)
TMI = N´umero de ´obitos de crian¸cas menores de um ano, da ´area A no per´ıodo P
N´umero de nascidos vivos da ´area A no per´ıodo P × 100.000. (3.15) Onde:
´
Area A = Microrregi˜oes do Brasil; Per´ıodo P = Ano de 2015.
O risco de morte varia ao longo do primeiro ano de vida, especialmente quando se considera as causas de ´obito e seus respectivos fatores determinantes. Por consequˆencia, a TMI, ´e subdividida em trˆes componentes, denominados, neonatal precoce, neonatal tardia e p´os-neonatal. Para o tema em quest˜ao ser´a utilizada a taxa de mortalidade infantil p´os-neonatal (TMIPN).
A TMIPN ´e uma estimativa do risco de morte associada a popula¸c˜ao de nascidos vivos em certa ´area e per´ıodo, desde os 28 dias de idade at´e um ano incompleto de vida. Sendo calculada pela f´ormula abaixo (3.16)
TMIPN = N´umero de ´obitos de 28 dias at´e um ano de vida, da ´area A no per´ıodo P
N´umero de nascidos vivos da ´area A no per´ıodo P × 1000. (3.16) Sendo:
´
Area A = Microrregi˜oes do Brasil; Per´ıodo P = Ano de 2015.
6Uma coorte ´e um grupo de pessoas que partilham algo em comum, como o mesmo ano de nascimento,
3.1.3.2 Modelo de Regress˜ao Linear Simples
Sendo Y uma vari´avel aleat´oria de interesse, diversas vezes denominada vari´avel res-posta, e seja X uma vari´avel aleat´oria que, para este estudo, ser´a denominada auxiliar ou regressora. O modelo de regress˜ao linear simples descreve a vari´avel Y como uma soma de quantidade determin´ıstica e uma quantidade aleat´oria. A parte determin´ıstica, uma reta em fun¸c˜ao de X, representa a informa¸c˜ao sobre Y que j´a pode ser “esperada”, apenas com o conhecimento pr´evio da vari´avel X. A parte aleat´oria, denominada erro, representa os in´umeros fatores que, conjuntamente, podem interferir em Y (Charnet, 1999) [28].
Pode-se interpretar que o erro provoca uma distor¸c˜ao sobre a parte determin´ıstica na defini¸c˜ao de Y . Supondo-se erros positivos ou negativos que possam ocorrer, tem-se que o erro possui esperan¸ca igual a zero. Nesse contexto, por suposi¸c˜ao, a vari´avel erro n˜ao depende do valor espec´ıfico de X.
Utilizando-se β0 e β1 para denotar os coeficientes da reta, , a vari´avel erro, σ2, a
variˆancia da vari´avel erro, e x, um valor espec´ıfico da vari´avel X, pode-se sintetizar o modelo de regress˜ao linear simples (MRLS) da seguinte forma:
Y = β0 + β1x + , (3.17)
onde:
β0, β1 e x : s˜ao constantes;
E[] = 0; Var[] = σ2.
Para o estudo, por suposi¸c˜ao, o modelo de probabilidade do erro ´e o modelo normal. Neste caso, podemos sumarizar o modelo de regress˜ao linear simples normal (MRLS) na forma:
Y = β0 + β1x + , (3.18)
onde:
β0, β1 e x : s˜ao constantes;
∼ N (0, σ2).
de normalidade do erro.
Resultado 1.1
A distribui¸c˜ao de probabilidade de Y , corresponde ao valor prefixado, x, de X, dada por:
Y ∼ N (β0+ β1x; σ2). (3.19)
Prova:
Perante o modelo de regress˜ao linear simples, Y ´e a soma de uma constante, β0 + β1x
com a vari´avel aleat´oria ε, de modelo N (0, σ2). Desta maneira, para o valor x de X, Y ´e normal com parˆametros:
E[Y |x] = E[β0+ β1x + ε] = E[β0+ β1x] + E[ε] = β0+ β1x + 0 = β0+ β1x. Var[Y |x] = Var[β0+ β1x + ε] = Var[β0+ β1x] + Var[ε] = 0 + σ2 = σ2. ⇒ Y ∼ N (β0+ β1x; σ2). O Resultado 1.1 mostra que a esperan¸ca de Y , para X = x, ´e β0+ β1x. Desta forma,
pode-se interpretar o parˆametro β1 como a mudan¸ca esperada em Y , correspondente ao
aumento de uma unidade em X.
At´e o presente momento foi abordado o modelo de regress˜ao linear simples com a suposi¸c˜ao dos parˆametros conhecidos e as demais suposi¸c˜oes atendidas.
Deste ponto em diante tem-se como enfoque a inferˆencia estat´ıstica sobre o modelo. Ser´a apresentado o modelo amostral, correspondente ao modelo de regress˜ao linear sim-ples. Ou seja, ser´a discutida a obten¸c˜ao de uma amostra aleat´oria, que constituir´a a base para a estima¸c˜ao do modelo e, ap´os adequa¸c˜ao do modelo, as inferˆencias para a popula¸c˜ao geral. Nesse estudo ser´a tratado apenas a defini¸c˜ao da amostra, atrav´es da defini¸c˜ao do modelo de regress˜ao linear simples amostral. Denomina-se modelo de regress˜ao li-near simples amostral o conjunto de suposi¸c˜oes j´a apresentadas sob o modelo de regress˜ao linear simples, acrescido da suposi¸c˜ao sobre a rela¸c˜ao entre as unidades amostrais.
Pode-se considerar duas maneiras para obten¸c˜ao de uma amostra: valores de X, prefixados e para estes valores obten¸c˜ao de observa¸c˜oes independentes de Y , ou, obten¸c˜ao de uma amostra de (X, Y ). Em ambos os casos, existe uma amostra de tamanho n, sendo x1, x2, ..., xn os valores prefixados de X, ou os valores observados de X, e y1, y2, ..., yn os
correspondentes valores observados de Y .
Substanciando o modelo de regress˜ao linear simples amostral (MRLS - Amostral), temos: yi = β0+ β1xi+ i, (3.20) onde: β0, β1 e xi : s˜ao constantes; E[i] = 0; Var[i] = σ2; Cov[i, j] = 0 , i 6= j; i, j = 1, ..., n.
E, correspondendo ao modelo de regress˜ao linear simples quando o modelo de proba-bilidade de erro ´e o modelo normal, temos o modelo amostral abaixo:
Y = β0+ β1xi+ i, (3.21) onde: β0, β1 e xi : s˜ao constantes; E[i] ∼ N (0; σ2). Cov[i, j] = 0 , i 6= j; i, j = 1, ..., n.
Deste ponto em diante, o uso do modelo de regress˜ao linear simples amostral se d´a com a suposi¸c˜ao de normalidade do erro.
MRLS em forma matricial
Anteriormente foi visto que a amostra aleat´oria sob o modelo de regress˜ao linear ´e dada por: y1 = β0+ β1x1+ 1 y1 = β0+ β1x2+ 2 . . . yn= β0+ β1xn+ n i ∼ N (0; σ2) Cov[j, i] = 0, i 6= j; i, j = 1, ..., n, β0 e β1, constantes desconhecidas, x1, ..., xnconstantes conhecidas.
Expressa-se este modelo usando nota¸c˜ao matriarcal. Seguem os vetores:
y = y1 y2 .. . yn , = 1 2 .. . n e β = " β0 β1 # . (3.22) E seja a matriz X: X = 1 x1 1 x2 .. . ... 1 xn ,
denominada matriz do modelo. Ent˜ao,
Xβ + = 1 x1 1 x2 .. . ... 1 xn " β0 β1 # + 1 2 .. . n = β0+ β1x1+ 1 β0+ β1x2+ 2 .. . β0+ β1xn+ n = y1 y2 .. . yn = y.
O vetor aleat´orio ´e composto de vari´aveis independentes, com distribui¸c˜ao N (0; σ2). Assim sendo, o vetor de esperan¸cas dos elementos de ´e o vetor nulo de dimens˜ao n e a matriz, cuja diagonal ´e formada pelas variˆancias e os demais elementos s˜ao as covariˆancias, conhecida por σ2 0 0 · · · 0 0 σ2 0 · · · 0 .. . ... ... . .. ... 0 0 0 · · · σ2 = σ2I,
sendo I a matriz identidade de ordem n. Resumi-se o MRLS amostral pela forma:
y = Xβ + . (3.23)
onde: ∼ N (0; σ2I). (3.24)
Ajuste de Reta por M´ınimos Quadrados
O m´etodo de m´ınimos quadrados tem como objetivo solucionar a escolha de uma reta que melhor se ajuste a um conjunto de n pontos (x1, y1), (x2, y2), . . . , (xn, yn). Seja
y = a + bx a representa¸c˜ao de uma reta gen´erica, onde a e b s˜ao valores reais. O objetivo ´e encontrar o argumento m´ınimo da fun¸c˜ao 3.25, onde a ∈ < e b ∈ <.
O estimador ˆβ por m´ınimos quadrados ´e definido por:
ˆ β = argmin n X i=1 [yi − (a + bxi)]2 ! . (3.25)
Para encontrar esse argumento que minimiza a fun¸c˜ao ´e necess´ario obter as seguintes derivadas parciais: ∂ ∂a n X i=1 [yi− (a + bxi)]2, e ∂ ∂b n X i=1 [yi− (a + bxi)]2.
cr´ıticos7.
Denomina-se por ˆa e ˆb os valores que minimizam a fun¸c˜ao e obtˆem-se o sistema:
−2 n X i=1 [yi− (ˆa + ˆbxi)]2 = 0, −2 n X i=1 [yi− (ˆa + ˆbxi)]2xi = 0, ou ainda, n X i=1 yi− nˆa − ˆb n X i=1 xi = 0, (3.26) n X i=1 xiyi− ˆa n X i=1 xi− ˆb n X i=1 x2i = 0, (3.27)
denominado sistema de equa¸c˜oes normais. Pela equa¸c˜ao (3.26), obtˆem-se
nˆa = n X i=1 yi− ˆb n X i=1 xi ⇒ ˆa = 1 n n X i=1 yi− ˆb 1 n n X i=1 xi,
logo, substituindo na equa¸c˜ao (3.27), tˆem-se
n X i=1 xiyi− 1 n n X i=1 yi− ˆb 1 n n X i=1 xi ! n X i=1 xi− ˆb n X i=1 x2i = 0 ⇒ n X i=1 xiyi− 1 n n X i=1 yi n X i=1 xi+ ˆb 1 n n X i=1 xi !2 − ˆb n X i=1 x2i = 0 ⇒ ˆb = Pn i=1xiyi− 1 n Pn i=1yi Pn i=1xi Pn i=1x 2 i − n1 ( Pn i=1xi) .
7Ponto cr´ıtico ´e um ponto no dom´ınio de uma fun¸c˜ao onde a primeira derivada ´e nula ou n˜ao ´e definida
E assim encontram-se ˆa e ˆb, pontos cr´ıticos da fun¸c˜ao 3.25. Esse ponto cr´ıtico n˜ao necessariamente ´e ponto de m´ınimo, como deseja-se, o mesmo pode ser tamb´em ponto de m´aximo ou inflex˜ao.
Por´em ´e poss´ıvel notar que n˜ao existe um ponto m´aximo para esta fun¸c˜ao, uma vez que, para qualquer reta que passe totalmente acima (ou abaixo) dos pontos, pode-se apontar outra reta cuja soma dos quadrados das diferen¸cas ´e ainda maior. Logo, o ponto extremo ´e ponto de m´ınimo.
Portanto, sejam ˆyi = ˆa + ˆbxi, para i = 1, . . . , n os valores da reta de m´ınimos
qua-drados, ajustada ao conjunto de n pontos (x1, y1), (x2, y2), . . . , (xn, yn). Chama-se de ˆyi a
estimativa da vari´avel resposta.
Desta forma, ´e poss´ıvel definir a fun¸c˜ao ˆyi = ˆa + ˆbxi substituindo ˆa por
Estima¸c˜ao de M´ınimos Quadrados para o MRLS
Os estimadores de m´ınimos quadrados para os parˆametros β0 e β1 s˜ao definidos
con-forme a solu¸c˜ao de m´ınimos quadrados, s˜ao eles
ˆ β0 = y − ˆβ1x, ˆ β1 = Pn i=1(yi− y)(xi− x) Pn i=1(xi− x)2 ou Pn i=1yi(xi− x) Pn i=1(xi− x)2 .
Pelo Resultado 1.1 sob o MRLS Y |x ∼ N (β0+ β1x; σ2), tˆem-se
yi ∼ N (β0+ β1x; σ2),
independentes para i = 1, . . . , n. Os estimadores ˆβ0 e ˆβ1 possuem distribui¸c˜ao normal por
serem combina¸c˜oes lineares de y1, . . . , yn.
E[ ˆβ1] = E Pn i=1yi(xi− x) Pn i=1(xi− x)2 = Pn 1 i=1(xi− x) 2 n X i=1
(xi− x) E[yi], por linearidade da esperan¸ca
= 1 Pn i=1(xi− x) 2 n X i=1 (xi− x) (β0+ β1xi) = 1 Pn i=1(xi− x) 2 β0 n X i=1 (xi− x) | {z } 0 +β1 n X i=1 xi(xi− x) = Pn β1 i=1xi(xi− x)2 n X i=1 xi(xi− x) = Pn β1 i=1xi(xi− x)2 n X i=1 (xi− x)(xi− x) = β1.
A esperan¸ca de ˆβ0, expressa em termos de ˆβ1, ´e
E[ ˆβ0] = E[y − ˆβ1x] = E[y] − xE[ ˆβ1] = 1 nE " n X i=1 yi # − xE[ ˆβ1] = 1 n n X i=1 (β0 + β1xi) − xβ1 = β0+ β1 Pn i=1xi n − xβ1 = β0.
Notasse que os estimadores de m´ınimos quadrados de ˆβ0 e ˆβ1 s˜ao n˜ao viciados.
Var[ ˆβ1] = Var Pn i=1yi(xi − x Pn i=1(xi− x)2 = 1 [Pn i=1xi(xi− x)2] 2 n X i=1 Var(yi) | {z } σ2 (xi− x)2 = σ 2 [Pn i=1xi(xi− x)2] 2 n X i=1 (xi− x)2 = σ 2 Pn i=1(xi− x)2 . Var[ ˆβ0] = Var[y − ˆβ1x]
= Var[y] + Var[ ˆβ1x] − 2Cov[y, ˆβ1x]
= σ 2 n + x 2 σ 2 Pn i=1(xi− x)2 − 0 = σ2 1 n + x2 Pn i=1(xi− x) .
Em conclus˜ao, obtˆem-se a covariˆancia entre ˆβ0 e ˆβ1
Cov[ ˆβ0, ˆβ1] = Cov[y − ˆβ1x, ˆβ1] = Cov[y, ˆβ1] + Cov[− ˆβ1, ˆβ1] = 0 − xVar[ ˆβ1] = −xσ 2 Pn i=1(xi − x)2 .
Assim, as distribui¸c˜oes de ˆβ0 e ˆβ1 s˜ao:
ˆ β0 ∼ N β0; σ2 1 n + x2 Pn i=1(xi− x)2 , (3.28) e ˆ β1 ∼ N β1; σ2 Pn i=1(xi− x)2 . (3.29)
Portanto ˆy ´e definido por:
ˆ
yi = ˆβ0+ ˆβ1xi. (3.30)
Necessita-se estimar a variˆancia do erro, σ2, que representa a distor¸c˜ao `a reta. O estimador de m´ınimos quadrados de σ2 ´e
ˆ σ2 = Pn i=1(yi− ˆyi) 2 n − 2
Este estimador ´e n˜ao viciado e, sob o modelo MRLS, (n − 2)ˆσ2
σ2 ∼ χ 2
(n−2). (3.31)
Logo, a variˆancia de ˆσ2 ´e
Var[ˆσ2] = 2(σ
2)2
n − 2.
A partir das distribui¸c˜oes em (3.28), (3.29) e (3.31), defini-se os intervalos de confian¸ca para os parˆametros, a contar da vari´avel dada em (3.31) e das seguintes quantidades pivotais: ˆ β0− β0 r ˆ σ2h1 n + x2 Pn i=1(xi−x)2 i ∼ t(n−2), ˆ β1− β1 r h ˆ σ2 Pn i=1(xi−x)2 i ∼ t(n−2). (3.32)
Os intervalos de confian¸ca (1 − α)100 para os parˆametros β0, β1 e σ2 s˜ao
respectiva-mente ˆ β0± t(α/2,n−2) s ˆ σ2 1 n + x2 Pn i=1(xi− x)2 ,
ˆ β1± t(α/2,n−2) s ˆ σ2 Pn i=1(xi− x)2 , e " Pn i=1(yi− ˆyi) 2 χ2 (α/2,n−2) ; Pn i=1(yi− ˆyi) 2 χ2 (1−α/2,n−2) # .
Como primeira etapa na an´alise estat´ıstica, testa-se as hip´oteses: (
H0 : β1 = 0;
H1 : β1 6= 0.
que avaliam a contribui¸c˜ao da vari´avel regressora X para a explica¸c˜ao da vari´avel Y , uma vez que se H0 for verdadeira, essa contribui¸c˜ao n˜ao ´e significativa.
Considerando o MRLS e a distribui¸c˜ao em (3.32), sob H0, tˆem-se,
ˆ β1 r h ˆ σ2 Pn i=1(xi−x)2 i ∼ t(n−2). (3.33)
Em um teste de n´ıvel de significˆancia α rejeita-se H0, se a estat´ıstica de teste for maior que
t(α/2)(n−2). Em virtude da distribui¸c˜ao do quadrado da vari´avel aleat´oria com distribui¸c˜ao
t de Student com n graus de liberdade for uma vari´avel com distribui¸c˜ao F com 1 e n graus de liberdade, equivalentemente, rejeita-se H0, quando o quadrado da estat´ıstica em
(3.33), ˆ β12 ˆ σ2 Pn i=1(xi− x)2 = ˆ β2 1 Pn i=1(xi− x) 2 ˆ σ2 , (3.34)
for maior do que F(n−2)(α), o quantil (1 − α) de distribui¸c˜ao F com 1 e (n − 2) graus de
liberdade.
Nota-se que os testes realizados anteriormente comparam variˆancias, apesar do parˆametro testado fazer parte da defini¸c˜ao de esperan¸ca.
As quantidades necess´arias para calcular o valor observado da estat´ıstica de teste, s˜ao comumente dispostas na Tabela abaixo, denominada tabela de ANOVA.
Pela Tabela (1) tˆem-se: SQT → Pn
i=1(yi− y)2´e soma de quadrados total (ajustada), ou seja, representa¸c˜ao
Tabela 1: ANOVA Fonte GL SQ QM F0 (Fonte de varia¸c˜ao) (Graus de liberdade) (Soma de quadrados) (Quadrado m´edio)
Regress˜ao 1 SQReg SQReg SQReg
SQE/(n − 2)
Erro n − 2 SQE SQE/(n − 2)
Total n − 1 SQT
SQE → Pn
i=1(yi − ˆyi)
2 ´e soma de quadrados do erro, ou seja, representa¸c˜ao da
varia¸c˜ao total de Y em torno da reta; SQReg →
Pn
i=1(ˆyi− y)2 ´e soma de quadrados da regress˜ao, ou seja, representa¸c˜ao
das esperan¸cas de Y , dado x, em torno da sua m´edia.
Coeficiente de Correla¸c˜ao
Considerando duas vari´aveis aleat´orias X e Y com variˆancias σ2
xe σy2, respectivamente,
e covariˆancia Cov[X, Y ]. O coeficiente de correla¸c˜ao ´e definido por
ρ(X, Y ) = Cov[X, Y ] pσ2
xσy2
.
Composto pelo produto dos desvios padr˜oes das vari´aveis X e Y , o denominador de ρ(X, Y ), tem como objetivo padronizar; e assim tornar o coeficiente de correla¸c˜ao isento de unidades de medidas de X e Y . E por fim, medir a poss´ıvel rela¸c˜ao linear existente entre as vari´aveis aleat´orias X e Y , de forma que:
ρ(X, Y ) ´e sempre um valor entre -1 e 1;
quanto maior a tendˆencia de uma rela¸c˜ao linear positiva, ρ(X, Y ) tem valor mais pr´oximo de 1;
quanto maior a tendˆencia de uma rela¸c˜ao linear negativa, ρ(X, Y ) tem valor mais pr´oximo de -1;
Coeficiente de Determina¸c˜ao - R2
O coeficiente de determina¸c˜ao, R2, descrito abaixo, ´e a propor¸c˜ao da variabilidade
dos Y ’s observados, explicada por um modelo considerado.
R2 = SQReg SQT .
O valor de R2 ´e pertencente a um intervalo [0, 1] e, quanto mais pr´oximo de 1, melhor
o ajuste.
An´alise de Res´ıduos
Os res´ıduos de um modelo de regress˜ao, ´e definido por:
ei = yi− ˆyi,
onde: E[ei] = 0;
Var[ei] = Var(yi) + Var(ˆyi) − 2Cov(yi, ˆyi);
Cov(ei, ej) = σ2 h 1 −n1 − (xi−x)2 Pn i=1(xi−x)2 i , para i 6= j.
Algumas transforma¸c˜oes s˜ao propostas para os res´ıduos:
1. Res´ıduo padronizado:
Zi = √ eˆi V ar(ei)
,
onde σ2 ´e substitu´ıdo por ˆσ2.
2. Res´ıduo estudentizado:
Zi∗ = √ ei
ˆ V ar(ei)
,
onde ˆσ2´e substitu´ıdo por ˆσ2(i). Sendo ˆσ(i)2 definido como a soma de quadrados m´edios dos res´ıduos do modelo ajustado sem utilizar a i-´esima observa¸c˜ao.