Indicador de saúde e ambiente para doenças de veiculação hídrica e seus efeitos na mortalidade infantil pós neonatal

(1)

Indicador de sa´

ude e ambiente para doen¸

cas

de veicula¸

c˜

ao h´ıdrica e seus efeitos na

mortalidade infantil p´

os neonatal.

Niter´oi - RJ, Brasil 13 de Julho de 2018

(2)

Raphael Paes Pinto

Indicador de sa´

ude e ambiente para

doen¸

cas de veicula¸

c˜

ao h´ıdrica e seus

efeitos na mortalidade infantil p´

os

neonatal.

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientadora: Profa. Ludmilla da Silva Viana Jacobson

Niter´oi - RJ, Brasil 13 de Julho de 2018

(3)

Raphael Paes Pinto

Indicador de sa´

ude e ambiente para doen¸

cas

de veicula¸

c˜

ao h´ıdrica e seus efeitos na

mortalidade infantil p´

os neonatal.

Monografia de Projeto Final de Gradua¸cão sob o t´ıtulo “Indi-cador de saúde e ambiente para doen¸cas de veicula¸cão h´ıdrica e seus efeitos na mortalidade infantil pós neonatal.”, defendida por Raphael Paes Pinto e aprovada em 13 de Julho de 2018, na cidade de Niterói, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Profa. Dra. Ludmilla da Silva Viana Jacobson Departamento de Estat´ıstica – UFF

Prof. Dr. Hugo Henrique Kegler dos Santos Departamento de Estat´ıstica – UFF

Profa. Dra. Jessica Quintanilha Kubrusly Departamento de Estat´ıstica – UFF

(4)

Bibliotecário responsável pela unidade: Carlos R. S. de Lima – CRB7 5531

P659 Pinto, Raphael Paes Pinto

Indicador de saúde e ambiente para doenças de veiculação hídrica e seus efeitos na mortalidade infantil pós neonatal / Raphael Paes Pinto. – Niterói, RJ: [s.n.], 2018.

112f.

Orientador: Profª. Drª. Ludmila da Silva Viana Jacobson

TCC ( Graduação de Bacharelado em Estatística) – Universidade Federal Fluminense, 2018.

1. Indicadores. 2. Mortalidade infantil. 3. Veiculação hídrica.I. Título.

(5)

O Brasil apresenta tendência de decrescimento nas taxas de mortalidade infantil e de nascimento, porém quando comparado aos pa´ıses desenvolvidos estas estat´ısticas são pre-ocupantes. Como a mortalidade infantil é o indicador mais utilizado para avaliar situa¸cões socioeconômicas de uma determinada região e pode ser desagregado em três grupos (mor-talidade infantil neonatal precoce, mor(mor-talidade infantil neonatal tardia e mor(mor-talidade in-fantil pós neonatal); foi de interesse para o presente trabalho a utiliza¸cão da taxa de mortalidade infantil pós neonatal (representada pelo número de óbitos infantis entre 28 dias e 1 ano de idade), uma vez que, quando comparada com a cria¸cão de um indicador integrado de saúde e ambiente baseado nas doen¸cas de veicula¸cão h´ıdrica, ambos indi-cadores podem ser avaliados devido a suas semelhan¸cas geográficas, socioeconômicas e pelas condi¸cões de infra-estrutura e saneamento habitacional. É importante ressaltar que apesar dos avan¸cos da globaliza¸cão, muitas pessoas continuam em situa¸cões insalubres pela ausência ou ineficiência de abastecimento de água. Dessa forma o objetivo deste tra-balho é elaborar um indicador composto de saúde e ambiente para doen¸cas de veicula¸cão h´ıdrica e avaliar sua associa¸cão com a mortalidade infantil pós neonatal. As unidades de observa¸cão serão as microrregiões do Brasil, definidas pelo Instituto Brasileiro de Geogra-fia e Estat´ıstica (IBGE). O indicador será constru´ıdo a partir de dois métodos: (i) modelo FPEEE definido pela Organiza¸cão Mundial de Saúde (OMS), no qual identifica indica-dores simples para cada um dos dom´ınios de for¸ca motriz, pressão, estado, exposi¸cão e efeito na saúde, e agrega estes indicadores por meio de correla¸cão e média aritmética; (ii) o segundo método será a Análise Fatorial Exploratória. Os dois métodos serão compara-dos. Os resultados serão apresentados em mapas temáticos. Modelos de Regressão serão estimados, tendo como variável resposta a mortalidade infantil pós neonatal, e a variável explicativa será o indicador composto. Todas as análises foram realizadas no programa estat´ıstico R, a partir do RStudio e Python, a partir do Spyder.

Palavras-chaves: Indicador; Veicula¸c˜ao H´ıdrica; Mortalidade Infantil; Mortalidade Neo-natal; Risco.

(6)

Dedico este trabalho a todas e todos LGBTQI+ que assim como eu, tem orgulho de ser quem ´e.

(7)

Agrade¸co,

Aos meus pais, Gleice e Guilherme por cada segundo de amor, torcida e apoio nas minhas escolhas. Meu amado irmão André, que após anos de conflitos hoje me ensina o significado de cumplicidade e claro o meu imenso carinho a minha cunhada L´ıdia, pelo carinho em todos os nossos momentos juntos.

Meu namorado Max, pelas lutas, vivˆencias e por construir comigo um amor doce em meio a um mundo ´acido. E seus pais, Alessandra e Odiley, por me permitirem ser parte da fam´ılia.

Minha avó Maria do Céu pelo amor de vó e as melhores risadas com seu temperamento ´

unico. Ao meu avô paterno Oswaldo (in memoriam), pelas nossas longas conversas e seu jeito único de demonstrar amor. Ao meu avô Natalino (in memoriam), que não pude conhecer, mas que de alguma forma esteve comigo e por último ao sorriso mais lindo e a sua do¸cura de vó, minha avó materna Rosalina (in memoriam).

As minhas tias e tios pela torcida, pelo carinho e amor.

A minha madrinha e tia Ana Paula, pelas inesquec´ıveis lembran¸cas e ao Matheus, seu filho, que foi um presente que chegou quando tinha 10 anos. Te amo lind˜ao!

Minha prima Let´ıcia por ser mais que uma prima, ser uma irmã e por ser minha confidente. A minha prima Cynthia por expressar seu amor incondicional independente de qualquer limita¸cão e por me ensinar a lidar com o que é dito como diferente.

As minhas primas Gabriella, Giovanna, Paloma, St´ephanie pelas melhores festas de fim de ano.

Ao meu afilhado Lucas, por me tornar um Dindo feliz. Te amo.

As minhas amigas B´arbara, La´ıs, Rafaela e Tha´ıssa pelos nossos longos anos de ami-zade, por serem minha fam´ılia e por termos lembran¸cas t˜ao doces. Sem esquecer do carinho a cada uma de suas fam´ılias.

(8)

A Camilinha, por ser a minha fofinha, a Marcinha pelo aconchego desse cora¸cão de ouro e a Tayna, pelos nossos anos de companheirismo. Meu cora¸cão é de vocês. E por fim, a Pethra, por ser um sol nos meus dias de chuva, obrigado.

Aos meus maravilhosos amigos da UFF, por tornarem meus dias de aula o melhor lugar para se estar. Amo cada um de vocˆes do fundo do meu cora¸c˜ao.

A Moradia Estudantil da UFF, por ser um lar quando precisei, aos amigos que fiz em especial a Alexandre, Dion´ısio, Eduardo, Marlon, Matheus, Mayane e Mayara por trazerem as cores que eu precisava na minha vida.

Ao meu segundo lar, Mansão Sandra Godinho, que estava repleto dos cora¸cões de Felipe, Isis, Jorge, Juliana e Natália. Sem vocês eu não conseguiria evoluir em muitas etapas da minha vida, o meu cora¸cão também é de vocês.

A Arya, Elis e Pandora por serem os melhores animais do mundo.

Ao Renato Cerceau, por acreditar em mim a cada segundo e a ANS - Agˆencia Nacional de Sa´ude Suplementar, por ser uma escola e uma casa.

A empresa MAiS pela oportunidade de estagiar e me descobrir quanto profissional. A Estante M´agica por ser minha nova casa e me mostrar que ser feliz e trabalhar ao mesmo tempo ´e poss´ıvel.

A Camila, Gabriel e Victor, amigos que fiz na MAiS e que eu guardo no cora¸c˜ao com muito carinho e amor.

Ao Departamento de Estat´ıstica da UFF e seu corpo docente, por me ensinarem at´e onde eu poderia chegar.

A UFF por tornar isso poss´ıvel.

A minha orientadora, Ludmilla, pelo exemplo de profissional e pelo carinho que teve comigo quando quis desistir. Obrigado, vocˆe ´e maravilhosa.

E por último, a mim mesmo, por encontrar dentro de mim e em for¸cas externas, a luz para caminhar, aceitar o tempo que precisava e não desistir quando essa, foi a solu¸cão mais prática. Um salve ao meu processo cont´ınuo de evolu¸cão.

(9)

Lista de Figuras Lista de Tabelas 1 Introdu¸cão p. 15 2 Objetivos p. 18 2.0.1 Objetivos Espec´ıficos . . . p. 18 3 Materiais e Métodos p. 19 3.1 Métodos . . . p. 19 3.1.1 Constru¸cão do Indicador Integrado de Saúde e Ambiente . . . . p. 19 3.1.1.1 Método 1 - Correla¸cão e Média Aritmética . . . p. 19 3.1.1.2 Método 2 - Análise Fatorial Exploratória . . . p. 20 Modelo Fatorial Ortogonal . . . p. 20 Estima¸cão dos Parâmetros do Modelo Fatorial Ortogonal . . . . p. 26 Método dos Componentes Principais . . . p. 28 Estima¸cão dos Escores dos Fatores F . . . p. 33 3.1.2 Análise Espacial do Indicador . . . p. 33 3.1.2.1 Índice de Moran Global . . . p. 34 3.1.3 Análise de Mortalidade Infantil Pós-Neonatal . . . p. 36 3.1.3.1 Taxa de Mortalidade Infantil Pós-Neonatal . . . p. 36 3.1.3.2 Modelo de Regressão Linear Simples . . . p. 38

(10)

Prova: . . . p. 39 MRLS em forma matricial . . . p. 41 Ajuste de Reta por M´ınimos Quadrados . . . p. 42 Estima¸cão de M´ınimos Quadrados para o MRLS . . . p. 44 Coeficiente de Correla¸cão . . . p. 49 Coeficiente de Determina¸cão - R2 . . . p. 50 Análise de Res´ıduos . . . p. 50 Interpreta¸cão do RLS . . . p. 51 3.2 Material . . . p. 51

4 Resultados p. 53

4.1 Indicadores . . . p. 53 4.1.1 Análise Exploratória do Indicador pela OMS . . . p. 53 4.1.2 Resultados da Análise Fatorial Exploratória . . . p. 59 4.2 Análise Espacial do Indicador . . . p. 66 4.3 Taxa de Mortalidade Infantil Pós Neonatal . . . p. 69 4.3.1 Análise Exploratória . . . p. 69 4.3.2 Modelo de Regressão . . . p. 73 4.3.3 Análise de Sensibilidade . . . p. 75

5 Conclus˜ao p. 77

Referˆencias p. 79

Apˆendice A -- Doen¸cas selecionadas para a composi¸c˜ao do Indicador,

2015 p. 82

A . . . p. 82 B . . . p. 82

(11)

D . . . p. 83 E . . . p. 83 F . . . p. 84 G . . . p. 84 H . . . p. 84 I . . . p. 85 L . . . p. 86 M . . . p. 86 P . . . p. 86 S . . . p. 87 T . . . p. 87

Apˆendice B -- Microrregi˜oes do Brasil no ano de 2015 p. 88

Apˆendice C -- Ranking para os dez melhores e dez piores Microrregi˜oes

segundo os Indicadores Integrados de Sa´ude e Ambiente, 2015 p. 100

Apˆendice D -- Ranking para as dez melhores e dez piores Microrregi˜oes

segundo a Taxa de Mortalidade Infantil P´os Neonatal, 2015 p. 104

Apˆendice E -- Diagn´osticos dos Modelos p. 106

E.1 Modelos de Regressão Simples . . . p. 106 E.2 Análise de Sensibilidade: Modelos de Regressão Simples . . . p. 109

(12)

1 Esquema explicativo do diagrama de Moran. (Retirado e Adaptado de

Campos et al, 2013 [27] . . . p. 36 2 Matriz de Correla¸cão. Microrregiões, 2015. . . p. 54 3 Primeiro Indicador Composto de Saúde e Ambiente para Doen¸cas de

Veicula¸cão H´ıdrica. Microrregiões, 2015. . . p. 55 4 Segundo Indicador Composto de Saúde e Ambiente para Doen¸cas de

Veicula¸cão H´ıdrica. Microrregiões, 2015. . . p. 56 5 Terceiro Indicador Composto de Saúde e Ambiente para Doen¸cas de

Vei-cula¸cão H´ıdrica. Microrregiões, 2015. . . p. 57 6 Scree plot. Microrregiões, 2015. . . p. 60 7 PCA - Biplot. Microrregiões, 2015. . . p. 61 8 Quarto Indicador Composto de Saúde e Ambiente para Doen¸cas de

Vei-cula¸cão H´ıdrica. Microrregiões, 2015. . . p. 65 9 Estratifica¸cão dos Indicadores Integrados de Saúde e Ambiente, segundos

os resultados do Gr´afico de espelhamento de Moran (Box Map).

Micror-regiões, 2015. . . p. 67 10 Estratifica¸cão dos Indicadores Integrados de Saúde e Ambiente pautada

no resultado do Espelhamento de Moran com o Lisa Map. Microrregi˜oes,

2015. . . p. 68 11 Taxa de Mortalidade Infantil Pós Neonatal. Microrregiões, 2015. . . p. 69 12 Histograma para Taxa de Mortalidade Infantil Pós Neonatal.

Micror-regi˜oes, 2015. . . p. 70 13 Boxplot para a Taxa de Mortalidade Infantil P´os Neonatal.

(13)

15 Gráficos de Dispersão com a Regressão Linear para cada Indicador.

Mi-crorregiões, 2015. . . p. 74 16 Análise de Sensibilidade: Gráficos de Dispersão com a Regressão Linear

para cada Indicador. Microrregiões, 2015. . . p. 76 17 Diagnóstico do Modelo de Regressão Simples para o Indicador 1.

Mi-crorregiões, 2015. . . p. 106 18 Diagnóstico do Modelo de Regressão Simples para o Indicador 2.

Mi-crorregiões, 2015. . . p. 108 21 Análise de Sensibilidade: Diagnóstico do Modelo de Regressão Simples

para o Indicador 1. Microrregiões, 2015. . . p. 109 22 Análise de Sensibilidade: Diagnóstico do Modelo de Regressão Simples

(14)

1 ANOVA . . . p. 49 2 Indicadores simples selecionados para a constru¸c˜ao do indicador

com-posto. Microrregiões, 2015. . . p. 52 3 Indicadores criados a partir das correla¸cões. Microrregiões, 2015. . . p. 55 4 Resumo dos Indicadores Integrados de Saúde e Ambiente. Microrregiões,

2015. . . p. 58 5 Resumo dos Componentes Principais. Microrregiões, 2015. . . p. 59 6 Comunalidades. Microrregiões, 2015. . . p. 62 7 Cargas Fatoriais Rotacionadas. Microrregiões, 2015. . . p. 62 8 Cargas Fatoriais Rotacionadas e Comunalidades sem a Variável PIB.

Microrregiões, 2015. . . p. 63 9 Matriz W: Pesos Ponderados. Microrregiões, 2015. . . p. 64 10 Resumo do Quarto Indicador Integrado de Saúde e Ambiente.

Micror-regiões, 2015. . . p. 65 11 Autocorrela¸cão Espacial. Microrregiões, 2015. . . p. 66 12 Resumo da Taxa de Mortalidade Infantil Pós Neonatal. Microrregiões,

2015. . . p. 70 13 Resultados dos Modelos de Regressão Linear. Microrregiões, 2015. . . . p. 73 14 Análise de Sensibilidade: Resultados dos Modelos de Regressão Linear.

Microrregiões, 2015. . . p. 75 15 Dez melhores Microrregiões segundo o Primeiro Indicador . . . p. 100 16 Dez piores Microrregiões segundo o Primeiro Indicador . . . p. 101 17 Dez melhores Microrregiões segundo o Segundo Indicador . . . p. 101

(15)

19 Dez melhores Microrregiões segundo o Terceiro Indicador . . . p. 102 20 Dez piores Microrregiões segundo o Terceiro Indicador . . . p. 102 21 Dez melhores Microrregiões segundo o Quarto Indicador . . . p. 102 22 Dez piores Microrregiões segundo o Quarto Indicador . . . p. 103 23 Dez melhores Microrregiões segundo a Taxa de Mortalidade Inftantil Pós

Neonatal . . . p. 104 24 Dez piores Microrregi˜oes segundo a Taxa de Mortalidade Inftantil P´os

(16)

1 Introdu¸

c˜

ao

Os nascimentos no Brasil vem declinando de forma progressiva. Segundos dados do Ministério da Saúde [1] e do IBGE [2] em 2000 o número de nascidos vivos para cada mil habitantes era de 20,3 e em 2011 esse número decaiu para 15,6. Ao comparar as taxas de natalidade no Brasil com pa´ıses desenvolvidos, como por exemplo o Canadá, pode-se observar uma grande diferen¸ca já que em 2011 os números eram de 4,9 a cada mil habitantes e no mesmo ano no Brasil os números foram três vezes maiores (Santos, 2016)[3]. Por outro lado, o Brasil, em 2011, apresentou taxa de mortalidade infantil de 15,3 óbitos por mil nascidos vivos (NV), atingindo uma das metas propostas nos Objetivos de Desenvolvimento de Milênio (ODM), na área de saúde materno infantil, cujo objetivo era reduzir a n´ıveis inferiores a 15,7 óbitos por mil NV, até o ano de 2015 (Lansky et al., 2014) [4]. Ainda que as tendencias da mortalidade infantil e de nascimento no Brasil sejam de decrescimento, quando comparado aos pa´ıses desenvolvidos estas estat´ısticas são preocupantes.

A mortalidade infantil é o indicador de saúde mais usado para avaliar as condi¸cões socioeconômicas de uma localidade. A taxa de mortalidade infantil considera os óbitos infantis menores de um ano de idade. Este indicador pode ser desagregado em três grupos, respeitando a faixa de idade, a saber: mortalidade infantil neonatal precoce (até 7 dias de vida); mortalidade infantil neonatal tardia (> 7 até 28); e mortalidade infantil pós neonatal que compreende os óbitos ocorridos com mais de 28 dias de idade até 365 dias.

Estudos indicam que a mortalidade infantil neonatal é determinada pelas condi¸cões da gesta¸cão e do parto, ou seja, está associada há idade gestacional até 36 semanas, relato de realiza¸cão de menos de seis consultas de pré-natal, gesta¸cão múltipla, parto vaginal e baixo peso ao nascer do recém-nascido. (Medronho, 2008) [5]

Por outro lado, a mortalidade infantil pós neonatal é mais sens´ıvel aos fatores ambi-entais e sociais, particularmente associada às condi¸cões de infra-estrutura e saneamento habitacional e fatores nutricionais. Alguns exemplos são: necessidade de interna¸cão do

(17)

recém-nascido após a alta materna, gravidez indesejada, chefe de fam´ılia desempregado, irmão < 2 anos e mãe sem companheiro (Baldin, 2008)[6]. Portanto, este indicador re-flete as condi¸cões desfavoráveis de vida da popula¸cão, além das desigualdades regionais e socioeconômicas. (Medronho, 2008) [5]

Apesar da globaliza¸cão, muitas popula¸cões vivem em condi¸cões de vida muito precárias, seja pela falta de água potável ou pela falta de saneamento básico e infraestrutura (Car-valheiro, 2015)[7]. Muitas das morbidades relacionadas às condi¸cões precárias, princi-palmente a falta da água e saneamento, poderiam ser evitadas com pol´ıticas públicas direcionadas. No Brasil, ainda que os indicadores de cobertura de água encanada tenham mostrado aumento na propor¸cão de pessoas com acesso a água canalizada para um ou mais cômodos (Corvalan et al., 2014)[8], sabe-se que mesmo em áreas urbanas existem locais que não recebem água de rede de abastecimento pública. A falta da água potável pode levar a diversas problemáticas, tais como as doen¸cas de veicula¸cão h´ıdrica.

As doen¸cas de veicula¸cão h´ıdrica são aquelas: “[...] causadas por organismos ou ou-tros contaminantes disseminados diretamente por meio da água [...]. A falta de água também pode causar doen¸cas, pois, sua escassez impede uma higiene adequada. Incluem-se também na lista de doen¸cas de transmissão h´ıdrica, aquelas causadas por insetos que se desenvolvem na água. São inúmeros os contaminantes: microrganismos, como bactérias, v´ırus e parasitas, toxinas naturais, produtos qu´ımicos, agrotóxicos, metais pe-sados, etc.”(Secretaria de Estado da Saúde de São Paulo - SES/SP, 2009)[9].

Diante disso, a vigilância epidemiológica tem um papel fundamental para conhecer a frequência, os determinantes e a distribui¸cão das doen¸cas de veicula¸cão h´ıdrica, para assim propor áreas de tratamento e preven¸cão. Os indicadores de saúde, ambiente e sociais são ferramentas importantes para identifica¸cão das áreas de risco.

Neste contexto, a constru¸cão de indicadores integrados de saúde e ambiente é uma necessidade para as pol´ıticas públicas, visto que desempenham um papel importante na identifica¸cão de problemas e tendências socioambientais. Os indicadores integrados de saúde e ambiente revelam a condi¸cão da saúde de uma popula¸cão e sua rela¸cão com o ambiente (Hacon et al., 2005)[10]. Esses indicadores são importantes para a gestão e planejamento, já que evidenciam precariedades ambientais que podem ter alguma inter-ferência na saúde da popula¸cão local, ou seja, podem ser fatores de risco à saúde humana. Nessa perspectiva, tais indicadores representam ferramentas de alerta para situa¸cões de risco, assim como instrumentos auxiliares para monitoramento e defini¸cão de estratégias para preven¸cão de riscos.

(18)

Embora o Brasil tenha diminu´ıdo sua taxa de mortalidade infantil ao longo do tempo, considera-se que os n´ıveis atuais estão muito abaixo do potencial do pa´ıs, uma vez que os óbitos nesta faixa de idade podem ser evitados com melhorias nas condi¸cões de vida locais. Dessa forma, vale investigar mais intensamente os fatores associados, em n´ıvel populacional mais desagregado como, por exemplo, microrregiões do pa´ıs, especialmente os indicadores socioeconômicos e ambientais, a partir de indicadores integrados de saúde e ambiente, especificamente relacionados às doen¸cas de veicula¸cão h´ıdrica.

Este trabalho está organizado em cap´ıtulos: Introdu¸cão; Objetivos, este cap´ıtulo descreve o objetivo geral e os espec´ıficos; Material e Métodos, onde são apresentadas as técnicas para a constru¸cão do indicador integrado e avalia¸cão da rela¸cão com a mortalidade infantil pós neonatal, assim como a descri¸cão das variáveis de pesquisa e do banco de dados final; Resultados, está divido em se¸cões de acordo com os objetivos espec´ıficos; e Conclusão.

(19)

2 Objetivos

O objetivo principal deste trabalho é elaborar um indicador composto de saúde e ambiente para doen¸cas de veicula¸cão h´ıdrica e avaliar sua associa¸cão com a mortalidade infantil pós neonatal.

2.0.1 Objetivos Espec´ıficos

Utilizar a metologia definida pela OMS para constru¸c˜ao de indicador composto de sa´ude e ambiente;

Comparar a metodologia definida pela OMS com a técnica de análise fatorial; Avaliar espacialmente o indicador composto de saúde e ambiente;

Ajustar o modelo de regressão linear para avaliar o efeito do indicador composto de saúde e ambiente na mortalidade infantil pós-neonatal.

(20)

3 Materiais e M´

etodos

3.1 M´

etodos

3.1.1 Constru¸

c˜

ao do Indicador Integrado de Sa´

ude e Ambiente

Nessa se¸cão serão apresentados dois métodos de constru¸cão para o Indicador Integrado de Saúde e Ambiente.

3.1.1.1 Método 1 - Correla¸cão e Média Aritmética

A metodologia a ser utilizada para a constru¸cão de indicadores integrados será base-ada no modelo FPEEEA (For¸ca Motriz - Pressão - Estado - Exposi¸cão - Efeito - A¸cão), proposto por Corvalán et al. (1997) e aplicado no projeto Geo-Saúde realizado em São Paulo (PNUMA, 2008)[11]. Segundo Hacon et al. (2005) [10], este modelo procura ”ex-plicar a maneira como as várias for¸cas condutoras do desenvolvimento econômico geram pressões que afetam o estado do meio ambiente e expõem a popula¸cão a riscos que podem afetar a saúde humana.”

O indicador de For¸ca Motriz determina a estrutura e dinâmica do modelo de desen-volvimento sócio-econômico local; o indicador de Pressão determina as pressões sobre o ambiente; o indicador de Estado reflete a condi¸cão ou estado do meio ambiente; o indica-dor de Exposi¸cão baseia-se nas condi¸cões diretas consideradas de risco para a popula¸cão alvo; os indicadores de Efeitos à Saúde determinam o grau do problema de saúde.

Para a elabora¸cão dos indicadores, um conjunto de indicadores simples baseados em dados secundários dispon´ıveis em sistemas nacionais de informa¸cão, como o SIH/SUS [1] e o IBGE [2], no per´ıodo de 2000 a 2010, será selecionado para o estudo. A escolha final e defini¸cão dos indicadores de FPEEE será baseada nas correla¸cões entre os indica-dores simples. Os indicaindica-dores que apresentarem correla¸cões mais fortes e positivas com os demais indicadores definirão a cadeia FPEEE. O indicador integrado será calculado

(21)

através de média aritmética entre os indicadores de FPEEE, devidamente padronizados. A padroniza¸cão dos indicadores será baseada na seguinte fórmula 3.1:

Indicador padronizado (%) = (valor m´aximo - valor observado)

(valor m´aximo - valor m´ınimo) × 100. (3.1) E o Indicador Integrado ser´a:

Indicador Integrado = I1+ I2+ I3+ I4+ I5

5 , (3.2)

sendo Ip os indicadores simples padronizados e p = 1, . . . , 5 (um indicador para cada

dom´ınio da cadeia FPEEE).

3.1.1.2 Método 2 - Análise Fatorial Exploratória

A análise fatorial exploratória consiste, quando for poss´ıvel modelar, em explicar todas as covariâncias ou correla¸cões, utilizando algumas poucas variáveis não-observáveis ou latentes ou constructo, que são denominadas fatores comuns (Ferreira, 2008) [12]. Neste trabalho as variáveis não-observáveis representam os dom´ınios da cadeia FPEEE.

Modelo Fatorial Ortogonal

Considerando o vetor aleat´orio p-dimensional Y = [Y1, Y2, . . . , Yp]> com um vetor de

médias µ(p×1) e matriz de covariâncias Σ(p×p), então o modelo fatorial pode ser definido por

Y − µ = ΓF + ε, (3.3)

em que Γ = [γij] ´e uma matriz (p × m) de coeficientes conhecidos por cargas fatoriais de

posto m ≤ p, F é um vetor aleatório (m × 1) de fatores comuns latentes não observáveis e ε é um vetor (p × 1) de erros aleatórios ou de fatores espec´ıficos. Os elementos γij da

matriz Γ representam as cargas fatoriais associadas é i-ésima variável (Yi) e ao j-ésimo

fator (Fj).

(22)

Y1− µ1 = γ11F1+ γ12F2+ · · · + γ1mFm+ ε1 .. . ... ... ... ... ... Y1− µ1 = γi1F1+ γi2F2+ · · · + γimFm+ εi .. . ... ... ... ... ... Y1− µ1 = γp1F1+ γp2F2+ · · · + γpmFm+ εp.

Comumente, gera-se algumas suposi¸c˜oes adicionais a respeito dos fatores comuns, fatores espec´ıficos e vari´aveis, originais tais como E(Y) = µ, E(F) = E() = 0, Cov(F) = Im, Cov(Y) =P, Cov(ε) = Ψ e Cov(F, ε) = 0(m × p), sendo Ψ dada por

Ψ =        ψ1 0 · · · 0 0 ψ2 · · · 0 .. . ... . .. ... 0 0 · · · ψp        com ψi > 0, ∀i = 1, 2, . . . , p. `

A vista disso, pode-se notar que

Cov(Y) = Σ = E(Y − µ)(Y − µ)> = E(ΓF + )(ΓF + )> = E(ΓFF>Γ>) + E(ΓF>) + E(F>Γ>) + E(>) = ΓE(FF>)Γ>+ ΓE(Γ>) + E(F>)Γ>+ Ψ = ΓImΓ>+ Γ0m×p+ 0p×mΓ>+ Ψ,

resultando-se em

Σ = ΓΓ>+ Ψ. (3.4)

Dessa rela¸c˜ao podemos verificar que

Var(Yi) = σii = γ2i1+ γ 2 i2+ · · · + γ 2 im+ ψ1 (3.5) Cov(Yi, Yk) = σik = γi1γk1+ γi2γk2+ · · · + γimγkm.

(23)

Assim, como mencionado anteriormente, os fatores comuns e os fatores espec´ıficos são responsáveis por explicar as variâncias de cada variável, já as covariâncias são explicadas inteiramente pelos fatores comuns. Quando não é poss´ıvel determinar a decomposi¸cão fatorial ou quando um método de decomposi¸cão fatorial baseado na análise de componente principais. Dessa forma, os elementos da diagonal ΓΓT são nomeados de comunalidades ou variâncias comuns e definidos por

h2_i =

m

X

j=1

γ_ij2 = γ_i12 + γ_i22 + · · · + γ_im2

, correspondente à primeira parte dos fatores comuns não observáveis de uma divisão do modelo fatorial em duas partes (Yi− µ1) = ci+ εi, onde a segunda parte titulada de parte

´

unica, relacionada aos fatores espec´ıficos. Defini-se a parte comum ci por

ci = γi1F1+ γi2F2+ · · · + γimFm.

Logo, a variância da variável aleatória Yi pode ser representada por

σii = h2i + ψi,

onde a variância comum h2_i é a representa¸cão da variância dessa variável, explicada pelos fatores comuns, ou seja, descreve a variância de ci e a variância espec´ıfica ψi representa a

fra¸cão explicada pelo i-ésimo fator espec´ıfico, isto é, a variância de εi.

Determina-se a Cov(Y | F) tamb´em por

Cov(Y | F) = E[(Y − µ)(FT)] = E[(ΓF + ε)FT] = FE(FFT) + E(εFT) = ΓIm+ 0p×m,

resultando em

Cov(Y, F) = Γ.

As cargas fatoriais γij representam as covariˆancias entre a vari´avel Yi e o fator latente

comum Fj, por isso, a interpreta¸c˜ao do j-´esimo fator pode ser feita observando suas cargas

fatoriais γ1j, γ2j, . . . , γpj. Algumas vari´aveis do vetor Y, com grandes cargas de um fator,

(24)

fatorial tem como objetivo determinar as matrizes Γ, Ψ e os escores dos fatores comuns F.

´

E poss´ıvel expressar o modelo (3.3) como um modelo de regress˜ao, apresentado por Timm (2002) [13] como

E(Y|F = f ) = µ + Γf

Cov(Y|F = f ) = Ψ. (3.6)

Observa-se que dado F = f , o modelo (3.6) especializa-se em um modelo de regressão, cuja covariância condicional tem como diagonal Ψ. Deste modo, o vetor de fatores F é responsável por toda intercorrela¸cão existente entre as variáveis e por todas as rela¸cões lineares existentes entre os elementos de Y. Consequentemente, não existem correla¸cões entre os elementos do vetor de variáveis Y e embora não haja correla¸cões, as variâncias condicionadas, são heterogêneas.

Analisando-se variáveis padronizadas Z = V−1/2(Y − µ), a matriz de covariâncias é ρ. Para esse caso, o modelo fatorial (3.4) se torna

ρ = Γ?Γ?>+ Ψ?,

do qual que as cargas fatoriais γ?

ij são correla¸cões e a equa¸cão (3.18) se transforma em

Var(Zi) = 1 = γ?2i1+ γ ?2 i2+ · · · + γ ?2 im+ ψ ? i Cov(Zi, Yk) = ρik = γ?i1γ?k1+ γ?i2γ?k2+ · · · + γ?imγ?km.

Devido a cada variável padronizada Zi ser igual à unidade, então

h?2_i + ψ_i? = 1, em que h?2 i = Pm j=1γ ?2

ij, valor que representa o produto interno da i-´esima linha de

Γ? por ela mesma; entendida como a distância quadrática entre o ponto coordenado no espa¸co m-dimensional, definido pela i-ésima linha de Γ?_{, e a origem no espa¸co dos fatores.}

(25)

de reproduzir a mesma matriz de covariâncias Σ. Como a estima¸cão não é única para os parâmetros do modelo, utiliza-se de forma favorável para uma melhor interpreta¸cão dos fatores, os procedimentos de rota¸cão fatorial.

Essa caracter´ıstica pode ser demonstrada utilizando uma transforma¸c˜ao ortogonal das cargas fatoriais e dos fatores do modelo (3.3), onde considera-se uma matriz (m × m) ortogonal T, ou seja, uma matriz para a qual T>T = TT> = I. Sejam as transforma¸c˜oes ortogonais

(

Γ∗ = ΓT

F∗ = T>F, (3.7)

´

e poss´ıvel reescrever o modelo fatorial (3.3) como

Y − µ = Γ∗F∗+

= ΓTT>F + = ΓF + ,

e o modelo (3.17) pode ser reescrito por

Σ = Γ∗Γ∗>+ Ψ

= ΓTT>Γ>+ Ψ = ΓT>+ Ψ,

pois TT> = I.

As propriedades estat´ısticas permanecem as mesmas, para a matriz de covariâncias Σ e para o novo fator F∗. Como mencionado anteriormente, a comunalidade da i-ésima variável é obtida pelo produto interno da i-ésima linha de Γ por ela mesma. Seja γ∗>_i a i-ésima linha de Γ∗, a comunalidade é dada por

h∗2_i = γ∗>_i γ_i∗.

(26)

h∗2_i = γ∗>_i γ_i∗ = γ_i>TT>γi

= γ_i>γi = h2i.

Com tal caracter´ıstica, as comunalidades não são alteradas pela transforma¸cão orto-gonal, uma vez que, a transforma¸cão realizada é uma transforma¸cão ortogonal dos eixos fatoriais que não alteram as distâncias quadráticas entre o ponto definido por γi e a origem

no plano fatorial original; e entre o ponto definido por γ_i∗ e a origem no plano fatorial obtido pela rota¸c˜ao.

Um método para avaliar se as variáveis são suficientemente correlacionadas é através teste de Barlett [14], que examina a matriz de correla¸cão interna, e fornece a probabilidade estat´ıstica de que a matriz de correla¸cões possui correla¸cões, estatisticamente significativas entre pelo menos uma par de variáveis.

As hip´oteses s˜ao,

(

H0 : a matriz de correlacao da popula¸c˜ao ´e uma matriz identidade;

H1 : a matriz de correlacao da popula¸c˜ao nao ´e uma matriz identidade.

A Estat´ıstica de Teste foi criada no Software R [15], definida por: linhas = Tamanho da amostra

colunas = N´umero de vari´aveis Deter = Determinante da matriz1

corr=cor(base) Deter=det(corr)

cat("\n qobservado = ",qobs=-((linhas-1)-(2*colunas+5)/6)*log(abs(Deter)), "qTabelado = ",qchisq(0.95,df=colunas*(colunas-1)/2)).

Outro método para avaliar a adequaridade da analise fatorial é o Índice KMO (Kaiser-Meyer-Olkin) [14]. O método verifica se a matriz de correla¸cão inversa é próxima da matriz diagonal o que consiste em comparar os valores dos coeficientes de correla¸cão linear observados, com os valores dos coeficientes de correla¸cão parcial.

1_{O determinante pode ser definido como a fun¸}_c˜_{ao que transforma os valores de uma matriz quadrada}

em um n´umero real, associando uma matriz de ordem qualquer com um escalar, dependente do valor dos termos dessa matriz(Traduzido de Johnson, 2012)[16]

(27)

Dessa forma a fun¸c˜ao que calcula a matriz de correla¸c˜ao parcial foi criada no Software R, definida como: library("Rcmdr") partial.cor <- function (X, ...) { R <- cor(X, ...) RI <- solve(R) D <- 1/sqrt(diag(RI)) Rp <- -RI * (D %o% D) diag(Rp) <- 0

rownames(Rp) <- colnames(Rp) <- colnames(X) Rp

}.

A estat´ıstica KMO pode ser calculada através da fun¸cão abaixo, também criada no Software R

idiag <- seq(1, by = colunas + 1, length = colunas) somar2 <- sum((as.numeric(corr)[-idiag])^2)

cat("\n KMO = ",somar2 / (somar2 + sum((as.numeric(matcorp)[-idiag])^2))).

Baseado na defini¸cão de Hair et al (1987) [17] são aceitáveis valores entre 0, 5 a 1, 0, para o KMO. Ou seja, valores abaixo de 0.5 indicam que a Analise Fatorial é inaceitável e quanto mais perto de 1 melhor adequa¸cão de um ajuste.

Estima¸c˜ao dos Parˆametros do Modelo Fatorial Ortogonal

Os parâmetros do modelo fatorial são desconhecidos e carecem ser estimados a partir de uma amostra aleatória de tamanho n. O modelo fatorial faz sentido quando a matriz Σ difere de uma matriz diagonal ou a matriz de correla¸cões ρ difere da matriz identidade I, uma vez que as variáveis aleatórias são não-correlacionadas.

Para todos os casos que ser˜ao descritos abaixo, se assume que Y1, Y2, . . . , Yn s˜ao

vetores aleatórios p-dimensionais amostrados de uma distribui¸cão qualquer multivariada com média µ e matriz de covariâncias Σ. Para o caso particular do método da máxima

(28)

verossimilhan¸ca assumisse o modelo normal multivariado para a distribui¸cão do j-ésimo vetor aleatório Yj, j = 1, 2, . . . , n. Sendo poss´ıvel especificar os estimadores não-viesados

de µ e Σ, respectivamente por ¯ Y = Pn j=1Yj n e S = 1 n−1 Pn j=1YjY > j − (Pn j=1Yj)(Pnj=1Yj) > n .

e o estimador de m´axima verosimilhan¸ca (viesado) de Σ por

Sn =

(n − 1)S

n .

Seguindo o racioc´ınio, para modelar a matriz de correla¸cão, deve-se estimar ρ a partir da amostra aleatória dispon´ıvel. Seja para isso a matriz diagonal D1/2 dos estimadores dos desvios padrões definida por

D1/2 =        √ S11 0 · · · 0 0 √S22 · · · 0 .. . ... . .. ... 0 0 · · · pSpp        ,

ent˜ao, o estimador de ρ ´e

R = D−1/2SD−1/2 = D−1/2_n SnD−1/2n ,

sendo Dn, a matriz diagonal correspondente aos estimadores viesados das variˆancias

contidos na diagonal da matriz da matriz Sn. Concluindo que, praticamente n˜ao existem

diferen¸cas nos processos para se estimar ρ a partir de S ou de Sn.

Assumisse que não existe estimativa da matriz de covariâncias espec´ıficas para o método dos componentes principais. Para a descri¸cão a seguir, assumisse que o número m de fatores é conhecido.

(29)

M´etodo dos Componentes Principais

O m´etodo dos componentes principais baseia-se na decomposi¸c˜ao espectral2 _{da matriz}

Σ. Assim, utilizando os resultados do teorema a matriz Σ pode ser decomposta em

Σ = PΛP>= PΛ1/2ΛP>= ΓΓ>,

em que P = [e1, . . . , ep] representa a matriz constitu´ıda dos autovetores de Σ em suas

colunas e Λ = [λi] uma matriz diagonal (p × p) dos autovalores de Σ e Γ = PΛ1/2 ´e a

matriz das cargas fatoriais, dada por

Γ = PΛ1/2 =hpλ1e1,

p

λ2e2, . . . ,pλpep

i ,

sendo que as cargas do j-ésimo fator são dadas pelo j-ésimo autovetor ejde Σ multiplicado

pelo fator de escala √λj, para j = 1, 2, . . . , p, sendo λ1 > λ2 > . . . > λp.

Em fun¸cão da matriz Σ ser reproduzida exclusivamente pelas cargas fatoriais, pos-suindo mais parâmetros do que os que determinam a matriz de covariâncias populacional e ignorar os fatores espec´ıficos, esse modelo não é adequado; não possuindo utilidade prática por considerar que o número de fatores é igual ao número de variáveis (m = p), perdendo a caracter´ıstica de ser parcimonioso, e por explicar toda a variabilidade apenas pelos fatores comuns. Para a constru¸cão de um modelo parcimonioso, considera-se apenas m < p autovetores e os correspondentes m < p autovalores da matriz Σ, na qual o número de fatores é menor do que o número de variáveis. Porém, esse modelo possui o problema onde a matriz Σ não é produzida fielmente. Para essa constru¸cão, inicialmente definisse a matriz Γ = PmΛ1/2m = hp λ1e1, p λ2e2, . . . , p λmem i ,

em que Pm = [e1, . . . , em] ´e uma matriz p×m formada pelos primeiros m autovetores de Σ

em suas colunas e Λ1/2m = [

√

λi] ´e uma matriz diagonal m×m composta pela raiz quadrada

dos autovalores de Σ. Deste modo, a matriz Σ pode ser parcialmente representada por

2_Express˜_{ao de uma matriz complexa normal A como U DU}∗_{, onde U ´}_{e unit´}_{aria e D ´}_{e diagonal; U pode}

(30)

Σ ∼= ΓΓ>,

negligenciando a contribui¸cão dos últimos p − m autovalores e autovetores de Σ nesse modelo. A submatriz p × (p − m) de cargas, negligenciada, é dada por

[pλm+1em+1,

p

λm+2em+2, . . . ,pλpep].

Ocorre negligencia na contribui¸c˜ao dos fatores espec´ıficos da matriz Σ, podendo-se assim incorporar os fatores ao modelo na forma

Σ ∼= ΓΓ>+ Ψ, (3.8)

em que Ψ = diag(Σ − ΓΓ>), ou seja, ψi = σii−

Pm

j=1γij2, para i = 1, 2, . . . , p.

Conforme o modelo (3.8), ´e poss´ıvel verificar que a diagonal da matriz Σ ´e reproduzida por σii=

Pm

j=1γ

2

ij− ψi = h2i + ψi. Todavia, o modelo estruturado dessa forma, apresenta

deficiências, uma vez que, as covariâncias são reproduzidas parcialmente. A altera¸cão do modelo (3.4), apresentada na expressão (3.8) possibilita a estima¸cão das cargas fatoriais e das variâncias espec´ıficas através do modelo mais simples dos componentes principais.

A come¸car pela amostra aleat´oria de tamanho n estimasse Σ utilizando S = bP bΛ bP> e o modelo amostral resultante ´e

S ∼= bΓbΓ>+ bΨ, (3.9) sendo b Γ = bPmΛb1/2_m = q b λ1be1, q b λ2be2, . . . , q b λmbep ,

em que bPm = [be1,be2, . . . ,bem] ´e uma matriz (p × x) formada pelos primeiros m autovetores de S em suas colunas e bΛ1/2m = q b λi ´

(31)

quadrada dos autovalores de S e b Ψ = diagS − bΓbΓ> =        b ψ1 0 · · · 0 0 ψb₂ · · · 0 .. . ... . .. ... 0 0 · · · ψb_p        =        S11− bh21 0 · · · 0 0 S22− bh22 · · · 0 .. . ... . .. ... 0 0 · · · Spp− bh2p        =        S11− Pm j=1bγ 2 1j 0 · · · 0 0 S22−Pm_j=1bγ 2 2j · · · 0 .. . ... . .. ... 0 0 · · · Spp− Pm j=1bγ 2 pj        .

Com base na decomposi¸cão espectral de S exibisse os estimadores das cargas fatoriais e das variâncias espec´ıficas e a partir das expressões anteriores, verifica-se que o estimador da i-ésima comunalidade é bh2_i =Pm

j=1bγ

2

ij, para i = 1, 2, . . . , p. De modo igual as variˆancias

espec´ıficas são estimadas por bψi = Sii− bh2i. Para esse método as variâncias amostrais são

reproduzidas integralmente, mas as covariâncias são reproduzidas apenas parcialmente. O vetor (p × 1) conhecido por_bγj correspondente a j-ésima coluna do estimador da matriz de

cargas fatoriais bΓ, ´e obtido por_bγj =

q b

λjbej. Utilizando esse vetor, ´e poss´ıvel representar a soma dos quadrados da j-´esima coluna de bΓ por _bγ_j>_bγj, correspondente a

b γ_j>γ_bj = p X i=1 b γ_ij2 = q b λ1jbe > j, q b λjbe > j = bλjbe > jbej = bλj,

uma vez que_be>_j_bej = 1.

A variável da i-ésima variável pode ser decomposta em

Sii = bh2i + bψi = m X j=1 b γ_ij2 + bψi (3.10) = _bγ_i12 +_bγ_i22 + · · · +_bγ_im2 + bψi.

Desta forma, considerasse a contribui¸cão do j-ésimo fator comum para a variância da i-ésima variável, sendo estimada por_bγ2

ij, como constatada na express˜ao (3.10). Somando

(32)

o estimador da sua contribui¸c˜ao para a variˆancia total tr(S) = S11+ S22+ . . . + Spp.

Assim, a variância atribu´ıda ao j-ésimo fator comum é dada por

p

X

i=1

b

γ_ij2 = bλj,

correspondente à distância quadrática determinada pelo ponto coordenado _bγj em rela¸cão

`

a origem no plano fatorial.

Consequentemente, é poss´ıvel esclarecer a varia¸cão total atribu´ıda ao j-ésimo fator por

Pp i=1bγ 2 ij tr(S) = b λj tr(S).

Com base na decomposi¸cão espectral, a matriz de covariâncias S sendo ajustada considerando apenas as cargas fatoriais e não as variâncias especificas, da forma S ∼= bΓbΓ>, obtêm-se a matriz de res´ıduos, definida por

E∗ = S − bΓbΓ> = bP bΛ bP>− bPmΛb_mPb>_m.

Considerando a soma de quadrados dos elementos da matriz E∗, tˆem-se

tr(E∗>E∗) = tr bP bΛ2Pb> − 2trPb_mΛb2_m0Pb>_m + tr b PmΛb2_mPb>_m , na qual a matriz diagonal Λ2_m0 ´e dada por

Λ2_m0 = m p − m Λ2 m 0 m, e Λ2

m×p= diag[bλi] ´e a matriz diagonal m × m dos autovalores para o modelo reduzido e

0 ´e uma matriz de zeros (p − m) × m. Sendo assim, utilizando a propriedade do tra¸co3

3_{O tra¸}_{co (tr) de uma matriz quadrada de ordem n ´}_{e a soma de todos os elementos da diagonal}

(33)

dada por tr(AB) = tr(BA), simplificasse a express˜ao anterior por tr(E∗2) = p X i=1 b λ2_i − 2 m X i=1 b λ2_i + m X i=1 b λ2_i = p X i=1 b λ2_i − m X i=1 b λ2_i = p X i=m+1 b λ2_i.

Estimasse a matriz E∗2 como o desvio de um modelo fatorial contendo apenas os m fatores comuns, desprezando os fatores espec´ıficos. Porém, no modelo (3.9) as variâncias espec´ıficas são contempladas e a matriz de res´ıduos é especificada por:

E = S − ΓΓ>− Ψ.

A soma de quadrados dos res´ıduos estabelecida por tr(E2) possui limite superior, considerando as demonstra¸c˜oes anteriores e que E difere de E∗ pelo fato dos elementos da diagonal principal serem nulos em E, determinada por

tr(E2) = p X i=1 p X j=1 e2_ij ₆ p X i=m+1 b λ2_i.

Deste modo, a quantidade é utilizada para avaliar a qualidade do ajuste do modelo, uma vez que, os res´ıduos sendo pequenos em módulos, os p − m últimos autovalores são pequenos e a soma de quadrados, também é pequena. Assim sendo, quanto menor for a soma de quadrados dos últimos p − m autovalores de S, melhor a qualidade do ajuste. O método dos componentes principais, avalia a qualidade do ajuste, sem o calculo do limite superior para a soma de quadrados do res´ıduo, onde calculasse diretamente e utilizasse esse critério para validar o atributo do ajuste do modelo fatorial.

Segundo Reis (1997) [18] o critério da porcentagem da variância explicada está fun-damentado na conquista de um percentual cumulativo da variância total extra´ıda por fatores sucessivos. O número é determinado de modo que o conjunto de fatores explique uma porcentagem m´ınima da variabilidade global, de modo que se obtenha a significância dos fatores. Para o presente trabalho pode-se estipular um n´ıvel de explica¸cão de pelo menos 70% da variabilidade para ter uma explica¸cão “razoável” e de 90% pra obter uma explica¸cão considerada “ótima” do total dos dados.

(34)

Estima¸c˜ao dos Escores dos Fatores F

Segundo Lattin et al; (2010) [19] os escores s˜ao valores num´ericos para cada elemento amostral. Para cada elemento amostral k, k = 1, · · · , n, o seu escore no fator Fj, j =

1 · · · , m, ´e calculado como:

b

Fjk = Wj1Z1k+ Wj2Z2k+ · · · + WjpZpk, (3.11)

onde:

(Z1k, Z2k,...,Zpk são valores observados das variáveis padronizadas Zi para o k-ésimo

elemento amostral;

Wji, i = 1, . . . , p são os pesos de pondera¸cão de cada variável Zi no fator Fj.

´

E poss´ıvel obter Wji por 3 m´etodos, para o presente trabalho foi escolho o m´etodo

dos m´ınimos quadrados ponderados, descrito como:

ˆ

Fjk = ( ˆL0ψˆ−1L)ˆ −1Lˆ0ψˆ−1Zk= Wm×pZk (3.12)

Wm×p= ( ˆL0ψˆ−1L)ˆ −1Lˆ0ψˆ−1.

O indicador de saúde e ambiente será a média das variáveis latentes resultantes do modelo fatorial ortogonal estimado.

3.1.2 An´

alise Espacial do Indicador

A análise espacial pode ser definida como o estudo quantitativo dos fenômenos alo-cados no espa¸co e tem como objetivos descrever a distribui¸cão espacial, os clusters4 es-paciais, verificar a existência ou não existência de processamentos espaciais e por fim a identifica¸cão de observa¸cões incomuns (outliers.) (Hadaad, 2006)[21].

Com o intuito de descrever e/ou explicar esses fenômenos, existem métodos que ex-plicam situa¸cões onde dispõem-se de dados observados a partir de um certo sistema que

4_Defini¸_c˜_{ao utilizada para formar grupos homogˆ}_{eneos atrav´}_{es de medidas de proximidade, semelhan¸}_ca,

(35)

opera no espa¸co. Estes dados são dividios em três categorias: dados padrão de pontos, dados espacialmente cont´ınuos e dados de área.

Para o presente trabalho foi realizada a análise para dados de área, uma vez que, os dados estão relacionados com mapas geográficos. Com o intuito de verificar a existência de dependência espacial entre os dados calcula-se as medidas de autocorrela¸cão espacial e autocorrela¸cão local, onde mede-se a correla¸cão para a mesma variável. Para a verifica¸cão proposta utilizou-se o Índice de Moran Global.

3.1.2.1 ´Indice de Moran Global

Proposto por Luc Anselin (1994) [22] o Índice de Moran Global é uma estat´ıstica afim de medir a existência de autocorrela¸cão espacial entre os vizinhos, ou seja, avalia a seme-lhan¸ca do indicador entre os vizinhos, e leva em considera¸cão uma matriz de proximidade definida como matriz W5. Quanto mais próximo de -1 ou 1, mais forte é a correla¸cão.

Para facilitar a explica¸cão do Índice de Moran Global, se faz necessária a defini¸cão do Índice de Moran Local; definida como uma ferramenta estat´ıstica que possibilita avaliar

os outliers espaciais. Sua f´ormula ´e descrita como:

Ii = zi×

X

j

wij × zj. (3.13)

Onde:

wij é o valor na matriz de proximidade espacial para a região i com a região j em

fun¸c˜ao da distˆancia entre eles;

zi e zj são os desvios em rela¸cão à média.

O Índice de Moran Local permite a interpreta¸cão da indica¸cão de não estacionariedade espacial (outliers) e a possibilidade de testar as hipótese sobre interdependência dos dados.

As hip´oteses s˜ao:

(

H0 : I = 0 ,existe independˆencia espacial entre os dados;

H1 : I 6= 0 ,existe dependˆencia espacial entre os dados.

5_{Uma matriz W (n×n) com elementos w}

ijque representam uma medida de proximidade espacial entre

´

(36)

Por consequência é poss´ıvel relacionar o Índice de Moran Local e o Global, que define o I global como: I = Pn i=1 Pn j=1wij(zi− z)(zj− z) Pn i=1(zi− z)2 . (3.14) Onde:

n é o número de observa¸cões;

zi e zj são os desvios em rela¸cão à média;

z é o valor médio para a região de estudo; P wij é a matriz de proximidade.

´

E de importância ressaltar que para o cálculo do Índice Global de Moran, é necessário determinar uma quantidade de k vizinhos. Essa quantidade será determinado pela média da contagem de vizinhos para cada microrregião.

Para visualiza¸cão do presente trabalho, serão utilizadas técnicas gráficas, tais como Box Map e Lisa Map que são baseadas no resultado do Índice de Moran Local e Gráfico de Espalhamento de Moran (Rodrigues et al., 2008 [24]; Gon¸calves, 2007 [25]; Atanaka-Santos et al., 2007 [26]; Hadaad, 2006 [21])

Para a constru¸cão do Box Map é necessária a classifica¸cão dos objetos de estudo a partir do Gráfico de Espalhamento de Moran, este gráfico indica diferentes regimes espaciais nos dados e é descrito, de maneira espacial, como a rela¸cão entre os valores do vetor de desvios (z) e os valores de médias locais (Wz). Por fim o Box Map é gerado

quando cada objeto é classificado conforme sua posi¸cão em rela¸cão aos quadrantes do gráfico de espalhamento.

Os quadrantes podem ser visualizados na Figura 1 e descritos como

Q(+/+) = valores positivos, m´edias positivas;

Q(-/-) = valores negativos, médias negativas - regiões (microrregiões) com valor de atributo considerável, estão cercados de regiões com comportamento similar; Q(+/-) = valores positivos, médias negativas;

(37)

Q(-/+) = valores negativos, m´edias positivas - uma regi˜ao possui vizinhos com valores distintos.

Figura 1: Esquema explicativo do diagrama de Moran. (Retirado e Adaptado de Campos et al, 2013 [27]

Para a confeçcão do Lisa Map, a significância dos valores do Índice de Moran Local obtido para cada objeto, é avaliada em rela¸cão à hipótese nula de não existência de autocorrela¸cão espacial. Assim, os objetos são classificados em grupos: Q(+/+), Q(-/-), Q(+/-), Q(-/+) e Não significativo.

3.1.3 An´

alise de Mortalidade Infantil P´

os-Neonatal

Mortalidade infantil refere-se aos óbitos sucedidos ao longo do per´ıodo antes de se completar a idade de 1 ano. É usualmente medida pela taxa de mortalidade infantil. Podendo ser medida pela propor¸cão de óbitos de menores de um ano, com rela¸cão ao total de óbitos registrados em uma determinada área e per´ıodo. (Medronho, 2008) [5]

3.1.3.1 Taxa de Mortalidade Infantil P´os-Neonatal

A taxa de mortalidade infantil (TMI), pode ser similarmente chamada de coeficiente de mortalidade infantil. Para o estudo em quest˜ao, ser´a utilizado o termo TMI – Taxa de

(38)

Mortalidade Infantil.

A TMI é uma estimativa do risco de morte a que está exposta uma popula¸cão de nascidos vivos em uma determinada área e per´ıodo, antes de 1 ano de vida completo. Como descrito anteriormente, a TMI relaciona os óbitos de indiv´ıduos pertencentes a uma coorte 6 _{de nascidos vivos antes de completar um ano de vida; descrevendo-se como}

uma estimativa direta do risco de morte ou “incidˆencia de morte” experimentado por uma coorte de nascidos vivos ao longo do primeiro ano de vida.

A equa¸c˜ao que representa a TMI est´a descrita abaixo (3.15)

TMI = Número de óbitos de crian¸cas menores de um ano, da área A no per´ıodo P

N´umero de nascidos vivos da ´area A no per´ıodo P × 100.000. (3.15) Onde:

´

Area A = Microrregi˜oes do Brasil; Per´ıodo P = Ano de 2015.

O risco de morte varia ao longo do primeiro ano de vida, especialmente quando se considera as causas de óbito e seus respectivos fatores determinantes. Por consequência, a TMI, é subdividida em três componentes, denominados, neonatal precoce, neonatal tardia e pós-neonatal. Para o tema em questão será utilizada a taxa de mortalidade infantil pós-neonatal (TMIPN).

A TMIPN é uma estimativa do risco de morte associada a popula¸cão de nascidos vivos em certa área e per´ıodo, desde os 28 dias de idade até um ano incompleto de vida. Sendo calculada pela fórmula abaixo (3.16)

TMIPN = Número de óbitos de 28 dias até um ano de vida, da área A no per´ıodo P

N´umero de nascidos vivos da ´area A no per´ıodo P × 1000. (3.16) Sendo:

´

Area A = Microrregi˜oes do Brasil; Per´ıodo P = Ano de 2015.

6_{Uma coorte ´}_{e um grupo de pessoas que partilham algo em comum, como o mesmo ano de nascimento,}

(39)

3.1.3.2 Modelo de Regress˜ao Linear Simples

Sendo Y uma variável aleatória de interesse, diversas vezes denominada variável res-posta, e seja X uma variável aleatória que, para este estudo, será denominada auxiliar ou regressora. O modelo de regressão linear simples descreve a variável Y como uma soma de quantidade determin´ıstica e uma quantidade aleatória. A parte determin´ıstica, uma reta em fun¸cão de X, representa a informa¸cão sobre Y que já pode ser “esperada”, apenas com o conhecimento prévio da variável X. A parte aleatória, denominada erro, representa os inúmeros fatores que, conjuntamente, podem interferir em Y (Charnet, 1999) [28].

Pode-se interpretar que o erro provoca uma distor¸cão sobre a parte determin´ıstica na defini¸cão de Y . Supondo-se erros positivos ou negativos que possam ocorrer, tem-se que o erro possui esperan¸ca igual a zero. Nesse contexto, por suposi¸cão, a variável erro não depende do valor espec´ıfico de X.

Utilizando-se β0 e β1 para denotar os coeficientes da reta, , a vari´avel erro, σ2, a

variância da variável erro, e x, um valor espec´ıfico da variável X, pode-se sintetizar o modelo de regressão linear simples (MRLS) da seguinte forma:

Y = β0 + β1x + , (3.17)

onde:

β0, β1 e x : s˜ao constantes;

E[] = 0; Var[] = σ2_.

Para o estudo, por suposi¸cão, o modelo de probabilidade do erro é o modelo normal. Neste caso, podemos sumarizar o modelo de regressão linear simples normal (MRLS) na forma:

Y = β0 + β1x + , (3.18)

onde:

β0, β1 e x : s˜ao constantes;

∼ N (0, σ2).

(40)

de normalidade do erro.

Resultado 1.1

A distribui¸c˜ao de probabilidade de Y , corresponde ao valor prefixado, x, de X, dada por:

Y ∼ N (β0+ β1x; σ2). (3.19)

Prova:

Perante o modelo de regress˜ao linear simples, Y ´e a soma de uma constante, β0 + β1x

com a variável aleatória ε, de modelo N (0, σ2). Desta maneira, para o valor x de X, Y é normal com parâmetros:

E[Y |x] = E[β0+ β1x + ε] = E[β0+ β1x] + E[ε] = β0+ β1x + 0 = β0+ β1x. Var[Y |x] = Var[β0+ β1x + ε] = Var[β0+ β1x] + Var[ε] = 0 + σ2 = σ2. ⇒ Y ∼ N (β0+ β1x; σ2). O Resultado 1.1 mostra que a esperan¸ca de Y , para X = x, ´e β0+ β1x. Desta forma,

pode-se interpretar o parˆametro β1 como a mudan¸ca esperada em Y , correspondente ao

aumento de uma unidade em X.

Até o presente momento foi abordado o modelo de regressão linear simples com a suposi¸cão dos parâmetros conhecidos e as demais suposi¸cões atendidas.

(41)

Deste ponto em diante tem-se como enfoque a inferência estat´ıstica sobre o modelo. Será apresentado o modelo amostral, correspondente ao modelo de regressão linear sim-ples. Ou seja, será discutida a obten¸cão de uma amostra aleatória, que constituirá a base para a estima¸cão do modelo e, após adequa¸cão do modelo, as inferências para a popula¸cão geral. Nesse estudo será tratado apenas a defini¸cão da amostra, através da defini¸cão do modelo de regressão linear simples amostral. Denomina-se modelo de regressão li-near simples amostral o conjunto de suposi¸cões já apresentadas sob o modelo de regressão linear simples, acrescido da suposi¸cão sobre a rela¸cão entre as unidades amostrais.

Pode-se considerar duas maneiras para obten¸cão de uma amostra: valores de X, prefixados e para estes valores obten¸cão de observa¸cões independentes de Y , ou, obten¸cão de uma amostra de (X, Y ). Em ambos os casos, existe uma amostra de tamanho n, sendo x1, x2, ..., xn os valores prefixados de X, ou os valores observados de X, e y1, y2, ..., yn os

correspondentes valores observados de Y .

Substanciando o modelo de regress˜ao linear simples amostral (MRLS - Amostral), temos: yi = β0+ β1xi+ i, (3.20) onde: β0, β1 e xi : s˜ao constantes; E[i] = 0; Var[i] = σ2; Cov[i, j] = 0 , i 6= j; i, j = 1, ..., n.

E, correspondendo ao modelo de regress˜ao linear simples quando o modelo de proba-bilidade de erro ´e o modelo normal, temos o modelo amostral abaixo:

Y = β0+ β1xi+ i, (3.21) onde: β0, β1 e xi : s˜ao constantes; E[i] ∼ N (0; σ2). Cov[i, j] = 0 , i 6= j; i, j = 1, ..., n.

(42)

Deste ponto em diante, o uso do modelo de regressão linear simples amostral se dá com a suposi¸cão de normalidade do erro.

MRLS em forma matricial

Anteriormente foi visto que a amostra aleatória sob o modelo de regressão linear é dada por: y1 = β0+ β1x1+ 1 y1 = β0+ β1x2+ 2 . . . yn= β0+ β1xn+ n i ∼ N (0; σ2) Cov[j, i] = 0, i 6= j; i, j = 1, ..., n, β0 e β1, constantes desconhecidas, x1, ..., xnconstantes conhecidas.

Expressa-se este modelo usando nota¸c˜ao matriarcal. Seguem os vetores:

y =        y1 y2 .. . yn        , =        1 2 .. . n        e β = " β0 β1 # . (3.22) E seja a matriz X: X =        1 x1 1 x2 .. . ... 1 xn        ,

denominada matriz do modelo. Ent˜ao,

Xβ + =        1 x1 1 x2 .. . ... 1 xn        " β0 β1 # +        1 2 .. . n        =        β0+ β1x1+ 1 β0+ β1x2+ 2 .. . β0+ β1xn+ n        =        y1 y2 .. . yn        = y.

(43)

O vetor aleatório é composto de variáveis independentes, com distribui¸cão N (0; σ2). Assim sendo, o vetor de esperan¸cas dos elementos de é o vetor nulo de dimensão n e a matriz, cuja diagonal é formada pelas variâncias e os demais elementos são as covariâncias, conhecida por        σ2 0 0 · · · 0 0 σ2 _{0 · · ·} ₀ .. . ... ... . .. ... 0 0 0 · · · σ2        = σ2I,

sendo I a matriz identidade de ordem n. Resumi-se o MRLS amostral pela forma:

y = Xβ + . (3.23)

onde: ∼ N (0; σ2_I). _(3.24)

Ajuste de Reta por M´ınimos Quadrados

O m´etodo de m´ınimos quadrados tem como objetivo solucionar a escolha de uma reta que melhor se ajuste a um conjunto de n pontos (x1, y1), (x2, y2), . . . , (xn, yn). Seja

y = a + bx a representa¸cão de uma reta genérica, onde a e b são valores reais. O objetivo é encontrar o argumento m´ınimo da fun¸cão 3.25, onde a ∈ < e b ∈ <.

O estimador ˆβ por m´ınimos quadrados ´e definido por:

ˆ β = argmin n X i=1 [yi − (a + bxi)]2 ! . (3.25)

Para encontrar esse argumento que minimiza a fun¸cão é necessário obter as seguintes derivadas parciais: ∂ ∂a n X i=1 [yi− (a + bxi)]2, e ∂ ∂b n X i=1 [yi− (a + bxi)]2.

(44)

cr´ıticos7.

Denomina-se por â e ˆb os valores que minimizam a fun¸cão e obtêm-se o sistema:

−2 n X i=1 [yi− (â + ˆbxi)]2 = 0, −2 n X i=1 [yi− (â + ˆbxi)]2xi = 0, ou ainda, n X i=1 yi− nâ − ˆb n X i=1 xi = 0, (3.26) n X i=1 xiyi− â n X i=1 xi− ˆb n X i=1 x2_i = 0, (3.27)

denominado sistema de equa¸cões normais. Pela equa¸cão (3.26), obtêm-se

nˆa = n X i=1 yi− ˆb n X i=1 xi ⇒ ˆa = 1 n n X i=1 yi− ˆb 1 n n X i=1 xi,

logo, substituindo na equa¸c˜ao (3.27), tˆem-se

n X i=1 xiyi− 1 n n X i=1 yi− ˆb 1 n n X i=1 xi ! _n X i=1 xi− ˆb n X i=1 x2_i = 0 ⇒ n X i=1 xiyi− 1 n n X i=1 yi n X i=1 xi+ ˆb 1 n n X i=1 xi !2 − ˆb n X i=1 x2_i = 0 ⇒ ˆb = Pn i=1xiyi− 1 n Pn i=1yi Pn i=1xi Pn i=1x 2 i − n1 ( Pn i=1xi) .

7_{Ponto cr´ıtico ´}_{e um ponto no dom´ınio de uma fun¸}_c˜_{ao onde a primeira derivada ´}_{e nula ou n˜}_{ao ´}_{e definida}

(45)

E assim encontram-se â e ˆb, pontos cr´ıticos da fun¸cão 3.25. Esse ponto cr´ıtico não necessariamente é ponto de m´ınimo, como deseja-se, o mesmo pode ser também ponto de máximo ou inflexão.

Porém é poss´ıvel notar que não existe um ponto máximo para esta fun¸cão, uma vez que, para qualquer reta que passe totalmente acima (ou abaixo) dos pontos, pode-se apontar outra reta cuja soma dos quadrados das diferen¸cas é ainda maior. Logo, o ponto extremo é ponto de m´ınimo.

Portanto, sejam ˆyi = ˆa + ˆbxi, para i = 1, . . . , n os valores da reta de m´ınimos

qua-drados, ajustada ao conjunto de n pontos (x1, y1), (x2, y2), . . . , (xn, yn). Chama-se de ˆyi a

estimativa da vari´avel resposta.

Desta forma, é poss´ıvel definir a fun¸cão ˆyi = â + ˆbxi substituindo â por

Estima¸c˜ao de M´ınimos Quadrados para o MRLS

Os estimadores de m´ınimos quadrados para os parˆametros β0 e β1 s˜ao definidos

con-forme a solu¸c˜ao de m´ınimos quadrados, s˜ao eles

ˆ β0 = y − ˆβ1x, ˆ β1 = Pn i=1(yi− y)(xi− x) Pn i=1(xi− x)2 ou Pn i=1yi(xi− x) Pn i=1(xi− x)2 .

Pelo Resultado 1.1 sob o MRLS Y |x ∼ N (β0+ β1x; σ2), tˆem-se

yi ∼ N (β0+ β1x; σ2),

independentes para i = 1, . . . , n. Os estimadores ˆβ0 e ˆβ1 possuem distribui¸c˜ao normal por

serem combina¸c˜oes lineares de y1, . . . , yn.

(46)

E[ ˆβ1] = E Pn i=1yi(xi− x) Pn i=1(xi− x)2 = _P_n 1 i=1(xi− x) 2 n X i=1

(xi− x) E[yi], por linearidade da esperan¸ca

= 1 Pn i=1(xi− x) 2 n X i=1 (xi− x) (β0+ β1xi) = 1 Pn i=1(xi− x) 2      β0 n X i=1 (xi− x) | {z } 0 +β1 n X i=1 xi(xi− x)      = _P_n β1 i=1xi(xi− x)2 n X i=1 xi(xi− x) = _P_n β1 i=1xi(xi− x)2 n X i=1 (xi− x)(xi− x) = β1.

A esperan¸ca de ˆβ0, expressa em termos de ˆβ1, ´e

E[ ˆβ0] = E[y − ˆβ1x] = E[y] − xE[ ˆβ1] = 1 nE " _n X i=1 yi # − xE[ ˆβ1] = 1 n n X i=1 (β0 + β1xi) − xβ1 = β0+ β1 Pn i=1xi n − xβ1 = β0.

Notasse que os estimadores de m´ınimos quadrados de ˆβ0 e ˆβ1 s˜ao n˜ao viciados.

(47)

Var[ ˆβ1] = Var Pn i=1yi(xi − x Pn i=1(xi− x)2 = 1 [Pn i=1xi(xi− x)2] 2 n X i=1 Var(yi) | {z } σ2 (xi− x)2 = σ 2 [Pn i=1xi(xi− x)2] 2 n X i=1 (xi− x)2 = σ 2 Pn i=1(xi− x)2 . Var[ ˆβ0] = Var[y − ˆβ1x]

= Var[y] + Var[ ˆβ1x] − 2Cov[y, ˆβ1x]

= σ 2 n + x 2 σ 2 Pn i=1(xi− x)2 − 0 = σ2 1 n + x2 Pn i=1(xi− x) .

Em conclusão, obtêm-se a covariância entre ˆβ0 e ˆβ1

Cov[ ˆβ0, ˆβ1] = Cov[y − ˆβ1x, ˆβ1] = Cov[y, ˆβ1] + Cov[− ˆβ1, ˆβ1] = 0 − xVar[ ˆβ1] = −xσ 2 Pn i=1(xi − x)2 .

Assim, as distribui¸c˜oes de ˆβ0 e ˆβ1 s˜ao:

ˆ β0 ∼ N β0; σ2 1 n + x2 Pn i=1(xi− x)2 , (3.28) e ˆ β1 ∼ N β1; σ2 Pn i=1(xi− x)2 . (3.29)

(48)

Portanto ˆy ´e definido por:

ˆ

yi = ˆβ0+ ˆβ1xi. (3.30)

Necessita-se estimar a variância do erro, σ2, que representa a distor¸cão à reta. O estimador de m´ınimos quadrados de σ2 é

ˆ σ2 = Pn i=1(yi− ˆyi) 2 n − 2

Este estimador ´e n˜ao viciado e, sob o modelo MRLS, (n − 2)ˆσ2

σ2 ∼ χ 2

(n−2). (3.31)

Logo, a variˆancia de ˆσ2 _´_e

Var[ˆσ2] = 2(σ

2₎2

n − 2.

A partir das distribui¸cões em (3.28), (3.29) e (3.31), defini-se os intervalos de confian¸ca para os parâmetros, a contar da variável dada em (3.31) e das seguintes quantidades pivotais: ˆ β0− β0 r ˆ σ2h1 n + x2 Pn i=1(xi−x)2 i ∼ t(n−2), ˆ β1− β1 r h ˆ σ2 Pn i=1(xi−x)2 i ∼ t(n−2). (3.32)

Os intervalos de confian¸ca (1 − α)100 para os parˆametros β0, β1 e σ2 s˜ao

respectiva-mente ˆ β0± t(α_/2,n−2) s ˆ σ2 1 n + x2 Pn i=1(xi− x)2 ,

(49)

ˆ β1± t(α_/2,n−2) s ˆ σ2 Pn i=1(xi− x)2 , e " Pn i=1(yi− ˆyi) 2 χ2 (α_/2,n−2) ; Pn i=1(yi− ˆyi) 2 χ2 (1−α_/2,n−2) # .

Como primeira etapa na an´alise estat´ıstica, testa-se as hip´oteses: (

H0 : β1 = 0;

H1 : β1 6= 0.

que avaliam a contribui¸cão da variável regressora X para a explica¸cão da variável Y , uma vez que se H0 for verdadeira, essa contribui¸cão não é significativa.

Considerando o MRLS e a distribui¸c˜ao em (3.32), sob H0, tˆem-se,

ˆ β1 r h ˆ σ2 Pn i=1(xi−x)2 i ∼ t(n−2). (3.33)

Em um teste de n´ıvel de significˆancia α rejeita-se H0, se a estat´ıstica de teste for maior que

t(α_/₂_)(n−2). Em virtude da distribui¸cão do quadrado da variável aleatória com distribui¸cão

t de Student com n graus de liberdade for uma vari´avel com distribui¸c˜ao F com 1 e n graus de liberdade, equivalentemente, rejeita-se H0, quando o quadrado da estat´ıstica em

(3.33), ˆ β₁2 ˆ σ2 Pn i=1(xi− x)2 = ˆ β2 1 Pn i=1(xi− x) 2 ˆ σ2 , (3.34)

for maior do que F(n−2)(α), o quantil (1 − α) de distribui¸c˜ao F com 1 e (n − 2) graus de

liberdade.

Nota-se que os testes realizados anteriormente comparam variâncias, apesar do parâmetro testado fazer parte da defini¸cão de esperan¸ca.

As quantidades necess´arias para calcular o valor observado da estat´ıstica de teste, s˜ao comumente dispostas na Tabela abaixo, denominada tabela de ANOVA.

Pela Tabela (1) tˆem-se: SQT → Pn

i=1(yi− y)2´e soma de quadrados total (ajustada), ou seja, representa¸c˜ao

(50)

Tabela 1: ANOVA Fonte GL SQ QM F0 (Fonte de varia¸c˜ao) (Graus de liberdade) (Soma de quadrados) (Quadrado m´edio)

Regress˜ao 1 SQReg SQReg SQReg

SQE_/(n − 2)

Erro n − 2 SQE SQE_/_{(n − 2)}

Total n − 1 SQT

SQE → Pn

i=1(yi − ˆyi)

2 _´_{e soma de quadrados do erro, ou seja, representa¸c˜}_{ao da}

varia¸c˜ao total de Y em torno da reta; SQReg →

Pn

i=1(ˆyi− y)2 é soma de quadrados da regressão, ou seja, representa¸cão

das esperan¸cas de Y , dado x, em torno da sua m´edia.

Coeficiente de Correla¸c˜ao

Considerando duas variáveis aleatórias X e Y com variâncias σ2

xe σy2, respectivamente,

e covariância Cov[X, Y ]. O coeficiente de correla¸cão é definido por

ρ(X, Y ) = Cov[X, Y ] pσ2

xσy2

.

Composto pelo produto dos desvios padrões das variáveis X e Y , o denominador de ρ(X, Y ), tem como objetivo padronizar; e assim tornar o coeficiente de correla¸cão isento de unidades de medidas de X e Y . E por fim, medir a poss´ıvel rela¸cão linear existente entre as variáveis aleatórias X e Y , de forma que:

ρ(X, Y ) ´e sempre um valor entre -1 e 1;

quanto maior a tendência de uma rela¸cão linear positiva, ρ(X, Y ) tem valor mais próximo de 1;

quanto maior a tendência de uma rela¸cão linear negativa, ρ(X, Y ) tem valor mais próximo de -1;

(51)

Coeficiente de Determina¸c˜ao - R2

O coeficiente de determina¸c˜ao, R2_{, descrito abaixo, ´}_{e a propor¸c˜}_{ao da variabilidade}

dos Y ’s observados, explicada por um modelo considerado.

R2 = SQReg SQT .

O valor de R2 _´_{e pertencente a um intervalo [0, 1] e, quanto mais pr´}_{oximo de 1, melhor}

o ajuste.

An´alise de Res´ıduos

Os res´ıduos de um modelo de regress˜ao, ´e definido por:

ei = yi− ˆyi,

onde: E[ei] = 0;

Var[ei] = Var(yi) + Var(ˆyi) − 2Cov(yi, ˆyi);

Cov(ei, ej) = σ2 h 1 −_n1 − (xi−x)2 Pn i=1(xi−x)2 i , para i 6= j.

Algumas transforma¸c˜oes s˜ao propostas para os res´ıduos:

1. Res´ıduo padronizado:

Zi = √ e_ˆi V ar(ei)

,

onde σ2 _´_{e substitu´ıdo por ˆ}_σ2_.

2. Res´ıduo estudentizado:

Z_i∗ = √ ei

ˆ V ar(ei)

,

onde ˆσ2é substitu´ıdo por ˆσ2_(i). Sendo ˆσ_(i)2 definido como a soma de quadrados médios dos res´ıduos do modelo ajustado sem utilizar a i-ésima observa¸cão.