• Nenhum resultado encontrado

Estimação em populações finitas assistida por modelos para variáveis dicotômicas

N/A
N/A
Protected

Academic year: 2021

Share "Estimação em populações finitas assistida por modelos para variáveis dicotômicas"

Copied!
143
0
0

Texto

(1)˜ EM POPULAC ˜ ESTIMAC ¸ AO ¸ OES FINITAS ASSISTIDA POR ´ ˆ MODELOS PARA VARIAVEIS DICOTOMICAS. ´ POVEDA LUZ MARINA RONDON. Orientador: Prof. Dr. Cristiano Ferraz Co-orientadora: Prof. Dra. Carla Almeida Vivacqua ´ Area de Concentrac¸a ˜o: Estat´ıstica Aplicada. Dissertac¸a ˜o submetida como requerimento parcial para obtenc¸a ˜o do grau de Mestre em Estat´ıstica pela Universidade Federal de Pernambuco. Recife/PE Dezembro de 2006.

(2) Rondón Poveda, Luz Marina Estimação em populações finitas assistida por modelos para variáveis dicotômicas / Luz Marina Rondón Poveda. – Recife : O Autor, 2006. x, 130 folhas : il., fig., quadros. Dissertação (mestrado) – Universidade Federal de Pernambuco. CCEN. Estatística, 2006. Inclui bibliografia e apêndices. 1. Estatística aplicada – Amostragem. 2. Estimadores de regressão, GREG (Generalized Regression Estimator) e LGREG (Logistic Generalized Regression Estimator) – Estratificação Estimadores separados e combinados. 3. Pseudoverossimilhança – Variáveis dicotômicas – Estimação. I. Título. 311.213.2 519.52. CDU (2.ed.) CDD (22.ed.). UFPE BC2006 – 581.

(3)

(4) Ao grande amor da minha vida, Luis Hernando, ea ` minha m˜ ae, Alicia.. i.

(5) Agradecimentos. Quero agradecer ... A Deus pela minha vida e pelas forc¸as para seguir o caminho que a `s vezes parecia muito dif´ıcil. Ao meu esposo, Luis Hernando, por me ensinar que e´ maior a pessoa que se levanta depois de escorregar, enquanto caminhava, que aquela que n˜ ao se atreveu a caminhar para n˜ ao escorregar. Por estar sempre com os brac¸os abertos e um bom conselho no momento oportuno, pela compreens˜ ao, paciˆ encia, atenc¸a ˜o, incentivo, ajuda, carinho e apoio incondicional por ele sempre oferecidos. Enfim, por todos os momentos de alegria e amor que me tem dedicado. Aos meus pais, Noe e Alicia, pela educac¸a ˜o, carinho e apoio, em especial a minha m˜ ae, pelo seu imensur´ avel esforc¸o e dedicac¸a ˜o. Aos meus irm˜ aos, Jeisson pelo carinho e Lizbeth pelos momentos de alegria e comprenss˜ ao que tem me proporcionado. Ao meu orientador Cristiano Ferraz, pela oportunidade concedida, confianc¸a, apoio, incentivo, disponibilidade, competˆ encia, paciˆ encia, e excelente orientac¸a ˜o. Ao Programa de Mestrado em Estat´ıstica da Universidade Federal de Pernambuco, pela oportunidade e pelo apoio a mim concedidos, que me permitiram realizar o mestrado neste maravilhoso pa´ıs, e em especial, aos seus coordeii.

(6) iii. nadores, os professores Francisco Cribari Neto e Klaus Vasconcellos. Aos professores do Programa de Mestrado em Estat´ıstica da Universidade Federal de Pernambuco, pela sua contribuic¸a ˜o na minha formac¸a ˜o pessoal, acadˆ emica e profissional. As minhas amigas, Luisa Fernanda e Rossemary, pelo incentivo, carinho e amizade. Aos meus colegas do mestrado pela convivˆ encia nestes dois anos, em especial, Rejane Brito e Hem´ılio Fernandes, pela amizade, companhia e atenc¸a ˜o que me brindaram. A Themis Abensur, pela convivˆ encia, companhia, amizade, as longas conversac¸o ˜es e momentos de divers˜ ao. A Valeria Bittencourt, pelo carinho e por ser muito competente em seu trabalho. Aos professores Yves Till´ e e Pierre Duchesne, pela colaborac¸a ˜o na disposic¸a ˜o de materiais que contribu´ıram no enriquecimento deste trabalho. A todas as pessoas que n˜ ao mencionei e sempre me acompanharam no caminho, est˜ ao no meu corac¸a ˜o. ` banca de examinadores pelas valiosas sugest˜ A oes que contribuiram e enriqueceram a qualidade deste trabalho. ` CAPES, pelo apoio financeiro. A.

(7) Resumo. Neste trabalho ´e discutida a estimac¸a ˜o de proporc¸o ˜es em populac¸o ˜es finitas assistida por modelos. A teoria envolvendo estimadores de regress˜ ao linear generalizados ´e revista, sob uma abordagem proposta de estimadores assistidos por modelos da fam´ılia exponencial. O trabalho de Till´ e (1998), que deriva o estimador de regress˜ ao via probabilidades condicionais de inclus˜ ao na amostra, e´ revisto juntamente com o de Lehtonen e Veijanen (1998), que prop˜ oem o estimador de regress˜ ao generalizado log´ıstico (LGREG), num contexto de amostra aleat´ oria simples. A aplicac¸a ˜o dos estimadores LGREG num cen´ ario de amostragem estratificada e´ discutida e formas para estimadores LGREG separado e combinado s˜ ao propostas. As propriedades dos estimadores propostos s˜ ao investigadas atrav´ es de um estudo de simulac¸a ˜o Monte Carlo, envolvendo os planos de amostragem aleat´ oria simples, de Bernoulli e estratificado. Palavras-chave: Estimador de regress˜ ao generalizado log´ıstico (LGREG), pseudo-verossimilhanc¸a, estimador de regress˜ ao combinado e separado.. iv.

(8) Abstract. In this work, we discuss finite population proportion estimation under a model-assisted approach. The generalized linear regression estimator theory is revisited under a proposed setup of exponential family model-assisted estimators. The work by Till´ e (1998), which derives the regression estimator via conditional sample inclusion probabilities is reviewed as well as the work by Lehtonen and Veijanen (1998), which propose the logistic generalized regression estimator (LGREG), under simple random sample. We discuss the application of LGREG estimators under a stratified sample design and propose the forms of a separate and combined LGREG estimators. The statistical properties of all the proposed estimators are investigated through a Monte Carlo simulation study involving simple random sample, Bernoulli sample and stratified sample designs. Key Words: Logistic generalized regression estimator (LGREG), pseudo-likelihood, combined and separate regression estimator.. v.

(9) Sum´ ario. Agradecimentos. ii. Resumo. iv. Abstract. v. Lista de Quadros. x. ˜o 1 Introduc¸a. 1. ˜ es B´ 2 Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. 5. 2.1 Noc¸o ˜es B´ asicas de Amostragem . . . . . . . . . . . . . . . . .. 5. 2.1.1 Amostragem de Bernoulli . . . . . . . . . . . . . . . .. 8. 2.2 Modelos da Fam´ılia Exponencial . . . . . . . . . . . . . . . . .. 9. 2.2.1 Definic¸a ˜o . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2.2.2 Estimac¸a ˜o dos Parˆ ametros do Modelo . . . . . . . . . .. 10. 2.2.3 Modelos de Regress˜ ao para Vari´ aveis Dicotˆ omicas . . .. 12. 3 Estimador de Regress˜ ao Generalizado (GREG). 17. 3.1 Estimador de Regress˜ ao Generalizado no Contexto de Estratificac¸a ˜o . . . . . . . . . . . . . . . . . . . .. 21. 3.1.1 Plano Amostral e Estimac¸a ˜o sob Estratificac¸a ˜o . . . . .. 22. 3.1.2 Estimador de Regress˜ ao Generalizado Combinado . . .. 24. vi.

(10) ´ RIO SUMA. vii. 3.1.3 Estimador de Regress˜ ao Generalizado Separado . . . .. 24. 3.2 Estimadores Assistidos por Modelos de Regress˜ ao Lineares . .. 25. 3.2.1 Estimador de Regress˜ ao Combinado . . . . . . . . . .. 28. 3.2.2 Estimador de Regress˜ ao Separado . . . . . . . . . . . .. 28. ˜o do 4 Uma Forma Alternativa de Derivac¸a Estimador de Regress˜ ao. 29. 4.1 Estimadores Condicionalmente N˜ ao-viesados . . . . . . . . .. 30. 4.2 Probabilidades de Inclus˜ ao Condicionais . . . . . . . . . . . .. 33. 4.3 Estimador de Regress˜ ao . . . . . . . . . . . . . . . . . . . . .. 34. 5 Estimador de Regress˜ ao Generalizado Log´ıstico (LGREG) 5.1 Estimac¸a ˜o de Proporc¸o ˜es . . . . . . . . . . . . . . . . . . . . .. 37 39. 5.1.1 GREG Usando um Modelo de Regress˜ ao Linear sem Intercepto . . . . . . . . . . . . . . . . . . . . . . . . .. 39. 5.1.2 GREG Usando um Modelo de Regress˜ ao Linear com Intercepto . . . . . . . . . . . . . . . . . . . . . . . . .. 40. 5.1.3 GREG Usando um Modelo de Regress˜ ao Log´ıstica (LGREG) . . . . . . . . . . . . . . . . . . . .. 40. 5.2 Estimador de Regress˜ ao Generalizado Log´ıstico no Contexto de Estratificac¸a ˜o . . . . . . . . . . . . .. 41. 5.2.1 Estimador de Regress˜ ao Generalizado Log´ıstico Combinado . . . . . . . . . . . . . . . . . . . . . . . .. 41. 5.2.2 Estimador de Regress˜ ao Generalizado Log´ıstico Separado . . . . . . . . . . . . . . . . . . . . . . . . . ˜o dos estimadores 6 Avaliac¸a. 42 43. 6.1 Estudo de Simulac¸a ˜o . . . . . . . . . . . . . . . . . . . . . . .. 43. 6.1.1 Amostragem Aleat´ oria Simples . . . . . . . . . . . . .. 46. 6.1.2 Amostragem de Bernoulli . . . . . . . . . . . . . . . .. 47. 6.1.3 Amostragem Aleat´ oria Estratificada . . . . . . . . . . .. 49. 6.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53. 6.2.1 Resultados para Amostragem Aleat´ oria Simples . . . .. 54. 6.2.2 Resultados para Amostragem de Bernoulli . . . . . . .. 65.

(11) ´ RIO SUMA. viii. 6.2.3 Resultados para Amostragem Estratificada . . . . . . . ˜o do Uso dos Estimadores GREG’s 7 Ilustrac¸a 7.1. 75 83. A Pesquisa Mensal de Emprego (PME) . . . . . . . . . . . . .. 83. 7.1.1 Conceitos B´ asicos . . . . . . . . . . . . . . . . . . . . .. 84. 7.1.2 Caracter´ısticas Investigadas . . . . . . . . . . . . . . .. 84. 7.1.3 Plano Amostral . . . . . . . . . . . . . . . . . . . . . .. 86. 7.2 Ilustrac¸a ˜o do Uso dos Estimadores de Regress˜ ao Generalizados . . . . . . . . . . . . . . . . . . . . .. 87. 7.2.1 Amostragem Aleat´ oria Simples . . . . . . . . . . . . .. 89. 7.2.2 Amostragem Estratificada . . . . . . . . . . . . . . . .. 91. ˜ es Finais 8 Considerac¸o. 94. Apˆ endice. 97. A Prova do Lema 1. 97. B Prova do Resultado 1. 100. ˜o de β0 C Obtenc¸a. 102. D Uso do computador. 104. D.1 SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 D.1.1 PROC SURVEYLOGISTIC . . . . . . . . . . . . . . . . . 106 ˜o E Programas de Simulac¸a. 114. E.1 Amostragem Aleat´ oria Simples . . . . . . . . . . . . . . . . . 114 E.2 Amostragem de Bernoulli . . . . . . . . . . . . . . . . . . . . 116 E.3 Amostragem Estratificada . . . . . . . . . . . . . . . . . . . . 119 F Programa em SAS. 122. F.1 Amostragem Aleat´ oria Simples . . . . . . . . . . . . . . . . . 122 F.2 Amostragem Estratificada . . . . . . . . . . . . . . . . . . . . 124 Referˆ encias. 127.

(12) Lista de Quadros. 2.1 Principais distribuic¸o ˜es pertencentes a ` fam´ılia exponencial. . .. 10. 2.2 Estimac¸a ˜o de µk . . . . . . . . . . . . . . . . . . . . . . . . . .. 11. 2.3 Distribuic¸a ˜o de probabilidades P (Y = y|X = x). . . . . . . . .. 14. 6.1 Variac¸a ˜o do OR entre estratos para o Cen´ ario 1. . . . . . . . .. 50. 6.2 Vi´ es relativo do estimador de P usando um plano AAS. . . . .. 56. 6.3 Eficiˆ encia relativa do estimador de P usando um plano AAS. .. 57. 6.4 Eficiˆ encia do ponto de vista do EQM do estimador de P usando um plano AAS. . . . . . . . . . . . . . . . . . . . . . . . . . .. 58. 6.5 Vi´ es relativo do estimador da variˆ ancia do estimador de P usando um plano AAS. . . . . . . . . . . . . . . . . . . . . . .. 59. 6.6 Coeficiente de variac¸a ˜o do estimador de P usando um plano AAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 61. 6.7 Taxas de cobertura para um intervalo de confianc¸a de 95% do estimador de P usando um plano AAS. . . . . . . . . . . . . .. 63. 6.8 Vi´ es relativo do estimador de P usando um plano BE. . . . . .. 66. 6.9 Eficiˆ encia relativa do estimador de P usando um plano BE. . .. 67. 6.10 Eficiˆ encia do ponto de vista do EQM do estimador de P usando um plano BE. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 6.11 Vi´ es relativo do estimador da variˆ ancia do estimador de P usando um plano BE. . . . . . . . . . . . . . . . . . . . . . . .. 69. 6.12 Coeficiente de variac¸a ˜o do estimador de P usando um plano BE. 71 ix.

(13) LISTA DE QUADROS. x. 6.13 Taxas de cobertura para um intervalo de confianc¸a de 95% do estimador de P usando um plano BE. . . . . . . . . . . . . . .. 73. 6.14 Vi´ es relativo do estimador de P usando um plano AAE. . . . .. 77. 6.15 Eficiˆ encia do estimador de P usando um plano AAE. . . . . .. 78. 6.16 Eficiˆ encia do ponto de vista do EQM do estimador de P usando um plano AAE. . . . . . . . . . . . . . . . . . . . . . . . . . .. 79. 6.17 Vi´ es relativo do estimador da variˆ ancia do estimador de P usando um plano AAE. . . . . . . . . . . . . . . . . . . . . . .. 80. 6.18 Coeficiente de variac¸a ˜o do estimador de P usando AAE. . . .. 81. 6.19 Taxas de cobertura para um intervalo de confianc¸a de 95% do estimador de P usando AAE.. . . . . . . . . . . . . . . . . . .. 82. 7.1 Vari´ aveis usadas na estimac¸a ˜o da taxa de desemprego. . . . .. 88. 7.2 Estimativas de P , do estimador da variˆ ancia e IC 95% usando AAS. (P = 0.14735) . . . . . . . . . . . . . . . . . . . . . . . .. 90. 7.3 Eficiˆ encia do estimador P usando AAS. . . . . . . . . . . . . .. 91. 7.4 Estratos usados no plano AE. . . . . . . . . . . . . . . . . . .. 91. 7.5 Estimativas de P , do estimador da variˆ ancia e IC 95% usando AE (P = 0.14735). . . . . . . . . . . . . . . . . . . . . . . . .. 93. 7.6 Eficiˆ encia do estimador de P usando AE. . . . . . . . . . . . .. 93.

(14) CAP´ITULO 1. ˜o Introduc¸a A estimac¸a ˜o de parˆ ametros referentes a uma ou mais vari´ aveis de interesse em uma populac¸a ˜o finita e´ abordada pela teoria estat´ıstica de amostragem. Nesta a ´rea, e´ poss´ıvel identificar duas etapas no processo de inferˆ encia, relacionadas entre si: a de planejamento amostral e a de estimac¸a ˜o. Nesta dissertac¸a ˜o, define-se como etapa de planejamento amostral aquela que engloba estudos para identificar o melhor plano e esquema amostral probabil´ısticos, incluindo a selec¸a ˜o dos indiv´ıduos que compor˜ ao a amostra. Ainda nesta etapa s˜ ao conduzidos estudos que d˜ ao suporte a ` escolha de estimadores a serem utilizados. A etapa de estimac¸a ˜o ´e aquela na qual s˜ ao obtidas as estimativas dos parˆ ametros de interesse, atrav´ es dos estimadores escolhidos, bem como as estimativas das variˆ ancias desses estimadores, a partir da amostra selecionada. A qualidade estat´ıstica da inferˆ encia em uma populac¸a ˜o finita depende da adoc¸a ˜o de uma estrat´ egia adequada de amostragem, definida como a escolha de ambos, plano amostral e estimador. Por este motivo, os esforc¸os dos estat´ısticos envolvidos em levantamentos amostrais concentram-se na procura de planos que minimizem variac¸o ˜es amostrais e estimadores que apresentem baixo erro quadr´ atico m´ edio. A procura por uma boa estrat´ egia de amostragem envolve necessariamente esforc¸os para identificar toda informac¸a ˜o poss´ıvel de se obter a respeito da populac¸a ˜o sob estudo, na etapa de planejamento amostral. Tais informac¸o ˜es dizem respeito a vari´ aveis comumente chamadas na literatura de vari´ aveis 1.

(15) ˜o Introduc¸a. 2. auxiliares (Cochran, 1977; S¨ arndal, Swensson e Wretman, 1992; Lohr, 1999). Vari´ aveis auxiliares podem ser utilizadas para reduzir a variˆ ancia do estimador de Horvitz-Thompson (Horvitz e Thompson, 1952) quando s˜ ao empregadas no plano ou esquema amostral. Exemplos que ilustram tal situac¸a ˜o incluem o uso de estratificac¸a ˜o e de esquemas amostrais com probabilidades de inclus˜ ao na amostra proporcionais ao tamanho da vari´ avel auxiliar. Uma outra forma de utilizar vari´ aveis auxiliares ´e incorpor´ a-las a ` forma do estimador a ser utilizado. Os estimadores assim obtidos s˜ ao denominados estimadores de regress˜ ao generalizados. Nessa dissertac¸a ˜o ser´ a adotada a abreviac¸a ˜o GREG, do inglˆ es generalized regression estimator, para referir-se a estes estimadores. V´ arios autores apresentam os estimadores de regress˜ ao generalizados sob a abordagem de estimac¸a ˜o assistida por modelos (S¨ arndal, Swensson e Wretman, 1992, p´ ag.219; Lohr, 1999, p´ ag.372; S¨ arndal, 2001). Atrav´ es dessa abordagem, um modelo de regress˜ ao ´e utilizado apenas para descrever a relac¸a ˜o entre as vari´ aveis de interesse e as auxiliares na populac¸a ˜o finita. Teoricamente, quanto maior for a adequac¸a ˜o do modelo para descrever a relac¸a ˜o entre essas vari´ aveis, maior ser´ a a eficiˆ encia do GREG em comparac¸a ˜o com o estimador de Horvitz-Thompson, que n˜ ao usa informac¸a ˜o auxiliar em sua forma funcional. Uma abordagem menos difundida para derivar estimadores GREG e´ a apresentada por Till´ e (1998), que utiliza probabilidades condicionais de inclus˜ ao na amostra. Em diversas situac¸o ˜es ´e de interesse estimar a proporc¸a ˜o de indiv´ıduos da populac¸a ˜o sob estudo, que possuem determinada caracter´ıstica. Nesse caso, a vari´ avel de interesse pode ser vista como uma vari´ avel dicotˆ omica assumindo valores 1 (um), quando o indiv´ıduo da populac¸a ˜o possui a caracter´ıstica e 0 (zero), caso contr´ ario. Apesar de ser poss´ıvel utilizar estimadores GREG nesse contexto, a relac¸a ˜o entre a vari´ avel de interesse e poss´ıveis vari´ aveis auxiliares ´e melhor descrita atrav´ es de um modelo de regress˜ ao log´ıstica. O estimador resultante da assistˆ encia de tal modelo foi originalmente proposto por Lehtonen e Veijanen (1998), para o caso de uma amostra aleat´ oria simples e denominado estimador de regress˜ ao generalizado.

(16) ˜o Introduc¸a. 3. log´ıstico, ou, abreviando, LGREG, do inglˆ es, logistic generalized regression estimator. Esta dissertac¸a ˜o tem como objetivo geral apresentar uma revis˜ ao de literatura envolvendo estimadores do tipo regress˜ ao e propor estimadores de regress˜ ao assistidos por modelos pertencentes a ` fam´ılia exponencial, envolvendo assim modelos lineares e n˜ ao-lineares. Os estimadores que usam estes modelos no processo de estimac¸a ˜o ainda ser˜ ao chamados neste trabalho de estimadores de regress˜ ao generalizados (GREG), por conveniˆ encia e adequac¸a ˜o, embora que, em livros como S¨ arndal, Swensson e Wretman (1992) e Lohr (1999), estimadores GREG sejam apresentados como sendo assistidos s´ o por modelos lineares. Esta dissertac¸a ˜o tamb´ em visa estudar as propriedades do estimador LGREG e discutir possibilidades de sua aplicac¸a ˜o no contexto de planos amostrais estratificados. Os objetivos espec´ıficos s˜ ao: contribuir para a divulgac¸a ˜o da abordagem de probabilidades condicionais de inclus˜ ao como uma forma alternativa de derivac¸a ˜o do estimador GREG; investigar as propriedades estat´ısticas do estimador LGREG, no caso de amostragem aleat´ oria simples e Bernoulli, atrav´ es de estudos de simulac¸a ˜o Monte Carlo; propor como aplicar e estudar as propriedades estat´ısticas do LGREG, no caso de uma amostra aleat´ oria estratificada, atrav´ es de estudos de simulac¸a ˜o Monte Carlo. Os trabalhos desenvolvidos s˜ ao apresentados ao longo de 8 cap´ıtulos. No cap´ıtulo 2 s˜ ao apresentados os conceitos b´ asicos de amostragem e os modelos da fam´ılia exponencial, que neste trabalho ser˜ ao usados para assistir a estimac¸a ˜o de parˆ ametros em populac¸o ˜es finitas. No cap´ıtulo 3 ´e proposto o estimador de regress˜ ao generalizado (GREG) assistido por modelos pertencentes a ` fam´ılia exponencial, apresentando as suas principais propriedades e caracter´ısticas, discutindo-se as poss´ıveis aplicac¸o ˜es dos GREG’s no contexto de estratificac¸a ˜o. Al´ em disso, considera-se como caso particular desta classe de estimadores os estimadores assistidos por modelos de regress˜ ao lineares. No cap´ıtulo 4 e´ mostrado que o estimador de regress˜ ao pode ser obtido.

(17) ˜o Introduc¸a. 4. usando as probabilidades de inclus˜ ao condicionais segundo o enfoque desenvolvido por Till´ e (1998). No cap´ıtulo 5, e´ definido o estimador de regress˜ ao generalizado log´ıstico ´ apresen(LGREG), suas propriedades e caracter´ısticas mais importantes. E tada tamb´ em a estimac¸a ˜o de proporc¸o ˜es usando os estimadores GREG assistidos por um modelo de regress˜ ao linear e o LGREG, por um modelo de regress˜ ao log´ıstica. Al´ em disso, s˜ ao discutidas as poss´ıveis aplicac¸o ˜es do estimador LGREG no contexto de estratificac¸a ˜o. No cap´ıtulo 6, s˜ ao apresentados estudos de simulac¸a ˜o desenvolvidos com o objetivo de avaliar e comparar as propriedades dos estimadores HorvitzThompson, GREG e LGREG no caso em que o parˆ ametro de interesse e´ uma proporc¸a ˜o. No cap´ıtulo 7, ilustra-se a aplicac¸a ˜o dos estimadores GREG’s usando um subconjunto de dados da Pesquisa Mensal de Emprego (PME), realizada pelo IBGE, no mˆ es de outubro do ano 2005, usando o pacote estat´ıstico SAS. Al´ em disso, no apˆ endice D, e´ apresentado um relato de como utilizar o PROC SURVEYLOGISTIC do pacote SAS, no contexto de estimac¸a ˜o assistida por modelos. Para terminar, no cap´ıtulo 8 s˜ ao apresentadas as considerac¸o ˜es finais deste trabalho..

(18) CAP´ITULO 2. ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial 2.1. ˜ es B´ Noc¸o asicas de Amostragem. Considere U = {1, 2, . . . , N }, o conjunto dos ´ındices que identificam os ele-. mentos que comp˜ oem a populac¸a ˜o finita, de tamanho N , e S um subconjunto de U chamado de amostra (S ⊂ U ).. A amostra S e´ considerada ser probabil´ıstica se s˜ ao satisfeitas as seguintes. condic¸o ˜es: ´ poss´ıvel definir o conjunto ζ = {S1 , . . . , ST } de todas as amostras i) E poss´ıveis que podem ser selecionadas da populac¸a ˜o seguindo um plano amostral p(·), chamado de espac¸o amostral. ii) O mecanismo de escolha da amostra deve dar uma probabilidade maior que zero para cada elemento da populac¸a ˜o. iii) A selec¸a ˜o da amostra deve ser aleat´ oria, ou seja, o processo de selec¸a ˜o das amostras tem que associar a cada amostra poss´ıvel S uma probabilidade exata de selec¸a ˜o p(S). ´ poss´ıvel identificar para cada uma das amostras que pertencem a ζ a iv) E probabilidade de serem selecionadas p(S). Denote por y uma vari´ avel de interesse na populac¸a ˜o, e yk o valor dessa vari´ avel referente ao indiv´ıduo k. Denote ainda por πk = P (k ∈ S) e πkl = 5.

(19) ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. 6. P (k, l ∈ S) as probabilidades de inclus˜ ao de primeira e segunda ordem,. respectivamente.. Por simplicidade, considere o objetivo de estimar um parˆ ametro unidimenˆ ∈ S). O total sional θ = θ(1, . . . , k, . . . , N ) atrav´ es de um estimador θˆ = θ(k P e a m´ edia populacional dados por ty = k∈ U yk , e y¯U = N −1 ty , respectivamente, s˜ ao exemplos freq¨ uentes de parˆ ametros de interesse, que acomodam vari´ aveis cont´ınuas e discretas. Quando a vari´ avel de interesse ´e de tipo dicotˆ omico, por exemplo, ´e conveniente definir ( 1, se o atributo est´ a presente no k-´ esimo indiv´ıduo; yk = 0, caso contr´ ario. Dessa forma, ty representa o total de elementos na populac¸a ˜o que possuem o atributo de interesse e y¯U = P =. ty N. a proporc¸a ˜o populacional com o atributo. desejado. O estimador de Horvitz-Thompson para ty e´ dado pela seguinte express˜ ao tˆπ =. X yk . π k k∈ S. ´ poss´ıvel mostrar facilmente que este ´e um estimador n˜ E ao-viesado, sua variˆ ancia pode ser expressa por Vp (tˆπ ) =. XX. k∈ U l∈ U. ∆kl. yk yl , πk πl. onde ∆kl = πkl − πk πl com πkl > 0 para todo k, l ∈ U , e um estimador n˜ ao-viesado para V (tˆπ ) e´ dado por Vˆp (tˆπ ) =. X X ∆kl yk yl . πkl πk πl k∈ S l∈ S. Al´ em do estimador de Horvitz-Thompson, nesta dissertac¸a ˜o ser˜ ao estudados outros estimadores. Para avaliar a qualidade de um estimador e´ necess´ ario conhecer as suas propriedades estat´ısticas do ponto de vista do plano amostral. Por este motivo, as seguintes propriedades s˜ ao revisadas:.

(20) ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. ˆ Ep (θ) ˆ e´ dada por  A esperanc¸a de θ, X ˆ = ˆ Ep (θ) p(S)θ(S),. 7. (2.1). S∈ζ. onde p(S) denota a probabilidade de selecionar a amostra S da populac¸a ˜o.  A variˆ ancia de θˆ dada por ˆ = Vp (θ). X S∈ζ. ˆ ˆ 2. p(S){θ(S) − Ep (θ)}. (2.2).  O vi´ es ´e a diferenc¸a entre a m´ edia da distribuic¸a ˜o amostral e o valor verdadeiro do parˆ ametro, ou seja, ˆ = Ep (θ) ˆ − θ. Bp (θ) ˆ = 0, o estimador θˆ e´ dito ser um estimador n˜ Quando Bp (θ) ao-viesado para θ.  O erro quadr´ atico m´ edio ´e uma medida que pode ser expressa como X ˆ = ˆ EQMp (θ) p(S)(θ(S) − θ)2 = Ep (θˆ − θ)2 S∈ζ. ˆ + B 2 (θ). ˆ = Vp (θ) p. Quando ´e de interesse obter uma estimac¸a ˜o intervalar do parˆ ametro θ e n˜ ao ˆ recorre-se ao estimador Vˆp (θ). ˆ Al´ h´ a informac¸a ˜o sobre Vp (θ), em disso, se as condic¸o ˜es que atendem a um Teorema Central do Limite como o de H´ ajek (1960) s˜ ao satisfeitas ´e poss´ıvel construir o seguinte intervalo de confianc¸a: q ˆ ˆ θ ± z1−α/2 Vˆp (θ), (2.3) sendo z1−α/2 uma constante tal que P (Z > z1−α/2 ) = α/2, com Z ∼ N (0, 1) e 100(1 − α)% o n´ıvel de confianc¸a desejado para o intervalo.. A qualidade do estimador intervalar (2.3) para θ pode ser medida atrav´ es da. taxa de cobertura, dada pela seguinte express˜ ao P Z(S) ˆ Vˆ (θ), ˆ α) = S∈ζ , T C(θ, T. (2.4).

(21) ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. 8. em que T ´e o n´ umero total de amostras poss´ıveis que podem ser selecionadas da populac¸a ˜o e    q 1, se θ ∈ θ(S) ˆ ; ˆ ± z1−α/2 Vˆp (θ) Z(S) =  0, caso contr´ ario.. ˆ dado Uma outra medida de qualidade ´e o coeficiente de variac¸a ˜o de Vˆ (θ), por. q ˆ V (Vˆ (θ)) ˆ = 100 CV (Vˆ (θ)) . ˆ E(Vˆ (θ)). As vezes e´ de interesse comparar v´ arios estimadores para o mesmo problema de estimac¸a ˜o e sob o mesmo plano amostral. Nesse caso, deve ser considerada uma medida que compare a eficiˆ encia obtida com cada estimador, com a intenc¸a ˜o de fazer a escolha apropriada. A eficiˆ encia relativa de um estimador pode ser medida usando a seguinte express˜ ao V (θˆ1 ) eff (θˆ1 , θˆ2 ) = . V (θˆ2 ). (2.5). Se eff (θˆ1 , θˆ2 ) ´e inferior, igual ou superior a 1, e´ dito que θˆ1 e´ mais, igualmente ou menos eficiente que θˆ2 , respectivamente. Nesta dissertac¸a ˜o, um dos planos utilizados ´e o de Bernoulli, que ser´ a descrito a seguir.. 2.1.1. Amostragem de Bernoulli. Um plano amostral BE consiste em uma s´ erie de experimentos independentes, um para cada elemento da populac¸a ˜o. O plano atribui probabilidade igual de selec¸a ˜o, π e de n˜ ao selec¸a ˜o (1 − π), a cada elemento da. populac¸a ˜o. Neste plano, o tamanho da amostra, denotado por nS , ´e uma. vari´ avel aleat´ oria. Sob um plano BE, tem-se que p(S) = π nS (1 − π)N −nS , em que πk = π e πkl = π 2 s˜ ao as probabilidades de inclus˜ ao de primeira e segunda ordem, respectivamente. Um esquema amostral para selecionar uma amostra seguindo um plano BE ´e o seguinte:.

(22) ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. 9. Passo 1. Considere um valor para π (0 < π < 1). Passo 2. Denote por ε1 , ε2 , . . . , εN , uma s´ erie de N realizac¸o ˜es de uma distribuic¸a ˜o uniforme (0, 1). Passo 3. Se εk ≤ π, ent˜ ao, o elemento k ´e selecionado para compor a amostra S.. Passo 4. Repetir o procedimento anterior com cada elemento da populac¸a ˜o.. 2.2. Modelos da Fam´ılia Exponencial. Estes modelos s˜ ao muito usados na pr´ atica (veja McCullagh e Nelder, 1989; Wei, 1998) pois com eles e´ poss´ıvel analisar estatisticamente conjuntos de dados com resposta discreta, como nos modelos binomial e poisson, e com resposta cont´ınua restrita ao intervalo (0, ∞), como nos modelos gamma e. normal inversa. Al´ em disso, os modelos da fam´ılia exponencial proporcionam grande flexibilidade para a especificac¸a ˜o da relac¸a ˜o entre a vari´ avel resposta e as vari´ aveis explicativas, pois nestes modelos e´ assumida a existˆ encia. de uma func¸a ˜o que relaciona a m´ edia da vari´ avel resposta e o preditor. Os modelos normais lineares e n˜ ao-lineares fazem parte desta classe de modelos de regress˜ ao.. 2.2.1. ˜o Definic¸a. Sejam Y1 , . . . , Yk , . . . , Yn um conjunto de vari´ aveis aleat´ orias independentes cada uma seguindo uma distribuic¸a ˜o de probabilidade pertencente a ` fam´ılia exponencial. A func¸a ˜o de densidade de Yk (func¸a ˜o de probabilidade no caso discreto) pode ser expressa como f (y; θk , φk ) = exp{φk [yθk − b(θk )] + c(y, φk )},. (2.6). onde c(·) e´ uma func¸a ˜o conhecida, E(Yk ) = µk = b0 (θk ), Var(Yk ) = φ−1 k Vk , Vk = ∂µk /∂θk e´ a func¸a ˜o de variˆ ancia e φ−1 ´ o parˆ ametro de dispers˜ ao. k > 0 e A func¸a ˜o de variˆ ancia determina, de forma biun´ıvoca, a classe correspondente de distribuic¸o ˜ es. Essa propriedade ´e muito importante pois permite a.

(23) ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. 10. comparac¸a ˜o de distribuic¸o ˜es atrav´ es de um teste simples para a func¸a ˜o de variˆ ancia (Jørgensen, 1987). Os modelos da fam´ılia exponencial s˜ ao definidos por (2.6) e pela componente sistem´ atica g(µk ) = ηk = h(β; xk ),. (2.7). onde β e´ um vetor de parˆ ametros desconhecidos, xk = (xk1 , . . . , xkJ ) um vetor de vari´ aveis explicativas para o indiv´ıduo k, h(·; xk ) uma func¸a ˜o cont´ınua, duplamente diferenci´ avel e g(·) uma func¸a ˜o mon´ otona e diferenci´ avel, denominada func¸a ˜o de ligac¸a ˜o. Quando a func¸a ˜o g(·) ´e tal que θk = ηk ent˜ ao esta func¸a ˜o e´ chamada de ligac¸a ˜o canˆ onica. No Quadro 2.1 apresentam-se algumas das distribuic¸o ˜es da fam´ılia exponencial. Al´ em das distribuic¸o ˜es do Quadro 2.1, como exemplos t´ıpicos desta classe podem-se citar os modelos logit, probit e loglinear. Quadro 2.1. Principais distribuic¸o ˜es pertencentes a ` fam´ılia exponencial. Distribuic¸a ˜o. b(θ) 2. Ligac¸a ˜o Canˆ onica. φ. Normal. θ /2. µ. 1/σ. Poisson. eθ. log µ. 1. Bernoulli. log(1 + eθ ). log{µ/(1 − µ)}. 1. Gama N. Inversa. 2.2.2. − log(−θ) √ − −2θ. −1/µ. −1/2µ2. V (µ) 2. 1 µ. 1/(CV ). 2. µ(1 − µ) µ2. µ3. φ. ˜o dos Parˆ Estimac¸a ametros do Modelo. Os modelos da fam´ılia exponencial podem ser usados para assistir a estimac¸a ˜o de parˆ ametros em populac¸o ˜es finitas. Nesse caso, eles s˜ ao usados apenas para descrever as relac¸o ˜es entre as vari´ aveis de interesse e auxiliares, sendo importante identificar as diferenc¸as entre µk , µ ˆ Uk e µ ˆ Sk . Assim, µk refere-se ao parˆ ametro do modelo formulado, o qual e´ desconhecido, µ ˆ Uk e µ ˆSk s˜ ao as estimativas de µk , baseadas na populac¸a ˜o U e na amostra S, respectivaˆ π , onde β ´e mente. Da mesma forma, pode-se diferenciar entre β, βˆ , βˆ e β U. S. S. ˆ U ´e uma estimativa de β, baseada em U , ou seja, o parˆ ametro de interesse, β levando em conta todos os indiv´ıduos da populac¸a ˜o atrav´ es de um m´ etodo de.

(24) ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. 11. estimac¸a ˜o (quadrados m´ınimos ordin´ arios, m´ axima verossimilhanc¸a, etc) segundo o modelo formulado. Por outro lado, quando somente est´ a dispon´ıvel uma amostra para estimar β, tem-se duas opc¸o ˜es: a primeira consiste em aplicar um m´ etodo de estimac¸a ˜o aos dados que comp˜ oem a amostra, obˆ S sem levar em conta o plano amostral. A segunda, leva em conta tendo β o plano amostral, aplicando o m´ etodo de estimac¸a ˜o ponderado pelas proπ ˆ . O Quadro 2.2 resume o descrito no babilidades de inclus˜ ao, obtendo β S. par´ agrafo anterior. Quadro 2.2. Estimac¸a ˜o de µk . Com informac¸a ˜o sobre toda a populac¸a ˜o ˆ ; xk )) µ ˆUk = g −1 (h(β U. Com informac¸a ˜o sobre uma amostra Com ponderac¸a ˜o. Sem poderac¸a ˜o. ˆ π ; xk )) µ ˆ Sk = g −1 (h(β S. ˆ S ; xk )) µ ˆSk = g −1 (h(β. ˆ , usando o m´ O vetor de parˆ ametros β pode ser estimado por β etodo de U m´ axima-verossimilhanc¸a, o qual consiste em maximizar uma func¸a ˜o que expresse a chance de observar os dados que comp˜ oem a amostra em func¸a ˜o dos parˆ ametros do modelo. Em modelos lineares de resposta normal, o estimador de m´ axima-verossimilhanc¸a corresponde ao estimador de quadrados m´ınimos. Para o modelo definido na express˜ ao (2.7), o logaritmo da func¸a ˜o de verossimilhanc¸a considerando todos os indiv´ıduos da populac¸a ˜o pode ser expresso como LU (β) =. X k∈U. {φk [yk θ(β; xk ) − b(θ(β; xk )] + c(yk , φk )},. ˆ U = arg max LU (β) e µ ˆ U ; xk )) s˜ o que implica que β ˆUk = g −1 (h(β ao os estimaβ. dores de m´ axima-verossimilhanc¸a de β e µk , respectivamente. ˆ U assume a mesma forma do Para modelos normais lineares o estimador β estimador de quadrados m´ınimos ponderados que pode ser escrito como ˆ = (XT WU XU )−1 XT WU YU , β U U U.

(25) ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. 12. em que XU = (x1 , . . . , xN )T , YU = (y1 , . . . , yN )T e a matriz de pesos e´ dada por WU = diag{w1 , . . . , wN } com wk = φk .. O logaritmo da func¸a ˜o de verossimilhanc¸a para a amostra S, considerando os pesos amostrais, e´ chamado de func¸a ˜o de pseudo log-verossimilhanc¸a e pode ser expresso como LS (β) =. X 1 {φk [yk θ(β; xk ) − b(θ(β; xk ))] + c(yk , φk )}, π k k∈ S π. (2.8). π. ˆ = arg max LS (β) e µ ˆ ; xk )) s˜ o que implica que β ˆSk = g −1 (h(β ao os estimaS S β. dores de pseudo m´ axima-verossimilhanc¸a (Lehtonen e Pahkinen, 2004, p´ ag. 284) de β e µk , respectivamente. ˆ π pode ser escrito como Para modelos normais lineares o estimador β S ˆ π = (XT WS XS )−1 XT WS YS , β S S S. (2.9). em que XS = (x1 , . . . , xn )T , YS = (y1 , . . . , yn )T e a matriz de pesos ´e dada por WS = diag{w1 , . . . , wn } com wk = φk /πk .. ˆπ e β ˆ s˜ Na express˜ ao (2.8) pode-se observar que os estimadores β S ao equiS valentes quando πk = πl para todos k, l ∈ U . Ou seja, para planos amostrais. como Amostragem Aleat´ oria Simples (com e sem reposic¸a ˜o) e Bernoulli temπ ˆ ˆ se que β e β S s˜ ao equivalentes. S. 2.2.3. Modelos de Regress˜ ao para Vari´ aveis Dicotˆ omicas. Este tipo de modelo de regress˜ ao ´e aplicado em muitos campos do conhecimento como, por exemplo, nas a ´reas qu´ımica, m´ edica e biol´ ogica, onde o interesse prim´ ario da an´ alise de dados, ´e avaliar a influˆ encia de uma ou mais vari´ aveis explicativas sobre a ocorrˆ encia ou n˜ ao de um evento de interesse. Por exemplo, este tipo de modelo pode ser usado pelas autoridades da sa´ ude de alguma regi˜ ao para avaliar e quantificar o efeito da idade, sexo e rac¸a das pessoas na chance de desenvolver algum tipo de doenc¸a. Os modelos de regress˜ ao dicotˆ omicos lineares e n˜ ao-lineares podem ser considerados como um caso particular dos modelos da fam´ılia exponencial onde a vari´ avel resposta e´ assumida como binomial ou Bernoulli. Em particular,.

(26) ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. 13. pode-se supor que para cada indiv´ıduo ou unidade experimental k tem-se o vetor (yk , xk1 , . . . , xkJ ), em que yk pode assumir somente um de dois valores poss´ıveis, denotados por conveniˆ encia 1 e 0 (1: sucesso; 0: fracasso), e que xk = (xk1 , . . . , xkJ ) seja um conjunto de vari´ aveis observadas para explicar e/ou predizer o valor de yk . Denota-se a probabilidade de sucesso, condicionada pela informac¸a ˜o no vetor xk , como π(xk ) = P (Yk = 1|xk1 , . . . , xkJ ) = P (Yk = 1|xk ), em que g(π(xk )) = h(β; xk ) e´ a func¸a ˜o de ligac¸a ˜o. Entre as poss´ıveis formas de func¸o ˜es de ligac¸a ˜o usadas em modelos de regress˜ ao para vari´ aveis dicotˆ omicas podem-se citar:  Probit: g(π(xk )) = Φ−1 [π(xk )] = ηk , sendo Φ(·) a func¸a ˜o de distribuic¸a ˜o acumulada normal padr˜ ao;  Logit: g(π(xk )) = log[π(xk )/(1 − π(xk ))] = ηk ;  Complemento log-log: g(π(xk )) = log[− log(1 − π(xk ))] = ηk ;   (1 − π(xk ))α − 1 = ηk , em que α ´e  Aranda-Ordaz: g(π(xk )) = log α uma constante. A func¸a ˜o de ligac¸a ˜o “logit” d´ a lugar ao conhecido modelo de regress˜ ao log´ıstica. Tendo em vista a importˆ ancia deste modelo nesta dissertac¸a ˜o discute-se a seguir poss´ıveis interpretac¸o ˜es para os seus parˆ ametros. Considere duas vari´ aveis dicotˆ omicas X e Y , codificadas como 0 e 1 (0 Ausˆ encia de atributo; 1 Presenc¸a de atributo) para o respectivo atributo de interesse, em que Y e´ assumida como a vari´ avel dependente. Al´ em disso, suponha que estas vari´ aveis s˜ ao observadas com o objetivo de avaliar a poss´ıvel associac¸a ˜o que possa existir entre elas. O Quadro 2.3 resume a distribuic¸a ˜o de probabilidades para o fenˆ omeno em estudo, em que π(i) = P (Y = 1|X = i), com i = 0, 1. Com o objetivo de quantificar o grau de associac¸a ˜o existente entre X e Y , e´ definida a estat´ıstica chamada de raz˜ ao de chances, em inglˆ es “odds ratio” (OR), a qual pode ser expressa na forma abaixo.

(27) ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. 14. Quadro 2.3. Distribuic¸a ˜o de probabilidades P (Y = y|X = x). Y 0. 1. 0. 1 − π(0). π(0). 1. 1 − π(1). π(1). OR =. π(1)(1 − π(0)) . (1 − π(1))π(0). X. (2.10). Suponha, por exemplo, que Y denota a presenc¸a ou ausˆ encia de cˆ ancer pulmonar e X classifica as pessoas entre fumantes e n˜ ao fumantes. Ent˜ ao, um OR = 2 indica que uma pessoa fumante tem duas vezes mais chance de ter cˆ ancer pulmonar do que uma pessoa n˜ ao fumante (exemplo tomado de Hosmer e Lemeshow (1989, pag.40)). A raz˜ ao de chances (OR) tamb´ em mede a direc¸a ˜o da associac¸a ˜o entre as vari´ aveis Y e X. Esta medida est´ a em escala exponencial, portanto, pode tomar valores no intervalo (0, ∞). Observando a express˜ ao (2.12) ´e poss´ıvel concluir que um OR igual a 1 in-. dica independˆ encia ou ausˆ encia de associac¸a ˜o. Um OR maior a 1 indica que a vari´ avel independente X = 1 e´ um “fator de risco” para Y = 1, ou seja, ´e mais freq¨ uente obter um sucesso no grupo em que X = 1 do que no grupo X = 0. Quando o OR e´ menor que 1 a interpretac¸a ˜o ´e an´ aloga e ´e denominada “fator protetor”. Os nomes “fator protetor” e “fator de risco” s˜ ao devidos ao contexto bioestat´ıstico onde normalmente ´e usada a raz˜ ao de chances (OR) como medida de associac¸a ˜o. Quando a vari´ avel explicativa ´e de tipo quantitativo e´ preciso formular um modelo. O seguinte exemplo considera um modelo de regress˜ ao log´ıstica com uma vari´ avel explicativa cont´ınua  π(X) = β0 + β1 X, log 1 − π(X) .

(28) ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. 15. em que π(xk ) = P (Yk = 1|X = xk ) =. exp(β0 + β1 xk ) . 1 + exp(β0 + β1 xk ). (2.11). O objetivo ´e avaliar a associac¸a ˜o existente entre X e Y , portanto, e´ necess´ ario medir o qu˜ ao freq¨ uente e´ obtido um sucesso entre os indiv´ıduos que apresentam X = x + 1 comparados com os que apresentam X = x. Substituindo a equac¸a ˜o (2.11) em (2.12), tem-se que OR =. π(X + 1)[1 − π(X)] = e β1 . [1 − π(X + 1)]π(X). (2.12). Baseado neste resultado, e´ poss´ıvel ver que um aumento de uma unidade em X faz com que a chance de obter um sucesso aumente (ou diminua) eβ1 vezes. Por exemplo, se Y denota a presenc¸a ou ausˆ encia de osteoporose e X a idade em anos para um grupo de indiv´ıduos, ent˜ ao um OR = 1.5 indica que a cada ano que passa estes indiv´ıduos tˆ em uma chance 1.5 vezes maior de sofrer de osteoporose. Daqu´ı para a frente ser´ a utilizada a notac¸a ˜o tradicional de amostragem, em que n˜ ao se faz diferenc¸a entre letras mai´ usculas para vari´ aveis aleat´ orias e min´ usculas para realizac¸o ˜es das mesmas. Na Figura 2.1 e´ apresentado o comportamento das probabilidades de sucesso π(x) em relac¸a ˜o a ` vari´ avel explicativa para o modelo (2.11), em que P ´e a proporc¸a ˜o de indiv´ıduos na populac¸a ˜o com o atributo de interesse, a raz˜ ao de chances (OR) ´e o grau de associac¸a ˜o entre a vari´ avel de interesse (y) e a vari´ avel auxiliar (x). Neste caso tem-se que yk segue uma distribuic¸a ˜o de Bernoulli com parˆ ametro π(x) e x segue uma distribuic¸a ˜o normal padr˜ ao. Nesta figura pode ser observado que quando o grau de associac¸a ˜o (OR) entre as vari´ aveis aumenta e, com o aumento P o grau de associac¸a ˜o entre as vari´ aveis tamb´ em aumenta. Quando o grau de associac¸a ˜o (OR) entre as vari´ aveis pertence ao intervalo (0, 1) a direc¸a ˜o da associac¸a ˜o ´e inversa a ` apresentada na Figura 2.1. O leitor interessado em saber um pouco mais sobre regress˜ ao log´ıstica pode consultar, por exemplo, McCullagh e Nelder (1989) e Agresti (1990)..

(29) ˜ es B´ Noc¸o asicas de Amostragem e Modelos da Fam´ılia Exponencial. 16. 1.0. 1.0. PSfrag replacements PSfrag replacements Figura 2.1. Comportamento das probabilidades de sucesso π(x) em relac¸a ˜o 1.5 a ` vari´ avel explicativa para o modelo (2.11). 2 5 P = 0.2 P = 0.1 OR = 10 OR = 10. OR = 10 0.8. π(x) 0.2. 0.4. x. 0.2. 4. x. P = 0.5 OR = 10. 2. 0.8. 1.5. 0.6. 1.5 2 5 OR = 10 1.5 2 5 OR = 10. 2. π(x). 1.5. 0. 2. 4. 0.4. 0.8. P = 0.1 P = 0.2 P = 0.3. 2. −2. 0. 5 5. −4. −2. 1.0. OR = 10. 0.0. 1.5 2 5 OR = 10. −4. 0.2. 0.0. −2. 1.0. −4. 0.0. 1.5 2 5 OR = 10 1.5 0 2 4 PSfrag replacements2 5 x OR =1.5 10 2 5 P = 0.3 OR = 10 1.5. 0.0. 0.2. 1.5. π(x). P = 0.5 1.5 2 5 OR = 10. 2 0.4. 0.4. 2. 0.6. P = 0.1 P = 0.2. 5. 0.6. 0.8 0.6. P = 0.3 P = 0.5. π(x). P = 0.2 P = 0.3 P = 0.5 1.5 2 5 OR = 10 1.5 2 5 OR = 10 1.5 PSfrag replacements2 5 OR =1.5 10 2 5 OR = 10. P = 0.1 5. −4. −2. 0. x. 2. 4.

(30) CAP´ITULO 3. Estimador de Regress˜ ao Generalizado (GREG) Este estimador usa informac¸a ˜o auxiliar na etapa da estimac¸a ˜o, formulando um modelo de regress˜ ao entre a vari´ avel de interesse e as vari´ aveis auxiliares. A id´ eia por tr´ as dele e´ usar o modelo formulado para “estimar” os valores da vari´ avel de interesse para os indiv´ıduos que n˜ ao pertencem a ` amostra, incrementando desta maneira a eficiˆ encia da medic¸a ˜o. Quanto maior a adequac¸a ˜o do modelo formulado entre a vari´ avel de interesse e as vari´ aveis auxiliares, maior ser´ a a eficiˆ encia do estimador GREG. Tradicionalmente a express˜ ao GREG e´ utilizada para estimadores assistidos por modelos normais lineares. O estimador de regress˜ ao generalizado com base em modelos normais lineares tem sido considerado por v´ arios autores como, por exemplo, Fuller (2002), Holt, Smith, e Winter (1980), Isaki e Fuller (1982), Lohr (1999), S¨ arndal (2001), S¨ arndal, Swensson e Wretman (1992) e Wright (1983). Nesta dissertac¸a ˜o a express˜ ao GREG assume um contexto mais amplo, englobando estimadores assistidos por modelos da fam´ılia exponencial. Essa concepc¸a ˜o ampliada de estimadores GREG ´e parte da contribuic¸a ˜o deste trabalho. Quando o objetivo e´ estimar o total populacional ty , ´e proposto o estimador GREG que pode ser expresso na seguinte forma tˆGREG =. X. µ ˆSk +. k∈U. X (yk − µ ˆS ) k. k∈ S. 17. πk. ,. (3.1).

(31) Estimador de Regress˜ ao Generalizado (GREG). 18. onde o modelo formulado pode ser escrito como E(Yk ) = µk = g −1 (h(β; xk )),. k = 1, . . . , N,. (3.2). com β um vetor de parˆ ametros desconhecidos, g(·) uma func¸a ˜o cont´ınua e duplamente diferenci´ avel e xk = (xk1 , . . . , xkJ ) o vetor de informac¸a ˜o auxiliar para o k-´ esimo elemento da populac¸a ˜o. Muitos modelos s˜ ao poss´ıveis de serem formulados, dependendo da natureza dos dados, da informac¸a ˜o auxiliar dispon´ıvel para o ajuste e da relac¸a ˜o entre a vari´ avel de interesse e as vari´ aveis auxiliares. Esta caracter´ıstica ´e muito importante pois proporciona grande flexibilidade para a aplicac¸a ˜o do estimador GREG, sendo poss´ıvel considerar v´ arias alternativas para a componente sistem´ atica bem como para a componente aleat´ oria do modelo assumido. Supondo que µ ˆSk ≈ µ ˆ Uk , o estimador (3.1) pode ser escrito como tˆGREG ≈. X. µ ˆUk +. k∈U. X Ek k∈ S. πk. ,. (3.3). em que Ek = yk − µ ˆUk . Da equac¸a ˜o acima, pode-se avaliar o vi´ es aproximado do tˆGREG da seguinte maneira Ep (tˆGREG ) ≈ em que Ep. X. k. πk. k. µ ˆUk + Ep. k∈U. X yk − µ ˆU k∈ S. X yk − µ ˆU. !. πk. k∈ S. X yk πk. = Ep. k∈ S. =. !. − Ep. = ty .. Xµ ˆU k. k∈ S. πk. !. X yk Ep (Ik ) X µ ˆUk Ep (Ik ) − πk πk. k∈ U. =. !. X. k∈ U. k∈ U. yk −. X. k∈ U. µ ˆUk = ty −. X. µ ˆUk ,. k∈ U. com Ep (Ik ) = πk . Da mesma forma, pode-se usar a express˜ ao (3.3) para obter uma express˜ ao aproximada para a variˆ ancia de tˆGREG , a qual pode ser expressa na forma Vp (tˆGREG ) ≈ V. X Ek k∈ S. πk. !. =. XX k∈U l∈U. ∆kl. Ek El , πk πl. (3.4).

(32) Estimador de Regress˜ ao Generalizado (GREG). 19. com ∆kl = πkl − πk πl , πk e πkl as probabilidades de inclus˜ ao de primeira e. segunda ordem, respectivamente. Ou seja, uma aproximac¸a ˜o da variˆ ancia do estimador tˆGREG e´ obtida aplicando a f´ ormula da variˆ ancia do estimador de Horvitz-Thompson aos res´ıduos do modelo proposto. A partir da equac¸a ˜o (3.4) ´e poss´ıvel definir um estimador para a variˆ ancia de tˆGREG como segue Vˆp (tˆGREG ) =. X X ∆kl ek el , πkl πk πl k∈ S l∈ S. em que ek = yk − µ ˆSk . Como um caso particular do estimador de regress˜ ao generalizado tem-se o estimador da raz˜ ao. Este estimador e´ obtido assumindo um modelo de regress˜ ao linear entre a vari´ avel de interesse e a vari´ avel auxiliar, o qual segue uma estrutura da forma ( E(Yk ) = βxk ; V (Yk ) = σ 2 xk .. (3.5). Assumindo este modelo, o estimador GREG pode ser expresso por P X xk X y k π ˆ ˆ tGREG1 = βS xk = Pk∈ U xk k∈ S πk k∈ S πk k∈U X gks yk = , π k k∈ S que corresponde ao estimador da raz˜ ao, com P. e. βˆSπ = P. k∈ S k∈ S. yk πk xk πk. (3.6). P. xk gks = P k∈U xk , k∈ S πk. onde βˆSπ tamb´ em pode ser obtido a partir da express˜ ao (2.9), com wk = 1/(σ 2 xk πk ). Este estimador ´e muito usado na pr´ atica pois e´ muito f´ acil de ser aplicado, sendo usado inclusive quando a vari´ avel de interesse est´ a categorizada..

(33) Estimador de Regress˜ ao Generalizado (GREG). 20. Uma aproximac¸a ˜o da variˆ ancia do estimador tˆGREG1 pode ser obtida aplicando a express˜ ao (3.4), em que Ek = yk − βˆU xk , com βˆU = ty . O estimador tx. da variˆ ancia do estimador tˆGREG1 e´ expresso por X X ∆kl gks ek gls el , Vˆ (tˆGREG1 ) = πkl πk πl k∈ S l∈S. com ek = yk − βˆSπ xk .. O Estimador de regress˜ ao generalizado (GREG), como apresentado em (3.1) pode ser interpretado como a soma dos valores preditos pelo modelo consi´ derado para todos indiv´ıduos da populac¸a ˜o mais um termo de ajuste. E poss´ıvel formular condic¸o ˜es sob as quais o termo de ajuste desaparece, quando a estimac¸a ˜o ´e assistida por modelos normais lineares S¨ arndal, Swensson e Wretman (1992, pag.231) apresentam condic˜ oes similares para o caso do estimador de regress˜ ao generalizado. A seguir ´e apresentado um lema que de generaliza os resultados citados acima e que e´ parte integrante da contribuic¸a ˜o desta dissertac¸a ˜o. Lema 1. Se o estimador de regress˜ ao generalizado (GREG) descrito na express˜ ao (3.1) considera um modelo de regress˜ ao linear ou n˜ ao-linear da fam´ılia exponencial onde tem-se: S1. Homogeneidade no parˆ ametro de dispers˜ ao, ou seja, φk = φ para todo k ∈ U; S2. Componente sistem´ atica com intercepto, ou seja, existe βj em β tal que ∂ηk /∂βj = C para todo k ∈ U , com C uma constante; S3. Componente sistem´ atica com ligac¸a ˜o canˆ onica, ou seja, θk = ηk para todo k ∈ U; Ent˜ ao o estimador GREG para ty pode ser escrito como X X ˆ π ; xk )). tˆGREG = µ ˆ Sk = g −1 (h(β S k∈U. k∈U. Al´em disso, o total de y pode ser expresso da seguinte forma X X ˆ U ; xk )). ty = µ ˆ Uk = g −1 (h(β k∈U. k∈U.

(34) Estimador de Regress˜ ao Generalizado (GREG). 21. A prova deste lema pode ser encontrada no Apˆ endice A. A aplicac¸a ˜o do Lema 1 implica numa simplificac¸a ˜o da express˜ ao de tˆGREG . O Lema 1 permite concluir que o estimador GREG para o total ty pode ser expresso de uma maneira mais simples em modelos como, por exemplo:  Regress˜ ao log´ıstica linear e n˜ ao linear com intercepto.  Regress˜ ao linear e n˜ ao linear homoscedastica com intercepto e ligac¸a ˜o identidade.  Regress˜ ao de poisson linear e n˜ ao linear com intercepto e ligac¸a ˜o logaritmo.  Regress˜ ao gama linear e n˜ ao linear com intercepto e ligac¸a ˜o 1/µ.  Regress˜ ao normal inversa linear e n˜ ao linear com intercepto e ligac¸a ˜o 1/µ2 .. 3.1. Estimador de Regress˜ ao Generalizado no ˜o Contexto de Estratificac¸a. Em muitas pesquisas e´ comum encontrar populac¸o ˜es compostas por subpopulac¸o ˜es bem definidas que podem ser identificadas a priori. Quando estas subpopulac¸o ˜es s˜ ao disjuntas, podem dar origem a estratos. A estratificac¸a ˜o e´ apresentada em alguns casos de forma evidente e quando ela e´ usada procura-se que exista homogeneidade nos elementos que pertencem a cada estrato e heterogeneidade entre os estratos. A selec¸a ˜o dos indiv´ıduos em cada estrato ´e independente, ou seja, pode ser retirada uma amostra seguindo um plano amostral p(·) diferente para cada estrato. A estratificac¸a ˜o e´ um m´ etodo eficiente e flex´ıvel usado com muita freq¨ ueˆncia na pr´ atica. A seguir ser˜ ao apresentadas algumas poss´ıveis raz˜ oes para usar estratificac¸a ˜o: ` vezes e´ poss´ıvel identificar a priori subpopulac¸o  As ˜es para as quais deseja-se obter estimativas com precis˜ oes pr´ e-especificadas. Neste caso, cada subpopulac¸a ˜o pode ser tratada como uma “populac¸a ˜o” no processo de inferˆ encia..

(35) Estimador de Regress˜ ao Generalizado (GREG). 22.  A conveniˆ encia administrativa pode algumas vezes sugerir estratifica¸ca ˜o. Por exemplo, se a instituc¸a ˜o respons´ avel pela pesquisa tem v´ arios escrit´ orios dispersos pela populac¸a ˜o de interesse, ent˜ ao cada escrit´ orio pode encarregar-se da regi˜ ao na qual est´ a localizado recorrendo desta maneira a ` estratificac¸a ˜o, considerando como um estrato a a ´rea correspondente a cada escrit´ orio. ´ poss´ıvel ainda que, para algumas subpopulac¸o  E ˜es espec´ıficas, o contexto (existˆ encia de informac¸o ˜es auxiliares, por exemplo) indique um procedimento diferente de estimac¸a ˜o. Nestes casos, cada subpopulac¸a ˜o espec´ıfica seria um estrato. O procedimento de estimac¸a ˜o na amostragem estratificada e´ realizado considerando cada estrato como se fosse uma subpopulac¸a ˜o, obtendo as estimativas dos parˆ ametros de interesse em cada estrato. Uma vez obtidas estas estimativas e´ feita uma combinac¸a ˜o delas para desta maneira, estimar os parˆ ametros na populac¸a ˜o total. O processo de estimac¸a ˜o em cada estrato pode ser realizado com diferentes m´ etodos. O importante e´ que as amostras selecionadas em cada estrato sejam independentes, obtendo assim, f´ ormulas diretas de estimac¸a ˜o para os parˆ ametros populacionais. Uma das vantagens de usar a amostragem estratificada e´ que sob certas condic¸o ˜es, os estimadores s˜ ao mais eficientes e com menor variˆ ancia. Entretanto, existem situac¸o ˜es onde a implementac¸a ˜o de estratificac¸a ˜o tem um custo alto o qual afeta o orc¸amento e leva a diminuir o tamanho da amostra total. A estratificac¸a ˜o tamb´ em permite planejar estimac¸o ˜es para os estratos com um n´ıvel de confianc¸a e precis˜ ao estabelecidos previamente.. 3.1.1. ˜o sob Estratificac¸a ˜o Plano Amostral e Estimac¸a. Em amostragem estratificada (AE), a populac¸a ˜o U em estudo e´ particionada em H estratos de tamanhos N1 , N2 , . . . , NH , respectivamente, onde U=. H [. h=1. em que Uh = {k ∈ U : k ∈ estrato h}.. Uh ,.

(36) Estimador de Regress˜ ao Generalizado (GREG). 23. Um processo f´ısico de aleatorizac¸a ˜o ´e empregado dentro de cada estrato h, independente, para gerar uma amostra Sh de tamanho nh (h = 1, 2, . . . , H). A amostra final (de tamanho n) e´ composta por todos os elementos selecionados, isto e´ S= com n =. PH. H [. Sh ,. h=1. h=1. nh . Denote por ph o plano amostral implementado pela. aleatorizac¸a ˜o imposta ao estrato h. Como as amostras S1 , S2 , . . . , SH foram geradas independentemente, o plano AE atribui probabilidade de selec¸a ˜o da amostra S, dado por H Y. p(S) =. ph (Sh ).. h=1. O n´ umero de elementos no estrato h, chamado tamanho do estrato h, ´e denotado por Nh . Considerando que cada estrato forma uma partic¸a ˜o de PH U , tem-se que N = em disso, o total populacional pode ser h=1 Nh . Al´. decomposto como. t=. X. yk =. k∈U. em que th =. P. k∈Uh. H X. th =. h=1. H X. Nh y¯Uh ,. h=1. yk e y¯Uh s˜ ao o total e a m´ edia do estrato h, respectiva-. mente. Adicionalmente, defina ah = Nh /N como o peso do estrato h em U . Ent˜ ao, a m´ edia populacional pode ser expressa por y¯U =. H X. ah y¯Uh .. h=1. O estimador do tipo Horvitz-Thompson total populacional, sob uma AE, com H estratos, assume a forma tˆπ =. H X. tˆhπ ,. h=1. onde tˆhπ e´ o estimador de th = como. P. k∈Uh. V (tˆπ ) =. yk . A sua variˆ ancia pode ser escrita. H X h=1. V (tˆhπ )..

(37) Estimador de Regress˜ ao Generalizado (GREG). 24. Al´ em disso, Vˆ (tˆπ ) =. H X. Vˆ (tˆhπ ),. h=1. e´ um estimador n˜ ao-viesado para V (tˆπ ), desde que Vˆ (tˆhπ ) seja um estimador n˜ ao-viesado para V (tˆhπ ), para h = 1, 2, . . . , H. Uma aplicac¸a ˜o importante dos estimadores de regress˜ ao, descritos neste trabalho, ocorre quando o plano empregado na selec¸a ˜o dos indiv´ıduos ´e amostragem estratificada. Neste contexto podem ser identificados dois tipos de estimadores de regress˜ ao, os estimadores separado e combinado.. 3.1.2. Estimador de Regress˜ ao Generalizado Combinado. Os estimadores de regress˜ ao s˜ ao chamados de estimadores de regress˜ ao combinados, quando o modelo formulado entre a vari´ avel de interesse e as vari´ aveis auxilares e´ o mesmo para toda a populac¸a ˜o, sem fazer diferenc¸a entre a relac¸a ˜o destas vari´ aveis em cada estrato. O estimador de regress˜ ao generalizado combinado (GREGC), denotado por tˆGREGC , assume a forma ˆ π ; xk )) e β ˆ π = arg max LS (β), com dada em (3.1), em que µ ˆSk = g −1 (h(β S S β. LS (β) =. H X X 1 {φk [yk θ(β; xk ) − b(θ(β; xk ))] + c(yk , φk )}. π k h=1 k∈ S h. Uma aproximac¸a ˜o da variˆ ancia de tˆGREGC pode ser expressa como " # H X X X E k El V (tˆGREGC ) = ∆kl , πk πl h=1 k∈ U l∈ U h. (3.7). h. ˆ ; xk )). A variˆ em que Ek = yk − µ ˆUk , com µ ˆUk = g −1 (h(β ancia deste tipo de U. estimador pode estar inflacionada quando os coeficientes de regress˜ ao s˜ ao diferentes de estrato para estrato na populac¸a ˜o de interesse.. 3.1.3. Estimador de Regress˜ ao Generalizado Separado. O estimador de regress˜ ao separado ´e aplicado quando ´e considerado em cada estrato um modelo de regress˜ ao diferente, ou seja, quando a relac¸a ˜o entre a.

(38) Estimador de Regress˜ ao Generalizado (GREG). 25. vari´ avel de interesse e as vari´ aveis auxiliares em cada estrato assumem uma associac¸a ˜o diferente, tendo que recorrer a ` formulac¸a ˜o de modelos distintos para estas relac¸o ˜es em cada estrato. Os estimadores de regress˜ ao separados est˜ ao mais sujetos a ser viesados, sendo comparados com os estimadores combinados, na medida em que os tamanhos de amostra para cada estrato sejam pequenos. O estimador de regress˜ ao generalizado separado (GREGS), pode ser escrito na seguinte forma " # H Sh X X S X (yk − µ ˆ ) k , tˆGREGS = µ ˆk h + πk h=1. k∈ Sh. k∈Uh. ˆ π ; xk )) e β ˆ π = arg max LS (β), com em que µ ˆSk h = g −1 (h(β Sh Sh h β. LSh (β) =. X 1 {φk [yk θ(β; xk ) − b(θ(β; xk ))] + c(yk , φk )}. πk k∈ S h. Uma aproximac¸a ˜o da variˆ ancia do estimador tˆGREGS pode ser obtida usando ˆ ; xk )). a express˜ ao (3.7), em que Ek = yk − µ ˆUk h , com µ ˆUk h = g −1 (h(β Uh. 3.2. Estimadores Assistidos por Modelos de Regress˜ ao Lineares. Particularmente, para um modelo de regress˜ ao linear E(Yk ) = µk =. J X. βˆj xkj ,. (3.8). j=1. tem-se que o estimador GREG pode ser expresso da seguinte forma tˆGREG = tˆπ +. J X j=1. βˆjπ (txj − tˆxj π ),. (3.9). onde tˆπ e´ o estimador de Horvitz-Thompson para o total de y, tˆxj π e´ o estimador de Horvitz-Thompson do total da vari´ avel auxiliar xj e βˆπ , . . . , βˆπ 1. J. ˆ π . Usando o Lema 1, apresentado na sec¸a s˜ ao os componentes do vetor β ˜o S anterior e´ poss´ıvel concluir que, se o modelo formulado em (3.8) considera.

(39) Estimador de Regress˜ ao Generalizado (GREG). 26. intercepto ent˜ ao o estimador tˆGREG e´ dado por X µ ˆ Sk . tˆGREG = k∈ U. O estimador GREG pode ser expresso de v´ arias formas, sendo a apresentada em (3.9) apenas uma delas. A seguir ser˜ ao mostradas outras poss´ıveis maneiras de expressar (3.1) para o caso linear. Uma forma de apresentar o estimador GREG ´e motivada por conseguir express´ a-lo como uma soma de valores ponderados. Neste caso, ´e necessario introduzir as seguintes mediˆ π de uma maneira diferente da equac¸a das, as quais permitem expressar β ˜o S. dada em (2.9): b = T. X xk xT. k. k∈ S. σk2 πk. e. ˆt =. X xk y k k∈ S. σk2 πk. ,. ˆπ = T b −1ˆt. Al´ sendo β em disso, podem ser definidos tx = (tx1 , . . . , txJ )T e S ˆtxπ = (tˆxπ , . . . , tˆxπ ) vetores dos totais e os estimadores de Horvitz-Thompson das vari´ aveis auxiliares, respectivamente. Ent˜ ao, tomando como base (3.9). e usando as medidas definidas acima, tem-se tˆGREG = tˆπ +. J X j=1. βˆjπ (tˆxj − tˆxj π ). ˆπ = tˆπ + (tx − ˆtxπ )T β S X X yk yk b −1 + (tx − ˆtxπ )T T xk 2 = πk σk πk k∈ S k∈ S iy Xh b −1 xk /σ 2 k = 1 + (tx − ˆtxπ )T T k πk k∈ S X yk = gks , πk k∈ S em que gks pode ser considerado como um fator de calibrac¸a ˜o para πk . A seguir, s˜ ao apresentados dois casos particulares do estimador GREG quando o modelo considera somente uma vari´ avel auxiliar. Inicialmente, considere um modelo sem intercepto, o estimador assistido por este modelo pode ser denominado tˆGREG1 e que corresponde ao estimador da raz˜ ao tratado no comenc¸o deste cap´ıtulo..

(40) Estimador de Regress˜ ao Generalizado (GREG). 27. O segundo estimador considerado ´e o resultado de aplicar um modelo com intercepto e variˆ ancia constante, o qual segue uma estrutura da forma ( E(Yk ) = α + βxk ; (3.10) V (Yk ) = σ 2 . podendo expressar o estimador GREG como X (yk − α ˆ Sπ − βˆSπ xk ) πk k∈U k∈ S X gks yk = N [˜ yS + βˆSπ (¯ xU − x˜S )] = , πk k∈ S. tˆGREG2 =. X. (α ˆ Sπ + βˆSπ xk ) +. em que βˆSπ. =. P. k∈ S (yk. P. − y˜S )(xk − x˜S )/πk , ˜k )2 /πk k∈ S (xk − x. α ˆ Sπ = y˜S − βˆSπ x˜S ,. ˆ N (¯ xU − x˜S )N [1 + aS (xk − x˜S )], aS = P , ˆ ˜S )2 /πk N k∈ S (xk − x X 1 1 X yk 1 X xk ˆ= y˜S = , x˜S = , N . ˆ ˆ πk πk πk N N k∈ S k∈ S k∈ S. gks =. Este estimador e´ comumente chamado na literatura de estimador de regress˜ ao. Uma aproximac¸a ˜o da variˆ ancia de tˆGREG2 pode ser obtida aplicando a express˜ ao (3.4), onde Ek = y k − α ˆ U − βˆU xk , com βˆU =. Sxy Sx2. (3.11). eα ˆ = y¯U − βˆU x¯U .. O estimador da variˆ ancia do estimador tˆGREG2 ´e dado por Vˆ (tˆGREG2 ) =. X X ∆kl gks ek gls el k∈ S l∈S. πkl πk. πl. ,. com ek = yk − α ˆ Sπ − βˆSπ xk . Quando o modelo de regress˜ ao formulado entre a vari´ avel de interesse e as vari´ aveis auxiliares ´e linear e o plano amostral e´ estatificado, tem-se os estimadores descritos a seguir..

(41) Estimador de Regress˜ ao Generalizado (GREG). 3.2.1. 28. Estimador de Regress˜ ao Combinado. O estimador de regress˜ ao combinado assume a seguinte forma ˆ π (¯ tˆGREGC = N [˜ yS + β ˜S )], S xU − x onde y˜S =. H X. ah y˜Sh ,. h=1. com ah = Nh /N , ˆπ β S. =. PH P h=1. k∈ S. PH Ph h=1. (xk − x˜S )(yk − y˜S )/πk. k∈ Sh (xk. − x˜S )2 /πk. e x˜S ´e definido de forma an´ aloga a y˜S .. 3.2.2. Estimador de Regress˜ ao Separado. O estimador de regress˜ ao separado pode ser expresso por tˆGREGS =. H X h=1. em que βˆh = e. P. k∈ Sh (xk. P. y˜Sh an´ alogo para x˜Sh .. Nh [˜ ySh − βˆh (¯ xUh − x˜Sh )],. − x˜Sh )(yk − y˜Sh )/πk , ˜Sh )2 /πk k∈ Sh (xk − x. P k∈ S yk /πk = P h , k∈ Sh 1/πk. ,.

(42) CAP´ITULO 4. ˜o do Uma Forma Alternativa de Derivac¸a Estimador de Regress˜ ao O objetivo deste cap´ıtulo e´ apresentar o m´ etodo proposto por Till´ e (1998), para derivar o estimador de regress˜ ao generalizado (GREG), quando o modelo que assiste a ` estimac¸a ˜o ´e linear, baseado na metodologia da correc¸a ˜o do vi´ es condicional (CVC). A inferˆ encia condicional tem sido estudada amplamente na a ´rea de amostragem, no contexto de obter estimadores n˜ aoviesados, ou estimadores com um vi´ es condicional pequeno. Os procedimentos aplicados para obter estimadores n˜ ao-viesados condicionalmente, recorrem freq¨ uentemente a ` estimac¸a ˜o do vi´ es condicional e a ` aplicac¸a ˜o de um fator de correc¸a ˜o ao estimador original. O resultado destes procedimentos e´ um estimador com menor ou sem vi´ es condicional. Este assunto tem sido discutido por Fuller e Isaki (1981), Deville (1992), Montanari (1997, 1998) e Rao (1994,1997). Al´ em disso, Casady e Valliant (1993) estudaram as propriedades condicionais do estimador usado no caso de p´ os-estratificac¸a ˜o. O m´ etodo proposto por Till´ e usa as probabilidades de inclus˜ ao condicionais para construir um estimador com um vi´ es condicional pequeno. A CVC pode ser aplicada devido a ` existˆ encia da informac¸a ˜o auxiliar, estimando a esperanc¸a condicional com respeito a uma estat´ıstica, denominada estat´ıstica auxiliar e denotada por η. A seguir, ´e apresentado como o estimador obtido atrav´ es da CVC pode ser mais eficiente do que um estimador incondicional.. 29.

(43) ˜o do Uma Forma Alternativa de Derivac¸a Estimador de Regress˜ ao. 30. ˆ = E(θ|η) ˆ − θ ´e o Considere-se o estimador θˆ n˜ ao-viesado para θ. Se B(θ|η) vi´ es condicional de θˆ dado que η e´ conhecida, ent˜ ao o estimador ajustado θˆ∗ pode ser constru´ıdo assim: ˆ θˆ∗ = θˆ − B(θ|η). Neste caso, ˆ + V (B(θ|η)) ˆ ˆ B(θ|η)), ˆ V (θˆ∗ ) = V (θ) − 2Cov(θ, onde ˆ B(θ|η)) ˆ ˆ − θ)) Cov(θ, = E((θˆ − θ)(E(θ). ˆ − θ)|η)} = E{E((θˆ − θ)(E(θ). ˆ = V (E(θ|η)). Ent˜ ao, obt´ em-se. ˆ − V (E(θ|η)). ˆ V (θˆ∗ ) = V (θ) Ou seja, a variˆ ancia do estimador θˆ∗ e´ menor que a variˆ ancia do estimador ∗ ˆ O problema apresentado usando θˆ ´e que, ainda que o vi´ θ. es condicional possa ser em geral estimado, o ganho em reduzir a variˆ ancia pode ser frustrado pela inestabilidade do estimador condicionalmente viesado usado. De maneira geral, nesta sec¸a ˜o no lugar de obter θˆ∗ de θˆ por meio do vi´ es condicional ajustado, a construc¸a ˜o do estimador para θ ´e feita usando a CVC e as probabilidades de inclus˜ ao condicionais.. 4.1. Estimadores Condicionalmente N˜ ao-viesados. Considere η = η(xk , k ∈ S) uma estat´ıstica. Como a populac¸a ˜o ´e finita, η s´ o. pode assumir um n´ umero finito de valores, denotados por (η1 , . . . , ηi , . . . , ηl ).. O objetivo ´e estimar y¯ com um vi´ es condicional o menor poss´ıvel com respeito a ` estat´ıstica η. Ent˜ ao, s˜ ao definidas as probabilidades condicionais de primeira ordem πk|η = E(Ik |η), k ∈ U,.

Referências

Documentos relacionados

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

Este trabalho buscou, através de pesquisa de campo, estudar o efeito de diferentes alternativas de adubações de cobertura, quanto ao tipo de adubo e época de

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

esta espécie foi encontrada em borda de mata ciliar, savana graminosa, savana parque e área de transição mata ciliar e savana.. Observações: Esta espécie ocorre

Dessa forma, os níveis de pressão sonora equivalente dos gabinetes dos professores, para o período diurno, para a condição de medição – portas e janelas abertas e equipamentos

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

Box-plot dos valores de nitrogênio orgânico, íon amônio, nitrito e nitrato obtidos para os pontos P1(cinquenta metros a montante do ponto de descarga), P2 (descarga do

In summary, I have presented five types of cases that argue against self-correction in science: long-standing errors; errors correct- ed only by happenstance; error