• Nenhum resultado encontrado

Não apenas o ajuste de um MLG, mas toda análise estatística que envolve dados amostrais complexos e busca realizar inferência para parâmetros sob estudo requer a estimação da variabilidade amostral para os estimadores pontuais (estatísticas) de interesse. Para planos amostrais com AAS ou AES (em um ou mais estágios), expressões exatas para estimadores simples (como a média amostral) já estão definidas na literatura (Cochran,

1977). Entretanto, em geral as observações são selecionadas através de um PAC com tamanhos diferentes para os conglomerados ou com pesos desiguais para os elementos da população. Neste caso, muitas estatísticas de interesse não serão funções lineares simples dos dados observados, o que impede a estimação de forma analítica das respectivas variâncias.

Assim, a adoção de métodos alternativos que aproximem a variância estimada se faz necessária. Neste sentido, são comumente utilizados a Linearização em Série de Taylor (LST, exemplificada na explicação sobre a estimação por MP) do estimador, obtendo a aproximação correspondente de sua variância, e os métodos de reamostragem (criação de réplicas de subamostras a partir da amostra original) não-paramétrica. Dentre estes, os mais conhecidos são: a Replicação em Semiamostras ou Replicação Repetida Balanceada (RRB); a Replicação Repetida Jacknife (RRJ, citada brevemente quando falamos do

teste pseudoescore) e a Replicação Bootstrap (RB). Para tais métodos, pesos amostrais replicados (referentes aos indivíduos reamostrados em cada réplica gerada) devem ser criados como substitutos dos pesos originais, os quais não são alterados quando estimamos variâncias por LST. Nas duas subseções a seguir, detalhamos o processo de estimação para cada método citado.

2.5.1

Linearização em Série de Taylor

A Linearização em Série de Taylor (LST) é um método no qual, para encontrar a variância estimada de um estimador não-linear, é feita uma aproximação deste por uma função linear das observações. Desta forma, se estima a variância sob tal aproximação linear, não produzindo por si só um estimador pronto para a variância. O tratamento matemático apresentado a seguir será restringido ao caso em que a população é finita e há apenas um parâmetro a ser estimado, o qual pode ser função de um ou mais parâmetros populacionais (Seção 6.3 de Wolter, 2007).

Sejam N o tamanho de uma dada população finita; λ = (λ1, . . . , λp)0 um vetor

p-dimensional de parâmetros populacionais e ˆλ = λˆ1, . . . , ˆλp 0

o respectivo vetor de estimadores, baseados numa amostra s de tamanho n(s). A forma dos estimadores ˆλi, i =

1, . . . , p dependerá do PAC utilizado para gerar s. Na grande maioria das aplicações, λ será um vetor de totais, médias ou proporções para p diferentes variáveis amostrais. Todos os elementos de ˆλ devem ser pelo menos assintoticamente não enviesados e consistentes. Suponha que nosso parâmetro populacional de interesse seja θ = g(λ) e adotemos como estimador ˆθ = gλˆ. As duas principais etapas a serem resolvidas são: (i) encontrar uma aproximação para a variância de ˆθ sob o PAC; e (ii) construir um estimador consistente para a variância de ˆθ. Se a função g(l), onde l é qualquer vetor de valores que λ e ˆλ possam assumir, tiver derivadas contínuas de 2ª ordem em uma região do espaço paramétrico Λ contendo λ e ˆλ, temos pela expansão em série de Taylor que (Wolter,2007, p. 230)

ˆ θ − θ = p X j=1 ∂g(λ) ∂lj  ˆ λj− λj  + Rn(s)λ, λˆ  (2.21) onde Rn(s)  ˆ λ, λ= 1 2! p X j=1 p X i=1 2gλ¨ ∂lj∂li  ˆ λj − λj   ˆ λi− λi  e ¨λ é entre ˆλ e λ.

A aplicação da expansão em série de Taylor representada pela equação (2.21) é útil para aproximar variâncias quando pressupomos que a população amostrada é finita. Em geral, o termo Rn(s)



ˆ

λ, λ é desprezado enquanto coeficiente da diferença ˆ

Na prática, aproximar a variância de ˆθ, V arθˆ, é equivalente a aproximar o Erro Quadrático Médio (EQM) de ˆθ, EQMθˆ. Sabemos que EQMθˆ = V arθˆ+

n

E



ˆ

θ − θo2, em que o segundo termo do lado direito representa o quadrado do viés de ˆθ. Porém, a aproximação para este termo é de ordem inferior à de V arθˆ, de modo que EQMθˆe V arθˆ serão iguais na aproximação de 1ª ordem.

Assim, o EQM de ˆθ é aproximado em 1ª ordem por (Wolter, 2007, p. 230)

EQMθˆ = E  h g( ˆλ) − g (λ)i2  = V ar    p X j=1 ∂g(λ) ∂lj  ˆ λj− λj     = p X j=1 p X i=1 ∂g(λ) ∂lj ∂g(λ) ∂li Covnλˆj, ˆλi o = n(s)d0 (2.22)

onde Σn(s) é a matriz de covariância de ˆλ e d é um vetor 1 × p com elementos dj =

∂g(λ)/∂lj, j = 1, . . . , p. Aproximações de ordens maiores são possíveis se estendermos

a expansão em série de Taylor e mantivermos os termos adicionais na aproximação. Entretanto, muitas aplicações envolvendo grandes pesquisas amostrais com dados complexos (como a YNSPMS) têm mostrado que a aproximação de 1ª ordem produz resultados

satisfatórios, exceto quando a população é altamente assimétrica.

Com isto, finalmente será possível estimar a variância de ˆθ. Devemos então substituir

d e Σn(s) por suas respectivas estimativas amostrais. Suponha que exista um estimador para Σn(s), denotado por Σbn(s), especificado de acordo com o PAC. Logo, o estimador da

LST para EQMθˆ, e consequentemente para V arθˆ, é dado por (Wolter, 2007, p. 231) varLSTθˆ=dbΣbn(s)db

0

(2.23)

onde, analogamente, d é um vetor 1 × p com elementosb dbj = ∂g 

ˆ λ/∂lj.

Em geral, varLSTθˆ é um estimador não enviesado tanto de EQMθˆ quanto de sua aproximação dbΣbn(s)db

0

. Porém, ele será consistente desde que ˆλ e Σbn(s) sejam

consistentes para λ e Σn(s), respectivamente.

Para amostras de populações muito reduzidas (N < 20), a aproximação de variân- cias via LST de 1ª ordem não deve ser usada, pois a convergência pode ocorrer de forma bastante lenta ou sequer ser atingida dependendo do tamanho amostral n(s) escolhido. Isto ocorre pelo fato de que não é possível estabelecer a ordem dos demais termos (ignorados) da expansão sem assumir um modelo de superpopulação ou uma sequência de populações finitas crescentes em tamanho.

2.5.2

Métodos de Reamostragem Não-paramétricos

O primeiro método envolvendo reamostragem não-paramétrica, o qual serviu de inspiração para os métodos RRB; RRJ e RB, foi desenvolvido por Mahalanobis (1958). O método de Mahalanobis requer a seleção de uma amostra completamente probabilística de tamanho n como um conjunto de c = 1, . . . , C réplicas amostrais independentes a partir de um plano amostral comum a todas elas. As estimativas, para cada réplica, de θ (parâmetro de interesse) e de sua variância com base no plano amostral são dadas respectivamente por (Heeringa et al., 2010, p. 74)

ˆ θrep= C X c=1 ˆ θc/C (2.24) varθˆrep= C X c=1  ˆ θc− ˆθrep 2 / [C(C − 1)] (2.25)

Apesar de sua simplicidade, o método de Mahalanobis é raramente usado na prática, pois se um grande número de réplicas é usado para obter os graus de liberdade adequados para estimação da variância, a exigência de que cada réplica seja uma “miniatura” da amostra completa restringe a eficiência do plano amostral ao limitar o nº de estratos que podem ser empregados em cada estágio do processo de seleção. Assim, se um plano amostral estratificado altamente eficiente é usado para selecionar a amostra, o nº de réplicas independentes bem como os graus de liberdade para estimação da variância podem ser bastante reduzidos (Heeringa et al., 2010).

Durante o final da década de 1950 e a década de 1960, a ideia de Mahalanobis foi estendida para métodos baseados na replicação simples, porém com uso de procedimentos mais eficientes para criar as réplicas, aumentando os graus de liberdade e melhorando a precisão das estimativas, o que contribuiu para a redução de custos na realização de uma pesquisa amostral (a amostra a ser selecionada não precisava ser muito grande). Os métodos de replicação RRB; RRJ e RB surgiram neste contexto. Uma explicação detalhada para a estimação de variâncias por estes três métodos pode ser encontrada em Wolter (2007) e Heeringaet al. (2010). Para todos eles, as variâncias estimadas serão assintoticamente não-enviesadas e consistentes. Resumidamente, cada um deles utiliza a seguinte sequência de passos:

• Obtenha C réplicas (subamostras) a partir da amostra original com base nas regras para o método escolhido (RRB; RRJ ou RB);

• Em cada réplica, corrija os pesos amostrais originais dos indivíduos selecionados, criando C conjuntos de novos pesos amostrais (observações não pertencentes a uma dada réplica terão peso amostral nulo na mesma);

• Calcule estimativas pontuais ponderadas do parâmetro de interesse para a amostra original e em seguida para cada réplica separadamente, usando os respectivos pesos amostrais;

• Obtenha a variância estimada tomando as estimativas pontuais (na amostra original e nas réplicas) calculadas no passo anterior, de acordo com o método escolhido; • Construa intervalos de confiança e testes de hipóteses para o parâmetro de interesse

com graus de liberdade corrigidos pelo método escolhido.

Nesta dissertação, foi escolhido o uso da LST para aproximar a variância estimada, uma vez que temos uma amostra de AE’s (UPA’s); domicílios (USA’s) e indivíduos bem grande, mesmo dentro de cada província (nível de estratificação no 1º estágio), na YNSPMS. Outra razão para isso é o fato de que o método LST apresenta resultados pelo menos semelhantes (se não melhores), em termos de viés e EQM, quando comparado aos métodos de reamostragem não-paramétrica, mas com esforço computacional bem menor (Krewski & Rao, 1981; Rao & Wu, 1985). Assim, as estimativas pontuais, tanto dos parâmetros para o modelo do escore de propensão quanto para a modelagem por DD, serão acompanhadas do respectivo erro-padrão calculado através da LST quando considerarmos o PAC. A partir das variâncias estimadas, resta apenas quantificar a influência do plano amostral, o que será discutido na seção a seguir.