• Nenhum resultado encontrado

3.2 Balanceamento dos Indivíduos Pareados

3.2.1 O Teste Qui-quadrado de Pearson

Sendo um dos primeiros testes não-paramétricos desenvolvidos na literatura, o teste qui-quadrado (χ2) de Pearson pode ser feito tomando três hipóteses nulas distintas, todas envolvendo variáveis categóricas (nominais ou ordinais). São elas: qualidade do ajuste; homogeneidade e independência.

O teste χ2 de Pearson para a hipótese nula de (boa) qualidade do ajuste equivale a testar se as proporções amostrais para cada categoria de uma única variável sob teste são iguais às respectivas proporções na população. Por outro lado, os testes para as hipóteses nulas de homogeneidade e independência são utilizados quando há duas ou mais variáveis categóricas distintas, exigindo tabelas de múltiplas entradas para sua realização. Supondo que haja duas variáveis categóricas dispostas em uma tabela de contingência, o teste χ2 de Pearson para a hipótese nula de homogeneidade possui ideia parecida ao do teste para qualidade do ajuste. Porém, agora se compara a distribuição das proporções para as 6 Também denominado teste da soma dos postos de Wilcoxon ou de Wilcoxon-Mann-Whitney, sua

construção é baseada no teste de postos sinalizados de Wilcoxon para igualdade na média, porém com uma hipótese nula mais restritiva (Mann & Whitney,1947). Ambos os testes não exigem como pressuposto normalidade das observações nas duas amostras.

categorias de uma das variáveis (coluna da tabela) nos diferentes níveis (representados pelas categorias dispostas nas linhas da tabela) da outra variável. Por sua vez, o teste χ2 para a hipótese nula de independência investiga as distribuições conjuntas das duas variáveis categóricas sob análise. No caso clássico de observações IID, os testes para homogeneidade e independência possuem a mesma estatística de teste e convergem assintoticamente para a mesma distribuição. Para esta situação, uma explicação geral do teste χ2 para cada hipótese, com ideia para construção da respectiva estatística, pode ser encontrada em Pessoa & Silva (1998, capítulos 7 e 8).

Porém, se a amostra foi obtida através de um PAC, a distribuição assintótica utilizada no caso IID (para as três hipóteses consideradas) não é mais válida. Testes análogos conduzidos em tabelas de contingência para amostras com conglomeração, por exemplo, tendem a ser mais liberais (rejeitam mais do que deveriam). Isto é explicado pela correlação intraconglomerado positiva de cada variável categórica usada para definir a tabela de contingência. Observe também que o teste χ2 de Pearson, para as hipótese de homogeneidade e independência, é definido sobre vetores de proporções para distribuições multinomiais. Sejam L e C o nº de categorias nas linhas e colunas da tabela de contingência, respectivamente. Adotando a hipótese nula de independência, temos uma única distribuição multinomial com vetor de proporções com comprimento LC. Para a hipótese nula de homogeneidade, temos L multinomiais com vetores de proporções com comprimento C cada. O processo de contagem gerador das distribuições multinomiais pressupõe que as observações individuais são IID, uma suposição válida apenas sob AAScR ou AAS, se o tamanho amostral n é suficientemente grande (Pessoa & Silva, 1998).

Assim, as estatísticas de teste têm formulações distintas quando o PAC é con- siderado, logo a escolha da hipótese nula a ser testada passa a ser crucial. Para dados amostrais complexos, o desenvolvimento matemático do teste χ2 de Pearson para as três hipóteses pode ser consultado em Holt et al. (1980). Nesta dissertação, nos atemos apenas à estatística com correção de 1ª e 2ª ordens de Rao-Scott F-ajustada (Rao & Scott, 1979; Thomas & Rao, 1987) do teste χ2 de Pearson para a hipótese nula de independência. Para justificar o uso desta configuração, note que não temos dados populacionais para as variáveis pesquisadas na YNSPMS, inviabilizando o uso de testes para qualidade do ajuste. Além disso, o tamanho empírico do teste (a taxa de rejeição da hipótese nula) é menos vulnerável aos efeitos de estratificação; conglomeração e probabilidades desiguais de seleção, portanto mais próximo do nível nominal α de significância, para a hipótese nula de independência (Holt et al., 1980).

Finalmente, a aplicação das correções de Rao-Scott e do ajuste para a distribuição F diminuem ainda mais a diferença entre o tamanho do teste e o nível α (Thomas et al., 1996). Em comparação com outras correções, como a do ajuste pelo EPA (ou EPAA, se as variâncias verdadeiras não forem conhecidas) médio das proporções estimadas em

cada célula (Fellegi, 1980), o desempenho da correção de Rao-Scott de 1ª ordem já é melhor, independentemente da hipótese nula testada (Holtet al.,1980). O uso de correções para a influência do PAC é necessário, uma vez que suas características, em particular a conglomeração (Cohen, 1976), afetam a distribuição da estatística do teste χ2 de Pearson. Esta converge para uma soma ponderada de distribuições χ2 com cada uma possuindo um grau de liberdade (a ponderação dependerá da influência do plano amostral), qualquer que seja a hipótese nula de interesse (Rao & Scott, 1984). Quando testarmos o balanceamento no caso IID, também o faremos sob a hipótese nula de independência, para que os resultados (com e sem o PAC incorporado) sejam comparáveis.

Considerando o PAC, a hipótese nula de independência para o teste χ2 de Pearson em uma tabela de contingência L × C ainda é a mesma na situação em que as observações são IID. Sejam YL e YC as duas variáveis categóricas sob teste, com L e C categorias,

respectivamente. Sejam também pl;c as proporções de cada célula (l, c) da tabela; pl+ = PC

c=1pl;c a proporção marginal da linha l e p+c =PLl=1pl;ca proporção marginal da coluna c.

Formalmente, estamos testando a hipótese nula H0 : pl;c = pl+p+cpara l = 1, . . . , L − 1; c =

1, . . . , C − 1. Reescrevendo H0 usando contrastes de proporções, temos que H0 : fl;c = pl;c

pl+p+c = 0. Agora, considere o vetor f formado pelos (L−1)(C −1) contrastes fl;cordenados

pelas linhas da tabela de contingência, isto é, f = (f1;1, . . . , f1;C−1, f2;1, . . . , fL−1;C−1)

0

. Note que f = h (p) = h (p1;1, . . . , p1;C−1, p2;1, . . . , pL−1;C−1) é uma função não linear do vetor p

de proporções da tabela de contingência (sem as últimas linha e coluna). O teste para a hipótese de independência pode também ser definido em termos da distância entre uma estimativa consistente de f e o vetor nulo de mesmo comprimento. Tal estimativa é denotada por fb =



ˆ

f1;1, . . . , ˆf1;C−1, ˆf2;1, . . . , ˆfL−1;C−1 0

, com ˆfl;c = ˆpl;c− ˆpl+pˆ+c (Pessoa &

Silva, 1998, p. 128).

Para estimar ˆpl;c, uma vez que a amostra de tamanho n extraída não é mais

IID, considere o ENHT do tamanho na população de cada célula (l; c), denotado por Nl;c–NHT = Psl;cwi, em que wi é o peso da observação i na amostra s. Consideremos

também o ENHT do total populacional, denotado por NNHT = P

swi, tomando agora

todas as observações em s. Temos que ˆpl;c é dado pela razão entre os dois totais enunciados,

isto é, ˆpl;c = Nl;c–NHT/NNHT. Logo, a frequência na célula (l; c) é estimada por ˆnl;c = nˆpl;c.

Devido à consistência para o ENHT, temos que n1/2p − p) converge assintoticamente para uma distribuição normal multivariada N (0; V (ˆp)) e, consequentemente, n1/2f − fˆ  converge assintoticamente para uma N (0; V fˆ), com V fˆ= ∆h(ˆp)V (ˆp)∆h(ˆp)0, onde

∆h(p) = ∂h(p)/∂p é uma matriz jacobiana (L − 1) × (C − 1) de derivadas parciais (Holt

et al., 1980).

Se o tamanho populacional verdadeiro for conhecido (informação da qual não dispomos para a YNSPMS), é possível ainda aplicar uma correção para populações finitas em Nl;c–NHT (Quatember, 2015). Sem aplicar nenhuma correção adicional além da

incorporação dos pesos amostrais, temos que a estatística do teste χ2 de Pearson para a hipótese nula de independência é dada por (Pessoa & Silva, 1998, p. 1297)

XI2 = n L X l=1 C X c=1 (ˆpl;c− ˆpl+pˆ+c)2 ˆ pl+pˆ+c (3.5) = nfb 0h c P0;fi−1fb (3.6)

em que a expressão em (3.6) é nada mais do que uma representação matricial equivalente para (3.5), com c P0;f = ∆h (p)b Pc0∆h (p)b 0 c P0 = diag (ˆp0) − ˆp0pˆ00

onde pb0 é o vetor de componentes ˆpl+pˆ+c e diag (pb0) representa a matriz cuja diagonal

principal consiste destes mesmos componentes e os demais elementos são nulos. Sob a hipótese nula de independência, a matriz estimada Vb0p) da covariância multinomial de

b

p, o vetor de proporções estimadas, é dada por cP0/n. Por fim, ∆h (ˆp) é uma matriz

jacobiana de derivadas parciais avaliadas em p = ˆp. Seja Vb



ˆ

f = ∆h (ˆp)V (ˆb p) ∆h (ˆp)0 a matriz estimada da covariância do vetor ˆf

de contrastes estimados8 (observe que V (ˆb p) é a matriz estimada da covariância para as

proporções estimadas, aproximada por LST). Considere a matriz E de estimativas dosb

efeitos multivariados do plano amostral (ampliado), definida pela equação (2.28), aqui dada por (Pessoa & Silva, 1998, p. 130)

b E = nhcP0;f i−1 b V fˆ =hn−1∆h (p)b Pc0∆h (p)b 0i−1 ∆h (ˆp)V (ˆb p) ∆h (ˆp)0 =h∆h (p)b Vb0(ˆp) ∆h (p)b 0i−1 ∆h (ˆp)V (ˆb p) ∆h (ˆp)0 =h∆h (p)b 0i−1h b V0p)i−1[∆h (p)]b −1 ∆h (ˆp)V (ˆb p) ∆h (ˆp)0 =h∆h (p)b 0i−1h b V0p)i−1V (ˆb p) ∆h (ˆp)0 (3.7)

Pela equação (3.7) podemos perceber que, se as observações fossem de fato IID, a matriz E seria igual à identidade, pois nesta situaçãob Vb0p) = V (ˆb p). A correção de 1ª

ordem de Rao-Scott para a estatística (3.5) é dada por (Pessoa & Silva, 1998, p. 130)

XI2;RS1 = X

2

I

e∗ (3.8)

em que eé um estimador da média e dos autovalores da matrizE. Sem precisar calculá-la,b

podemos estimar e usando somente os valores do EPAA estimado nas células (epaal;c) e

7 Há uma pequena correção na fórmula da estatística fornecida pelos autores, que pode ser conferida

em Holt et al. (1980, p. 314) e Rao & Scott (1981, p. 226).

8 Novamente, uma correção se faz necessária em relação ao texto de Pessoa & Silva (1998), a qual pode

marginais da tabela de contingência (epaal+ e epaa+c) por (Pessoa & Silva, 1998, p. 130) e∗ = 1 (L − 1)(C − 1) L X l=1 C X c=1 ˆ pl;c(1 − ˆpl;c) ˆ pl+pˆ+c epaal;cL X l=1 (1 − ˆpl+)epaal+− C X c=1 (1 − ˆp+c)epaa+c

Sob H0 (independência), a distribuição assintótica de XI2;RS1 é uma χ2 com (L − 1)(C − 1) graus de liberdade. Se a matrizEb for conhecida, é possível aplicar também a

correção de 2ª ordem de Rao-Scott tomando os elementos de sua diagonal principal, visto que a soma dos autovalores de uma matriz quadrada (como E) é sempre igual ao seu traçob

(Harville, 2001, p. 545-546). Por definição, este operador é dado pela soma dos elementos da diagonal principal de uma matriz quadrada. Ainda, a soma dos quadrados de cada autovalor é igual ao traço do quadrado da matriz correspondente. Com estas propriedades e inspirada pela aproximação de Satterwhaite (1946), a correção de 2ª ordem de Rao-Scott para XI2 é dada por (Pessoa & Silva, 1998, p. 130)

XI2;RS2 = X 2 I e(1 + a2) (3.9) em que e∗ = tr  b E [(L − 1)(C − 1)] a2 = P(L−1)(C−1) k=1 e2k (e∗)2(L − 1)(C − 1)− 1 = trEb2  (e∗)2(L − 1)(C − 1)− 1

O termo a2 é uma estimativa para o quadrado do coeficiente de variação dos autovalores ek de E. Assintoticamente, a estatística Xb 2

I;RS2 converge para uma distribuição

χ2 com (L − 1)(C − 1)/(1 + a2) graus de liberdade. Ainda, ela pode ser reescrita de forma a facilitar seu cálculo como

XI2;RS2 = XI2 tr  b E trEb2 

Finalmente, o ajuste para a distribuição F , que pode ser feito em qualquer estatística que convirja assintoticamente para uma distribuição χ2, tem como objetivo reduzir ainda mais a influência do PAC na estatística do teste χ2 de Pearson (não importando a hipótese nula adotada) quando o EPAA estimado varia drasticamente entre as proporções estimadas. Thomas et al. (1996) mostram que, para valores altos de a, a estatística do teste χ2 de Pearson para a hipótese nula de independência com correção de 1ª e 2ª ordens de Rao-Scott F-ajustada, aqui denotada por X2

I;RS2–F, possui tamanho empírico mais próximo do nível

(situação em que XI2;RS2–F é mais conservadora). A estatística F-ajustada é dada por (Thomas & Rao, 1987, p. 6369)

XI2;RS2–F = X

2

I;RS2

(L − 1)(C − 1) (3.10)

cuja distribuição converge assintoticamente, sob H0, para (1 + a2)−1 vezes uma distribui- ção F com [(L − 1)(C − 1)/(1 + a2); (m − H)(L − 1)(C − 1)/(1 + a2)] graus de liberdade, sendo m o nº de UPA’s e H o nº de estratos no 1º estágio.