Infer^encias sobre o vetor de M edia: Regi~oes de Con an»ca e Intervalos Simult^aneos. (Johnson & Wichern, Cap. 5)

(1)

Infer^encias sobre o vetor de M¶edia: Regi~oes de Con¯an»ca e Intervalos Simult^aneos

(Johnson & Wichern, Cap. 5)

Dizemos que R(X) ¶e uma regi~_{ao de 100(1 − α)% de} con¯an»ca para θ se

Pr (R(X) compreender θ) = 1 − α.

A regi~ao de con¯an»ca para o vetor de m¶edia µ quando se disp~oe de uma amostra aleat¶oria da distribui»c~ao Np(µ, §)

¶e dada por

n( ¹_{X − µ)}TS−1( ¹_{X − µ) <=} (n−1)p

n−p Fp,n−p(1 − α)

F_p,n−p_{(1 − α) - representando o quantil acumulado de} 100(1 − α)% da distribui»c~ao F_p,n−p

Este resultado ¶e obtido usando-se a distribui»c~ao amostral da estat¶³stica T2 apresentada na aula anterior.

Observe que a regi~ao de con¯an»ca ¶e dada pelo hiper-elips¶oide de eixos determinados pelos autovetores da matriz de covari^ancia amostral S e cujas medidas s~ao proporcionais µas raizes quadradas dos respectivos auto-valores.

Para veri¯car se um dado vetor µ0 pertence µa regi~ao

de con¯an»ca, basta calcular n( ¹_{X − µ}0)TS−1( ¹X − µ0) e

comparar com (n−1)p

(2)

Para p >= 4 n~ao ¶e poss¶³vel representar vi-sualmente a regi~ao de con¯an»ca. No entanto, podemos calcular as medidas dos eixos do hiper-elips¶oide de con¯an»ca centrado em ¹X:

n( ¹_X−µ)TS−1( ¹_{X−µ) <= c}2 = (n − 1)p

n − p Fp,n−p(1−α) Lembre-se que os semi-eixos t^em medida

λ_j√c n = λ_j(n−1)p n(n−p)Fp,n−p(1 − α).

Exemplo: Construir uma regi~ao de con¯an»ca para o vetor de m¶edia, usando os dados sobre readia»c~ao em fornos de microondas. Os dados est~ao nas tabelas 4.1 e 4.5 do livro-texto.

(3)

O departamento de controle de qualidade de uma fabricante de fornos de microondas foi cobrado pelo governo federal a monitorar a quantidade de radia»c~ao quando as portas dos microondas s~ao fechadas. Observa»c~oes da ra-dia»c~ao emitida atrav¶es das portas fechadas de n = 42 fornos selecionados ao acaso foram feitas. Medidas de radia»c~ao tamb¶em foram feitas com as portas abertas dos 42 fornos se-lecionados.

Este conjunto de dados foi trabalhado no ¯nal do cap¶³tulo 4, exemplos 4.10 e 4.17. Nestes exemplos veri¯cou-se que a suposi»c~ao de nor-malidade n~ao era apropriada e uma transfor-ma»c~ao pot^encia dos dados foi buscada.

Vamos trabalhar aqui com a pot^encia 0, 25 ou seja, a raiz quarta da escala original da medida de radia»c~ao.

(4)

No gr¶a¯co a seguir, ¶e poss¶³vel ver que com esta transforma»c~ao nas duas medidas, os pontos nos qq-plots apresentam um comportamento mais pr¶oximo do linear.

(5)

Pede-se construir uma elipse de 95% de con-¯an»ca para o vetor de m¶edia, considerando a escala dos dados transformados de modo que a suposi»c~ao de normalidade ¶e razo¶avel.

Para isso vamos primeiro calcular o vetor de m¶edia e a matriz de vari^ancia amostrais.

dados=read.table("http://www.im.ufrj.br/°avia/ mad484/microondas.txt",header=T) dadosT=dados for (i in 1:2) dadosT[,i]=dadosT[,i](1/4) xbarra=mean(dadosT) S=cov(dadosT) IS=solve(dadosT) DES=eigen(S) n=42, p=2, qf(.95,p,n-p)

(6)

(7)

Intervalos de Con¯an»ca Simult^aneos para os componentes do vetor de m¶edia

Seja X ∼ Np(µ, §).

Vimos que se a ¶e um vetor de constantes em Rp, ent~ao Z = aT_{X ∼ N(a}Tµ, aT§a).

Logo, se X₁, X₂, ..., X_n ¶e uma amostra aleat¶oria da N_p(µ, §), segue que Z₁, Z₂, ..., Z_n, de¯nidos por Z_i = aTX_i, i = 1, .., n ¶e uma amostra aleat¶oria da N (aTµ µ_Z , aT§a σ_Z2 ).

Da teoria normal univariada, temos que um intervalo de 100(1 − α)% de con¯an»ca para µ_Z = aTµ ¶e dado por

IC(µ_Z_{, 1 − α) : a}T_{X ± t}¹ _n−1_{(1 − α/2)}

aTSa n

(8)

Claramente, poder¶³amos construir v¶arios inter-valos de con¯an»ca sobre combina»c~oes lineares dos componentes do vetor µ, cada um asso-ciado com um coe¯ciente de con¯an»_{ca 1 − α,} escolhendo diferentes vetores de constantes a. Por¶em, o coe¯ciente de con¯an»ca conjunto do conjunto de intervalos resultantes n~ao ser¶a mais 1 − α.

¶

E desej¶avel associar um coe¯ciente de con-¯an»_{ca COLETIVO de 1 − α aos intervalos de} con¯an»ca que podem ser gerados para todas as escolhas de a.

Naturalmente, um pre»co dever¶a ser pago pela conveni^encia de uma con¯an»ca simult^anea gran-de para todos os intervalos: intervalos que s~ao mais largos (menos precisos) do que os in-tervalos apresentados anteriormente via a dis-tribui»c~_{ao amostral t com n − 1 graus del} liber-dade.

(9)

Dado o conjunto de dados observados x₁, x₂, ..., x_n e um a particular |t| = | √_n(a_T x−atµ)| aTSa <= tn−1(1 − α/2) ou, equivalentemente, t2 = n(aTx−atµ) 2 aTSa <= t 2 n−1(1 − α/2)

Uma regi~ao de con¯an»ca simult^anea ¶e dada para o conjunto de valores aTµ tais que t2 ¶e relativamente pequeno para todas as escolhas de a.

Parece razo¶avel esperar que o valor t2_n−1_{(1 − α/2)}

seja substitu¶³do por um valor maior, c2, quando a¯rma»c~oes s~ao feitas para muitas escolhas de a.

(10)

Considerando os valores de a para os quais t2 <= c2, somos naturalmente levados a

max a t 2 _{= max} a n(aT_{x − a}tµ)2 aTSa

Usando os resultados sobre desigualdades do cap¶³tulo 2, ¶e f¶acil ver que o m¶aximo ocorrer¶a para a ∝ S−1(¹_{x − µ).}

Ora, isto nos levar¶a µa estat¶³stica T2.

Por conveni^encia, costuma se referir a esses intervalos como intervalos-T2.

Em particular, tomando os vetores a's como os vetores da base can^onica do Rp, obt¶em-se

¹ x_j_± p(n − 1) n − p Fp,n−p(1 − α) s_jj n , j = 1, 2, ..., n

(11)

Agora os intervalos-T2 coletivamente t^em n¶³vel de con¯an»_{ca 1 − α.}

Observe que tamb¶em podemos construir in-tervalos de con¯an»ca para rela»c~oes estruturais entre os componentes do vetor µ como, por exemplo, intervalos para as diferen»cas entre os componentes de µ.

Fazendo

aT = (0, ..., 0, 1

i-¶esima entrada

, 0, ...0, ₋₁ r-¶esima entrada , 0, ..., 0), teremos aT µ = µ_i _{− µ}_r, aT ¹x = ¹x_i _{− ¹}x_r e aTSa = s_ii + srr − 2s_ir.

O intervalo para a diferen»ca µ_i _{− µ}_r ser¶a dado por ¹ x_i _{− ¹}xr ± p(n−1) n−p Fp,n−p(1 − α) s_ii+srr−2sir n

(12)

Exemplo: Obtivemos uma elipse de 95% de con¯an»ca para o vetor µ nos dados sobre ra-dia»c~ao em microondas. Pede-se construir os intervalos-T2 de 95% de con¯an»ca para os com-ponentes individuais do vetor µ, identi¯cando-os como as \sombras" da elipse de 95% de con¯an»ca sobre os eixos coordenados. Pede-se tamb¶em construir os intervalos baseados na distribui»c~ao t e compar¶a-los com os correspon-dentes intervalos T2.

linf1=0.5166803 lsup1=0.6118347 linf2=0.5550817 lsup2=0.6508807

(13)

(14)

Uma Compara»c~ao entre os intervalos T2 e os intervalos separados

A tabela a seguir mostra uma compara»c~ao en-tre os comprimentos dos intervalos de con-¯an»ca separados e os intervalos \simult^aneos" T2 para alguns valores selecionados de p, n e α = 0, 05%. n t_n−1(0.975) p = 4 p = 10 15 2.145 4.14 11.52 25 2.064 3.60 6.39 50 2.010 3.31 5.05 100 1.970 3.19 4.61 ∞ 1.960 3.08 4.28

Os valores nas duas ¶ultimas colunas da tabela correspondem a

(n−1)p

(15)

A compara»c~ao feita ¶e impr¶opria, pois o n¶³vel de con¯an»ca associado a qualquer cole»c~ao de intervalos T2, para p ¯xado, ¶e 0,95, e o n¶³vel global associado com uma cole»c~ao de interva-los separados via distribui»c~ao t deve ser menor do que 0,95.

Uma outra abordagem, conhecida como M¶ eto-do de Bonferroni de Compara»c~oes M¶ultiplas, ser¶a considerada. O m¶etodo leva este nome devido µa desigualdade de Bonferroni.

Seja A₁, A₂, ..., A_m uma cole»c~ao de eventos num espa»co de probabilidade tais que

P (A_i_{) = 1 − α}_i, i = 1, ..., m. Ent~ao,

P _∩m i=1Ai

= 1 − P (\pelo menos um dos A

is ¶e falso ) >=

(16)

A desigualdade de Bonferroni permite ao in-vestigador controlar a taxa de erro

α₁ + α₂ + ... + α_m, sem olhar a estrutura de correla»c~ao por tr¶as dos intervalos de con¯an»ca. Assim, se o problema envolve a constru»c~ao de m intervalos importantes, a id¶eia ¶e fazer

α_i = α/m e tomar os intervalos separados da-dos por

aTX¹ _{± t}_n−1 _{1 −} _2mα

aTSa n

Observe que agora vale que o coe¯ciente co-letivo de con¯an»ca ¶e pelo menos

1 −     α m + α m + ... + α m m termos     = 1 − α.

(17)

Portanto, com um coe¯ciente de con¯an»ca glo-bal de pelo menos 1 − α, podemos construir os seguintes m = p intervalos para os compo-nentes do vetor µ: IC(µ_i_{, 1−α) : ¹}X_i_±t_n−1 1 − α 2p _s ii n , i = 1, 2, ..., p. Esses intervalos, podem ent~ao, de forma mais

apropriada, ser comparados aos intervalos T2. Exemplo: Usando novamente os dados sobre radia»c~ao em fornos de microondas, pede-se comparar os intervalos T2 para os componentes do vetor de m¶edia com os intervalos via Bon-ferroni.

(18)

linf1t=0.5212495, lsup1t=0.6072655 linf2t=0.5596819, lsup2t=0.6462806

(19)

A tabela a seguir ilustra uma compara»c~ao en-tre os comprimentos dos intervalos via Bon-ferroni e T2 para alguns valores selecionados de p, m = p, n e α = 0, 05. As entradas nas tr^es colunas referentes aos diferentes valores de p selecionados representam a raz~ao entre o comprimento do intervalo via Bonferroni e o comprimento do intervalo T2. n p = 2 4 10 15 0,88 0,69 0,29 25 0,90 0,75 0,48 50 0,91 0,78 0,58 100 0,91 0,80 0,62 ∞ 0,91 0,81 0,66

Podemos ver desta tabela que os intervalos via Bonferroni produzem intervalos mais es-treitos quando m = p. Devido µa facilidade de aplica»c~ao e aos resultados mais e¯cientes em termos de estima»c~ao, geralmente ¶e prefer¶³vel usar os intervalos simult^aneos via Bonferroni.

(20)

Infer^encias sobre um vetor de m¶edia para grandes amostras

Quando o tamanho da amostra ¶e grande, testes de hip¶oteses e regi~oes de con¯an»ca para µ po-dem ser constru¶³dos mesmo que a popula»c~ao subjacente n~ao seja normal. Veja os exerc¶³cios 5.15, 5.16 e 5.17. Neles, para n grande, so-mos capazes de fazer infer^encias sobre o vetor de m¶edia da popula»c~ao apesar da distribui»c~ao populacional ser discreta.

De fato, desvios fortes de uma popula»c~ao nor-mal podem ser superados para tamanhos amos-trais grandes.

Ambos, testes de hip¶oteses e intervalos de con-¯an»ca simult^aneos, ter~ao n¶³veis nominais apro-ximados.

(21)

As vantagens associadas com grandes amostras podem ser parcialmente compensadas por uma perda de informa»c~ao amostral causada pelo uso somente das estat¶³sticas sum¶ario ¹X e S. Por outro lado, como ( ¹X, S) ¶e uma estat¶³stica su¯ciente para popula»c~oes normais, quanto mais pr¶oximas da normal multivariada forem as dis-tribui»c~oes das popula»c~oes, mais e¯cientemente a informa»c~ao amostral ser¶a utilizada ao fazer infer^encias.

Todas as infer^encias sobre µ quando se tem grandes amostras s~ao baseadas na distribui»c~ao de qui-quadrado.

(22)

Proposi»c~ao 1: Seja X₁, X₂,...,X_numa amostra aleat¶oria de uma popula»c~ao com m¶edia µ e ma-triz de vari^ancia positiva de¯nida §. Quando n − p ¶e grande, a hip¶otese H₀ : µ = µ₀ ¶e re-jeitada em favor de H₁ _{: µ = µ}₀, ao n¶³vel de signi¯c^ancia α, se

n(¹x _{− µ}₀)TS−1(¹_{x − µ}₀) > χ2_p_{(1 − α)}

Comparando este teste com o obtido via teoria normal, no in¶³cio destas notas, vemos que a estat¶³stica de teste ¶e a mesma, o que muda ¶e o valor cr¶³tico. Um exame mais minucioso revela, por¶em, que ambos os testes produzir~ao os mesmos resultados em situa»c~oes nas quais o teste χ2 ¶e apropriado.

De fato, (n−1)p

n−p Fp,n−p(1 − α) e χ2p(1 − α) s~ao

(23)

Proposi»c~ao 2: Seja X₁, X₂,...,X_numa amostra aleat¶oria de uma popula»c~ao com m¶edia µ e matriz de vari^_{ancia positiva de¯nida §. Se n−p} ¶e grande,

aT_{X ±}¹ χ2_p_{(1 − α)}

aTSa n

compreeder¶a aTµ, para todo a com probabil-idade aproximadamente 1 − α. Consequente-mente, podemos fazer a¯rma»c~oes simult^aneas para os p componentes do vetor de m¶edias dadas por ¹ x_i _± χ2_p_{(1 − α)} _s ii n , i = 1, 2, ..., p

Observa»c~ao: Elipses de con¯an»ca para pares de componentes tamb¶em podem ser facilmente constru¶³das.

(24)

A quest~ao de qu~ao grande deve ser o tamanho da amostra n~ao ¶e simples de ser respondida. Em uma ou duas dimens~oes, tamanhos amos-trais em torno de 30 a 50 podem geralmente ser considerados grandes. A medida que o n¶umero de caracter¶³sticas torna-se maior, cer-tamente tamanhos amostrais maiores ser~ao exi-gidos para que as distribui»c~oes assint¶oticas for-ne»cam boas aproxima»c~oes das verdadeiras dis-tribui»c~oes das v¶arias estat¶³sticas de teste.

Na falta de estudos de¯nitivos os autores sim-plesmente prop~_{oem que n − p deve ser grande,} reconhecendo que o caso real pode ser mais complicado do que isso. Uma aplica»c~ao com p = 2 e n = 50 ¶e muito diferente de uma aplica»c~ao com p = 52 e n = 100 apesar de ambas apresentarem n − p = 48.

(25)

Deve-se realizar as mesmas veri¯ca»c~oes exigi-das para os m¶etodos baseados na normal. Ape-sar de pequenos desvios da normalidade n~ao causarem quaisquer di¯culdades para n grande, desvios extremos podem causar problemas. Es-peci¯camente, a taxa de erro verdadeira pode estar bem afastada do n¶³vel nominal α. Se, com base nos Q-Q plots e outros esquemas de investiga»c~ao outliers e outras formas de desvios extremos aparecem, a»c~oes corretivas apropri-adas, incluindo transforma»c~oes, s~ao desej¶aveis.

(26)

Exerc¶³cios recomendados do cap¶³tulo 5: 1 a 11, 15, 16 e 17, 18 a 24.