Introdu¸c˜ ao ` a probabilidade e estat´ıstica II
Testes de hip´oteses para duas m´edias populacionais
Prof. Alexandre G Patriota Sala: 298A
Email: patriota@ime.usp.br Site: www.ime.usp.br/∼patriota
Testes de hip´ oteses para duas M´ edias populacionais
SejamX e Y duas vari´aveis de interesse. Estaremos interessados em testar se a m´edia deX ´e igual a m´edia deY.
I testar se o efeito m´edio do rem´edio proposto ´e maior do que o efeito m´edio do placebo
I testar se um determinado m´etodo de ensino ´e mais eficaz que outro.
H´a dois casos:
I as vari´aveis X e Y s˜ao dependentes (dados pareados). A mesma unidade amostral ´e medida duas vezes.
I as vari´aveis X e Y s˜ao independentes (dados n˜ao pareados).
Todas as unidades amostrais s˜ao medidas apenas uma vez.
Exemplo de dados pareados (dependentes)
Uma nutricionista propˆos um novo complemento alimentar para aumentar o rendimento de jogadores de futebol.
A vari´avel de interesse: tempo de corrida na esteira a 15km/h at´e a fadiga.
A pesquisadora selecionou 20 atletas com caracter´ısticas similares (peso, altura, idade, etc).
Na primeira semana a pesquisadora mediu o tempo de corrida sem utilizar a dieta (X), na segunda semana a pesquisadora mediu o tempo de corrida utilizando a dieta (Y) dos mesmos atletas.
Interesse: verificar se em m´edia houve um aumento no tempo m´edio na segunda semana em rela¸c˜ao a primeira. Note que as vari´aveisX eY referem-se ao mesmo atleta.
Exemplo de dados n˜ ao pareados (independentes)
Uma nutricionista propˆos um novo complemento alimentar para aumentar o rendimento de jogadores de futebol.
A vari´avel de interesse: tempo de corrida na esteira a 15km/h at´e a fadiga.
A pesquisadora selecionou 40 atletas com caracter´ısticas similares (peso, altura, idade, etc).
Dentre os 40 atletas, 20 utilizaram o novo complemento (X) e 20 n˜ao utilizaram (Y).
Interesse: verificar se em m´edia os atletas que utilizaram o novo complemente tiverem o tempo de corrida aumentado. Note que as vari´aveisX eY referem-se a atletas diferentes.
Testes para duas m´ edias populacionais – Distribui¸c˜ ao normal
SejamX ∼N(µx, σ2x) e Y ∼N(µy, σy2) duas vari´aveis de interesse.
As hip´oteses de interesse (tanto para dados pareados como n˜ao-pareados) ser˜ao:
(1)
H0 : µx ≤µy H1 : µx > µy
, (2)
H0: µx ≥µy H1: µx < µy
e (3)
H0: µx =µy
H1: µx 6=µy
Podemos definirµD =µx−µy e teremos de maneira equivalente:
(1)
H0 : µD ≤0 H1 : µD >0 , (2)
H0: µD ≥0 H1: µD <0
e (3)
H0: µD = 0 H1: µD 6= 0
Caso pareado e n˜ ao-pareado
No caso pareado, as vari´aveis s˜ao dependentes e observamos (X1,Y1),(X2,Y2), . . . ,(Xn,Yn)
em que (Xi,Yi) ´e o par de vari´aveis doi-´esimo indiv´ıduo,Xi referente ao tratamento inicial eYi referente ao tratamento final.
No caso n˜ao-pareado, as vari´aveis s˜ao independentes e observamos dois conjuntos de dados
(X1,X2, . . . ,Xn1),(Y1,Y2, . . . ,Yn2).
o primeiro referente a um tipo de tratamento e o segundo referente a outro tipo de tratamento.
Caso pareado e n˜ ao-pareado
No caso pareado, utilizamos a m´edia das diferen¸cas Di =Xi−Yi para fazer o teste de hip´oteses, ou seja,
D¯par = 1 n
n
X
i=1
di.
Temos que ¯Dpar ∼N
µx−µy,σn2D
, em queσ2D est´a embutida as variˆancias deX,Y e a covariˆancia. A estimativa paraσ2D ser´a a variˆancia amostral ˜SD2 (denominador (n-1))
No caso n˜ao-pareado, utilizamos a diferen¸ca das m´edias ¯X −Y¯ para fazer o teste de hip´oteses, ou seja,
D¯npar = ¯X −Y¯. Temos que ¯Dnpar ∼N
µx−µy,σnx2
1 +σny2
2
.
Testes para duas m´ edias para o caso pareado – Distribui¸c˜ ao normal
Aqui sobH0 (na igualdade), ¯Dpar ∼N(0, σD2/n), assumimos que a variˆancia σD2 ´e desconhecida (pois cont´em informa¸c˜oes da
covariˆancia que n˜ao conhecemos).
A regi˜ao de rejei¸c˜ao para cada teste ´e dada por
I Para o Teste (1): RC ={D¯par >dc}, com dc =tα q˜
SD2 n
I Para o Teste (2): RC ={D¯par <dc}, com dc =−tα q˜
SD2 n I Para o Teste (3): RC ={D¯par <d1c ou ¯Dpar >d2c}, com
d1c =−tα
2
q˜
SD2
n e d2c =tα
2
q˜
SD2 n .
Como anteriormente,tα e tα/2 s˜ao os 1−α e 1−α/2 quantis, respectivamente, de uma t-Student com n-1 graus de liberdade.
Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso pareado – Distribui¸c˜ ao normal
IC(µx−µy, γ) =
D¯par −tα/2 s
S˜D2
n ; ¯Dpar+tα/2 s
S˜D2 n
Lembrando que
P(−tα
2 <T <tα
2) =γ = 1−α
sendoT uma vari´avel com distribui¸c˜ao t-Student com n−1 graus de liberdade
Foram coletados os tempos antes a ap´os a aplica¸c˜ao do
complemento alimentar e os seguintes dados foram obtidos para 12 atletas. Sabe-se que estes tempos se distribuem conforme a distribui¸c˜ao normal. Deseja-se verificar se o complemento aumenta o desempenho dos atletas.
Ind Antes (horas) Depois (horas) di
1 2,4 3,2 - 0,8
2 2,8 3,4 -0,6
3 4,6 3,2 1,4
4 3,1 3,3 -0,2
5 3,1 3,3 -0,2
6 4,7 3,0 1,7
7 3,5 3,8 -0,3
8 1,7 3,5 -1,8
9 2,3 3,2 -0,9
10 2,6 3,9 -1,3
11 4,2 3,6 0,6
12 3,4 3,4 0,0
Observou-se ¯dpar = -0,35 e ˜SD2 = 1,07. Defina as hip´oteses e a regi˜ao de rejei¸c˜ao paraα= 0,05.
Testes para duas m´ edias para o caso n˜ ao-pareado – Distribui¸c˜ ao normal
QuandoX ∼N(µx, σ2x) e Y ∼N(µy, σy2) s˜ao vari´aveis independentes temos que
D¯npar ∼N
µx−µy,σx2 n1
+σy2 n2
.
Sob a hip´otese nula (na igualdade), temos que µD =µx−µy = 0 Temos trˆes casos:
I As variˆanciasσ2x e σ2y s˜ao conhecidas.
I As variˆancias s˜ao desconhecidas e iguais.
I As variˆancias s˜ao desconhecidas e diferentes.
Regi˜ oes cr´ıticas quando as variˆ ancias s˜ ao conhecidas (n˜ ao-pareado)
I Para o Teste (1): RC ={D¯npar >dc}, comdc =zα qσ2x
n1 + σn2y
2
I Para o Teste (2): RC ={D¯npar <dc}, com dc =−zα
qσ2x n1 + σn2y
2
I Para o Teste (3): RC ={D¯npar <d1c ou ¯Dnpar >d2c}, com d1c =−zα
2
qσ2x n1 + σn2y
2 e d2c =zα
2
qσ2x n1 +σn2y
2.
Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso n˜ ao-pareado com variˆ ancias conhecidas – Distribui¸c˜ ao normal
IC(µx−µy, γ) =
D¯npar −zα
2
s σx2 n1
+σ2y n2
; ¯Dnpar+zα
2
s σ2x n1
+σy2 n2
Lembrando que
P(−zα
2 <Z <zα
2) =γ = 1−α sendoZ uma vari´avel com distribui¸c˜ao normal padr˜ao.
Uma f´abrica de embalagens para produtos qu´ımicos est´a estudando dois processos para combater a corros˜ao de suas latas especiais.
Para verificar o efeito dos tratamentos, foram usadas amostras cujos resultados est˜ao no quadro abaixo (em porcentagem de corros˜ao eliminada).
M´etodo A M´etodo B
M´edia amostral 48 53
Variˆancia populacional 10 15
Amostra 15 12
Assuma distribui¸c˜oes normais independentes para as vari´aveis de interesse. Verifique se os efeitos m´edios dos m´etodos s˜ao diferentes considerandoα= 0,05.
Fa¸ca um intervalo de confian¸ca considerandoγ = 0,95.
Regi˜ oes cr´ıticas quando as variˆ ancias s˜ ao desconhecidas e iguais (n˜ ao-pareado)
I Para o Teste (1): RC ={D¯npar >dc}, comdc =tα∗ qsp2
n1 +snp2
2
I Para o Teste (2): RC ={D¯npar <dc}, com dc =−tα∗
qsp2 n1 +nsp2
2
I Para o Teste (3): RC ={D¯npar <d1c ou ¯Dnpar >d2c}, com d1c =−t∗α
2
qsp2 n1 + s
p2
n2 ed2c =t∗α
2
qsp2 n1 + s
p2
n2. em quetα∗ e t∗α
2 s˜ao os quantis 1−α e 1−α2, respectivamente de uma t-Student comn∗ =n1+n2−2 graus de liberdade e
sp2= (n1−1)˜SX2 + (n2−1)˜SY2
n∗ .
Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso n˜ ao-pareado com variˆ ancias desconhecidas e iguais – Distribui¸c˜ ao normal
IC(µx −µy, γ) =
D¯npar −t∗α
2
s sp2 n1 + sp2
n2; ¯Dnpar +t∗α
2
s sp2 n1 +sp2
n2
Lembrando que
P(−t∗α
2 <T∗<t∗α
2) =γ = 1−α
sendoT∗ uma vari´avel com distribui¸c˜ao t-Student comn∗ graus de liberdade (n∗=n1+n2−2).
Duas t´ecnicas de venda s˜ao aplicadas por dois grupos de
vendedores: a t´ecnica A, por 12 vendedores, e a t´ecnica B, por 15 vendedores. Espera-se que a t´ecnica B produza melhores
resultados. No final de um mˆes, obtiveram-se os resultados (em porcentagem de vendas):
T´ecnica A T´ecnica B
M´edia amostral 68 76
Variˆancia amostral 50 52
Assuma distribui¸c˜ao normal para as vari´aveis de interesse. Sabe-se, por estudos anteriores, que a variˆancia populacional das duas t´ecnicas s˜ao iguais. Conduza os testes apropriados e fa¸ca intervalos de confian¸ca para a diferen¸ca de m´edias populacionais.
Regi˜ oes cr´ıticas quando as variˆ ancias s˜ ao desconhecidas e diferentes (n˜ ao-pareado)
I Para o Teste (1): RC ={D¯npar >dc}, com dc =tα∗∗
q˜
SX2 n1 +S˜nY2
2
I Para o Teste (2): RC ={D¯npar <dc}, com dc =−tα∗∗
q˜
SX2 n1 +S˜
2 Y
n2
I Para o Teste (3): RC ={D¯npar <d1c ou ¯Dnpar >d2c}, com d1c =−t∗∗α
2
q˜
SX2 n1 + ˜S
2 Y
n2 ed2c =t∗∗α
2
q˜
SX2 n1 +S˜
2 Y
n2. em que em quetα∗∗ et∗∗α
2 s˜ao os quantis 1−αe 1−α2, respectivamente de uma t-Student com
n∗∗= S˜X2
n1 + S˜Y2
n2
!2
S˜X2
n1
2 n1−1 +
S˜Y2 n2
2 n2−1
graus de liberdade.
Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso n˜ ao-pareado com variˆ ancias desconhecidas e
diferentes – Distribui¸c˜ ao normal
IC(µx−µy, γ) =
D¯npar−tn∗∗,α
2
s sX2 n1 +sY2
n2; ¯Dnpar+tn∗∗,α
2
s sX2 n1 +sY2
n2
Lembrando que
P(−t∗∗α
2 <T∗∗<t∗∗α
2 ) =γ = 1−α
sendoT∗∗ uma vari´avel com distribui¸c˜ao t-Student com n∗∗ graus de liberdade, sendo
n∗∗= s2
X
n1 +snY2
2
2
s2 X n1
2
n1−1 +
s2 Y n2
2
n2−1
Queremos verificar se as resistˆencias de dois tipos de vigas de a¸co, A e B, s˜ao diferentes. Aplicam-se cargas (emkN/cm2) at´e que a viga se rompa. Considere que foram testadasn1 = 15 vigas do tipo A en2 = 20 vigas do tipo B, obtemos os valores:
T´ecnica A T´ecnica B M´edia amostral 71,5 85,3 Variˆancia amostral 82,6 220,8
Assuma distribui¸c˜ao normal para as vari´aveis de interesse. Conduza os testes apropriados e fa¸ca intervalos de confian¸ca para a
diferen¸ca de m´edias populacionais.
Compara¸c˜ oes de m´ edias populacionais para distribui¸c˜ oes n˜ ao-normais
SejamX e Y vari´aveis aleat´orias independentes com E(X) =µx, VAR(X) =σ2x,E(Y) =µy eVAR(Y) =σy2.
Sejam (X1, . . . ,Xn1) e (Y1, . . . ,Yn2) amostras deX eY, respectivamente.
Sabemos pelo teorema do limite central que X¯ −µx
qσx2 n1
≈N(0,1) e Y¯ −µy
qσ2y n2
≈N(0,1).
paran1 e n2 forem grandes.
Compara¸c˜ oes de m´ edias populacionais para distribui¸c˜ oes n˜ ao-normais
Combinando os dois resultados temos X¯ −Y¯ qσ2x
n1 +σn2y
2
≈N(0,1)
Substituindo as variˆancias desconhecidas por estimadores consistentes, temos
X¯ −Y¯ qˆσ2x
n1 +σˆn2y
2
≈N(0,1)
Regi˜ oes cr´ıticas aproximadas
I Para o Teste (1): RC ={D¯npar >dc}, comdc =zα
qˆσ2x n1 + ˆσn2y
2
I Para o Teste (2): RC ={D¯npar <dc}, com dc =−zα
qˆσ2x n1 + ˆσn2y
2
I Para o Teste (3): RC ={D¯npar <d1c ou ¯Dnpar >d2c}, com d1c =−zα
2
qˆσ2x n1 + ˆσn2y
2 e d2c =zα
2
qˆσ2x n1 +σˆn2y
2.
Exemplo: Compara¸c˜ oes de propor¸c˜ oes
SejamX e Y vari´aveis Bernoulli independentes com P(X = 1) =px e P(Y = 1) =py.
Note queµx =px,σx2 =px(1−px),µy =py e σy2 =py(1−py).
Note portanto que testar as m´edias ´e equivalente a testar as propor¸c˜oes.
Utilizamos o teste para vari´aveis n˜ao-normais usando:
ˆ
σx2= ¯x(1−x)¯ e σˆy2 = ¯y(1−¯y)
O n´ıvel descritivo do teste (valor-p)
O n´ıvel descritivo do teste (valor-p) ´e definido como o menor n´ıvel de significˆancia em que a hip´otese nula ´e rejeitada. ´E calculado substitiundodc pela m´edia ¯D observada.
I Para o Teste (1): α∗ =P( ¯D >d¯ quandoµD = 0)
I Para o Teste (2): α∗ =P( ¯D <d¯ quandoµD = 0)
I Para o Teste (3):
α∗= 2P( ¯D <d¯ quando µD = 0) se ¯d <0 ou α∗= 2P( ¯D >d¯ quando µ= 0) se ¯d >0.
A distribui¸c˜ao utilizada depende da situa¸c˜ao: caso pareado ou n˜ao-pareado (variˆancias conhecidas ou desconhecidas).
Testes para duas variˆ ancias populacionais
Observe que para fazer as compara¸c˜oes de duas m´edias
populacionais (no caso n˜ao pareado de variˆancias desconhecidas) precisamos saber se as variˆancias s˜ao iguais ou diferentes.
Veremos a seguir como fazer testes de hip´oteses para duas variˆancias populacionais de vari´aveis com distribui¸c˜ao normal.
Ou seja, seX ∼N(µx, σx2) e Y ∼N(µy, σ2y) com (X1,X2, . . . ,Xn1),(Y1,Y2, . . . ,Yn2)
as respectivas amostras. Queremos testar as seguintes hip´oteses H0: σx2=σ2y
H1: σx26=σ2y
Testes para duas variˆ ancias populacionais
Sejam
(X1,X2, . . . ,Xn1) e (Y1,Y2, . . . ,Yn2) as duas amostras das vari´aveis de interesse (com distribui¸c˜ao normal). Sabemos que
U1= (n1−1)˜SX2 σ2x ∼χ2(n
1−1)
e
U2= (n2−1)˜SY2 σy2 ∼χ2(n
2−1)
Vimos que
U1
n1−1 U2
n2−1
∼F(n1−1,n2−1)
Testes para duas variˆ ancias populacionais
Portanto,
S˜X2 S˜Y2
σY2
σX2 ∼F(n1−1,n2−1)
Sob a hip´otese nulaσ2X =σY2, temos que W = S˜X2
S˜Y2 ∼F(n1−1,n2−1)
Regi˜ ao cr´ıtica para o testes de duas variˆ ancias populacionais
A regi˜ao cr´ıtica para o teste ´e dada por
RC ={W <F1 ou W >F2}
sendo que os valoresF1 eF2 s˜ao obtidos da tabela da distribui¸c˜ao F de Snedecor comn1−1 graus de liberdade no numerador e n2−1 graus de liberdade no denominador.
P(W <F1) =P(W >F2) =α 2 lembrando que, sob a hip´otese nula,W ∼F(n1−1,n2−1).
Distribui¸c˜ ao F
O valorF2 ´e obtido diretamente usandoF(n1−1,n2−1) P(F(n1−1,n2−1) >F2) = α
2
O valorF1 = 1/F˜2 em que ˜F2 ´e obtido da tabelaF(n2−1,n1−1). P(F(n1−1,n2−1)<F1) =P(F(n2−1,n1−1) >F˜2) = α
2
Exemplo
Duas t´ecnicas de venda s˜ao aplicadas por dois grupos de
vendedores: a t´ecnica A, por 12 vendedores, e a t´ecnica B, por 15 vendedores. Espera-se que a t´ecnica B produza melhores
resultados. No final de um mˆes, obtiveram-se os resultados:
T´ecnica A T´ecnica B
M´edia amostral 68 76
Variˆancia amostral 50 52 Verifique se as variˆancias populacionais s˜ao iguais a 5% de significˆancia estat´ıstica.