Comparação entre duas
populações
AMOSTRAS INDEPENDENTES
Comparação entre
duas médias
•Na comparação de duas populações, dispomos de duas amostras, em que são possíveis as seguintes situações:
Em aplicações práticas é comum que o interesse seja
comparar as médias de duas diferentes populações (ambas as médias são desconhecidas).
variâncias pop. conhecidas
variâncias pop.
desconhecidas
iguais
diferentes 2 amostras
dependentes independentes
Discutiremos apenas os testes conhecidos como paramétricos, que assumem que as variáveis se comportam segundo um
modelo Normal.
Introdução
•Exemplo 1: Um pesquisador deseja comparar o salário de profissionais da saúde, de ambos os sexos. Para isso, selecionou uma amostra aleatória de 50 profissionais, sendo 22 do sexo feminino e 28 do sexo masculino. Sabe-se, de estudos anteriores, que o salário de profissionais da saúde segue uma distribuição normal.
•
Masculino Feminino
4708 4412 4010 3768
4603 3868 4122 3939
4017 4252 4344 4459
4534 4265 4446 3827
4402 4377 3938 4197
4526 4000 4514 4306
4584 3441 3400 3935
4594 4172 4264 3748
4236 4203 3850 3838
4817 4001 3676 4016
4008 4464 3604 4274
4083 4706 3788 4681
•Exemplo 1
As duas populações, de onde as amostras são provenientes, são independentes e normalmente distribuídas;
- a população dos salários de profissionais da saúde do sexo feminino tem média X e variância X2
X ~ N(X, X2)
- a população dos salários de profissionais da saúde do sexo masculino tem média Y e variância Y2
Y ~ N(Y, Y2)
Interesse: Comparar as médias das duas populações.
• Hipóteses estatísticas:
da pop. normal com média X e desvio padrão X extrai-se uma a.a. de tamanho n
H0: X = Y H1: X Y ou X > Y ou X < Y
H0: X - Y = 0 H1: X - Y 0 ou X - Y > 0 ou X - Y < 0 ou, equivalentemente,
usando diferenças
X X
sX
x
de amostra da
padrão desvio
de amostra da
média :
:
da pop. normal com média Y e desvio padrão Y extrai-se uma a.a. de tamanho m
Y s
Y y
Y
:
de amostra da
padrão desvio
:
de amostra da
média
Obs.: note que os tamanhos das 2 amostras, n e m, não precisam ser iguais.
grupo 1 grupo 2
população média
X
Ydesvio padrão
X
Ym tamanho n
sY sX
desvio padrão média
amostra
x y
Situações possíveis com respeito às variâncias X2 e Y2: 1. conhecidas: teste Z
2. desconhecidas:
- iguais: teste-t de duas amostras - diferentes: teste-t modificado
Obs.: O teste de comparação de variâncias pode ser utilizado como um procedimento preliminar em teste de comparação de médias, auxiliando a escolha da técnica adequada.
CASO 1: variâncias conhecidas
(1) Hipóteses estatísticas:
H0: X = Y H1: X < Y
H0: X - Y = 0 H1: X - Y < 0 ou, equivalentemente,
usando diferenças (2) Estatística de teste
Considere o Exemplo 1, dos salários de profissionais da saúde.
Queremos verificar se o salário das mulheres é menor do que o dos homens.
Como X e Y são
independentes com distribuição normal, com médias X e Y e desvio padrão X2 e Y2, respectivamente, então
• Estimador de X - Y : X - Y
• Distribuição amostral do estimador:
,
m
σ n
μ σ μ
N Y
X X Y X Y
2 2
,
~
Se as variâncias são conhecidas, a estatística de teste é dada por
m σ n
σ
Y Z X
Y X
2 2
) (
(2) Estatística de teste
Sob H0, Z ~ N(0,1)
(3) Nível de significância: = 5%
(4) Calcular medidas necessárias:
Tamanho da amostra Média
Masculino (Y) 28 4302,87
Feminino (X) 22 4021,68
Informação dada:
X= 280 e Y= 300
(5A) Região crítica (teste unilateral inferior)
(6A) Decidir e Concluir
A região crítica deve ter a forma: RC = { Z ≤ ztab } ztab = ? Da tabela da N(0,1), com = 5%, ztab= -1,64
RC = { Z ≤ -1,64}
(4) Calcular medidas necessárias:
415 ,
33 3 , 82
19 , 281
28 300 22
280
87 , 4302 68
,
4021
2 2
) (
zobs
zobs= -3,415 RC rejeita-se H0 (5B) Nível descritivo P
P = P(Z ≤ -3,415) = 0,0003.
(6B) Decidir e Concluir
P < rejeita-se H
A média dos salários das mulheres é menor do que a dos homens. Quanto menor?
• Intervalo de confiança para a diferença
X-
Y:
m z n
Y m X
z n Y
X P
z m
n Y z X
P z
Z z
P
Y X
tab Y
X Y
X tab
tab Y
X
Y X
tab tab
tab
2 2
2 2
2 2
) (
) (
) (
No exemplo:
IC(X-Y;10%) = (-281,19-1,6482,33; -281,19+1,6482,33;) = (-416,21;-146,17)
CASO 2: variâncias desconhecidas, iguais
(1) Hipóteses estatísticas:
H0:
X =
YH1:
X <
Y H0:
X -
Y = 0H1:
X -
Y < 0 ou, equivalentemente,usando diferenças (2) Estatística de teste
Exemplo 1: salário de profissionais da saúde. Queremos verificar se o salário das mulheres é menor do que o dos homens.
Suponha agora: NÃO CONHECEMOS AS VARIÂNCIAS. Temos apenas a informação de que SÃO IGUAIS (x= Y= ), mas não sabemos o valor.
Temos que:
1 , 1
m σ n
μ μ
N
m σ n
μ σ μ
N Y
X
Y X
Y X
Y X
2
2 2
,
~
,
~
Assim,
) (0,1 1
1
) (
) (
2
N m
σ n
μ μ
Y
Z X X Y ~
2 . 1) (
1)
( 2 2
2
m n
s m
s
sp n X Y
Não conhecemos , precisamos estimar por:
- A estimativa sp2 combina informação de ambas amostras para se produzir uma estimativa mais confiável de 2;
- Na verdade, sp2 é média ponderada das duas variâncias amostrais sX2 e sY2, onde cada variância é ponderada pelos seus graus de liberdade associados;
- Se n é igual a m, sp2 é a média aritmética simples; caso contrário, maior peso é dado à variância da maior amostra.
(2) Estatística de teste
m) S n
Y T X
p
1 (1
) (
2
(3) Nível de significância: = 5%
(4) Calcular medidas necessárias:
Tamanho da amostra Média Desvio padrão
Masculino 28 4302,87 335,74
Feminino 22 4021,68 301,08
s2p= [(22-1)301,082+(28-1)335,742] / (22+28-2) = 103.065 sp = 321,037
Sob H0, T ~ t (n+m-2).
, 3,074 -
28) 1 22
( 1 321,037
4302,87) 021,68
(
4
Tobs
(5A) Região crítica
(6A) Decidir e Concluir
A região crítica deve ter a forma: RC = { T ≤ ttab } ttab = ? Da tabela da t(48 g.l.), com = 5%, ttab= -1,68
RC = {T ≤ -1,68}
Tobs = -3,074 RC rejeita-se H0 (5B) Nível descritivo P
P= P(T48 ≤ -3,074) = 0,0017 (6B) Decidir e Concluir
P < rejeita-se H0
• Intervalo de confiança para a diferença
X-
Y:
No exemplo:
IC(X-Y; 10%) =
= (-281,19-1,68321,0370,285; -281,19+1,68321,0370,285)
= (-434,85;-127,53).
em que ttab é obtido da tabela t com (n+m-2) graus de liberdade.
CASO 3: variâncias desconhecidas, diferentes
(1) Hipóteses estatísticas:
H0: X = Y H1: X < Y
H0: X - Y = 0 H1: X - Y < 0 ou, equivalentemente,
usando diferenças
(2) Estatística de teste
Exemplo 1: salário de profissionais da saúde. Queremos verificar se o salário das mulheres é menor do que o dos homens.
Suponha agora: NÃO CONHECEMOS AS VARIÂNCIAS E SABEMOS QUE SÃO DIFERENTES (x Y ).
Temos que:
m
σ n
μ σ μ
N
~ Y
X X Y X Y
2 2
,
Assim,
) (
2
2 ( ) 0,1
)
( N
m σ n
σ
μ μ
Y Z X
Y X
Y
X ~
Não conhecemos X2 e Y2 estimamos por sx2 e sY2. Finalmente, a estatística de teste, sob H0, é
. ) (
) (
2 2
m S n
S
Y T X
Y X
.
/( 1) ( ) ( 1)]
) [(
)]
( ) [(
2 2
2 2
2
m m
s n
n s
m s
n s
Y X
Y X
/ /
/
/ /
2
2
Sob H0, T ~ t(), em que é o número de graus de liberdade dado por
(3) Nível de significância: = 5%
(4) Calcular medidas necessárias:
, - ,
,
,
tobs , 312
28 74 335 22
08 301
87 4302 68
4021
2 2
. 1 1)] 47
/(28 /28)
(335,74 1)
/(22 /22)
[(301,08
/28)]
(335,74 /22)
[(301,08
2 2
2 2
2 2
2
,
Assim, usamos 47.
Tamanho da amostra Média Desvio padrão
Masculino 28 4302,87 335,74
Feminino 22 4021,68 301,08
(5A) Região crítica
(6A) Decidir e Concluir
A região crítica deve ter a forma: RC = {T ≤ ttab} ttab = ? Da tabela da t(47 g.l.), com
= 5%, ttab= -1,68 RC = { T ≤ -1,68}
tobs = -3,12 RC rejeita-se
H
0(5B) Nível descritivo P
P = P(T47 ≤ -3,12) = 0,0015
(6B) Decidir e Concluir
P <
rejeita-seH
0• Intervalo de confiança para a diferença
X-
Y:
No exemplo:
IC(X-Y;10%) = (-281,19-1,6890,26; -281,19+1,6890,26) = (-432,82; -129,56).
em que ttab é obtido da tabela t com graus de liberdade.
Comparação entre
duas variâncias
Um teste de hipóteses importante consiste em verificar se duas populações têm a mesma variância.
Considere uma amostra X1, ...,Xn de uma população com distribuição N(X, X2) e uma amostra Y1, ...,Ym de uma população com distribuição N(Y, Y2). Suponha que as duas amostras sejam independentes.
(1) Hipóteses estatísticas:
(2) Estatística de teste
Se SX2 e SY2 são as variâncias amostrais respectivas, então a estatística do teste é
2 2 X
S F S
H0: 2X = 2Y
H1: X2 Y2 ou X2 > Y2 ou X2 < Y2
Qual é a distribuição de probabilidade de F ?
Se a hipótese nula H0 é verdadeira (X2 = Y2), a estatística F possui distribuição de probabilidade F de Snedecor com n-1 graus de liberdade no numerador e m-1 graus de
liberdade no denominador.
2) 1
~ (
n
X X
σ S
U n 12 2
Resultado:
Sejam X ~ N(X, X2) e Y ~ N(Y, Y2), independentes. Para amostras aleatórias X1, X2, ..., Xn, de X e Y1, Y2, ..., Ym, de Y, temos
2) 1
~ (
m
Y Y
σ
S
V m 12 2
11
~ ( 1; 1)
F n m
m V
n U
S F S
Y X
2 2
Se X2 = Y2, então
Obtenção dos valores críticos: Teste bilateral
• Para fixado, encontre na tabela F(n-1; m-1) um valor f2 tal que P(F (n-1; m-1) > f2) = /2 e
• Para fixado, encontre na tabela F(m-1; n-1) (observe que os g.l. foram trocados) um valor g1 tal que P(F (m-1;
n-1) > g1) = /2 e calculamos f1=1/g1. (3) Nível de significância:
(4) Calcular medidas necessárias:
Obter SX2 e SY2, as variâncias amostrais, e calcular F.
(5A) Região crítica
Se H1: X2 > Y2 ,
Se H1: X2 < Y2 ,
Se H1: X2 Y2 ,
RC = {F: F < f }
RC = {F: F < f1 ou F > f2 } RC = {F: F > f }
tabela
(5B) Nível Descritivo
P = P(F(n-1; m-1) < Fobs)
P = 2 P(F(n-1; m-1) > Fobs) ou P = 2 P(F(n-1; m-1) < Fobs)
P = P(F(n-1; m-1) > Fobs)
(6) Decidir e concluir
(A) Se Fobs RC, rejeita-se H0 Se Fobs RC, não se rejeita H0 (B) Se P rejeita-se H0
Se P > não se rejeita H0 Se H1: X2 Y2 ,
Se H1: X2 > Y2 ,
Se H1: X2 < Y2 ,
Intervalo de confiança para o quociente
Y2/
X2com coeficiente de confiança
2 2 2 2
2 2
2 1 2 2
2
2 2
1
2 1
2 1
1 ) 1
1
; 1 (
X Y X
Y X
Y Y
Y
X X
S f S S
f S P S f
f S P
m f V
n f U
P f
m n
F f
P
Considere o Exemplo 1, dos salários de profissionais da saúde.
Queremos verificar se a variabilidade do salário das mulheres é igual à dos homens.
(1) Hipóteses estatísticas: H0: M2 F2 H1: M2 F2 (2) Estatística de teste
Se SM2 e SF2 são as variâncias amostrais respectivas, então a estatística do teste é
27)
; 21 (
2 ~
2
S F F S
M
F
(3) Nível de significância = 5%.
(4) Calcular as medidas necessárias
SM = 335,74 e SF = 301,08 0,804 74
, 335
08 , 301
2 2
Fobs
(5A) Região crítica
RC = {F : F < f1 ou F > f2 }, sendo f1 e f2 obtidos por
f2 : encontre na tabela F(21; 27) o valor f2 tal que P(F(21;27) > f2) = 0,025 f2 = 2,25 (aprox.) e f1 : encontre na tabela F(27; 21) um valor g1 tal que
P(F (27; 21) > g1) = 0,025 e calculamos f1=1/g1=1/2,34 = 0,427
RC = {F : F < 0,427 ou F > 2,25 }, (6) Decidir e concluir
Fobs = 0,804 RC não se rejeita H0 (5B) Nível descritivo
P = 2 P(F(21; 27) < 0,804) = 2 (1- 0,69) = 0,62 >
não se rejeita H0
30
Intervalo de confiança de 95% para o quociente
Y2/
X2 : O valor “1” IC, como esperado.
Comparação entre duas
proporções
•Como vimos para a média, muito frequentemente, podemos estar interessados na comparação de duas proporções de duas populações independentes.
(1) Hipóteses estatísticas:
H0
: p
1= p
2H1
: p
1 p
2 oup
1> p
2 oup
1< p
2 extraímos uma uma a.a. de tamanho n1 de uma população com proporção p1; se observamos x1 sucessos na amostra,
então ˆ 1).
1 1
1 (estimador pontual de p n
p X
Analogamente, selecionamos uma amostra de tamanho n2 da população com proporção p2 e se observamos x2 sucessos, então
ˆ 2 ).
2 2
2 (estimador pontual de p n
p X
(2) Estatística de teste
2 1
2 2 1 1
n n
p n p
p n
ˆ ˆ ˆ
A quantidade é uma média ponderada das duas proporções das amostras, e .
pˆ
2
1
p
p ˆ ˆ
.
2 1
2 1
n n
X X
2 1
- ˆ
ˆ p
p
2 2 1
1 2 1
1
2 1
2 1
) ) )
ˆ ˆ
ˆ ) ˆ
n p p
n p p p
p Var
p p
p p
E
(1 ( (1
(
2
Se a hipótese nula é verdadeira, temos que p1 = p2 = p, os dados de ambas as amostras podem ser combinados para estimar esse parâmetro comum p, por
1 ) )( 1
- (1
2 1 n p n
pˆ ˆ
Sob a hipótese nula H0, o estimador do erro padrão da diferença é dado por:
p ˆ
1- p ˆ
2• Estatística do teste:
1 ) )( 1
(1
) (
2 1
2 1
n p n
p
p Z p
ˆ ˆ
ˆ ˆ
Se n1 e n2 são suficientemente grandes, essa estatística, sob H0, tem uma distribuição normal com média 0 e desvio padrão 1.
(3) Nível de significância:
(4) Calcular medidas necessárias (5A) Região crítica
(5B) Nível Descritivo (6) Decidir e concluir
(A) Se Zobs RC, rejeita-se H0
Se Zobs RC, não se rejeita H0 (B) Se P rejeita-se H0
Se P > não se rejeita H0
Exemplo 2 : Para investigar a lealdade de consumidores a um determinado produto, sorteou-se uma amostra de 200 homens e 200 mulheres. Foram classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres. Os dados trazem evidências de diferença de grau de fidelidade entre os gêneros? Em caso afirmativo, construa um intervalo de confiança para a diferença.
Sejam: pH: proporção de homens com alto grau de fidelidade pM: proporção de mulheres com alto grau de fidelidade
H0: pH = pM H1: pH pM ,
(1) Hipóteses estatísticas:
(2) Estatística do teste
(3) Fixar o nível de significância do teste : = 5%
1 ) )( 1
(1
) (
M H
M H
n p n
p
p Z p
ˆ ˆ
ˆ
ˆ
sendo
M H
M M
H H
n n
p n
p p n
ˆ ˆ
ˆ
nH = 200 100 com alto grau de fidelidade
0,5
200 ˆH 100
p
0,6
200 ˆM 120
p
nM = 200 120 com alto grau de fidelidade (4) Calcular as medidas necessárias
• Valor da estatística do teste:
01 , 2 200
55 200 ,
0 55
, 0
6 , 0 5
0
1 ) 1
(1
) ( ,
zobs
0,55
200 200
6 , 0 200 5
, 0 ˆ 200
p
P = 2 P(Z -2,01) = 0,044 (5A) Região crítica (teste bilateral)
(5B) Nível Descritivo
= 5% RC = {Z : Z < -1,96 ou Z > 1,96 }
(6) Decidir e concluir
(A) zobs= -2,01 RC, rejeita-se H0
(B) Se P rejeita-se H0
M H
p
p ˆ - ˆ
fornece uma estimativa por ponto para a verdadeira diferença pH – pM das proporções populacionais.ˆ ˆ
ˆ ˆ ˆ
ˆ
M
M M
H
H H
M
H n
p p
n p p p
p (1 ) (1 )
1,96 -
Um intervalo de confiança de 95% para a diferença pH - pM, usando a aproximação normal, é
Note que o erro padrão da diferença das proporções amostrais não é o mesmo que aquele usado no teste;
no teste de hipóteses, o erro padrão empregado foi baseado na suposição de que a hipótese nula era verdadeira (pH=pM =p);
essa suposição não é necessária no cálculo de um intervalo de confiança.
0,5 pˆH
No exemplo, como e , um intervalo de confiança aproximado de 95% para pH – pM é
0,6 pˆM
) 03 , 0 ; 197 , 0 (
) 097 ,
0 1 , 0 ; 097 ,
0 1 , 0 (
200
) 6 , 0 1 ( 6 , 0 200
) 5 , 0 1 ( 5 , 96 0
, 1 ) 6 , 0 5 , 0 (
Note que, como esperado, o intervalo não contém o valor zero.
AMOSTRAS DEPENDENTES
(teste t-pareado)
• característica das amostras dependentes (pareadas):
•para cada unidade amostral realizamos duas medições.
As medidas são tomadas em um único “indivíduo” em dois pontos distintos no tempo.
Em geral, observações pareadas correspondem a medidas tomadas antes e depois de uma dada intervenção -- cada indivíduo é examinado antes que um certo tratamento seja aplicado e novamente depois que o tratamento foi completado.
Outro tipo de emparelhamento: o pesquisador “casa” os indivíduos de um grupo com aqueles de um segundo grupo, de modo que os membros de um par sejam parecidos (em relação a características, tais como, a idade e o gênero).
Planejamento empregado na tentativa de se controlar fontes de variação que poderiam influenciar os resultados da comparação.
Se as medidas são feitas no mesmo sujeito uma certa variabilidade biológica é eliminada -- não temos que nos preocupar com o fato de um sujeito ser mais velho do que outro ou se um é homem e o outro é mulher.
A intenção do emparelhamento é, portanto, fazer uma comparação mais precisa.
Exemplo 3: Uma empresa deseja estudar o efeito de uma pausa de dez minutos para um cafezinho sobre a produtividade de seus trabalhadores. Para isso, sorteou seis operários, e contou o número de peças produzidas durante uma semana sem intervalo e uma semana com intervalo. Os resultados sugerem se há ou não melhora na produtividade? Caso haja melhora, qual deve ser o acréscimo médio de produção para todos os trabalhadores da fábrica?
Xi : número de peças produzidas pelo operário i na semana sem
intervalo
Operário 1 2 3 4 5 6
Sem intervalo 23 35 29 33 43 32
Com intervalo 28 38 29 37 42 30
Yi : número de peças produzidas pelo operário i na semana com intervalo
Efeito do emparelhamento:
eliminar quaisquer distorções que poderiam ser introduzidas ao se comparar indivíduos que diferem com relação a outras variáveis, como idade, sexo, peso, etc.
Suponha que os dois grupos de observações possam ser dispostos como a seguir:
Variável de interesse: D = Y – X ,
e uma amostra de D é d1, d2, ...dn (as diferenças amostrais).
Amostra 1 Amostra 2
x1 y1
x2 y2
... ...
xn yn
di = yi - xi d1 = y1 - x1 d2 = y2 - x 2
...
dn = yn - xn
H0: D = 0
H1: D 0 ou D < 0 ou D > 0
O efeito produzido para o i-ésimo indivíduo pode ser
representado pela variável diferença Di = Yi - Xi (“com”–“sem”) Supondo Di N(D, D2), para i = 1, ..., n,
numa situação geral, queremos testar as hipóteses:
a pausa para o café não produz efeito
A pausa aumenta a produtividade média
a pausa para o café produz algum efeito
O parâmetro D é estimado pela média amostral das diferenças:
Como não temos informação sobre a variância das diferenças, estimamos seu valor por SD2, dado por:
n
i
Di
D n
1
1
2 1
2 ( )
1
1 D D
S n i
n i
D
Estatística do teste:
n S
T D
D
Sob
H
0, a estaística T tem distribuição t-Student com n-1 graus de liberdade.• A média da amostra fornece uma estimativa por ponto para a verdadeira diferença das médias das populações D Y - X.
• Em geral supomos que X e Y têm distribuição normal e, consequentemente, podemos considerar que a distribuição das diferenças tem distribuição normal.
Obs.: no caso geral, é necessário uma verificação da suposição de normalidade da diferença Y-X pela análise gráfica e/ou testes de hipóteses. Se a normalidade não é válida, esse teste t não se aplica e técnicas não paramétricas de análise são necessárias.
Comentários
Voltando ao exemplo,
gostaríamos de saber se há alguma evidência estatística de que a pausa para o café aumenta a produtividade.
(1) Hipóteses:
H0: D = 0 H1: D > 0
(“com”-”sem”)
que equivale a H0: X = Y H1: Y > X
(2) Estatística de teste: ~ t( 1), H0. n
S
T D n
D
sob
(3) Nível de significância: = 5%.
Amostra de pares di = yi - xi: 5, 3, 0, 4, -1, -2
(média amostral das diferenças)
(desvio padrão das diferenças)
5 6 1
9 6
6
1 ,
d d i
i
88 , 2 )
(
6
1
2
1 - 6
i
i D
d d
s
(4) Calcular
medidasnecessárias
276 6 1
88 2
5
1 ,
,
tobs ,
Sob a hipótese nula H0,
T tem distribuição t-Student com 6 -1 = 5 graus de liberdade.
(5A) Região Crítica
= 5% RC = {T : T5 2,015 }
(5B) Nível descritivo:
P(T 1,276) 0,15 (valor exato: 0,129)
não há evidência experimental para concluirmos que a pausa para um cafezinho melhora a produtividade média.. (6) Decidir e concluir
(A) tobs = 1,276 RC não se rejeita H0 (B) P > não se rejeita H0
Se a hipótese nula H0 é rejeitada:
Interesse: Encontrar um intervalo de confiança para
D
esperado.
como ,
zero"
"
o contem
caso, neste
que,
), 3,87 0,87;
- (
) 2,37 1,5
; 2,37 1,5
(
6 ) 2,015 2,88
1,5 6 ;
2,015 2,88 1,5
( 90%) ;
(
D μ IC
) (
%)
( n
t s n d
t s μ d
IC
D;
n-1 D;
n-1 DTabela da distribuição t-Student