1 Intervalo de Confiança para a Diferença entre Duas Médias Amostrais
Quando se quer estimar a diferença, µ1−µ2, entre as médias de duas populações 1 e 2, procede-se da seguinte maneira: toma-se uma amostra de cada população, com tamanhos n1 e n2 respectivamente. Calculam-se as suas respectivas médias e desvios padrões:
x
1,
x
2,
s
1e
s
2.Se soubermos que as distribuições populacionais das variáveis x1 e x2 são normais e conhecermos os desvios padrões das duas distribuições, σ1 e σ2, então o intervalo de confiança de 95% para µ1 −µ2 será calculado como (pelos mesmos motivos usados na dedução do intervalo de confiança para a média):
(
)
(
)
2 2 2 1 2 1 2 1 2 1 2 2 2 1 2 1 2 1 1,96 1,96 n n x x n n x x − − σ +σ ≤ µ −µ ≤ − + σ +σ (95%).Exemplo1: Pesquisadores desejam estimar a diferença entre os níveis de ácido úrico no soro de pacientes com e sem mongolismo. Tomou-se uma amostra de 12 indivíduos mongolóides e se obteve uma média x1 =4,5 mg/100 ml. Tomou-se então outra amostra de 15 indivíduos saudáveis de mesma idade e sexo que os mongolóides e se obteve uma média x2 =3,4 mg/100 ml. Assumindo que as duas populações são normalmente distribuídas com variâncias iguais a 1 mg/100 ml, calcule um IC95% para µ1−µ2.
Temos que x1 − x2 = 4,5−3,4=1,1mg/100 ml e que 39 , 0 15 1 12 1 2 2 2 1 2 1 2 1− = + = + = n n x x σ σ σ mg/100 ml. Logo: IC95% = 1,1 ± 1,96 x 0,39 = 1,1 ± 0,8 mg/100 ml (0,3 − 1,9).
2 Se as distribuições populacionais não forem normais, mas os tamanhos das amostras, n1 e n2, forem grandes podemos, pelo Teorema Central do Limite, continuar a resolver problemas como no exemplo anterior.
Exemplo 2: Deseja-se comparar o status econômico de pacientes de dois hospitais. A renda familiar anual média de uma amostra de 75 pacientes do Hospital A é x = R$ 68.000,00 e a renda familiar anual média de uma 1 amostra de 80 pacientes do Hospital B é x = R$ 44.500,00. Se os desvios 2
padrões das duas populações forem iguais, respectivamente, a σ1 = R$ 6.000,00 e σ2 = R$ 5.000,00, calcule um intervalo de confiança de 99% para a diferença entre as médias das duas populações, µ1−µ2.
Temos que x1− x2 =68.000−44.500=23.500 e que
(
) (
)
890 80 5000 75 6000 2 2 2 2 2 1 2 1 2 1− = + = + = n n x x σ σ σ . Logo: IC99% =(
x1−x2)
±2,58σx1−x2 =23.500 ± 2,58 x 890 = 23.500 ± 2.296 (R$ 21.204,00 − R$ 25.796,00).Quando as variâncias das populações não são conhecidas, as amostras não forem grandes, mas pudermos assumir que as distribuições populacionais são normais devemos usar a distribuição t de Student para calcular os intervalos de confiança para µ1−µ2. Neste caso, há duas situações possíveis:
a) As variâncias populacionais são iguais; b) As variâncias populacionais são diferentes.
3
Caso a: Variâncias populacionais desconhecidos, mas iguais.
Caso a hipótese de igualdade das variâncias seja válida, devemos considerar que as variâncias obtidas para as amostras retiradas das duas populações são
estimativas da mesma coisa: a variância comum às duas populações, σ2.
Para estimar a variância comum, σ2, toma-se uma média ponderada das variâncias
s
12 e2 2
s
. Os fatores de ponderação são os graus de liberdade de cada amostra. Sendo assim, a amostra maior (que, teoricamente, contém mais informação sobre a população) terá um peso maior na estimativa de σ2. A variância estimada é dada então por:(
) (
)
2
1
1
2 1 2 2 2 2 1 1 2−
+
−
+
−
=
n
n
s
n
s
n
s
.4 2 2 1 2 2 1 n s n s x x − = + σ ,
e, finalmente, a fórmula para o cálculo do intervalo de confiança de α% para este caso é:
(
)
2 2 1 2 % 2 1n
s
n
s
t
x
x
−
±
α+
.Para se obter o valor de tα% a partir da tabela, deve-se usar gl = n1 + n2 − 2. Exemplo: Uma concessionária de rodovia quer fazer uma comparação entre duas das suas praças de pedágio com relação ao tempo gasto por veículos desde a chegada ao guichê até a saída. A população 1 é composta pelos veículos que passam pela praça de pedágio 1 e a população 2 é composta pelos veículos que passam pela praça de pedágio 2. Retirou-se uma amostra de 24 veículos da população 1, com tempo médio de permanência no pedágio de 1,8 minutos e desvio padrão de 0,6 minutos. Retirou-se uma amostra de 18 veículos da população 2, com tempo médio de permanência de 1,4 minutos e desvio padrão de 0,5 minutos. As variâncias das duas populações são desconhecidas, mas vamos assumir que elas são iguais. Vamos também assumir que a distribuição dos tempos de permanência nas praças de pedágio é normal. Calcule o IC95% para µ1−µ2.
Começamos estimando a variância comum às duas populações (por hipótese):
(
)( ) (
)( )
0
,
31
0
,
56
2
18
24
5
,
0
1
18
6
,
0
1
24
2 2 2=
⇒
=
−
+
−
+
−
=
s
s
min.Agora, calculamos o IC95% da forma usual, usando gl = 24 + 18 − 2 = 40. Pela tabela, vemos que t95% = 2,0211:
5
(
)
0,4 0,45 18 31 , 0 24 31 , 0 0211 , 2 4 , 1 8 , 1 − ± + = ± . IC95% = (0 − 0,85).Caso b: Variâncias populacionais desconhecidos e diferentes.
Neste caso, em que não há base suficiente para se assumir que 2 2 2 1 σ
σ = , a situação fica mais complicada. Mesmo que as distribuições das populações 1 e 2 sejam normais, a teoria indica que não se pode usar a distribuição t de Student como no caso anterior.
A solução para este problema foi estudada por vários estatísticos ao longo do Séc. XX: Behrens (1929), Fisher (1939, 1941), Neyman (1941), Scheffé (1943, 1944), Welch (1937, 1947), Aspin (1949), Trickett et al. (1956) e Cochran (1964). A solução proposta por Cochran consiste em usar a seguinte alternativa à distribuição t de Student:
2 1 2 2 1 1 %
w
w
t
w
t
w
t
+
+
=
′
/
α , onde w1 = 1 2 1 / n s , w2 = 2 2 2 / n s , t1 = tα% para gl = n1 – 1 e t2 = tα% para gl = n2 – 1. Com esta alternativa, uma aproximação para o intervalo de confiança de α% para o caso das variâncias populacionais desconhecidas e desiguais é:(
)
2 2 2 1 2 1 % 2 1n
s
n
s
t
x
x
−
±
α′
+
.Exemplo: Aplicou-se um teste de conhecimentos gerais a duas populações diferentes. A população 1 é composta por alunos que acabaram de concluir o 2o grau e a população 2 é composta por pessoas que concluíram o segundo grau há mais de 10 anos, tendo ou não cursado universidades depois.
6 Retiraram-se amostras de tamanhos n1 = 20 e n2 = 22 das duas populações e os seguintes resultados foram obtidos: 6,2e 0,7; 5,8e 2 5,0
2 2 2 1 1 = s = x = s = x . Não se
tem motivo para assumir que os desvios padrões populacionais são iguais, mas é razoável supor que as distribuições populacionais são normais. Estime um intervalo de confiança de 95% para µ1−µ2.
Da tabela da distribuição t de Student, temos:
t1 = t95% (gl = 19) = 2,0930 e t2 = t95% (gl = 21) = 2,0796. Temos também que:
w1 = 0,7/20 = 0,035 e w2 = 5/22 = 0,227. Logo: 08 , 2 227 , 0 035 , 0 0796 , 2 . 227 , 0 0930 , 2 . 035 , 0 = + + = ′t . Então:
(
)
2,08 0,4 1,1 2 2 2 1 2 1 2 1 − ± + = ± n s n s x x ; (0 − 1,5).7 O fluxograma abaixo sintetiza os procedimentos a serem utilizados para se determinar o intervalo de confiança para a diferença entre duas médias populacionais (adaptado de Daniel, W.W., Biostatistics: a foundation for