Intervalo de Confiança para a Diferença entre Duas Médias Amostrais

(1)

1 Intervalo de Confiança para a Diferença entre Duas Médias Amostrais

Quando se quer estimar a diferença, µ1−µ2, entre as médias de duas populações 1 e 2, procede-se da seguinte maneira: toma-se uma amostra de cada população, com tamanhos n1 e n2 respectivamente. Calculam-se as suas respectivas médias e desvios padrões:

x

1

,

x

2

,

s

1

e

s

2.

Se soubermos que as distribuições populacionais das variáveis x1 e x2 são normais e conhecermos os desvios padrões das duas distribuições, σ1 e σ2, então o intervalo de confiança de 95% para µ1 −µ2 será calculado como (pelos mesmos motivos usados na dedução do intervalo de confiança para a média):

(

)

(

)

2 2 2 1 2 1 2 1 2 1 2 2 2 1 2 1 2 1 1,96 1,96 n n x x n n x x − − σ +σ ≤ µ −µ ≤ − + σ +σ (95%).

Exemplo1: Pesquisadores desejam estimar a diferença entre os níveis de ácido úrico no soro de pacientes com e sem mongolismo. Tomou-se uma amostra de 12 indivíduos mongolóides e se obteve uma média x₁ ₌4,5 mg/100 ml. Tomou-se então outra amostra de 15 indivíduos saudáveis de mesma idade e sexo que os mongolóides e se obteve uma média x₂ ₌3,4 mg/100 ml. Assumindo que as duas populações são normalmente distribuídas com variâncias iguais a 1 mg/100 ml, calcule um IC95% para µ1−µ2.

Temos que x₁ _{− x}₂ ₌ 4,5₋3,4₌1,1mg/100 ml e que 39 , 0 15 1 12 1 2 2 2 1 2 1 2 1− = + = + = n n x x σ σ σ _{mg/100 ml. Logo:} IC95% = 1,1 ± 1,96 x 0,39 = 1,1 ± 0,8 mg/100 ml (0,3 − 1,9).

(2)

2 Se as distribuições populacionais não forem normais, mas os tamanhos das amostras, n1 e n2, forem grandes podemos, pelo Teorema Central do Limite, continuar a resolver problemas como no exemplo anterior.

Exemplo 2: Deseja-se comparar o status econômico de pacientes de dois hospitais. A renda familiar anual média de uma amostra de 75 pacientes do Hospital A é x = R$ 68.000,00 e a renda familiar anual média de uma 1 amostra de 80 pacientes do Hospital B é x = R$ 44.500,00. Se os desvios ₂

padrões das duas populações forem iguais, respectivamente, a σ1 = R$ 6.000,00 e σ2 = R$ 5.000,00, calcule um intervalo de confiança de 99% para a diferença entre as médias das duas populações, µ1−µ2.

Temos que x₁_{− x}₂ ₌68.000₋44.500₌23.500 e que

(

) (

)

₈₉₀ 80 5000 75 6000 2 2 2 2 2 1 2 1 2 1− = + = + = n n x x σ σ σ _{. Logo:} IC99% =

(

x₁−x₂

)

±2,58σ_x₁₋_x₂ =23.500 ± 2,58 x 890 = 23.500 ± 2.296 (R$ 21.204,00 − R$ 25.796,00).

Quando as variâncias das populações não são conhecidas, as amostras não forem grandes, mas pudermos assumir que as distribuições populacionais são normais devemos usar a distribuição t de Student para calcular os intervalos de confiança para µ1−µ2. Neste caso, há duas situações possíveis:

a) As variâncias populacionais são iguais; b) As variâncias populacionais são diferentes.

(3)

3

Caso a: Variâncias populacionais desconhecidos, mas iguais.

Caso a hipótese de igualdade das variâncias seja válida, devemos considerar que as variâncias obtidas para as amostras retiradas das duas populações são

estimativas da mesma coisa: a variância comum às duas populações, σ2.

Para estimar a variância comum, σ2, toma-se uma média ponderada das variâncias

s

12 e

2 2

s

. Os fatores de ponderação são os graus de liberdade de cada amostra. Sendo assim, a amostra maior (que, teoricamente, contém mais informação sobre a população) terá um peso maior na estimativa de σ2. A variância estimada é dada então por:

(

) (

)

2

1

2 1 2 2 2 2 1 1 2

−

+

−

+

−

=

n

s

n

s

n

s

_.

(4)

4 2 2 1 2 2 1 n s n s x x − = + σ _,

e, finalmente, a fórmula para o cálculo do intervalo de confiança de α% para este caso é:

(

)

2 2 1 2 % 2 1

n

s

n

s

t

x

−

±

_α

+

_.

Para se obter o valor de t_α% a partir da tabela, deve-se usar gl = n1 + n2 − 2. Exemplo: Uma concessionária de rodovia quer fazer uma comparação entre duas das suas praças de pedágio com relação ao tempo gasto por veículos desde a chegada ao guichê até a saída. A população 1 é composta pelos veículos que passam pela praça de pedágio 1 e a população 2 é composta pelos veículos que passam pela praça de pedágio 2. Retirou-se uma amostra de 24 veículos da população 1, com tempo médio de permanência no pedágio de 1,8 minutos e desvio padrão de 0,6 minutos. Retirou-se uma amostra de 18 veículos da população 2, com tempo médio de permanência de 1,4 minutos e desvio padrão de 0,5 minutos. As variâncias das duas populações são desconhecidas, mas vamos assumir que elas são iguais. Vamos também assumir que a distribuição dos tempos de permanência nas praças de pedágio é normal. Calcule o IC95% para µ1−µ2.

Começamos estimando a variância comum às duas populações (por hipótese):

(

)( ) (

)( )

₀

_,

₃₁

₀

_,

₅₆

2

18

24

5 ,

0

1

18

6 ,

0

1

24

2 2 2

=

⇒

=

−

+

−

+

−

=

_s

s

_min.

Agora, calculamos o IC95% da forma usual, usando gl = 24 + 18 − 2 = 40. Pela tabela, vemos que t95% = 2,0211:

(5)

5

(

)

0,4 0,45 18 31 , 0 24 31 , 0 0211 , 2 4 , 1 8 , 1 − ± + = ± . IC95% = (0 − 0,85).

Caso b: Variâncias populacionais desconhecidos e diferentes.

Neste caso, em que não há base suficiente para se assumir que 2 2 2 1 σ

σ = , a situação fica mais complicada. Mesmo que as distribuições das populações 1 e 2 sejam normais, a teoria indica que não se pode usar a distribuição t de Student como no caso anterior.

A solução para este problema foi estudada por vários estatísticos ao longo do Séc. XX: Behrens (1929), Fisher (1939, 1941), Neyman (1941), Scheffé (1943, 1944), Welch (1937, 1947), Aspin (1949), Trickett et al. (1956) e Cochran (1964). A solução proposta por Cochran consiste em usar a seguinte alternativa à distribuição t de Student:

2 1 2 2 1 1 %

w

t

w

t

w

t

+

=

′

/

_α _, onde w1 = 1 2 1 / n s , w2 = 2 2 2 / n s , t1 = t_α% para gl = n1 – 1 e t2 = t_α% para gl = n2 – 1. Com esta alternativa, uma aproximação para o intervalo de confiança de α% para o caso das variâncias populacionais desconhecidas e desiguais é:

(

)

2 2 2 1 2 1 % 2 1

n

s

n

s

t

x

−

±

_α

′

+

_.

Exemplo: Aplicou-se um teste de conhecimentos gerais a duas populações diferentes. A população 1 é composta por alunos que acabaram de concluir o 2o grau e a população 2 é composta por pessoas que concluíram o segundo grau há mais de 10 anos, tendo ou não cursado universidades depois.

(6)

6 Retiraram-se amostras de tamanhos n1 = 20 e n2 = 22 das duas populações e os seguintes resultados foram obtidos: 6,2e 0,7; 5,8e 2 5,0

2 2 2 1 1 = s = x = s = x . Não se

tem motivo para assumir que os desvios padrões populacionais são iguais, mas é razoável supor que as distribuições populacionais são normais. Estime um intervalo de confiança de 95% para µ1−µ2.

Da tabela da distribuição t de Student, temos:

t1 = t95% (gl = 19) = 2,0930 e t2 = t95% (gl = 21) = 2,0796. Temos também que:

w1 = 0,7/20 = 0,035 e w2 = 5/22 = 0,227. Logo: 08 , 2 227 , 0 035 , 0 0796 , 2 . 227 , 0 0930 , 2 . 035 , 0 ₌ + + = ′t _. Então:

(

)

2,08 0,4 1,1 2 2 2 1 2 1 2 1 − ± + = ± n s n s x x _{; (0 − 1,5).}

(7)

7 O fluxograma abaixo sintetiza os procedimentos a serem utilizados para se determinar o intervalo de confiança para a diferença entre duas médias populacionais (adaptado de Daniel, W.W., Biostatistics: a foundation for