Centro Federal de Educa¸c˜ao Tecnol´ogica Celso Suckow da Fonseca – CEFET/RJ Disciplina: M´etodos Estat´ısticos
Prof. Anna Regina Corbo
CAP´ ITULO 2: Inferˆ encia Estat´ıstica para Duas Amostras An´ alise da M´ edia
Considere duas popula¸c˜oes independentes onde a popula¸c˜ao 1 tem m´edia µ1 e variˆancia σ12 enquanto a popula¸c˜ao 2 tem m´edia µ2 e variˆancia σ22. Vamos basear nossa inferˆencia em duas amostras aleat´orias de tamanhon1 en2 das popula¸c˜oes 1 e 2, respectivamente.
O objetivo ´e comparar duas condi¸c˜oes (tratamentos) diferentes para determinar se cada condi¸c˜ao produz um efeito significante na resposta.
1 Inferˆ encia sobre uma diferen¸ ca nas m´ edias com variˆ ancias conhecidas
Suponha que:
1. X11, X12, . . ., X1n1 ´e uma amostra aleat´oria proveniente da popula¸c˜ao 1;
2. X21, X22, . . ., X2n2 ´e uma amostra aleat´oria proveniente da popula¸c˜ao 2;
3. As duas popula¸c˜oes representadas por X1 eX2 s˜ao independentes;
4. Ambas as popula¸c˜oes s˜ao normais ou tais que o teorema central do limite se aplica.
Temos como estimador de µ1−µ2 a diferen¸ca entre as m´edias amostraisX1−X2. Al´em disso, a variˆancia de X1−X2 ´e dada por:
V ar[X1−X2] = σ12 n1 +σ22
n2
No caso de uma amostra, tinhamos como distribui¸c˜ao de probabilidade da estat´ıstica, a distribui¸c˜ao normal padr˜ao, onde:
Z = X−µ rσ2
n
, ondeZ ∼N(0,1).
De modo an´alogo, neste caso, teremos:
Z = X1−X2−(µ1−µ2) s
σ12 n1 +σ22
n2
, onde Z ∼N(0,1).
1.1 Teste de hip´ oteses
Consideraremos agora testes de hip´oteses para a diferen¸ca nas m´edias µ1 − µ2 de duas popula¸c˜oes, onde queremos testar se esta diferen¸ca ´e igual ou n˜ao a um valor especificado
∆0. Deste modo, o teste de hip´otese ser´a:
H0 :µ1−µ2 = ∆0 H1 :µ1−µ2 6= ∆0
Note que, se quisermos testar a igualdade das duas m´edias basta definir ∆0 = 0.
A estat´ıstica apropriada do teste ser´a encontrada trocando µ1 −µ2 por ∆0, de tal modo que esta estat´ıstica ter´a uma distribui¸c˜ao normal padr˜ao sob H0. Sendo assim, usaremos
−zα/2 ezα/2 como limites da regi˜ao cr´ıtica, exatamente como fizemos no problema de teste de hip´otese para uma ´unica amostra, obtendo assim um teste como um n´ıvel de significˆanciaα.
Regi˜oes cr´ıticas para as alternativas unilaterais ser˜ao localizadas similarmente (vide resumo abaixo).
Hip´otese Nula:
H0 :µ1−µ2 = ∆0 Estat´ıstica do Teste:
Zcalc = X1−X2−∆0 s
σ21 n1 + σ22
n2
Hip´oteses Alternativas H1 :µ1−µ2 6= ∆0 H1 :µ1−µ2 >∆0 H1 :µ1−µ2 <∆0
Crit´erios de Rejei¸c˜ao
zcalc > zα/2 ouzcalc <−zα/2 zcalc > zα
zcalc <−zα
Figura 1: Regi˜oes de Rejei¸c˜ao.
Exemplo 1: Um idealizador de produtos est´a interessado em reduzir o tempo de secagem de uma tinta. Duas formula¸c˜oes de tinta s˜ao testadas: a formula¸c˜ao 1 tem uma qu´ımica padr˜ao e a formula¸c˜ao 2 tem um novo ingrediente, que deve reduzir o tempo de secagem.
Da experiˆencia, sabe-se que o desvio-padr˜ao do tempo de secagem ´e de 8 minutos e que este dado n˜ao deve ser alterado pela adi¸c˜ao do novo ingrediente. Dez esp´ecimes s˜ao pintados com a formula¸c˜ao 1 e outros dez esp´ecimes s˜ao pintados com a formula¸c˜ao 2. Os tempos m´edios de secagem das duas amostras s˜ao x1 = 121 minutos e x2 = 112 minutos, respectivamente. Quais as conclus˜oes que o idealizador de produtos pode tirar sobre a eficiˆencia do novo ingrediente, usandoα = 0,05?
1.2 Intervalo de confian¸ ca para uma diferen¸ ca nas m´ edias com variˆ ancias conhecidas
Vimos que se as duas popula¸c˜oes forem normais ent˜ao a vari´avel Z = X1−X2−(µ1 −µ2)
s σ12 n1
+σ22 n2
ter´a uma distribui¸c˜ao normal padr˜ao. Isso implica que:
P(−zα/2 6Z 6zα/2) = 1−α
P
−zα/2 6 X1−X2−(µ1−µ2) s
σ12 n1 +σ22
n2
6zα/2
= 1−α
P
−zα/2 s
σ21 n1 + σ22
n2 6X1−X2−(µ1−µ2)6zα/2 s
σ12 n1 +σ22
n2
= 1−α
P
−(X1 −X2)−zα/2
s σ21 n1 + σ22
n2 6−(µ1−µ2)6−(X1−X2) +zα/2
s σ21 n1 + σ22
n2
= 1−α
P
X1−X2−zα/2 s
σ21 n1
+ σ22
n2 6µ1−µ2 6X1−X2+zα/2 s
σ21 n1
+σ22 n2
= 1−α Ou seja, este ´e o intervalo de confian¸ca 1−α para a diferen¸ca de m´edias se X1 eX2 forem as m´edias de duas amostras aleat´orias independentes de tamanhos n1 e n2, provenientes de popula¸c˜oes com variˆancias conhecidasσ12 eσ22, respectivamente.
Exemplo 2: Testes de resistˆencia `a tens˜ao foram feitos em duas estruturas contendo dois teores distintos de alum´ınio. Essas estruturas foram usadas na fabrica¸c˜ao das asas de um avi˜ao. Os dados obtidos s˜ao mostrados na tabela abaixo. Se µ1 e µ2 denotam as resistˆencias m´edias para os dois tipos de teores da estrutura, encontre um intervalo de confian¸ca de 90% para a diferen¸ca real destas resistˆencias.
Tipo da Tamanho Resistˆencia m´edia Des.-pad. populacional Estrutura da amostra da amostra (kg/mm2) (kg/mm2)
1 10 87,6 1,0
2 12 74,5 1,5
2 Inferˆ encia sobre uma diferen¸ ca nas m´ edias com variˆ ancias desconhecidas
Quando o tamanho da amostra ´e consideravelmente pequeno ou quando desconhecemos o valor da variˆancia populacional σ2, ao supor que a popula¸c˜ao ´e normalmente distribu´ıda devemos basear nossas an´alises de inferˆencia na distribui¸c˜ao t-Student.
2.1 Teste de Hip´ oteses
No caso de variˆancias desconhecidas, devemos estudar duas situa¸c˜oes diferentes: primeiro, se as variˆancias em quest˜ao s˜ao iguais, e segundo, caso elas sejam diferentes.
2.1.1 Variˆancias Iguais: σ12 =σ22 =σ2
Suponha que tenhamos duas popula¸c˜oes normais independentes, com m´edias desconhecidas µ1 eµ2 e variˆancias desconhecidas, por´em iguais, σ12 =σ22 =σ2. Desejamos testar
H0 :µ1−µ2 = ∆0 H1 :µ1−µ2 6= ∆0
Sejam X11, X12, . . ., X1n1 uma amostra aleat´oria de n1 observa¸c˜oes proveniente da pri- meira popula¸c˜ao e X21,X22, . . ., X2n2 uma amostra aleat´oria de n2 observa¸c˜oes proveniente da segunda popula¸c˜ao. Sejam X1, X2, S12 eS22 as m´edias e as variˆancias das amostras amos- tras respectivamente. Analogamente ao caso onde a variˆancia populacional ´e conhecida, temos que:
E[X1−X2] =µ1−µ2 V ar[X1−X2] = σ21
n1 + σ22 n2 = σ2
n1 +σ2 n2 =σ2
1 n1 + 1
n2
O chamado estimador combinadoSp2 nada mais ´e do que uma “combina¸c˜ao” ou uma
“m´edia ponderada” das variˆancias amostrais de modo a estimar a variˆancia populacionalσ2. Ele ´e definido por:
Sp2 = (n1−1)S12 + (n2 −1)S22 n1+n2−2
Dizemos que este estimador combinado possuin1+n2−2 graus de liberdade.
Como
Z = X1−X2−(µ1−µ2) σ
r 1 n1 + 1
n2
tem uma distribui¸c˜aoN ∼(0,1)
ent˜ao, trocando σ porSp temos o seguinte:
T = X1−X2−(µ1−µ2) Sp
r 1 n1 + 1
n2 tem uma distribui¸c˜ao t, com n1+n2 −2 graus de liberdade.
Teste t Combinado para Duas Amostras Hip´otese Nula:
H0 :µ1−µ2 = ∆0 Estat´ıstica do Teste:
Tcalc= X1−X2−∆0 Sp
r 1 n1 + 1
n2 Hip´oteses Alternativas
H1 :µ1−µ2 6= ∆0
H1 :µ1−µ2 >∆0 H1 :µ1−µ2 <∆0
Crit´erios de Rejei¸c˜ao
tcalc> tα/2,n1+n2−2 ou tcalc<−tα/2,n1+n2−2
tcalc> tα,n1+n2−2 tcalc<−tα,n1+n2−2
Exemplo 3: Vocˆe ´e um analista financeiro de uma corretora de a¸c˜oes. De acordo com os dados coletados abaixo, h´a diferen¸ca de dividendos entre as a¸c˜oes negociadas na Bolsa de T´okio e de NY? Assuma variˆancias iguais e α = 5%.
NY T´oquio N´umero de A¸c˜oes 21 25
M´edia amostral 3,27 2,53 Desvio-padr˜ao amostral 1,30 1,16 2.1.2 Variˆancias diferentes: σ12 6=σ22
Em algumas situa¸c˜oes n˜ao ´e razo´avel considerar que as vari´aveis desconhecidasσ21 eσ22sejam iguais. N˜ao existe um valor exato dispon´ıvel da estat´ıstica t-Student de modo a us´a-la para testar H0 :µ1−µ2 = ∆0 nesse caso. No entanto, seH0 :µ1−µ2 = ∆0 for verdadeira, ent˜ao a estat´ıstica
Tcalc∗ = X1−X2−∆0 s
S12 n1 + S22
n2
´
e distribu´ıda normalmente com t, com graus de liberdade dados aproximadamente por
υ =
S12 n1 + S22
n2 2
(S12/n1)2
n1 + 1 +(S22/n2)2 n2+ 1
−2
Deste modo, seσ12 6=σ22, as hip´oteses sobre as diferen¸cas nas m´edias das duas distribui¸c˜oes normais s˜ao testadas como no caso das variˆancias iguais, exceto que T∗ ´e usado como es- tat´ıstica do teste en1+n2−2 ´e trocado porυna determina¸c˜ao do grau de liberdade do teste.
Exemplo 4: Um fabricante de unidades de v´ıdeos est´a testando dois projetos de microcir- cuitos para determinar se eles produzem correntes m´edias equivalentes. A engenharia de desenvolvimento obteve os seguintes dados:
Projeto 1 n1 = 15 x1 = 24,2 s21 = 10 Projeto 2 n2 = 10 x2 = 23,9 s22 = 20
Usando α = 10%, desejamos determinar se h´a qualquer diferen¸ca na corrente m´edia entre os dois projetos, supondo que ambas as popula¸c˜oes sejam normais, embora n˜ao estejamos dispostos a supor que as variˆancias desconhecidas σ12 eσ22 sejam iguais.
2.2 Intervalo de confian¸ ca para uma diferen¸ ca nas m´ edias com variˆ ancias desconhecidas
2.2.1 Variˆancias Iguais: σ12 =σ22 =σ2 A estat´ıstica T, definida por:
T = X1−X2−(µ1−µ2) Sp
r 1 n1 + 1
n2
tem distribui¸c˜ao t-Student, com n1 +n2 −2 graus de liberdade. Sendo assim temos, em termos de probabilidade, a express˜ao:
P(−tα/2,n1+n2−2 6T 6tα/2,n1+n2−2) = 1−α
Substituindo T pela defini¸c˜ao da estat´ıstica e tomando g =n1+n2−2 graus de liberdade, temos:
P
−tα/2,g6 X1−X2−(µ1−µ2) Sp
r 1 n1 + 1
n2
6tα/2,g
= 1−α
P
−tα/2,g·Sp r 1
n1
+ 1
n2 6X1−X2−(µ1−µ2)6tα/2,g·Sp r 1
n1
+ 1 n2
= 1−α P
−(X1−X2)−tα/2,gSp r 1
n1 + 1
n2 6−(µ1−µ2)6−(X1−X2) +tα/2,gSp r 1
n1 + 1 n2
= 1−α
P
X1−X2−tα/2,g·Sp r 1
n1 + 1
n2 6µ1−µ2 6X1−X2+tα/2,g·Sp r 1
n1 + 1 n2
= 1−α Isto ´e, este ´e o intervalo de confian¸ca 1−α para a diferen¸ca de m´edias se X1 e X2 forem as m´edias de duas amostras aleat´orias independentes de tamanhos n1 e n2, provenientes de popula¸c˜oes com variˆancias desconhecidas por´em iguais aσ2.
2.2.2 Variˆancias diferentes: σ12 6=σ22
N˜ao sendo razo´avel assumir queσ21 =σ22, podemos ainda encontrar um intervalo de confian¸ca de 1−α para a diferen¸ca nas m´edias µ1−µ2, usando o fato de
T∗ = X1−X2−∆0 s
S12 n1 +S22
n2
ser distribu´ıda aproximadamente como t-Student , com υ graus de liberdade (υ ´e dado na se¸c˜ao 2.1.2). Em termos de probabilidade, obteremos o intervalo de confian¸ca
P(−tα/2,υ 6T∗ 6tα/2,υ) = 1−α
SubstituindoT∗ pela defini¸c˜ao e manipulando a express˜ao analogamente ao caso anterior de modo a isolar µ1−µ2 obtemos o intervalo de confian¸ca 1−α para a diferen¸ca de m´edias se X1 e X2 forem as m´edias de duas amostras aleat´orias independentes de tamanhos n1 e n2, provenientes de popula¸c˜oes com variˆancias desconhecidas e diferentesσ12 eσ22. Este intervalo
´
e descrito por:
P
X1−X2−tα/2,υ s
S12 n1 + S22
n2 6µ1−µ2 6X1−X2+tα/2,υ s
S12 n1 + S22
n2
= 1−α onde υ ´e dado aproximadamente por:
υ =
S12 n1 + S22
n2 2
(S12/n1)2
n1 + 1 +(S22/n2)2 n2+ 1
−2
Exemplo 5: Deseja-se estudar a quantidade de c´alcio em um cimento padr˜ao e de em um cimento que cont´em chumbo. Quanto menor a quantidade de chumbo, maior a chance de infiltra¸c˜ao. Dez amostras de cimento padr˜ao tiveram um teor m´edio percentual de c´alcio de x1 = 90,0, com um desvio-padr˜ao da amostra de s1 = 5,0, enquanto 15 amostras do cimento com chumbo tiveram um teor m´edio percentual de c´alcio de x1 = 87,0, com um desvio-padr˜ao da amostra de s2 = 4,0. Supondo que o teor percentual de c´alcio seja normalmente distribu´ıdo, encontre um intervalo de 95% de confian¸ca para a diferen¸ca nas m´edias µ1−µ2 para os dois tipos de cimento.