1.2 Intervalo de confian¸ ca para uma diferen¸ ca nas m´ edias com variˆ ancias conhecidas

(1)

Centro Federal de Educa¸cão Tecnológica Celso Suckow da Fonseca – CEFET/RJ Disciplina: Métodos Estat´ısticos

Prof. Anna Regina Corbo

CAP´ ITULO 2: Inferˆ encia Estat´ıstica para Duas Amostras An´ alise da M´ edia

Considere duas popula¸cões independentes onde a popula¸cão 1 tem média µ₁ e variância σ₁² enquanto a popula¸cão 2 tem média µ₂ e variância σ₂². Vamos basear nossa inferência em duas amostras aleatórias de tamanhon₁ en₂ das popula¸cões 1 e 2, respectivamente.

O objetivo é comparar duas condi¸cões (tratamentos) diferentes para determinar se cada condi¸cão produz um efeito significante na resposta.

1 Inferˆ encia sobre uma diferen¸ ca nas m´ edias com variˆ ancias conhecidas

Suponha que:

1. X11, X12, . . ., X1n1 é uma amostra aleatória proveniente da popula¸cão 1;

2. X₂₁, X₂₂, . . ., X_2n₂ é uma amostra aleatória proveniente da popula¸cão 2;

3. As duas popula¸c˜oes representadas por X₁ eX₂ s˜ao independentes;

4. Ambas as popula¸c˜oes s˜ao normais ou tais que o teorema central do limite se aplica.

Temos como estimador de µ₁−µ₂ a diferen¸ca entre as médias amostraisX₁−X₂. Além disso, a variância de X₁−X₂ é dada por:

V ar[X₁−X₂] = σ₁² n₁ +σ₂²

n₂

No caso de uma amostra, tinhamos como distribui¸cão de probabilidade da estat´ıstica, a distribui¸cão normal padrão, onde:

Z = X−µ rσ²

n

, ondeZ ∼N(0,1).

De modo an´alogo, neste caso, teremos:

Z = X₁−X₂−(µ₁−µ₂) s

σ₁² n₁ +σ₂²

n₂

, onde Z ∼N(0,1).

(2)

1.1 Teste de hip´ oteses

Consideraremos agora testes de hipóteses para a diferen¸ca nas médias µ₁ − µ₂ de duas popula¸cões, onde queremos testar se esta diferen¸ca é igual ou não a um valor especificado

∆₀. Deste modo, o teste de hip´otese ser´a:

H₀ :µ₁−µ₂ = ∆₀ H₁ :µ₁−µ₂ 6= ∆₀

Note que, se quisermos testar a igualdade das duas m´edias basta definir ∆₀ = 0.

A estat´ıstica apropriada do teste será encontrada trocando µ1 −µ2 por ∆0, de tal modo que esta estat´ıstica terá uma distribui¸cão normal padrão sob H₀. Sendo assim, usaremos

−z_α/2 ez_α/2 como limites da região cr´ıtica, exatamente como fizemos no problema de teste de hipótese para uma única amostra, obtendo assim um teste como um n´ıvel de significânciaα.

Regi˜oes cr´ıticas para as alternativas unilaterais ser˜ao localizadas similarmente (vide resumo abaixo).

Hip´otese Nula:

H₀ :µ₁−µ₂ = ∆₀ Estat´ıstica do Teste:

Z_calc = X₁−X₂−∆₀ s

σ²₁ n₁ + σ²₂

n₂

Hip´oteses Alternativas H₁ :µ₁−µ₂ 6= ∆₀ H₁ :µ₁−µ₂ >∆₀ H₁ :µ₁−µ₂ <∆₀

Crit´erios de Rejei¸c˜ao

z_calc > z_α/2 ouz_calc <−z_α/2 z_calc > z_α

z_calc <−z_α

Figura 1: Regi˜oes de Rejei¸c˜ao.

(3)

Exemplo 1: Um idealizador de produtos está interessado em reduzir o tempo de secagem de uma tinta. Duas formula¸cões de tinta são testadas: a formula¸cão 1 tem uma qu´ımica padrão e a formula¸cão 2 tem um novo ingrediente, que deve reduzir o tempo de secagem.

Da experiência, sabe-se que o desvio-padrão do tempo de secagem é de 8 minutos e que este dado não deve ser alterado pela adi¸cão do novo ingrediente. Dez espécimes são pintados com a formula¸cão 1 e outros dez espécimes são pintados com a formula¸cão 2. Os tempos médios de secagem das duas amostras são x₁ = 121 minutos e x₂ = 112 minutos, respectivamente. Quais as conclusões que o idealizador de produtos pode tirar sobre a eficiência do novo ingrediente, usandoα = 0,05?

1.2 Intervalo de confian¸ ca para uma diferen¸ ca nas m´ edias com variˆ ancias conhecidas

Vimos que se as duas popula¸cões forem normais então a variável Z = X₁−X₂−(µ₁ −µ₂)

s σ₁² n1

+σ₂² n2

terá uma distribui¸cão normal padrão. Isso implica que:

P(−z_α/2 6Z 6z_α/2) = 1−α

P







−z_α/2 6 X₁−X₂−(µ₁−µ₂) s

σ₁² n₁ +σ₂²

n₂

6z_α/2







= 1−α

P



−z_α/2 s

σ²₁ n₁ + σ²₂

n₂ 6X₁−X₂−(µ₁−µ₂)6z_α/2 s

σ₁² n₁ +σ₂²

n₂



= 1−α

P



−(X1 −X2)−zα/2

s σ²₁ n₁ + σ²₂

n₂ 6−(µ1−µ2)6−(X1−X2) +zα/2

s σ²₁ n₁ + σ²₂

n₂



= 1−α

P



X₁−X₂−z_α/2 s

σ²₁ n1

+ σ²₂

n2 6µ₁−µ₂ 6X₁−X₂+z_α/2 s

σ²₁ n1

+σ₂² n2



= 1−α Ou seja, este é o intervalo de confian¸ca 1−α para a diferen¸ca de médias se X₁ eX₂ forem as médias de duas amostras aleatórias independentes de tamanhos n₁ e n₂, provenientes de popula¸cões com variâncias conhecidasσ₁² eσ₂², respectivamente.

Exemplo 2: Testes de resistência à tensão foram feitos em duas estruturas contendo dois teores distintos de alum´ınio. Essas estruturas foram usadas na fabrica¸cão das asas de um avião. Os dados obtidos são mostrados na tabela abaixo. Se µ₁ e µ₂ denotam as resistências médias para os dois tipos de teores da estrutura, encontre um intervalo de confian¸ca de 90% para a diferen¸ca real destas resistências.

(4)

Tipo da Tamanho Resistˆencia m´edia Des.-pad. populacional Estrutura da amostra da amostra (kg/mm²) (kg/mm²)

1 10 87,6 1,0

2 12 74,5 1,5

2 Inferˆ encia sobre uma diferen¸ ca nas m´ edias com variˆ ancias desconhecidas

Quando o tamanho da amostra é consideravelmente pequeno ou quando desconhecemos o valor da variância populacional σ², ao supor que a popula¸cão é normalmente distribu´ıda devemos basear nossas análises de inferência na distribui¸cão t-Student.

2.1 Teste de Hip´ oteses

No caso de variâncias desconhecidas, devemos estudar duas situa¸cões diferentes: primeiro, se as variâncias em questão são iguais, e segundo, caso elas sejam diferentes.

2.1.1 Variˆancias Iguais: σ₁² =σ₂² =σ²

Suponha que tenhamos duas popula¸cões normais independentes, com médias desconhecidas µ1 eµ2 e variâncias desconhecidas, porém iguais, σ₁² =σ²₂ =σ². Desejamos testar

H₀ :µ₁−µ₂ = ∆₀ H₁ :µ₁−µ₂ 6= ∆₀

Sejam X11, X12, . . ., X1n1 uma amostra aleatória de n1 observa¸cões proveniente da pri- meira popula¸cão e X₂₁,X₂₂, . . ., X_2n₂ uma amostra aleatória de n₂ observa¸cões proveniente da segunda popula¸cão. Sejam X₁, X₂, S₁² eS₂² as médias e as variâncias das amostras amostras respectivamente. Analogamente ao caso onde a variância populacional é conhecida, temos que:

E[X₁−X₂] =µ₁−µ₂ V ar[X₁−X₂] = σ²₁

n₁ + σ²₂ n₂ = σ²

n₁ +σ² n₂ =σ²

1 n₁ + 1

n₂

O chamado estimador combinadoS_p² nada mais ´e do que uma “combina¸c˜ao” ou uma

“média ponderada” das variâncias amostrais de modo a estimar a variância populacionalσ². Ele é definido por:

S_p² = (n₁−1)S₁² + (n₂ −1)S₂² n₁+n₂−2

Dizemos que este estimador combinado possuin₁+n₂−2 graus de liberdade.

Como

Z = X₁−X₂−(µ₁−µ₂) σ

r 1 n₁ + 1

n₂

tem uma distribui¸c˜aoN ∼(0,1)

(5)

ent˜ao, trocando σ porS_p temos o seguinte:

T = X₁−X₂−(µ₁−µ₂) S_p

r 1 n₁ + 1

n₂ tem uma distribui¸c˜ao t, com n₁+n₂ −2 graus de liberdade.

Teste t Combinado para Duas Amostras Hip´otese Nula:

H₀ :µ₁−µ₂ = ∆₀ Estat´ıstica do Teste:

T_calc= X₁−X₂−∆₀ S_p

r 1 n₁ + 1

n₂ Hip´oteses Alternativas

H1 :µ1−µ2 6= ∆0

H₁ :µ₁−µ₂ >∆₀ H₁ :µ₁−µ₂ <∆₀

Crit´erios de Rejei¸c˜ao

t_calc> t_α/2,n₁_+n₂−2 ou t_calc<−t_α/2,n₁_+n₂−2

t_calc> t_α,n₁_+n₂₋₂ t_calc<−t_α,n₁_+n₂−2

Exemplo 3: Você é um analista financeiro de uma corretora de a¸cões. De acordo com os dados coletados abaixo, há diferen¸ca de dividendos entre as a¸cões negociadas na Bolsa de Tókio e de NY? Assuma variâncias iguais e α = 5%.

NY Tóquio Número de A¸cões 21 25

Média amostral 3,27 2,53 Desvio-padrão amostral 1,30 1,16 2.1.2 Variâncias diferentes: σ₁² 6=σ₂²

Em algumas situa¸cões não é razoável considerar que as variáveis desconhecidasσ²₁ eσ₂²sejam iguais. Não existe um valor exato dispon´ıvel da estat´ıstica t-Student de modo a usá-la para testar H₀ :µ₁−µ₂ = ∆₀ nesse caso. No entanto, seH₀ :µ₁−µ₂ = ∆₀ for verdadeira, então a estat´ıstica

T_calc^∗ = X₁−X₂−∆₀ s

S₁² n₁ + S₂²

n₂

´

e distribu´ıda normalmente com t, com graus de liberdade dados aproximadamente por

υ =

S₁² n₁ + S₂²

n₂ 2

(S₁²/n₁)²

n₁ + 1 +(S₂²/n₂)² n₂+ 1

−2

(6)

Deste modo, seσ₁² 6=σ²₂, as hipóteses sobre as diferen¸cas nas médias das duas distribui¸cões normais são testadas como no caso das variâncias iguais, exceto que T^∗ é usado como estat´ıstica do teste en₁+n₂−2 é trocado porυna determina¸cão do grau de liberdade do teste.

Exemplo 4: Um fabricante de unidades de v´ıdeos est´a testando dois projetos de microcir- cuitos para determinar se eles produzem correntes m´edias equivalentes. A engenharia de desenvolvimento obteve os seguintes dados:

Projeto 1 n₁ = 15 x₁ = 24,2 s²₁ = 10 Projeto 2 n₂ = 10 x₂ = 23,9 s²₂ = 20

Usando α = 10%, desejamos determinar se há qualquer diferen¸ca na corrente média entre os dois projetos, supondo que ambas as popula¸cões sejam normais, embora não estejamos dispostos a supor que as variâncias desconhecidas σ₁² eσ₂² sejam iguais.

2.2 Intervalo de confian¸ ca para uma diferen¸ ca nas m´ edias com variˆ ancias desconhecidas

2.2.1 Variˆancias Iguais: σ₁² =σ₂² =σ² A estat´ıstica T, definida por:

T = X1−X2−(µ1−µ2) S_p

r 1 n₁ + 1

n₂

tem distribui¸c˜ao t-Student, com n₁ +n₂ −2 graus de liberdade. Sendo assim temos, em termos de probabilidade, a express˜ao:

P(−t_α/2,n₁_+n₂−2 6T 6t_α/2,n₁_+n₂−2) = 1−α

Substituindo T pela defini¸c˜ao da estat´ıstica e tomando g =n₁+n₂−2 graus de liberdade, temos:

P







−t_α/2,g6 X₁−X₂−(µ₁−µ₂) S_p

r 1 n₁ + 1

n₂

6t_α/2,g







= 1−α

P

−t_α/2,g·S_p r 1

n1

+ 1

n2 6X₁−X₂−(µ₁−µ₂)6t_α/2,g·S_p r 1

n1

+ 1 n2

= 1−α P

−(X₁−X₂)−t_α/2,gS_p r 1

n₁ + 1

n₂ 6−(µ₁−µ₂)6−(X₁−X₂) +t_α/2,gS_p r 1

n₁ + 1 n₂

= 1−α

P

X₁−X₂−t_α/2,g·S_p r 1

n₁ + 1

n₂ 6µ₁−µ₂ 6X₁−X₂+t_α/2,g·S_p r 1

n₁ + 1 n₂

= 1−α Isto é, este é o intervalo de confian¸ca 1−α para a diferen¸ca de médias se X₁ e X₂ forem as médias de duas amostras aleatórias independentes de tamanhos n₁ e n₂, provenientes de popula¸cões com variâncias desconhecidas porém iguais aσ².

(7)

2.2.2 Variˆancias diferentes: σ₁² 6=σ₂²

Não sendo razoável assumir queσ²₁ =σ₂², podemos ainda encontrar um intervalo de confian¸ca de 1−α para a diferen¸ca nas médias µ₁−µ₂, usando o fato de

T^∗ = X₁−X₂−∆₀ s

S₁² n₁ +S₂²

n₂

ser distribu´ıda aproximadamente como t-Student , com υ graus de liberdade (υ ´e dado na se¸c˜ao 2.1.2). Em termos de probabilidade, obteremos o intervalo de confian¸ca

P(−t_α/2,υ 6T^∗ 6t_α/2,υ) = 1−α

SubstituindoT^∗ pela defini¸cão e manipulando a expressão analogamente ao caso anterior de modo a isolar µ1−µ2 obtemos o intervalo de confian¸ca 1−α para a diferen¸ca de médias se X₁ e X₂ forem as médias de duas amostras aleatórias independentes de tamanhos n₁ e n₂, provenientes de popula¸cões com variâncias desconhecidas e diferentesσ₁² eσ²₂. Este intervalo

´

e descrito por:

P



X₁−X₂−t_α/2,υ s

S₁² n₁ + S₂²

n₂ 6µ₁−µ₂ 6X₁−X₂+t_α/2,υ s

S₁² n₁ + S₂²

n₂



= 1−α onde υ ´e dado aproximadamente por:

υ =

S₁² n₁ + S₂²

n₂ 2

(S₁²/n₁)²

n₁ + 1 +(S₂²/n₂)² n₂+ 1

−2

Exemplo 5: Deseja-se estudar a quantidade de cálcio em um cimento padrão e de em um cimento que contém chumbo. Quanto menor a quantidade de chumbo, maior a chance de infiltra¸cão. Dez amostras de cimento padrão tiveram um teor médio percentual de cálcio de x₁ = 90,0, com um desvio-padrão da amostra de s₁ = 5,0, enquanto 15 amostras do cimento com chumbo tiveram um teor médio percentual de cálcio de x₁ = 87,0, com um desvio-padrão da amostra de s₂ = 4,0. Supondo que o teor percentual de cálcio seja normalmente distribu´ıdo, encontre um intervalo de 95% de confian¸ca para a diferen¸ca nas médias µ1−µ2 para os dois tipos de cimento.