Introdu¸c˜ao `a probabilidade e estat´ıstica II

(1)

Introdu¸c˜ ao ` a probabilidade e estat´ıstica II

Testes de hip´oteses para duas m´edias populacionais

Prof. Alexandre G Patriota Sala: 298A

Email: patriota@ime.usp.br Site: www.ime.usp.br/∼patriota

(2)

Testes de hip´ oteses para duas M´ edias populacionais

SejamX e Y duas variáveis de interesse. Estaremos interessados em testar se a média deX é igual a média deY.

I testar se o efeito médio do remédio proposto é maior do que o efeito médio do placebo

I testar se um determinado m´etodo de ensino ´e mais eficaz que outro.

H´a dois casos:

I as variáveis X e Y são dependentes (dados pareados). A mesma unidade amostral é medida duas vezes.

I as variáveis X e Y são independentes (dados não pareados).

Todas as unidades amostrais s˜ao medidas apenas uma vez.

(3)

Exemplo de dados pareados (dependentes)

Uma nutricionista propˆos um novo complemento alimentar para aumentar o rendimento de jogadores de futebol.

A vari´avel de interesse: tempo de corrida na esteira a 15km/h at´e a fadiga.

A pesquisadora selecionou 20 atletas com caracter´ısticas similares (peso, altura, idade, etc).

Na primeira semana a pesquisadora mediu o tempo de corrida sem utilizar a dieta (X), na segunda semana a pesquisadora mediu o tempo de corrida utilizando a dieta (Y) dos mesmos atletas.

Interesse: verificar se em média houve um aumento no tempo médio na segunda semana em rela¸cão a primeira. Note que as variáveisX eY referem-se ao mesmo atleta.

(4)

Exemplo de dados n˜ ao pareados (independentes)

Uma nutricionista propˆos um novo complemento alimentar para aumentar o rendimento de jogadores de futebol.

A vari´avel de interesse: tempo de corrida na esteira a 15km/h at´e a fadiga.

A pesquisadora selecionou 40 atletas com caracter´ısticas similares (peso, altura, idade, etc).

Dentre os 40 atletas, 20 utilizaram o novo complemento (X) e 20 n˜ao utilizaram (Y).

Interesse: verificar se em m´edia os atletas que utilizaram o novo complemente tiverem o tempo de corrida aumentado. Note que as vari´aveisX eY referem-se a atletas diferentes.

(5)

Testes para duas m´ edias populacionais – Distribui¸c˜ ao normal

SejamX ∼N(µ_x, σ²_x) e Y ∼N(µ_y, σ_y²) duas vari´aveis de interesse.

As hipóteses de interesse (tanto para dados pareados como não-pareados) serão:

(1)

H₀ : µ_x ≤µ_y H1 : µx > µy

, (2)

H₀: µ_x ≥µ_y H1: µx < µy

e (3)

H0: µx =µy

H₁: µ_x 6=µ_y

Podemos definirµ_D =µx−µy e teremos de maneira equivalente:

(1)

H0 : µD ≤0 H₁ : µ_D >0 , (2)

H0: µD ≥0 H₁: µ_D <0

e (3)

H₀: µ_D = 0 H1: µD 6= 0

(6)

Caso pareado e n˜ ao-pareado

No caso pareado, as vari´aveis s˜ao dependentes e observamos (X₁,Y₁),(X₂,Y₂), . . . ,(X_n,Y_n)

em que (X_i,Y_i) é o par de variáveis doi-ésimo indiv´ıduo,X_i referente ao tratamento inicial eY_i referente ao tratamento final.

No caso não-pareado, as variáveis são independentes e observamos dois conjuntos de dados

(X₁,X₂, . . . ,X_n₁),(Y₁,Y₂, . . . ,Y_n₂).

o primeiro referente a um tipo de tratamento e o segundo referente a outro tipo de tratamento.

(7)

Caso pareado e n˜ ao-pareado

No caso pareado, utilizamos a m´edia das diferen¸cas D_i =X_i−Y_i para fazer o teste de hip´oteses, ou seja,

D¯par = 1 n

n

X

i=1

d_i.

Temos que ¯D_par ∼N

µ_x−µ_y,^σ_n²^D

, em queσ²_D está embutida as variâncias deX,Y e a covariância. A estimativa paraσ²_D será a variância amostral ˜S_D² (denominador (n-1))

No caso não-pareado, utilizamos a diferen¸ca das médias ¯X −Y¯ para fazer o teste de hipóteses, ou seja,

D¯_npar = ¯X −Y¯. Temos que ¯D_npar ∼N

µ_x−µ_y,^σ_n^x²

1 +^σ_n^y²

2

.

(8)

Testes para duas m´ edias para o caso pareado – Distribui¸c˜ ao normal

Aqui sobH₀ (na igualdade), ¯D_par ∼N(0, σ_D²/n), assumimos que a variância σ_D² é desconhecida (pois contém informa¸cões da

covariˆancia que n˜ao conhecemos).

A região de rejei¸cão para cada teste é dada por

I Para o Teste (1): RC ={D¯_par >d_c}, com d_c =t_α q_˜

S_D² n

I Para o Teste (2): RC ={D¯par <dc}, com dc =−t_α q_˜

S_D² n I Para o Teste (3): RC ={D¯par <d1c ou ¯Dpar >d2c}, com

d_1c =−t^α

2

q_˜

S_D²

n e d_2c =t^α

2

q_˜

S_D² n .

Como anteriormente,tα e t_α/2 s˜ao os 1−α e 1−α/2 quantis, respectivamente, de uma t-Student com n-1 graus de liberdade.

(9)

Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso pareado – Distribui¸c˜ ao normal

IC(µ_x−µ_y, γ) =

D¯_par −t_α/2 s

S˜_D²

n ; ¯D_par+t_α/2 s

S˜_D² n

Lembrando que

P(−t^α

2 <T <t^α

2) =γ = 1−α

sendoT uma vari´avel com distribui¸c˜ao t-Student com n−1 graus de liberdade

(10)

Foram coletados os tempos antes a ap´os a aplica¸c˜ao do

complemento alimentar e os seguintes dados foram obtidos para 12 atletas. Sabe-se que estes tempos se distribuem conforme a distribui¸c˜ao normal. Deseja-se verificar se o complemento aumenta o desempenho dos atletas.

Ind Antes (horas) Depois (horas) di

1 2,4 3,2 - 0,8

2 2,8 3,4 -0,6

3 4,6 3,2 1,4

4 3,1 3,3 -0,2

5 3,1 3,3 -0,2

6 4,7 3,0 1,7

7 3,5 3,8 -0,3

8 1,7 3,5 -1,8

9 2,3 3,2 -0,9

10 2,6 3,9 -1,3

11 4,2 3,6 0,6

12 3,4 3,4 0,0

Observou-se ¯dpar = -0,35 e ˜S_D² = 1,07. Defina as hipóteses e a região de rejei¸cão paraα= 0,05.

(11)

Testes para duas m´ edias para o caso n˜ ao-pareado – Distribui¸c˜ ao normal

QuandoX ∼N(µx, σ²_x) e Y ∼N(µy, σ_y²) s˜ao vari´aveis independentes temos que

D¯_npar ∼N

µ_x−µ_y,σ_x² n1

+σ_y² n2

.

Sob a hip´otese nula (na igualdade), temos que µ_D =µ_x−µ_y = 0 Temos trˆes casos:

I As variˆanciasσ²_x e σ²_y s˜ao conhecidas.

I As variˆancias s˜ao desconhecidas e iguais.

I As variˆancias s˜ao desconhecidas e diferentes.

(12)

Regi˜ oes cr´ıticas quando as variˆ ancias s˜ ao conhecidas (n˜ ao-pareado)

I Para o Teste (1): RC ={D¯_npar >d_c}, comd_c =z_α qσ²_x

n1 + ^σ_n²^y

2

I Para o Teste (2): RC ={D¯_npar <d_c}, com d_c =−z_α

qσ²_x n1 + ^σ_n²^y

2

I Para o Teste (3): RC ={D¯npar <d1c ou ¯Dnpar >d2c}, com d1c =−z^α

2

qσ²_x n1 + ^σ_n²^y

2 e d2c =z^α

2

qσ²_x n1 +^σ_n²^y

2.

(13)

Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso n˜ ao-pareado com variˆ ancias conhecidas – Distribui¸c˜ ao normal

IC(µ_x−µ_y, γ) =

D¯_npar −z^α

2

s σ_x² n1

+σ²_y n2

; ¯D_npar+z^α

2

s σ²_x n1

+σ_y² n2

Lembrando que

P(−z^α

2 <Z <z^α

2) =γ = 1−α sendoZ uma variável com distribui¸cão normal padrão.

(14)

Uma fábrica de embalagens para produtos qu´ımicos está estudando dois processos para combater a corrosão de suas latas especiais.

Para verificar o efeito dos tratamentos, foram usadas amostras cujos resultados est˜ao no quadro abaixo (em porcentagem de corros˜ao eliminada).

M´etodo A M´etodo B

M´edia amostral 48 53

Variˆancia populacional 10 15

Amostra 15 12

Assuma distribui¸cões normais independentes para as variáveis de interesse. Verifique se os efeitos médios dos métodos são diferentes considerandoα= 0,05.

Fa¸ca um intervalo de confian¸ca considerandoγ = 0,95.

(15)

Regi˜ oes cr´ıticas quando as variˆ ancias s˜ ao desconhecidas e iguais (n˜ ao-pareado)

I Para o Teste (1): RC ={D¯npar >dc}, comdc =t_α^∗ qs_p²

n1 +^s_n^p²

2

I Para o Teste (2): RC ={D¯npar <dc}, com d_c =−t_α^∗

qs_p² n1 +_n^s^p²

2

I Para o Teste (3): RC ={D¯_npar <d_1c ou ¯D_npar >d_2c}, com d1c =−t^∗α

2

qs_p² n1 + ^s

p2

n2 ed2c =t^∗^α

2

qs_p² n1 + ^s

p2

n2. em quet_α^∗ e t^∗^α

2 s˜ao os quantis 1−α e 1−^α₂, respectivamente de uma t-Student comn^∗ =n1+n2−2 graus de liberdade e

s_p²= (n1−1)˜S_X² + (n2−1)˜S_Y²

n^∗ .

(16)

Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso n˜ ao-pareado com variˆ ancias desconhecidas e iguais – Distribui¸c˜ ao normal

IC(µ_x −µ_y, γ) =

D¯_npar −t^∗^α

2

s s_p² n₁ + s_p²

n₂; ¯D_npar +t^∗^α

2

s s_p² n₁ +s_p²

n₂

Lembrando que

P(−t^∗α

2 <T^∗<t^∗^α

2) =γ = 1−α

sendoT^∗ uma vari´avel com distribui¸c˜ao t-Student comn^∗ graus de liberdade (n^∗=n1+n2−2).

(17)

Duas t´ecnicas de venda s˜ao aplicadas por dois grupos de

vendedores: a técnica A, por 12 vendedores, e a técnica B, por 15 vendedores. Espera-se que a técnica B produza melhores

resultados. No final de um mˆes, obtiveram-se os resultados (em porcentagem de vendas):

T´ecnica A T´ecnica B

Variˆancia amostral 50 52

Assuma distribui¸cão normal para as variáveis de interesse. Sabe-se, por estudos anteriores, que a variância populacional das duas técnicas são iguais. Conduza os testes apropriados e fa¸ca intervalos de confian¸ca para a diferen¸ca de médias populacionais.

(18)

Regi˜ oes cr´ıticas quando as variˆ ancias s˜ ao desconhecidas e diferentes (n˜ ao-pareado)

I Para o Teste (1): RC ={D¯_npar >d_c}, com dc =t_α^∗∗

q_˜

S_X² n1 +^S^˜_n^Y²

2

I Para o Teste (2): RC ={D¯npar <dc}, com dc =−t_α^∗∗

q_˜

S_X² n1 +^S^˜

2 Y

n2

I Para o Teste (3): RC ={D¯npar <d1c ou ¯Dnpar >d2c}, com d1c =−t^∗∗α

2

q_˜

S_X² n1 + ^˜^S

2 Y

n2 ed2c =t^∗∗^α

2

q_˜

S_X² n1 +^S^˜

2 Y

n2. em que em quet_α^∗∗ et^∗∗α

2 s˜ao os quantis 1−αe 1−^α₂, respectivamente de uma t-Student com

n^∗∗= S˜_X²

n₁ + S˜_Y²

n₂

!2





 S˜_X²

n1

² n₁−1 +

S˜_Y² n2

² n₂−1







graus de liberdade.

(19)

Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso n˜ ao-pareado com variˆ ancias desconhecidas e

diferentes – Distribui¸c˜ ao normal

IC(µx−µ_y, γ) =

D¯npar−t_n^∗∗_,^α

2

s s_X² n₁ +s_Y²

n₂; ¯Dnpar+t_n^∗∗_,^α

2

s s_X² n₁ +s_Y²

n₂

Lembrando que

P(−t^∗∗α

2 <T^∗∗<t^∗∗^α

2 ) =γ = 1−α

sendoT^∗∗ uma vari´avel com distribui¸c˜ao t-Student com n^∗∗ graus de liberdade, sendo

n^∗∗= _s2

X

n1 +^s_n^Y²

2

s2 X n1

2

n1−1 +

s2 Y n2

2

n2−1

(20)

Queremos verificar se as resistências de dois tipos de vigas de a¸co, A e B, são diferentes. Aplicam-se cargas (emkN/cm²) até que a viga se rompa. Considere que foram testadasn₁ = 15 vigas do tipo A en₂ = 20 vigas do tipo B, obtemos os valores:

Técnica A Técnica B Média amostral 71,5 85,3 Variância amostral 82,6 220,8

Assuma distribui¸c˜ao normal para as vari´aveis de interesse. Conduza os testes apropriados e fa¸ca intervalos de confian¸ca para a

diferen¸ca de m´edias populacionais.

(21)

Compara¸c˜ oes de m´ edias populacionais para distribui¸c˜ oes n˜ ao-normais

SejamX e Y vari´aveis aleat´orias independentes com E(X) =µ_x, VAR(X) =σ²_x,E(Y) =µy eVAR(Y) =σ_y².

Sejam (X₁, . . . ,X_n₁) e (Y₁, . . . ,Y_n₂) amostras deX eY, respectivamente.

Sabemos pelo teorema do limite central que X¯ −µ_x

qσ_x² n1

≈N(0,1) e Y¯ −µy

qσ²_y n2

≈N(0,1).

paran1 e n2 forem grandes.

(22)

Compara¸c˜ oes de m´ edias populacionais para distribui¸c˜ oes n˜ ao-normais

Combinando os dois resultados temos X¯ −Y¯ qσ²_x

n1 +^σ_n²^y

2

≈N(0,1)

Substituindo as variˆancias desconhecidas por estimadores consistentes, temos

X¯ −Y¯ qˆσ²_x

n1 +^σ^ˆ_n²^y

2

≈N(0,1)

(23)

Regi˜ oes cr´ıticas aproximadas

I Para o Teste (1): RC ={D¯npar >dc}, comdc =zα

qˆσ²_x n1 + ^ˆ^σ_n²^y

2

I Para o Teste (2): RC ={D¯_npar <d_c}, com d_c =−z_α

2

I Para o Teste (3): RC ={D¯_npar <d_1c ou ¯D_npar >d_2c}, com d1c =−z^α

2

2 e d2c =z^α

2

qˆσ²_x n1 +^σ^ˆ_n²^y

2.

(24)

Exemplo: Compara¸c˜ oes de propor¸c˜ oes

SejamX e Y vari´aveis Bernoulli independentes com P(X = 1) =px e P(Y = 1) =py.

Note queµ_x =p_x,σ_x² =p_x(1−p_x),µ_y =p_y e σ_y² =p_y(1−p_y).

Note portanto que testar as médias é equivalente a testar as propor¸cões.

Utilizamos o teste para vari´aveis n˜ao-normais usando:

ˆ

σ_x²= ¯x(1−x)¯ e σˆ_y² = ¯y(1−¯y)

(25)

O n´ıvel descritivo do teste (valor-p)

O n´ıvel descritivo do teste (valor-p) é definido como o menor n´ıvel de significância em que a hipótese nula é rejeitada. É calculado substitiundodc pela média ¯D observada.

I Para o Teste (1): α^∗ =P( ¯D >d¯ quandoµD = 0)

I Para o Teste (2): α^∗ =P( ¯D <d¯ quandoµD = 0)

I Para o Teste (3):

α^∗= 2P( ¯D <d¯ quando µD = 0) se ¯d <0 ou α^∗= 2P( ¯D >d¯ quando µ= 0) se ¯d >0.

A distribui¸cão utilizada depende da situa¸cão: caso pareado ou não-pareado (variâncias conhecidas ou desconhecidas).

(26)

Testes para duas variˆ ancias populacionais

Observe que para fazer as compara¸c˜oes de duas m´edias

populacionais (no caso não pareado de variâncias desconhecidas) precisamos saber se as variâncias são iguais ou diferentes.

Veremos a seguir como fazer testes de hipóteses para duas variâncias populacionais de variáveis com distribui¸cão normal.

Ou seja, seX ∼N(µx, σ_x²) e Y ∼N(µy, σ²_y) com (X₁,X₂, . . . ,X_n₁),(Y₁,Y₂, . . . ,Y_n₂)

as respectivas amostras. Queremos testar as seguintes hip´oteses H0: σ_x²=σ²_y

H₁: σ_x²6=σ²_y

(27)

Testes para duas variˆ ancias populacionais

Sejam

(X1,X2, . . . ,Xn1) e (Y1,Y2, . . . ,Yn2) as duas amostras das vari´aveis de interesse (com distribui¸c˜ao normal). Sabemos que

U₁= (n1−1)˜S_X² σ²_x ∼χ²_(n

1−1)

e

U₂= (n2−1)˜S_Y² σ_y² ∼χ²_(n

2−1)

Vimos que

U1

n1−1 U2

n2−1

∼F_(n₁_−1,n₂₋₁₎

(28)

Testes para duas variˆ ancias populacionais

Portanto,

S˜_X² S˜_Y²

σ_Y²

σ_X² ∼F_(n₁_−1,n₂₋₁₎

Sob a hip´otese nulaσ²_X =σ_Y², temos que W = S˜_X²

S˜_Y² ∼F_(n₁_−1,n₂₋₁₎

(29)

Regi˜ ao cr´ıtica para o testes de duas variˆ ancias populacionais

A regi˜ao cr´ıtica para o teste ´e dada por

RC ={W <F₁ ou W >F₂}

sendo que os valoresF₁ eF₂ s˜ao obtidos da tabela da distribui¸c˜ao F de Snedecor comn₁−1 graus de liberdade no numerador e n2−1 graus de liberdade no denominador.

P(W <F₁) =P(W >F₂) =α 2 lembrando que, sob a hip´otese nula,W ∼F_(n₁_−1,n₂₋₁₎.

(30)

Distribui¸c˜ ao F

O valorF₂ ´e obtido diretamente usandoF_(n₁_−1,n₂₋₁₎ P(F_(n₁−1,n₂−1) >F2) = α

2

O valorF₁ = 1/F˜₂ em que ˜F₂ ´e obtido da tabelaF_(n₂_−1,n₁₋₁₎. P(F_(n₁_−1,n₂₋₁₎<F₁) =P(F_(n₂_−1,n₁₋₁₎ >F˜₂) = α

2

(31)

Exemplo

Duas t´ecnicas de venda s˜ao aplicadas por dois grupos de

vendedores: a técnica A, por 12 vendedores, e a técnica B, por 15 vendedores. Espera-se que a técnica B produza melhores

resultados. No final de um mˆes, obtiveram-se os resultados:

T´ecnica A T´ecnica B

Variância amostral 50 52 Verifique se as variâncias populacionais são iguais a 5% de significância estat´ıstica.