• Nenhum resultado encontrado

Introdu¸c˜ao `a probabilidade e estat´ıstica II

N/A
N/A
Protected

Academic year: 2022

Share "Introdu¸c˜ao `a probabilidade e estat´ıstica II"

Copied!
31
0
0

Texto

(1)

Introdu¸c˜ ao ` a probabilidade e estat´ıstica II

Testes de hip´oteses para duas m´edias populacionais

Prof. Alexandre G Patriota Sala: 298A

Email: patriota@ime.usp.br Site: www.ime.usp.br/∼patriota

(2)

Testes de hip´ oteses para duas M´ edias populacionais

SejamX e Y duas vari´aveis de interesse. Estaremos interessados em testar se a m´edia deX ´e igual a m´edia deY.

I testar se o efeito m´edio do rem´edio proposto ´e maior do que o efeito m´edio do placebo

I testar se um determinado m´etodo de ensino ´e mais eficaz que outro.

H´a dois casos:

I as vari´aveis X e Y s˜ao dependentes (dados pareados). A mesma unidade amostral ´e medida duas vezes.

I as vari´aveis X e Y s˜ao independentes (dados n˜ao pareados).

Todas as unidades amostrais s˜ao medidas apenas uma vez.

(3)

Exemplo de dados pareados (dependentes)

Uma nutricionista propˆos um novo complemento alimentar para aumentar o rendimento de jogadores de futebol.

A vari´avel de interesse: tempo de corrida na esteira a 15km/h at´e a fadiga.

A pesquisadora selecionou 20 atletas com caracter´ısticas similares (peso, altura, idade, etc).

Na primeira semana a pesquisadora mediu o tempo de corrida sem utilizar a dieta (X), na segunda semana a pesquisadora mediu o tempo de corrida utilizando a dieta (Y) dos mesmos atletas.

Interesse: verificar se em m´edia houve um aumento no tempo m´edio na segunda semana em rela¸c˜ao a primeira. Note que as vari´aveisX eY referem-se ao mesmo atleta.

(4)

Exemplo de dados n˜ ao pareados (independentes)

Uma nutricionista propˆos um novo complemento alimentar para aumentar o rendimento de jogadores de futebol.

A vari´avel de interesse: tempo de corrida na esteira a 15km/h at´e a fadiga.

A pesquisadora selecionou 40 atletas com caracter´ısticas similares (peso, altura, idade, etc).

Dentre os 40 atletas, 20 utilizaram o novo complemento (X) e 20 n˜ao utilizaram (Y).

Interesse: verificar se em m´edia os atletas que utilizaram o novo complemente tiverem o tempo de corrida aumentado. Note que as vari´aveisX eY referem-se a atletas diferentes.

(5)

Testes para duas m´ edias populacionais – Distribui¸c˜ ao normal

SejamX ∼N(µx, σ2x) e Y ∼N(µy, σy2) duas vari´aveis de interesse.

As hip´oteses de interesse (tanto para dados pareados como n˜ao-pareados) ser˜ao:

(1)

H0 : µx ≤µy H1 : µx > µy

, (2)

H0: µx ≥µy H1: µx < µy

e (3)

H0: µxy

H1: µx 6=µy

Podemos definirµDx−µy e teremos de maneira equivalente:

(1)

H0 : µD ≤0 H1 : µD >0 , (2)

H0: µD ≥0 H1: µD <0

e (3)

H0: µD = 0 H1: µD 6= 0

(6)

Caso pareado e n˜ ao-pareado

No caso pareado, as vari´aveis s˜ao dependentes e observamos (X1,Y1),(X2,Y2), . . . ,(Xn,Yn)

em que (Xi,Yi) ´e o par de vari´aveis doi-´esimo indiv´ıduo,Xi referente ao tratamento inicial eYi referente ao tratamento final.

No caso n˜ao-pareado, as vari´aveis s˜ao independentes e observamos dois conjuntos de dados

(X1,X2, . . . ,Xn1),(Y1,Y2, . . . ,Yn2).

o primeiro referente a um tipo de tratamento e o segundo referente a outro tipo de tratamento.

(7)

Caso pareado e n˜ ao-pareado

No caso pareado, utilizamos a m´edia das diferen¸cas Di =Xi−Yi para fazer o teste de hip´oteses, ou seja,

par = 1 n

n

X

i=1

di.

Temos que ¯Dpar ∼N

µx−µy,σn2D

, em queσ2D est´a embutida as variˆancias deX,Y e a covariˆancia. A estimativa paraσ2D ser´a a variˆancia amostral ˜SD2 (denominador (n-1))

No caso n˜ao-pareado, utilizamos a diferen¸ca das m´edias ¯X −Y¯ para fazer o teste de hip´oteses, ou seja,

npar = ¯X −Y¯. Temos que ¯Dnpar ∼N

µx−µy,σnx2

1 +σny2

2

.

(8)

Testes para duas m´ edias para o caso pareado – Distribui¸c˜ ao normal

Aqui sobH0 (na igualdade), ¯Dpar ∼N(0, σD2/n), assumimos que a variˆancia σD2 ´e desconhecida (pois cont´em informa¸c˜oes da

covariˆancia que n˜ao conhecemos).

A regi˜ao de rejei¸c˜ao para cada teste ´e dada por

I Para o Teste (1): RC ={D¯par >dc}, com dc =tα q˜

SD2 n

I Para o Teste (2): RC ={D¯par <dc}, com dc =−tα q˜

SD2 n I Para o Teste (3): RC ={D¯par <d1c ou ¯Dpar >d2c}, com

d1c =−tα

2

q˜

SD2

n e d2c =tα

2

q˜

SD2 n .

Como anteriormente,tα e tα/2 s˜ao os 1−α e 1−α/2 quantis, respectivamente, de uma t-Student com n-1 graus de liberdade.

(9)

Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso pareado – Distribui¸c˜ ao normal

IC(µx−µy, γ) =

par −tα/2 s

D2

n ; ¯Dpar+tα/2 s

D2 n

Lembrando que

P(−tα

2 <T <tα

2) =γ = 1−α

sendoT uma vari´avel com distribui¸c˜ao t-Student com n−1 graus de liberdade

(10)

Foram coletados os tempos antes a ap´os a aplica¸c˜ao do

complemento alimentar e os seguintes dados foram obtidos para 12 atletas. Sabe-se que estes tempos se distribuem conforme a distribui¸c˜ao normal. Deseja-se verificar se o complemento aumenta o desempenho dos atletas.

Ind Antes (horas) Depois (horas) di

1 2,4 3,2 - 0,8

2 2,8 3,4 -0,6

3 4,6 3,2 1,4

4 3,1 3,3 -0,2

5 3,1 3,3 -0,2

6 4,7 3,0 1,7

7 3,5 3,8 -0,3

8 1,7 3,5 -1,8

9 2,3 3,2 -0,9

10 2,6 3,9 -1,3

11 4,2 3,6 0,6

12 3,4 3,4 0,0

Observou-se ¯dpar = -0,35 e ˜SD2 = 1,07. Defina as hip´oteses e a regi˜ao de rejei¸c˜ao paraα= 0,05.

(11)

Testes para duas m´ edias para o caso n˜ ao-pareado – Distribui¸c˜ ao normal

QuandoX ∼N(µx, σ2x) e Y ∼N(µy, σy2) s˜ao vari´aveis independentes temos que

npar ∼N

µx−µyx2 n1

y2 n2

.

Sob a hip´otese nula (na igualdade), temos que µDx−µy = 0 Temos trˆes casos:

I As variˆanciasσ2x e σ2y s˜ao conhecidas.

I As variˆancias s˜ao desconhecidas e iguais.

I As variˆancias s˜ao desconhecidas e diferentes.

(12)

Regi˜ oes cr´ıticas quando as variˆ ancias s˜ ao conhecidas (n˜ ao-pareado)

I Para o Teste (1): RC ={D¯npar >dc}, comdc =zα qσ2x

n1 + σn2y

2

I Para o Teste (2): RC ={D¯npar <dc}, com dc =−zα

qσ2x n1 + σn2y

2

I Para o Teste (3): RC ={D¯npar <d1c ou ¯Dnpar >d2c}, com d1c =−zα

2

qσ2x n1 + σn2y

2 e d2c =zα

2

qσ2x n1 +σn2y

2.

(13)

Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso n˜ ao-pareado com variˆ ancias conhecidas – Distribui¸c˜ ao normal

IC(µx−µy, γ) =

npar −zα

2

s σx2 n1

2y n2

; ¯Dnpar+zα

2

s σ2x n1

y2 n2

Lembrando que

P(−zα

2 <Z <zα

2) =γ = 1−α sendoZ uma vari´avel com distribui¸c˜ao normal padr˜ao.

(14)

Uma f´abrica de embalagens para produtos qu´ımicos est´a estudando dois processos para combater a corros˜ao de suas latas especiais.

Para verificar o efeito dos tratamentos, foram usadas amostras cujos resultados est˜ao no quadro abaixo (em porcentagem de corros˜ao eliminada).

M´etodo A M´etodo B

M´edia amostral 48 53

Variˆancia populacional 10 15

Amostra 15 12

Assuma distribui¸c˜oes normais independentes para as vari´aveis de interesse. Verifique se os efeitos m´edios dos m´etodos s˜ao diferentes considerandoα= 0,05.

Fa¸ca um intervalo de confian¸ca considerandoγ = 0,95.

(15)

Regi˜ oes cr´ıticas quando as variˆ ancias s˜ ao desconhecidas e iguais (n˜ ao-pareado)

I Para o Teste (1): RC ={D¯npar >dc}, comdc =tα qsp2

n1 +snp2

2

I Para o Teste (2): RC ={D¯npar <dc}, com dc =−tα

qsp2 n1 +nsp2

2

I Para o Teste (3): RC ={D¯npar <d1c ou ¯Dnpar >d2c}, com d1c =−tα

2

qsp2 n1 + s

p2

n2 ed2c =tα

2

qsp2 n1 + s

p2

n2. em quetα e tα

2 s˜ao os quantis 1−α e 1−α2, respectivamente de uma t-Student comn =n1+n2−2 graus de liberdade e

sp2= (n1−1)˜SX2 + (n2−1)˜SY2

n .

(16)

Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso n˜ ao-pareado com variˆ ancias desconhecidas e iguais – Distribui¸c˜ ao normal

IC(µx −µy, γ) =

npar −tα

2

s sp2 n1 + sp2

n2; ¯Dnpar +tα

2

s sp2 n1 +sp2

n2

Lembrando que

P(−tα

2 <T<tα

2) =γ = 1−α

sendoT uma vari´avel com distribui¸c˜ao t-Student comn graus de liberdade (n=n1+n2−2).

(17)

Duas t´ecnicas de venda s˜ao aplicadas por dois grupos de

vendedores: a t´ecnica A, por 12 vendedores, e a t´ecnica B, por 15 vendedores. Espera-se que a t´ecnica B produza melhores

resultados. No final de um mˆes, obtiveram-se os resultados (em porcentagem de vendas):

T´ecnica A T´ecnica B

M´edia amostral 68 76

Variˆancia amostral 50 52

Assuma distribui¸c˜ao normal para as vari´aveis de interesse. Sabe-se, por estudos anteriores, que a variˆancia populacional das duas t´ecnicas s˜ao iguais. Conduza os testes apropriados e fa¸ca intervalos de confian¸ca para a diferen¸ca de m´edias populacionais.

(18)

Regi˜ oes cr´ıticas quando as variˆ ancias s˜ ao desconhecidas e diferentes (n˜ ao-pareado)

I Para o Teste (1): RC ={D¯npar >dc}, com dc =tα∗∗

q˜

SX2 n1 +S˜nY2

2

I Para o Teste (2): RC ={D¯npar <dc}, com dc =−tα∗∗

q˜

SX2 n1 +S˜

2 Y

n2

I Para o Teste (3): RC ={D¯npar <d1c ou ¯Dnpar >d2c}, com d1c =−t∗∗α

2

q˜

SX2 n1 + ˜S

2 Y

n2 ed2c =t∗∗α

2

q˜

SX2 n1 +S˜

2 Y

n2. em que em quetα∗∗ et∗∗α

2 ao os quantis 1αe 1α2, respectivamente de uma t-Student com

n∗∗= S˜X2

n1 + S˜Y2

n2

!2

S˜X2

n1

2 n11 +

S˜Y2 n2

2 n21

graus de liberdade.

(19)

Intervalo de confian¸ca para a diferen¸ca das m´ edias para o caso n˜ ao-pareado com variˆ ancias desconhecidas e

diferentes – Distribui¸c˜ ao normal

IC(µx−µy, γ) =

npar−tn∗∗,α

2

s sX2 n1 +sY2

n2; ¯Dnpar+tn∗∗,α

2

s sX2 n1 +sY2

n2

Lembrando que

P(−t∗∗α

2 <T∗∗<t∗∗α

2 ) =γ = 1−α

sendoT∗∗ uma vari´avel com distribui¸c˜ao t-Student com n∗∗ graus de liberdade, sendo

n∗∗= s2

X

n1 +snY2

2

2

s2 X n1

2

n1−1 +

s2 Y n2

2

n2−1

(20)

Queremos verificar se as resistˆencias de dois tipos de vigas de a¸co, A e B, s˜ao diferentes. Aplicam-se cargas (emkN/cm2) at´e que a viga se rompa. Considere que foram testadasn1 = 15 vigas do tipo A en2 = 20 vigas do tipo B, obtemos os valores:

T´ecnica A T´ecnica B M´edia amostral 71,5 85,3 Variˆancia amostral 82,6 220,8

Assuma distribui¸c˜ao normal para as vari´aveis de interesse. Conduza os testes apropriados e fa¸ca intervalos de confian¸ca para a

diferen¸ca de m´edias populacionais.

(21)

Compara¸c˜ oes de m´ edias populacionais para distribui¸c˜ oes n˜ ao-normais

SejamX e Y vari´aveis aleat´orias independentes com E(X) =µx, VAR(X) =σ2x,E(Y) =µy eVAR(Y) =σy2.

Sejam (X1, . . . ,Xn1) e (Y1, . . . ,Yn2) amostras deX eY, respectivamente.

Sabemos pelo teorema do limite central que X¯ −µx

qσx2 n1

≈N(0,1) e Y¯ −µy

qσ2y n2

≈N(0,1).

paran1 e n2 forem grandes.

(22)

Compara¸c˜ oes de m´ edias populacionais para distribui¸c˜ oes n˜ ao-normais

Combinando os dois resultados temos X¯ −Y¯ qσ2x

n1 +σn2y

2

≈N(0,1)

Substituindo as variˆancias desconhecidas por estimadores consistentes, temos

X¯ −Y¯ qˆσ2x

n1 +σˆn2y

2

≈N(0,1)

(23)

Regi˜ oes cr´ıticas aproximadas

I Para o Teste (1): RC ={D¯npar >dc}, comdc =zα

qˆσ2x n1 + ˆσn2y

2

I Para o Teste (2): RC ={D¯npar <dc}, com dc =−zα

qˆσ2x n1 + ˆσn2y

2

I Para o Teste (3): RC ={D¯npar <d1c ou ¯Dnpar >d2c}, com d1c =−zα

2

qˆσ2x n1 + ˆσn2y

2 e d2c =zα

2

qˆσ2x n1 +σˆn2y

2.

(24)

Exemplo: Compara¸c˜ oes de propor¸c˜ oes

SejamX e Y vari´aveis Bernoulli independentes com P(X = 1) =px e P(Y = 1) =py.

Note queµx =pxx2 =px(1−px),µy =py e σy2 =py(1−py).

Note portanto que testar as m´edias ´e equivalente a testar as propor¸c˜oes.

Utilizamos o teste para vari´aveis n˜ao-normais usando:

ˆ

σx2= ¯x(1−x)¯ e σˆy2 = ¯y(1−¯y)

(25)

O n´ıvel descritivo do teste (valor-p)

O n´ıvel descritivo do teste (valor-p) ´e definido como o menor n´ıvel de significˆancia em que a hip´otese nula ´e rejeitada. ´E calculado substitiundodc pela m´edia ¯D observada.

I Para o Teste (1): α =P( ¯D >d¯ quandoµD = 0)

I Para o Teste (2): α =P( ¯D <d¯ quandoµD = 0)

I Para o Teste (3):

α= 2P( ¯D <d¯ quando µD = 0) se ¯d <0 ou α= 2P( ¯D >d¯ quando µ= 0) se ¯d >0.

A distribui¸c˜ao utilizada depende da situa¸c˜ao: caso pareado ou n˜ao-pareado (variˆancias conhecidas ou desconhecidas).

(26)

Testes para duas variˆ ancias populacionais

Observe que para fazer as compara¸c˜oes de duas m´edias

populacionais (no caso n˜ao pareado de variˆancias desconhecidas) precisamos saber se as variˆancias s˜ao iguais ou diferentes.

Veremos a seguir como fazer testes de hip´oteses para duas variˆancias populacionais de vari´aveis com distribui¸c˜ao normal.

Ou seja, seX ∼N(µx, σx2) e Y ∼N(µy, σ2y) com (X1,X2, . . . ,Xn1),(Y1,Y2, . . . ,Yn2)

as respectivas amostras. Queremos testar as seguintes hip´oteses H0: σx22y

H1: σx26=σ2y

(27)

Testes para duas variˆ ancias populacionais

Sejam

(X1,X2, . . . ,Xn1) e (Y1,Y2, . . . ,Yn2) as duas amostras das vari´aveis de interesse (com distribui¸c˜ao normal). Sabemos que

U1= (n1−1)˜SX2 σ2x ∼χ2(n

1−1)

e

U2= (n2−1)˜SY2 σy2 ∼χ2(n

2−1)

Vimos que

U1

n1−1 U2

n2−1

∼F(n1−1,n2−1)

(28)

Testes para duas variˆ ancias populacionais

Portanto,

X2Y2

σY2

σX2 ∼F(n1−1,n2−1)

Sob a hip´otese nulaσ2XY2, temos que W = S˜X2

Y2 ∼F(n1−1,n2−1)

(29)

Regi˜ ao cr´ıtica para o testes de duas variˆ ancias populacionais

A regi˜ao cr´ıtica para o teste ´e dada por

RC ={W <F1 ou W >F2}

sendo que os valoresF1 eF2 s˜ao obtidos da tabela da distribui¸c˜ao F de Snedecor comn1−1 graus de liberdade no numerador e n2−1 graus de liberdade no denominador.

P(W <F1) =P(W >F2) =α 2 lembrando que, sob a hip´otese nula,W ∼F(n1−1,n2−1).

(30)

Distribui¸c˜ ao F

O valorF2 ´e obtido diretamente usandoF(n1−1,n2−1) P(F(n1−1,n2−1) >F2) = α

2

O valorF1 = 1/F˜2 em que ˜F2 ´e obtido da tabelaF(n2−1,n1−1). P(F(n1−1,n2−1)<F1) =P(F(n2−1,n1−1) >F˜2) = α

2

(31)

Exemplo

Duas t´ecnicas de venda s˜ao aplicadas por dois grupos de

vendedores: a t´ecnica A, por 12 vendedores, e a t´ecnica B, por 15 vendedores. Espera-se que a t´ecnica B produza melhores

resultados. No final de um mˆes, obtiveram-se os resultados:

T´ecnica A T´ecnica B

M´edia amostral 68 76

Variˆancia amostral 50 52 Verifique se as variˆancias populacionais s˜ao iguais a 5% de significˆancia estat´ıstica.

Referências

Documentos relacionados

para cada amostra, calculamos o valor observado, t , da estat´ıstica T ; os novos valores t formam uma nova popula¸ c˜ ao, cuja distribui¸ c˜ ao recebe o nome de distribui¸ c˜

Se µ 1 e µ 2 denotam as resistˆ encias m´ edias para os dois tipos de teores da estrutura, encontre um intervalo de confian¸ca de 90% para a diferen¸ca real destas resistˆ

Trata-se de uma concretiza¸ c˜ ao do IAC quando se obt´ em a amostra (x 1 ,.. , x n ), o intervalo passa a ser num´ erico e a interpreta¸ c˜ ao conveniente ´ e: se obtivermos v´

Os dois cap´ıtulos anteriores apresentaram intervalos de confian¸ ca e testes de hip´ oteses para o parˆ ametro de uma ´ unica popula¸ c˜ ao (a m´ edia µ, a variˆ ancia σ 2 ou

De experiˆ encias anteriores, considera-se que a resistˆ encia ao desmoronamento de tais tijolos ´ e normalmente distribu´ıda com valor m´ edio superior ou igual a 200 kg e

Considere agora a seguinte tabela de frequˆ encia para intervalos de

Caso n˜ ao tenhamos informa¸ c˜ oes suficientes, podemos utilizar informa¸ c˜ oes pessoais para criar uma probabilidade sobre a ocorrˆ encia do evento A..?. Probabilidade condicional

probabilidade m´ınima de pagar o empr´ estimo para que o Lucro seja positivo (usando um juros de 2%)?.. Vari´ avel