Prof. a Dr. a Simone Daniela Sartorio de Medeiros. DTAiSeR-Ar

(1)

Teste de hipótese para a

média de populações normais

Prof.a _Dr.a _{Simone Daniela Sartorio de Medeiros}

(2)

Teste de hipóteses para média de populações normais

a) A afirmação diz respeito a uma média populacional.

Objetivo: avaliar afirmações sobre média(s) populacional(is). Existem, basicamente, 3 tipos de afirmações que se podem fazer

quando se estudam médias populacionais:

b) A afirmação diz que as médias de duas populações são todas iguais.

(3)

2) Teste para a comparação de

2

2 médias

(4)

Objetivo:

Comparar as médias amostrais de duas populações normais.

1º passo: Verificar se as variáveis estão ou não relacionadas.

2º passo: Considerar a variabilidade associada aos valores populacionais

e amostrais.

dependentes a) independentes Var conhecida 2 populações variâncias iguais b)

(5)

a) Amostras

dependentes

observações pareadas

(teste

(teste tt--pareado

pareado))

Teste para comparação de

Teste para comparação de duasduas médiasmédias populações

populações normaisnormais

(teste

(teste tt--pareado

pareado))

São comparadas duas médias populacionais sendo que, para cada unidade amostral, realizou-se duas medições da

característica de interesse.

Correspondem a medidas tomadas antes e após uma dada intervenção.

(6)

Duas amostras de elementos são ditas serem dependentes quando existe algo que as relacione.

Exemplo: Se os valores de duas amostras foram obtidos de um mesmo conjunto de elementos amostrais, podemos dizer que as duas amostras de valores são dependentes uma vez que foram tomados de um conjunto de elementos amostrais comum.

O objetivo neste caso é verificar se houve alteração na média de uma população quando a mesma é avaliada sob duas condições diferentes (antes e depois). Cada condição representa uma população distinta, embora se suponha que os elementos populacionais sejam os mesmos nas duas condições.

As medidas tomadas antes e após a intervenção realizada serão representadas pelas v.a.s X_i e Y_i, respectivamente. O efeito produzido pelo i-ésimo indivíduo, pode ser representado pela variável:

D_i= Y_i – X_i

(7)

Queremos testar as hipóteses:

H₀: m_D = 0

H_a: m_D  0

A hipótese alternativa também pode ser

unilateral!!!!

ou H₀: m_X = m_Y ou H₀: m_D = m_X – m_Y = 0

Definindo as hipóteses

Ou seja, sob H₀, segue uma distribuição t-Student com

n – 1 graus de liberdade. ) 1 ( 0

_~

ˆ





_n D D

_t

n

s

m

t

A estatística do teste de hipótese será

A estatística do teste de hipótese será::

(8)

Exemplo 2:

Como o desempenho dos automóveis foi medido antes e

depois das 15 semanas, é razoável assumir que exista alguma dependência entre as variáveis.

Essa é a típica situação que o teste

t-pareado deve ser utilizado.

Uma distribuidora de combustíveis deseja verificar se um novo tipo de gasolina é eficaz na revitalização de motores velhos.

Selecionou-se 12 automóveis de um mesmo modelo com mais de 8 anos de uso e, após regulagem dos motores, verifica-se o consumo de combustível. Em seguida, o carro é abastecido com o novo tipo de combustível durante 15 semanas e uma nova

aferição é feita (km/litro).

alguma dependência entre as variáveis. utilizado.

As medidas tomadas antes e após a intervenção realizada serão representadas pelas v.a.s X_i e Y_i, respectivamente. O efeito produzido pelo i-ésimo indivíduo, pode ser representado pela variável D, onde D_i= Y_i – X_i , i = 1, ..., 12. Assim, temos:

(9)

Valores observados para os 12 automóveis:

• A média e a variância amostrais de D são:

e

1667

94 ,

2 ˆ



m

e

s

2



2 ,

4 28106

1.º Passo:

Definir as hipóteses nula e alternativa:

H

₀

: m

_D

= 0 (O novo combustível não aumenta o rendimento)

H

_a

: m

_D

> 0 (O novo combustível aumenta o rendimento)

1667

94 ,

2 ˆ

_D



m

s

_D2



2 ,

4 28106

2.º Passo:

2.º Passo: Fixar  e determinar a região crítica. =5%

(10)

(11)

2.º Passo:

2.º Passo: Fixar  e determinar a região crítica. =5% t_tab =1,796

5396

,

6

12 28106

4 ,

2

0 941667

,

2 





calc

t

3.º Passo:

3.º Passo: Obter o t_calc

t_tab

0

12

4.º Passo:

4.º Passo: Conclusão

Como t_calc > t_tab  rejeitamos H₀ ao nível de 5% de significância e concluímos que o novo combustível é eficaz na melhora do rendimento.

(12)

Tarefa 1

:

Obtenha o intervalo de confiança de 95% de confiança para a verdadeira diferença entre as médias de consumo do novo combustível.

DICA: procure a fórmula no livros de experimentação para a notação:

(13)

### 2 pop - pareado

X <- c(8.1, 7.9, 6.8, 7.8, 7.6, 7.9, 5.7, 8.4, 8.0, 9.5, 8.0, 6.8) # antes Y <- c(11.6, 8.8, 9.9, 9.5, 11.6, 9.1, 10.6, 10.8, 13.4, 10.6, 10.5, 11.4) # apos D <- Y-X # Diferença

t.test(D, paired = F, conf.level = 0.95, alternative='greater')

2 populações dependentespopulações dependentes

Exemplo 2:

Desempenho dos automóveis medido antes (X) e após (Y) a aplicação do novo tipo de combustível. α = 5%.

t.test(D, paired = F, conf.level = 0.95, alternative='greater')

# One Sample t-test #

# data: D

# t = 6.5396, df = 11, p-value = 2.097e-05

# alternative hypothesis: true mean is greater than 0 # 95 percent confidence interval:

# 2.133833 Inf # sample estimates: # mean of x

(14)

b) Amostras

independentes

b.1) Variâncias

(15)

Formalizando o problema:

Sejam duas variáveis aleatórias independentes (X

₁

, ..., X

_n1

) e (Y

₁

, ...,

Y

_n2

), ambas com distribuição normal, tendo a mesma variância.

Obtemos uma amostra de cada variável de tamanho n

₁

e n

₂

,

respectivamente, ou seja:

2 2 2 1 2 1

,...,

2 ,

1 ),

,

(

~

,...,

2 ,

1 ),

,

(

~

n

j

m

N

Y

n

i

m

N

X

j i





OBS: Para ambas as populações

temos a mesma variância

(desconhecida!!!)

Como 

2

_{é desconhecida, precisará ser estimada.}

Como e são estimadores não viciados dessa variância, usaremos

como estimativa para 

2

uma combinação deles dada por:

2 X

s

_Y2











1  

1 

1

2 1 2 2 2 1 2













n

s

n

s

n

s

_C X Y

é uma média ponderada entre e e é um estimador não viciado!!!

2 C

s

2 Y

s

2 X

s

(16)

)

(

)

ˆ

(

m



m



m



m

Definindo as hipóteses

H

₀

: m

₁

= m

₂

H

_a

: m

₁

 m

₂

H

₀

: m

₁

– m

₂

= 0

H

_a

: m

₁

– m

₂

 0

OU

Queremos testar se existe diferença entre as médias populacionais (ou entre as duas populações), ou seja:

A estatística do teste de hipótese será

A estatística do teste de hipótese será::

Se n  30

) 2 ( 2 1 2 02 01 2 1 2 1

~

1

1 )

(

)

ˆ

(

 



















_n _n c

t

n

s

m

t

(17)

Exemplo 3:

Digitadores são treinados em uma empresa em duas turmas distintas. Na

primeira (Turma J) utiliza-se um

método japonês

, na segunda (Turma

A) utiliza-se um

método alemão

. Deseja-se comparar os dois métodos

ao nível  = 1%.

Foram escolhidas duas amostras aleatoriamente (uma de cada turma) e

mediu-se o tempo gasto na realização de uma tarefa para cada aluno.

Apesar de não conhecidas,

as variâncias

populacionais para as duas

Apesar de não conhecidas,

as variâncias

populacionais para as duas

turmas são consideradas

iguais

com base em estudos anteriores.

Os dados obtidos foram:

(18)

H₀: m_J = m_A H_a: m_J  m_A

H₀: m_J– m_A = 0 H_á: m_J– m_A  0

OU

Como queremos testar se existe diferença entre o tempo médio de digitação dos dois métodos (ou entre as duas turmas), ou seja:

Definindo as hipóteses

• As amostras forneceram os seguintes valores:

Turma J: n

_J

= 14,

e

Turma A: n

_A

= 13,

_ˆ ₁₅_,₃₈₄₆₂

e

57143 , 11 ˆ   A J m m 2564 , 4 2637 , 4 2 2   A J s s

(19)

) 2 ( 2 0 0

~

1

1 )

(

)

ˆ

(

 



















A J n n A J c A J A J

t

n

s

m

t

Logo para  = 0,01, temos da tabela t-Student com 25 graus de liberdade, obtemos: Como temos 2 amostras independentes, o total das amostras será

(20)

(21)

) 2 ( 2 0 0

~

1

1 )

(

)

ˆ

(

 



















A J n n A J c A J A J

t

n

s

m

t

Logo para  = 0,01, temos da tabela t-Student com 25 graus de liberdade, obtemos: Como temos 2 amostras independentes, o total das amostras será

n = n_J + n_A  14 + 13 = 27 < 30. Logo, a estatística para o teste será:

t_tab= 2,787, ou seja: –2,787 2,787

4,7965

13

1

14

1 260185

,

4 )

0 (

)

38 ,

15

57 ,

11 (























calc

t

Então : RC={t | t < –2,787 ou t > 2,787 }

Como –4,7965 pertence a região crítica (RC), concluímos que os

métodos de fato diferem a um nível de significância de 1%.

(22)

Tarefa 2

:

Obtenha o intervalo de confiança de 99% de confiança para a verdadeira diferença entre as médias dos 2 métodos de digitação.

DICA: procure a fórmula no livros de experimentação para a notação:

(23)

### 2 pop – indep, com var =

tempo<- c(10, 13, 9, 10, 14, 13, 10, 15, 12, 10, 9, 10, 13, 14, 15, 12, 18, 16, 15, 17, 17, 15, 16, 17, 11, 17, 14)

turma<- factor(c(rep("J",14), rep("A",13))); turma tapply(tempo, turma, mean)

tapply(tempo, turma, var)

2 populações independentes 2 populações independentes ccom variâncias iguaisom variâncias iguais

Exemplo 3:

Deseja-se comparar os dois métodos de digitação ao nível  = 1%: método japonês com o método alemão.

t.test(tempo ~ turma, paired = F, var.equal = T,

alternative="two.sided", conf.level =0.99) Two Sample t-test

#

# data: tempo by turma

# t = 4.7965, df = 25, p-value = 6.313e-05

# alternative hypothesis: true difference in means is not equal to 0 # 99 percent confidence interval:

# 1.597201 6.029173 # sample estimates:

# mean in group A mean in group J # 15.38462 11.57143

(24)

b) Amostras

independentes

b.2) Variâncias

(25)

O teste para o caso com as variâncias desconhecidas e desiguais é semelhante ao anterior, mas a quantidade a ser usada para aceitar ou rejeitar H₀.

E os graus de liberdade  são corrigidos pela expressão:

) ( 2 2 1 2 02 01 2 1

ˆ

)

(

)

_~

ˆ

(



t

n

s

n

s

m

t

Y X

_





Se n  30

Se n > 30

A seqüência do teste é igual aos casos anteriores.

)

1 ,

0 (

~

)

(

)

ˆ

(

2 2 1 2 02 01 2 1

N

n

s

n

s

m

z

Y X

_





(26)

### 2 pop – indep, com var diferentes Y <- c( )

pop <- factor(c(rep(“pop1",n1), rep(“pop2",n2)))

2 populações independentes 2 populações independentes ccom variâncias diferentesom variâncias diferentes

Exemplo

Exemplo 4

4:: Sendo Y a variável resposta observada 2 populações (pop),

usando α = 5%

t.test(Y ~ pop, paired = F,

var.equal = FALSE, conf.level =0.95)

(27)

Teste de hipóteses para média de populações normais

a) A afirmação diz respeito a uma média populacional.

Objetivo: avaliar afirmações sobre média(s) populacional(is). Existem, basicamente, 3 tipos de afirmações que se podem fazer