1 Método da Análise da Variância

(1)

Centro Federal de Educa¸c˜ ao Tecnol´ ogica Celso Suckow da Fonseca – CEFET/RJ Disciplina: M´ etodos Estat´ısticos

Prof. Anna Regina Corbo

CAP´ ITULO 4: Compara¸ c˜ ao de V´ arias M´ edias

1 M´ etodo da An´ alise da Variˆ ancia

A an´ alise da variˆ ancia ´ e um m´ etodo suficientemente poderoso para identificar diferen¸cas entre as m´ edias populacionais devidas a v´ arias causas atuando simultaneamente sobre os elementos da popula¸c˜ ao.

Vamos considerar que temos k amostras de mesmo tamanho n retiradas de k popula¸c˜ oes, com mesma variˆ ancia σ

²

, cujas m´ edias µ

_i

(onde i = 1, 2, · · · , k) queremos comparar. Ou seja, vamos testar a hip´ otese:

H

0

: µ

1

= µ

2

= · · · = µ

k

H

₁

: Pelo menos uma das m´ edias populacionais ´ e diferente.

O chamado Modelo Fixo da An´ alise da Variˆ ancia consiste em supor que as k popula¸c˜ oes que v˜ ao ser comparadas quanto a suas m´ edias resultem da aplica¸c˜ ao de k diferentes trata- mentos sobre os elementos em estudo. Queremos, portanto, saber se aceitamos ou rejeitamos a hip´ otese de que todos os tratamentos produzem, em m´ edia, o mesmo efeito.

Como exemplo geral de funcionamento do m´ etodo, considere trˆ es amostras com cinco elementos cada uma.

Amostra 1 64 66 59 65 62 Amostra 2 71 73 66 70 68 Amostra 3 52 57 53 56 53

Figura 1: Esquematiza¸c˜ ao pontual dos dados de cada amostra

1

(2)

Para testar a igualdade das m´ edias , realizaremos o teste:

H

₀

: µ

₁

= µ

₂

= µ

₃

H

₁

: Nem todas as m´ edias s˜ ao iguais.

As variˆ ancias parecem ser parecidas, por´ em as m´ edias s˜ ao muito diferentes. Logo, clara- mente, a hip´ otese nula ser´ a rejeitada.

Formalmente, seja x

_ij

(onde i = 1, 2, · · · , k e j = 1, 2, · · · , n) o j-´ esimo valor da i-´ esima amostra de n elementos e:

T

_i

= P

n

j=1

x

_ij

= soma dos valores da i-´ esima amostra;

Q

_i

= P

n

j=1

x

²_ij

= soma dos quadrados dos valores da i-´ esima amostra;

T = P

k

i=1

T

_i

= P

k i=1

P

n

j=1

x

_ij

= soma total dos valores;

Q = P

k

i=1

Q

_i

= P

k i=1

P

n

j=1

x

²_ij

= soma total dos quadrados;

¯ x

_i

= T

_i

n = m´ edia da i-´ esima amostra;

¯ ¯ x = T

nk = m´ edia de todos os valores.

A an´ alise da variˆ ancia baseia-se em que, sendo verdadeira a hip´ otese H

₀

, existem trˆ es maneiras pelas quais a variˆ ancia σ

²

comum a todas as popula¸c˜ oes, pode ser estimada.

1. Estimativa total s

²_T

Esta estimativa sup˜ oe que se H

₀

´ e verdadeira, ent˜ ao podemos considerar todas as amostras como provenientes de uma mesma popula¸c˜ ao. Esta estimativa ´ e dada por:

s

²_T

= P

k

i=1

P

n

j=1

(x

_ij

− x) ¯ ¯

²

n · k − 1 = Q −

^T_nk²

nk − 1

Se notarmos o numerador da express˜ ao de soma quadr´ atica total, ou SQ

_T

, temos que:

s

²_T

= SQ

_T

nk − 1 2. Estimativa entre amostras s

²_E

Neste caso, se H

₀

´ e verdadeira, ent˜ ao cada m´ edia amostral ¯ x

_i

das k amostras ´ e um elemento de uma amostra de tamanho k de uma ´ unica popula¸c˜ ao. Deste modo, a estimativa da variˆ ancia ´ e dada por:

s

²_E

= n · P

k

i=1

( ¯ x

_i

− x) ¯ ¯

²

k − 1 =

Pk i=1T_i²

n

−

^T_nk²

k − 1

Se chamarmos o numerador da estimativa entre amostras de soma quadr´ atica entre amostras, ou SQ

_E

, ent˜ ao teremos:

s

²_E

= SQ

_E

k − 1

2

(3)

3. Estimativa residual s

²_R

Supondo H

₀

verdadeira, a variˆ ancia comum σ

²

pode ser estimada por cada uma das variˆ ancias amostrais s

²_i

. Combinando estas k estimativas podemos obter uma estima- tiva unica para σ

²

.

Cada amostra individual fornece a estimativa s

²_i

=

P

n

j=1

(x

ij

− x ¯

i

)

²

n − 1 = Q

_i

−

^T_nⁱ²

n − 1 Deste modo,

s

²_R

= P

k

i=1

s

²_i

k =

P

k i=1

Qi−^T

2 i n

n−1

k = Q −

^P^kⁱ⁼¹_n^Tⁱ²

k(n − 1)

Se chamarmos o numerador de soma quadr´ atica residual, ou SQ

_R

, temos que:

s

²_R

= SQ

_R

k(n − 1) Note que SQ

T

= SQ

E

+ SQ

R

.

Uma vez que utilizaremos estimativas para a variˆ ancia na condu¸c˜ ao do teste de com- para¸c˜ ao de v´ arias m´ edias, a hip´ otese ser´ a testada utilizando a estat´ıstica:

F

_calc

= s

²_E

s

²_R

Este teste ´ e um teste F-Snedcor que ser´ a conduzido com k − 1 graus de liberdade no nume- rador e k(n − 1) no denominador. Ou seja, H

₀

ser´ a rejeitada se

F

_calc

> F

α;k−1;k(n−1)

⇒ Rejeite H

₀

.

onde α ´ e o n´ıvel de significˆ ancia do teste, que deve ser sempre unilateral.

Ao realizar a An´ alise da Variˆ ancia ´ e recomend´ avel dispor os c´ alculos numa tabela. Esta tabela ´ e chamada de tabela ANOVA (do inglˆ es, ANalysis Of VAriance) e segue o modelo abaixo:

Fonte de Soma Graus de M´ edia F

_calc

F

_α

Varia¸c˜ ao Quadr´ atica Liberdade Quadr´ atica Entre amostras SQ

_E

=

Pk i=1T_i²

n

−

^T_nk²

k − 1 s

²_E

=

^SQ_k−1^E

F =

^s_s²^E2 R

f

α;k−1;k(n−1)

Residual SQ

_R

= Q −

^P^kⁱ⁼¹_n^Tⁱ²

k(n − 1) s

²_R

=

_k(n−1)^SQ^R

Total SQ

_T

= Q −

^T_nk²

nk − 1

3

(4)

Exemplo 1: Trˆ es chapas de uma liga met´ alica de mesma procedˆ encia foram submetidas a trˆ es diferentes tratamentos t´ ermicos A, B e C. Ap´ os o tratamento, foram tomadas 5 medidas de dureza superficial de cada chapa, obtendo-se os seguintes resultados:

Tratamento Dureza

A 68 74 77 70 71

B 67 65 69 66 67

C 73 77 76 69 80

Existe diferen¸ca significativa entre os tratamento t´ ermicos aplicados? Utilize α = 5%.

Para simplificar os c´ alculos subtraia um valor constante de todos os dados amostrais.

Um vez que trabalharemos com estimativas para a variˆ ancia, esta subtra¸c˜ ao n˜ ao ir´ a afetar o resultado. Tome esta constante que ser´ a subtra´ıda como 72, por exemplo. Deste modo, teremos a nova tabela de dados:

Tratamento Dureza T

i

T

_i²

Q

i

A -4 2 5 -2 -1 0 0 50

B -5 -7 -3 -6 -5 -26 676 144

C 1 5 4 -3 8 15 225 115

H

₀

: µ

_A

= µ

_B

= µ

_C

H

1

: Nem todas as m´ edias s˜ ao iguais

C´ alculos auxiliares:

T = P

T

_i

= −11 T

²

= (−11)

²

= 121 P T

_i²

= 901

Q = P

Q

_i

= 309 SQ

_E

= P

k

i=1 T_i²

n

−

^T_nk²

⇒ SQ

_E

=

⁹⁰¹₅

−

¹²¹_5·3

= 180, 2 − 8, 067 = 172, 133 SQ

_R

= Q − P

k

i=1 T_i²

n

⇒ SQ

_R

= 309 − 180, 2 = 128, 8 SQ

_T

= SQ

_E

+ SQ

_R

⇒ SQ

_T

= 172, 133 + 128, 8 = 300, 933 Tabela ANOVA - An´ alise da Variˆ ancia:

Fonte de Soma Graus de M´edia F_calc F_α

Varia¸cão Quadrática Liberdade Quadrática

Entre amostras SQE= 172,133 3−1 = 2 s²_E= ^172,133₂ = 86,067 F =^86,067_10,733 = 8,02 f0,05;2;12= 3,89 Residual SQR= 128,8 3(5−1) = 12 s²_R= ^128,8₁₂ = 10,733

Total SQ_T = 300,933 3·5−1 = 14

Como 8, 02 > 3, 89 ⇒ F

_calc

> F

_α

⇒ Rejeite H

₀