Centro Federal de Educa¸c˜ ao Tecnol´ ogica Celso Suckow da Fonseca – CEFET/RJ Disciplina: M´ etodos Estat´ısticos
Prof. Anna Regina Corbo
CAP´ ITULO 4: Compara¸ c˜ ao de V´ arias M´ edias
1 M´ etodo da An´ alise da Variˆ ancia
A an´ alise da variˆ ancia ´ e um m´ etodo suficientemente poderoso para identificar diferen¸cas entre as m´ edias populacionais devidas a v´ arias causas atuando simultaneamente sobre os elementos da popula¸c˜ ao.
Vamos considerar que temos k amostras de mesmo tamanho n retiradas de k popula¸c˜ oes, com mesma variˆ ancia σ
2, cujas m´ edias µ
i(onde i = 1, 2, · · · , k) queremos comparar. Ou seja, vamos testar a hip´ otese:
H
0: µ
1= µ
2= · · · = µ
kH
1: Pelo menos uma das m´ edias populacionais ´ e diferente.
O chamado Modelo Fixo da An´ alise da Variˆ ancia consiste em supor que as k popula¸c˜ oes que v˜ ao ser comparadas quanto a suas m´ edias resultem da aplica¸c˜ ao de k diferentes trata- mentos sobre os elementos em estudo. Queremos, portanto, saber se aceitamos ou rejeitamos a hip´ otese de que todos os tratamentos produzem, em m´ edia, o mesmo efeito.
Como exemplo geral de funcionamento do m´ etodo, considere trˆ es amostras com cinco elementos cada uma.
Amostra 1 64 66 59 65 62 Amostra 2 71 73 66 70 68 Amostra 3 52 57 53 56 53
Figura 1: Esquematiza¸c˜ ao pontual dos dados de cada amostra
1
Para testar a igualdade das m´ edias , realizaremos o teste:
H
0: µ
1= µ
2= µ
3H
1: Nem todas as m´ edias s˜ ao iguais.
As variˆ ancias parecem ser parecidas, por´ em as m´ edias s˜ ao muito diferentes. Logo, clara- mente, a hip´ otese nula ser´ a rejeitada.
Formalmente, seja x
ij(onde i = 1, 2, · · · , k e j = 1, 2, · · · , n) o j-´ esimo valor da i-´ esima amostra de n elementos e:
T
i= P
nj=1
x
ij= soma dos valores da i-´ esima amostra;
Q
i= P
nj=1
x
2ij= soma dos quadrados dos valores da i-´ esima amostra;
T = P
ki=1
T
i= P
k i=1P
nj=1
x
ij= soma total dos valores;
Q = P
ki=1
Q
i= P
k i=1P
nj=1
x
2ij= soma total dos quadrados;
¯ x
i= T
in = m´ edia da i-´ esima amostra;
¯ ¯ x = T
nk = m´ edia de todos os valores.
A an´ alise da variˆ ancia baseia-se em que, sendo verdadeira a hip´ otese H
0, existem trˆ es maneiras pelas quais a variˆ ancia σ
2comum a todas as popula¸c˜ oes, pode ser estimada.
1. Estimativa total s
2TEsta estimativa sup˜ oe que se H
0´ e verdadeira, ent˜ ao podemos considerar todas as amostras como provenientes de uma mesma popula¸c˜ ao. Esta estimativa ´ e dada por:
s
2T= P
ki=1
P
nj=1
(x
ij− x) ¯ ¯
2n · k − 1 = Q −
Tnk2nk − 1
Se notarmos o numerador da express˜ ao de soma quadr´ atica total, ou SQ
T, temos que:
s
2T= SQ
Tnk − 1 2. Estimativa entre amostras s
2ENeste caso, se H
0´ e verdadeira, ent˜ ao cada m´ edia amostral ¯ x
idas k amostras ´ e um elemento de uma amostra de tamanho k de uma ´ unica popula¸c˜ ao. Deste modo, a estimativa da variˆ ancia ´ e dada por:
s
2E= n · P
ki=1
( ¯ x
i− x) ¯ ¯
2k − 1 =
Pk i=1Ti2
n
−
Tnk2k − 1
Se chamarmos o numerador da estimativa entre amostras de soma quadr´ atica entre amostras, ou SQ
E, ent˜ ao teremos:
s
2E= SQ
Ek − 1
2
3. Estimativa residual s
2RSupondo H
0verdadeira, a variˆ ancia comum σ
2pode ser estimada por cada uma das variˆ ancias amostrais s
2i. Combinando estas k estimativas podemos obter uma estima- tiva unica para σ
2.
Cada amostra individual fornece a estimativa s
2i=
P
nj=1
(x
ij− x ¯
i)
2n − 1 = Q
i−
Tni2n − 1 Deste modo,
s
2R= P
ki=1
s
2ik =
P
k i=1 Qi−T2 i n
n−1
k = Q −
Pki=1nTi2k(n − 1)
Se chamarmos o numerador de soma quadr´ atica residual, ou SQ
R, temos que:
s
2R= SQ
Rk(n − 1) Note que SQ
T= SQ
E+ SQ
R.
Uma vez que utilizaremos estimativas para a variˆ ancia na condu¸c˜ ao do teste de com- para¸c˜ ao de v´ arias m´ edias, a hip´ otese ser´ a testada utilizando a estat´ıstica:
F
calc= s
2Es
2REste teste ´ e um teste F-Snedcor que ser´ a conduzido com k − 1 graus de liberdade no nume- rador e k(n − 1) no denominador. Ou seja, H
0ser´ a rejeitada se
F
calc> F
α;k−1;k(n−1)⇒ Rejeite H
0.
onde α ´ e o n´ıvel de significˆ ancia do teste, que deve ser sempre unilateral.
Ao realizar a An´ alise da Variˆ ancia ´ e recomend´ avel dispor os c´ alculos numa tabela. Esta tabela ´ e chamada de tabela ANOVA (do inglˆ es, ANalysis Of VAriance) e segue o modelo abaixo:
Fonte de Soma Graus de M´ edia F
calcF
αVaria¸c˜ ao Quadr´ atica Liberdade Quadr´ atica Entre amostras SQ
E=
Pk i=1Ti2
n
−
Tnk2k − 1 s
2E=
SQk−1EF =
ss2E2 Rf
α;k−1;k(n−1)Residual SQ
R= Q −
Pki=1nTi2k(n − 1) s
2R=
k(n−1)SQRTotal SQ
T= Q −
Tnk2nk − 1
3
Exemplo 1: Trˆ es chapas de uma liga met´ alica de mesma procedˆ encia foram submetidas a trˆ es diferentes tratamentos t´ ermicos A, B e C. Ap´ os o tratamento, foram tomadas 5 medidas de dureza superficial de cada chapa, obtendo-se os seguintes resultados:
Tratamento Dureza
A 68 74 77 70 71
B 67 65 69 66 67
C 73 77 76 69 80
Existe diferen¸ca significativa entre os tratamento t´ ermicos aplicados? Utilize α = 5%.
Para simplificar os c´ alculos subtraia um valor constante de todos os dados amostrais.
Um vez que trabalharemos com estimativas para a variˆ ancia, esta subtra¸c˜ ao n˜ ao ir´ a afetar o resultado. Tome esta constante que ser´ a subtra´ıda como 72, por exemplo. Deste modo, teremos a nova tabela de dados:
Tratamento Dureza T
iT
i2Q
iA -4 2 5 -2 -1 0 0 50
B -5 -7 -3 -6 -5 -26 676 144
C 1 5 4 -3 8 15 225 115
H
0: µ
A= µ
B= µ
CH
1: Nem todas as m´ edias s˜ ao iguais
C´ alculos auxiliares:
T = P
T
i= −11 T
2= (−11)
2= 121 P T
i2= 901
Q = P
Q
i= 309 SQ
E= P
ki=1 Ti2
n
−
Tnk2⇒ SQ
E=
9015−
1215·3= 180, 2 − 8, 067 = 172, 133 SQ
R= Q − P
ki=1 Ti2
n
⇒ SQ
R= 309 − 180, 2 = 128, 8 SQ
T= SQ
E+ SQ
R⇒ SQ
T= 172, 133 + 128, 8 = 300, 933 Tabela ANOVA - An´ alise da Variˆ ancia:
Fonte de Soma Graus de M´edia Fcalc Fα
Varia¸c˜ao Quadr´atica Liberdade Quadr´atica
Entre amostras SQE= 172,133 3−1 = 2 s2E= 172,1332 = 86,067 F =86,06710,733 = 8,02 f0,05;2;12= 3,89 Residual SQR= 128,8 3(5−1) = 12 s2R= 128,812 = 10,733
Total SQT = 300,933 3·5−1 = 14