Capítulo 11 –
Análise de Variância (ANOVA)
11-1 Introdução
11-2 ANOVA com um fator 11-3 ANOVA com dois fatores
A análise de variância (ANOVA) é um método que permite o teste de
hipótese sobre se as médias de populações (usualmente três ou mais) são iguais. Na ANOVA o termo variância refere-se ao método usado e não à estatística que está sendo testada, que é a média.
Exemplo:
H
0: µ
1= µ
2= µ
3= . . . µ
kH
1: pelo menos uma média é diferente
Atenção! >>> Um teste com 95% de confiança para um grupo de três médias por exemplo (µ
1= µ
2= µ
3), não equivale a três testes com 95% confiança cada um deles para cada um dos pares encadeados (µ
1= µ
2e µ
1= µ
3e µ
2= µ
3). O nível de confiança conjunto para esse caso seria (0,95)
3= 0,857.
Seção 11-1
Introdução
Seção 11-2
ANOVA com um fator
Um fator (ou tratamento em casos experimentais) é uma característica ou propriedade (exemplo: sexo) que permite classificar os dados em
diferentes “populações” segundo os níveis desse fator (exemplo: fêmea e macho).
Suponha que temos interesse em uma variável Y (ex: comprimento), e que poderíamos classificar os dados de acordo com uma característica.
Poderíamos então usar uma ANOVA para testar se as médias de comprimento de fêmeas e machos são iguais.
Requisitos:
1. As populações têm distribuições aproximadamente normais ( ver os
painéis b e c da próxima figura para uma ilustração ).
2. As populações têm a mesma variância ( σ σ σ σ
2e). “Homocedasticidade”
3. Há independência entre as observações dentro de cada população.
4. Há independência entre as observações de uma e outra população.
O objetivo é estimar µ, µ
i, i=1,…,k
H0: µ1 = µ2 = µ3 = . . . µk (µ único) H1: µ1 ≠ ≠ ≠ ≠ µ2 para algum par (i,j) Desenvolvimento da abordagem … Exemplo para o caso de um fator com dois níveis (i={1,2}):
Um modelo conveniente para a situação, em que consideramos uma média para cada caso seria:
ij i
ij
e
y = µ +
Assim cada observação
y
corresponderia à média do grupo a que ela pertence mais uma medida de erro (e
) em torno da média. Esse erro, como pode ser visto na figura ao lado, deve seguir umadistribuição normal com variância igual para todas os grupos (σσσσ2e).
As estimativas para a média populacional de cada grupo é a média amostral para o grupo:
1
ˆ
i=1= y
µ µ ˆ
i=2= y
2A soma dos quadrados dos resíduos (
SQRes
) para ambos os grupos, também denominada de soma dos quadrados devido ao erro ou dentro dos grupos (SQDen
), que é uma medida da variação residual se usamos o modelo 1:∑ ∑
∑
∑ − + − = −
=
=
i j
i ij j
j j
j
y y y y y
y s
SQ
SQDen Re (
1 1)
2(
2 2)
2( )
2mas como: 2
= ∑ ( − )
2(
i− 1 )
j
i ij
i
y y n
S
então:= − +
2−
22= ∑ −
22 1
1
1 ) ( 1 ) ( 1 )
( n S n S n
iS
iSQDen
“modelo 1”
A partir de
SQDen
pode ser então estimada uma variância comum a todos os grupos (S
2e) como amédia ponderada (com os graus de liberdade como peso) das variâncias dentro de cada um dos grupos.
Esse valor é também denominado de quadrado médio dentro dos grupos (
QMDen
):k n
SQDen n
S S n
QMDen
i i i
e
= −
−
= −
= ∑
∑
) 1 (
) 1
(
22
∑ ∑ −
=
i j
ij
y
y
SQTot ( )
2onde
liberdade de
graus
grupos de
número
=
−
=
= ∑
k n k
n
n
iSe optarmos por usar um modelo mais simples, em que consideramos desnecessário usar uma média para cada um dos
i
grupos, temos:ij
ij
e
y = µ +
“modelo 2”A estimativa para a única média populacional é a média amostral de todos os valores:
µ ˆ = y
Nesse caso a soma dos quadrados é dita total (SQTot), que é uma medida da variação total se usarmos o modelo mais simples (modelo 2):
A parcela da variação total eliminada (ou explicada) quando usamos o modelo mais completo (modelo 1) é denominada de soma dos quadrados entre grupos (
SQEnt
) ou soma dos quadrado do fator:∑
∑ ∑
∑ ∑ − − − = −
=
−
= SQTot SQDen ( y y )
2( y y )
2n ( y y )
2SQEnt
i ii j
i ij
i j
ij
1 n −
os graus de liberdade para essa soma dos quadrados é
Os graus de liberdade para
SQEnt
é obtido pela diferença dos graus de liberdade deSQTot
eSQDen
:( n − 1 ) − ( n − k ) = k − 1
que agora podem ser usados para obtermos uma estimativa de quadrado médio entre grupos:
1
= − k SQEnt QMEnt
Aqui chamamos de coeficiente de explicação a proporção da variação total que pode ser explicada pelo modelo:
SQTot
SQEnt
R
2=
Chegamos finalmente a uma estatística que pode ser calculada para testarmos a hipótese de interesse:
k n
S n
k
y y n
k n
SQDen k
SQEnt QMDen
QMEnt F
i i
i i
−
−
−
−
=
−
= −
= ∑
∑
2 2
) 1 (
1 ) (
1
comk - 1
graus de liberdade no numerador en - k
graus de liberdade no denominador
Como você deve imaginar há muitos recursos computacionais que facilitam esses cálculos. No entanto é importante que você saiba interpretar os resultados desse tipo de análise!
Independente do recurso computacional utilizado para a análise, usualmente os resultados são resumidos em uma tabela similar a essa:
SQTot n-1
Total
MQDent SQDen
n-k Dentro (Erro)
valor de P MQEnt/MQDent
MQEnt SQEnt
k-1 Entre (Fator)
Pr(>F) F
MQ SQ
gl Fonte da variação
Análise de Variância (ANOVA)
A interpretação é que se F estiver na região crítica, ou mais especificamente se o valor de P for muito pequeno rejeita-se a hipótese nula(H0: µ1 = µ2 = µ3 = . . . µk ou seja de µúnico) pois o uso de mais de uma média resulta na explicação de uma parcela significativa da variação total.
amostras das
dentro variância
amostras entre
variância
F =
Exemplo: Pesos de uma espécie de peixe em três áreas diferentes
Dadas as informações da tabela use o STATDISK, o Minitab, o Excel, a TI-83 PLUS e o R para testar a afirmativa de que as três amostras
provêm de populações cujas médias não são as mesmas.
H0
: µ µ µ µ
1= µ µ µ µ
2= µ µ µ µ
3H1
: pelo menos uma das médias difere das demais
O valor de P é pequeno, portanto rejeitamos Ho e há evidências que dão suporte à afirmativa de que as amostras provêm de populações que têm médias diferentes.
dados
var1 var2 var3 58.2 85.3 69.4 73.4 84.3 64.2 73.1 79.5 71.4 64.4 82.5 71.6 72.7 80.2 68.5 89.2 84.6 51.9 43.9 79.2 72.2 76.3 70.9 74.4 76.4 78.6 52.8 78.9 86.2 58.4 69.4 74.0 65.4 72.9 83.7 73.6
As saídas típicas dos diferentes programas contêm resultados similares
aos mostrados na tabela geral abaixo (ver exemplos no próximo slide)
Exemplo: Pesos de uma espécie de peixe em três áreas diferentes
Dadas as informações da tabela use o STATDISK, o Minitab, o Excel, a TI-83 PLUS e o R para testar a afirmativa de que as três amostras
provêm de populações cujas médias não são as mesmas.
H0
: µ µ µ µ
1= µ µ µ µ
2= µ µ µ µ
3H1
: pelo menos uma das médias difere das demais
O valor de P é pequeno, portanto rejeitamos Ho e há evidências que dão suporte à afirmativa de que as amostras provêm de populações que têm médias diferentes.
Analysis of Variance Table Response: y
Df Sum Sq Mean Sq F value Pr(>F) x 2 1338.00 669.00 9.4695 0.0005621***
Residuals 33 2331.39 70.65 ---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
R
dados
var1 var2 var3 58.2 85.3 69.4 73.4 84.3 64.2 73.1 79.5 71.4 64.4 82.5 71.6 72.7 80.2 68.5 89.2 84.6 51.9 43.9 79.2 72.2 76.3 70.9 74.4 76.4 78.6 52.8 78.9 86.2 58.4 69.4 74.0 65.4 72.9 83.7 73.6
Os cálculos de intervalos de confiança para as estimativas das médias seguem dos princípios já vistos anteriormente.
i e
k n i
i i
n S
t Erro
Erro y
2
/
/
,
⋅
=
±
− α
Para a diferença entre duas médias quaisquer, também podemos adaptar elementos que já forma vistos antes:
2 1
* 2 / ,
2 1 2
1
2 1
2 1
2 1
1 1
) (
) 1 , 1 (
1
) (
) (
n S n
t Erro
Erro y
y IC
n S n
y t y
e k
n e
+
⋅
⋅
=
±
⇒ −
−
−
∴ +
⋅
−
−
= −
− α
α µ
µ µ µ
/ m
*
α
α =
desigualdade de Bonferroni
m
-
número de comparações pareadasSe rejeitamos H0 podemos avaliar quais foram as médias que diferiram entre e que levaram à rejeição, com o auxílio do intervalo de confiança mostrado acima. Por exemplo se
encontrarmos um Erro = 15 para 95% de confiança. Significa que duas médias cujas
diferenças superam 15 seriam as causas da rejeição de H0 em teste com 95% de confiança.
Intervalos de Confiança e Comparações entre Médias
Teste de Homocedasticidade
Uso do computador para a realização do teste de Bartlett.
Os dados são separados em categorias usualmente denominadas de células.
Seção 11-3
ANOVA com dois fatores
Exemplo:
Há interação entre dois fatores se o efeito de um deles muda para as diferentes categorias do outro fator.
Os cálculos para uma ANOVA de dois fatores são trabalhosos e
programas de computador devem ser usados para esse fim.
Procedimento para a
avaliação dos resultados de uma ANOVA para dois fatores
Teste para a interação entre os
dois fatores
Há efeitos devido a interação ?
Teste para a o efeito do primeiro fator
Teste para a o efeito do segundo fator
Pare. Não é adequado considerar os efeito
de um fator sem levar o outro em
conta.
Sim
Não
Rejeita-se Ho que afirma que não há interação
Não rejeita-se Ho que afirma que não há interação