11-2 ANOVA com um fator 11-3 ANOVA com dois fatores

(1)

Capítulo 11 –

Análise de Variância (ANOVA)

11-1 Introdução

11-2 ANOVA com um fator 11-3 ANOVA com dois fatores

A análise de variância (ANOVA) é um método que permite o teste de

hipótese sobre se as médias de populações (usualmente três ou mais) são iguais. Na ANOVA o termo variância refere-se ao método usado e não à estatística que está sendo testada, que é a média.

Exemplo:

H

₀

: µ

₁

= µ

₂

= µ

₃

= . . . µ

_k

H

₁

: pelo menos uma média é diferente

Atenção! >>> Um teste com 95% de confiança para um grupo de três médias por exemplo (µ

₁

= µ

₂

= µ

₃

), não equivale a três testes com 95% confiança cada um deles para cada um dos pares encadeados (µ

₁

= µ

₂

e µ

₁

= µ

₃

e µ

₂

= µ

₃

). O nível de confiança conjunto para esse caso seria (0,95)

³

= 0,857.

Seção 11-1

Introdução

(2)

Seção 11-2

ANOVA com um fator

Um fator (ou tratamento em casos experimentais) é uma característica ou propriedade (exemplo: sexo) que permite classificar os dados em

diferentes “populações” segundo os níveis desse fator (exemplo: fêmea e macho).

Suponha que temos interesse em uma variável Y (ex: comprimento), e que poderíamos classificar os dados de acordo com uma característica.

Poderíamos então usar uma ANOVA para testar se as médias de comprimento de fêmeas e machos são iguais.

Requisitos:

1. As populações têm distribuições aproximadamente normais ( ^{ver os}

painéis b e c da próxima figura para uma ilustração ).

2. As populações têm a mesma variância ( σ σ σ σ

²_e

). “Homocedasticidade”

3. Há independência entre as observações dentro de cada população.

4. Há independência entre as observações de uma e outra população.

(3)

O objetivo é estimar µ, µ

_i

, i=1,…,k

H0: µ1 = µ2 = µ3 = . . . µk (µ único) H1: µ1 ≠ ≠ ≠ ≠ µ2 para algum par (i,j) Desenvolvimento da abordagem … Exemplo para o caso de um fator com dois níveis (i={1,2}):

Um modelo conveniente para a situação, em que consideramos uma média para cada caso seria:

ij i

ij

e

y = µ +

Assim cada observação

y

corresponderia à média do grupo a que ela pertence mais uma medida de erro (

e

) em torno da média. Esse erro, como pode ser visto na figura ao lado, deve seguir uma

distribuição normal com variância igual para todas os grupos (σσσσ²_e).

As estimativas para a média populacional de cada grupo é a média amostral para o grupo:

1

ˆ

_i₌1

= y

µ µ ˆ

_i₌₂

= y

₂

A soma dos quadrados dos resíduos (

SQRes

) para ambos os grupos, também denominada de soma dos quadrados devido ao erro ou dentro dos grupos (

SQDen

), que é uma medida da variação residual se usamos o modelo 1:

∑ ∑

∑

∑ ⁻ ⁺ ⁻ ⁼ ⁻

=

i j

i ij j

j j

j

y y y y y

y s

SQ

SQDen Re (

₁ ₁

)

²

(

₂ ₂

)

²

( )

²

mas como: ²

= ∑ ( − )

²

(

i

− 1 )

j

i ij

i

y y n

S

^então:

⁼ ⁻ ⁺

2

⁻

2²

⁼ ∑ ⁻

²

2 1

1

1 ) ( 1 ) ( 1 )

( n S n S n

_i

S

_i

SQDen

“modelo 1”

(4)

A partir de

SQDen

pode ser então estimada uma variância comum a todos os grupos (

S

²_e) como a

média ponderada (com os graus de liberdade como peso) das variâncias dentro de cada um dos grupos.

Esse valor é também denominado de quadrado médio dentro dos grupos (

QMDen

):

k n

SQDen n

S S n

QMDen

i i i

e

= −

−

= −

= ∑

∑

) 1 (

) 1

(

²

2

∑ ∑ ⁻

=

i j

ij

y

SQTot ( )

²

onde

liberdade de

graus

grupos de

número

=

−

=

= ∑

k n k

n

_i

Se optarmos por usar um modelo mais simples, em que consideramos desnecessário usar uma média para cada um dos

i

grupos, temos:

ij

e

y = µ +

^{“modelo 2”}

A estimativa para a única média populacional é a média amostral de todos os valores:

µ ^ˆ = y

Nesse caso a soma dos quadrados é dita total (SQTot), que é uma medida da variação total se usarmos o modelo mais simples (modelo 2):

A parcela da variação total eliminada (ou explicada) quando usamos o modelo mais completo (modelo 1) é denominada de soma dos quadrados entre grupos (

SQEnt

) ou soma dos quadrado do fator:

∑

∑ ∑

∑ ∑ ⁻ ⁻ ⁻ ⁼ ⁻

=

−

= SQTot SQDen ( y y )

²

( y y )

²

n ( y y )

²

SQEnt

_i _i

i j

i ij

i j

ij

1 n −

os graus de liberdade para essa soma dos quadrados é

Os graus de liberdade para

SQEnt

é obtido pela diferença dos graus de liberdade de

SQTot

e

SQDen

:

( n − 1 ) − ( n − k ) = k − 1

que agora podem ser usados para obtermos uma estimativa de quadrado médio entre grupos:

1 = − k SQEnt QMEnt

Aqui chamamos de coeficiente de explicação a proporção da variação total que pode ser explicada pelo modelo:

SQTot

SQEnt

R

²

=

(5)

Chegamos finalmente a uma estatística que pode ser calculada para testarmos a hipótese de interesse:

k n

S n

k

y y n

k n

SQDen k

SQEnt QMDen

QMEnt F

i i

−

=

−

= −

= ∑

∑

2 2

) 1 (

1 ) (

1

^com

^{k - 1}

graus de liberdade no numerador e

n - k

graus de liberdade no denominador

Como você deve imaginar há muitos recursos computacionais que facilitam esses cálculos. No entanto é importante que você saiba interpretar os resultados desse tipo de análise!

Independente do recurso computacional utilizado para a análise, usualmente os resultados são resumidos em uma tabela similar a essa:

SQTot n-1

Total

MQDent SQDen

n-k Dentro (Erro)

valor de P MQEnt/MQDent

MQEnt SQEnt

k-1 Entre (Fator)

Pr(>F) F

MQ SQ

gl Fonte da variação

Análise de Variância (ANOVA)

A interpretação é que se F estiver na região crítica, ou mais especificamente se o valor de P for muito pequeno rejeita-se a hipótese nula(H0: µ1 = µ2 = µ3 = . . . µk ou seja de µúnico) pois o uso de mais de uma média resulta na explicação de uma parcela significativa da variação total.

amostras das

dentro variância

amostras entre

variância

F =

(6)

Exemplo: Pesos de uma espécie de peixe em três áreas diferentes

Dadas as informações da tabela use o STATDISK, o Minitab, o Excel, a TI-83 PLUS e o R para testar a afirmativa de que as três amostras

provêm de populações cujas médias não são as mesmas.

H₀

: µ µ µ µ

₁

= µ µ µ µ

₂

= µ µ µ µ

₃

H₁

: pelo menos uma das médias difere das demais

O valor de P é pequeno, portanto rejeitamos Ho e há evidências que dão suporte à afirmativa de que as amostras provêm de populações que têm médias diferentes.

dados

var1 var2 var3 58.2 85.3 69.4 73.4 84.3 64.2 73.1 79.5 71.4 64.4 82.5 71.6 72.7 80.2 68.5 89.2 84.6 51.9 43.9 79.2 72.2 76.3 70.9 74.4 76.4 78.6 52.8 78.9 86.2 58.4 69.4 74.0 65.4 72.9 83.7 73.6

As saídas típicas dos diferentes programas contêm resultados similares

aos mostrados na tabela geral abaixo (ver exemplos no próximo slide)

(7)

Exemplo: Pesos de uma espécie de peixe em três áreas diferentes

Dadas as informações da tabela use o STATDISK, o Minitab, o Excel, a TI-83 PLUS e o R para testar a afirmativa de que as três amostras

provêm de populações cujas médias não são as mesmas.

H₀

: µ µ µ µ

₁

= µ µ µ µ

₂

= µ µ µ µ

₃

H₁

: pelo menos uma das médias difere das demais

O valor de P é pequeno, portanto rejeitamos Ho e há evidências que dão suporte à afirmativa de que as amostras provêm de populações que têm médias diferentes.

Analysis of Variance Table Response: y

Df Sum Sq Mean Sq F value Pr(>F) x 2 1338.00 669.00 9.4695 0.0005621***

Residuals 33 2331.39 70.65 ---

Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

R

dados

var1 var2 var3 58.2 85.3 69.4 73.4 84.3 64.2 73.1 79.5 71.4 64.4 82.5 71.6 72.7 80.2 68.5 89.2 84.6 51.9 43.9 79.2 72.2 76.3 70.9 74.4 76.4 78.6 52.8 78.9 86.2 58.4 69.4 74.0 65.4 72.9 83.7 73.6

(8)

Os cálculos de intervalos de confiança para as estimativas das médias seguem dos princípios já vistos anteriormente.

i e

k n i

i i

n S

t Erro

Erro y

2

/

,

⋅

=

±

− α

Para a diferença entre duas médias quaisquer, também podemos adaptar elementos que já forma vistos antes:

2 1

* 2 / ,

2 1 2

1

2 1

1 1

) (

) 1 , 1 (

1 ) (

) (

n S n

t Erro

Erro y

y IC

n S n

y t y

e k

n e

+

⋅

=

±

⇒ −

−

∴ +

⋅

−

= −

− α

α µ

µ µ µ

/ m

*

α

α =

desigualdade de Bonferroni

m

-

número de comparações pareadas

Se rejeitamos H0 podemos avaliar quais foram as médias que diferiram entre e que levaram à rejeição, com o auxílio do intervalo de confiança mostrado acima. Por exemplo se

encontrarmos um Erro = 15 para 95% de confiança. Significa que duas médias cujas

diferenças superam 15 seriam as causas da rejeição de H0 em teste com 95% de confiança.

Intervalos de Confiança e Comparações entre Médias

Teste de Homocedasticidade

Uso do computador para a realização do teste de Bartlett.

(9)

Os dados são separados em categorias usualmente denominadas de células.

Seção 11-3

ANOVA com dois fatores

Exemplo:

Há interação entre dois fatores se o efeito de um deles muda para as diferentes categorias do outro fator.

Os cálculos para uma ANOVA de dois fatores são trabalhosos e

programas de computador devem ser usados para esse fim.

(10)

Procedimento para a

avaliação dos resultados de uma ANOVA para dois fatores

Teste para a interação entre os

dois fatores

Há efeitos devido a interação ?

Teste para a o efeito do primeiro fator

Teste para a o efeito do segundo fator

Pare. Não é adequado considerar os efeito

de um fator sem levar o outro em

conta.

Sim

Não

Rejeita-se Ho que afirma que não há interação

Não rejeita-se Ho que afirma que não há interação

11-2 ANOVA com um fator 11-3 ANOVA com dois fatores

Análise de Variância (ANOVA)

11-1 Introdução