Planejamento e
Pesquisa 1
-Análise de variância
Durabilidade de 4 tipos de
carpetes: exh_aov.mtw
Eu tinha 4 tipos de carpetes e coloquei cada tipo em quatro casas
(um tipo em cada casa). Após 60 dias foi medida a durabilidade.
Variável resposta: durabilidade
Fator: Carpete
4 Níveis do fator
4 Réplicas
E se tiver mais que dois grupos?
A
análise de variâncias
(ANOVA) é
apropriada para esse tipo de experimento
A ANOVA foi desenvolvida por Fisher nos
anos 20, e aplicada iniciamente em
experimentos agrícolas
Caracterização do problema
Em geral, tenho
níveis
do fator (variável explicativa
categórica), ou
tratamentos
, e n
réplicas
, sendo
que as unidades amostrais que receberão cada
tratamento não são escolhidas em função de cada
tratamento: Planejamento completamente
aleatorizado (completely randomized design)
N = total de observações
Consideraremos efeitos fixos, efeitos aleatórios
serão considerados posteriormente
Objetivo inicial
: Testar a igualdade das distribuições
da variável resposta nos vários tratamentos
Assumindo distribuição normal, independência e
homocedasticidade para a variável resposta
observada nas várias unidades amostrais, o objetivo
torna-se:
Dados
y
ij
corresponde à variável resposta do tratamento i e unidade
amostral j.
Esse formato para os dados é chamado de wide (ou unstacked)
em alguns programas.
Se todas as variáveis respostas y
ij
estivessem na mesma
coluna, poderíamos ter uma segunda coluna indicando qual o
tratamento correspondente a cada y
ij
.
4 3 2 1 20 15 10
Carpete
D
ur
ab
ili
da
de
Qual carpete você compraria?
An Example (See pg. 62)
Mudando a
potência muda a
taxa em média?
Qual o nível de
potência ótimo?
Lay-out dos dados
Em geral, tenho
níveis
do fator (variável explicativa categórica),
ou
tratamentos
, e n
réplicas
, sendo que as unidades que
receberão cada tratamento não são escolhidas em função de
cada tratamento: Planejamento completamente aleatorizado
(completely randomized design)
N = total de observações
Consideraremos efeitos fixos, efeitos aleatórios serão
Análise de variância
O nome vem da
partição
da variabilidade total da
variável resposta em componentes de acordo com o
modelo proposto
O modelo básico para um fator é
sendo µ
i
a média de cada tratamento e e
ij
os erros
experimentais.
Assumiremos que os erros são independentes e
=
=
+
=
i
ij
i
ij
n
j
r
i
e
y
,...,
1
,...,
1
,
µ
Análise Descritiva
O que fazer descritivamente para
responder ao objetivo inicial?
Modelos – Parametrizações
Para os r níveis do fator de interesse e para as n
i
observaçoes de cada nível, temos o modelo de
médias
De modo equivalente, podemos definir o modelo
de desvios médios
Qual a interpretação dos parâmetros? Esse
modelo é identificável?
ij
i
ij
e
y
=
µ
+
ij
i
ij
e
y
=
µ
+
τ
+
Modelos – Parametrizações
Podemos escolher um dos r níveis do fator
como sendo uma categoria de referência. Por
exemplo escolhendo a categoria 1 obtemos
≠
+
∆
+
=
+
=
1
,
1
,
1
1
i
e
i
e
y
ij
i
ij
ij
µ
µ
Notação
.
.
.
1
.
,
i
i
i
n
j
ij
i
n
y
y
y
y
i
=
=
∑
=
N
y
y
y
y
a
i
n
j
ij
i
..
..
1
1
..
=
∑∑
,
=
=
=
Estimação
O modelo básico para um fator é
sendo µ
i
a média de cada tratamento e e
ij
os erros
experimentais.
Assumiremos que os erros são independentes e
e
ij
~N(0,σ
2
)
Quais métodos de estimação podemos utilizar?
Qual os estimadores dos parâmetros?
=
=
+
=
i
ij
i
ij
n
j
r
i
e
y
,...,
1
,...,
1
,
µ
Análise de Variância
Variabilidade Total
é medida como a soma de
Note que:
O particionamento (pg. 692) é:
..
.
.
..
y
y
y
y
y
y
ij
−
=
ij
−
i
+
i
−
entre
dentro dos tratamentos
(
)
(
)
(
)
SSE
SStrat
SST
y
y
y
y
n
y
y
r
i
n
j
i
ij
r
i
i
i
r
i
n
j
ij
i i+
=
−
+
−
=
−
∑
∑∑
∑∑
=
=
=
=
=
1
1
2
.
1
2
..
.
1
1
2
..
(
)
∑∑
=
=
−
=
r
i
n
j
ij
iy
y
SST
1
1
2
..
Graus de liberdade (posto)
gl
total
= N-1
Há N diferenças, mas 1 grau é perdido dado que
gl
trat
=r-1, a desvios com
gl
erro
= N-r, pois para cada i temos
correspondendo a n
i
-1 graus, logo temos
n
-1 + ... + n
-1 = N-r
(
)
0
1
1
..
=
−
∑∑
=
=
a
i
n
j
ij
iy
y
(
)
∑
=
=
−
r
i
i
i
y
y
n
1
..
.
0
(
)
∑
=
−
in
j
i
ij
y
y
1
2
.
Análise de Variância
SSE
SStrat
SST
=
+
Um alto (baixo) valor de SS
trat
reflete grandes
(pequenas) diferenças entre as médias dos
tratamentos
As hipóteses são
diferença
alguma
menos
ao
há
:
...
:
1
2
1
0
H
H
µ
=
µ
=
=
µ
r
Análise de Variância
Enquanto as somas de quadrados não podem ser
diretamente comparadas, os quadrados médios
podem.
O quadrado médio é a soma de quadrados dividida
pelo correspondente graus de liberdade:
r
N
SS
MS
r
SS
MS
r
N
r
N
gl
gl
gl
erro
erro
trat
trat
erro
trat
total
−
=
−
=
−
+
−
=
−
+
=
,
1
1
1
Útil
(
)
∑
∑∑
=
=
=
−
=
−
=
r
i
i
i
r
i
n
j
i
ij
y
n
s
y
SSE
i1
2
1
1
2
)
1
(
Um estimador não viesado para a variância σ
2
é
pg. 696
(
)
r
N
y
y
r
N
SSE
MSE
r
i
n
j
i
ij
i−
−
=
−
=
∑∑
=
1
=
1
2
Útil
Detalhes na pg. 696
(
)
1
)
(
.
2
2
−
−
+
=
∑
r
n
MSTR
E
σ
i
µ
i
µ
N
n
i
i
∑
=
µ
µ
.
Tabela de Análise de Variância
Altos valores de F indicam diferenças entre as médias.
Como realizar o teste?
Fonte de variação
Soma de
quadrados
Graus de
liberdade
Quadrado
médio
F
Entre tratamentos SStrat
r-1
MStrat
F=MStrat/MSE
Erro
SSE
N-r
MSE
Resultados
As somas de quadrados
apresentadas podem ser
escritas de modo
matricial como Formas
quadráticas. Utilizando os
resultados apresentados,
por exemplo em Searle,
temos que:
2
2
2
2
~
,
~
erro tratgl
gl
SSE
sob
SStrat
χ
σ
χ
σ
H
0
MStrat e MSE são
independentes
Resultados
Utilizando os resultados anteriores, temos que
Sob H
1
, obtemos uma distribuição F não central.
erro trat