• Nenhum resultado encontrado

Planejamento e Pesquisa 1 - Análise de variância

N/A
N/A
Protected

Academic year: 2021

Share "Planejamento e Pesquisa 1 - Análise de variância"

Copied!
50
0
0

Texto

(1)

Planejamento e

Pesquisa 1

-Análise de variância

(2)

Durabilidade de 4 tipos de

carpetes: exh_aov.mtw



Eu tinha 4 tipos de carpetes e coloquei cada tipo em quatro casas

(um tipo em cada casa). Após 60 dias foi medida a durabilidade.



Variável resposta: durabilidade



Fator: Carpete



4 Níveis do fator



4 Réplicas

(3)

E se tiver mais que dois grupos?



A

análise de variâncias

(ANOVA) é

apropriada para esse tipo de experimento



A ANOVA foi desenvolvida por Fisher nos

anos 20, e aplicada iniciamente em

experimentos agrícolas

(4)

Caracterização do problema



Em geral, tenho

níveis

do fator (variável explicativa

categórica), ou

tratamentos

, e n

réplicas

, sendo

que as unidades amostrais que receberão cada

tratamento não são escolhidas em função de cada

tratamento: Planejamento completamente

aleatorizado (completely randomized design)



N = total de observações



Consideraremos efeitos fixos, efeitos aleatórios

serão considerados posteriormente



Objetivo inicial

: Testar a igualdade das distribuições

da variável resposta nos vários tratamentos



Assumindo distribuição normal, independência e

homocedasticidade para a variável resposta

observada nas várias unidades amostrais, o objetivo

torna-se:

(5)

Dados



y

ij

corresponde à variável resposta do tratamento i e unidade

amostral j.



Esse formato para os dados é chamado de wide (ou unstacked)

em alguns programas.



Se todas as variáveis respostas y

ij

estivessem na mesma

coluna, poderíamos ter uma segunda coluna indicando qual o

tratamento correspondente a cada y

ij

.

(6)

4 3 2 1 20 15 10

Carpete

D

ur

ab

ili

da

de

Qual carpete você compraria?

(7)

An Example (See pg. 62)



Mudando a

potência muda a

taxa em média?



Qual o nível de

potência ótimo?

(8)

Lay-out dos dados



Em geral, tenho

níveis

do fator (variável explicativa categórica),

ou

tratamentos

, e n

réplicas

, sendo que as unidades que

receberão cada tratamento não são escolhidas em função de

cada tratamento: Planejamento completamente aleatorizado

(completely randomized design)



N = total de observações



Consideraremos efeitos fixos, efeitos aleatórios serão

(9)

Análise de variância



O nome vem da

partição

da variabilidade total da

variável resposta em componentes de acordo com o

modelo proposto



O modelo básico para um fator é



sendo µ

i

a média de cada tratamento e e

ij

os erros

experimentais.



Assumiremos que os erros são independentes e

=

=

+

=

i

ij

i

ij

n

j

r

i

e

y

,...,

1

,...,

1

,

µ

(10)

Análise Descritiva



O que fazer descritivamente para

responder ao objetivo inicial?

(11)
(12)

Modelos – Parametrizações



Para os r níveis do fator de interesse e para as n

i

observaçoes de cada nível, temos o modelo de

médias



De modo equivalente, podemos definir o modelo

de desvios médios



Qual a interpretação dos parâmetros? Esse

modelo é identificável?

ij

i

ij

e

y

=

µ

+

ij

i

ij

e

y

=

µ

+

τ

+

(13)

Modelos – Parametrizações



Podemos escolher um dos r níveis do fator

como sendo uma categoria de referência. Por

exemplo escolhendo a categoria 1 obtemos

+

+

=

+

=

1

,

1

,

1

1

i

e

i

e

y

ij

i

ij

ij

µ

µ

(14)

Notação

.

.

.

1

.

,

i

i

i

n

j

ij

i

n

y

y

y

y

i

=

=

=

N

y

y

y

y

a

i

n

j

ij

i

..

..

1

1

..

=

∑∑

,

=

=

=

(15)

Estimação



O modelo básico para um fator é



sendo µ

i

a média de cada tratamento e e

ij

os erros

experimentais.



Assumiremos que os erros são independentes e

e

ij

~N(0,σ

2

)



Quais métodos de estimação podemos utilizar?



Qual os estimadores dos parâmetros?

=

=

+

=

i

ij

i

ij

n

j

r

i

e

y

,...,

1

,...,

1

,

µ

(16)

Análise de Variância



Variabilidade Total

é medida como a soma de



Note que:



O particionamento (pg. 692) é:

..

.

.

..

y

y

y

y

y

y

ij

=

ij

i

+

i

entre

dentro dos tratamentos

(

)

(

)

(

)

SSE

SStrat

SST

y

y

y

y

n

y

y

r

i

n

j

i

ij

r

i

i

i

r

i

n

j

ij

i i

+

=

+

=

∑∑

∑∑

=

=

=

=

=

1

1

2

.

1

2

..

.

1

1

2

..

(

)

∑∑

=

=

=

r

i

n

j

ij

i

y

y

SST

1

1

2

..

(17)

Graus de liberdade (posto)



gl

total

= N-1



Há N diferenças, mas 1 grau é perdido dado que



gl

trat

=r-1, a desvios com



gl

erro

= N-r, pois para cada i temos

correspondendo a n

i

-1 graus, logo temos

n

-1 + ... + n

-1 = N-r

(

)

0

1

1

..

=

∑∑

=

=

a

i

n

j

ij

i

y

y

(

)

=

=

r

i

i

i

y

y

n

1

..

.

0

(

)

=

i

n

j

i

ij

y

y

1

2

.

(18)

Análise de Variância

SSE

SStrat

SST

=

+



Um alto (baixo) valor de SS

trat

reflete grandes

(pequenas) diferenças entre as médias dos

tratamentos



As hipóteses são

diferença

alguma

menos

ao

:

...

:

1

2

1

0

H

H

µ

=

µ

=

=

µ

r

(19)

Análise de Variância



Enquanto as somas de quadrados não podem ser

diretamente comparadas, os quadrados médios

podem.



O quadrado médio é a soma de quadrados dividida

pelo correspondente graus de liberdade:

r

N

SS

MS

r

SS

MS

r

N

r

N

gl

gl

gl

erro

erro

trat

trat

erro

trat

total

=

=

+

=

+

=

,

1

1

1

(20)

Útil

(

)

∑∑

=

=

=

=

=

r

i

i

i

r

i

n

j

i

ij

y

n

s

y

SSE

i

1

2

1

1

2

)

1

(



Um estimador não viesado para a variância σ

2

é

pg. 696

(

)

r

N

y

y

r

N

SSE

MSE

r

i

n

j

i

ij

i

=

=

∑∑

=

1

=

1

2

(21)

Útil

Detalhes na pg. 696

(

)

1

)

(

.

2

2

+

=

r

n

MSTR

E

σ

i

µ

i

µ

N

n

i

i

=

µ

µ

.

(22)

Tabela de Análise de Variância



Altos valores de F indicam diferenças entre as médias.



Como realizar o teste?

Fonte de variação

Soma de

quadrados

Graus de

liberdade

Quadrado

médio

F

Entre tratamentos SStrat

r-1

MStrat

F=MStrat/MSE

Erro

SSE

N-r

MSE

(23)

Resultados



As somas de quadrados

apresentadas podem ser

escritas de modo

matricial como Formas

quadráticas. Utilizando os

resultados apresentados,

por exemplo em Searle,

temos que:

2

2

2

2

~

,

~

erro trat

gl

gl

SSE

sob

SStrat

χ

σ

χ

σ

H

0

MStrat e MSE são

independentes

(24)

Resultados



Utilizando os resultados anteriores, temos que



Sob H

1

, obtemos uma distribuição F não central.

erro trat

gl

gl

F

H

MSE

MStrat

F

,

0

~

=

(25)

Tabela de Análise de Variância



Assim, rejeitamos H0 se F>F

α

α

α

α

,gltrat,glerro

Fonte de variação

Soma de

quadrados

Graus de

liberdade

Quadrado

médio

F

Entre tratamentos SStrat

a-1

MStrat

F=MStrat/MSE

Erro

SSE

N-a

MSE

(26)
(27)
(28)

Suposições do modelo

É importante checar a validade da



Normalidade



Homocedasticidade



Independência



Se o modelo ajustado está de acordo com os

dados: omissão de variáveis relevantes,

presença de valores discrepantes

(29)

Model Adequacy Checking in the ANOVA



Resíduos



Gráfico QQ



p

k

= (k-0,5)/N



Procurar quantis p

k

na

dist normal.



Bussab e Morettin

(2011)

.

ˆ

ˆ

i

ij

i

ij

ij

y

y

y

e

=

µ

-2 -1 0 1 2 -2 0 -1 0 0 10 20 Normal Q-Q Plot Theoretical Quantiles S am pl e Q ua nt ile s

(30)
(31)

Mais diagnósticos

(32)

Teste de Barttlet



Assume que as

r

amostras são independentes e

normalmente

distribuídas.



Teste de Barttlet

2

r

2

2

2

1

0

:

H

σ

=

σ

=

K

=

σ









+

=

=

=

r

i

i

T

r

i

i

i

T

r

n

n

r

S

n

MSE

r

n

1

1

2

1

1

1

)

1

(

3

1

1

)

ln(

)

1

(

)

ln(

)

(

B

2

1

0

~

H

B

χ

r

(33)

Teste de Levene



O teste de Barttlet assume normalidade

dos dados. Uma alternativa, que não

precisa dessa suposicão é o teste de

Levene Modificado.

(34)

Teste de Levene





O teste de Levene (1960) se inspira em

uma ANOVA para os desvios absolutos

2

r

2

2

2

1

0

:

H

σ

=

σ

=

K

=

σ

.

i

ij

ij

Y

Y

z

=

(

)

(

)

1, 0 ,

H

sob

~

1

0

r N r j i i ij i i i

F

z

z

r

z

z

n

L

=

i n j ij i

n

z

z

i

=

=

1

N

z

z

r i n j ij i

∑∑

= =

=

1 1

(35)

Outros testes de igualdade de

variâncias …



Teste F para duas populações

independentes.



Teste de Brown-Forsythe



Pesquisar em Parra-Frutos, I. 2009. The

behaviour of the modified Levene’s test

when data are not normally distributed.

Comput Stat (2009) 24:671–693.

(36)

Quando as suposições não são

válidas



No caso de outliers > investigar o dado



Faltando variáveis explicativas > fácil

(37)

Heterocedasticidade



Quando ni=n, o efeito da heterocedasticidade no

teste F é menor.



Modelos com fator aleatório apresenta sérios

problemas com heterocedasticidade, mesmo

com ni=n.



Melhor utilizar testes que não assumem

homocedasticidade, como os não paramétricos

e ajuste de modelos heterocedásticos.

(38)

Não normalidade



O teste F é pouco afetado.



O nível de significância será um pouco maior

que o especificado.



Com efeito aleatório, há maiores problemas.



Os testes não paramétricos não exigem

normalidade, mas em geral precisam de

grandes amostras.

(39)

Estimação dos efeitos



A partir do modelo



O estimador de µ

i

é



implica

=

=

+

=

i

ij

i

ij

n

j

r

i

e

Y

,...,

1

,...,

1

,

µ

( )

Y

ij

i

E

=

µ

( )

i

i

Y

E

.

=

µ

( )

i

n

Y

Var

2

.

σ

=

i

Y

(40)

Comparações de Médias



Assuma que a análise de resíduos é

satisfatória



Testamos a igualdade das médias



Se a hipótese foi rejeitada, não sabemos

quais médias são diferentes



Para determinar quais médias diferem

entre si, temos um

problema de

comparações múltiplas

(41)

Contrastes

0

:

0

:

:

:

4

3

1

4

3

0

4

3

1

4

3

0

=

=

µ

µ

µ

µ

µ

µ

µ

µ

H

H

H

H

0

:

0

:

:

:

4

3

2

1

1

4

3

2

1

0

4

3

2

1

1

4

3

2

1

0

+

=

+

+

+

+

=

+

µ

µ

µ

µ

µ

µ

µ

µ

µ

µ

µ

µ

µ

µ

µ

µ

H

H

H

H

Igualdade das taxas

médias

para as 2 maiores potências

Igualdade das taxas médias das 2 menores e das 2

maiores potências

(42)

Contrastes



Para as constantes

c

1

,…c

a

, que somam

zero, as hipóteses

podem ser escritas

usando os contrastes

L



Estimador



Devido à

independência

=

=

=

=

=

r

i

i

i

r

i

i

i

c

L

H

c

L

H

1

1

1

0

0

:

0

:

µ

µ

=

=

r

i

i

i

y

c

L

1

.

ˆ

=

=

r

i

i

i

n

c

L

Var

1

2

2

)

ˆ

(

σ

(43)

Contrastes



Estimador



Estimador da Var

Tem distribuição t-Student com N-r graus de liberdade

=

=

r

i

i

i

y

c

L

1

.

ˆ

=

=

r

i

i

i

n

c

MSE

L

r

a

V

1

2

)

ˆ

(

ˆ

=

=

=

=

r

i

i

i

r

i

i

i

n

c

MSE

L

y

c

L

r

a

V

L

L

t

1

2

1

.

0

)

ˆ

(

ˆ

ˆ

(44)

Teste e intervalo de confiança



Se H

0

é verdadeira

r

N

r

i

i

i

r

i

i

i

t

n

c

MSE

y

c

t

=

=

=

~

1

2

1

.

0

(45)

Comparações múltiplas



O coeficiente de confiança γ=1-α se refere

a um só intervalo e não a vários.



Podemos estar interessados em todas as

comparações 2 a 2, ou por exemplo, para

a=4, somente entre µ

1

e µ

2

, µ

1

e µ

3

e µ

1

e

µ

4

.

(46)

Método de Tukey



Quando estamos interessados em todas

as comparações 2 a 2.



Quando todos os grupos tem n

observações, o coeficiente de confiança

conjunto será γ=1-α. Quando os tamanhos

diferem o γ será maior, ou seja, é um

(47)

Distribuição Studentized range



Sejam Y

1

,...,Y

r

observações independentes da

distribuição N(µ,σ

2

).



w=max{Y

i

}-min{Y

i

},



s

2

estimador de σ

2

correspondente a v graus de

liberdade



q é chamado de studentized range



A distribuição de q encontra-se em tabelas por

exemplo em Neter et al. (1996).

s

w

v)

(48)

Método de Tukey



O intervalo para Di=µ

i

k

, para i e k diferentes, é

.

.

ˆ

k

i

Y

Y

D

=

,

}

ˆ

{

ˆ

ˆ





D

m

T

V

ar

D





+

=

k

i

n

n

MSE

D

ar

V

ˆ

{

ˆ

}

1

1

1

(49)

Outros Métodos

(50)

Why Does the ANOVA Work?

2

2

1

0

(

1)

2

2

0

We are sampling from normal populations, so

if

is true, and

Cochran's theorem gives the independence of

these two chi-square random variables

/(

So

Treamtents

E

a

a n

Treatments

SS

SS

H

SS

F

χ

χ

σ

σ

=

2

1

1, (

1)

2

(

1)

2

2

1

2

1)

/(

1)

/[ (

1)]

/[ (

1)]

Finally, (

)

and (

)

1

a

a

a n

E

a n

n

i

i

Treatments

E

a

a

F

SS

a n

a n

n

E MS

E MS

a

χ

χ

τ

σ

σ

=

=

+

=

Referências

Documentos relacionados

O DIRETOR GERAL DO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA GOIANO - CAMPUS IPORÁ, no uso de suas atribuições legais, conferida pela Portaria/IF Goiano nº 22,

A presente pesquisa tem potencial para ampliar os estudos sobre Literatura Brasileira na região Sul da Bahia, além de inovar o ensino da Literatura na Educação Básica, ao

Para listas de mais de 200 objetos, o desempenho no cenário A voltou a ser pior, não sendo possível concluir que a comunicação entre as máquinas do cliente e do

A tradição do povo perpassa sistematicamente os fazeres da aula, como no exemplo da aula de Ciências, em que, além de ensinar o nome dos animais – que as crianças já não têm

Dado seu potencial degração da proteína Cry (resultados preliminares realizados no LMA), teve sua dinâmica de crescimento determinada em meio mínimo mineral JE (Jones &

1 - Específicos: conforme orientação da Vigilância Epidemiológica (isolamento viral ou sorologia).. 2 - Inespecífico: Hemograma com contagem de plaquetas (auxiliar

Conforme a classificação de risco, diante de um caso suspeito de febre de Chikungunya, o hemograma deve ser solicitado à critério médico para as formas brandas da doença e

- Sugestiva de estar relacionada à infecção congênita por STORCH: caso notificado como microcefalia E que apresente diagnóstico laboratorial específico e conclusivo para