UNIVERSIDADE FEDERAL DA PARAÍBA

(1)

UNIVERSIDADE FEDERAL

DA PARAÍBA

Modelos de Probabilidade e Inferência Estatística

Departamento de Estatística

Luiz Medeiros

(2)

Estimação dos parâmetros e diagnóstico do modelo

Estimativas da média geral e dos efeitos dos tratamentos:

.. i. i ..

y

τˆ

y

µ

−

=

)

y

τˆ

µˆ

=

+

=

Estimativa pontual de µ

_i

: dado µ

_i

= µ+ τ

_i

, temos:

i. i

i

µˆ

τˆ

y

µˆ

=

+

=

Verificar se as pressuposições básicas do modelo são válidas.

Isso é realizado através de uma análise de resíduos. Define-se

o resíduo da ij-ésima observação como:

ij ij ij

y

yˆ

e

=

−

modelo.

pelo

preditos

valores

y

τˆ

µˆ

yˆ

onde

_ij

=

+

_i

=

_i.

→

(3)

T

ESTES NÃO

-

PLANEJADOS PARA

COMPARAÇÃO DE MÉDIAS

Se o teste realizado na ANOVA é significante, a única certeza

é a de que existe no mínimo um par de médias diferente, mas

não se sabe quantas e, pior ainda, quais.

Para se determinar qual(is) o(s) par(es) de médias diferentes

após a realização da ANOVA, é realizado o que se denomina

teste não-planejado, teste a posteriori ou teste pos hoc. Os

mais conhecidas são:

• Teste de Scheffé – Para comparações múltiplas

• Teste de Bonferroni – Comparar médias duas a duas (Dados balanceados eou

não balanceados)

• Teste de Tukey (HSD) – Comparar médias duas a duas • Teste de Duncan – Comparar médias duas a duas

• Teste de Dunnet – Quando se quer comparar as médias do tratamento

(4)

T

ESTE DE

T

UKEY

(HSD)

É um dos testes de comparação de média mais utilizado, por ser

bastante rigoroso e de fácil aplicação;

É um teste exato em que, para a família de todas as comparações

duas a duas, a taxa de erro da família dos testes é exatamente α (e o intervalo de confiança é exatamente 1-α). Métodos de comparações múltiplas exatos são raros;

múltiplas exatos são raros;

Não permite comparar grupos de tratamentos entre si;

É utilizado para testar toda e qualquer diferença entre duas médias

de tratamento;

É aplicado quando o teste “F” para tratamentos da ANOVA (análise

(5)

T

ESTE DE

T

UKEY

(HSD)

DADOS BALANCEADOS

O teste de Tukey tem como base a DMS (diferença mínima significativa). Para dados

balanceados é calculado da seguinte forma:

Em que n é o número de réplicas do tratamento (nível), qα é um valor tabelado (Tabela do Teste de Tukey) e QMErro é o quadrado médio do erro.

n QMErro g N g q DMS = _α ( , − )

(Tabela do Teste de Tukey) e QMErro é o quadrado médio do erro.

Rejeita-se a igualdade da média de dois tratamentos (i e l) se:

Um intervalo de confiança de 100(1-α)% para a diferença entre todos os pares de

médias é dado por:

.

. .

y

TSD

y

_i

−

_l

>

n QMErro g N g q y y_i_. − _l_. ± _α ( , − )

(6)

(7)

Exemplo - O experimento de absorbância

Tabela da análise de variância dos valores de absorbância. Causas de variação Soma de quadrados Graus de liberdade Quadrados médios Fcalc Entre solventes 0,5413 4 0,1353 212,806 (P<0,0001) Erro 0,0127 20 0,0006 F =4,43 Erro 0,0127 20 0,0006 Total 0,5540 24 F_(0,01;4;20)=4,43

Rejeita-se H₀, e concluímos que as médias de tratamentos diferem entre si; os solventes afetam significativamente as médias de absorbância.

(8)

Comparações entre Pares de Médias

.

,

os

todos

para

,

µ

:

H

₀

_i

=

_l

i

l

Número de comparações: g(g-1)/2.

Devem ser realizadas após o teste F da análise de

variância rejeitar a hipótese nula

(9)

Teste de Tukey

Exemplo: Dados de absorbância. O valor da Diferença Mínima Significativa é:

0479 , 0 5 00064 , 0 23 , 4 ) 20 ; 5 ( 05 , 0 = = = n QMErro q DMS > = − = − < = − = − 3 1 2 1 (0,0479) DMS 0,0897 0,4496 0,5393 y (0,0479) DMS 0,0276 0,5669 0,5393 y y y = − = − = − = − = − = − > = − = − > = − = − > = − = − 5 4 5 3 4 3 5 2 4 2 3 2 5 1 4 1 3 1 y y y y y y (0,0479) DMS 0,3425 0,1968 0,5393 y (0,0479) DMS 0,0685 0,6078 0,5393 y (0,0479) DMS 0,0897 0,4496 0,5393 y y y y y y y y y y

(10)

E70 = 0,6363 A

EAW = 0,5669 A B E50 = 0,5393 B MAW = 0,4496 C

M1M = 0,1968 D

Médias seguidas de mesma letra, em uma mesma coluna, não Médias seguidas de mesma letra, em uma mesma coluna, não apresentam diferenças significantes, ao nível de significância de 5%, pelo teste de Tukey.

Conclusão: pelo teste de Tukey, ao nível de significância de 5%, as médias

dos tratamentos E50 e EAW, assim como as médias dos tratamentos EAW e E70 não apresentam diferenças significantes. As médias dos tratamentos E50 e E70 apresentam diferença significante. As médias dos tratamentos MAW e M1M apresentam diferença significativa de todos os tratamentos.

(11)

EXEMPLO: 3 GRUPOS DE CRIANÇAS RECEBERAM DIFERENTES NÍVIES DE MOTIVAÇÃO PARA A MATEMÁTICA. DEPOIS SE FEZ UM EXAME. HÁ DIFERENÇAS SIGNIFICATIVAS ENTRE OS 3 NÍVEIS DE MOTIVAÇÃO (BAIXA, MÉDIA E ALTA)?

Grupo 1 Grupo 2 Grupo 3

4 16 12 144 1 1 5 25 8 64 3 9 4 16 10 100 4 16 4 16 10 100 4 16 3 9 5 25 6 36 6 36 7 49 8 64 10 100 9 81 5 25 1 1 14 196 3 9 8 64 9 81 2 4 5 25 4 16 2 4 X₁ X₁2 _X 2 X22 X3 X32 Média = 5,11 Média = 8,67 Média = 3,78

(12)

Tabela da análise de variância dos níveis de motivação. Causas de variação Soma de quadrados Graus de liberdade Quadrados médios Fcalc Entre solventes 114,96 2 57,48 7,82 Erro 176,45 24 7,35

F

_{tab (g-1; N-g; 1-α)}

= F

_{tab (2; 24; 0,05)}

= 3,403

Concluindo, F

_calc

> F

_tab

, portanto, rejeita-se H

₀

.

(13)

Conclui-se, através do teste, que pelo menos uma média

se difere das demais.

Em quais tratamentos ocorreram essa diferença?

Utilize o teste de Tukey (α=0,05) para encontrar as

(14)

(15)

E

XEMPLO

1

InsectSprays # ver o banco de dados

boxplot(count ~ spray, data = InsectSprays, col = "lightgray") # gerar o boxplot entre count e spray

anava <- aov(count~spray,data=InsectSprays) # gerar a anova

summary(anava) # resultado da anova

ep = as.vector(rstandard(anava)) # resíduo padronizado

shapiro.test(ep) # teste de normalidade

library(lmtest) # biblioteca para utilizar o teste dwtest

dwtest(anava) # teste de independência - Durbin Watson

(16)

E

XEMPLO

2

ex2 <- read.csv("banco1.txt",header=T,dec=".",sep="") ## ler o banco attach(ex2)

names (ex2)

boxplot(nm ~ trat, data = ex2, col = "red") # gerar o boxplot entre count e spray anava <- aov(nm~trat,data=ex2) # gerar a anova

summary(anava) # resultado da anova ep = as.vector(rstandard(anava)) shapiro.test(ep) # teste de normalidade

bartlett.test(nm ~ trat, data = ex2) # teste de homocedasticidade

Tukey <- TukeyHSD(anava,wich="trat", ordered = F,conf.level = 0.95) # gerar o teste de Tukey Tukey # resultado do teste

(17)

E

XEMPLO

3

x <- rchisq(10, df = 9) y<- rgamma(10, 10, 2) z<- rbeta(10, 1, 2) vr<-c(x,y,z) tr<-c(rep(1,10),rep(2,10),rep(3,10)) ex3<-cbind(vr,tr)

ex3 # ver o banco de dados ex3 # ver o banco de dados

boxplot(vr ~ tr, col = "red") # gerar o boxplot

anava <- aov(vr~tr) # gerar a anova

summary(anava) # resultado da anova

ep = as.vector(rstandard(anava))

shapiro.test(ep) # teste de normalidade

(18)

E

XEMPLO

4

x <- rnorm(20, 5, 1) y<- rnorm(20, 15, 1) z<- rnorm(20, 25, 1) vr<-c(x,y,z) tr<-c(rep(1,20),rep(2,20),rep(3,20)) ex4<-cbind(vr,tr)

boxplot(vr ~ tr, col = "red") # gerar o boxplot anava <- aov(vr~tr) # gerar a anova

summary(anava) # resultado da anova ep = as.vector(rstandard(anava)) shapiro.test(ep) # teste de normalidade

dwtest(anava) # teste de independência - Durbin Watson bartlett.test(vr ~ tr) # teste de homocedasticidade

Tukey <- TukeyHSD(anava,wich="trat", ordered = F,conf.level = 0.95) # gerar o teste de Tukey Tukey # resultado do teste