Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
Testes de Hipótese para
Testes de Hipótese para
Comparação de 3 ou mais Médias
Comparação de 3 ou mais Médias
Maria Virginia P Dutra
Eloane G Ramos
Vania Matos Fonseca
Pós Graduação em Saúde da Mulher e da Criança
IFF – FIOCRUZ
Baseado nas aulas de M. Pagano e Gravreau e Geraldo Marcelo da Cunha
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Situação mais frequente
●Populações independentes
●Variável numérica
●
Exemplo
●
Deseja-se saber se há diferença entre as
médias de FEV
1
de pacientes com doença da
artéria coronária de 3 centros médicos.
3.53 3.2 2.43 2.53 2.85 2.63 2.81 2.88 1.98 2.74 4.06 2.47 2.19 3.17 2.47 2.23 3.39 2.08 3.17 2.61 2.57 2.81 2.87 1.98 3.07 3.41 2.91 3.38 2.71 2.61 2.63 2.71 3.36 2.88 2.64 3.28 3.56 3.86 2.81 2.95 3.39 2.1 2.77 3.29 1.69 2.47 3.77 3.01 2.98 2.89 2.47 2.25 1.71 1.86 3.22 2.88 3.47 2.79 3.22 3.23 St.Louis Rancho Los Amigos
Johns Hopkins 3.53 3.2 2.43 2.53 2.85 2.63 2.81 2.88 1.98 2.74 4.06 2.47 2.19 3.17 2.47 2.23 3.39 2.08 3.17 2.61 2.57 2.81 2.87 1.98 3.07 3.41 2.91 3.38 2.71 2.61 2.63 2.71 3.36 2.88 2.64 3.28 3.56 3.86 2.81 2.95 3.39 2.1 2.77 3.29 1.69 2.47 3.77 3.01 2.98 2.89 2.47 2.25 1.71 1.86 3.22 2.88 3.47 2.79 3.22 3.23 St.Louis Rancho Los Amigos
Johns Hopkins ●
Amostra
de cada
centro
●unidade:
litros
1
2
3
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
1
a
alternativa
●
Comparar os grupos 2 a 2
●
Para 3 grupos
→
3 comparações
●
3 testes t para 2 populações independentes.
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
1
o
teste
●H
01
: µ
1
= µ
2
●H
A1
: µ
1
≠ µ
2
●2
o
teste
●H
02
: µ
2
= µ
3
●H
A2
: µ
2
≠ µ
3
●3
o
teste
●H
03
: µ
1
= µ
3
●H
A3
: µ
1
≠ µ
3
●
Para cada teste
–
α
i
=0,05
●
H
0
global: todas as médias
são iguais
●
H
A
global: pelo menos uma
é diferente
–
H
0global é rejeitada se
encontrarmos qualquer
diferença.
●
O que acontece com o
α
global (probabilidade do
erro tipo I) ?
R
N
R
R
N
N
R
R
R
R
N
N
N
N
α
1=
0.05
0.05
0.05
0.05
0.05
0.05
0.05
0.95
0.95
0.95
0.95
0.95
0.95
0.95
●Se H
0
é
verdadeira
●α = prob. de
rejeitar H
0
●α = 1-p(H)
●p(H) = 0,95
3
●α = 1-0,95
3
●α = 0,143
Evento
A
B
C
D
E
F
G
H
R – Rejeita H
0Teste 1
Teste 2
Teste 3
Vários testes 2 a 2
aumentam a probabilidade
de cometermos o erro tipo
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
ANOVA
●
Teste de hipótese para detectar globalmente se
existe algum grupo com média diferente dos
demais.
●
Teste para uma amostra
–
H
0
: µ = µ
0●
Teste para duas amostras
–
H
0
: µ
1= µ
2●
Teste para k amostras (ANOVA)
–
H
0
: µ
1= µ
2= … = µ
kPrograma de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Dadas k amostras aleatórias independentes
População
1
2
...
k
µ
1
µ
2
...
µ
k
σ
1
σ
2
...
σ
k
Tamanho da amostra
n
1
n
2
...
n
k
Médias amostrais
...
Desvios amostrais
s
1
s
2
...
s
k
x
1
x
2
x
k
●Exemplo: FEV
1
●
Deseja-se testar se na população existe
diferença da média de FEV
1
entre os 3
centros médicos.
●
Para tal, selecionam-se 3 amostras
aleatórias, uma de cada centro.
●
k=3
●
Nas amostras:
Centro
Média
Desvio
padrão
n
1
s
1
= 0,496
n
1
= 21
2
s
2
= 0,523
n
2
= 16
3
s
3
= 0,497
n
3
= 23
x
1
=2,626
x
2
=3,032
x
3
=2,878
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Hipóteses
●
H
0
: µ
1
= µ
2
= µ
3
●
H
A
: pelo menos uma das médias populacionais é
diferente das demais.
●
Suposições
●
Todas as populações possuem distribuição
normal.
●
Homocedasticidade
–
Na população: σ
1= σ
2= σ
3●
As k populações ou amostras são independentes
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Robustez da ANOVA
●
Normalidade – sim
●
Homocedasticidade – não
–
O teste tende a dar significativo só porque as
variâncias são diferentes.
●
A diferença (desvio) da FEV de um indivíduo
em relação a média global de todos os
indivíduos pode ser dividida em duas
partes.
●
Diferença do o indivíduo em relação a média do
grupo a que ele pertence.
●
Diferença da média do grupo a que ele pertence
em relação a média global.
x
A
B
1
x
x
1
j
2
x
3
x
4
x
●
O que acontece se as diferenças entre as
A – distância de um
indivíduo à média do seu
grupo (distância intra grupo)
B – distância da média do
grupo à média global
(distância entre grupos)
A
2
= x
i j
−x
i
2
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Formalizando
k número de grupos
n
i
tamanho da amostra do grupo i , i=1k
x
i j
FEV do indivíduo j do grupo i , j=1n
i
x
i
média amostral da FEV do grupo i
x média amostral da FEV global
●
A variabilidade individual de uma
observação pode ser representada por
x
i j
−x
2
= x
i j
−x
i
2
x
i
−x
2
intra grupo
entre grupos
●
Variabilidade de todos os indivíduos de
todos os grupos
∑
i=1
k
∑
j=1
n
i x
i j
−x
2
=
∑
i=1
k
∑
j=1
n
i[
x
i j
−x
i
2
x
i
−x
2
]
●SS
total
= SS
intra
+ SS
entre
●
SS
T
= SS
I
+ SS
E
●
SS
→
sum of squares
●
Variabilidade média global (Variância global)
MS
T
=
∑
i=1
k
∑
j=1
n
i x
i j
−x
2
n−1
●
MS
→
mean sum of squares
●
MS
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Variância intra grupos
●
possui n-k graus de
liberdade
MS
I
=
∑
i=1
k
∑
j =1
n
i x
i j
−x
i
2
n−k
●
Variância entre grupos
●
possui k-1
graus de
liberdade
MS
E
=
∑
i=1
k
∑
j =1
n
ix
i
−x
2
k −1
=
∑
i=1
k
n
i
x
i
−x
2
k −1
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Variâncias
MS
E
=
SS
E
k −1
MS
T
=
SS
T
n−1
MS
I
=
SS
I
n−k
●
É possível mostrar que, se H
0
é verdadeira, a
razão segue uma distribuição F com
k-1 graus de liberdade no numerador e n-k
no denominador.
MS
E
MS
I
F
k−1, n−k
=
MS
E
MS
I
●
A distribuição F estima a distribuição de
probabilidade da razão de duas grandezas
quadráticas.
●
Sua forma depende de dois parâmetros que são os
números de graus de liberdade do numerador e do
0 2 4 6 8 100 .0 0 .1 0 .2 0 .3 0 .4 0 .5 0 .6 fd a
Distribuição F com 4 e 2 graus de liberdade
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Se as médias dos grupos forem muito
diferentes entre si, a variância média entre
grupos será bem maior do que a intra
grupos.
●F tenderá a aumentar
x
1x
x
1j 2x
3x
4x
entre
intra
●
Basta uma média
diferente para que
a variabilidade
média entre
grupos aumente
bastante.
F
k−1, n−k
=
MS
E
MS
I
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Se o valor de F encontrado for maior que o
valor crítico correspondente ao α estipulado,
é pouco provável que H
0
seja verdadeira.
●
Rejeita-se H
0
●
Ou se o p-valor for menor do que α (p<α).
●
H
0
: µ
1
= µ
2
= µ
3
equivale a
●
H
0
: MS
E
≤ MS
I
ou MS
E
/MS
I
≤ 1
●
Logo, embora a ANOVA seja utilizada para
avaliar se há diferença de médias, na
verdade ela testa variâncias pelo teste F.
●
Pode-se realizar o teste pelo valor crítico (tabela
A.5)
●
ou pelo p-valor (pacotes estatísticos).
●
O teste é unilateral.
●
Tabela da ANOVA
●
gerada pela maioria dos pacotes estatísticos
Fonte
SS
gl
MS
F
P(f>F)
entre
grupos
SS
Ek-1
p-valor
intra
grupos
SS
In-k
total
SS
Tn-1
MS
E
=
SS
E
k −1
MS
I
=
SS
I
n−k
MS
E
MS
I
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Tabela da ANOVA
●
Voltando ao exemplo do FEV
1
Fonte
SS
gl
MS
F
P(f>F)
entre
grupos
1,582
2
0,791
3,12
0,052
intra
grupos
14,48
57
0,254
total
16,06
59
●Conclusão da análise
●
Se α=0,05, não se pode afirmar que as médias
populacionais de FEV
1
são diferentes entre os
centros médicos.
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
1000 repetições
●
3 amostras aleatórias da mesma população
●Normal com µ = 2,83 e σ = 0,5
●n=59
●Sabemos que H
0
é verdadeira
●Para α=0,05 com gl= 2 e 57
●Fc = 3,16
●
Espera-se que em 5% das repetições H
0
seja
rejeitada
Histograma de F para 1000 simulações
D
e
n
s
id
a
d
e
d
e
p
ro
b
a
b
ili
d
a
d
e
0
2
4
6
8
10
12
0
.0
0
.2
0
.4
0
.6
0
.8
Percentual de testes em que H
0
foi rejeitada: 5,1% (51 testes)
Fc
Distribuição de probabilidade F com 2 e 57 gl
D
e
n
s
id
a
d
e
0
2
4
6
8
10
12
0
.0
0
.2
0
.4
0
.6
0
.8
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Três grupos de homens com excesso de
peso se submeteram as seguintes
intervenções: o grupo 1 realizou dieta com
diminuição de calorias, o grupo 2 fez
exercícios regularmente e o grupo 3 não
alterou sua rotina normal. Registrou-se a
variação no peso corporal entre o início do
estudo e o final, após 1 ano.
●
Deseja-se saber se há evidência de
diferença significativa (α=0,05) na média da
variação do peso corporal entre os grupos
de intervenções.
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
k=3
●
Nas amostras o resumo de variação de peso
corporal é:
Grupo
Média
(kg)
Desvio
padrão (kg)
n
1
s
1
= 3,7
n
1
= 42
2
s
2
= 3,9
n
2
= 47
3
s
3
= 3,7
n
3
= 42
x
1
=−7,2
x
2
=−4,0
x
3
=0,6
●Hipóteses
●H
0
: µ
1
= µ
2
= µ
3
●H
A
: pelo menos uma das médias populacionais é
diferente das demais.
●
Suposições
●
A distribuição de variação de peso corporal é
normal nas três populações.
●
Homocedasticidade
●
Os três grupos são independentes.
●
Média amostral global
●
Variabilidade total entre grupos
x=
n
1
x
1
n
2
x
2
n
3
x
3
n
1
n
2
n
3
=
42∗−7,247∗−4,042∗0,6
424742
x=−3,55 kg
SS
E
=n
1
x
1
−x
2
n
2
x
2
−x
2
n
3
x
3
−x
2
SS
E
=42−7,23,55
2
47−4,03,55
2
420,63,55
2
SS
E
=1292,4 kg
2
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●
Variabilidade total intra grupos
SS
I
=n
1
−1 s
1
2
n
2
−1 s
2
2
n
3
−1 s
3
2
SS
I
=42−13,7
2
47−13,9
2
42−13,7
2
SS
I
=1822,72 kg
2
Programa de Pós-Graduação em Saúde da Mulher e da Criança – Bioestatística e Computação II
●