MAE 0330
ANÁLISE MULTIVARIADA DE DADOS
Análise de Variância Multivariada MANOVA
Júlia M Pavan Soler pavan@ime.usp.br
2° Sem/2016
Análise Multivariada de Dados
Unidades Amostrais 1 2 … j … p
1 Y
11Y
12Y
1jY
1p2 Y
21Y
22Y
2jY
2p… … … … … …
i Y
i1Y
i2Y
ijY
ip… … … … … … …
n Y
n1Y
n2Y
njY
npVariáveis
Objetivos:
p variáveis correlacionadas devem ser analisadas conjuntamente
Pode existir estrutura de tratamento no esquema de aleatorização dos indivíduos
INFERÊNCIAS SOBRE VETORES DE MÉDIAS
Indiv. Açucar Sódio Potássio
1 3,7 48,5 9,3
2 5,7 65,1 8
3 3,8 47,2 10,9
4 3,2 53,2 12
5 3,1 55,5 9,7
6 4,6 36,1 7,9
7 2,4 24,8 14
8 7,2 33,1 7,6
9 6,7 47,4 8,5
10 5,4 54,1 11,3
11 3,9 36,9 12,7
12 4,5 58,8 12,3
13 3,5 27,8 9,8
14 4,5 40,2 8,4
15 1,5 13,5 10,1
16 8,5 56,4 7,1
17 4,5 71,6 8,2
18 6,5 52,8 10,9
19 4,1 44,1 11,2
20 5,5 40,9 9,4
Média 4,64 45,4 9,97
S 2,879
10,002 199,798
-1,81 -5,627 3,628
Inferência sobre um Vetor de Médias
3 , 2 , 1 :
:
0 1
0 0
i H
H
i i
i i
3 3 1 0
1
0 0
, , :
:
μ
μ μ
μ μ
H H
4 , 50 , 10
:
10 , 50 , 4 :
1 0
μ
μ H
H
Análise conjunta:
Análise univariada:
Taxas de açucar, sódio e potássio sangüíneas em 20 mulheres adultas
Ex.:
Análise Multivariada de Dados
Objetivos:
Comparar os Tratamentos para o conjunto das p variáveis ìnferências sobre muitos vetores de Médias (Efeito do Tratamento) Delineamento
Completamente Aleatorizado
Unidades Amostrais 1 2 … j … p
1 Y111 Y112 Y11j Y11p
2 Y121 Y122 Y12j Y12p
… … … …
n1 Y1n11 Y1n12 Y1n1j Y1n1p
1 Y211 Y212 Y21j Y21p
2 Y221 Y222 Y22j Y22p
… … … …
n2 Y2n21 Y2n22 Y2n2j Y2n2p
… … … …
1 Yg11 Yg12 Yg1j Yg1p
2 Yg21 Yg22 Yg2j Yg2p
… … … …
ng Ygng1 Ygng2 Ygngj Ygngp
Variáveis
T1
T2
Tg
Tratamento Indivíduos
ijk
:
Y resposta do indivíduo j, do tratamento i, na variável k
MANOVA
Réplica P #GV P #GV P #GV P #GV
1 1082 4,66 1163 5,52 1544 5,18 1644 5,45
2 1070 4,5 1100 5,3 1500 5,1 1600 5,18
3 1180 4,3 1200 5,42 1550 5,2 1680 5,18
4 1050 4,7 1190 5,62 1600 5,3 1700 5,4
5 1080 4,6 1170 5,7 1540 5,12 1704 5,5
Média 1092,4 4,55 1164,6 5,51 1546,8 5,18 1665,6 5,34
S 2558,8 1525,8 1271,2 1908,8
-7,23 0,0255 3,55 0,0251 2,65 0,0062 3,51 0,0231
Cultivar
A B C D
Inferência sobre muitos Vetores de Médias
Respostas de produtividade (P) em kg/ha e número de grãos por vagem (#GV) para 4 variedades de feijão (A, B, C e D) plantadas em 5 canteiros
Comparação das 4 variedades de feijão relativamente às variáveis produtividade e número de grãos por vagem
diferença uma
menos pelo
:
, :
1
2 1 4
3 2
1 0
H
H μ μ μ μ μ
i
i
iRéplica P #GV P #GV P #GV P #GV
1 1082 4,66 1163 5,52 1544 5,18 1644 5,45
2 1070 4,5 1100 5,3 1500 5,1 1600 5,18
3 1180 4,3 1200 5,42 1550 5,2 1680 5,18
4 1050 4,7 1190 5,62 1600 5,3 1700 5,4
5 1080 4,6 1170 5,7 1540 5,12 1704 5,5
Média 1092,4 4,55 1164,6 5,51 1546,8 5,18 1665,6 5,34
S 2558,8 1525,8 1271,2 1908,8
-7,23 0,0255 3,55 0,0251 2,65 0,0062 3,51 0,0231
Cultivar
A B C D
Inferêcia sobre muitos Vetores de Médias
Respostas de produtividade (P) em kg/ha e número de grãos por vagem (#GV) para 4 variedades de feijão (A, B, C e D) plantadas em 5 canteiros
Estrutura de Tratamento: 1 único fator fixo (variedade) em 4 níveis
Estrutura de Aleatorização (atribuição dos tratam. às u.e.)
Delineamento Completamente Aleatorizado
Delineamento em Blocos Completos
Análise Multivariada de Dados
Objetivos:
Comparar as diferentes condições de avaliação relativamente ao conjunto das p variáveis em um delineamento com medidas repetidas
…
Unid. Am. 1 2 … p 1 2 … p
1 Y
111Y
112Y
11pY
k11Y
k12Y
k1p2 Y
121Y
122Y
12pY
k21Y
k22Y
k2p… … … … … … … … … …
n Y
1n1Y
1n2Y
1npY
kn1Y
kn2Y
knpCondição 1 Condição K
11,
12,...,
1p,
21,
22,...,
2pμ
Inferência sobre um Vetor de Médias
Tempo de anestalgia (milisegundos) de acordo com os anestésicos CO2 (nível
de pressão alto e baixo) e Halothane (níveis: ausente e presente)
Animal T1 T2 T3 T4
1 426 609 556 600
2 253 236 392 395
3 359 433 349 357
4 432 431 522 600
5 405 426 513 513
6 324 438 507 539
7 310 312 410 456
8 326 326 350 504
9 375 447 547 548
10 286 286 403 422
11 349 382 473 497
12 429 410 488 547
13 348 377 447 514
14 412 473 472 446
15 347 326 455 468
16 434 458 637 524
17 364 367 432 469
18 420 395 508 531
19 397 556 645 625
Média 368,21 404,63 479,26 502,89 S 2819,29
3568,42 7963,13
2943,5 5303,99 6851,32
2295,36 4065,46 4499,64 4878,99
T1: CO2 alto, sem Halothane T2: CO2 baixo, sem Halothane T1: CO2 alto, com Halothane T2: CO2 baixo, com Halothane
Estrutura Fatorial de Tratamento
Delineamento com Medidas repetidas
Inferêcia sobre um Vetor de Médias
Animal T1 T2 T3 T4
1 426 609 556 600
2 253 236 392 395
3 359 433 349 357
4 432 431 522 600
5 405 426 513 513
6 324 438 507 539
7 310 312 410 456
8 326 326 350 504
9 375 447 547 548
10 286 286 403 422
11 349 382 473 497
12 429 410 488 547
13 348 377 447 514
14 412 473 472 446
15 347 326 455 468
16 434 458 637 524
17 364 367 432 469
18 420 395 508 531
19 397 556 645 625
Média 368,21 404,63 479,26 502,89 S 2819,29
3568,42 7963,13
2943,5 5303,99 6851,32
2295,36 4065,46 4499,64 4878,99
1,
2,
3,
4μ
Efeito do Halothane:
3
4
1
2
Efeito do CO2:
1
3
2
4
Efeito de Interação:
1
4
2
3
μ 0 C
0
: H
C -1 1 -1 -1 1 1 -1 1
1 -1 -1 1
Intervalos de confiança simultâneos para cada constraste
(testar primeiro o efeito de interação)
Inferência sobre muitos Vetores de Médias
Animal T1 T2 T3 T4
1 426 609 556 600
2 253 236 392 395
3 359 433 349 357
4 432 431 522 600
5 405 426 513 513
6 324 438 507 539
7 310 312 410 456
8 326 326 350 504
9 375 447 547 548
10 286 286 403 422
11 349 382 473 497
12 429 410 488 547
13 348 377 447 514
14 412 473 472 446
15 347 326 455 468
16 434 458 637 524
17 364 367 432 469
18 420 395 508 531
19 397 556 645 625
Média 368,21 404,63 479,26 502,89 S 2819,29
3568,42 7963,13
2943,5 5303,99 6851,32
2295,36 4065,46 4499,64 4878,99
Halothane
Mean
2 1
500 475 450 425 400 375 350
CO2 1 2
Gráfico de perfis de médias
Há indicação de efeito de
interação ?
Inferência sobre um Vetor de Médias
Por que realizar comparações de “vetores” de médias ?
Porque há interesse na análise conjunta de várias variáveis
Realizar inferências mais precisas devido a incorporar a informação da covariância entre variáveis
Realizar comparações entre os parâmetros associados às diferentes variáveis
Construir níveis de significância coletivos para as comparações de interesse
Inferência sobre um Vetor de Médias
μ Σ
Y Y
Y
1,
2,...,
n~ N
p;
Notação
nj
p j
p 1
n
1 ( 1)1 Y
Y
amostra aleatória
nj
j j
p
p
n 1
11 Y Y Y Y
S
Estatística de Hotelling T
2:
1
,( )1 2
~ 1 F
p n pp n
p n n
T n
μ Y μ S
Y
μ S Y
μ Y
Correspondência com a estatística de teste univariado
Inferência sobre um Vetor de Médias
2
1 2
1
, Y ,..., Y ~ N ;
Y
nNotação
Estatística de t de Student : ~ t
(n1)n
s t Y
2
2
2 1
(2 1) 1,( 1)2
n Y s
Y ~ t
n F
nn s
t Y
Caso Univariado (p=1)
medida de “distância”
ao quadrado
Y s
n Y
n
2 1Variável Normal
Variável Normal Variável Qui-
Quadrado/g.l.
Inferência sobre um Vetor de Médias
Correspondência entre as estatísticas de teste dos casos uni e multivariado
1,( 1)2 ) 1 ( 2 1
2 2
2
n Y s
Y ~ t
n F
nn s
t Y
,( )1 1
2
1
~ F
p n pp n
p n n
T n
S Y μ Y μ S Y μ
μ Y
2 (2 1) 1,( 1)2 2 0
0
0
: t
n F
nn s t Y
H
0
1 0
,( )
2 0
0
: 1 F
p n pp n
p S n
n T
H
μ Y μ Y μ
μ
Pode ser calculada para cada variável
Teste conjunto para
as p variáveis
Indiv. Açucar Sódio Potássio
1 3,7 48,5 9,3
2 5,7 65,1 8
3 3,8 47,2 10,9
4 3,2 53,2 12
5 3,1 55,5 9,7
6 4,6 36,1 7,9
7 2,4 24,8 14
8 7,2 33,1 7,6
9 6,7 47,4 8,5
10 5,4 54,1 11,3
11 3,9 36,9 12,7
12 4,5 58,8 12,3
13 3,5 27,8 9,8
14 4,5 40,2 8,4
15 1,5 13,5 10,1
16 8,5 56,4 7,1
17 4,5 71,6 8,2
18 6,5 52,8 10,9
19 4,1 44,1 11,2
20 5,5 40,9 9,4
Média 4,64 45,4 9,97
S 2,879
10,002 199,798
-1,81 -5,627 3,628
Inferência sobre um Vetor de Médias
4 , 50 , 10
:
10 , 50 , 4 :
1 0
μ
μ H
Taxas de açucar, sódio e potássio H
sangüíneas em 20 mulheres adultas
0,586155 -0,0220857 0,257969 -0,022086 0,0060672 -0,001581 0,257969 -0,0015809 0,401847
S
-1=
1 9 , 74
2
n Y μ S
Y μ T
18 , 8 ) 10 , 0 (
* 17 / ) 3
* 19
( F
3,17
Estatística de teste:
Valor crítico a um nível =0,10:
Conclusão: ?
Indiv. Açucar Sódio Potássio
1 3,7 48,5 9,3
2 5,7 65,1 8
3 3,8 47,2 10,9
4 3,2 53,2 12
5 3,1 55,5 9,7
6 4,6 36,1 7,9
7 2,4 24,8 14
8 7,2 33,1 7,6
9 6,7 47,4 8,5
10 5,4 54,1 11,3
11 3,9 36,9 12,7
12 4,5 58,8 12,3
13 3,5 27,8 9,8
14 4,5 40,2 8,4
15 1,5 13,5 10,1
16 8,5 56,4 7,1
17 4,5 71,6 8,2
18 6,5 52,8 10,9
19 4,1 44,1 11,2
20 5,5 40,9 9,4
Média 4,64 45,4 9,97
S 2,879
10,002 199,798
-1,81 -5,627 3,628
Inferência sobre um Vetor de Médias
4 , 50 , 10
:
10 , 50 , 4 :
1 0
μ
μ H
Taxas de açucar, sódio e potássio H
sangüíneas em 20 mulheres adultas
0,586155 -0,0220857 0,257969 -0,022086 0,0060672 -0,001581 0,257969 -0,0015809 0,401847
S
-1=
1 9 , 74
2
n Y μ S
Y μ T
18 , 8 ) 10 , 0 (
* 17 / ) 3
* 19
( F
3,17
Estatística de teste:
Valor crítico a um nível =0,10:
Conclusão: Rejeitar H0 Existe pelo
menos uma diferença entre as médias
populacionais, ou combinações lineares
delas, e os valores de referência
Inferência sobre um Vetor de Médias
μ Σ Y
Y
Y
1,
2,...,
n~ N
p;
Estatística Razão de Verossimilhanças
n j
j n j
L
np1
0 1
2 0 2 /
0 /
2 exp 1
2
| 1
; Σ Y Y μ Y μ
μ
μ
0 0
0
0
: μ μ : μ μ
H H
Função de Verossimilhança sob H0:
Estatística Razão de Verossimilhanças:
2 /
1
0 0
1 2
/
, 0
0
ˆ ˆ
|
; max
|
; max
n
n
j
j j
n
j
j j
n
L L
μ μ Y
Y
Y Y
Y Y
Σ Y μ
Σ Y μ
μ
2
~
0ln
2
Resultado assintótico e sob
condições de regularidade
Estatística
Lambda de Wilks
distância generalizada ao quadrado
Inferência sobre um Vetor de Médias
μ Σ
Y Y
Y
1,
2,...,
n~ N
p;
Estatística de Hotelling e Estatística Razão de Verossimilhanças
0 0
0
0
: μ μ : μ μ
H H
2 1
0 /
2
) 1 1 (
ˆ
ˆ
n
n
T
Σ Σ
H0 é rejeitada para valores pequenos da estatística Lambda de Wilks e valores grandes da estatística de Hotelling
1
ˆ 1 ˆ
02
n n
T Σ
Σ
O seguinte resultado pode ser demonstrado:
Inferência sobre um Vetor de Médias
μ Σ
Y Y
Y
1,
2,...,
n~ N
p;
Regiões de Confiança Multivariada para o Vetor de Parâmetros
μ
1,
2,...,
p
,( )
21
1
p n
F
pp n
p c n
n
μ S Y μ Y
R(Y): Região de confiança a 100(1-)% para o vetor de médias de uma distribuição Normal p-dimensional é o conjunto determinado por todos os pontos que satisfazem:
Estes elipsóides estão centrados em e os seus eixos estão na direção dos autovetores de S e seus comprimentos são proporcionais à raiz quadrada dos autovalores de S .
Deste modo, os elipsóides têm eixos , onde , j=1,…,p. c
jP
kjj j
j
P
P
S
Inferência sobre um Vetor de Médias
Regiões de Confiança Multivariada para o Vetor de Parâmetros
p;
1 21 F
p,(np)
p n
p c n
n
R Y μ Y μ S Y μ
Para determinar se algum ponto
0cai na região R(Y) basta calcular a distância generalizada ao quadrado e compará-la com o valor crítico dado em função da distribuição F e do nível de significância , isto é,
,( )
20 1
0
1
p n
F
pp n
p c n
n
μ S Y μ Y
Logo, a região R(Y) consiste de todos os pontos
0para os quais a
estatística de teste T2 não deve rejeitar H0 em favor de H1 a um
nível de significância .
Indiv. Açucar Sódio Potássio
1 3,7 48,5 9,3
2 5,7 65,1 8
3 3,8 47,2 10,9
4 3,2 53,2 12
5 3,1 55,5 9,7
6 4,6 36,1 7,9
7 2,4 24,8 14
8 7,2 33,1 7,6
9 6,7 47,4 8,5
10 5,4 54,1 11,3
11 3,9 36,9 12,7
12 4,5 58,8 12,3
13 3,5 27,8 9,8
14 4,5 40,2 8,4
15 1,5 13,5 10,1
16 8,5 56,4 7,1
17 4,5 71,6 8,2
18 6,5 52,8 10,9
19 4,1 44,1 11,2
20 5,5 40,9 9,4
Média 4,64 45,4 9,97
S 2,879
10,002 199,798
-1,81 -5,627 3,628
Inferência sobre um Vetor de Médias
0 1
0 0
:
10 , 50 , 4 :
μ μ
μ μ
H
H
Taxas de açucar, sódio e potássio sangüíneas em 20 mulheres adultas
0 9 , 74
1 0
2
n Y μ S
Y μ
T
1 3,(17)
3 20
1
; 20 p F
n
R Y μ Y μ S Y μ
72 , 10 05
, 0
18 , 8 10
, 0
Conclusão: ?
Inferência sobre Componentes do Vetor de Médias
Comparações Simultâneas de Componentes do Vetor de Médias
n j
Y l Y
l Y l l
Z
j Y
j
1 1j
2 2j ...
p pj 1 , 2 ,...,
μ Σ
Y Y
Y
1,
2,...,
n~ N
p; μ
1,
2,...,
p
Considere combinações lineares das p variáveis:
l l l
N l
Z
iid j
j
Y ~
1 μ ; Σ
Y l
Z s
Z2 l S l
n l t l
n l l t l
l
n nS
S Y
Y
1( / 2 ) ;
1( / 2 )
n t s
n t s
l 0 , 0 ,..., 1 ,..., 0 , 0
k n 1( / 2 )
kk;
k n 1( / 2 )
kkposição k
Intervalos de confiança a 100(1-)% para cada média
qual o nível de confiança global ?
limitação
Inferência sobre Componentes do Vetor de Médias
Comparações Simultâneas de Componentes do Vetor de Medias Intervalos de confiança Simultâneos com coeficiente de
confiança “coletivo” 100(1-)%:
μ Σ
Y Y
Y
1,
2,..., ~
p;
iid
n
N
pj p j
j j
j
l l Y l Y l Y
Z Y
1 1
2 2 ... Z l N l l l
iid j
j
Y ~
1 μ ; Σ
n l F l
p n
p l n
n l F l
p n
p
l n
p n p p n pS
S Y
Y 1
,( ) ; 1
,( )
Para garantir um nível coletivo igual a (1-), os intervalos
simultâneos são mais largos que os individuais.
Inferência sobre Componentes do Vetor de Médias
n l F l
p n
p l n
n l F l
p n
p l n
l C
I
p n p p n pS
S Y
Y
1
,( ); 1
,( )% 1
100 a .
.
Para grandes tamanhos amostrais
R Y μ ; n Y μ S
1Y μ
2p
l l l n l l l n
S C
I . . . a 100 1 % Y
p2 S / ; Y
p2 S /
p;
1 21 F
p,(np)
p n
p c n
n
R Y μ Y μ S Y μ
Inferência sobre Componentes do Vetor de Médias
Comparações Simultâneas de Componentes do Vetor de Médias
n l F l
p n
p l n
n l F l
p n
p
l n
p n p p n pS
S Y
Y 1
,( ) ; 1
,( )
n F s
p n
p Y n
n F s
p n
p Y n
l
k1
p,(n p)
kk;
k1
p,(n p)
kk0
..., 0 , 1 , 0 ,..., 0
Para a variável k adotar a combinação canônica:
Comparações entre Médias das variáveis: (quando há interesse!):
n s s
F s p n
p Y n
n Y s s
F s p n
p Y n
Y
k k p n p kk kk kk k k1
p n p kk2
kk kk2 ; 1
) ( , )
(
,
Incorpora informação das covariâncias
Indiv. Açucar Sódio Potássio
1 3,7 48,5 9,3
2 5,7 65,1 8
3 3,8 47,2 10,9
4 3,2 53,2 12
5 3,1 55,5 9,7
6 4,6 36,1 7,9
7 2,4 24,8 14
8 7,2 33,1 7,6
9 6,7 47,4 8,5
10 5,4 54,1 11,3
11 3,9 36,9 12,7
12 4,5 58,8 12,3
13 3,5 27,8 9,8
14 4,5 40,2 8,4
15 1,5 13,5 10,1
16 8,5 56,4 7,1
17 4,5 71,6 8,2
18 6,5 52,8 10,9
19 4,1 44,1 11,2
20 5,5 40,9 9,4
Média 4,64 45,4 9,97
S 2,879
10,002 199,798
-1,81 -5,627 3,628
Inferência sobre um Vetor de Médias
Taxas de açucar, sódio e potássio sangüíneas em 20 mulheres adultas
1 3,(17)
3 20
1
; 20 p F
n
R Y μ Y μ S Y μ
72 , 10 05
, 0 18
, 8 10
,
0
20 17
3
*
; 19 20 17
3
* 19
) 3 20 ( , 3 17
, 3
kk k
kk k
F s s Y
F
Y
0 1
0 0
:
10 , 50 , 4 :
μ μ
μ μ
H
H
0 9 , 74
1 0
2
n Y μ S
Y μ
T
Calcule os intervalos de confiança
simultâneos a 100(1-)% para cada média:
Indiv. Açucar Sódio Potássio
1 3,7 48,5 9,3
2 5,7 65,1 8
3 3,8 47,2 10,9
4 3,2 53,2 12
5 3,1 55,5 9,7
6 4,6 36,1 7,9
7 2,4 24,8 14
8 7,2 33,1 7,6
9 6,7 47,4 8,5
10 5,4 54,1 11,3
11 3,9 36,9 12,7
12 4,5 58,8 12,3
13 3,5 27,8 9,8
14 4,5 40,2 8,4
15 1,5 13,5 10,1
16 8,5 56,4 7,1
17 4,5 71,6 8,2
18 6,5 52,8 10,9
19 4,1 44,1 11,2
20 5,5 40,9 9,4
Média 4,64 45,4 9,97
S 2,879
10,002 199,798
-1,81 -5,627 3,628
Inferência sobre um Vetor de Médias
Taxas de açucar, sódio e potássio sangüíneas em 20 mulheres adultas
3 , 56 ; 5 , 73
20 879 , 18 2 , 8 64 ,
4
36 , 36 ; 54 , 40
20 798 , 18 199 , 8 4 ,
45
8 , 75 ; 11 , 19
20 628 , 18 3 , 8 97 ,
9
Intervalos de confiança simultâneos a 90%:
Para Sódio Para Potássio Para Açucar
Conclusão: As médias não diferem dos valores de referência mas, existe alguma combinação linear entre as médias que difere
significativamente (10%) do correspondente
valor de referência contudo para estes dados
não há interesse em comparar tais medidas!
Inferência sobre um Vetor de Médias
Intervalos de Confiança Univariados e Simultâneos
n t s
n Y t s
Y C
I .
ka 100(1 - )%
k n 1 / 2
kk;
k n 1 / 2
kk
ks
pP
todos os p intervalos conterem os ' 1 Sob independência
n F s
p n
p Y n
n F s
p n
p Y n
S C
I
k
k1
p,(n p)
kk;
k1
p,(n p)
kk% 1
100 a .
.
1 0 , 95 , p 4 , n 15 ConfiançaC oletiva 0 , 95
4 0 , 81 t
14 / 2 2 , 145
Nível coletivo igual a (1-) intervalos simultâneos são mais largos que os individuais:
% 145 93
, 2
145 , 2 14 , 100 4 14
, ) 4
(
) 1 4 (
, 15 ,
95 , 0
1
,
F
p np
p n
p p n
n
mais largos
Inferência sobre um Vetor de Médias
O Método de Bonferroni para Comparações Múltiplas Probabilidade de erro total
para Múltiplos Testes (sob independência)
1+
2+…+
p= p
n p s
t n Y
p s t
Y
1 n 1 / 2
11;
1 n 1 / 2
11
n p s
t n Y
p s t
Y
2 n 1 / 2
22;
2 n 1 / 2
22
n p s
t n Y
p s t
Y
p n 1 / 2
pp;
p n 1 / 2
pp… …
O critério de Bonferroni para correção de múltiplos testes é
conservador
Bastante utilizado para
comparações de subconjuntos de médias (m<p)
/2m
Intervalos e Regiões de Confiança
Intervalos de Confiança Univariados e Simultâneos
Everitt, 2002
Y1 Y2
P
Q
Comente as vantagens de análises multivariadas.
Comente as decisões tomadas para os pontos P e Q sob análises univariadas e multivariadas. Justifique.
n t s
Y C I
kk n
k k
2 /
)%
- 100(1
a .
1
n
F s p n
p Y n
S C I
kk p
n p k
k
) ( ,
1
% 1
100 a .
.
Y μ S Y μ
12
n
T
Inferência sobre um Vetor de Médias
Aptidão Musical Média d.p.
Y1: Melodia 28,1 5,76
Y2: Harmonia 26,6 5,85
Y3: Tempo 35,4 3,82
Y4: Métrica 34,2 5,12
Y5: Verbalização 23,6 3,76
Y6: Balanço 22 3,93
Y7: Estilo 22,7 4,03
Score
Um educador em Música testou 96 estudantes Finlandeses quanto às suas habilidades na música nativa. A média e desvio padrão dos
escores obtidos estão apresentados na tabela a seguir.
Construa intervalos de confiança para os verdadeiros escores médios de cada tipo de aptidão considere os intervalos univariados e os intervalos simultâneos.
Comente sobre os níveis de confiança coletivos em cada caso.
Aptidão Musical Média d.p. L.I. L.S.
Y1: Melodia 28,1 5,76 26,06 30,14
Y2: Harmonia 26,6 5,85 24,53 28,67
Y3: Tempo 35,4 3,82 34,05 36,75
Y4: Métrica 34,2 5,12 32,39 36,01
Y5: Verbalização 23,6 3,76 22,27 24,93
Y6: Balanço 22 3,93 20,61 23,39
Y7: Estilo 22,7 4,03 21,27 24,13
Score I.C. Simultâneo
Inferência sobre um Vetor de Médias
Para grandes tamanhos amostrais:
l l l n l l l n
S C
I . . . a 90 % Y
p20 , 10 S / ; Y
p20 , 10 S /
O vetor de aptidões médias de um certo grupo de estudantes é:
(31, 27, 34, 31, 23, 22, 22). Há evidência de que trata-se de
estudantes Finlandeses?
Inferência sobre Vetores de Médias de Duas Populações
Generalizar os resultados do Caso Univariado para o Multivariado Caso Univariado: Apresente exemplos para as duas situações.
Comparações Pareadas:
Comparações Independentes:
Y
1j; Y
2j j 1 , 2 ,..., n
j n
N Y
Y
D
j
1j
2j~
D
1
2;
D2 1 , 2 ,...,
1
0
~
/ 0
:
nD
D
t
n s
t D
H
21 22 2 1
2 22
2 1 1 1 1
12
11
, ,..., ~ ; , ,..., ~ ;
2
1
N Y Y Y N
Y Y
Y
n n
2
2 1
2 2 1
2 2
1
0
~
1 21 1
; 0
:
n nc
D
t
n s n
Y t Y
H
Inferência sobre Vetores de Médias de Duas Populações
Caso Multivariado
Comparações Pareadas respostas multivariadas são avaliadas na mesma unidade amostral nas “duas” condições (lembre da situação Antes e Depois)
Y
jY
jY
jp
j Y
jY
jY
jp j n
j 1 1
,
1 2,...,
1 2 2 1,
2 2,...,
21 , 2 ,...,
1
Y
Y
D D D N j n
Y Y
D
jk
1jk
2jk
j
j1,
j2,...,
jp ~
p,
D 1 , 2 ,...,
D δ Σ
D F
p n pp n
p n n
T
H
0 2 0 1 0 ,0
( )
) 1
~ (
: δ δ D δ S D δ
n F S
p n
p D n
S C
I
k
k p,(n p)
Dkk) (
) 1 )% (
1 ( 100 a .
.
n m S
t D C
I .
ka 100 ( 1 )%
k
n1 / 2
Dkk
Intervalo de Confiança Simultâneo Intervalo de Confiança com
correção de Bonferroni
Comparações Pareadas Multivariadas
X11 X12 X21 X22
10 80 13 90
11 80 15 92
9 60 16 88
8 60 19 90
Antes Depois
Produção leiteira média por animal (X1) e renda total diária de leite nas situações Antes e Depois do plano governamental “Panela Cheia”.
Dados de 4 fazendas do oeste Paulista.
Teste a hipótese de que o plano foi ineficiente em aumentar a média dos dois índices zootécnicos
Calcule também os intervalos de confiança simultâneos e de Bonferroni.
Comente sobre o tamanho amostral e graus de liberdade.
Comparações Pareadas Multivariadas
X11 X12 X21 X22
10 80 13 90
11 80 15 92
9 60 16 88
8 60 19 90
Antes Depois
12,92 34,67 34,67 109,33 S
D=
0,520 -0,165 -0,165 0,061 S
D-1=
20 25 , 6
2 1
D D D
4 ( 3 , 663 ) 14 , 652 0 , 1699
0
:
2 10
T n
p
H δ D S
DD Concl ?
19 , 45 ; 59 , 45
45 , 39 20
4 / 23 , 109 ) 19 ( 3 20
82 , 19
; 32 , 7 57
, 13 25
, 6 4 / 92 , 12 ) 19 ( 3 25
, 6
n F S
p n
p D n
S C
I
k k p n p0 , 05
Dkk) (
) 1
% ( 95 a .
.
,( )
Variável 1:
Variável 2:
Concl ?
Comparações Pareadas Multivariadas
X11 X12 X21 X22
10 80 13 90
11 80 15 92
9 60 16 88
8 60 19 90
Antes Depois
12,92 34,67 34,67 109,33 S
D=
0,520 -0,165 -0,165 0,061 S
D-1=
20 25 , 6
2 1