MAE5776
ij n pp
n
Y
Y
Matriz de Dados: Estatísticas descritivas multivariadas
- Definidas no espaço das colunas (p-vetores n-dimensionais):
- Definidas no espaço das linhas (n-vetores p-dimensionais):
-Propriedades em espaços duais:
1 1
,
,
,
p p p p p p
p
S R S
Y
n n d
ij2, d
Pij2, d
Mij2D
nSp p HY HY V V
Matriz Aleatória: Propriedades distribucionais
n p; ~
1 1;
;
1 ~
1 1;
n p ij n p n p n p np np n n p p np np n p
Y Y Y N vecY N - Estimadores e Distribuições Amostrais: Yip1 iid~ Np
;
Yp1 ~ Np
; / n
- Regiões (elipsoides) de Confiança para :
i i p; M2 ( ; )i
i
u1 i
2; 2 2p( )R Y Y d Y Y Y S Y Y c c
Regiões (elipsóides) de Concentração de Observações:
1/ 2 1
; n 1 1n n HY U V H I n
Bn n HY HY U U
~ 1;
p p p
nS W n
1
2 2 ( ;2 1)
,( )
| p; u ; p n ( ) n 1 p p n p
R Y n Y S Y c c T F
n p
Inferência – Análise Multivariada
Por que realizar Testes de “vetores” de médias?
Testes Multivariados Testes Univariados
Há interesse na análise conjunta de múltiplas variáveis
Realizar inferências mais “precisas” devido a incorporar a informação da covariância entre variáveis
Realizar comparações entre os parâmetros associados às diferentes variáveis:
construir contrastes entre medias das variáveis
Construir níveis de significância coletivos Correções para múltiplos testes
1
01 1
0 1 1
0
: 0
~ ; , : 0 ...
: 0
p
iid
i p p
p p
H
Y H
H
Bonferroni, FDR
Testes de Hipóteses
|
; f y
Y
Y : Inferências sobre o parâmetro p ; pxp Hipóteses:
O Problema de Decisão: Rejeitar ou Não-Rejeitar a Hipótese Nula?
1 0
1 0
0
0 : H : ;
H
Teste:
Região Crítica:
Erros
0
0
rejeitar 1
rejeitar não
; 0 1 , 0
: H
y H
Y
; 1
1 1
y y
R
c Y Região de rejeição de H0 Função Poder:
Tipo I: Rejeitar H0 | H0 V ; P(erro I) = : Nível de significância Tipo II: Não Rejeitar H0 | H0 F ; P(erro II) =
1
0( ) 1|
: 0,1 ; ( ) 1|
( ) 1| 1
P y P y
P y
Hipótese Simples: i 1 Hipótese Composta: i 1
Região de Aceitação:
R ( Y ) y
Y; y 0
1 0
Região de confiançaPoder do teste
Teste da Razão de Verossimilhanças
Definição: A estatística da Razão de Verossimilhanças para testar H0 x H1 , com L(|y) a função de verossimilhança, é:
1,...,
; 1 ~
|
,
;
p i
iid
n p n i Y i
Y Y Y Y f y
1 0
1 0
0
0 : H : ;
H
*1* 0
| sup
| sup
1 0
L L y
L
y
y L
ou, equivalentemente, 2ln 2
ln L*1 ln L*0
2 l1* l0*
; ; , sup |
0 c
Y
c y y c c P y R
R
Teorema: Se e é uma sub-região de , então sob condições de regularidades satisfeitas para f, para cada ,
q
1 0 r 1
0
~
2ln
2
q rn
H0q:pr10;p p p( p p1) / 2 p p( 1) / 2 p
; 2 ln
; , sup 0
|
c Y c
R y y c c P y R
Teste da Razão de Verossimilhanças Uma Única População
,..., ; ~ ;
1 n i 1 iid p
p
n Y Y Y N
Y p H0 : 0 ; conhecido
( , | ) L Y
/ 2 / 2
1
/ 2 1/ 2 1 1 1
1 1
exp (2 )
2 2
n p n tr nS n Y Y
i i
np n
i
y y e
ln *1 ln *0
2 1* 0*
2 ln
2 L L l l
Estatística da Razão de verossimilhanças:
0
1 0
1 0
*
0 lnL ; (1/2)nln2 (1/2)ntr S (1/2)n Y Y l
Y n ntr SL
l1* ln ; (1/2) ln 2 (1/2) 1
0
1 0
0 1 0 22 ln n Y Y nd d ~ p
Regra de Decisão:
0 0 2
0 2
H Rejeitar Não
. .
H Rejeitar
, cc
Y
ndM p
Teste de Hipóteses para o Vetor Uma Única População
Família Comprimento Perímetro Comprimento Perímetro
1 191 155 179 145
2 195 149 201 152
3 181 148 185 149
4 183 153 188 149
5 176 144 171 142
6 208 157 192 152
7 189 150 190 149
8 197 159 189 152
9 188 152 197 159
10 192 150 187 151
11 179 158 186 148
12 183 147 174 147
13 174 150 185 152
14 190 159 195 157
15 188 151 187 158
16 163 137 161 130
17 195 155 183 158
18 186 153 173 148
19 181 145 182 146
20 175 140 165 137
21 192 154 185 152
22 174 143 178 147
23 176 139 176 143
24 197 167 200 158
25 190 163 187 150
1° Filho 2° Filho
Morfometria cefálica para os dois primeiros filhos de 25 famílias (Everitt, 2007)
4 1,..., 25 ; ~ 4 ;
25 Y Y Y41 N
Y
iid i
185,72 151,12 183,84 149,24 Y
Estatísticas Descritivas:
222 , 43
278 , 54 775 , 96
651 , 33 259 , 49 186 , 52
267 , 44 875 , 66 753 , 50 481 , 91 S
Teste de Hipóteses para o Vetor Uma Única População
Família Comprimento Perímetro Comprimento Perímetro
1 191 155 179 145
2 195 149 201 152
3 181 148 185 149
4 183 153 188 149
5 176 144 171 142
6 208 157 192 152
7 189 150 190 149
8 197 159 189 152
9 188 152 197 159
10 192 150 187 151
11 179 158 186 148
12 183 147 174 147
13 174 150 185 152
14 190 159 195 157
15 188 151 187 158
16 163 137 161 130
17 195 155 183 158
18 186 153 173 148
19 181 145 182 146
20 175 140 165 137
21 192 154 185 152
22 174 143 178 147
23 176 139 176 143
24 197 167 200 158
25 190 163 187 150
1° Filho 2° Filho
Morfometria cefálica para os dois primeiros filhos de 25 famílias (Everitt, 2007)
4 1,..., 25 ; ~ 4 ;
25 Y Y Y41 N
Y
iid i
33 13
13 11
3 1 2
3 1
2; , ~ ;
1
2
N Y
Y Y
Y
iid i i i
n
100 0
0
; 100 182
: 182
0
H
Distribuição marginal:
1159 , 0 31
, 4 ln
2
p valor
Hipóteses:
Estatística LR:
22 5,99
0,95 PConclusão: Não há evidência amostral para rejeitar H0
,..., ; ~ ;
1 n i 1 iid p
p
n Y Y Y N
Y p H0 : 0 ; desconhecido
2 ln 2 l
1*l
0*n ln 1 d
0S
1d
0Estatística da Razão de verossimilhanças:
0 0
0 0 0
0
0 : ˆ , ˆ ;
SobH
S d d d Y
L n p S d S d p
l0* ln
0; ˆ0 ( 1/2) ln 2
ln ln 1 0 1 0 SY
H : ˆ , ˆ
Sob 1
n1
d0S1d0 ~T(2p;n1))
; ( 0
1
0 S d ~ F p n p p d
p n
Teste de Hipóteses para o Vetor Uma Única População
Teste T2 de Hotelling para uma População
Teste de Hipóteses para o Vetor Uma Única População
Família Comprimento Perímetro Comprimento Perímetro
1 191 155 179 145
2 195 149 201 152
3 181 148 185 149
4 183 153 188 149
5 176 144 171 142
6 208 157 192 152
7 189 150 190 149
8 197 159 189 152
9 188 152 197 159
10 192 150 187 151
11 179 158 186 148
12 183 147 174 147
13 174 150 185 152
14 190 159 195 157
15 188 151 187 158
16 163 137 161 130
17 195 155 183 158
18 186 153 173 148
19 181 145 182 146
20 175 140 165 137
21 192 154 185 152
22 174 143 178 147
23 176 139 176 143
24 197 167 200 158
25 190 163 187 150
1° Filho 2° Filho
Morfometria cefálica para os dois primeiros filhos de 25 famílias (Everitt, 2007)
4 1,..., 25 ; ~ 4 ;
25 Y Y Y41 N
Y
iid i
33 13
13 11
3 1 2
3 1
2; , ~ ;
1
2
N Y
Y Y
Y
iid i i i
n
do desconheci
182 ; : 182
0
H
Distribuição marginal:
2971 ,
0 28
,
0 1
1
0
valor p
d S p d
p n
Hipóteses:
Estatística de Hotelling:
F(2,23) 3,44
0,95 PConclusão: Não há evidência amostral para rejeitar H0
n
i iid p
p pp
n Y Y Y N
Y p
~ ; ;
; ,...,
1 1
Teorema: H H Y . Então:
EMVS
EMVS
0 1
0 ˆ , Sob
Sob
Teste de Hipóteses para o Vetor Uma Única População
Para conhecido:
S d d d Y H S n Y Y Y Y
H i i
EMVS EMVS
1 1
0 0
0 0
0 ; ˆ ; Sob
Sob
Para desconhecido:
Estatística da Razão de Verossimilhanças:
0
1 0
~ 2ln
2 nY Y p
0 1 0 ( ;2 1) ( ; )( 1)
1 ~ p n n p p n p
n d S d T F
n p
1 2
0 0 ( ; 1) ( ; )
( 1)
u ~ p n p n p
n p
n d S d T F
n p
Inferência sobre um Vetor de Médias
Correspondência entre as Estatísticas de Teste dos casos Uni e Multivariado
1,( 1) 2) 1 ( 2 1
2 2
2 n Y s Y ~ t n F n
n s
t Y
1
,( )1
2 1
~ p n p
u
u F
p n
p μ n
Y μ S
Y n d S nd
T
2 (2 1) 1,( 1)2 2 0
0
0 : t n F n
n s t Y
H
0
1 0
,( )
2 0
0
: 1 Fp n p
p n
p μ n
Y μ S
Y n μ T
H μ
Pode ser calculada para cada variável
Teste conjunto para as p variáveis
,..., ; ~ ;
1 n i 1 iid p
p
n Y Y Y N
Y p
conhecido
;
: 0
0 des
H
Estatística Lambda de Wilks:
1
0 1 0 ~ (2; 1);2
n d S d T p n
T d0 S 1d0 ~ F(p;n p) p
p n
Teste de Hipóteses para o Vetor Uma Única População
1
1
1
;ˆ ˆ 1
;
~ (2; 1) 2 0 2/
0 1 0
2
n n n n
T T
d S nd
T u p n n
2 /
0 2
/
1
0 0
0 1 /
2
ˆ ˆ ˆ ;
ˆ n
n
n
i
i i
n
i
i i
n
Y Y
Y Y Y Y
Estatística Lambda de Wilks
Estatística de Hotelling e Estatística Lambda de Wilks
2 1
0 /
2
) 1 1 (
ˆ
ˆ
n
n T
Σ Σ
H0 é rejeitada para valores “pequenos” da estatística Lambda de Wilks e valores “grandes” da estatística de Hotelling
1
ˆ 1 ˆ 0
2
n
n
T Σ
Σ
Teste de Hipóteses para o Vetor Uma Única População
,..., ; ~ ;
1 n i 1 iid p
p
n Y Y Y N
Y p H0 : 0 ; desconhecido
Regra de Decisão: Rejeitar H0
2 2
) 1 , ( 2
c
T T p n
,..., ; ~ ;
1 n i 1 iid p
p
n Y Y Y N
Y p H0 : 0 ; desconhecido
Teste de Hipóteses para a Matriz Uma Única População
ln 1
ln 2
ln
2
1* 0* 01 01
g a
np
np S
n S tr
n l
l
Estatística da Razão de verossimilhanças:
0 0
0 : ˆ , ˆ
Sob H
Y l L
Y 0
n
0 tr 01S
*
0 ln ; (1/ 2) ln 2
S Y
H : ˆ , ˆ
Sob 1
l1* ln L
Y ;S (1/ 2)n
ln 2
S p
a: média aritmética dos autovalores de g: média geométrica dos autovalores de
1S
0
1S
0
2
2 / ) 1 (
0,
~ ln
2
H n
p pNa Regra de Decisão:
Distribuição desta variável não é simples uso da teoria assintótica
Teste de Hipóteses para a Matriz Uma Única População
Família Comprimento Perímetro Comprimento Perímetro
1 191 155 179 145
2 195 149 201 152
3 181 148 185 149
4 183 153 188 149
5 176 144 171 142
6 208 157 192 152
7 189 150 190 149
8 197 159 189 152
9 188 152 197 159
10 192 150 187 151
11 179 158 186 148
12 183 147 174 147
13 174 150 185 152
14 190 159 195 157
15 188 151 187 158
16 163 137 161 130
17 195 155 183 158
18 186 153 173 148
19 181 145 182 146
20 175 140 165 137
21 192 154 185 152
22 174 143 178 147
23 176 139 176 143
24 197 167 200 158
25 190 163 187 150
1° Filho 2° Filho
Morfometria cefálica para os dois primeiros filhos de 25 famílias (Everitt, 2007)
33 13
13 11
3 1 2
3 1
2; , ~ ;
1
2
N Y
Y Y
Y
iid i i i
n
do desconheci 100 ;
0
0 : 100
0
H
Distribuição marginal:
0.0005071 70
, 17 ln
2
p valor
Hipótese:
Conclusão: Rejeitar H0
do desconheci 100 ;
50
50 : 100
0
H
0.2713 91
, 3 ln
2
p valor
Hipótese:
Conclusão: Não há evidência para Rejeitar H0
n
i iid p
p
p
n Y Y Y N I
Y ,..., ; p ~ ;
1 1
Teste da União Intersecção
A hipótese multivariada é verdadeira para todos os vetores l p
l l l
N Y
l l
iid i p
p
; ~ 1 ;
1
0
0 :
H Xil lYi iid~ N1
l ;ll
H0l : Xil iid~ N1
l0 ;ll
l lH H0 0
Teste de ~
0;1/ 1
0
0 N
n l l
l z X
H l l
; Rcl
zl; zl zc( /2)
zl; zl2 zc2( /2)
c l cl
R R A hipótese multivariada é rejeitada para pelo menos um vetor l p tal que zl Rcl
2 2
Não Rejeita H0 maxl zl zc ( / 2)
0
0
0 2 0
max max
;
nY Y
l l
l Y
Y l zl l n
l
) 2 /
2( zc
Desigualdade de Cauchy-Schuarz
Teste da União Intersecção
Importância prática: Quando a hipótese multivariada é rejeitada há interesse em qual componente das possíveis combinações lineares foi responsável pela rejeição.
O Teste da Razão de Verossimilhança não tem esta propriedade, exceto quando ambos os testes RL e UI conduzem ao mesmo critério de teste.
,..., ; ~ ;
1 n i 1 iid p
p
n Y Y Y N
Y p H0 : 0 ; desconhecido
1
1
~ ;maxl tl2 n Y
0 S1 Y
0 n d0S1d0 T(2p;n1) d0 S 1d0 ~ F(p;n p)p p n
l l l
N X
l Y
X x x
iid i
n1 ; ~ 1 ; 2
Sl l
l Y
Y n l
t n
s t X
H l
X
X l
l
l
2 0 0
0 2 ; 1
) 1 /(
;
;
~ (2; 1)
0 1
0
n p
u d T
S nd
Inferência sobre Componentes do Vetor
Comparações Simultâneas de Componentes do Vetor de Médias
n i
Y l Y
l Y l Y l
Zi i 1 i1 2 i2 ... p ip 1,2,...,
μp1 1,2,...,p Considere combinações lineares das p variáveis:
lμ ;l Σ l
N Y
l Z
iid i
i ~ 1
Y l
Z sZ2 l Sul
n l S t l
Y l l
IC a100(1 )% n 1( /2) u
n t s
n t s
l 0,0,...,1,...,0,0 ˆk n 1( /2) kk ;ˆk n 1( /2) kk
posição k
Intervalos de confiança a 100(1-)%
para cada média qual o nível de confiança global ?
limitação
,..., ; ~ ;
1 n i 1 iid p
p
n Y Y Y N
Y p
n l S l
Y t l
u
l /
) 1
~ (
/
n
Z
l t
n s
l
t Z