MAE5776
n pn p ij
X
X
Matriz de Dados: Estatísticas descritivas multivariadas
- Definidas no espaço das colunas (p-vetores n-dimensionais):
- Definidas no espaço das linhas (n-vetores p-dimensionais):
1
1
, , ,
p p p p p p p
X
S
R
S
ij2,
Pij2,
Mij2 nn
d d d
D
Propriedades em Espaços Duais
Matriz Aleatória: Propriedades distribucionais
n p
ij n p; n p ~ n p
1n p 1; np np n n p p
;
1 ~ np
1n p 1;
X X X N vecX np N
- Estimadores e Distribuições Amostrais sob : Xip1 iid~ Np
; X
p1, S
p p- Episóides de Concentração e Regiões de Confiança
n p
X
n p
X X
p p
p p XX
n n
n n- MANOVA: Decomposição de Matrizes em pxp
Intervalos de Confiança - Regiões de Confiança
(Everitt, 2007)
X1 X2
P
Q
Valores de 0 2 iguais a P e Q estão na região de aceitação ou de rejeição de possíveis valores do parâmetro ?
1
. a 100(1- )%
/ 2
k
kk
k n
I C
X t s
n
1
3,(17)
; 20 1
20 3
R X n X S X pF
2 1
T n X S X
2 2
2
2 1
2
(n 1) 1,(n 1)
t X
s n
n X s X
t F
X
P1, P2
; Q
Q1, Q2
P
Xi X
S1 Xi X
22
0,10
4, 61 Elipse de concentração:
MAE5776
Big/Little “n”
Big/Little “p”
Dimensão e Estrutura dos Dados
Casos Clássicos: n > p e observações iid
n: unidade amostral p: variáveis
Casos mais Gerais: n << p e observações iid (soluções regularizadas, penalizadas) n >> p e observações iid (soluções por amostragem, estatísticas suficientes, visualização de dados)
observações estruturadas: dependências (medidas repetidas, dados de famílias)
n p
X
n p
Big_n: n=500 p=5 (n >> p) Big_p: n=20 p=100 (n << p)
Representação BiPlot
n p
X
n p
Redução de Dimensionalidade - pxp
n p
;
p pX
Cov X
1 1
12 221 211 11 12 22 21 11 1
11
; ' , ' 1
'
a a
f a a a X a
a a
Σ Σ
1/2
;
k k k
Z
F
( ) 1 2
n p q n p n q
X
X
X
'
max ; max , ' 1
a a
'
a a
f a a a
a a
F
k Xa
k , ' 1
'
; '
1
a a
a a
a a a
f
ww b b
w
'
1 1
21 111 122 22 21 11 12 22 2
22
; ' , ' 1
'
b b
f b b b X b
b b
Σ Σ
Componentes Principais (PC):
Análise de Fatores Latentes: solução via PC
Análise Discriminante (Linear de Fisher):
Análise de Correlação Canônica:
Exemplo 1
Exemplo 2
Exemplo 3
Exemplo 4
Exemplo 5
Exemplo 6
Onde estão os vetores reducionistas?
Componentes Principais – n<<p
Representação Biplot: n=15 p=30
R-SPCA do pacote ElasticNet:
Componentes Principais Esparsos R-prcomp: Componentes Principais
em Espaços Duais
Um Único BD
Múltiplos BD (Multimodais, Multivisão)
X: Matriz(es) de Dados Y: Respostas de interesse (Classes de doenças ou Variáveis quantitativas)
Análise Não- Supervisionada
Análise Supervisionada
X
1 2
… n
nxp n<<p
P-Integração: mesmas variáveis em diferentes unidades amostrais (estudos multicentros)
Análise Não-Supervisionada
An. Supervisionada
N-Integração de Bancos de Dados
1 2
… n
X nxp
Y
1 2 2 3 1
Y nxq
X1
1 2
… n
nxp1 nxp2
Y
1 2 2 3 1
X2
nxpk XK
…
Y nxq
1/ 2
n p n n r p p
X
U
D V
Soluções via Fatoração do espaço
n x pMatriz de Escores
(valores latentes) Matriz de Cargas
(direções de projeção) nxK x Kxp Matriz de dados
n p
: X
F W F W
Redução de Dimensionalidade e Integração de BD
Soluções via Decomposição do Espaço do espaço
n x pXn p H E
Tabela de MANOVA: Decomposição em pxp Decomposição em nxp
Realizar as análises (de redução ou integração) em components de X
Aprendizado de Estruturas – Inferência Causal
n p
X
n p
Aprender/Estimar a Estrutura de Dependência entre entre Variáveis pxpGrafo Gaussiano de Independência Condicional (p=87 variáveis em E. coli.)
Dados multivariados (n>p)
diagonal (independência)
Não Estruturada
“Aprender” a estrutura de dependência entre variáveis:
Grafo Não-Direcionado (UDG): Testes de correlação parcial
Grafo Direcionado (DAG): orientar é descobrir V-estruturas (XZY)
~ ;
p iid
X
i