MAE 5776 ANÁLISE MULTIVARIADA. Júlia M Pavan Soler

(1)

MAE 5776

ANÁLISE MULTIVARIADA

Júlia M Pavan Soler [email protected]

1º Semestre/2019

(2)

Análise Multivariada

 

_ij ⁿ ^p

p

n

Y

_

  

^

 Estatísticas Descritivas Multivariadas, Elipsóides de Concentração

 Distribuição Normal Multivariada: propriedades e Distribuições Amostrais

 Regiões de Confiança, Testes Multivariados, MANOVA, IC Simultâneos, Correções para Múltiplos Testes

 Análises Multivariadas Clássicas (n>p, iid): CP, CoP, AC, AF, AAgr, AD, CC e PLS

 Análises Multivariadas: Soluções Esparsas (n<<p, iid) - CP, AD e CC

 Componentes Principais em Observações Correlacionadas

 Aprendizado de Estruturas (SEM, Propriedades de Markov, Teoria de Grafos)

Análise de Dados Multivariados:

Dimensão do Espaço das Unidades Amostrais: Big-n (n >> p)?

Dimensão do espaço das Variáveis: Big-p (n << p)?

Integração de Bancos de Dados

(3)

Dados Multivariados:

Problemas em Alta Dimensionalidade

Big-n (n >> p) Biplot: n=500 p=5

Big-p (n << p) Biplot: n=20 p=100

Y n p _

Sumarização e visualização ?

(Black Screen Problem - BSP: R_alpha blending ) Soluções regularizadas e penalizadas!

(4)

Dados Multivariados - O que é Big-Data ?

 Fokoué, E. (2015): apresenta uma taxonomia para dados em alta dimensão  Grandes Bancos de Dados: n>1000 ou p>50

 Matloff, N. (2016 - Handbook of Big Data): Big-n, Big-p

 

2

0; ,

ˆ ~ ; ( )

p p n

n

EMVS

N v

  

 

Limite inf. de Kramer-Rao Portnoy (1988): em Big-n,

explorar propriedades assintóticas dos EMVS na família exponencial

p  n

Big-p:

(5)

Dados Multivariados – Big-p

 Big-p:

- Dados esparsos: Tamanho efetivo de p é limitado

Redução de dimensionalidade: Soluções regularizadas e penalizadas



²² ¹ ²² ² ¹



2

ˆ arg min ; ˆ ˆ ; ˆ ˆ

ˆ

j j j j

Z Y Z Y



        

      

Componente Principal Regularizado e Penalizado: (Elastic Net)

1/2 ⁿ ^p 1/2

ˆ ˆ

n p j j j j j

Y

_

  U V ^ 

^

Z  U d  Z  Y 

Decomposição em valores singulares

2 2

, 2

2 1 1

max ; 1

k k 1,

k

U V k k

k k

U Y V U

V V c

 

 

 



CP da solução Dual

(6)

Componentes Principais – n<<p

Representação Biplot: n=15 p=30

R-SPCA do pacote ElasticNet:

Componentes Principais Esparsos R-prcomp: Componentes Principais

em Espaços Duais

(7)

Dados Multivariados – Big-n

Big-n  erro padrão das estimativas tendem a zero

s 0

n 

problema inferencial, somente análise descritiva de dados ??

Muitas análises são realizadas no espaço ^nxn : tempo computacional é o problema Soluções Paralelizadas (N. Matloff, 2016):

- Particionar os dados via procedimentos de Aleatorização

1

;

G

g g

g

n n n n

 G







1

1 ^G ˆ

n g

G g

 



 



- Em cada sub-amostra calcular a estimativa de interesse ( ) - Obter a média das estimativas

 

ⁿ ¹

 

^ˆ^g

Cov Cov

 G 

 

ˆ

g



, ^g ˆ

G fixo

n n

n EMVS

 ^^ Não é um consenso!

(8)

Dados Multivariados – Big-n

> require(partools)

> cls <- makeCluster(2)

> setclsinfo(cls)

> #Gerar dados para ajustar Modelo Linear

> n <- 10000

> p <- 2

> set.seed = 1099

> tmp <- matrix(rnorm((p+1)*n),nrow=n)

> u <- tmp[,1:p] # gerar valores "X"

> # adicionar coluna de valores "Y"

> u <- cbind(u,u %*% rep(1,p) + tmp[,p+1])

> colnames(u) = c("X1","X2","Y")

> #head(u)

> # ajustar lm via solução paralelizada (N. Matloff, 2015)

> # SA: Software Alchemy

> distribsplit(cls,"u")

> #calm(cls,"u[,3] ~ u[,1]+u[,2]")

> calm(cls,"u[,3] ~ u[,1]+u[,2]")$tht (Intercept) u[, 1] u[, 2]

-0.003110128 1.005448362 1.002561369

>

> # check: resultados devem ser aproximadamente os mesmos

> lm(u[,3] ~ u[,1]+u[,2])

(Intercept) u[, 1] u[, 2]

-0.002909 1.005829 1.002436

(9)

Dados Multivariados – Big-n

> require(partools)

> cls <- makeCluster(2)

> setclsinfo(cls)

#gerar dados multivariados

> n = 10000

> p = 8

> n/p [1] 1250

> media_pop = c(rdunif(p, 10))

> cov_pop = round(genPositiveDefMat(dim=p)$Sigma,2)

> dados = mvrnorm(n,media_pop,cov_pop)

> biplot(prcomp(dados,scale=TRUE))

#rodar análise de CP via solução paralelizada (N. Matloff, 2015)

#SA: Sottware Alchemy

> distribsplit(cls,"dados")

> caprcomp(cls,'dados,scale=TRUE',8)$sdev

[1] 1.4707854 1.0525281 1.0046278 0.9884619 0.9051253 0.8954517 0.8450872 [8] 0.6382045

> prcomp(dados,scale=TRUE)$sdev

[1] 1.4707662 1.0516048 1.0024852 0.9883842 0.9063294 0.8971400 0.8458021 [8] 0.6382948

(10)

Dados Multivariados – Big-n

Visualização Gráfica: (Norman Matloff)

 Construção do Gráfico de Coordenadas Paralelas

 Controle do BSP

 Big-n: representar os pontos (perfis) com os maiores valores de densidade Estimação da densidade (método dos k-vizinhos mais próximos)

(11)

Um Único BD

Múltiplos BD (Multimodais, Multivisão)

X: Matriz(es) de Dados Y: Respostas de interesse (Classes de doenças ou Variáveis quantitativas)

Análise Não- Supervisionada

Análise Supervisionada

X

1 2

… n

nxp n<<p

P-Integração: mesmas variáveis em diferentes unidades amostrais (estudos multicentros, Meta-análise)

Análise Não-Supervisionada

An. Supervisionada

N-Integração de Bancos de Dados

1 2

… n

X nxp

Y

1 2 2 3 1

Y nxq

X₁

1 2

… n

nxp₁ nxp₂

Y

1 2 2 3 1

X₂

nxp_k X_K

…

Y nxq

 Aplicação em Dados MultiOmics

(12)

1/ 2

n p n n r p p

X

_

 U

_

D V 

_

Soluções via Fatoração do espaço 

^{n x p}

Matriz de Escores

(valores latentes) Matriz de Cargas

(direções de projeção) nxK x Kxp Matriz de dados

n p

: X

_

 F  W F  XV W

Redução de Dimensionalidade e Integração de BD

(13)

Análises de Um Único BD (UniOmics: Lê Cao - mixOmics-R)

 Componentes Principais Independentes

IPCA (PCA + ICA): PCA com filtros ICA na Matriz de Cargas

1/ 2

n p n n r p p

X

_ 

U

_

D V

_

F



XV

Aplicar ICA em V (“denoising” V) Algoritmo FastICA



X V

ICA: Análise de Componentes Independentes (Comon, 1994)

V



V

Análise de Um Único BD - Fatoração de Matrizes

Matriz de dados (padronizados)

n p

:

X

_

(14)

 

  

2

,

, ; max ; ,

' '

p q XY YX YX

a a

Cov a X b Y

a b a a b a

a a b b 

 

 

 

 

      

Solução PLS (Partial Least Square):

 

²

, ; max p, q ;

a a

a b

_ _ 

Corr a X b Y

  

Solução CCA (Canonial Correlation Analysis):



^;



²

  

^;



²

 

Cov a X b Y

 

Var a X



Corr a X b Y

 

Var b Y



    

   

PLS é a CCA com regularizações definidas pelos PC de X e PC de Y

Integração de Múltiplos Bancos de Dados

(15)



^;



²

  

^;



²

 

Cov a X b Y

 

Var a X



Corr a X b Y

 

Var b Y



    

   

Integração de Bancos de Dados

Regressão PLS , CCA e DA

Bartlet (1938): propõe CCA-DA  CCA pode integrar X (matriz quantitativa) e Y (matriz de variáveis indicadoras da Doença (var. dummy) Barker and Raynes (2003): propõem PLS-DA

 

^,

 

^{| |,}

 

²

g x



x g x



x g x



x

 

^jk ^:

C  c

 

, 1,.., 2

max ; ; 1, | | , 1,...,

aj j J jk j j k k j j j

j k

c g Cov X a X a a a  j J

 

  



atribui pesos às conexões entre BD (Teoria de Grafos)

J bancos de dados Lê Cao (2018): propõem Correlação Canônica Generalizada (GCCA)

(16)

     

12 1 2

max c Cov t u; c Cov t v_Q ;  ... c Cov u v_Q ;

Y: Matriz de Indicadores da Doença

 

^,

 

^{| |,}

 

²

g x



x g x



x g x



x

 

^jk ^:

C  c

 

, 1,.., 2

max ; ; 1, | | , 1,...,

aj j J jk j j k k j j j

j k

c g Cov X a X a a a  j J





  



atribui pesos às conexões entre BD (Teoria de Grafos)

J bancos de dados Lê Cao (2018): GCCA

Integração de Bancos de Dados

Correlação Canônica Generalizada

(17)

Integração de Banco de Dados – MixOmics (R)

Recursos

(18)

Estudo dos Marcadores Moleculares na Resposta de Rejeição ao Transplante Renal (University of British Columbia, Canada)

Estudo Prospectivo (Dados Pareados):

n=20 Pacientes AR: rejeição antes de 6 meses após transplante n=20 Pacientes NR: sem resposta de rejeição até 6 meses

Coleta de Sangue no momento do diagnóstico de rejeição:

 5 dias: Grupo AR-early (n=15)

> 5 dias: Grupo AR-late (n=5)

X1: expressão de 54.613 transcripts X2: quantificação de 444 proteínas

Y: matriz de especificação dos 4 grupos

Integração de Banco de Dados – MixOmics (R)

Integração supervisionada de dois bancos de dados,

(Lê Cao et al., 2018)

40 54.613

1

X

_

X

2_{40 444}_

para “aprender” sobre

Y

_{40 4}_

(19)

Análise UniOmics Não-Supervisionada Análise Uni-Omics Supervisionada

Proteína - PCA Proteína - IPCA Expressão - PCA Expressão - IPCA

Expressão – sPLS-DA

Proteína – sPLS-DA

Análises UniOmics: Dados de Expressão com melhor separação do que os dados de proteína Escores de e de X1_{40 54.613}_ X2_{40 444}_

Escores de e de para aprender

40 54.613

1

X _ X2_{40 444}_

Y40 4_

(20)

Análise MultiOmics Supervisionada: GCCA

Expressão – sGCCA

Proteína – sGCCA

Grafo: estabele conexões entre os BD

(Lê Cao et al., 2018)

A integração dos BD permitiu melhor separação dos grupos

do que a análise UniOmics

Dados de Expressão discriminam melhor que os

dados de proteína

(21)

P-Integração de Bancos de Dados

Y₁

1 2

… n₁

n₁xp

n₂xp Y₂

n_Gxp Y_G

…

1 2

… n₂

1 2

… n_G

Re

n p Médias n p Grupo n p sidual n p

Y

_

 Y

_

 Y

_

 Y

_

1

;

G

n p g

g

Y

_

n n



 

Redução de dimensionalidade em componentes da decomposição de Y

Obter variáveis latentes (“componentes principais”) que

atendam a estrutura de Y (estratificada)

Matriz de dados

ASCA: ANOVA-Simultaneous Component Analysis

(Smilde et al., 2005)

(22)

Redução de Dimensionalidade e Integração de BD Decomposição de Matrizes

Soluções via Decomposição do Espaço do espaço 

^{n x p}

Re

n p Média Grupo síduo

Y _ Y Y Y

Tabela de MANOVA: Decomposição em ^pxp T = H + E

T/(n-1)=S: Matriz de covariância (total)

Modelo de MANOVA Decomposição em ^nxp

Realizar as análises (de redução de dimensionalidade ou integração de BD) em components de Y

: Matriz de dados

1

;

G

n p g

g

Y

_

n n



 

Obter CP de T, H, E ou E^-1H

(23)

: Matriz de dados

Redução de Dimensionalidade e Integração de BD via Decomposição de Matrizes

1

( ) ( )

ig p g ig g

Y

_

 Y  Y  Y  Y  Y

n p M n p Gr n p E n p

Y

_

 Y

_

 Y

_

 Y

_

Fonte de Variação

Grupo G-1

Resíduo G(r-1)

Total Gr-1

  

1 G

p p g g

g

H

_

r Y Y Y Y



    

  

1 1

G r

p p ig g ig g

g i

E

_

Y Y Y Y

 

    

Número de g.l. Matriz de SQPC

1

;

G

n p g

g

Y

_

n n



 

  

1 1

G r

p p ig ig

g i

T

_

Y Y Y Y H E

 

      

(24)

Y11 Y12 Y21 Y22 Y31 Y32

9 3 0 4 3 8

6 2 2 0 1 9

9 7 2 7

8 4 1 2 2 8

T1 T2 T3

Média geral = ( 4 , 5 )

Duas variáveis avaliadas em unidades amostrais submetidas a 3 tratamentos

9 3 4 5 4 3 1 1

6 2 4 5 4 2 2 2

9 7 4 5 4 7 1 3

0 4 4 5 3 4 1 2

2 0 4 5 3 0 1 2

3 8 4 5 2 3 1 0

1 9 4 5 2 3 1 1

2 7 4 5 2 3 0 1

        

         

       

         

          

         

       

        

         

       

         

       

Exemplo

Y

8 2_

M

_{8 2}_

T

_{8 2}_

E

_{8 2}_

(25)

MAE5776 – Análise Multivariada de Dados 1º Semestre/2019 IME/USP

 

_ij ⁿ ^p

p

n

Y

_

  

^

Considero que

cumprimos o seguinte Programa da disciplina:

 Estatísticas Descritivas Multivariadas, Elipsóides de Concentração

 Distribuição Normal Multivariada: propriedades e Distribuições Amostrais

 Regiões de Confiança, Testes Multivariados, MANOVA, IC Simultâneos, Correções para Múltiplos Testes

 Análises Multivariadas Clássicas (n>p, iid): CP, CoP, AC, AF, AAgr, AD, CC e PLS

 Análises Multivariadas: Soluções Esparsas (n<<p, iid) - CP, AD e CC

 Componentes Principais em Observações Correlacionadas

 Aprendizado de Estruturas (SEM, Propriedades de Markov, Teoria de Grafos)

 Problemas em Alta dimensão: Big-p (n << p) e Big-n (n >> p)

 Integração de Bancos de Dados

E ainda vamos ouvir cada um nos seguintes temas complementares 

(26)

MAE5776 – Análise Multivariada de Dados 1º Semestre/2019 IME/USP

Temas de Seminários:

 Cleber: Componentes Principais em Dados Composicionais

 Francisco: Componentes Principais em Dados Intervalares

 Rafael: Componentes Principais Independentes

 Jonatas: Validação Cruzada em Modelos Mistos

 Felipe: BiCluster

 Ana Gabriela: Integração de BD Heterogêneos

 Luiza: Visualização em Big-n: Gráfico de Coordenadas Paralelas

 Ana Carolina: Sumarização de um BD em Alta Dimensão (Big-p)

 Piero: Redução de Dimensionalidade em Séries Temporais

 Alia: Algoritmo: Decaimento de Coordenadas

 Désirée: Modelo de Equações Estruturais (Confirmatório, Exploratório)

E ainda vamos revisar o conteúdo básico da disciplina 

(27)

MAE5776 – Análise Multivariada de Dados 1º Semestre/2019 IME/USP

Conteúdo a ser revisado:

 Regiões de Concentração de Dados, Regiões de Confiança, Intervalos de Confiança Simultâneos

 Solução Dual para a Redução de Dimensionalidade, Biplots

 Conexão entre PCA e o Método de Regressão

 Correlação Canônica e Integração de Bancos de Dados

 Aprendizado via Análise Discriminante, Validação Cruzada e Classificação

 Soluções Clássicas e para dados em alta dimensão (big-p)

Boa sorte 

(28)

N-Integração de Bancos de Dados

X₁:mRNA

1 2

… 150

150x200 150x184 150x142

1 2

… 150

1 2

… 150

150x1

1 2

… 150

X₂:miRNA X₃:Proteína Y:Desfecho

MAE 5776 ANÁLISE MULTIVARIADA. Júlia M Pavan Soler

MAE 5776

ANÁLISE MULTIVARIADA

Júlia M Pavan Soler [email protected]

Análise Multivariada

 

Y

Y

  

Dados Multivariados:

Problemas em Alta Dimensionalidade

Y n p 

Dados Multivariados - O que é Big-Data ?

 

ˆ ~ ; ( )

N v

  

p  n

Dados Multivariados – Big-p





ˆ arg min ; ˆ ˆ ; ˆ ˆ

ˆ

Z Y Z Y

        

      

ˆ ˆ

Y

  U V  

Z  U d  Z  Y 

U Y V U

V V c

Componentes Principais – n<<p

Representação Biplot: n=15 p=30

Dados Multivariados – Big-n

s 0

n 





 

 

ˆ



Dados Multivariados – Big-n

Dados Multivariados – Big-n

Dados Multivariados – Big-n

Um Único BD

Múltiplos BD (Multimodais, Multivisão)

N-Integração de Bancos de Dados

X

 U

D V 

Soluções via Fatoração do espaço 

: X

 F  W F  XV W

Redução de Dimensionalidade e Integração de BD

Análises de Um Único BD (UniOmics: Lê Cao - mixOmics-R)

X

U

D V

F

XV

X V

V

V

Análise de Um Único BD - Fatoração de Matrizes

:

X

 

  

Cov a X b Y

a b a a b a

a a b b 

 

a b

Corr a X b Y





  



Y n p _

  U V ^ 