• Nenhum resultado encontrado

MAE 5776 ANÁLISE MULTIVARIADA. Júlia M Pavan Soler

N/A
N/A
Protected

Academic year: 2022

Share "MAE 5776 ANÁLISE MULTIVARIADA. Júlia M Pavan Soler"

Copied!
28
0
0

Texto

(1)

MAE 5776

ANÁLISE MULTIVARIADA

Júlia M Pavan Soler [email protected]

1º Semestre/2019

(2)

Análise Multivariada

 

ij n p

p

n

Y

Y

  

 Estatísticas Descritivas Multivariadas, Elipsóides de Concentração

 Distribuição Normal Multivariada: propriedades e Distribuições Amostrais

 Regiões de Confiança, Testes Multivariados, MANOVA, IC Simultâneos, Correções para Múltiplos Testes

 Análises Multivariadas Clássicas (n>p, iid): CP, CoP, AC, AF, AAgr, AD, CC e PLS

 Análises Multivariadas: Soluções Esparsas (n<<p, iid) - CP, AD e CC

 Componentes Principais em Observações Correlacionadas

 Aprendizado de Estruturas (SEM, Propriedades de Markov, Teoria de Grafos)

Análise de Dados Multivariados:

Dimensão do Espaço das Unidades Amostrais: Big-n (n >> p)?

Dimensão do espaço das Variáveis: Big-p (n << p)?

Integração de Bancos de Dados

(3)

Dados Multivariados:

Problemas em Alta Dimensionalidade

Big-n (n >> p) Biplot: n=500 p=5

Big-p (n << p) Biplot: n=20 p=100

Y n p

Sumarização e visualização ?

(Black Screen Problem - BSP: R_alpha blending ) Soluções regularizadas e penalizadas!

(4)

Dados Multivariados - O que é Big-Data ?

Fokoué, E. (2015): apresenta uma taxonomia para dados em alta dimensão  Grandes Bancos de Dados: n>1000 ou p>50

Matloff, N. (2016 - Handbook of Big Data): Big-n, Big-p

 

2

0; ,

ˆ ~ ; ( )

p p n

n

EMVS

N v

  



Limite inf. de Kramer-Rao Portnoy (1988): em Big-n,

explorar propriedades assintóticas dos EMVS na família exponencial

pn

Big-p:

(5)

Dados Multivariados – Big-p

 Big-p:

- Dados esparsos: Tamanho efetivo de p é limitado

Redução de dimensionalidade: Soluções regularizadas e penalizadas

22 1 22 2 1

2

ˆ arg min ; ˆ ˆ ; ˆ ˆ

ˆ

j j j j

Z Y Z Y

        

      

Componente Principal Regularizado e Penalizado: (Elastic Net)

1/2 n p 1/2

ˆ ˆ

n p j j j j j

Y

  U V



ZU dZY

Decomposição em valores singulares

2 2

, 2

2 1 1

max ; 1

k k 1,

k

U V k k

k k

U Y V U

V V c

 

 

 



CP da solução Dual

(6)

Componentes Principais – n<<p

Representação Biplot: n=15 p=30

R-SPCA do pacote ElasticNet:

Componentes Principais Esparsos R-prcomp: Componentes Principais

em Espaços Duais

(7)

Dados Multivariados – Big-n

Big-n  erro padrão das estimativas tendem a zero

s 0

n

problema inferencial, somente análise descritiva de dados ??

Muitas análises são realizadas no espaço nxn : tempo computacional é o problema Soluções Paralelizadas (N. Matloff, 2016):

- Particionar os dados via procedimentos de Aleatorização

1

;

G

g g

g

n n n n

G

1

1 G ˆ

n g

G g

 

 

- Em cada sub-amostra calcular a estimativa de interesse ( ) - Obter a média das estimativas

 

n 1

 

ˆg

Cov Cov

G

 

ˆ

g

, g ˆ

G fixo

n n

n EMVS

 Não é um consenso!

(8)

Dados Multivariados – Big-n

> require(partools)

> cls <- makeCluster(2)

> setclsinfo(cls)

> #Gerar dados para ajustar Modelo Linear

> n <- 10000

> p <- 2

> set.seed = 1099

> tmp <- matrix(rnorm((p+1)*n),nrow=n)

> u <- tmp[,1:p] # gerar valores "X"

> # adicionar coluna de valores "Y"

> u <- cbind(u,u %*% rep(1,p) + tmp[,p+1])

> colnames(u) = c("X1","X2","Y")

> #head(u)

> # ajustar lm via solução paralelizada (N. Matloff, 2015)

> # SA: Software Alchemy

> distribsplit(cls,"u")

> #calm(cls,"u[,3] ~ u[,1]+u[,2]")

> calm(cls,"u[,3] ~ u[,1]+u[,2]")$tht (Intercept) u[, 1] u[, 2]

-0.003110128 1.005448362 1.002561369

>

> # check: resultados devem ser aproximadamente os mesmos

> lm(u[,3] ~ u[,1]+u[,2])

(Intercept) u[, 1] u[, 2]

-0.002909 1.005829 1.002436

(9)

Dados Multivariados – Big-n

> require(partools)

> cls <- makeCluster(2)

> setclsinfo(cls)

#gerar dados multivariados

> n = 10000

> p = 8

> n/p [1] 1250

> media_pop = c(rdunif(p, 10))

> cov_pop = round(genPositiveDefMat(dim=p)$Sigma,2)

> dados = mvrnorm(n,media_pop,cov_pop)

> biplot(prcomp(dados,scale=TRUE))

#rodar análise de CP via solução paralelizada (N. Matloff, 2015)

#SA: Sottware Alchemy

> distribsplit(cls,"dados")

> caprcomp(cls,'dados,scale=TRUE',8)$sdev

[1] 1.4707854 1.0525281 1.0046278 0.9884619 0.9051253 0.8954517 0.8450872 [8] 0.6382045

> prcomp(dados,scale=TRUE)$sdev

[1] 1.4707662 1.0516048 1.0024852 0.9883842 0.9063294 0.8971400 0.8458021 [8] 0.6382948

(10)

Dados Multivariados – Big-n

Visualização Gráfica: (Norman Matloff)

 Construção do Gráfico de Coordenadas Paralelas

 Controle do BSP

 Big-n: representar os pontos (perfis) com os maiores valores de densidade Estimação da densidade (método dos k-vizinhos mais próximos)

(11)

Um Único BD

Múltiplos BD (Multimodais, Multivisão)

X: Matriz(es) de Dados Y: Respostas de interesse (Classes de doenças ou Variáveis quantitativas)

Análise Não- Supervisionada

Análise Supervisionada

X

1 2

n

nxp n<<p

P-Integração: mesmas variáveis em diferentes unidades amostrais (estudos multicentros, Meta-análise)

Análise Não-Supervisionada

An. Supervisionada

N-Integração de Bancos de Dados

1 2

n

X nxp

Y

1 2 2 3 1

Y nxq

X1

1 2

n

nxp1 nxp2

Y

1 2 2 3 1

X2

nxpk XK

Y nxq

 Aplicação em Dados MultiOmics

(12)

1/ 2

n p n n r p p

X

U

D V

Soluções via Fatoração do espaço 

n x p

Matriz de Escores

(valores latentes) Matriz de Cargas

(direções de projeção) nxK x Kxp Matriz de dados

n p

: X

FW FXV W

Redução de Dimensionalidade e Integração de BD

(13)

Análises de Um Único BD (UniOmics: Lê Cao - mixOmics-R)

 Componentes Principais Independentes

IPCA (PCA + ICA): PCA com filtros ICA na Matriz de Cargas

1/ 2

n p n n r p p

X

U

D V

F

XV

Aplicar ICA em V (“denoising” V) Algoritmo FastICA

X V

ICA: Análise de Componentes Independentes (Comon, 1994)

V

V

Análise de Um Único BD - Fatoração de Matrizes

Matriz de dados (padronizados)

n p

:

X

(14)

 

  

2

,

, ; max ; ,

' '

p q XY YX YX

a a

Cov a X b Y

a b a a b a

a a b b

 

 

 

      

Solução PLS (Partial Least Square):

 

2

, ; max p, q ;

a a

a b



Corr a X b Y

  

Solução CCA (Canonial Correlation Analysis):

;

2

  

;

2

 

Cov a X b Y

 

Var a X

Corr a X b Y

 

Var b Y

    

   

PLS é a CCA com regularizações definidas pelos PC de X e PC de Y

Integração de Múltiplos Bancos de Dados

(15)

;

2

  

;

2

 

Cov a X b Y

 

Var a X

Corr a X b Y

 

Var b Y

    

   

Integração de Bancos de Dados

Regressão PLS , CCA e DA

Bartlet (1938): propõe CCA-DA  CCA pode integrar X (matriz quantitativa) e Y (matriz de variáveis indicadoras da Doença (var. dummy) Barker and Raynes (2003): propõem PLS-DA

 

,

 

| |,

 

2

g x

x g x

x g x

x

 

jk :

Cc

 

 

, 1,.., 2

max ; ; 1, | | , 1,...,

aj j J jk j j k k j j j

j k

c g Cov X a X a a aj J

  

atribui pesos às conexões entre BD (Teoria de Grafos)

J bancos de dados Lê Cao (2018): propõem Correlação Canônica Generalizada (GCCA)

(16)

     

12 1 2

max c Cov t u; c Cov t vQ ;  ... c Cov u vQ ;

Y: Matriz de Indicadores da Doença

 

,

 

| |,

 

2

g x

x g x

x g x

x

 

jk :

Cc

 

 

, 1,.., 2

max ; ; 1, | | , 1,...,

aj j J jk j j k k j j j

j k

c g Cov X a X a a aj J

  

atribui pesos às conexões entre BD (Teoria de Grafos)

J bancos de dados Lê Cao (2018): GCCA

Integração de Bancos de Dados

Correlação Canônica Generalizada

(17)

Integração de Banco de Dados – MixOmics (R)

Recursos

(18)

Estudo dos Marcadores Moleculares na Resposta de Rejeição ao Transplante Renal (University of British Columbia, Canada)

Estudo Prospectivo (Dados Pareados):

n=20 Pacientes AR: rejeição antes de 6 meses após transplante n=20 Pacientes NR: sem resposta de rejeição até 6 meses

Coleta de Sangue no momento do diagnóstico de rejeição:

5 dias: Grupo AR-early (n=15)

> 5 dias: Grupo AR-late (n=5)

X1: expressão de 54.613 transcripts X2: quantificação de 444 proteínas

Y: matriz de especificação dos 4 grupos

Integração de Banco de Dados – MixOmics (R)

Integração supervisionada de dois bancos de dados,

(Lê Cao et al., 2018)

40 54.613

1

X

X

240 444

para “aprender” sobre

Y

40 4

(19)

Análise UniOmics Não-Supervisionada Análise Uni-Omics Supervisionada

Proteína - PCA Proteína - IPCA Expressão - PCA Expressão - IPCA

Expressão – sPLS-DA

Proteína – sPLS-DA

Análises UniOmics: Dados de Expressão com melhor separação do que os dados de proteína Escores de e de X140 54.613 X240 444

Escores de e de para aprender

40 54.613

1

X X240 444

Y40 4

(20)

Análise MultiOmics Supervisionada: GCCA

Expressão – sGCCA

Proteína – sGCCA

Grafo: estabele conexões entre os BD

(Lê Cao et al., 2018)

A integração dos BD permitiu melhor separação dos grupos

do que a análise UniOmics

Dados de Expressão discriminam melhor que os

dados de proteína

(21)

P-Integração de Bancos de Dados

Y1

1 2

n1

n1xp

n2xp Y2

nGxp YG

1 2

n2

1 2

nG

Re

n p Médias n p Grupo n p sidual n p

Y

Y

Y

Y

1

;

G

n p g

g

Y

n n

 

Redução de dimensionalidade em componentes da decomposição de Y

Obter variáveis latentes (“componentes principais”) que

atendam a estrutura de Y (estratificada)

Matriz de dados

ASCA: ANOVA-Simultaneous Component Analysis

(Smilde et al., 2005)

(22)

Redução de Dimensionalidade e Integração de BD Decomposição de Matrizes

Soluções via Decomposição do Espaço do espaço 

n x p

Re

n p Média Grupo síduo

Y YYY

Tabela de MANOVA: Decomposição em pxp T = H + E

T/(n-1)=S: Matriz de covariância (total)

Modelo de MANOVA Decomposição em nxp

Realizar as análises (de redução de dimensionalidade ou integração de BD) em components de Y

: Matriz de dados

1

;

G

n p g

g

Y

n n

 

Obter CP de T, H, E ou E-1H

(23)

: Matriz de dados

Redução de Dimensionalidade e Integração de BD via Decomposição de Matrizes

1

( ) ( )

ig p g ig g

Y

YYYYY

n p M n p Gr n p E n p

Y

Y

Y

Y

Fonte de Variação

Grupo G-1

Resíduo G(r-1)

Total Gr-1

  

1 G

p p g g

g

H

r Y Y Y Y

    

  

1 1

G r

p p ig g ig g

g i

E

Y Y Y Y

    

Número de g.l. Matriz de SQPC

1

;

G

n p g

g

Y

n n

 

  

1 1

G r

p p ig ig

g i

T

Y Y Y Y H E

      

(24)

Y11 Y12 Y21 Y22 Y31 Y32

9 3 0 4 3 8

6 2 2 0 1 9

9 7 2 7

8 4 1 2 2 8

T1 T2 T3

Média geral = ( 4 , 5 )

Duas variáveis avaliadas em unidades amostrais submetidas a 3 tratamentos

9 3 4 5 4 3 1 1

6 2 4 5 4 2 2 2

9 7 4 5 4 7 1 3

0 4 4 5 3 4 1 2

2 0 4 5 3 0 1 2

3 8 4 5 2 3 1 0

1 9 4 5 2 3 1 1

2 7 4 5 2 3 0 1

        

         

       

       

         

          

         

       

        

         

       

         

       

Exemplo

Y

8 2

M

8 2

T

8 2

E

8 2

(25)

MAE5776 – Análise Multivariada de Dados 1º Semestre/2019 IME/USP

 

ij n p

p

n

Y

Y

  

Considero que

cumprimos o seguinte Programa da disciplina:

 Estatísticas Descritivas Multivariadas, Elipsóides de Concentração

 Distribuição Normal Multivariada: propriedades e Distribuições Amostrais

 Regiões de Confiança, Testes Multivariados, MANOVA, IC Simultâneos, Correções para Múltiplos Testes

 Análises Multivariadas Clássicas (n>p, iid): CP, CoP, AC, AF, AAgr, AD, CC e PLS

 Análises Multivariadas: Soluções Esparsas (n<<p, iid) - CP, AD e CC

 Componentes Principais em Observações Correlacionadas

 Aprendizado de Estruturas (SEM, Propriedades de Markov, Teoria de Grafos)

 Problemas em Alta dimensão: Big-p (n << p) e Big-n (n >> p)

 Integração de Bancos de Dados

E ainda vamos ouvir cada um nos seguintes temas complementares 

(26)

MAE5776 – Análise Multivariada de Dados 1º Semestre/2019 IME/USP

Temas de Seminários:

 Cleber: Componentes Principais em Dados Composicionais

 Francisco: Componentes Principais em Dados Intervalares

 Rafael: Componentes Principais Independentes

 Jonatas: Validação Cruzada em Modelos Mistos

 Felipe: BiCluster

 Ana Gabriela: Integração de BD Heterogêneos

 Luiza: Visualização em Big-n: Gráfico de Coordenadas Paralelas

 Ana Carolina: Sumarização de um BD em Alta Dimensão (Big-p)

 Piero: Redução de Dimensionalidade em Séries Temporais

 Alia: Algoritmo: Decaimento de Coordenadas

 Désirée: Modelo de Equações Estruturais (Confirmatório, Exploratório)

E ainda vamos revisar o conteúdo básico da disciplina 

(27)

MAE5776 – Análise Multivariada de Dados 1º Semestre/2019 IME/USP

Conteúdo a ser revisado:

 Regiões de Concentração de Dados, Regiões de Confiança, Intervalos de Confiança Simultâneos

 Solução Dual para a Redução de Dimensionalidade, Biplots

 Conexão entre PCA e o Método de Regressão

 Correlação Canônica e Integração de Bancos de Dados

 Aprendizado via Análise Discriminante, Validação Cruzada e Classificação

 Soluções Clássicas e para dados em alta dimensão (big-p)

Boa sorte 

(28)

N-Integração de Bancos de Dados

X1:mRNA

1 2

150

150x200 150x184 150x142

1 2

150

1 2

150

150x1

1 2

150

X2:miRNA X3:Proteína Y:Desfecho

Referências

Documentos relacionados

As unidades serão classificadas por padrões, para a premiação final, o padrão do clube será média dos padrões das unidades recebendo sua pontuação somente após o Campori,

As contradições são, no entanto, muitas e, como sumariado na referência [120] a análise multivariada revela que enquanto que o tamanho da população não tem

 redução dos dados: descrevem os dados em um número muito menor de conceitos do que as variáveis individuais originais....

 Variáveis Quantitativas: pode-se utilizar o coeficiente de correlação de Pearson como medida de parecença entre pares de unidades amostrais  quanto mais próximo de 1 (ou

Para que os objetivos deste estudo fossem alcançados, reuniões semanais foram sendo realizadas onde foram discutidas algumas técnicas de análise multivariada de

Para caracterizar uma área endêmica de leishmaniose tegumentar americana susceptível de intervenção com candidato à vacina anti-leishmania, foi iniciado em 1999 estudo longitudinal

 Construa intervalos de confiança para os verdadeiros escores médios de cada tipo de aptidão  considere os intervalos univariados e os intervalos simultâneos.. Comente sobre

P ara acompanhar o desenvolvimento social de Macau, desde 1 de Dezembro de 2011, além da Estação Central, Estação Postal da Nova Taipa, Estação Postal dos Jardins do Oceano