• Nenhum resultado encontrado

ANÁLISE MULTIVARIADA MAE 5776

N/A
N/A
Protected

Academic year: 2022

Share "ANÁLISE MULTIVARIADA MAE 5776"

Copied!
11
0
0

Texto

(1)

MAE 5776

ANÁLISE MULTIVARIADA

Júlia M Pavan Soler [email protected]

1º Semestre IME/2019

(2)

MAE5776

 

n p

n p ij

X

X 

Matriz de Dados: Estatísticas descritivas multivariadas

- Definidas no espaço das colunas (p-vetores n-dimensionais):

- Definidas no espaço das linhas (n-vetores p-dimensionais):

1

1

, , ,

p p p p p p p

X

S

R

S

 

ij2

,

Pij2

,

Mij2 n

n

d d d

D

Propriedades em Espaços Duais

Matriz Aleatória: Propriedades distribucionais

n p

 

ij n p; n p ~ n p

1n p 1; np np n n p p

;

1 ~ np

1n p 1;

X X  X N    vecX np N

- Estimadores e Distribuições Amostrais sob : Xip1 iid~ Np

;

X

p1

, S

p p

- Episóides de Concentração e Regiões de Confiança

n p

X

n p



X X

p p



p p

XX

n n



n n

- MANOVA: Decomposição de Matrizes em pxp

(3)

Intervalos de Confiança - Regiões de Confiança

(Everitt, 2007)

X1 X2

P

Q

 Valores de 0  2 iguais a P e Q estão na região de aceitação ou de rejeição de possíveis valores do parâmetro ?

 

 

1

. a 100(1- )%

/ 2

k

kk

k n

I C

X t s

n

 

 

    

1

3,(17)

 

; 20 1

20 3

R X n X S X pF

   

2 1

Tn X  S X 

 

     

2 2

2

2 1

2

(n 1) 1,(n 1)

t X

s n

n X s X

t F

 

  

X

P1, P2

; Q

Q1, Q2

P      

Xi X

 

S1 Xi X

 22

0,10

4, 61

 Elipse de concentração:

(4)

MAE5776

Big/Little “n”

Big/Little “p”

Dimensão e Estrutura dos Dados

Casos Clássicos: n > p e observações iid

n: unidade amostral p: variáveis

Casos mais Gerais: n << p e observações iid (soluções regularizadas, penalizadas) n >> p e observações iid (soluções por amostragem, estatísticas suficientes, visualização de dados)

observações estruturadas: dependências (medidas repetidas, dados de famílias)

n p

X

n p



(5)

Big_n: n=500 p=5 (n >> p) Big_p: n=20 p=100 (n << p)

Representação BiPlot

n p

X

n p



(6)

Redução de Dimensionalidade -  pxp

 

n p

;

p p

X

Cov X  

1 1

12 221 21

1 11 12 22 21 11 1

11

; ' , ' 1

'

a a

f a a a X a

a a

 

      

Σ Σ

1/2

;

k k k

Z

F

 

 

( ) 1 2

n p q n p n q

X

 

X

X

  '

max ; max , ' 1

a a

'

a a

f a a a

a a

     F

k

Xa

k

  , ' 1

'

; '

1

 

 

a a

a a

a a a

f

w

w b b

w



 '

1 1

21 111 12

2 22 21 11 12 22 2

22

; ' , ' 1

'

b b

f b b b X b

b b

 

      

Σ Σ

 Componentes Principais (PC):

 Análise de Fatores Latentes: solução via PC

 Análise Discriminante (Linear de Fisher):

 Análise de Correlação Canônica:

(7)

Exemplo 1

Exemplo 2

Exemplo 3

Exemplo 4

Exemplo 5

Exemplo 6

Onde estão os vetores reducionistas?

(8)

Componentes Principais – n<<p

Representação Biplot: n=15 p=30

R-SPCA do pacote ElasticNet:

Componentes Principais Esparsos R-prcomp: Componentes Principais

em Espaços Duais

(9)

Um Único BD

Múltiplos BD (Multimodais, Multivisão)

X: Matriz(es) de Dados Y: Respostas de interesse (Classes de doenças ou Variáveis quantitativas)

Análise Não- Supervisionada

Análise Supervisionada

X

1 2

n

nxp n<<p

P-Integração: mesmas variáveis em diferentes unidades amostrais (estudos multicentros)

Análise Não-Supervisionada

An. Supervisionada

N-Integração de Bancos de Dados

1 2

n

X nxp

Y

1 2 2 3 1

Y nxq

X1

1 2

n

nxp1 nxp2

Y

1 2 2 3 1

X2

nxpk XK

Y nxq

(10)

1/ 2

n p n n r p p

X

U

D V

Soluções via Fatoração do espaço 

n x p

Matriz de Escores

(valores latentes) Matriz de Cargas

(direções de projeção) nxK x Kxp Matriz de dados

n p

: X

FW F W

Redução de Dimensionalidade e Integração de BD

Soluções via Decomposição do Espaço do espaço 

n x p

Xn pHE

Tabela de MANOVA: Decomposição em pxp Decomposição em nxp

Realizar as análises (de redução ou integração) em components de X

(11)

Aprendizado de Estruturas – Inferência Causal

n p

X

n p



Aprender/Estimar a Estrutura de Dependência entre entre Variáveis pxp

Grafo Gaussiano de Independência Condicional (p=87 variáveis em E. coli.)

Dados multivariados (n>p)

 diagonal (independência)

Não Estruturada

“Aprender” a estrutura de dependência entre variáveis:

Grafo Não-Direcionado (UDG): Testes de correlação parcial

Grafo Direcionado (DAG): orientar é descobrir V-estruturas (XZY)

 

~ ;

p iid

X

i

  

Referências

Documentos relacionados

MAE5776 – Análise Multivariada de Dados 1º Semestre/2019 IME/USP. Temas

Para verificar a relação existente entre doenças respiratórias e concentração de ozônio, realizaram-se análise descritiva das variáveis quantitativas descritas por meio

As contradições são, no entanto, muitas e, como sumariado na referência [120] a análise multivariada revela que enquanto que o tamanho da população não tem

Profª: Márcia D’Elia Branco (Monitor PAE: Rafael Oliveira Silva) MAE0399 – Análise de Dados e Simulação: Introdução ao R para análise exploratória de dados IME-USP 40

A discussão de nossos resultados está em torno de oferecer respostas para a questão central deste trabalho: Será que todos os parâmetros utilizados na análise

 Variáveis Quantitativas: pode-se utilizar o coeficiente de correlação de Pearson como medida de parecença entre pares de unidades amostrais  quanto mais próximo de 1 (ou

Para caracterizar uma área endêmica de leishmaniose tegumentar americana susceptível de intervenção com candidato à vacina anti-leishmania, foi iniciado em 1999 estudo longitudinal

Fachrichtung: Zivilrecht, Familienrecht, Erbrecht, Immobilienrecht, Vertragsrecht, Handelsrecht, Gesellschaftsrecht, Internationales Recht,