Classificação de dados de elevada dimensão: ignorar ou incorporar?

(1)

Classificação de Dados

de Elevada Dimensão

Ignorar ou Incorporar Correlações ?

Faculdade de Economia e Gestão/CEGE Universidade Católica Portuguesa

Centro Regional do Porto

A. PEDRO DUARTE SILVA

(2)

Indice

Correlações e classificação

em grandes dimensões

1. Classifica 1. Classifica1. Classifica

1. Classificaçççção com p >> não com p >> não com p >> não com p >> n 3. M

3. M3. M

3. Méééétodos modernos de selectodos modernos de selectodos modernos de selecçççção de varitodos modernos de selec ão de varião de varião de variááááveisveisveisveis

3.1. False Discovery e Non 3.1. False Discovery e Non 3.1. False Discovery e Non

3.1. False Discovery e Non----Discovery RatesDiscovery RatesDiscovery RatesDiscovery Rates 3.2. Donoho e Jin

3.2. Donoho e Jin 3.2. Donoho e Jin

3.2. Donoho e Jin’’’’s s s s ““““Higher CriticismHigher CriticismHigher Criticism””””Higher Criticism

2. M 2. M2. M

2. Méééétodos de todos de todos de ““““Antodos de AnAnAnáááálise Discriminante Diagonallise Discriminante Diagonallise Discriminante Diagonallise Discriminante Diagonal””””

4. Como Incorporar Correla 4. Como Incorporar Correla4. Como Incorporar Correla

4. Como Incorporar Correlaçççções ?ões ?ões ?ões ?

4.1. Thomaz e Gilles 4.1. Thomaz e Gilles 4.1. Thomaz e Gilles

4.1. Thomaz e Gilles’’’’s s s s ““““Novas FDLNovas FDLNovas FDL””””Novas FDL 4.2. Estimadores

4.2. Estimadores 4.2. Estimadores

4.2. Estimadores ““““encolhidosencolhidosencolhidos”””” e regularizadosencolhidos e regularizadose regularizadose regularizados

4.3. Estimadores baseadas em modelos factoriais 4.3. Estimadores baseadas em modelos factoriais 4.3. Estimadores baseadas em modelos factoriais 4.3. Estimadores baseadas em modelos factoriais

5. Resultados empiricos 5. Resultados empiricos5. Resultados empiricos 5. Resultados empiricos

6. Conclusões e perspectivas 6. Conclusões e perspectivas6. Conclusões e perspectivas 6. Conclusões e perspectivas

(3)

Classifica Classifica Classifica

Classificaççççãoãoãoão en en en en grandesgrandesgrandesgrandes dimensõesdimensõesdimensões::::dimensões

Y_iiii ; X; X; X; X_iiii i = = 1,2, … , n= = Y_i_i_i_i∈ {1,…,k} XXXX_iiii ∈∈ ℜ∈∈ ℜℜℜpppp Σ) , (µ N ~ Y | X_i _i _p _(Y₎ i

Pretende-se determinar uma regra capaz de prever Y_i dado X_i

) ln 5 . 0 ) ln : ) ln ( ) ( ) ( g (g) 1 T i i 1 T i g g i 1 T g i g (g) i 1 T (g) i µ Σ X X Σ X Σ 0.5 ) µ X ( Σ ) µ X ( 0.5 g min arg ( g min arg ( g min arg i Y π π π − − = − ∆ ∆ = − − − − − − − = Pressuposto habitual:

Correlações e classificação

em grandes dimensões

O O O

O problemaproblemaproblemaproblema p >> n

⇒ ⇒ ⇒

(4)

An An An

Anááááliseliseliselise DiscriminanteDiscriminanteDiscriminanteDiscriminante DiagonalDiagonalDiagonalDiagonal

Correlações e classificação

em grandes dimensões

(g) i (g) i i(g) X µ X X ∆ˆ = −ˆ = − * g 0.5 g (g) D d n 1 n 1 µ * µˆ = ˆ + − ˆ Naive Bayes

(

)(

)

k n X X X X S k 1 g Y g T (g) i (g) i i − − − = ∑ ∑ = = diag(S) D Σˆ = ˆ =

Nearest Shruken Centroids

d*_g(j) = sign(d_g(j)) (d_g(j) - αααα)₊ (g) k 1 g k 0.5 -g g (g) g n µ n µ D n 1 n 1 µ µ d ˆ ˆ ˆ ˆ 1

∑

ˆ = = − − = θ

αααα, θθθθ₁, ..., θθθθ_k obtidos por validação cruzada

(5)

M M M

Méééétodostodostodostodos modernosmodernosmodernosmodernos de de de de seleseleççççãoselesele ãoão de ão de de varide varivariááááveisvari veisveisveis

Correlações e classificação

em grandes dimensões

Taxas (locais) de falsas descoberta e não descoberta

Higher Criticism

Dada uma sucessão de p testes e estatísticas ordenadas, z₁, ..., z_p com

P₀ = P(H₀) ; P₁ = P(H₁) f₀(z) ; f₁(z) ; f(z) = P₀ f₀(z) + P₁ f₁(z)

fdr(z) = P₀ f₀(z) / f (z)

Taxa local de falsas descobertas:

Taxa local de falsas não-descobertas: fndr(z) = 1 - fdr(z)

Dada uma sucessão de p testes e valores de prova, π₁, ..., π _p ordenados

HC – máxima diferença estandartizada entre π_j e o seu valor

(6)

Como Como Como

Como incorporarincorporarincorporarincorporar correlacorrelacorrelaççççõescorrela õesões ????ões

Correlações e classificação

em grandes dimensões

∑

= = Σ p 1 m T m m m λ) v v max(λ , ˆ

∑

= = p 1 m T m m m v v λ S R ) ρ (1 Rˆ * = − ₁ ˆ

Thomaz e Gilles’s “Novas FDL”

Estimadores “encolhidos” e regularizados

Guo, Hastie e Tibshirani (2007) Xu, Brock e Parrish (2009) ou: Ahdesmaki e Strimmer (2009) ∑ ∑ ∑ ∑ = D0.5 _{R D}0.5 S I ₂ 1 ˆ ₌ ρ ₊ ρ Σ P j) (j, D ) ρ (1 j) (j, D me ρ j) (j, Dˆ* = ₂ _j(ˆ )+ − ₂ ˆ n n ) ρ (1 k ρ₃ ₃ g g = + − 1 ˆ* π

(7)

) D , (0 N ~ ε_i _p _ε ) I , (0 N ~ f_i _q _q Como Como Como

Como incorporarincorporarincorporarincorporar correlacorrelacorrelaççççõescorrela õesões ????ões

Covariâncias estimadas por modelos factoriais

X_i = µµµµ_(Yi) + B f_i + εεεε_i ffff_iiii ∈∈ ℜ∈∈ ℜℜℜqqqq εεεε_iiii ∈ ℜ∈∈∈ ℜℜℜPPPP q << p

⇒ ⇒⇒ ⇒ _ΣΣΣΣ _{= B B}T _{+ D} εεεε ΣΣΣΣ-1 _{= D} εεεε-1 - Dεεεε-1 B [Iq + BT Dεεεε-1 B]-1 BTDεεεε-1 2 Fctq D , B ε T Fctq BB D B,D arg min || Σ S|| Σ ε − = + = ˆ ˆ ˆ _; ˆ ˆ ˆ ˆ ˆ ˆ ε

Correlações e classificação

em grandes dimensões

Duarte Silva (2009)

(8)

Correlações e classificação

em grandes dimensões

± 0.0219 0.2393 I_HC Fisher’s FDL ± 0.0107 0.0614 I_HC

Support Vector Machines

± 0.0112 0.0668 I_HC Naïve Bayes ± 0.0116 0.0812 ---NSC (Pam) ± 0.0108 0.0674 I_HC ThomGil NFDL ± 0.0104 0.0646 I_FNDR Fctq1 ± 0.0107 0.0635 I_HC Fctq1 ± 0.0117 0.0681 I_FNDR AhdesStri ± 0.0105 0.0658 I_HC AhdesStri ± 0.0058 0.0569 C_FNDR AhdesStri ± 0.0094 0.0561 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion* Rule

Singh’s Prostate Cancer Data – p=6033; n=50+52

* C – Correlation Adjusted T-scores ; I – Independence based T-scores HC – Higher Criticism ; FNDR – False Non-Discovery Rates

(9)

Correlações e classificação

em grandes dimensões

± 0.0019 0.0136 I_HC Naïve Bayes ± 0.0014 0.0149 ---NSC (Pam) ± 0.0008 0.0055 I_HC ThomGil NFDL ± 0.0031 0.0196 I_NFDR Fctq1 ± 0.0020 0.0122 I_HC Fctq1 ± 0.0018 0.0075 I_NFDR AhdesStri ± 0.0006 0.0029 I_HC AhdesStri ± 0.0038 0.0144 C_NFDR AhdesStri ± 0.0012 0.0073 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule

Simulation Experiment -- Guo, Hastie and Tibshirani (2007) setup p=10 000; n=100+100 ; 100 Independent Blocks ; ρρρρ = 0.90

(10)

Correlações e classificação

em grandes dimensões

± 0.0160 0.0781 I_HC Naïve Bayes ± 0.0048 0.0349 ---NSC (Pam) ± 0.0012 0.0052 I_HC ThomGil NFDL ± 0.0272 0.1197 I_NFDR Fctq1 ± 0.0239 0.1124 I_HC Fctq1 ± 0.0201 0.0417 I_NFDR AhdesStri ± 0.0011 0.0025 I_HC AhdesStri ± 0.0049 0.0148 C_NFDR AhdesStri ± 0.0026 0.0033 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule

(11)

Correlações e classificação

em grandes dimensões

± 0.0011 0.4942 I_HC Naïve Bayes ± 0.0009 0.4951 ---NSC (Pam) ± 0.0037 0.0186 I_HC ThomGil NFDL ± 0.0011 0.4928 I_NFDR Fctq1 ± 0.0008 0.4955 I_HC Fctq1 ± 0.0009 0.4964 I_NFDR AhdesStri ± 0.0006 0.4973 I_HC AhdesStri ± 0.0010 0.4942 C_NFDR AhdesStri ± 0.0008 0.4959 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule

(12)

Correlações e classificação

em grandes dimensões

± 0.0029 0.4790 I_HC Naïve Bayes ± 0.0024 0.4797 ---NSC (Pam) ± 0.0099 0.0154 I_HC ThomGil NFDL ± 0.0031 0.4777 I_NFDR Fctq1 ± 0.0027 0.4759 I_HC Fctq1 ± 0.0018 0.4918 I_NFDR AhdesStri ± 0.0010 0.4930 I_HC AhdesStri ± 0.0013 0.4845 C_NFDR AhdesStri ± 0.0009 0.4878 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule

(13)

Conclusões Conclusões Conclusões Conclusões

A escolha do numero adequado de predictores é critica

Correlações e classificação

em grandes dimensões

Podem (e devem-se) incorporar correlações, mesmo com p >> n

Estimadores de Covariâncias/Correlações baseados em “alvos

de referência” são fortemente dependentes da razoabilidade dos alvos adoptados

Desenfatizar a importância dos ultimos vectores próprios da

matriz de covariâncias é uma forma eficaz de regularização para uma grande variedade de condições

(14)

Em que condições é que se pode confiar em “alvos de referência” ?

Correlações e classificação

em grandes dimensões

Devem-se incorporar correlações na selecção de variáveis ?

Qual a importância de regularizar tambem os estimadores de

médias e de probabilidades à priori ? Perspectivas

Perspectivas Perspectivas

Perspectivas e e e e questõesquestõesquestõesquestões emememem abertoabertoabertoaberto

Quais as propriedades assintóticas de métodos regularizados ? Quando e Como ?Quando e Como ?Quando e Como ?Quando e Como ?

(15)

Ahdesmaki, P. and Strimmer, K. (2009). Feature selection in "omics"prediction problems using cat scores and non-discovery rate control. rXiv,stat.AP:0903.2003v1.

Correlações e classificação

em grandes dimensões

Donoho, D. and Jin, J. (2008). Higher criticism thresholding: Optimal feature selection when useful features are rare and weak. Proc. Natl. Acad. Sci, USA 105, 14790-14795.

Referências ReferênciasReferências Referências

Strimmer, K. (2008). A unified approach to false discovery rate estimation. BMC

Bioinformatics, 9, 303.

Tibshirani, R., Hastie, B., Narismhan, B. and Chu, G. (2003). Class prediction by nearest shrunken centroids with applications to DNA microarrays. Statistical Science, 18, 104-117.

Xu, P., Brock, G.N., and Parrish, R. (2009). Modified linear discriminant analysis approaches for classification of high-dimensional microarray data. Computational Statistics and Data Analysis, 53, 1674-1687.

Guo, Y., Hastie, T. and Tibshirani, T. (2007). Regularized discriminant analysis and its application in microarrays. Biostatistics 8, 86-100.

Thomaz, C.E. and Gillies, D.F. (2005). A maximum uncertainty lda-based approach for limited sample size problems with application to face recognition. In: 18th Brazilian Symposium on

computer Graphics and Image Processimg. SIBGRAPI 2005, 89-96.

Duarte Silva, A.P. (2009). Linear Discriminant Analysis with more Variables than

Observations. A not so Naïve Approach. To appear In: Classification as a Tool for Research.

Proceedings of the 11th IFCS Biennial Conference and 33rd Annual Conference of the Gesellschaft für Klassifikation. Dresden, Germany.