Classificação de Dados
de Elevada Dimensão
Ignorar ou Incorporar Correlações ?
Faculdade de Economia e Gestão/CEGE Universidade Católica Portuguesa
Centro Regional do Porto
A. PEDRO DUARTE SILVA
Indice
Correlações e classificação
em grandes dimensões
1. Classifica 1. Classifica1. Classifica
1. Classificaçççção com p >> não com p >> não com p >> não com p >> n 3. M
3. M3. M
3. Méééétodos modernos de selectodos modernos de selectodos modernos de selecçççção de varitodos modernos de selec ão de varião de varião de variááááveisveisveisveis
3.1. False Discovery e Non 3.1. False Discovery e Non 3.1. False Discovery e Non
3.1. False Discovery e Non----Discovery RatesDiscovery RatesDiscovery RatesDiscovery Rates 3.2. Donoho e Jin
3.2. Donoho e Jin 3.2. Donoho e Jin
3.2. Donoho e Jin’’’’s s s s ““““Higher CriticismHigher CriticismHigher Criticism””””Higher Criticism
2. M 2. M2. M
2. Méééétodos de todos de todos de ““““Antodos de AnAnAnáááálise Discriminante Diagonallise Discriminante Diagonallise Discriminante Diagonallise Discriminante Diagonal””””
4. Como Incorporar Correla 4. Como Incorporar Correla4. Como Incorporar Correla
4. Como Incorporar Correlaçççções ?ões ?ões ?ões ?
4.1. Thomaz e Gilles 4.1. Thomaz e Gilles 4.1. Thomaz e Gilles
4.1. Thomaz e Gilles’’’’s s s s ““““Novas FDLNovas FDLNovas FDL””””Novas FDL 4.2. Estimadores
4.2. Estimadores 4.2. Estimadores
4.2. Estimadores ““““encolhidosencolhidosencolhidos”””” e regularizadosencolhidos e regularizadose regularizadose regularizados
4.3. Estimadores baseadas em modelos factoriais 4.3. Estimadores baseadas em modelos factoriais 4.3. Estimadores baseadas em modelos factoriais 4.3. Estimadores baseadas em modelos factoriais
5. Resultados empiricos 5. Resultados empiricos5. Resultados empiricos 5. Resultados empiricos
6. Conclusões e perspectivas 6. Conclusões e perspectivas6. Conclusões e perspectivas 6. Conclusões e perspectivas
Classifica Classifica Classifica
Classificaççççãoãoãoão en en en en grandesgrandesgrandesgrandes dimensõesdimensõesdimensões::::dimensões
Yiiii ; X; X; X; Xiiii i = = 1,2, … , n= = Yi i i i ∈ {1,…,k} XXXXiiii ∈∈ ℜ∈∈ ℜℜℜpppp Σ) , (µ N ~ Y | Xi i p (Y) i
Pretende-se determinar uma regra capaz de prever Yi dado Xi
) ln 5 . 0 ) ln : ) ln ( ) ( ) ( g (g) 1 T i i 1 T i g g i 1 T g i g (g) i 1 T (g) i µ Σ X X Σ X Σ 0.5 ) µ X ( Σ ) µ X ( 0.5 g min arg ( g min arg ( g min arg i Y π π π − − = − ∆ ∆ = − − − − − − − = Pressuposto habitual:
Correlações e classificação
em grandes dimensões
O O OO problemaproblemaproblemaproblema p >> n
⇒ ⇒ ⇒
An An An
Anááááliseliseliselise DiscriminanteDiscriminanteDiscriminanteDiscriminante DiagonalDiagonalDiagonalDiagonal
Correlações e classificação
em grandes dimensões
(g) i (g) i i(g) X µ X X ∆ˆ = −ˆ = − * g 0.5 g (g) D d n 1 n 1 µ * µˆ = ˆ + − ˆ Naive Bayes(
)(
)
k n X X X X S k 1 g Y g T (g) i (g) i i − − − = ∑ ∑ = = diag(S) D Σˆ = ˆ =Nearest Shruken Centroids
d*g(j) = sign(dg(j)) (dg(j) - αααα)+ (g) k 1 g k 0.5 -g g (g) g n µ n µ D n 1 n 1 µ µ d ˆ ˆ ˆ ˆ 1
∑
ˆ = = − − = θαααα, θθθθ1, ..., θθθθk obtidos por validação cruzada
M M M
Méééétodostodostodostodos modernosmodernosmodernosmodernos de de de de seleseleççççãoselesele ãoão de ão de de varide varivariááááveisvari veisveisveis
Correlações e classificação
em grandes dimensões
Taxas (locais) de falsas descoberta e não descoberta
Higher Criticism
Dada uma sucessão de p testes e estatísticas ordenadas, z1, ..., zp com
P0 = P(H0) ; P1 = P(H1) f0(z) ; f1(z) ; f(z) = P0 f0(z) + P1 f1(z)
fdr(z) = P0 f0(z) / f (z)
Taxa local de falsas descobertas:
Taxa local de falsas não-descobertas: fndr(z) = 1 - fdr(z)
Dada uma sucessão de p testes e valores de prova, π1, ..., π p ordenados
HC – máxima diferença estandartizada entre πj e o seu valor
Como Como Como
Como incorporarincorporarincorporarincorporar correlacorrelacorrelaççççõescorrela õesões ????ões
Correlações e classificação
em grandes dimensões
∑
= = Σ p 1 m T m m m λ) v v max(λ , ˆ∑
= = p 1 m T m m m v v λ S R ) ρ (1 Rˆ * = − 1 ˆThomaz e Gilles’s “Novas FDL”
Estimadores “encolhidos” e regularizados
Guo, Hastie e Tibshirani (2007) Xu, Brock e Parrish (2009) ou: Ahdesmaki e Strimmer (2009) ∑ ∑ ∑ ∑ = D0.5 R D0.5 S I 2 1 ˆ = ρ + ρ Σ P j) (j, D ) ρ (1 j) (j, D me ρ j) (j, Dˆ* = 2 j(ˆ )+ − 2 ˆ n n ) ρ (1 k ρ3 3 g g = + − 1 ˆ* π
) D , (0 N ~ εi p ε ) I , (0 N ~ fi q q Como Como Como
Como incorporarincorporarincorporarincorporar correlacorrelacorrelaççççõescorrela õesões ????ões
Covariâncias estimadas por modelos factoriais
Xi = µµµµ(Yi) + B fi + εεεεi ffffiiii ∈∈ ℜ∈∈ ℜℜℜqqqq εεεεiiii ∈ ℜ∈∈∈ ℜℜℜPPPP q << p
⇒ ⇒⇒ ⇒ ΣΣΣΣ = B BT + D εεεε ΣΣΣΣ-1 = D εεεε-1 - Dεεεε-1 B [Iq + BT Dεεεε-1 B]-1 BTDεεεε-1 2 Fctq D , B ε T Fctq BB D B,D arg min || Σ S|| Σ ε − = + = ˆ ˆ ˆ ; ˆ ˆ ˆ ˆ ˆ ˆ ε
Correlações e classificação
em grandes dimensões
Duarte Silva (2009)Correlações e classificação
em grandes dimensões
± 0.0219 0.2393 I_HC Fisher’s FDL ± 0.0107 0.0614 I_HCSupport Vector Machines
± 0.0112 0.0668 I_HC Naïve Bayes ± 0.0116 0.0812 ---NSC (Pam) ± 0.0108 0.0674 I_HC ThomGil NFDL ± 0.0104 0.0646 I_FNDR Fctq1 ± 0.0107 0.0635 I_HC Fctq1 ± 0.0117 0.0681 I_FNDR AhdesStri ± 0.0105 0.0658 I_HC AhdesStri ± 0.0058 0.0569 C_FNDR AhdesStri ± 0.0094 0.0561 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion* Rule
Singh’s Prostate Cancer Data – p=6033; n=50+52
* C – Correlation Adjusted T-scores ; I – Independence based T-scores HC – Higher Criticism ; FNDR – False Non-Discovery Rates
Correlações e classificação
em grandes dimensões
± 0.0133 0.0435 I_HC Fisher’s FDL ± 0.0008 0.0052 I_HCSupport Vector Machines
± 0.0019 0.0136 I_HC Naïve Bayes ± 0.0014 0.0149 ---NSC (Pam) ± 0.0008 0.0055 I_HC ThomGil NFDL ± 0.0031 0.0196 I_NFDR Fctq1 ± 0.0020 0.0122 I_HC Fctq1 ± 0.0018 0.0075 I_NFDR AhdesStri ± 0.0006 0.0029 I_HC AhdesStri ± 0.0038 0.0144 C_NFDR AhdesStri ± 0.0012 0.0073 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule
Simulation Experiment -- Guo, Hastie and Tibshirani (2007) setup p=10 000; n=100+100 ; 100 Independent Blocks ; ρρρρ = 0.90
Correlações e classificação
em grandes dimensões
± 0.0139 0.0524 I_HC Fisher’s FDL ± 0.0071 0.0228 I_HCSupport Vector Machines
± 0.0160 0.0781 I_HC Naïve Bayes ± 0.0048 0.0349 ---NSC (Pam) ± 0.0012 0.0052 I_HC ThomGil NFDL ± 0.0272 0.1197 I_NFDR Fctq1 ± 0.0239 0.1124 I_HC Fctq1 ± 0.0201 0.0417 I_NFDR AhdesStri ± 0.0011 0.0025 I_HC AhdesStri ± 0.0049 0.0148 C_NFDR AhdesStri ± 0.0026 0.0033 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule
Simulation Experiment -- Guo, Hastie and Tibshirani (2007) setup p=10 000; n=100+100 ; 100 Independent Blocks ; ρρρρ = 0.99
Correlações e classificação
em grandes dimensões
± 0.0131 0.0293 I_HC Fisher’s FDL ± 0.0006 0.4963 I_HCSupport Vector Machines
± 0.0011 0.4942 I_HC Naïve Bayes ± 0.0009 0.4951 ---NSC (Pam) ± 0.0037 0.0186 I_HC ThomGil NFDL ± 0.0011 0.4928 I_NFDR Fctq1 ± 0.0008 0.4955 I_HC Fctq1 ± 0.0009 0.4964 I_NFDR AhdesStri ± 0.0006 0.4973 I_HC AhdesStri ± 0.0010 0.4942 C_NFDR AhdesStri ± 0.0008 0.4959 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule
Simulation Experiment -- Guo, Hastie and Tibshirani (2007) setup p=10 000; n=100+100 ; 10 Independent Blocks ; ρρρρ = 0.90
Correlações e classificação
em grandes dimensões
± 0.0163 0.0315 I_HC Fisher’s FDL ± 0.0016 0.4856 I_HCSupport Vector Machines
± 0.0029 0.4790 I_HC Naïve Bayes ± 0.0024 0.4797 ---NSC (Pam) ± 0.0099 0.0154 I_HC ThomGil NFDL ± 0.0031 0.4777 I_NFDR Fctq1 ± 0.0027 0.4759 I_HC Fctq1 ± 0.0018 0.4918 I_NFDR AhdesStri ± 0.0010 0.4930 I_HC AhdesStri ± 0.0013 0.4845 C_NFDR AhdesStri ± 0.0009 0.4878 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule
Simulation Experiment -- Guo, Hastie and Tibshirani (2007) setup p=10 000; n=100+100 ; 10 Independent Blocks ; ρρρρ = 0.99
Conclusões Conclusões Conclusões Conclusões
A escolha do numero adequado de predictores é critica
Correlações e classificação
em grandes dimensões
Podem (e devem-se) incorporar correlações, mesmo com p >> n
Estimadores de Covariâncias/Correlações baseados em “alvos
de referência” são fortemente dependentes da razoabilidade dos alvos adoptados
Desenfatizar a importância dos ultimos vectores próprios da
matriz de covariâncias é uma forma eficaz de regularização para uma grande variedade de condições
Em que condições é que se pode confiar em “alvos de referência” ?
Correlações e classificação
em grandes dimensões
Devem-se incorporar correlações na selecção de variáveis ?
Qual a importância de regularizar tambem os estimadores de
médias e de probabilidades à priori ? Perspectivas
Perspectivas Perspectivas
Perspectivas e e e e questõesquestõesquestõesquestões emememem abertoabertoabertoaberto
Quais as propriedades assintóticas de métodos regularizados ? Quando e Como ?Quando e Como ?Quando e Como ?Quando e Como ?
Ahdesmaki, P. and Strimmer, K. (2009). Feature selection in "omics"prediction problems using cat scores and non-discovery rate control. rXiv,stat.AP:0903.2003v1.
Correlações e classificação
em grandes dimensões
Donoho, D. and Jin, J. (2008). Higher criticism thresholding: Optimal feature selection when useful features are rare and weak. Proc. Natl. Acad. Sci, USA 105, 14790-14795.
Referências ReferênciasReferências Referências
Strimmer, K. (2008). A unified approach to false discovery rate estimation. BMC
Bioinformatics, 9, 303.
Tibshirani, R., Hastie, B., Narismhan, B. and Chu, G. (2003). Class prediction by nearest shrunken centroids with applications to DNA microarrays. Statistical Science, 18, 104-117.
Xu, P., Brock, G.N., and Parrish, R. (2009). Modified linear discriminant analysis approaches for classification of high-dimensional microarray data. Computational Statistics and Data Analysis, 53, 1674-1687.
Guo, Y., Hastie, T. and Tibshirani, T. (2007). Regularized discriminant analysis and its application in microarrays. Biostatistics 8, 86-100.
Thomaz, C.E. and Gillies, D.F. (2005). A maximum uncertainty lda-based approach for limited sample size problems with application to face recognition. In: 18th Brazilian Symposium on
computer Graphics and Image Processimg. SIBGRAPI 2005, 89-96.
Duarte Silva, A.P. (2009). Linear Discriminant Analysis with more Variables than
Observations. A not so Naïve Approach. To appear In: Classification as a Tool for Research.
Proceedings of the 11th IFCS Biennial Conference and 33rd Annual Conference of the Gesellschaft für Klassifikation. Dresden, Germany.