• Nenhum resultado encontrado

Classificação de dados de elevada dimensão: ignorar ou incorporar?

N/A
N/A
Protected

Academic year: 2021

Share "Classificação de dados de elevada dimensão: ignorar ou incorporar?"

Copied!
15
0
0

Texto

(1)

Classificação de Dados

de Elevada Dimensão

Ignorar ou Incorporar Correlações ?

Faculdade de Economia e Gestão/CEGE Universidade Católica Portuguesa

Centro Regional do Porto

A. PEDRO DUARTE SILVA

(2)

Indice

Correlações e classificação

em grandes dimensões

1. Classifica 1. Classifica1. Classifica

1. Classificaçççção com p >> não com p >> não com p >> não com p >> n 3. M

3. M3. M

3. Méééétodos modernos de selectodos modernos de selectodos modernos de selecçççção de varitodos modernos de selec ão de varião de varião de variááááveisveisveisveis

3.1. False Discovery e Non 3.1. False Discovery e Non 3.1. False Discovery e Non

3.1. False Discovery e Non----Discovery RatesDiscovery RatesDiscovery RatesDiscovery Rates 3.2. Donoho e Jin

3.2. Donoho e Jin 3.2. Donoho e Jin

3.2. Donoho e Jin’’’’s s s s ““““Higher CriticismHigher CriticismHigher Criticism””””Higher Criticism

2. M 2. M2. M

2. Méééétodos de todos de todos de ““““Antodos de AnAnAnáááálise Discriminante Diagonallise Discriminante Diagonallise Discriminante Diagonallise Discriminante Diagonal””””

4. Como Incorporar Correla 4. Como Incorporar Correla4. Como Incorporar Correla

4. Como Incorporar Correlaçççções ?ões ?ões ?ões ?

4.1. Thomaz e Gilles 4.1. Thomaz e Gilles 4.1. Thomaz e Gilles

4.1. Thomaz e Gilles’’’’s s s s ““““Novas FDLNovas FDLNovas FDL””””Novas FDL 4.2. Estimadores

4.2. Estimadores 4.2. Estimadores

4.2. Estimadores ““““encolhidosencolhidosencolhidos”””” e regularizadosencolhidos e regularizadose regularizadose regularizados

4.3. Estimadores baseadas em modelos factoriais 4.3. Estimadores baseadas em modelos factoriais 4.3. Estimadores baseadas em modelos factoriais 4.3. Estimadores baseadas em modelos factoriais

5. Resultados empiricos 5. Resultados empiricos5. Resultados empiricos 5. Resultados empiricos

6. Conclusões e perspectivas 6. Conclusões e perspectivas6. Conclusões e perspectivas 6. Conclusões e perspectivas

(3)

Classifica Classifica Classifica

Classificaççççãoãoãoão en en en en grandesgrandesgrandesgrandes dimensõesdimensõesdimensões::::dimensões

Yiiii ; X; X; X; Xiiii i = = 1,2, … , n= = Yi i i i ∈ {1,…,k} XXXXiiii ∈∈ ℜ∈∈ ℜℜℜpppp Σ) , N ~ Y | Xi i p (Y) i

Pretende-se determinar uma regra capaz de prever Yi dado Xi

) ln 5 . 0 ) ln : ) ln ( ) ( ) ( g (g) 1 T i i 1 T i g g i 1 T g i g (g) i 1 T (g) i µ Σ X X Σ X Σ 0.5 ) µ X ( Σ ) µ X ( 0.5 g min arg ( g min arg ( g min arg i Y π π π − − = − ∆ ∆ = − − − − − − − = Pressuposto habitual:

Correlações e classificação

em grandes dimensões

O O O

O problemaproblemaproblemaproblema p >> n

⇒ ⇒ ⇒

(4)

An An An

Anááááliseliseliselise DiscriminanteDiscriminanteDiscriminanteDiscriminante DiagonalDiagonalDiagonalDiagonal

Correlações e classificação

em grandes dimensões

(g) i (g) i i(g) X µ X X ˆ = −ˆ = − * g 0.5 g (g) D d n 1 n 1 µ * µˆ = ˆ + − ˆ Naive Bayes

(

)(

)

k n X X X X S k 1 g Y g T (g) i (g) i i − − − = ∑ ∑ = = diag(S) D Σˆ = ˆ =

Nearest Shruken Centroids

d*g(j) = sign(dg(j)) (dg(j) - αααα)+ (g) k 1 g k 0.5 -g g (g) g n µ n µ D n 1 n 1 µ µ d ˆ ˆ ˆ ˆ 1

ˆ = = − − = θ

αααα, θθθθ1, ..., θθθθk obtidos por validação cruzada

(5)

M M M

Méééétodostodostodostodos modernosmodernosmodernosmodernos de de de de seleseleççççãoselesele ãoão de ão de de varide varivariááááveisvari veisveisveis

Correlações e classificação

em grandes dimensões

Taxas (locais) de falsas descoberta e não descoberta

Higher Criticism

Dada uma sucessão de p testes e estatísticas ordenadas, z1, ..., zp com

P0 = P(H0) ; P1 = P(H1) f0(z) ; f1(z) ; f(z) = P0 f0(z) + P1 f1(z)

fdr(z) = P0 f0(z) / f (z)

Taxa local de falsas descobertas:

Taxa local de falsas não-descobertas: fndr(z) = 1 - fdr(z)

Dada uma sucessão de p testes e valores de prova, π1, ..., π p ordenados

HC – máxima diferença estandartizada entre πj e o seu valor

(6)

Como Como Como

Como incorporarincorporarincorporarincorporar correlacorrelacorrelaççççõescorrela õesões ????ões

Correlações e classificação

em grandes dimensões

= = Σ p 1 m T m m m λ) v v max(λ , ˆ

= = p 1 m T m m m v v λ S R ) ρ (1 Rˆ * = − 1 ˆ

Thomaz e Gilles’s “Novas FDL”

Estimadores “encolhidos” e regularizados

Guo, Hastie e Tibshirani (2007) Xu, Brock e Parrish (2009) ou: Ahdesmaki e Strimmer (2009) ∑ ∑ ∑ ∑ = D0.5 R D0.5 S I 2 1 ˆ = ρ + ρ Σ P j) (j, D ) ρ (1 j) (j, D me ρ j) (j, Dˆ* = 2 j(ˆ )+ − 2 ˆ n n ) ρ (1 k ρ3 3 g g = + − 1 ˆ* π

(7)

) D , (0 N ~ εi p ε ) I , (0 N ~ fi q q Como Como Como

Como incorporarincorporarincorporarincorporar correlacorrelacorrelaççççõescorrela õesões ????ões

Covariâncias estimadas por modelos factoriais

Xi = µµµµ(Yi) + B fi + εεεεi ffffiiii ∈∈ ℜ∈∈ ℜℜℜqqqq εεεεiiii ∈ ℜ∈∈∈ ℜℜℜPPPP q << p

⇒ ⇒⇒ ⇒ ΣΣΣΣ = B BT + D εεεε ΣΣΣΣ-1 = D εεεε-1 - Dεεεε-1 B [Iq + BT Dεεεε-1 B]-1 BTDεεεε-1 2 Fctq D , B ε T Fctq BB D B,D arg min || Σ S|| Σ ε − = + = ˆ ˆ ˆ ; ˆ ˆ ˆ ˆ ˆ ˆ ε

Correlações e classificação

em grandes dimensões

Duarte Silva (2009)

(8)

Correlações e classificação

em grandes dimensões

± 0.0219 0.2393 I_HC Fisher’s FDL ± 0.0107 0.0614 I_HC

Support Vector Machines

± 0.0112 0.0668 I_HC Naïve Bayes ± 0.0116 0.0812 ---NSC (Pam) ± 0.0108 0.0674 I_HC ThomGil NFDL ± 0.0104 0.0646 I_FNDR Fctq1 ± 0.0107 0.0635 I_HC Fctq1 ± 0.0117 0.0681 I_FNDR AhdesStri ± 0.0105 0.0658 I_HC AhdesStri ± 0.0058 0.0569 C_FNDR AhdesStri ± 0.0094 0.0561 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion* Rule

Singh’s Prostate Cancer Data – p=6033; n=50+52

* C – Correlation Adjusted T-scores ; I – Independence based T-scores HC – Higher Criticism ; FNDR – False Non-Discovery Rates

(9)

Correlações e classificação

em grandes dimensões

± 0.0133 0.0435 I_HC Fisher’s FDL ± 0.0008 0.0052 I_HC

Support Vector Machines

± 0.0019 0.0136 I_HC Naïve Bayes ± 0.0014 0.0149 ---NSC (Pam) ± 0.0008 0.0055 I_HC ThomGil NFDL ± 0.0031 0.0196 I_NFDR Fctq1 ± 0.0020 0.0122 I_HC Fctq1 ± 0.0018 0.0075 I_NFDR AhdesStri ± 0.0006 0.0029 I_HC AhdesStri ± 0.0038 0.0144 C_NFDR AhdesStri ± 0.0012 0.0073 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule

Simulation Experiment -- Guo, Hastie and Tibshirani (2007) setup p=10 000; n=100+100 ; 100 Independent Blocks ; ρρρρ = 0.90

(10)

Correlações e classificação

em grandes dimensões

± 0.0139 0.0524 I_HC Fisher’s FDL ± 0.0071 0.0228 I_HC

Support Vector Machines

± 0.0160 0.0781 I_HC Naïve Bayes ± 0.0048 0.0349 ---NSC (Pam) ± 0.0012 0.0052 I_HC ThomGil NFDL ± 0.0272 0.1197 I_NFDR Fctq1 ± 0.0239 0.1124 I_HC Fctq1 ± 0.0201 0.0417 I_NFDR AhdesStri ± 0.0011 0.0025 I_HC AhdesStri ± 0.0049 0.0148 C_NFDR AhdesStri ± 0.0026 0.0033 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule

Simulation Experiment -- Guo, Hastie and Tibshirani (2007) setup p=10 000; n=100+100 ; 100 Independent Blocks ; ρρρρ = 0.99

(11)

Correlações e classificação

em grandes dimensões

± 0.0131 0.0293 I_HC Fisher’s FDL ± 0.0006 0.4963 I_HC

Support Vector Machines

± 0.0011 0.4942 I_HC Naïve Bayes ± 0.0009 0.4951 ---NSC (Pam) ± 0.0037 0.0186 I_HC ThomGil NFDL ± 0.0011 0.4928 I_NFDR Fctq1 ± 0.0008 0.4955 I_HC Fctq1 ± 0.0009 0.4964 I_NFDR AhdesStri ± 0.0006 0.4973 I_HC AhdesStri ± 0.0010 0.4942 C_NFDR AhdesStri ± 0.0008 0.4959 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule

Simulation Experiment -- Guo, Hastie and Tibshirani (2007) setup p=10 000; n=100+100 ; 10 Independent Blocks ; ρρρρ = 0.90

(12)

Correlações e classificação

em grandes dimensões

± 0.0163 0.0315 I_HC Fisher’s FDL ± 0.0016 0.4856 I_HC

Support Vector Machines

± 0.0029 0.4790 I_HC Naïve Bayes ± 0.0024 0.4797 ---NSC (Pam) ± 0.0099 0.0154 I_HC ThomGil NFDL ± 0.0031 0.4777 I_NFDR Fctq1 ± 0.0027 0.4759 I_HC Fctq1 ± 0.0018 0.4918 I_NFDR AhdesStri ± 0.0010 0.4930 I_HC AhdesStri ± 0.0013 0.4845 C_NFDR AhdesStri ± 0.0009 0.4878 C_HC AhdesStri ± 2 std errors Error Estimate Selection Criterion Rule

Simulation Experiment -- Guo, Hastie and Tibshirani (2007) setup p=10 000; n=100+100 ; 10 Independent Blocks ; ρρρρ = 0.99

(13)

Conclusões Conclusões Conclusões Conclusões

 A escolha do numero adequado de predictores é critica

Correlações e classificação

em grandes dimensões

 Podem (e devem-se) incorporar correlações, mesmo com p >> n

 Estimadores de Covariâncias/Correlações baseados em “alvos

de referência” são fortemente dependentes da razoabilidade dos alvos adoptados

 Desenfatizar a importância dos ultimos vectores próprios da

matriz de covariâncias é uma forma eficaz de regularização para uma grande variedade de condições

(14)

 Em que condições é que se pode confiar em “alvos de referência” ?

Correlações e classificação

em grandes dimensões

 Devem-se incorporar correlações na selecção de variáveis ?

 Qual a importância de regularizar tambem os estimadores de

médias e de probabilidades à priori ? Perspectivas

Perspectivas Perspectivas

Perspectivas e e e e questõesquestõesquestõesquestões emememem abertoabertoabertoaberto

 Quais as propriedades assintóticas de métodos regularizados ?  Quando e Como ?Quando e Como ?Quando e Como ?Quando e Como ?

(15)

Ahdesmaki, P. and Strimmer, K. (2009). Feature selection in "omics"prediction problems using cat scores and non-discovery rate control. rXiv,stat.AP:0903.2003v1.

Correlações e classificação

em grandes dimensões

Donoho, D. and Jin, J. (2008). Higher criticism thresholding: Optimal feature selection when useful features are rare and weak. Proc. Natl. Acad. Sci, USA 105, 14790-14795.

Referências ReferênciasReferências Referências

Strimmer, K. (2008). A unified approach to false discovery rate estimation. BMC

Bioinformatics, 9, 303.

Tibshirani, R., Hastie, B., Narismhan, B. and Chu, G. (2003). Class prediction by nearest shrunken centroids with applications to DNA microarrays. Statistical Science, 18, 104-117.

Xu, P., Brock, G.N., and Parrish, R. (2009). Modified linear discriminant analysis approaches for classification of high-dimensional microarray data. Computational Statistics and Data Analysis, 53, 1674-1687.

Guo, Y., Hastie, T. and Tibshirani, T. (2007). Regularized discriminant analysis and its application in microarrays. Biostatistics 8, 86-100.

Thomaz, C.E. and Gillies, D.F. (2005). A maximum uncertainty lda-based approach for limited sample size problems with application to face recognition. In: 18th Brazilian Symposium on

computer Graphics and Image Processimg. SIBGRAPI 2005, 89-96.

Duarte Silva, A.P. (2009). Linear Discriminant Analysis with more Variables than

Observations. A not so Naïve Approach. To appear In: Classification as a Tool for Research.

Proceedings of the 11th IFCS Biennial Conference and 33rd Annual Conference of the Gesellschaft für Klassifikation. Dresden, Germany.

Referências

Documentos relacionados

Como precaução para possíveis reações adversas, observadas quando da perfuração não intencional no espaço subaracnóideo, uma dose teste de 2 a 3 mL de cloridrato de lidocaína

5 relação entre o consumo de energia renovável e não renovável com o crescimento económico para um universo de 80 países através de um Vector Error Correction Model (VECM) e

Redução de Riscos de Desastres: Métodos e Práticas 2 Capítulo 9 102 com segurança se efetivamente perceber o perigo em sua atividade (HINZE et al., 2000 apud SEEWALD, 2004, p. 3),

Formação acadêmica mais alta: Graduação em Agronomia em andamento Instituição de atuação atual: Universidade Estadual do Oeste do Paraná Endereço completo: Rua Sergipe,

Este estudo também colaborou diferenciando-se dos demais por analisar as empresas que compõe o IBrX-100 utilizando seus índices de rentabilidade durante o período de 2010 a

We performed an in silico analysis of the variants found in the TTR gene and we assessed its implications in FAP TTR AO and gene expression, including the effect of SNPs on protein

Para o desempenho de sua função de tutelar e perseguir o interesse público, a Administração Pública se mune de poderes administrativos, dentre os quais se destaca o poder

Até essa data, o rivaroxabano tinha apenas indicação na prevenção do TEV em doentes adultos submetidos a artroplastia eletiva da anca ou joelho e o dabigatrano para além desta