WCPCA - M´etodos robustos de an´alise de componentes principais

3.3 M´etodos robustos de an´alise de componentes principais

3.3.2 WCPCA

Branco and Pires (2011) desenvolveram métodos robustos de análise de com- ponentes principais, designados métodos-W, que começam com uma solução ini- cial e baseiam-se num esquema de reponderações das observações recorrendo a matrizes de covariâncias pesadas. O aspeto chave destes métodos é o uso de pesos para penalizar observações com elevada influência em cada componente, considerando direções (vetores próprios, sequencialmente do primeiro para o último) numa primeira etapa e variâncias (valores próprios) numa segunda. A solução são os valores e os vetores próprios da matriz de covariâncias pesada, depois de transformados para o espaço inicial.

Um procedimento usual na robustificação de métodos de análise multivariada e, em particular, da análise de componentes principais, é a atribuição de pesos baixos às observações com distância de Mahalanobis elevada. Este procedimento pode conduzir à perda de observações influentes que não são outliers.

Em alternativa à distância de Mahalanobis, Branco and Pires (2011) recorrem a uma medida de influência de cada observação nos valores e nos vetores próprios da matriz de covariâncias.

O algoritmo proposto por Branco and Pires (2011) consiste em três fases: pré- processamento, ciclo de passos a repetir para cada componente e estimação.

Seja X uma matriz n× p, onde xi j é o valor da j-ésima variável para a i-ésima

observação. A descrição das três fases do algoritmo será restrita à situação em que n é inferior a p, conforme ocorre nos dados de microarrays.

A fase de pr´e-processamento consiste em:

• Calcular a matriz centrada Xc = X − 1n¯xT, com 1n = (1, . . . , 1)T e

¯x= ∑n_i₌₁xi/n.

• Realizar a decomposição espetral da matriz XcXcT = P1L1P1T, de dimensão

n× n, onde P1 _{´e uma matriz ortogonal n}× n e L1 _{´e uma matriz diagonal de}

dimens˜ao n× n.

A matriz de covariˆancias amostral de X ´e S = PLPT, verificando-se L= L1/(n − 1) e P = X

cTP1L1−1/2.

• Projetar as observações num subespaço k-dimensional (X⋆ _{= XP), em que}

k é o número de valores próprios de L superiores a um dadoε0.

• Definir um número m ≤ k de componentes. A sugestão de Branco and Pires (2011) é considerar cinco observações por dimensão.

• Considerando a matriz X⋆_{, obter estimativas iniciais da localizac¸˜ao ˆ}_µ(0)_,

das direções principais Û(0) = {û(0)₁ , . . . , û(0)_m } e das respetivas variâncias ˆ Λ(0) = diag(_λˆ(0) 1 , . . . , ˆλ (0) m ) .

Se algum valor pr´oprio for inferior aε0, diminuir m.

A segunda fase do algoritmo ´e um ciclo de passos a repetir para cada componente:

• Para cada observac¸˜ao de X⋆_{, x}⋆

i , calcular o peso associado ao estimador do

primeiro vetor próprio, considerando apenas as primeiras m direções:

w(1)_i = { 1, IM2 i < cm,α1 0, caso contrário onde I M2 i ≡ IM2 ( x⋆_i; û1 ) = v2 i1 ∑m h=2v2ih, vi j = zi j/ √ ˆ λ(0) j , j = 1, . . . , m e zi = (zi1, . . . , zim)T = (x⋆_i − ˆµ(0))T { û(0)₁ , . . . , û(0)m } .

α1 (bem comoα2 eα3 que surgir˜ao a seguir) representa um valor definido

para a proporção desejada de observações não rejeitadas sob o modelo cen- tral e que é de aproximadamente 1.

• Para maior seguranc¸a quanto aos outliers, determinar a distˆancia de Maha- lanobis de x⋆_i a ˆµ(0), dada por MDi =

(∑m

h=1v2ih

)1/2

e calcular outro conjunto de pesos:

w(2)_i =

{

1, MD2_i < dm,α2,n

0, caso contr´ario onde dm,α2,n ´e o quantilα

1/n 2 da distribuiçãoχ 2 m. Considera-se wi = min(w(1)_i , w(2)_i ). • û(1)

1 vai ser o primeiro vetor pr´oprio da matriz de covariˆancias pesada Sw =

∑n

i=1wi(x⋆_i − ˆµ(0))(x⋆_i − ˆµ(0))T

∑n

i=1wi

• Projetar X⋆ _{no subespac¸o ortogonal de ˆu}(1)

1 , usando uma matriz de projec¸˜ao

apropriada Tme renomear o resultado como X⋆:

X⋆←- X⋆Tm= X⋆ ( Im− ˆu (1) 1 { ˆu(1)₁ }T ) .

Trazer também a solução inicial para este subespaço: µˆ(0) ←- Tmµˆ(0)

e Uˆ(0)_{, ˆΛ}(0) _{←- vetores pr´oprios, valores pr´oprios deT}

mUˆ(0)Λˆ

(0){_ˆ

U(0)}T_T

• Diminuir m uma unidade e repetir os 4 passos anteriores.

A sequência dos primeiros vetores próprios determinados é{û(1)₁ , . . . , û(1)m

} = ˆ

U(1) _{e, para cada observação, são multiplicados os m pesos anteriormente}

calculados e designado o produto por wu

A produção das estimativas finais é feita seguindo os passos abaixo descritos (Branco and Pires, 2011):

• Obter pesos para controlar observações com muita influência nos valores próprios:

– Calcular Z⋆ = X⋆Uˆ(1)(scores n˜ao centrados nas componentes princi- pais da matriz original X⋆ relativamente a ˆU(1)_);

– Estandardizar cada coluna de Z⋆usando a mediana e o desvio absoluto da mediana (mad): v⋆_{i j} = (z⋆_{i j}− medianai(z⋆_{i j})

)

/ madi(z⋆_{i j}), j= 1, . . . , m;

– Calcular o score absoluto máximo por observação si = max(|vi1|, . . . ,

– Determinar um conjunto de pesos de acordo com:

wλ_i =

{

1, si < em,α3

0, caso contr´ario onde em,α3 ´e o quantilα

1/m

3 da distribuic¸˜aoχ 2 1;

– Definir os pesos finais como wf

i = min(w u

i, wλi), i= 1, . . . , n.

• Calcular uma matriz de covariˆancias pesada final

Swf = ∑n i=1wfi(x⋆i − ˆµ (0)_)(x⋆ i − ˆµ (0)₎T ∑n i=1wfi

onde ˆµ(0) ´e a estimativa inicial (n˜ao projetada).

• Os vetores próprios de Swf, designados por Û⋆, são as estimativas finais das

direc¸˜oes principais de X⋆.

• As estimativas das variâncias ao longo das direções principais de X⋆_{, ˆ}_Λ⋆_,

são os valores próprios de Swf multiplicados por um fator de consistência.

Considerando que as “boas” observações seguem uma distribuição normal multivariada, Branco and Pires (2011) recomendam uma aproximação para este fator proposta por Croux and Haesbroeck (2000).

• As estimativas finais, para a matriz original X, são ˆΛ = ˆΛ⋆ e Û = Û⋆, se X⋆ = X, ou Û = P Û⋆, se X⋆ = XP.

Os métodos-W são eficientes em termos computacionais porque os cálculos são feitos basicamente à custa de matrizes de covariâncias pesadas com dimensão máxima igual ao min(p, n − 1), sendo esta a dimensão do hiperplano onde se encontram as observações.

Estes métodos apresentam seis variantes: WCPCA, WSPHE, WROBPCA, WPP, WOGK e WSDE, consoante o método aplicado para obter a solução inicial, seja, respetivamente:

• Componentes principais cl´assicas (Pearson, 1901; Hotelling, 1933); • Componentes principais esf´ericas (Locantore et al., 1999);

• ROBPCA (Hubert et al., 2005);

• Componentes principais baseadas na perseguição da projeção (Croux and Ruiz-Gazen, 2005);

• Valores e vetores pr´oprios de uma matriz de covariˆancias estimada de forma robusta: OGK (Maronna and Zamar, 2002) ou SDE (Stahel (1981) e Do- noho (1982), citados por Branco and Pires (2011)).

Seguindo a recomendação de Branco and Pires (2011), atendendo ao desem- penho dos seis métodos aplicados a dados simulados e ao reconhecimento de fa- ces, optou-se por aplicar o método WCPCA, cujo código em R foi gentilmente disponibilizado pelos autores.

Separabilidade linear

Dois conceitos centrais em problemas de classificação são a separabilidade e a linearidade.

Em problemas de classificac¸˜ao de dados de microarrays, supondo que se tem

n observações p-dimensionais, é interessante pensar em cada observação como

tendo uma localização num espaço de elevada dimensão.

De um modo genérico, cada eixo do espaço representa uma variável (quanti- ficação da expressão de um gene, no caso dos dados de microarrays). No caso de haver apenas duas variáveis, as observações localizam-se num espaço bidimensi- onal (plano); no caso de haver três variáveis, localizam-se num espaço tridimen- sional; e assim sucessivamente. Generalizando para p variáveis, com p ∈ N, as observações localizam-se num espaço p-dimensional (Stekel, 2003).

Considerando dois cen´arios extremos poss´ıveis, os dados podem ser:

• Separáveis: Os diferentes grupos aos quais as observações pertencem ocu- pam regiões diferentes do espaço definido pelas variáveis;

• Não separáveis: As observações dos diferentes grupos estão misturadas na mesma região do espaço definido pelas variáveis.

O cenário mais usual é serem parcialmente separáveis, encontrando-se a maioria das observações de cada grupo em regiões distintas, mas ocorrendo al- guma sobreposição de regiões.

Caso os dados sejam separ´aveis, esta separabilidade pode ser:

• Linear: É poss´ıvel separar as regiões ocupadas pelos grupos através de retas.

A separabilidade dos dados de microarrays depende muito do grupo de genes considerados e ´e frequentemente n˜ao linear (Stekel, 2003).

Alguns métodos de classificação, designados métodos de classificação lineares, assumem que os dados são linearmente separáveis. Os métodos de classificação não lineares permitem estabelecer limites de separação não lineares.

Existem diversos métodos que permitem estabelecer limites de separação lineares entre os grupos. Um método poss´ıvel, em problemas de classificação binária, é tratar a variável resposta Y como se fosse quantitativa (assumindo os valores 0 e 1) e ajustar um modelo de regressão linear múltipla aos dados.

Dado um vetor de vari´aveis explicativas XT _{= (1, X}

1, X2, . . . , Xp), em que 1

foi inclu´ıdo para contemplar a existência de um termo independente, a variável resposta Y pode ser predita através de um modelo de regressão linear múltipla (Neter et al., 1996), dado por:

ˆ Y = ˆβ0+ p ∑ j=1 Xjβˆj ou, matricialmente: ˆ Y = XTβˆ

onde ˆβ = (ˆβ0, ˆβ1, . . . , ˆβp) representa o vetor dos coeficientes.

No espac¸o (p+1)-dimensional definido pelas vari´aveis explicativas e resposta, (X, ˆY) representam um hiperplano. Se a constante ˆβ0 for inclu´ıda no modelo, o

hiperplano inclui a origem e é um subespaço. Caso contrário, o hiperplano é um conjunto afim que corta o eixo dos Y no ponto (0, ˆβ0) (Hastie et al., 2009).

Considere-se agora que X ´e uma matriz, de dimens˜ao n×(p+1), que representa

n observações nas p variáveis explicativas e, cujos elementos da primeira coluna

s˜ao todos 1.

Seja y um vetor, n-dimensional, que contém os valores das n observações na variável resposta, pode-se ajustar um modelo de regressão linear aos dados, estimando os seus coeficientes através do método dos m´ınimos quadrados. O objetivo do método é encontrar os coeficientes, ˆβ, que minimizam a soma dos quadrados dos res´ıduos (SQR):

SQR(β) = (y − Xβ)T(y− Xβ).

SQR(β) é uma função quadrática dos parâmetros e portanto o seu m´ınimo existe sempre, mas pode não ser único. Derivando em ordem aβ obtém-se:

XT(y− Xβ) = 0.

Se XT_X_{não for singular, então a solução única é dada por:}

ˆyi = xTi β.ˆ

Em problemas de classificação binária, ˆyiassume tipicamente valores em [0, 1]

e a i-ésima observação é classificada no grupo codificado com 1, se ˆyi > 0, 5, ou

no grupo codificado com 0, caso contr´ario (Hastie et al., 2009).

A t´ıtulo de exemplo, considere-se uma variável resposta que assume os valores 0 e 1 para identificar os grupos de cor azul e laranja, respetivamente. A figura 4.1, retirada de Hastie et al. (2009), apresenta o diagrama de dispersão de duas variáveis quantitativas X1e X2 utilizadas como explicativas num modelo de

regress˜ao linear.

Figura 4.1:Classificação binária via regressão linear.

O conjunto de pontos (região) classificados como laranja são representados por{x: xTβ > 0.5ˆ }e os dois grupos preditos são separados pela reta definida por {

x: xT_{β = 0.5}_ˆ }_{, representada na figura 4.1.}

Podem-se identificar na figura 4.1 diversas observações mal classificadas em ambos os grupos. A aplicação de um método de classificação não linear poderia diminuir a proporção de erros de classificação, conforme verificado por Hastie et al. (2009) que aplicaram o método dos vizinhos mais próximos.

Se a variável resposta tiver G > 2 categorias, ou seja, definir mais que dois grupos, cada categoria pode ser representada por uma variável binária Yg, g =

(Y1, . . . , YG). Dadas n observações, Y passa a representar uma matriz de dimensão

n× G, de zeros e uns, em que cada linha tem um ´unico 1. Pode ser ajustado um

modelo de regress˜ao linear a cada coluna de Y, simultaneamante, obtendo-se ˆ

Y= X(XTX)−1XTY.

Mais detalhes acerca deste método podem ser lidos em Hastie et al. (2009). A aplicação da análise de regressão linear quando a variável resposta é binária suscita problemas conforme referido na secção 2.2, quer na validação de pressu- postos quer na condição de que o valor esperado de Y esteja entre 0 e 1. Esta condição é necessária uma vez que E(Y|X = x) = P(Y = 1|X = x), representando assim a probabilidade de pertencer ao grupo codificado com 1. Estes problemas não impedem que esta abordagem para estabelecer limites de separação lineares funcione. De facto, em muitos problemas, permite obter resultados similares aos de métodos de classificação lineares clássicos como a análise discriminante linear e a regressão log´ıstica, descritos nas secções 2.1 e 2.2, respetivamente.

As árvores de classificação, as redes neuronais (exceto o perceptrão simples) e os vizinhos mais próximos, descritos nas secções 2.3, 2.4 e 2.5, respetivamente, são métodos de classificação não lineares.

4.1 Separabilidade linear para p

> n

Quando o número de variáveis é superior à dimensão da amostra, ou seja, quando p > n, os dados apresentam propriedades geométricas surpreendentes e por vezes até contrárias à intuição (Ahn et al., 2007).

A representação geométrica deste tipo de dados foi estudada por Hall et al. (2005) e Ahn et al. (2007), que fixando a dimensão da amostra e fazendo o número de variáveis tender para infinito (abordagem assintótica), mostraram que as observações se situam nos vértices de um n-simplex emRp_.

Os resultados de Hall et al. (2005) requerem que as variáveis, quando vistas como uma série temporal, sejam independentes. Esta condição é restritiva porque é comum haver multicolinearidade e, para além disso, depende da ordem de entrada dos dados, que é arbitrária em muitas aplicações.

Ahn et al. (2007) estabeleceram uma representação geométrica equivalente, sob condições menos restritivas, usando propriedades assintóticas da matriz de covariâncias amostral.

Pires and Branco (2010) também estudaram diversas caracter´ısticas geométricas dos dados com p > n e recomendam, como forma de lidar com esta particu- laridade, o uso de um número reduzido de variáveis, combinações lineares das variáveis originais.

Num problema de classificação binária, um classificador divide o espaço dos dados em dois. Uma divisão simples é feita por um classificador linear que per- mita definir um hiperplano de separação entre dois conjuntos de dados linearmente separáveis.

Considerando dois grupos A e B, de dimens˜oes nAe nB, respetivamente, e uma

variável Y que representa o grupo a que cada observação pertence, assumindo os códigos a e b. A t´ıtulo de exemplo, considere-se que a = −1 e b = 1. O objetivo de um método de classificação linear é encontrar um vetor diretor w e um limiarβ, tal que uma observação x é classificada no grupo codificado com 1, quando xT_w+ β ≥ 0 (Marron et al., 2007). Isto corresponde a separar o espaço p-

dimensional dos dados em duas regiões por um hiperplano com vetor normal w e cuja posição é determinada porβ. A figura 4.2 ilustra esta separação realizada pelo método das máquinas de suporte vetorial (SVM). O hiperplano está representado a verde e o vetor normal a cor-de-rosa.

Figura 4.2:Separação linear via máquinas de suporte vetorial.

A ideia das SVM é encontrar w e β, de modo a manter as observações do mesmo grupo todas de um lado e tão longe quanto poss´ıvel do hiperplano de separação. Para tal, recorre a um processo de otimização, focando-se apenas nos pontos que estão próximos do hiperplano de separação, designados suportes vetoriais (caixas com contorno preto na figura 4.2) (Marron et al., 2007).

Os hiperplanos paralelos ao hiperplano de separação que intersetam os suportes vetoriais estão representados na figura 4.2 com linhas pretas a tracejado.

A distância entre estes hiperplanos é designada margem. As SVM encontram o hiperplano de separação que maximiza a margem (Marron et al., 2007).

Uma forma alternativa de olhar para o método das SVM é considerar que este escolhe o hiperplano de separação que interseta perpendicularmente o segmento de reta entre os dois pontos mais próximos dos invólucros convexos dos respetivos conjuntos de dados (não necessariamente observações). Este segmento de reta é paralelo ao vetor normal apresentado na figura 4.2 e os pontos mais próximos são suportes vetoriais. Na representação geométrica descrita por Hall et al. (2005), Ahn et al. (2007) e Pires and Branco (2010), estes invólucros convexos são pre- cisamente, o na-simplex e o nb-simplex, cujos vértices representam os limites,

quando p tende para infinito, dos dados dos dois grupos (Hall et al., 2005). As- sim, qualquer método de classificação razoável permite encontrar um hiperplano de separação cujo vetor normal interseta os dois simplexes (Ahn et al., 2007).

A aplicação do método das SVM a dados cujo número de variáveis é muito superior ao de observações, permitiu a Marron et al. (2007) verificar que muitos pontos são suportes vetoriais, ficando empilhados quando projetados, na direção do vetor normal. Marron et al. (2007) denominaram esta surpreendente carac- ter´ıstica, de data piling.

Generalizando o conceito, os dados apresentarem data piling significa que quando são projetados, em algumas direções, muitas das projeções são idênticas, ficando empilhadas umas por cima das outras.

O data piling não é uma propriedade interessante em problemas de classificação, pois indica sobreajustamento e fraca capacidade preditiva (Qiao et al., 2009).

Existem direções nas quais as projeções assumem apenas dois valores, um para cada grupo. Ahn and Marron (2010) estudaram um vetor diretor “ótimo” para este efeito, no sentido de que maximiza a distância entre os valores das projeções. A este vetor diretor, deram o nome de vetor diretor de maximal data piling (MDP). O MDP, descrito a seguir, pode ser considerado uma versão extrema das SVM, em que todos os pontos são suportes vetoriais.

Seja Xc a matriz centrada dos dados de dois grupos A e B, de modo que as

primeiras nA observac¸˜oes p-dimensionais (com p ≥ n − 1 = nA + nB− 1) dizem

respeito ao grupo A e as ´ultimas nBdizem respeito ao grupo B. Represente-se por

wo vetor p-dimensional das diferenc¸as de m´edias entre os dois grupos, ou seja, w= ¯xA− ¯xB.

O vetor diretor de MDP vM pode ser obtido pelo problema de otimizac¸˜ao que

consiste em encontrar v que maximiza a diferença entre as médias das projeções dos dois grupos (vT_w)2 _{sujeito à restrição de data piling X}T

cv = 0 (que garante

que a projeção de cada observação em v é a mesma que a da média do seu grupo) e à restrição de normalização vTv= 1 (Ahn and Marron, 2010).

A restrição de data piling tem como solução v = Qr, onde r é um vetor arbitrário em Rp _{e Q} = I

Penrose de Xc (Searle (1982) citado por Ahn and Marron (2010)).

Ahn and Marron (2010) concluiram que o v “ótimo” que maximiza a função objetivo é:

vM ∝ Qw.

Geometricamente, o vetor de MDP posiciona-se dentro do subespaço (n− 1) dimensional gerado pelos vetores de dados globalmente centrados e é ortogonal ao subespaço (n−2)-dimensional gerado pelos vetores de dados centrados por grupos. Graças à sua interpretação geométrica expl´ıcita, a MDP pode dar informação útil acerca da estrutura dos dados de elevada dimensionalidade.

Para p ≤ n − 2, o vetor de MDP é semelhante ao da análise discriminante de Fisher, que não verifica a propriedade de data piling. Para p≥ n − 1, o MDP pode ser visto como uma versão da análise discriminante linear de Fisher apropriada para dados de elevada dimensionalidade, no sentido de que permite a projeção de dados com dispersão nula dentro dos grupos e dispersão maximizada entre grupos. Para efeitos de classificação de uma nova observação x no grupo A (com código -1) ou no B (com código 1), Ahn and Marron (2010) utilizam o sinal de:

vT_Mx+ c, com c = −vT_MnA¯xA+ nB¯xB

n .

Em suma, Ahn and Marron (2010) concluiram que, se distribuição dos dados é cont´ınua e p> n, os dados são linearmente separáveis com probabilidade 1.

No documento Metodologias de classificação supervisionada para análise de dados de microarrays (páginas 88-99)