3.3 M´etodos robustos de an´alise de componentes principais
3.3.2 WCPCA
Branco and Pires (2011) desenvolveram m´etodos robustos de an´alise de com- ponentes principais, designados m´etodos-W, que comec¸am com uma soluc¸˜ao ini- cial e baseiam-se num esquema de reponderac¸˜oes das observac¸˜oes recorrendo a matrizes de covariˆancias pesadas. O aspeto chave destes m´etodos ´e o uso de pesos para penalizar observac¸˜oes com elevada influˆencia em cada componente, consi- derando direc¸˜oes (vetores pr´oprios, sequencialmente do primeiro para o ´ultimo) numa primeira etapa e variˆancias (valores pr´oprios) numa segunda. A soluc¸˜ao s˜ao os valores e os vetores pr´oprios da matriz de covariˆancias pesada, depois de transformados para o espac¸o inicial.
Um procedimento usual na robustificac¸˜ao de m´etodos de an´alise multivariada e, em particular, da an´alise de componentes principais, ´e a atribuic¸˜ao de pesos baixos `as observac¸˜oes com distˆancia de Mahalanobis elevada. Este procedimento pode conduzir `a perda de observac¸˜oes influentes que n˜ao s˜ao outliers.
Em alternativa `a distˆancia de Mahalanobis, Branco and Pires (2011) recorrem a uma medida de influˆencia de cada observac¸˜ao nos valores e nos vetores pr´oprios da matriz de covariˆancias.
O algoritmo proposto por Branco and Pires (2011) consiste em trˆes fases: pr´e- processamento, ciclo de passos a repetir para cada componente e estimac¸˜ao.
Seja X uma matriz n× p, onde xi j ´e o valor da j-´esima vari´avel para a i-´esima
observac¸˜ao. A descric¸˜ao das trˆes fases do algoritmo ser´a restrita `a situac¸˜ao em que n ´e inferior a p, conforme ocorre nos dados de microarrays.
A fase de pr´e-processamento consiste em:
• Calcular a matriz centrada Xc = X − 1n¯xT, com 1n = (1, . . . , 1)T e
¯x= ∑ni=1xi/n.
• Realizar a decomposic¸˜ao espetral da matriz XcXcT = P1L1P1T, de dimens˜ao
n× n, onde P1 ´e uma matriz ortogonal n× n e L1 ´e uma matriz diagonal de
dimens˜ao n× n.
A matriz de covariˆancias amostral de X ´e S = PLPT, verificando-se L= L1/(n − 1) e P = X
cTP1L1−1/2.
• Projetar as observac¸˜oes num subespac¸o k-dimensional (X⋆ = XP), em que
k ´e o n´umero de valores pr´oprios de L superiores a um dadoε0.
• Definir um n´umero m ≤ k de componentes. A sugest˜ao de Branco and Pires (2011) ´e considerar cinco observac¸˜oes por dimens˜ao.
• Considerando a matriz X⋆, obter estimativas iniciais da localizac¸˜ao ˆµ(0),
das direc¸˜oes principais ˆU(0) = {ˆu(0)1 , . . . , ˆu(0)m } e das respetivas variˆancias ˆ Λ(0) = diag(λˆ(0) 1 , . . . , ˆλ (0) m ) .
Se algum valor pr´oprio for inferior aε0, diminuir m.
A segunda fase do algoritmo ´e um ciclo de passos a repetir para cada compo- nente:
• Para cada observac¸˜ao de X⋆, x⋆
i , calcular o peso associado ao estimador do
primeiro vetor pr´oprio, considerando apenas as primeiras m direc¸˜oes:
w(1)i = { 1, IM2 i < cm,α1 0, caso contr´ario onde I M2 i ≡ IM2 ( x⋆i; ˆu1 ) = v2 i1 ∑m h=2v2ih, vi j = zi j/ √ ˆ λ(0) j , j = 1, . . . , m e zi = (zi1, . . . , zim)T = (x⋆i − ˆµ(0))T { ˆu(0)1 , . . . , ˆu(0)m } .
α1 (bem comoα2 eα3 que surgir˜ao a seguir) representa um valor definido
para a proporc¸˜ao desejada de observac¸˜oes n˜ao rejeitadas sob o modelo cen- tral e que ´e de aproximadamente 1.
• Para maior seguranc¸a quanto aos outliers, determinar a distˆancia de Maha- lanobis de x⋆i a ˆµ(0), dada por MDi =
(∑m
h=1v2ih
)1/2
e calcular outro conjunto de pesos:
w(2)i =
{
1, MD2i < dm,α2,n
0, caso contr´ario onde dm,α2,n ´e o quantilα
1/n 2 da distribuic¸˜aoχ 2 m. Considera-se wi = min(w(1)i , w(2)i ). • ˆu(1)
1 vai ser o primeiro vetor pr´oprio da matriz de covariˆancias pesada Sw =
∑n
i=1wi(x⋆i − ˆµ(0))(x⋆i − ˆµ(0))T
∑n
i=1wi
.
• Projetar X⋆ no subespac¸o ortogonal de ˆu(1)
1 , usando uma matriz de projec¸˜ao
apropriada Tme renomear o resultado como X⋆:
X⋆←- X⋆Tm= X⋆ ( Im− ˆu (1) 1 { ˆu(1)1 }T ) .
Trazer tamb´em a soluc¸˜ao inicial para este subespac¸o: µˆ(0) ←- Tmµˆ(0)
e Uˆ(0), ˆΛ(0) ←- vetores pr´oprios, valores pr´oprios deT
mUˆ(0)Λˆ
(0){ˆ
U(0)}TT
m.
• Diminuir m uma unidade e repetir os 4 passos anteriores.
A sequˆencia dos primeiros vetores pr´oprios determinados ´e{ˆu(1)1 , . . . , ˆu(1)m
} = ˆ
U(1) e, para cada observac¸˜ao, s˜ao multiplicados os m pesos anteriormente
calculados e designado o produto por wu
i.
A produc¸˜ao das estimativas finais ´e feita seguindo os passos abaixo descritos (Branco and Pires, 2011):
• Obter pesos para controlar observac¸˜oes com muita influˆencia nos valores pr´oprios:
– Calcular Z⋆ = X⋆Uˆ(1)(scores n˜ao centrados nas componentes princi- pais da matriz original X⋆ relativamente a ˆU(1));
– Estandardizar cada coluna de Z⋆usando a mediana e o desvio absoluto da mediana (mad): v⋆i j = (z⋆i j− medianai(z⋆i j)
)
/ madi(z⋆i j), j= 1, . . . , m;
– Calcular o score absoluto m´aximo por observac¸˜ao si = max(|vi1|, . . . ,
– Determinar um conjunto de pesos de acordo com:
wλi =
{
1, si < em,α3
0, caso contr´ario onde em,α3 ´e o quantilα
1/m
3 da distribuic¸˜aoχ 2 1;
– Definir os pesos finais como wf
i = min(w u
i, wλi), i= 1, . . . , n.
• Calcular uma matriz de covariˆancias pesada final
Swf = ∑n i=1wfi(x⋆i − ˆµ (0))(x⋆ i − ˆµ (0))T ∑n i=1wfi
onde ˆµ(0) ´e a estimativa inicial (n˜ao projetada).
• Os vetores pr´oprios de Swf, designados por ˆU⋆, s˜ao as estimativas finais das
direc¸˜oes principais de X⋆.
• As estimativas das variˆancias ao longo das direc¸˜oes principais de X⋆, ˆΛ⋆,
s˜ao os valores pr´oprios de Swf multiplicados por um fator de consistˆencia.
Considerando que as “boas” observac¸˜oes seguem uma distribuic¸˜ao normal multivariada, Branco and Pires (2011) recomendam uma aproximac¸˜ao para este fator proposta por Croux and Haesbroeck (2000).
• As estimativas finais, para a matriz original X, s˜ao ˆΛ = ˆΛ⋆ e ˆU = ˆU⋆, se X⋆ = X, ou ˆU = P ˆU⋆, se X⋆ = XP.
Os m´etodos-W s˜ao eficientes em termos computacionais porque os c´alculos s˜ao feitos basicamente `a custa de matrizes de covariˆancias pesadas com dimens˜ao m´axima igual ao min(p, n − 1), sendo esta a dimens˜ao do hiperplano onde se encontram as observac¸˜oes.
Estes m´etodos apresentam seis variantes: WCPCA, WSPHE, WROBPCA, WPP, WOGK e WSDE, consoante o m´etodo aplicado para obter a soluc¸˜ao ini- cial, seja, respetivamente:
• Componentes principais cl´assicas (Pearson, 1901; Hotelling, 1933); • Componentes principais esf´ericas (Locantore et al., 1999);
• ROBPCA (Hubert et al., 2005);
• Componentes principais baseadas na perseguic¸˜ao da projec¸˜ao (Croux and Ruiz-Gazen, 2005);
• Valores e vetores pr´oprios de uma matriz de covariˆancias estimada de forma robusta: OGK (Maronna and Zamar, 2002) ou SDE (Stahel (1981) e Do- noho (1982), citados por Branco and Pires (2011)).
Seguindo a recomendac¸˜ao de Branco and Pires (2011), atendendo ao desem- penho dos seis m´etodos aplicados a dados simulados e ao reconhecimento de fa- ces, optou-se por aplicar o m´etodo WCPCA, cujo c´odigo em R foi gentilmente disponibilizado pelos autores.
Separabilidade linear
Dois conceitos centrais em problemas de classificac¸˜ao s˜ao a separabilidade e a linearidade.
Em problemas de classificac¸˜ao de dados de microarrays, supondo que se tem
n observac¸˜oes p-dimensionais, ´e interessante pensar em cada observac¸˜ao como
tendo uma localizac¸˜ao num espac¸o de elevada dimens˜ao.
De um modo gen´erico, cada eixo do espac¸o representa uma vari´avel (quanti- ficac¸˜ao da express˜ao de um gene, no caso dos dados de microarrays). No caso de haver apenas duas vari´aveis, as observac¸˜oes localizam-se num espac¸o bidimensi- onal (plano); no caso de haver trˆes vari´aveis, localizam-se num espac¸o tridimen- sional; e assim sucessivamente. Generalizando para p vari´aveis, com p ∈ N, as observac¸˜oes localizam-se num espac¸o p-dimensional (Stekel, 2003).
Considerando dois cen´arios extremos poss´ıveis, os dados podem ser:
• Separ´aveis: Os diferentes grupos aos quais as observac¸˜oes pertencem ocu- pam regi˜oes diferentes do espac¸o definido pelas vari´aveis;
• N˜ao separ´aveis: As observac¸˜oes dos diferentes grupos est˜ao misturadas na mesma regi˜ao do espac¸o definido pelas vari´aveis.
O cen´ario mais usual ´e serem parcialmente separ´aveis, encontrando-se a maioria das observac¸˜oes de cada grupo em regi˜oes distintas, mas ocorrendo al- guma sobreposic¸˜ao de regi˜oes.
Caso os dados sejam separ´aveis, esta separabilidade pode ser:
• Linear: ´E poss´ıvel separar as regi˜oes ocupadas pelos grupos atrav´es de retas.
A separabilidade dos dados de microarrays depende muito do grupo de genes considerados e ´e frequentemente n˜ao linear (Stekel, 2003).
Alguns m´etodos de classificac¸˜ao, designados m´etodos de classificac¸˜ao linea- res, assumem que os dados s˜ao linearmente separ´aveis. Os m´etodos de classificac¸˜ao n˜ao lineares permitem estabelecer limites de separac¸˜ao n˜ao lineares.
Existem diversos m´etodos que permitem estabelecer limites de separac¸˜ao line- ares entre os grupos. Um m´etodo poss´ıvel, em problemas de classificac¸˜ao bin´aria, ´e tratar a vari´avel resposta Y como se fosse quantitativa (assumindo os valores 0 e 1) e ajustar um modelo de regress˜ao linear m´ultipla aos dados.
Dado um vetor de vari´aveis explicativas XT = (1, X
1, X2, . . . , Xp), em que 1
foi inclu´ıdo para contemplar a existˆencia de um termo independente, a vari´avel resposta Y pode ser predita atrav´es de um modelo de regress˜ao linear m´ultipla (Neter et al., 1996), dado por:
ˆ Y = ˆβ0+ p ∑ j=1 Xjβˆj ou, matricialmente: ˆ Y = XTβˆ
onde ˆβ = (ˆβ0, ˆβ1, . . . , ˆβp) representa o vetor dos coeficientes.
No espac¸o (p+1)-dimensional definido pelas vari´aveis explicativas e resposta, (X, ˆY) representam um hiperplano. Se a constante ˆβ0 for inclu´ıda no modelo, o
hiperplano inclui a origem e ´e um subespac¸o. Caso contr´ario, o hiperplano ´e um conjunto afim que corta o eixo dos Y no ponto (0, ˆβ0) (Hastie et al., 2009).
Considere-se agora que X ´e uma matriz, de dimens˜ao n×(p+1), que representa
n observac¸˜oes nas p vari´aveis explicativas e, cujos elementos da primeira coluna
s˜ao todos 1.
Seja y um vetor, n-dimensional, que cont´em os valores das n observac¸˜oes na vari´avel resposta, pode-se ajustar um modelo de regress˜ao linear aos dados, estimando os seus coeficientes atrav´es do m´etodo dos m´ınimos quadrados. O objetivo do m´etodo ´e encontrar os coeficientes, ˆβ, que minimizam a soma dos quadrados dos res´ıduos (SQR):
SQR(β) = (y − Xβ)T(y− Xβ).
SQR(β) ´e uma func¸˜ao quadr´atica dos parˆametros e portanto o seu m´ınimo existe sempre, mas pode n˜ao ser ´unico. Derivando em ordem aβ obt´em-se:
XT(y− Xβ) = 0.
Se XTXn˜ao for singular, ent˜ao a soluc¸˜ao ´unica ´e dada por:
ˆ
ˆyi = xTi β.ˆ
Em problemas de classificac¸˜ao bin´aria, ˆyiassume tipicamente valores em [0, 1]
e a i-´esima observac¸˜ao ´e classificada no grupo codificado com 1, se ˆyi > 0, 5, ou
no grupo codificado com 0, caso contr´ario (Hastie et al., 2009).
A t´ıtulo de exemplo, considere-se uma vari´avel resposta que assume os va- lores 0 e 1 para identificar os grupos de cor azul e laranja, respetivamente. A figura 4.1, retirada de Hastie et al. (2009), apresenta o diagrama de dispers˜ao de duas vari´aveis quantitativas X1e X2 utilizadas como explicativas num modelo de
regress˜ao linear.
Figura 4.1:Classificac¸˜ao bin´aria via regress˜ao linear.
O conjunto de pontos (regi˜ao) classificados como laranja s˜ao representados por{x: xTβ > 0.5ˆ }e os dois grupos preditos s˜ao separados pela reta definida por {
x: xTβ = 0.5ˆ }, representada na figura 4.1.
Podem-se identificar na figura 4.1 diversas observac¸˜oes mal classificadas em ambos os grupos. A aplicac¸˜ao de um m´etodo de classificac¸˜ao n˜ao linear poderia diminuir a proporc¸˜ao de erros de classificac¸˜ao, conforme verificado por Hastie et al. (2009) que aplicaram o m´etodo dos vizinhos mais pr´oximos.
Se a vari´avel resposta tiver G > 2 categorias, ou seja, definir mais que dois grupos, cada categoria pode ser representada por uma vari´avel bin´aria Yg, g =
(Y1, . . . , YG). Dadas n observac¸˜oes, Y passa a representar uma matriz de dimens˜ao
n× G, de zeros e uns, em que cada linha tem um ´unico 1. Pode ser ajustado um
modelo de regress˜ao linear a cada coluna de Y, simultaneamante, obtendo-se ˆ
Y= X(XTX)−1XTY.
Mais detalhes acerca deste m´etodo podem ser lidos em Hastie et al. (2009). A aplicac¸˜ao da an´alise de regress˜ao linear quando a vari´avel resposta ´e bin´aria suscita problemas conforme referido na secc¸˜ao 2.2, quer na validac¸˜ao de pressu- postos quer na condic¸˜ao de que o valor esperado de Y esteja entre 0 e 1. Esta condic¸˜ao ´e necess´aria uma vez que E(Y|X = x) = P(Y = 1|X = x), representando assim a probabilidade de pertencer ao grupo codificado com 1. Estes problemas n˜ao impedem que esta abordagem para estabelecer limites de separac¸˜ao lineares funcione. De facto, em muitos problemas, permite obter resultados similares aos de m´etodos de classificac¸˜ao lineares cl´assicos como a an´alise discriminante linear e a regress˜ao log´ıstica, descritos nas secc¸˜oes 2.1 e 2.2, respetivamente.
As ´arvores de classificac¸˜ao, as redes neuronais (exceto o perceptr˜ao simples) e os vizinhos mais pr´oximos, descritos nas secc¸˜oes 2.3, 2.4 e 2.5, respetivamente, s˜ao m´etodos de classificac¸˜ao n˜ao lineares.
4.1
Separabilidade linear para p
> n
Quando o n´umero de vari´aveis ´e superior `a dimens˜ao da amostra, ou seja, quando p > n, os dados apresentam propriedades geom´etricas surpreendentes e por vezes at´e contr´arias `a intuic¸˜ao (Ahn et al., 2007).
A representac¸˜ao geom´etrica deste tipo de dados foi estudada por Hall et al. (2005) e Ahn et al. (2007), que fixando a dimens˜ao da amostra e fazendo o n´umero de vari´aveis tender para infinito (abordagem assint´otica), mostraram que as observac¸˜oes se situam nos v´ertices de um n-simplex emRp.
Os resultados de Hall et al. (2005) requerem que as vari´aveis, quando vistas como uma s´erie temporal, sejam independentes. Esta condic¸˜ao ´e restritiva por- que ´e comum haver multicolinearidade e, para al´em disso, depende da ordem de entrada dos dados, que ´e arbitr´aria em muitas aplicac¸˜oes.
Ahn et al. (2007) estabeleceram uma representac¸˜ao geom´etrica equivalente, sob condic¸˜oes menos restritivas, usando propriedades assint´oticas da matriz de covariˆancias amostral.
Pires and Branco (2010) tamb´em estudaram diversas caracter´ısticas geom´etricas dos dados com p > n e recomendam, como forma de lidar com esta particu- laridade, o uso de um n´umero reduzido de vari´aveis, combinac¸˜oes lineares das vari´aveis originais.
Num problema de classificac¸˜ao bin´aria, um classificador divide o espac¸o dos dados em dois. Uma divis˜ao simples ´e feita por um classificador linear que per- mita definir um hiperplano de separac¸˜ao entre dois conjuntos de dados linearmente separ´aveis.
Considerando dois grupos A e B, de dimens˜oes nAe nB, respetivamente, e uma
vari´avel Y que representa o grupo a que cada observac¸˜ao pertence, assumindo os c´odigos a e b. A t´ıtulo de exemplo, considere-se que a = −1 e b = 1. O objetivo de um m´etodo de classificac¸˜ao linear ´e encontrar um vetor diretor w e um limiarβ, tal que uma observac¸˜ao x ´e classificada no grupo codificado com 1, quando xTw+ β ≥ 0 (Marron et al., 2007). Isto corresponde a separar o espac¸o p-
dimensional dos dados em duas regi˜oes por um hiperplano com vetor normal w e cuja posic¸˜ao ´e determinada porβ. A figura 4.2 ilustra esta separac¸˜ao realizada pelo m´etodo das m´aquinas de suporte vetorial (SVM). O hiperplano est´a representado a verde e o vetor normal a cor-de-rosa.
Figura 4.2:Separac¸˜ao linear via m´aquinas de suporte vetorial.
A ideia das SVM ´e encontrar w e β, de modo a manter as observac¸˜oes do mesmo grupo todas de um lado e t˜ao longe quanto poss´ıvel do hiperplano de separac¸˜ao. Para tal, recorre a um processo de otimizac¸˜ao, focando-se apenas nos pontos que est˜ao pr´oximos do hiperplano de separac¸˜ao, designados suportes veto- riais (caixas com contorno preto na figura 4.2) (Marron et al., 2007).
Os hiperplanos paralelos ao hiperplano de separac¸˜ao que intersetam os su- portes vetoriais est˜ao representados na figura 4.2 com linhas pretas a tracejado.
A distˆancia entre estes hiperplanos ´e designada margem. As SVM encontram o hiperplano de separac¸˜ao que maximiza a margem (Marron et al., 2007).
Uma forma alternativa de olhar para o m´etodo das SVM ´e considerar que este escolhe o hiperplano de separac¸˜ao que interseta perpendicularmente o segmento de reta entre os dois pontos mais pr´oximos dos inv´olucros convexos dos respetivos conjuntos de dados (n˜ao necessariamente observac¸˜oes). Este segmento de reta ´e paralelo ao vetor normal apresentado na figura 4.2 e os pontos mais pr´oximos s˜ao suportes vetoriais. Na representac¸˜ao geom´etrica descrita por Hall et al. (2005), Ahn et al. (2007) e Pires and Branco (2010), estes inv´olucros convexos s˜ao pre- cisamente, o na-simplex e o nb-simplex, cujos v´ertices representam os limites,
quando p tende para infinito, dos dados dos dois grupos (Hall et al., 2005). As- sim, qualquer m´etodo de classificac¸˜ao razo´avel permite encontrar um hiperplano de separac¸˜ao cujo vetor normal interseta os dois simplexes (Ahn et al., 2007).
A aplicac¸˜ao do m´etodo das SVM a dados cujo n´umero de vari´aveis ´e muito superior ao de observac¸˜oes, permitiu a Marron et al. (2007) verificar que muitos pontos s˜ao suportes vetoriais, ficando empilhados quando projetados, na direc¸˜ao do vetor normal. Marron et al. (2007) denominaram esta surpreendente carac- ter´ıstica, de data piling.
Generalizando o conceito, os dados apresentarem data piling significa que quando s˜ao projetados, em algumas direc¸˜oes, muitas das projec¸˜oes s˜ao idˆenticas, ficando empilhadas umas por cima das outras.
O data piling n˜ao ´e uma propriedade interessante em problemas de classificac¸˜ao, pois indica sobreajustamento e fraca capacidade preditiva (Qiao et al., 2009).
Existem direc¸˜oes nas quais as projec¸˜oes assumem apenas dois valores, um para cada grupo. Ahn and Marron (2010) estudaram um vetor diretor “´otimo” para este efeito, no sentido de que maximiza a distˆancia entre os valores das projec¸˜oes. A este vetor diretor, deram o nome de vetor diretor de maximal data piling (MDP). O MDP, descrito a seguir, pode ser considerado uma vers˜ao extrema das SVM, em que todos os pontos s˜ao suportes vetoriais.
Seja Xc a matriz centrada dos dados de dois grupos A e B, de modo que as
primeiras nA observac¸˜oes p-dimensionais (com p ≥ n − 1 = nA + nB− 1) dizem
respeito ao grupo A e as ´ultimas nBdizem respeito ao grupo B. Represente-se por
wo vetor p-dimensional das diferenc¸as de m´edias entre os dois grupos, ou seja, w= ¯xA− ¯xB.
O vetor diretor de MDP vM pode ser obtido pelo problema de otimizac¸˜ao que
consiste em encontrar v que maximiza a diferenc¸a entre as m´edias das projec¸˜oes dos dois grupos (vTw)2 sujeito `a restric¸˜ao de data piling XT
cv = 0 (que garante
que a projec¸˜ao de cada observac¸˜ao em v ´e a mesma que a da m´edia do seu grupo) e `a restric¸˜ao de normalizac¸˜ao vTv= 1 (Ahn and Marron, 2010).
A restric¸˜ao de data piling tem como soluc¸˜ao v = Qr, onde r ´e um vetor arbitr´ario em Rp e Q = I
Penrose de Xc (Searle (1982) citado por Ahn and Marron (2010)).
Ahn and Marron (2010) concluiram que o v “´otimo” que maximiza a func¸˜ao objetivo ´e:
vM ∝ Qw.
Geometricamente, o vetor de MDP posiciona-se dentro do subespac¸o (n− 1) dimensional gerado pelos vetores de dados globalmente centrados e ´e ortogonal ao subespac¸o (n−2)-dimensional gerado pelos vetores de dados centrados por grupos. Grac¸as `a sua interpretac¸˜ao geom´etrica expl´ıcita, a MDP pode dar informac¸˜ao ´util acerca da estrutura dos dados de elevada dimensionalidade.
Para p ≤ n − 2, o vetor de MDP ´e semelhante ao da an´alise discriminante de Fisher, que n˜ao verifica a propriedade de data piling. Para p≥ n − 1, o MDP pode ser visto como uma vers˜ao da an´alise discriminante linear de Fisher apropriada para dados de elevada dimensionalidade, no sentido de que permite a projec¸˜ao de dados com dispers˜ao nula dentro dos grupos e dispers˜ao maximizada entre grupos. Para efeitos de classificac¸˜ao de uma nova observac¸˜ao x no grupo A (com c´odigo -1) ou no B (com c´odigo 1), Ahn and Marron (2010) utilizam o sinal de:
vTMx+ c, com c = −vTMnA¯xA+ nB¯xB
n .
Em suma, Ahn and Marron (2010) concluiram que, se distribuic¸˜ao dos dados ´e cont´ınua e p> n, os dados s˜ao linearmente separ´aveis com probabilidade 1.