2.6 Avaliac¸˜ao do desempenho dos classificadores
2.6.2 Testes de permutac¸˜oes
A ideia dos testes de permutac¸˜oes teve origem nos trabalhos de Fisher (1936a) e Pitman (1937). Este processo, que Fisher (1936a) descreveu como tedioso, tornou-se simples de implementar grac¸as aos avanc¸os computacionais.
Nas ciˆencias biom´edicas, em que ´e necess´aria a an´alise de bases de dados de elevada dimens˜ao, com p muito superior a n, resultantes de tecnologias como os
microarrays, os testes de permutac¸˜oes s˜ao uma t´ecnica popular, sendo frequen-
temente aplicados na identificac¸˜ao de genes com express˜ao diferencial (Troyans- kaya et al., 2002) e, mais recentemente, na classificac¸˜ao supervisionada (Golland et al., 2005; Ojala and Garriga, 2010).
Na classificac¸˜ao supervisionada, os testes de permutac¸˜oes podem ser aplica- dos com o objetivo de avaliar a significˆancia estat´ıstica dos classificadores, ou seja, a possibilidade dos resultados terem ocorrido por acaso, apenas por ter sido identificado algum padr˜ao na amostra de modelac¸˜ao que pareceu associado aos grupos a que os indiv´ıduos pertencem.
Um classificador significativo deve conduzir `a rejeic¸˜ao da hip´otese nula de que o n´ıvel de express˜ao dos genes dos indiv´ıduos ´e independente do grupo a que pertencem, ou seja, de que os grupos n˜ao apresentam diferenc¸as quanto ao n´ıvel de express˜ao dos genes. Tipicamente, a proporc¸˜ao m´edia de erros (por validac¸˜ao cruzada) ´e utilizada como estat´ıstica de teste e a sua distribuic¸˜ao sob a hip´otese nula ´e estimada aplicando permutac¸˜oes na vari´avel que define os grupos (Golland et al., 2005).
Seja Py um conjunto de r permutac¸˜oes y′do vetor original y, considere-se que
e(ˆy, y′) representa a proporc¸˜ao m´edia de erros (obtidos por validac¸˜ao cruzada) para dado classificador ˆy, utilizando o vetor y′.
O valor p emp´ırico para o classificador ˆy pode ser dado por (Ojala and Garriga, 2010):
p= #{y
′ ∈ P
y : e(ˆy, y′)≤ e(ˆy, y)} + 1
r+ 1 .
O valor p emp´ırico representa a proporc¸˜ao de permutac¸˜oes em que o classifi- cador apresentou melhor desempenho do que com os grupos originais. Intuitiva- mente, quantifica a possibilidade da precis˜ao obtida para o classificador ter ocor-
rido por acaso, apenas por o classificador ter identificado na fase de modelac¸˜ao um padr˜ao, que na verdade era aleat´orio (Ojala and Garriga, 2010).
A hip´otese nula de que os padr˜oes de express˜ao gen´etica n˜ao dependem dos grupos ´e rejeitada, ou seja, considera-se haver significˆancia estat´ıstica, se o valor
p calculado for inferior ou igual a determinado n´ıvel de significˆancia estabelecido,
usualmente 0.05.
Idealmente, Py deveria ser o conjunto de todas as permutac¸˜oes poss´ıveis do
vetor y. Nesse caso, tratar-se-ia de um teste de permutac¸˜oes exato (Ojala and Garriga, 2010). Na pr´atica, atendendo a que o n´umero de permutac¸˜oes poss´ıveis de um vetor com n elementos ´e dado por n!, a realizac¸˜ao de um teste exato ´e geralmente invi´avel.
A adic¸˜ao de uma unidade no numerador e no denominador da express˜ao de c´alculo do valor p emp´ırico ´e justificada pelo facto do vetor original y ser uma permutac¸˜ao de si pr´oprio (Ojala and Garriga, 2010).
A decis˜ao quanto ao n´umero de permutac¸˜oes a realizar requer algum cui- dado. Buja and Eyuboglu (1992) sugerem que sejam consideradas 99 ou 499 permutac¸˜oes porque testes de permutac¸˜oes com poucas permutac¸˜oes tˆem uma potˆencia muito baixa.
A elevada dimensionalidade dos conjuntos de dados analisados nesta tese e consequentes condicionalismos computacionais e de tempo, n˜ao permitem a realizac¸˜ao de um n´umero elevado de permutac¸˜oes da vari´avel resposta. Deste modo, optou-se por realizar 10 permutac¸˜oes aos dados reduzidos e 5 aos dados n˜ao reduzidos. Para estes n´umeros de permutac¸˜oes, nunca rejeitar´ıamos a hip´otese nula, ainda que esta pudesse ser falsa. Face ao exposto, a an´alise dos resultados obtidos para os dados com permutac¸˜oes da vari´avel resposta consistiu apenas na observac¸˜ao de tendˆencias reveladas pelo m´ınimo, pela mediana e pelo m´aximo das proporc¸˜oes m´edias de erros de classificac¸˜ao obtidas para as amostras globais e para cada um dos grupos.
Assim, para cada classificador, o procedimento seguido nesta tese foi o se- guinte:
1. Realizac¸˜ao de uma permutac¸˜ao (y′) do vetor y com recurso `a func¸˜ao sample do R;
2. Ajuste e validac¸˜ao do classificador ˆy recorrendo `a validac¸˜ao cruzada com K blocos (optou-se por K = 10);
3. C´alculo da proporc¸˜ao m´edia de erros de classificac¸˜ao nas amostras de vali- dac¸˜ao (e(ˆy, y′)), em termos globais e para cada grupo;
4. Repetic¸˜ao os passos 1 a 3 at´e perfazer o n´umero de permutac¸˜oes (r) preten- dido;
5. C´alculo do m´ınimo, da mediana e do m´aximo das proporc¸˜oes m´edias de erro de classificac¸˜ao obtidas.
Optou-se por realizar tamb´em permutac¸˜oes da vari´avel dependente para com- parar as distˆancias entre projec¸˜oes determinadas segundo a abordagem apresen- tada na secc¸˜ao 4.2. Nesta situac¸˜ao, uma vez que o algoritmo ´e r´apido, mesmo para bases de dados de grande dimens˜ao, optou-se por realizar 499 permutac¸˜oes (que, com o pr´oprio vetor original, prefazem 500).
Reduc¸˜ao de dimensionalidade
A tecnologia de microarrays conduz `a obtenc¸˜ao de bases de dados de grande dimens˜ao, com milhares de vari´aveis (genes), cuja an´alise suscita in´umeras difi- culdades. A reduc¸˜ao pr´evia da dimensionalidade constitui uma etapa importante quando se pretende construir modelos de classificac¸˜ao.
Stekel (2003) refere as raz˜oes que justificam a reduc¸˜ao da dimensionalidade dos dados de microarrays:
• Remoc¸˜ao de ru´ıdo e informac¸˜ao irrelevante. Muitos genes n˜ao contˆem informac¸˜ao ´util para determinar as diferenc¸as entre grupos, podendo, para al´em de n˜ao serem ´uteis, serem fontes de ru´ıdo que podem conduzir a erros de classificac¸˜ao.
• Velocidade no ajuste de modelos. A generalidade dos m´etodos de clas- sificac¸˜ao, entre os quais as redes neuronais, funciona melhor com menos vari´aveis, podendo a sua utilizac¸˜ao ser inviabilizada se o n´umero de vari´aveis for muito elevado.
• Informac¸˜ao idˆentica. Alguns genes s˜ao muito correlacionados e contˆem exatamente a mesma informac¸˜ao. A inclus˜ao de todos estes genes pode causar problemas na aplicac¸˜ao de m´etodos de classificac¸˜ao, nomeadamente, multicolinearidade.
• Multiplicidade. Quando se analisam milhares de genes em paralelo, ´e poss´ıvel que alguns deles se revelem diferencialmente expressos entre gru- pos, mas que estas diferenc¸as se devam a variac¸˜oes aleat´orias.
• Ferramenta de diagn´ostico. Frequentemente, o objetivo da investigac¸˜ao ´e produzir ferramentas de progn´ostico ou de diagn´ostico para doenc¸as ou tratamentos em estudo. Embora possa ser vi´avel o recurso `a tecnologia de
e mais eficiente desenvolver ferramentas mais direcionadas, tais como a reac¸˜ao em cadeia da polimerase (PCR) quantitativa, que usam apenas os genes mais relevantes.
• Formulac¸˜ao de hip´oteses. A classificac¸˜ao baseada num pequeno n´umero de genes pode ser a base para a formulac¸˜ao de hip´oteses cient´ıficas acerca do papel dos genes relevantes em doenc¸as ou tratamentos em estudo. Para tal, ´e necess´ario identificar esses genes.
A selec¸˜ao de um subconjunto apropriado de genes ´e um problema dif´ıcil, que continua sendo alvo de investigac¸˜ao ativa. Stekel (2003) refere que, de acordo com a teoria das ciˆencias da computac¸˜ao, um problema ´e classificado como ´arduo se o n´umero de passos necess´arios para avaliar a sua soluc¸˜ao cresce exponencialmente com o tamanho do problema. Neste caso, o n´umero de subconjuntos poss´ıveis ´e 2p, sendo p o n´umero de genes, o que significa que a avaliac¸˜ao de todos os
subconjuntos de genes poss´ıveis cresce exponencialmente com o n´umero de genes em estudo.
Os m´etodos de reduc¸˜ao de dimensionalidade mais utilizados na an´alise de dados de microarrays s˜ao:
• An´alise de componentes principais; • M´ınimos quadrados parciais;
• M´etodos univariados de selec¸˜ao de genes; • M´etodos multivariados de selec¸˜ao de genes.
A an´alise de componentes principais, desenvolvida ao longo deste cap´ıtulo, n˜ao pretende encontrar um subconjunto de genes relevantes. A reduc¸˜ao de di- mensionalidade ´e feita transformando o conjunto de vari´aveis originais (genes), possivelmente correlacionadas, num conjunto menor de vari´aveis n˜ao correlacio- nadas, que s˜ao combinac¸˜oes lineares das vari´aveis originais e retˆem tanto quanto poss´ıvel a variˆancia total do conjunto inicial.
Alternativamente, pode ser aplicado o m´etodo dos m´ınimos quadrados parci- ais, proposto por Wold (1975) no contexto da econometria e aplicado com bons resultados a dados de microarrays (Nguyen and Rocke, 2004). As componentes obtidas por este m´etodo s˜ao tamb´em combinac¸˜oes lineares das vari´aveis originais, mas os pesos s˜ao func¸˜oes n˜ao lineares das vari´aveis explicativas e da vari´avel res- posta.
Os m´etodos de selec¸˜ao univariados baseiam-se na utilidade marginal de cada vari´avel na discriminac¸˜ao dos grupos, sendo as vari´aveis ordenadas de acordo com determinado crit´erio que reflita essa discriminac¸˜ao. As primeiras vari´aveis
valores p obtidos para testes t ou an´alise de variˆancia, consoante o n´umero de grupos, ou para testes n˜ao param´etricos, como o teste de Mann-Whitney ou o de Kruskall-Wallis. Conforme referido na secc¸˜ao 1.4, o recurso a m´etodos bayesi- anos (Antunes and Sousa, 2008) ou `a taxa de falsas descobertas (Benjamini and Hochberg, 1995), s˜ao outras possibilidades.
Contudo, os m´etodos de selec¸˜ao univariados n˜ao tˆem em conta correlac¸˜oes ou interac¸˜oes entre vari´aveis, pelo que, o conjunto de vari´aveis com melhor poder dis- criminante univariado n˜ao ´e necessariamente o melhor subconjunto de vari´aveis (Jaeger et al., 2003; Boulesteix et al., 2008; Rebouc¸as et al., 2009). Para al´em de nem sempre os genes com maior poder discriminante fazerem parte do conjunto de genes com express˜ao diferencial, os genes com express˜ao diferencial podem apresentar correlac¸˜oes elevadas, n˜ao se resolvendo o problema da multicolineari- dade t´ıpico dos dados de microarrays.
Os m´etodos multivariados de selec¸˜ao de vari´aveis s˜ao caracterizados pelo crit´erio usado para ordenar os subconjuntos de vari´aveis e pelo algoritmo aplicado (Boulesteix et al., 2008). O crit´erio pode ser baseado na precis˜ao da classificac¸˜ao (wraper criteria) ou no poder de discriminac¸˜ao de cada subconjunto de vari´aveis sem recorrer ao classificador (filter criteria). Alguns algoritmos aplicados para encontrar os subconjuntos de vari´aveis restringem a busca a pares de vari´aveis ou subconjuntos de vari´aveis pouco correlacionadas (Jaeger et al., 2003), outros, tais como os algoritmos moleculares (Ooi and Tan, 2003), procuram os melhores subconjuntos da globalidade das vari´aveis.
Outras abordagens menos usuais, tˆem sido propostas para reduzir a dimensio- nalidade dos dados de microarrays, sendo de salientar a abordagem de Boulesteix and Tutz (2006), que prop˜oem um m´etodo baseado no algoritmo CART para en- contrar padr˜oes de interac¸˜ao (IPs) em conjuntos de dados. Os padr˜oes detetados podem ser usados para definir novas covari´aveis com o objetivo de reduzir a di- mensionalidade e melhorar o desempenho dos m´etodos de classificac¸˜ao.
Os IPs tˆem a forma{x1 > θ1} ∩ {x2 ≤ θ2} ∩ · · · ∩ {xd > θd}, onde x1, . . . , xds˜ao
covari´aveis, θ1, . . . , θd s˜ao estimados e d ´e o n´umero de covari´aveis envolvidas.
O m´etodo proposto permite identificar candidatos a padr˜oes e selecionar como IPs apenas aqueles que verificam determinado crit´erio estat´ıstico. ´E utilizado um crit´erio de pruning para evitar IPs muito longos e irrelevantes. Uma vers˜ao mais simples do algoritmo proposto por Boulesteix and Tutz (2006), restrita ao caso de 2 classes, ´e dada por Boulesteix et al. (2003).
Utilizar ´arvores para encontrar IPs tem o problema da construc¸˜ao ser por partic¸˜ao recursiva, o que faz com que todos os n´os se dividam segundo as mesmas vari´aveis. Em particular, todas as folhas tˆem origem na mesma divis˜ao da raiz, o que faz com que padr˜oes que n˜ao envolvam a vari´avel que divide a raiz nunca se-
jam encontrados. O algoritmo proposto por Boulesteix and Tutz (2006) ´e baseado no crescimento de v´arias ´arvores que usam diferentes vari´aveis a partir das quais a divis˜ao inicia. Cada vez que ´e constru´ıda uma ´arvore, armazenam-se as folhas e elimina-se a vari´avel que definiu a primeira divis˜ao. Repete-se este procedimento at´e n˜ao haver mais nenhuma covari´avel. Os candidatos a padr˜oes, cuja relevˆancia ´e posteriormente analisada, s˜ao as folhas das ´arvores constru´ıdas.
3.1
An´alise de componentes principais
A an´alise de componentes principais (PCA) ´e um dos m´etodos mais populares de an´alise multivariada, devendo-se a sua origem aos trabalhos de Pearson (1901) e Hotelling (1933).
A ideia central da an´alise de componentes principais ´e reduzir a dimensiona- lidade de um conjunto de dados com elevado n´umero de vari´aveis (possivelmente correlacionadas), retendo tanto quanto poss´ıvel a variac¸˜ao presente nos dados. Tal ´e conseguido transformando as vari´aveis originais num novo conjunto de vari´aveis n˜ao correlacionadas, as componentes principais (CPs), de modo que as primeiras retˆem a maior parte de variac¸˜ao presente nos dados (Jolliffe, 2002).
De um modo geral, os objetivos da an´alise de componentes principais s˜ao (Branco and Pires, 2011):
• Reduzir a dimensionalidade dos dados, minimizando a perda de informac¸˜ao; • Simplificar a an´alise e a interpretac¸˜ao dos dados;
• Revelar estruturas, encontrando padr˜oes nos dados; • Facilitar a futura construc¸˜ao de modelos preditivos.
Geometricamente, a transformac¸˜ao de um vetor inicial de vari´aveis num vetor de CPs, corresponde a uma rotac¸˜ao do sistema de eixos coordenados. O novo sistema de eixos representa as direc¸˜oes de maior variabilidade, proporcionando uma descric¸˜ao mais simples da estrutura de covariˆancia.
Seja X um vetor aleat´orio p-dimensional X = (X1, X2, . . . , Xp). Sem perda de
generalidade, assuma-se que as vari´aveis Xj, j = 1, . . . , p, tˆem valores esperados
nulos.
O primeiro passo da an´alise de componentes principais ´e encontrar a combina- c¸˜ao linear uT1Xde elementos de X com a m´axima variˆancia, sendo u1um vetor de
p constantes u11, u12, . . . , u1p, tais que
uT1X= u11X1+ u12X2+ · · · + u1pXp = p
∑
j=1
O passo seguinte ´e encontrar a combinac¸˜ao linear uT
2X, n˜ao correlacionada
com uT
1X, com a m´axima variˆancia e assim sucessivamente, de modo que a k-
´esima componente principal, ou seja, a combinac¸˜ao linear uTkX, ´e a que apresenta a k-´esima maior variˆancia e n˜ao ´e correlacionada com uT
1X, u T 2X, . . . , u T k−1X(Jol- liffe, 2002).
Considere-se que o vetor de vari´aveis aleat´orias X tem matriz de covariˆancias Σ. Ent˜ao, a variˆancia da primeira componente principal ´e dada por:
Var[uT1X]= uT1Σu1
Para que o m´aximo desta express˜ao seja atingido, ´e necess´ario impor uma restric¸˜ao de normalizac¸˜ao. A restric¸˜ao utilizada ´e uT1u1 = 1, o que significa que a
soma dos quadrados dos elementos de u1 ´e igual a 1 (Jolliffe, 2002).
A maximizac¸˜ao de uT
1Σu1, sujeita a u T
1u1 = 1, pode ser feita recorrendo ao
m´etodo dos multiplicadores de Lagrange. A func¸˜ao a maximizar ´e uT1Σu1− λ(uT1u1− 1)
ondeλ ´e o multiplicador de Lagrange.
Derivando a func¸˜ao em ordem a u1e igualando a zero, tem-se:
Σu1− λu1 = 0 ⇔ (Σ − λIp)u1= 0
onde Ip ´e a matriz identidade de dimens˜ao p× p.
Esta equac¸˜ao permite constatar queλ ´e um valor pr´oprio de Σ e u1 ´e o corres-
pondente vetor pr´oprio.
Uma vez que se pretende que a primeira componente principal tenha a m´axima variˆancia, sendo esta variˆancia dada por:
uT1Σu1 = uT1λu1 = λuT1u1= λ
o valor pr´oprioλ deve ser o maior valor pr´oprio de Σ. No caso da segunda componente principal, uT
2X, esta ´e determinada de modo a
maximizar uT 2Σu2, sujeito a u T 2u2= 1 e a Cov(u T 1X, u T 2X)= u T 1Σu2 = u T 2Σu1= 0.
Esta ´ultima restric¸˜ao pode ser escrita, por exemplo, como uT2u1 = 0 (Jolliffe,
2002). Neste caso, a func¸˜ao a maximizar ´e
uT2Σu2− λ(uT2u2− 1) − ϕuT2u1
ondeλ e ϕ s˜ao multiplicadores de Lagrange.
Derivando em ordem a u2e igualando a zero, obt´em-se:
Multiplicando `a esquerda por uT 1:
uT1Σu2− λuT1u2− ϕuT1u1 = 0
que se reduz aϕ = 0. Consequentemente, tem-se que: Σu2− λu2 = 0 ⇔ (Σ − λIp)u2= 0.
Atendendo `a equac¸˜ao anterior, conclui-se queλ ´e um valor pr´oprio de Σ e u2
´e o correspondente vetor pr´oprio. Dado queλ = uT
2Σu2, λ deve ser t˜ao grande
quanto poss´ıvel, ou seja, deve ser o segundo maior valor pr´oprio deΣ, designado porλ2.
Generalizando, a k-´esima componente principal de X, k = 1, . . . , p, ´e uTkXe
Var[uT
kX]= λk, ondeλk ´e o k-´esimo maior valor pr´oprio deΣ e uk ´e o correspon-
dente vetor pr´oprio. O vetor uk ´e designado vetor dos coeficientes ou loadings.