Testes de permutações - Avaliação do desempenho dos classificadores

2.6 Avaliac¸˜ao do desempenho dos classificadores

2.6.2 Testes de permutac¸˜oes

A ideia dos testes de permutações teve origem nos trabalhos de Fisher (1936a) e Pitman (1937). Este processo, que Fisher (1936a) descreveu como tedioso, tornou-se simples de implementar graças aos avanços computacionais.

Nas ciências biomédicas, em que é necessária a análise de bases de dados de elevada dimensão, com p muito superior a n, resultantes de tecnologias como os

microarrays, os testes de permutações são uma técnica popular, sendo frequen-

temente aplicados na identificação de genes com expressão diferencial (Troyans- kaya et al., 2002) e, mais recentemente, na classificação supervisionada (Golland et al., 2005; Ojala and Garriga, 2010).

Na classificação supervisionada, os testes de permutações podem ser aplicados com o objetivo de avaliar a significância estat´ıstica dos classificadores, ou seja, a possibilidade dos resultados terem ocorrido por acaso, apenas por ter sido identificado algum padrão na amostra de modelação que pareceu associado aos grupos a que os indiv´ıduos pertencem.

Um classificador significativo deve conduzir à rejeição da hipótese nula de que o n´ıvel de expressão dos genes dos indiv´ıduos é independente do grupo a que pertencem, ou seja, de que os grupos não apresentam diferenças quanto ao n´ıvel de expressão dos genes. Tipicamente, a proporção média de erros (por validação cruzada) é utilizada como estat´ıstica de teste e a sua distribuição sob a hipótese nula é estimada aplicando permutações na variável que define os grupos (Golland et al., 2005).

Seja Py um conjunto de r permutac¸˜oes y′do vetor original y, considere-se que

e(ˆy, y′) representa a proporção média de erros (obtidos por validação cruzada) para dado classificador ˆy, utilizando o vetor y′.

O valor p emp´ırico para o classificador ˆy pode ser dado por (Ojala and Garriga, 2010):

p= #{y

′ _{∈ P}

y : e(ˆy, y′)≤ e(ˆy, y)} + 1

r+ 1 .

O valor p emp´ırico representa a proporção de permutações em que o classifi- cador apresentou melhor desempenho do que com os grupos originais. Intuitiva- mente, quantifica a possibilidade da precisão obtida para o classificador ter ocor-

rido por acaso, apenas por o classificador ter identificado na fase de modelação um padrão, que na verdade era aleatório (Ojala and Garriga, 2010).

A hipótese nula de que os padrões de expressão genética não dependem dos grupos é rejeitada, ou seja, considera-se haver significância estat´ıstica, se o valor

p calculado for inferior ou igual a determinado n´ıvel de significˆancia estabelecido,

usualmente 0.05.

Idealmente, Py deveria ser o conjunto de todas as permutac¸˜oes poss´ıveis do

vetor y. Nesse caso, tratar-se-ia de um teste de permutações exato (Ojala and Garriga, 2010). Na prática, atendendo a que o número de permutações poss´ıveis de um vetor com n elementos é dado por n!, a realização de um teste exato é geralmente inviável.

A adição de uma unidade no numerador e no denominador da expressão de cálculo do valor p emp´ırico é justificada pelo facto do vetor original y ser uma permutação de si próprio (Ojala and Garriga, 2010).

A decisão quanto ao número de permutações a realizar requer algum cui- dado. Buja and Eyuboglu (1992) sugerem que sejam consideradas 99 ou 499 permutações porque testes de permutações com poucas permutações têm uma potência muito baixa.

A elevada dimensionalidade dos conjuntos de dados analisados nesta tese e consequentes condicionalismos computacionais e de tempo, não permitem a realização de um número elevado de permutações da variável resposta. Deste modo, optou-se por realizar 10 permutações aos dados reduzidos e 5 aos dados não reduzidos. Para estes números de permutações, nunca rejeitar´ıamos a hipótese nula, ainda que esta pudesse ser falsa. Face ao exposto, a análise dos resultados obtidos para os dados com permutações da variável resposta consistiu apenas na observação de tendências reveladas pelo m´ınimo, pela mediana e pelo máximo das proporções médias de erros de classificação obtidas para as amostras globais e para cada um dos grupos.

Assim, para cada classificador, o procedimento seguido nesta tese foi o seguinte:

1. Realização de uma permutação (y′) do vetor y com recurso à função sample do R;

2. Ajuste e validação do classificador ˆy recorrendo à validação cruzada com K blocos (optou-se por K = 10);

3. Cálculo da proporção média de erros de classificação nas amostras de vali- dação (e(ˆy, y′)), em termos globais e para cada grupo;

4. Repetição os passos 1 a 3 até perfazer o número de permutações (r) preten- dido;

5. Cálculo do m´ınimo, da mediana e do máximo das proporções médias de erro de classificação obtidas.

Optou-se por realizar também permutações da variável dependente para com- parar as distâncias entre projeções determinadas segundo a abordagem apresen- tada na secção 4.2. Nesta situação, uma vez que o algoritmo é rápido, mesmo para bases de dados de grande dimensão, optou-se por realizar 499 permutações (que, com o próprio vetor original, prefazem 500).

Reduc¸˜ao de dimensionalidade

A tecnologia de microarrays conduz à obtenção de bases de dados de grande dimensão, com milhares de variáveis (genes), cuja análise suscita inúmeras difi- culdades. A redução prévia da dimensionalidade constitui uma etapa importante quando se pretende construir modelos de classificação.

Stekel (2003) refere as razões que justificam a redução da dimensionalidade dos dados de microarrays:

• Remoção de ru´ıdo e informação irrelevante. Muitos genes não contêm informação útil para determinar as diferenças entre grupos, podendo, para além de não serem úteis, serem fontes de ru´ıdo que podem conduzir a erros de classificação.

• Velocidade no ajuste de modelos. A generalidade dos métodos de clas- sificação, entre os quais as redes neuronais, funciona melhor com menos variáveis, podendo a sua utilização ser inviabilizada se o número de variáveis for muito elevado.

• Informação idêntica. Alguns genes são muito correlacionados e contêm exatamente a mesma informação. A inclusão de todos estes genes pode causar problemas na aplicação de métodos de classificação, nomeadamente, multicolinearidade.

• Multiplicidade. Quando se analisam milhares de genes em paralelo, é poss´ıvel que alguns deles se revelem diferencialmente expressos entre grupos, mas que estas diferenças se devam a variações aleatórias.

• Ferramenta de diagnóstico. Frequentemente, o objetivo da investigação é produzir ferramentas de prognóstico ou de diagnóstico para doenças ou tratamentos em estudo. Embora possa ser viável o recurso à tecnologia de

e mais eficiente desenvolver ferramentas mais direcionadas, tais como a reac¸˜ao em cadeia da polimerase (PCR) quantitativa, que usam apenas os genes mais relevantes.

• Formulação de hipóteses. A classificação baseada num pequeno número de genes pode ser a base para a formulação de hipóteses cient´ıficas acerca do papel dos genes relevantes em doenças ou tratamentos em estudo. Para tal, é necessário identificar esses genes.

A seleção de um subconjunto apropriado de genes é um problema dif´ıcil, que continua sendo alvo de investigação ativa. Stekel (2003) refere que, de acordo com a teoria das ciências da computação, um problema é classificado como árduo se o número de passos necessários para avaliar a sua solução cresce exponencialmente com o tamanho do problema. Neste caso, o número de subconjuntos poss´ıveis é 2p_{, sendo p o número de genes, o que significa que a avaliação de todos os}

subconjuntos de genes poss´ıveis cresce exponencialmente com o n´umero de genes em estudo.

Os métodos de redução de dimensionalidade mais utilizados na análise de dados de microarrays são:

• An´alise de componentes principais; • M´ınimos quadrados parciais;

• Métodos univariados de seleção de genes; • Métodos multivariados de seleção de genes.

A análise de componentes principais, desenvolvida ao longo deste cap´ıtulo, não pretende encontrar um subconjunto de genes relevantes. A redução de dimensionalidade é feita transformando o conjunto de variáveis originais (genes), possivelmente correlacionadas, num conjunto menor de variáveis não correlacionadas, que são combinações lineares das variáveis originais e retêm tanto quanto poss´ıvel a variância total do conjunto inicial.

Alternativamente, pode ser aplicado o método dos m´ınimos quadrados parciais, proposto por Wold (1975) no contexto da econometria e aplicado com bons resultados a dados de microarrays (Nguyen and Rocke, 2004). As componentes obtidas por este método são também combinações lineares das variáveis originais, mas os pesos são funções não lineares das variáveis explicativas e da variável resposta.

Os métodos de seleção univariados baseiam-se na utilidade marginal de cada variável na discriminação dos grupos, sendo as variáveis ordenadas de acordo com determinado critério que reflita essa discriminação. As primeiras variáveis

valores p obtidos para testes t ou análise de variância, consoante o número de grupos, ou para testes não paramétricos, como o teste de Mann-Whitney ou o de Kruskall-Wallis. Conforme referido na secção 1.4, o recurso a métodos bayesi- anos (Antunes and Sousa, 2008) ou à taxa de falsas descobertas (Benjamini and Hochberg, 1995), são outras possibilidades.

Contudo, os métodos de seleção univariados não têm em conta correlações ou interações entre variáveis, pelo que, o conjunto de variáveis com melhor poder discriminante univariado não é necessariamente o melhor subconjunto de variáveis (Jaeger et al., 2003; Boulesteix et al., 2008; Rebouças et al., 2009). Para além de nem sempre os genes com maior poder discriminante fazerem parte do conjunto de genes com expressão diferencial, os genes com expressão diferencial podem apresentar correlações elevadas, não se resolvendo o problema da multicolineari- dade t´ıpico dos dados de microarrays.

Os métodos multivariados de seleção de variáveis são caracterizados pelo critério usado para ordenar os subconjuntos de variáveis e pelo algoritmo aplicado (Boulesteix et al., 2008). O critério pode ser baseado na precisão da classificação (wraper criteria) ou no poder de discriminação de cada subconjunto de variáveis sem recorrer ao classificador (filter criteria). Alguns algoritmos aplicados para encontrar os subconjuntos de variáveis restringem a busca a pares de variáveis ou subconjuntos de variáveis pouco correlacionadas (Jaeger et al., 2003), outros, tais como os algoritmos moleculares (Ooi and Tan, 2003), procuram os melhores subconjuntos da globalidade das variáveis.

Outras abordagens menos usuais, têm sido propostas para reduzir a dimensio- nalidade dos dados de microarrays, sendo de salientar a abordagem de Boulesteix and Tutz (2006), que propõem um método baseado no algoritmo CART para encontrar padrões de interação (IPs) em conjuntos de dados. Os padrões detetados podem ser usados para definir novas covariáveis com o objetivo de reduzir a dimensionalidade e melhorar o desempenho dos métodos de classificação.

Os IPs tˆem a forma{x1 > θ1} ∩ {x2 ≤ θ2} ∩ · · · ∩ {xd > θd}, onde x1, . . . , xds˜ao

covariáveis, θ1, . . . , θd são estimados e d é o número de covariáveis envolvidas.

O método proposto permite identificar candidatos a padrões e selecionar como IPs apenas aqueles que verificam determinado critério estat´ıstico. É utilizado um critério de pruning para evitar IPs muito longos e irrelevantes. Uma versão mais simples do algoritmo proposto por Boulesteix and Tutz (2006), restrita ao caso de 2 classes, é dada por Boulesteix et al. (2003).

Utilizar árvores para encontrar IPs tem o problema da construção ser por partição recursiva, o que faz com que todos os nós se dividam segundo as mesmas variáveis. Em particular, todas as folhas têm origem na mesma divisão da raiz, o que faz com que padrões que não envolvam a variável que divide a raiz nunca se-

jam encontrados. O algoritmo proposto por Boulesteix and Tutz (2006) é baseado no crescimento de várias árvores que usam diferentes variáveis a partir das quais a divisão inicia. Cada vez que é constru´ıda uma árvore, armazenam-se as folhas e elimina-se a variável que definiu a primeira divisão. Repete-se este procedimento até não haver mais nenhuma covariável. Os candidatos a padrões, cuja relevância é posteriormente analisada, são as folhas das árvores constru´ıdas.

3.1 An´alise de componentes principais

A análise de componentes principais (PCA) é um dos métodos mais populares de análise multivariada, devendo-se a sua origem aos trabalhos de Pearson (1901) e Hotelling (1933).

A ideia central da análise de componentes principais é reduzir a dimensionalidade de um conjunto de dados com elevado número de variáveis (possivelmente correlacionadas), retendo tanto quanto poss´ıvel a variação presente nos dados. Tal é conseguido transformando as variáveis originais num novo conjunto de variáveis não correlacionadas, as componentes principais (CPs), de modo que as primeiras retêm a maior parte de variação presente nos dados (Jolliffe, 2002).

De um modo geral, os objetivos da an´alise de componentes principais s˜ao (Branco and Pires, 2011):

• Reduzir a dimensionalidade dos dados, minimizando a perda de informação; • Simplificar a análise e a interpretação dos dados;

• Revelar estruturas, encontrando padrões nos dados; • Facilitar a futura construção de modelos preditivos.

Geometricamente, a transformação de um vetor inicial de variáveis num vetor de CPs, corresponde a uma rotação do sistema de eixos coordenados. O novo sistema de eixos representa as direções de maior variabilidade, proporcionando uma descrição mais simples da estrutura de covariância.

Seja X um vetor aleat´orio p-dimensional X = (X1, X2, . . . , Xp). Sem perda de

generalidade, assuma-se que as vari´aveis Xj, j = 1, . . . , p, tˆem valores esperados

nulos.

O primeiro passo da análise de componentes principais é encontrar a combina- ção linear uT₁Xde elementos de X com a máxima variância, sendo u1um vetor de

p constantes u11, u12, . . . , u1p, tais que

uT₁X= u11X1+ u12X2+ · · · + u1pXp = p

∑

j=1

O passo seguinte é encontrar a combinação linear uT

2X, n˜ao correlacionada

com uT

1X, com a m´axima variˆancia e assim sucessivamente, de modo que a k-

ésima componente principal, ou seja, a combinação linear uT_kX, é a que apresenta a k-ésima maior variância e não é correlacionada com uT

1X, u T 2X, . . . , u T k−1X(Jol- liﬀe, 2002).

Considere-se que o vetor de variáveis aleatórias X tem matriz de covariâncias Σ. Então, a variância da primeira componente principal é dada por:

Var[uT₁X]= uT₁Σu1

Para que o máximo desta expressão seja atingido, é necessário impor uma restrição de normalização. A restrição utilizada é uT₁u1 = 1, o que significa que a

soma dos quadrados dos elementos de u1 ´e igual a 1 (Jolliﬀe, 2002).

A maximizac¸˜ao de uT

1Σu1, sujeita a u T

1u1 = 1, pode ser feita recorrendo ao

método dos multiplicadores de Lagrange. A função a maximizar é uT₁Σu1− λ(uT1u1− 1)

ondeλ ´e o multiplicador de Lagrange.

Derivando a func¸˜ao em ordem a u1e igualando a zero, tem-se:

Σu1− λu1 = 0 ⇔ (Σ − λIp)u1= 0

onde Ip ´e a matriz identidade de dimens˜ao p× p.

Esta equação permite constatar queλ é um valor próprio de Σ e u1 é o corres-

pondente vetor pr´oprio.

Uma vez que se pretende que a primeira componente principal tenha a máxima variância, sendo esta variância dada por:

uT₁Σu1 = uT1λu1 = λuT1u1= λ

o valor pr´oprioλ deve ser o maior valor pr´oprio de Σ. No caso da segunda componente principal, uT

2X, esta ´e determinada de modo a

maximizar uT 2Σu2, sujeito a u T 2u2= 1 e a Cov(u T 1X, u T 2X)= u T 1Σu2 = u T 2Σu1= 0.

Esta última restrição pode ser escrita, por exemplo, como uT₂u1 = 0 (Jolliffe,

2002). Neste caso, a função a maximizar é

uT₂Σu2− λ(uT2u2− 1) − ϕuT2u1

ondeλ e ϕ s˜ao multiplicadores de Lagrange.

Derivando em ordem a u2e igualando a zero, obt´em-se:

Multiplicando `a esquerda por uT 1:

uT₁Σu2− λuT1u2− ϕuT1u1 = 0

que se reduz aϕ = 0. Consequentemente, tem-se que: Σu2− λu2 = 0 ⇔ (Σ − λIp)u2= 0.

Atendendo à equação anterior, conclui-se queλ é um valor próprio de Σ e u2

´e o correspondente vetor pr´oprio. Dado queλ = uT

2Σu2, λ deve ser t˜ao grande

quanto poss´ıvel, ou seja, deve ser o segundo maior valor pr´oprio deΣ, designado porλ2.

Generalizando, a k-´esima componente principal de X, k = 1, . . . , p, ´e uT_kXe

Var[uT

kX]= λk, ondeλk é o k-ésimo maior valor próprio deΣ e uk é o correspon-

dente vetor pr´oprio. O vetor uk ´e designado vetor dos coeficientes ou loadings.

No documento Metodologias de classificação supervisionada para análise de dados de microarrays (páginas 69-78)