• Nenhum resultado encontrado

ANÁLISE CLASSIFICATÓRIA DE GENES 41 conjunto total 4 X Ci denota um valor de expressão representativo do grupo C» Este

Análise classificatória de genes

CAPÍTULO 4. ANÁLISE CLASSIFICATÓRIA DE GENES 41 conjunto total 4 X Ci denota um valor de expressão representativo do grupo C» Este

valor representativo resulta de uma simples combinação linear

Xa = 1

geCi 2_] OígXg com ag G { — 1,1}

(4.6)

A combinação linear (4.6) permite que um dado gene g contribua para XQ com a sua expressão trocada de sinal, — Xg. Isto permite tratar a sub e sobreexpressão de forma

simétrica, prevenindo o caso em que genes com diferente polaridade5 no mesmo grupo

cancelem a expressão diferenciada ao efectuar a média (4.6) (veja-se a figura 4.2).

F i g u r a 4.2: À esquerda, temos os níveis de expressão de um gene em duas classes, azul e cinza. Colocando no grupo um gene com polaridade diferente (em cima ao meio) a média provoca o cancelamento da expressão diferenciada (em cima à direita). Trocar a polaridade do segundo gene (em baixo ao meio) permite manter o potencial discriminativo do grupo (em baixo à direita).

4.2.2 Função objectivo: funções score e margem.

O processo de busca para trás e para a frente com vista a encontrar os grupos Ci, deve ser conduzido por uma função objectivo que inclua, de alguma forma, informação sobre a resposta. Consideremos agora, que dispomos de n realizações independentes e identicamente distribuídas do par aleatório (X, Y)

(Xi,2/iJ \X-n-* Un)

com Xj G e yj € {1,2}. Recorde-se que os perfis de expressão Xj estão normalizados

(média zero e variância unitária). A função a optimizar deverá medir de uma forma eficiente a capacidade discriminativa dos genes e/ou grupos. Para um problema de classificação binária (K = 2) os autores basearam-se na estatística do teste de

4 O que não acontece com os métodos habituais de análise classificatória. Este é um ponto a favor

do método proposto, pois genes que não interessam são rejeitados.

CAPÍTULO 4. ANÁLISE CLASSIFICATÓRIA DE GENES 42

Wilcoxon [9, 22] para duas amostras não emparelhadas. Define­se então o score para o gene i por

Scored) = * ( & ) = £ £ l[*y>*„] (4­7)

jeWi /eiv2

em que & = (x^, . . . , Xin) é o vector de expressões do gene i para todas as n amostras

disponíveis6, j é o índice para as Ni amostras da classe l e i o índice para as iV2

amostras da classe 2.

O que a expressão (4.7) está a fazer não é mais do que, para o gene i, determinar para cada amostra da classe 1 o número de amostras da classe 2 com nível de expressão inferior e somando todos estes valores. Assim, se um dado gene tem níveis de expressão uniformemente mais baixos (altos) para a classe 1 do que para a classe 2, a função s obtém o seu valor mínimo (máximo) smin = 0 (smax = NiN2). E precisamente neste ponto que o método inclui informação sobre a resposta (tipo de tumor).

O cálculo de s para um dado grupo de genes Ci é efectuado da mesma forma, mas neste caso usamos o perfil de expressão representativo £<?. = (xCi,i, ■ ■ ■, Xd,n), e m Qu e

XCi,j = j o } l^geCi a9^g,y

Interpretar s como a estatística do teste de Wilcoxon, possibilita ordenar genes e grupos de acordo com o seu potencial discriminativo.

Recorde­se novamente o problema da existência de genes com diferentes polaridades dentro do mesmo grupo. Como ilustra a figura 4.2, existe o risco de eliminar a expressão diferenciada do grupo, o que leva a que este perca o seu potencial dis­ criminativo. Este problema é resolvido efectuando a simples troca de sinal

C _ C J V^il) • • • ' Xin) s e sV s i / — smax/ £ (A O\

( \ Xii,..., ~~X{n) se s^çjj > smax/z

que corresponde a considerar todos os genes como subexpressos na classe l e a procura é conduzida nesse sentido. Esta transformação é equivalente a tomar ag — —1 em (4.6) para todos os genes que tendam para a subexpressão na classe 2. É fácil ver que

s{£i) = min(s(&), smax ­ s(Çi)) (4.9)

Pelo facto de ser uma função discreta, é normal surgirem situações em que o valor de

s é igual (muitas vezes zero) para diferentes genes ou grupos. De acordo com s estes

genes ou grupos têm o mesmo poder discriminativo. Para obter unicidade, os autores sugerem a inclusão no processo de uma função margem, contínua e real, que determina a força com que um vector £; discrimina as classes7

Margem(^i) = m(^) = min(xj/) ­ max(xy). (4­10)

A função m é positiva se e só se mmieN2(xu) > maXjg^Xy), isto é, sse & (&) está

(completamente) sobreexpresso na classe 2. Neste caso, s = 0 o que implica que &

6Corresponde a uma linha da matriz de dados.

CAPÍTULO 4. ANÁLISE CLASSIFICATÓRIA DE GENES 43

discrimina perfeitamente as classes. Em caso de empates da função s, m permite distinguir o melhor gene ou grupo. O cálculo de m para um grupo é perfeitamente análogo, havendo apenas a necessidade de considerar £Ci no lugar de &.

A função m permite ao algoritmo distinguir o melhor gene ou grupo no caso de empates da função s. Vence aquele com maior valor de m. Assim, a função objectivo é constituída por duas componentes: a função s que determina o poder discriminativo e a função m, que em caso de empate, estabelece a unicidade da escolha de s.

O primeiro passo do algoritmo é efectuar a troca de sinal de acordo com (4.8), para evitar o cancelamento de polaridades. O processo pode começar com ou sem grupos iniciais. No primeiro caso começa por determinar o padrão de expressão representativo (4.6) do grupo; no segundo, identifica o gene que optimiza s, isto é, cujo valor de s é mínimo. A construção do grupo segue de uma forma incremental, adicionando o gene que produz o menor valor de s para o grupo aumentado, ou, em caso de empates, a maior margem m. O processo é repetido até que a introdução de qualquer gene não melhora a função objectivo. Entra-se então no processo inverso, para retirar os genes que foram colocados erradamente em passos anteriores. Estes são retirados um a um, sempre que a função objectivo é optimizada. O processo de introdução e retirada de genes é repetido até que o grupo estabiliza, ou seja, a função objectivo não possa ser melhorada. Se a pretensão é formar mais do que um grupo, simplesmente retira-se do conjunto inicial o grupo de genes já formado e repete-se o processo.

Uma descrição mais detalhada do algoritmo encontra-se no Apêndice B.

4.2.3 Generalização para problemas multiclasse

O que fazer em situações em que o problema possui mais do que duas classes ou existem dentro da mesma classe subtipos que interessa identificar? A sugestão dos autores para o caso multiclasse é aplicar o procedimento um contra todos, reduzindo-se assim a K problemas binários (veja-se a secção 2.3.1). A cada passo (K no total) obtêm-se q grupos que discriminam cada classe relativamente às outras.

4.2.4 Robustez dos resultados. Potencial predictivo.

Para avaliar se os resultados obtidos eram de facto relevantes e não apenas uma particularidade dos dados, Dettling et ai. [6] efectuaram um teste de permutação aleatória. Este consiste em considerar uma permutação (y^,... , y*) do vector de respostas do conjunto de dados8 e aplicar o seu algoritmo para a construção de apenas

um grupo (q = 1). A análise da distribuição empírica das funções sem obtida com os dados permutados permite avaliar se os grupos construídos com os dados originais são de melhor qualidade do que o esperado. É, aliás, esta a conclusão retirada. A função m

CAPÍTULO 4. ANÁLISE CLASSIFICATÓRIA DE GENES 44

Documentos relacionados