• Nenhum resultado encontrado

Métodos propostos por Parodi et al (2008)

3.5 Métodos baseados na metodologia ROC para a seleção de genes

3.5.3 Métodos propostos por Parodi et al (2008)

Parodi et al. (2008) desenvolveram um método para selecionar genes, baseado na área entre a curva ROC e a diagonal de referência (ABCR5).

Para separar curvas degeneradas das não informativas (que se situam perto da diagonal de referência) e das curvas ROC não degeneradas, Parodi et al. (2008) desenvolveram uma nova abordagem baseada na combinação de técnicas comuns de seleção de genes, por exemplo AUC ou estatística-t com um novo teste estatístico baseado numa variante da ABCR, o teste TNRC (test for not-proper ROC curves).

A proposta dos autores para o cálculo da ABCR é feita com base no cálculo da AUC segundo a regra trapezoidal (3.8). Para o cálculo da AUC, Parodi et al. (2008) não consideram empates na amostra global.

O algoritmo proposto por Parodi et al. (2008) permite selecionar genes DE, e destes, identicar os que têm curvas ROC degeneradas. Neste último caso, no contexto deste trabalho, estes genes são genes mistos.

Em primeiro lugar, obtém-se uma lista de genes considerados signicativos a partir de um teste de permutações em função da estatística ABCR, e dessa lista, a partir de um teste de permutações em função da estatística TNRC, identicam-se os genes mistos.

3.5. Métodos baseados na metodologia ROC para a seleção de genes

A seleção dos genes de interesse é feita de acordo com os seguintes passos:

• Calcular a estatística ABCR para todos os genes de acordo com a expressão: ABCR = m X k=1 |pAUCk−Ak|, (3.27)

onde pAUCk é a área parcial abaixo da curva ROC, Ak é a área parcial

abaixo da diagonal de referência (curva ROC não informativa)

Ak =

2k − 1

2m2 , (3.28)

onde m é a dimensão da amostra conjunta sem empates (m ≤ n). • Ordenar os genes de acordo com o valor da ABCR por ordem

decrescente.

• Selecionar os top k da lista anterior considerando uma estimativa da FDR de 15% (voltar a repetir a análise para 10 % e 20%).

• A estimativa da FDR6 é feita com base num teste de permutações (a proposta é de 200 permutações).

• Para cada gene pertencente à lista dos top k, constrói-se a curva ROC e calcula-se a AUC a partir da regra do trapézio, onde cada gene é classicado como tendo regulação positiva ou regulação negativa de acordo com os valores da AUC serem próximos de 1 ou 0 respetivamente.

• Os top k genes são submetidos ao teste TNRC para vericar que genes têm curvas ROC são degeneradas:

TNRC =

m

X

k=1

|AUCk− Ak| − |AUC − 0.5|, (3.29)

São calculados valores-p com base num teste de permutações, e os genes com valores-p inferiores a um determinado nível de signicância são declarados como tendo associadas curvas ROC degeneradas, que no contexto desta tese correspondem a genes mistos.

3.6 Algumas considerações nais

Muitos autores consideram a AUC como uma medida de distância entre duas distribuições, demonstrou-se que esta designação para a AUC não é correta.

As curvas ROC degeneradas revelam-se uma ferramenta muito útil na seleção de genes diferencialmente expressos, em particular a análise da AUC associada a este tipo de curvas, uma vez que a partir desta medida é possível identicar os vários tipos de genes diferencialmente expressos. No entanto, a AUC por si só, revela-se insuciente na análise de genes mistos, pois estes não se distinguem dos genes não DE, uma vez que em ambas as situações a AUC terá valores próximos de 0.5.

A partir do estudo de simulação vericou-se que os vieses da AUC obtidos de forma empírica e pelo método do núcleo revelaram-se com diferenças aparentemente pouco signicativas, podendo-se comparar resultados sem a necessidade de se proceder à respetiva correção do viés. No entanto, após uma reexão sobre a análise da precisão e exatidão das estimativas da AUC obtidas pelos dois métodos no contexto da seleção de genes DE, verica-se que quando o número de réplicas é pequeno, as estimativas da AUC pelo método empírico serão mais exatas e precisas para selecionar genes DE e, as estimativas da AUC pelo método do núcleo serão mais exatas e precisas para selecionar genes mistos.

Capítulo 4

Arrow Plot: uma nova

ferramenta para a análise de

genes DE

4.1 Introdução

A análise da AUC, considerando a mesma regra de classicação para todos os genes numa experiência de microarrays, permite-nos identicar vários tipos de genes diferencialmente expressos, nomeadamente genes com regulação positiva e negativa. No entanto, a análise da AUC por si só ñão permite identicar genes mistos, já que estes não se irão distinguir dos genes não DE pois, os valores da AUC em ambas as situações serão próximos de 0.5. Assim, propõe-se a análise conjunta da AUC e do coeciente de sobreposição entre duas distribuições (OVL) que representam os níveis de expressão nos dois grupos em análise. Apresenta-se uma nova ferramenta na análise da expressão diferencial, o gráco Arrow plot.

Neste trabalho propõe-se a construção do Arrow plot usando estimativas não-paramétricas da AUC e do OVL. Propõe-se um método de estimação não-paramétrico do OVL baseado no cálculo da área sobreposta de duas densidades estimadas pelo método do núcleo, e para o qual se desenvolveu um algoritmo que se descreve detalhadamente na secção 4.2.

Os níveis de expressão dos genes mistos não se distinguirão dos genes não DE que apresentem médias semelhantes, variâncias com grande discrepância entre os dois grupos e distribuições unimodais (Figura 4.1), uma vez que também terão valores da AUC próximos de 0.5 e valores baixos do OVL, i.e., à semelhança dos genes mistos, estes genes apresentam-se na mesma

zona no Arrow plot. Para que seja possivel diferenciar os genes mistos dos genes não DE com as características descritas anteriormente, desenvolveu-se um algoritmo que se baseia na identicação de distribuições bimodais ou multimodais, estimadas pelo método do núcleo. Assim, os genes que possuam bimodalidade (ou multimodalidade) em pelo menos uma das distribuições dos níveis de expressão de entre os genes com AUC em torno de 0.5 e OVL baixo, serão classicados de genes mistos.

Figura 4.1: Densidades dos níveis de expressão de duas populações e respetivas curvas ROC empíricas. X representa os níveis de expressão no grupo controlo e Y representa os níveis de expressão no grupo experimental. Considerou-se a mesma regra de classicação para a estimação das curvas ROC. As densidades foram estimadas através do estimador de núcleo a partir de duas amostras de dimensão 100 simuladas de duas normais. A) X ∼ N(20, 15), Y ∼ N(20, 60); B) X ∼ N (20, 40), Y ∼ N (20, 5) .

Finalmente para a construção do Arrow plot apresenta-se o algoritmo necessário para a sua construção e respetiva identicação de genes DE e genes mistos.