Classificação Expressão Gênica

(1)

Ivan G. Costa Filho [email protected]

Centro de Informática

Universidade Federal de Pernambuco

Classificação

Expressão Gênica

(2)

Tópicos

• O que é classificação?

• Representação de dados

• Visualização

• Classificação

– Classificação de câncer

– Analise de sobrevivência

(3)

Representação dos Dados

 Tabela X com N genes X L amostras proveniente do pré-processamento

 Valores absolutos (ex. Affymetrix)

 Valores relativos (ex. CDNA)

 Podem conter dados faltosos (NA)

Cond A Cond B Cond C

Gene 1 -1,1 0,1 1,5

Gene 2 3,1 3,4 2,1

Gene 3 -2,2 -1,9 NA

Cond A Cond B Cond C

Gene 1 100 200 400

Gene 2 2000 2400 1500

Gene 3 100 100 50

(4)

Representação de Dados

 Valores Relativos (razão do log)

 Valoriza genes com mesmo padrão de expressão

 Baseado no fato de que certos genes são X-vezes mais expressos que outros

 Valores Absolutos

 Valoriza genes com mesmos valores de expressão

 Mantêm informação se expressão média é baixa ou alta

(5)

Visualização I

Amostras

G en es

Gráficos Red-green

Qualquer cores (vermelho/azul)

Escala logarítmica

Colunas/linhas são ordenadas para ter vizinhos similares

Tree-leave ordering (Bar- Joseph)

Estatísticas de expressão diferencial (t-score)

(6)

Visualização I

Amostras

G en es

 Gráficos Red-green

 Qualquer cores (vermelho/azul)

 Escala logarítmica

 Colunas/linhas são ordenadas para ter vizinhos similares

 Tree-leave ordering (Bar-Joseph)

 Estatísticas de

expressão diferencial

(7)

Visualização II

 Gráficos Scatter

 Pontos

representam amostras

 Necessitam técnicas de redução de

dimensão (PCA)

 Escolha de poucos genes (2-3)

discriminativos

(8)

Classificação

(9)

Diagnóstico

Personalizado

 Atualmente diagnostico é baseado em aspectos macro-moleculares

 Sintomas do pacientes, morfologia de tumores, ...

 Desafio: Realizar diagnostico medico

usando (também) informação genética de pacientes

 Expressão gênica, polimorfismos (não vamos ver!)

 Previsão de resposta a tratamentos

(10)

Classificação

 Dados

 matriz X (expressão)

 classificação Y (tipos de câncer)

 Achar uma função

 f(x) → y

G ene 1

Gene 2

(11)

Classificação

 Dados

 matriz X (expressão)

 classificação Y (tipos de câncer)

 Achar uma função

 f(x) → y

 Diagnosticar novo paciente

 f(x') → y'

G ene 1

Gene 2

novo paciente ?

(12)

Classificador Linear

Função Linear

f (x , A) = a₀+a₁x₁+...+a_Lx_L f ( x, A) > 0 ⇒ classe A

f ( x, A) ≤ 0 ⇒ classe B

 Apenas para 2 classes

 Achar coeficientes A

 estimação

 Achar genes relevantes

 Seleção de atributos

G en e 1

Gene 2

(13)

Classificação Linear Estimação

Função Linear

f (x , A) = a₀+a₁x₁+...+a_Lx_L

y = -1 (se classe A) y = 1 (se classe B)

Achar A maximizando

Pode ser estimado com perceptron, SVM, programação linear

2 1

( ( , ) )

N

i i

i

f x A y



￥ 

(14)

Classificação Linear Problemas

• Nem sempre classes são linearmente separáveis

• Treinamento

sempre gera erro!

• Solução: usar funções não lineares

(15)

Avaliação

• Como avaliar métodos de classificação?

– A acurácia de um método é

sempre baseado em exemplos não usados no treinamento

• Validação cruzada

• Validação Leave-one-out

• ...

(16)

Validação cruzada r-Fold

X

Treino Teste

Média e

desvio-padrão de desempenho r=3

• Quando r = n

^o

dados  leave-one-out

(17)

Classificação Não-Linear

• Função Polinomial

f (x , A) = a₀+ a₁₁x³₁+...

+a_L1x³_L

a₁₂x²₁+...

+a_L2x²_L

a₁₂x₁+...

+a_L2x_L

Exemplo função de terceira ordem

(18)

Classificação (Não)-Linear Problemas

• Quais genes usar

para a classificação?

• Bases contem poucos pacientes e muitos genes.

(19)

Maldição da

Dimensionalidade

• Volume do espaço cresce exponencialmente com a dimensão

• Pontos (pacientes) são

distribuídos esparsamente no

espaço.

(20)

Maldição da

Dimensionalidade

• Exemplo de

espaço esparso – Três genes – 2 exemplos

de treino

(21)

Maldição da

Dimensionalidade

• Exemplo de

espaço esparso – Três genes – 2 exemplos

de treino

• Milhares de

„bons“

classificadores são possíveis (no treino)

(22)

Maldição da

Dimensionalidade

• Novo exemplo para

classificação (verde)

• Nenhum dos classificadores generaliza!

• Exemplo clássico de overfitting!

(23)

Maldição da

Dimensionalidade II

• Funções

complexas (mais parâmetros)

funções

polinomiais

• Muito mais

alternativas de funções!

• São mais

propensas a overfitting

(24)

Maldição da

Dimensionalidade na Pratica

• O uso de mais de 30 genes leva a overfitting!

QDA – discriminador quadrático e LDA – discriminador linear

(25)

Maldição da

Dimensionalidade

Soluções:

• Usar classificadores baseados em modelos com limite de

soluções

– Exemplo: classificadores de margem larga

• Reduzir o espaço ao usar

apenas dados relevantes

(26)

Classificadores de Margem Larga

• Requer uma margem (m) entre a linha de decisão

• Achar A maximizando

• Sugeito a

• Exemplo: SVMs m

| ( , ) | f x A

_i

 m

2 1

( ( , ) )

N

i i

i

f x A y



￥



(27)

Seleção de Atributos

• Quais genes usar?

– Questão biológica: quantos/quais genes são discriminativos para o diagnostico?

– Estatística: Quantos genes são necessários para realizar

classificação sem overfitting?

• Bases contem ate 30.000 genes

(28)

Seleção de Atributos

• Muitos atributos são irrelevantes ao problema (não diferencialmente

expressos)

• Muitos atributos (relevantes ou não)

são correlacionados

(29)

Estratégias para Seleção

de Atributos

• Filtros:

• Seleção de genes antes da classificação

• Usar métodos de expressão diferencial de genes.

• Wrappers:

• seleção é realizada paralelamente a aprendizagem

• Ex: Nearest Shrunken Centroids, Random Forests

(30)

Filtros

• Usar métodos de expressão

diferencial para escolher atributos

• T-test, Willcox Test, …

• Requer a definição de um numero de genes ou p-value

Atenção: seleção de atributos é um parâmetro do método a ser ajustar.

Deve ser baseado apenas no conjunto

de treinamento!

(31)

Métodos Wrapper

Nearest Shrunken

Centroids

(32)

Nearest Shrunken Centroids

Encolher a participação de genes

não discriminativos

(33)

Nearest Shrunken Centroids

Resultados

• Resultados:

– small round blue cell tumors

• Valores de

seleção média são melhores

• Necessita

definição do delta.

(34)

Random Forests

• Inferir varias arvores de decisão

• em subconjuntos dos pacientes

• Escolha baseada em bootstrap

• em subconjuntos de variáveis (genes)

• Escolhidos aleatoriamente

• Juntar os vários „classificadores usando métodos ensemble.

• Não requer seleção de variáveis e

indica peso final das variáveis.

(35)

Atributos Faltosos

• Nem todos os métodos aqui

descritos suportam dados faltosos

• Solução: imputar valores faltosos

• Weighted Nearest Neighbors

• Procurar os k genes mais próximos

• Usar a media ponderada dos valor da variável faltosa

• A ponderação é inversa a distancia dos genes.

(36)

Confiança na Classificação

• Em dados clínicos é

importante dar um grau de

confiança da classificação.

• Ex: distância do exemplo a

margem de

(37)

Alguns Resultados

(38)

Resultados

(39)

Considerações Finais

• Cada um desses conjuntos de dados tem características como:

• Numero de pacientes, tamanho das classes, distribuição dos dados, plataforma do array, presença de ruído, …