Ivan G. Costa Filho [email protected]
Centro de Informática
Universidade Federal de Pernambuco
Classificação
Expressão Gênica
Tópicos
• O que é classificação?
• Representação de dados
• Visualização
• Classificação
– Classificação de câncer
– Analise de sobrevivência
Representação dos Dados
Tabela X com N genes X L amostras proveniente do pré-processamento
Valores absolutos (ex. Affymetrix)
Valores relativos (ex. CDNA)
Podem conter dados faltosos (NA)
Cond A Cond B Cond C
Gene 1 -1,1 0,1 1,5
Gene 2 3,1 3,4 2,1
Gene 3 -2,2 -1,9 NA
Cond A Cond B Cond C
Gene 1 100 200 400
Gene 2 2000 2400 1500
Gene 3 100 100 50
Representação de Dados
Valores Relativos (razão do log)
Valoriza genes com mesmo padrão de expressão
Baseado no fato de que certos genes são X-vezes mais expressos que outros
Valores Absolutos
Valoriza genes com mesmos valores de expressão
Mantêm informação se expressão média é baixa ou alta
Visualização I
Amostras
G en es
Gráficos Red-green
Qualquer cores (vermelho/azul)
Escala logarítmica
Colunas/linhas são ordenadas para ter vizinhos similares
Tree-leave ordering (Bar- Joseph)
Estatísticas de expressão diferencial (t-score)
Visualização I
Amostras
G en es
Gráficos Red-green
Qualquer cores (vermelho/azul)
Escala logarítmica
Colunas/linhas são ordenadas para ter vizinhos similares
Tree-leave ordering (Bar-Joseph)
Estatísticas de
expressão diferencial
Visualização II
Gráficos Scatter
Pontos
representam amostras
Necessitam técnicas de redução de
dimensão (PCA)
Escolha de poucos genes (2-3)
discriminativos
Classificação
Diagnóstico
Personalizado
Atualmente diagnostico é baseado em aspectos macro-moleculares
Sintomas do pacientes, morfologia de tumores, ...
Desafio: Realizar diagnostico medico
usando (também) informação genética de pacientes
Expressão gênica, polimorfismos (não vamos ver!)
Previsão de resposta a tratamentos
Classificação
Dados
matriz X (expressão)
classificação Y (tipos de câncer)
Achar uma função
f(x) → y
G ene 1
Gene 2
Classificação
Dados
matriz X (expressão)
classificação Y (tipos de câncer)
Achar uma função
f(x) → y
Diagnosticar novo paciente
f(x') → y'
G ene 1
Gene 2
novo paciente ?
Classificador Linear
Função Linear
f (x , A) = a0+a1x1+...+aLxL f ( x, A) > 0 ⇒ classe A
f ( x, A) ≤ 0 ⇒ classe B
Apenas para 2 classes
Achar coeficientes A
estimação
Achar genes relevantes
Seleção de atributos
G en e 1
Gene 2
Classificação Linear Estimação
Função Linear
f (x , A) = a0+a1x1+...+aLxL
y = -1 (se classe A) y = 1 (se classe B)
Achar A maximizando
Pode ser estimado com perceptron, SVM, programação linear
2 1
( ( , ) )
N
i i
i
f x A y
¥
Classificação Linear Problemas
• Nem sempre classes são linearmente separáveis
• Treinamento
sempre gera erro!
• Solução: usar funções não lineares
Avaliação
• Como avaliar métodos de classificação?
– A acurácia de um método é
sempre baseado em exemplos não usados no treinamento
• Validação cruzada
• Validação Leave-one-out
• ...
Validação cruzada r-Fold
X
Treino Teste
Média e
desvio-padrão de desempenho r=3
• Quando r = n
odados leave-one-out
Classificação Não-Linear
• Função Polinomial
f (x , A) = a0+ a11x31+...
+aL1x3L
a12x21+...
+aL2x2L
a12x1+...
+aL2xL
Exemplo função de terceira ordem
Classificação (Não)-Linear Problemas
• Quais genes usar
para a classificação?
• Bases contem poucos pacientes e muitos genes.
Maldição da
Dimensionalidade
• Volume do espaço cresce exponencialmente com a dimensão
• Pontos (pacientes) são
distribuídos esparsamente no
espaço.
Maldição da
Dimensionalidade
• Exemplo de
espaço esparso – Três genes – 2 exemplos
de treino
Maldição da
Dimensionalidade
• Exemplo de
espaço esparso – Três genes – 2 exemplos
de treino
• Milhares de
„bons“
classificadores são possíveis (no treino)
Maldição da
Dimensionalidade
• Novo exemplo para
classificação (verde)
• Nenhum dos classificadores generaliza!
• Exemplo clássico de overfitting!
Maldição da
Dimensionalidade II
• Funções
complexas (mais parâmetros)
funções
polinomiais
• Muito mais
alternativas de funções!
• São mais
propensas a overfitting
Maldição da
Dimensionalidade na Pratica
• O uso de mais de 30 genes leva a overfitting!
QDA – discriminador quadrático e LDA – discriminador linear
Maldição da
Dimensionalidade
Soluções:
• Usar classificadores baseados em modelos com limite de
soluções
– Exemplo: classificadores de margem larga
• Reduzir o espaço ao usar
apenas dados relevantes
Classificadores de Margem Larga
• Requer uma margem (m) entre a linha de decisão
• Achar A maximizando
• Sugeito a
• Exemplo: SVMs m
| ( , ) | f x A
i m
2 1
( ( , ) )
N
i i
i
f x A y
¥
Seleção de Atributos
• Quais genes usar?
– Questão biológica: quantos/quais genes são discriminativos para o diagnostico?
– Estatística: Quantos genes são necessários para realizar
classificação sem overfitting?
• Bases contem ate 30.000 genes
Seleção de Atributos
• Muitos atributos são irrelevantes ao problema (não diferencialmente
expressos)
• Muitos atributos (relevantes ou não)
são correlacionados
Estratégias para Seleção
de Atributos
• Filtros:
• Seleção de genes antes da classificação
• Usar métodos de expressão diferencial de genes.
• Wrappers:
• seleção é realizada paralelamente a aprendizagem
• Ex: Nearest Shrunken Centroids, Random Forests
Filtros
• Usar métodos de expressão
diferencial para escolher atributos
• T-test, Willcox Test, …
• Requer a definição de um numero de genes ou p-value
Atenção: seleção de atributos é um parâmetro do método a ser ajustar.
Deve ser baseado apenas no conjunto
de treinamento!
Métodos Wrapper
Nearest Shrunken
Centroids
Nearest Shrunken Centroids
Encolher a participação de genes
não discriminativos
Nearest Shrunken Centroids
Resultados
• Resultados:
– small round blue cell tumors
• Valores de
seleção média são melhores
• Necessita
definição do delta.
Random Forests
• Inferir varias arvores de decisão
• em subconjuntos dos pacientes
• Escolha baseada em bootstrap
• em subconjuntos de variáveis (genes)
• Escolhidos aleatoriamente
• Juntar os vários „classificadores usando métodos ensemble.
• Não requer seleção de variáveis e
indica peso final das variáveis.
Atributos Faltosos
• Nem todos os métodos aqui
descritos suportam dados faltosos
• Solução: imputar valores faltosos
• Weighted Nearest Neighbors
• Procurar os k genes mais próximos
• Usar a media ponderada dos valor da variável faltosa
• A ponderação é inversa a distancia dos genes.
Confiança na Classificação
• Em dados clínicos é
importante dar um grau de
confiança da classificação.
• Ex: distância do exemplo a
margem de
Alguns Resultados
Resultados
Considerações Finais
• Cada um desses conjuntos de dados tem características como:
• Numero de pacientes, tamanho das classes, distribuição dos dados, plataforma do array, presença de ruído, …