• Nenhum resultado encontrado

Classificação Expressão Gênica

N/A
N/A
Protected

Academic year: 2022

Share "Classificação Expressão Gênica"

Copied!
40
0
0

Texto

(1)

Ivan G. Costa Filho [email protected]

Centro de Informática

Universidade Federal de Pernambuco

Classificação

Expressão Gênica

(2)

Tópicos

• O que é classificação?

• Representação de dados

• Visualização

• Classificação

– Classificação de câncer

– Analise de sobrevivência

(3)

Representação dos Dados

Tabela X com N genes X L amostras proveniente do pré-processamento

Valores absolutos (ex. Affymetrix)

Valores relativos (ex. CDNA)

Podem conter dados faltosos (NA)

Cond A Cond B Cond C

Gene 1 -1,1 0,1 1,5

Gene 2 3,1 3,4 2,1

Gene 3 -2,2 -1,9 NA

Cond A Cond B Cond C

Gene 1 100 200 400

Gene 2 2000 2400 1500

Gene 3 100 100 50

(4)

Representação de Dados

Valores Relativos (razão do log)

Valoriza genes com mesmo padrão de expressão

Baseado no fato de que certos genes são X-vezes mais expressos que outros

Valores Absolutos

Valoriza genes com mesmos valores de expressão

Mantêm informação se expressão média é baixa ou alta

(5)

Visualização I

Amostras

G en es

Gráficos Red-green

Qualquer cores (vermelho/azul)

Escala logarítmica

Colunas/linhas são ordenadas para ter vizinhos similares

Tree-leave ordering (Bar- Joseph)

Estatísticas de expressão diferencial (t-score)

(6)

Visualização I

Amostras

G en es

Gráficos Red-green

Qualquer cores (vermelho/azul)

Escala logarítmica

Colunas/linhas são ordenadas para ter vizinhos similares

Tree-leave ordering (Bar-Joseph)

Estatísticas de

expressão diferencial

(7)

Visualização II

Gráficos Scatter

Pontos

representam amostras

Necessitam técnicas de redução de

dimensão (PCA)

Escolha de poucos genes (2-3)

discriminativos

(8)

Classificação

(9)

Diagnóstico

Personalizado

Atualmente diagnostico é baseado em aspectos macro-moleculares

Sintomas do pacientes, morfologia de tumores, ...

Desafio: Realizar diagnostico medico

usando (também) informação genética de pacientes

Expressão gênica, polimorfismos (não vamos ver!)

Previsão de resposta a tratamentos

(10)

Classificação

Dados

matriz X (expressão)

classificação Y (tipos de câncer)

Achar uma função

f(x) → y

G ene 1

Gene 2

(11)

Classificação

Dados

matriz X (expressão)

classificação Y (tipos de câncer)

Achar uma função

f(x) → y

Diagnosticar novo paciente

f(x') → y'

G ene 1

Gene 2

novo paciente ?

(12)

Classificador Linear

Função Linear

f (x , A) = a0+a1x1+...+aLxL f ( x, A) > 0 ⇒ classe A

f ( x, A) ≤ 0 ⇒ classe B

Apenas para 2 classes

Achar coeficientes A

estimação

Achar genes relevantes

Seleção de atributos

G en e 1

Gene 2

(13)

Classificação Linear Estimação

Função Linear

f (x , A) = a0+a1x1+...+aLxL

y = -1 (se classe A) y = 1 (se classe B)

Achar A maximizando

Pode ser estimado com perceptron, SVM, programação linear

2 1

( ( , ) )

N

i i

i

f x A y

¥ 

(14)

Classificação Linear Problemas

• Nem sempre classes são linearmente separáveis

• Treinamento

sempre gera erro!

• Solução: usar funções não lineares

(15)

Avaliação

• Como avaliar métodos de classificação?

– A acurácia de um método é

sempre baseado em exemplos não usados no treinamento

• Validação cruzada

• Validação Leave-one-out

• ...

(16)

Validação cruzada r-Fold

X

Treino Teste

Média e

desvio-padrão de desempenho r=3

• Quando r = n

o

dados  leave-one-out

(17)

Classificação Não-Linear

• Função Polinomial

f (x , A) = a0+ a11x31+...

+aL1x3L

a12x21+...

+aL2x2L

a12x1+...

+aL2xL

Exemplo função de terceira ordem

(18)

Classificação (Não)-Linear Problemas

• Quais genes usar

para a classificação?

• Bases contem poucos pacientes e muitos genes.

(19)

Maldição da

Dimensionalidade

• Volume do espaço cresce exponencialmente com a dimensão

• Pontos (pacientes) são

distribuídos esparsamente no

espaço.

(20)

Maldição da

Dimensionalidade

• Exemplo de

espaço esparso – Três genes – 2 exemplos

de treino

(21)

Maldição da

Dimensionalidade

• Exemplo de

espaço esparso – Três genes – 2 exemplos

de treino

• Milhares de

„bons“

classificadores são possíveis (no treino)

(22)

Maldição da

Dimensionalidade

• Novo exemplo para

classificação (verde)

• Nenhum dos classificadores generaliza!

• Exemplo clássico de overfitting!

(23)

Maldição da

Dimensionalidade II

Funções

complexas (mais parâmetros)

funções

polinomiais

Muito mais

alternativas de funções!

São mais

propensas a overfitting

(24)

Maldição da

Dimensionalidade na Pratica

O uso de mais de 30 genes leva a overfitting!

QDA – discriminador quadrático e LDA – discriminador linear

(25)

Maldição da

Dimensionalidade

Soluções:

• Usar classificadores baseados em modelos com limite de

soluções

– Exemplo: classificadores de margem larga

• Reduzir o espaço ao usar

apenas dados relevantes

(26)

Classificadores de Margem Larga

Requer uma margem (m) entre a linha de decisão

Achar A maximizando

Sugeito a

Exemplo: SVMs m

| ( , ) | f x A

i

m

2 1

( ( , ) )

N

i i

i

f x A y

(27)

Seleção de Atributos

• Quais genes usar?

– Questão biológica: quantos/quais genes são discriminativos para o diagnostico?

– Estatística: Quantos genes são necessários para realizar

classificação sem overfitting?

• Bases contem ate 30.000 genes

(28)

Seleção de Atributos

• Muitos atributos são irrelevantes ao problema (não diferencialmente

expressos)

• Muitos atributos (relevantes ou não)

são correlacionados

(29)

Estratégias para Seleção

de Atributos

• Filtros:

Seleção de genes antes da classificação

Usar métodos de expressão diferencial de genes.

• Wrappers:

• seleção é realizada paralelamente a aprendizagem

Ex: Nearest Shrunken Centroids, Random Forests

(30)

Filtros

• Usar métodos de expressão

diferencial para escolher atributos

• T-test, Willcox Test, …

• Requer a definição de um numero de genes ou p-value

Atenção: seleção de atributos é um parâmetro do método a ser ajustar.

Deve ser baseado apenas no conjunto

de treinamento!

(31)

Métodos Wrapper

Nearest Shrunken

Centroids

(32)

Nearest Shrunken Centroids

Encolher a participação de genes

não discriminativos

(33)

Nearest Shrunken Centroids

Resultados

• Resultados:

small round blue cell tumors

• Valores de

seleção média são melhores

• Necessita

definição do delta.

(34)

Random Forests

• Inferir varias arvores de decisão

• em subconjuntos dos pacientes

Escolha baseada em bootstrap

• em subconjuntos de variáveis (genes)

Escolhidos aleatoriamente

• Juntar os vários „classificadores usando métodos ensemble.

• Não requer seleção de variáveis e

indica peso final das variáveis.

(35)

Atributos Faltosos

• Nem todos os métodos aqui

descritos suportam dados faltosos

• Solução: imputar valores faltosos

• Weighted Nearest Neighbors

Procurar os k genes mais próximos

Usar a media ponderada dos valor da variável faltosa

A ponderação é inversa a distancia dos genes.

(36)

Confiança na Classificação

• Em dados clínicos é

importante dar um grau de

confiança da classificação.

• Ex: distância do exemplo a

margem de

(37)

Alguns Resultados

(38)

Resultados

(39)

Considerações Finais

• Cada um desses conjuntos de dados tem características como:

Numero de pacientes, tamanho das classes, distribuição dos dados, plataforma do array, presença de ruído, …

• É possível que certos classificadores sejam melhor em determinadas

situações.

• Como explorar isto?

(40)

Referencia

• Sandrine Dudoit and Jane Fridlyand, Classification in

microarray experiments, Technical

Report 2002.

Referências

Documentos relacionados

20v do Livro B-23 e inscrito na matriz predial urbana sob o artigo 234, pelo preço de seis milhões de escudos, para cujo pagamento o promitente-comprador entregou,

SA 403 Tecto de abrir de vidro SA 602 Monitor de bordo com TV SA 606 Sistema de navegação rádio SA 609 Sistema de navegação SA 660 Rádio BMW Reverse SA 661 Radio BMW Business SA

Embora parte das pesquisas sugiram características catiônicas para os taninos, devido à presença de aminas terciarias [7], a capacidade de remoção do extrato E5, pode

Pacientes com diagnóstico e suspeita de doença pulmonar obstrutiva (DPOC) grave (VEF1 menor que 30% do previsto, suspeita de cor pulmonale, avaliação de oxigenoterapia

Ao suporte técnico da Escola Preparatória de Cadetes do Exército (EsPCEx), em especial ao Capitão Vagner Cirolini. Ao suporte técnico dos alunos de pós-graduação do

Nesta aula, analisamos o varejo, seus tipos e a importância para a economia. Na próxima aula, estudaremos o marketing mix do varejo... O Varejo é uma das áreas mais importantes

“O modelo dual pode contribuir para a atualização e adaptação do curso, pois ele será estruturado conforme as principais necessidades do mercado, onde empresas podem contar

2-REVISÃO E DISCUSSÃO DOS RESULTADOS No desenvolvimento deste trabalho visamos o estudo de obtenção de sistemas heterocíclicos amino substituídos a partir O,N-acetais empregando