Melhoramento
genético e genômico
Maurício de Alvarenga Mudadu
Embrapa Pecuária Sudeste
Introdução
Plano da Aula
» Melhoramento genético e genômico
» Variantes genéticas e SNP
» SNP chip
» Controle de qualidade, formato de arquivos, softwares
» GWAS
Embrapa Pecuária Sudeste
Plano Diretor
Desenvolver tecnologias que visem à melhoria de
características sensoriais, funcionais, nutricionais
e de segurança do alimento ao longo da cadeia.
Desenvolvimento de tecnologias para a
melhoria da qualidade de produtos (carnes, leite,
peles) e de subprodutos da exploração pecuária.
Introdução
Como selecionar animais com carne macia?
Introdução
Melhoramento animal clássico
• Coletar fenótipos: qualidade de carcaça,
qualidade de carne, produção de leite
• Pedigree
• Calcular o valor genético estimado (VGE) e as
diferenças esperadas na progênie (DEPs):
• Características quantitativas são na maioria
das vezes controladas por muitos genes com
efeitos individuais pequenos
Introdução
Melhoramento animal Clássico
• Não se sabe quantos ou quais genes estão
atuando no fenótipo.
• Estima-se um valor genético aditivo.
• Metodologias estatísticas e matemáticas para
modelagem desses dados – regressões lineares,
método
BLUP (Best Linear Unbiased
Predictor).
• Método de seleção eficiente nos últimos 50
anos!
BLUP Simplificado (in a nutshell)
8
Fenótipo observado: Produção de leite
Efeitos Fixos: X: matriz
conhecida; Beta: parâmetros
ambientais (rebanho) Efeitos Aleatórios: Z: matriz conhecida; u: parâmetros genéticos (pais)
BLUP Simplificado
9Rebanhos (Herds):
1, 2 e 3
Pais (Sires):
A, B, C e D
Produção (Yeld)
Selecionar touros
com mérito
genético para, ex.:
produção de leite
BLUP Simplificado
10
BLUP Simplificado
11
Henderson (1950) propõe as seguinte metodologia pra se encontrar os estimadores Beta-chapéu e u-chapéu :
R = Matriz identidade; G = R x 0.1; Ambas relacionadas à matriz variância-covariância de u e e.
BLUP Simplificado
12Beta(rebanhos): 1, 2 e 3
u (pais) : A, B, C e D
VGE -1,67/2 DEPBlup (Best Linear Unbiased Predictors)
• L -> Linear: os estimadores de u são funções lineares dos dados.
• U -> Unbiased: Não viciado. O valor médio dos estimadores é igual ao valor médio da quantidade sendo estimada.
• B -> Best: Os estimadores possuem um valor mínimo da média dos quadrados dos erros dentro da classe de estimadores sem viés.
• P -> Predictors: estimar os efeitos aleatórios (genéticos).
• Método de seleção eficiente!
Problemas no melhoramento animal
para
qualidade de carne
:
• É custoso obter o fenótipo de um grande número
de animais – é preciso abater já em idade
madura.
• Obtém-se dados de animais jovens antes de
chegar a uma idade madura – perda de acurácia.
• Sem fenótipos dos descendentes fica complicado
fazer predições – como saber se um filho tem
mais mérito genético que o pai?
• Pouco se progrediu no melhoramento para
maciez de carne e eficiência alimentar.
Coisas a se considerar:
• Método BLUP coloca todos os efeitos genéticos em um mesmo “saco”. Quais genes e ou alelos estão por trás do mérito genético?
• E se soubermos como mapear regiões no genoma
com efeito maior na característica? Há vantagens?
Vantagens:
• Não necessita fazer testes de progênie (usa-se a genotipagem no lugar).
• Pode-se diminuir intervalo de gerações (esperar menos para acasalar)
• Melhora a acurácia do valor genético dos animais.
Como mapear QTL:
• QTL : região do genoma que possui
um efeito maior na característica
quantitativa (ex:. carne macia,
produção de leite).
• Uso de
marcadores moleculares
para mapear essas regiões.
• Seleção assistida por marcadores
(SAM).
• Seleção genômica.
Genômica de Bos taurus
17 • Bovinos são indivíduos diplóides: 2 pares de cromossomos homólogos. • 2n = 60 (30 +30). • Diferenças genéticas entre indivíduos: diferenças no DNA. • Alelos: formas alternativas de um gene.Marcadores moleculares
O que é um marcador?
• Um local físico e identificável em um cromossomo
cuja herdabilidade pode ser monitorada.
Tipos comuns de marcadores usados
em melhoramento animal:
• Microssatélites
• SNPs (Single Nucleotide Polymorphisms)
Microssatélites
19
•
Pequenas (menos de 100 pares de bases)
repetições em tandem de sequências de
DNA muito simples, geralmente 1 a 6 pares
de bases, por exemplo (CA)
n.
•
Ferramenta primária para mapeamento
genético nos anos 90.
Microssatélites
20
Ex.: ACACACAC, AGAGAGAG, TATTATTAT
Microssatélites
21
Human Molecular Genetics. 2nd edition. Strachan T, Read AP.
New York: Wiley-Liss; 1999.
Copyright © 1999, Garland Science.
Microssatélites
22 QTL para contagem de carrapatos Adaptado de GASPARIN, G. et al Animal Genetics, v. 38, p. 453-459, 2007Problemas com os
Microssatélites
23
•
Custa-se muito genotipar
microssatélites.
•
Por isso deixou-se de obter o poder
suficiente para caracterizar regiões do
genoma de forma satisfatória.
•
Detectou-se apenas os efeitos maiores.
•
Para o melhoramento de carne
poucos
SNPs (Single Nucleotide
Polymorphisms)
SNPs (Single Nucleotide Polymorphisms)
• Pode haver quatro alelos para cada SNP (4 nucleotídeos: A, C, T, ou G)
• Porém a grande maioria dos SNPs são bialélicos
• Extremamente abundantes no genoma (pelo menos 1,4 milhões no genoma humano)
• Nem sempre SNPs causam modificação na protéina, caso estejam em regiões codificadoras: na maioria das vezes são
sinônimos.
• Nem sempre SNPs são causais – mas podem estar em desequilíbrio (segregam junto) com um
Pipeline para SNP calling
Digitar “SNP calling pipeline” no google: 1º link (estou com sorte).
Cobertura do Chip
29
31
33
Como
34
35
36
Imagens
37
Call Rate e GC Score
38
Call Rate e GC Score
Call Rate e GC Score
Efeito do uso de diferentes “clusterfiles” na
qualidade dos SNP
Call Rate e GC Score
Efeito do uso de diferentes “clusterfiles” na
qualidade dos SNP
41
TOP/BOT
• Formato “normalizado” para os genótipos: criado para identificar os alelos independente do genoma.
• Genótipos no formato: AA, AB, BB
• Muitas vezes uma nova versão do genoma inverte as fitas e o SNP “muda”.
42
TOP/BOT
CASOS NÃO-AMBÍGUOS
•A->C TOP-ALLELE A : A BOT-ALLELE B: C •A->G TOP-ALLELE A : A BOT-ALLELE B: G •T->G BOT-ALLELE A : T TOP-ALLELE B: G •T->C BOT-ALLELE A : T TOP-ALLELE B : C
43
TOP/BOT
CASOS AMBÍGUOS (A/T OU T/A) •A->T
•T->A
•A/T na posição 5’ do par unambíguo -> TOP : ALLELE A : A •A/T na posição 3’ do par unambíguo -> BOT : ALLELE A: T
44
TOP/BOT
CASOS AMBÍGUOS (C/G OU G/C) •C->G
•G->C
•A/T na posição 5’ do par unambíguo -> TOP : ALLELE A : C •A/T na posição 3’ do par unambíguo -> BOT : ALLELE A: G
45
TOP/BOT
46
TOP/BOT
Delineamento
762 novilhos (meio-irmãos)
32 touros (pais) selecionados para amostrar a
variabilidade da raça nelore
794 animais genotipados
Com chip HD
No total :
794 x 777.000 = 616 milhões de linhas Arquivo com ~23 Gigabytes
The Pedigree
•Blue: sires •Green: sibs
• Blue: sires • Green: sibs • Pink: mothers
50
Estrutura dos Dados
Arquivos de saída do software da Illumina: Final Report .txt
51
Estrutura dos Dados
Final Report.txt
52
Estrutura dos Dados
53
Plink
54
PLINK
Arquivos de entrada Pedigree (.PED) Map (.MAP)
Bed – PED Binário (.BED) - Opcional
Outros opcionais (COVAR, BLOCKS, TAG SNPs, etc).
Gerei arquivos .ped e .map para cada cromossomo: X, Y, MIT, 1.. 29.
55
PLINK
ARQUIVOS DE ENTRADA .PED
56
PLINK
ARQUIVOS DE ENTRADA
Ex.: 14.ped
57
R / Bioconductor
R : Linguagem para ánálise estatística de dados
58
R / Bioconductor
Sample ID SNP_ID Genótipo GC_Score
59
Controle de Qualidade
• Evitar aumento de falsos positivos e negativos nos estudos de associação.
• Tomar cuidado para não aumentar demais os valores de corte e assim aumentar a perda de informação.
• Verificar plots e gráficos manualmente. Efetuar primeiro filtro por indivíduo (amostra) e depois por SNP.
60
Controle de Qualidade
Por Amostra
frequência de SNPs missing; (<0,05) heterozigocidade;
genotipos idênticos (mesma amostra). Call Rate = freq SNPs missing ( 0,95) Por SNP
frequência de SNPs missing (<0,05); Minor allele frequency MAF (>0,01)
Hardy-Weinberg Equilibrium HWE (usar?).
61
Controle de Qualidade
62
Controle de Qualidade
63
Resultados QC
Por Amostra
7 amostras removidas (~1%) 789 mantidasPor SNP
182.277 SNPs removidos (~25%) 560.629 SNPs mantidos (~75%)Códigos em R para controle de qualidade gerados pelo Roberto Higa da Embrapa Informática -
64
Formato de arquivos e QC
» Estrutura dos dados – Bovine HD Illumina SNP chip. » Controle de qualidade
» Formatos de arquivos (.ped, long, etc.)
» QC no plink: http://pngu.mgh.harvard.edu/~purcell/plink/ » Haploview e desequilibrio de ligação
Equilibrio de Ligação
Associação aleatória entre marcador e QTL
Desequilibrio de Ligação
Análises de associação genética
70
• Caracterizar a associação de múltiplos marcadores
genéticos a uma dada característica, por exemplo Área de Olho de Lombo.
• Análise de genes candidatos:
A. S. Foulkes., 2009; Springer, EUA
Análises de associação genética
71
•
Desequilíbrio de Ligação: marcadores SNP são
segregados junto com região causal
•
GWAS: expansão do estudo de gene candidato para o
Associação e GWAS
Genomic approach:
Sk: matriz de genótipos até o k-ésimo SNP. Sjk é o vetor de efeitos aditivos do 1º ao o k-ésimo SNP e da 1ª té a j-ésima característica.
Como são o vetor Sk e a matriz Sjk ?
Associação e GWAS
Objetivo do teste de associação é utilizar um teste de análise de variância ANOVA, minimizar as somas dos quadrados do resíduo (E) -> obter um modelo biológicamente signficativo.
O problema dos múltiplos testes
Espera-se encontrar 5% de SNPs falso positivos: condicional à uma distribuição normal. Quanto é 5% de 770k?
Necessário correção - > diversos métodos:
• Bonferroni : dividir significância pelo número de SNP (muito conservador).
• Permutação. • FDR.
Inflacionamento dos p-valores
Inflacionamento dos p-valores pode significar algum problema nos dados. Verificar com QQ-plot.
Outros problemas
Inflacionamento devido à estratificação da população. Necessário correção - > Genomic Control
77
Análises de Associação
Testes de associação
Single SNPs
Blocos em LD (cálculo de Haplótipos)
Uso do software PLINK pra rodar as análises de associação
78
Análises de Associação
79
Análises de Associação
• Eficiência alimentar (CAR)
• QQ-plot – verificar se p-valores seguem distrib. normal
80
Análises de Associação
Manhattan Plot
81
Análises de Associação
82
Análises de Associação
83
Análises de Associação
84
Análises de Associação
UST: Uronyl 2 Sulfotransferase
85
Análises de Associação
Valores negativos de Beta significam o valor, em quilogramas, que o animal deixa de comer (mas engorda o mesmo tanto).
86
Análises de Associação
Cruzamento de genes que possuem SNPs associados (p<0.001) entre CAR, FC14 e EE. Via comum? KCNIP4 LOC.... LOC...
87
Análises de Associação
KCNIP4 – Modulador de canais de potássio.
•Canais de potássio estão relacionados ao tipo de fibra muscular (disparo rápido e mais lento) e possivelmente à maciez de carne.
•Verificar o papel desses canais nas vias de biossíntese e metabolismo de gordura...
88
Análises de Associação
Próximos passos, verificação de: •Sítios de ligação a miRNA
•Sítios de ligação a fatores de transcrição •Sítios para splicing alternativo
•Análises de pathways
89
Análises de Associação
Rodar GWAS no PLINK.
•Correção de múltiplos testes •permutação
•Plink 1.9 •QXPAK
Redes Gênicas com AWM/PCIT e
Cytoscape
Maurício de Alvarenga Mudadu
Priscila Neubern de Oliveira
Introdução
Redes Gênicas:
• Na era pós genômica o desafio é o aproveitamento do grande volume de dados gerados pelas várias “omicas”.
• Genômicas, transcriptômicas, metabolômicas, etc. • Escapar da premissa “um gene -> uma proteína”
• Possibilidade: Geração de redes interligando o controle da expressão gênica (transcriptômica).
• Regulatory Gene Networks
• Interpretação holística de dados de expressão em um dado fenótipo.
• Uso de fatores de transcrição • Systems Biology
Introdução
Redes Gênicas:
Introdução
Redes Gênicas:
• Área de “Genômica” e/ou genética: GWAS
• Volume de dados de genótipagem grande nos últimos anos
• “Deixou a desejar” quanto a novas descobertas • Características quantitativas.
• Revistas passam a cobrar por explicações de mecanismos pelos quais um SNP pode modificar um fenótipo.
• Uso de dados de associação por SNP e teoria de redes gênicas
Introdução
Introdução
• AWM recupera 64% da variação genética com 3k SNPs e 91% da variação recuperada por 50k SNPs. • AWM: enriquecimento sem perda de informação genética.
• Estima-se que 200k SNPs sejam suficientes para recuperar toda a informação genética
Introdução
• GWAS de dados de metabólitos secundários + dados de crescimento. • Subredes formadas usando o software MCODE (genes NCAPG e GDF8).Introdução
AWM – Association Weight Matrix
• Procedimento para explorar resultados de GWAS e em
conjunto com algoritmos de inferência de redes, gerar redes gênicas.
• Vários fenótipos correlacionados com o foco do estudo
(pelo menos 10). Stderror da estimativa de coeficientes de correlação é proporcional a (1/sqrt(# Fenótipos)).
• GWAS
• Controle de qualidade da genotipagem dos SNP
(inclusive filtro de MAF);
• Número de indivíduos genotipados – poder
estatístico do GWAS.
• Resultados do GWAS: p-valores e valores genéticos
aditivos para cada SNP
Metodologia
AWM – Association Weight Matrix
• A AWM é uma matriz (i x j) composta por números de
ponto flutuante (Reais) cujas linhas (i) são representadas por genes (mapeados por SNPs) e cujas colunas (j) são representadas por fenótipos.
• Cada célula da AWM representa um valor de associação de um dado SNP|Gene i a um dado fenótipo j.
Metodologia
AWM – Association Weight Matrix
• 6 passos para se gerar uma AWM, mas antes existe um passo inicial -> escolher o fenótipo chave:
• 1º. Seleção primária de SNP :
• Selecionar SNPs associados ao fenótipo chave a uma significância não muito estringente (5%
é suficiente).
• 2º. Explorar a dependência entre os fenótipos: • Descobrir qual é o número médio (Ap) de
fenótipos não-chave cujos SNP do passo 1º estão associados.
Metodologia
AWM – Association Weight Matrix
• 6 passos para se gerar uma AWM:
• 3º. Seleção secundária de SNP :
• selecionar SNPs associados a pelo menos Ap fenótipos.
• 4º. Fazendo uso do mapa genômico :
i) Localizar SNP -> dentro de região
codificadora(CDS)
ii) Localizar SNP -> distante de 2,5 Kbases de
região codificadora
iii) Localizar SNP -> distante de 1,5 Mbases de região codificadora
Metodologia
AWM – Association Weight Matrix
• 6 passos para se gerar uma AWM:
• 5º. Mapear relação Um-SNP-um-Gene
• Genes representados por mais de um SNP
(condições i e ii do 4º passo)
• SNP com mais fenótipos “vence”
• SNP com menor p-value “vence”
• Genes representados por mais de um SNP
(condição iii do 4º passo)
• Selecionar o SNP representativo do
bloco em LD (menor p-valor médio entre os fenótipos).
Metodologia
AWM – Association Weight Matrix
• 6 passos para se gerar uma AWM: • 6º. Popular a AWM:
• Nome das Colunas: nome ou abreviação dos
fenótipos
• Nome das Linhas : SNP ID ou Gene Symbol
• Células: valor aditivo do SNP em cada
fenótipo
• “standartizado” -> dividir o valor aditivo
pelo desvio padrão em cada fenótipo
• stdev calculado na saída do GWAS e não da AWM.
• No caso do item iii) do 4º passo, colocar o
Prática 1
AWM – Association Weight Matrix
• Passo 1 (Primary SNP Selection) • Arquivos no formato abaixo:
Prática 1
AWM – Association Weight Matrix
Prática 1
AWM – Association Weight Matrix
• Passo 1
#### setwd para o diretorio correto
##### carregar tabelas resultados do GWAS no R gwas1 <- read.csv("gwas1.csv",header=F) gwas2 <- read.csv("gwas2.csv",header=F) gwas3 <- read.csv("gwas3.csv",header=F) gwas4 <- read.csv("gwas4.csv",header=F) gwas5 <- read.csv("gwas5.csv",header=F) gwas6 <- read.csv("gwas6.csv",header=F) gwas7 <- read.csv("gwas7.csv",header=F) gwas8 <- read.csv("gwas8.csv",header=F)
Prática 1
AWM – Association Weight Matrix
• Passo 1
#### continuação....
AWM_A <-cbind(data.frame(gwas1$V1),data.frame(gwas1$V2),
data.frame(gwas2$V2), data.frame(gwas3$V2), data.frame(gwas4$V2), data.frame(gwas5$V2), data.frame(gwas6$V2), data.frame(gwas7$V2), data.frame(gwas8$V2))
AWM_P <-cbind(data.frame(gwas1$V1),gwas1$V3, gwas2$V3, gwas3$V3, gwas4$V3, gwas5$V3, gwas6$V3, gwas7$V3, gwas8$V3)
colnames(AWM_P)<-c("SNP_ID","PHEN1","PHEN2","PHEN3","PHEN4","PHEN5","PHEN6","PHEN7","P HEN8") colnames(AWM_A)<-c("SNP_ID","PHEN1","PHEN2","PHEN3","PHEN4","PHEN5","PHEN6","PHEN7","P HEN8")
Prática 1
AWM – Association Weight Matrix
• Passo 1 #### continuação.... rownames(AWM_P) <- AWM_P$SNP_ID rownames(AWM_A) <- AWM_A$SNP_ID AWM_P$SNP_ID <- NULL AWM_A$SNP_ID <- NULL ############################################ ##### Pre-step1 : escolher o fenotipo chave. ############################################
Prática 1
AWM – Association Weight Matrix
Prática 1
AWM – Association Weight Matrix
• Passo 2
############################################ ##### Step2: Explorar a dependencia entre ##### fenotipos -> econtrar Ap ############################################ Step2Ap <- as.data.frame(t(as.data.frame(apply(Step1SNPs, 1, function(Step1SNPs) table(Step1SNPs<=0.05))))) Ap <- mean(as.numeric(Step2Ap[seq(2,nrow(Step2Ap),by=2),]$V2)) Step2SNP_IDs <- as.list(as.character(colnames(t(apply(Step1SNPs, table(Step1SNPs<=0.05)) ))))
Prática 1
AWM – Association Weight Matrix
Prática 1
AWM – Association Weight Matrix
• Passo 3
############################################ ##### Step3: Selecao secundaria de SNP
############################################ Step3_select <- function(AWM_P){AWM_P<=0.05} Step3Ap <- t(apply(AWM_P,1,Step3_select))
SignificantPhenotypes <- apply(Step3Ap, 1, sum)
Step3Ap <- subset(SignificantPhenotypes, SignificantPhenotypes>=Ap) Step3Ap <- as.data.frame(Step3Ap)
Step3SNP_IDs <- as.list(as.character(rownames(Step3Ap))) Step3SNPs <- merge(Step1SNP_IDs, Step3SNP_IDs)
Step3SNPs <- t(as.data.frame(Step3SNPs)) rownames(Step3SNPs) <- Step3SNPs[,1]
Prática 1
AWM – Association Weight Matrix
• Passo 4 (Exploiting the genome map)
GenomeMap <- read.table("map_all_qc_except_hwREDUCED_geneoverlap_20130614.txt", header=F, row.names=1)
Prática 1
AWM – Association Weight Matrix
• Passo 4
############################################ ##### Step4: Fazendo uso do mapa genomico ############################################ GenomeMap <-
read.table("map_all_qc_except_hwREDUCED_geneoverlap_20130614.txt", header=F, row.names=1)
SNPsofInterest <- GenomeMap[rownames(Step3SNPs),]
Step4SNPclose <- subset(SNPsofInterest, SNPsofInterest$V5 <= 2500) Step4SNPfar <- subset(SNPsofInterest, SNPsofInterest$V5 > 1500000) Step4SNPclose_IDs <- as.list(rownames(Step4SNPclose))
Prática 1
AWM – Association Weight Matrix
• Passo 5
Mapping the
“one-SNP-one-gene” relationship
Prática 1
AWM – Association Weight Matrix
• Passo 5
############################################ ##### Step5: Mapeando Um-Gene-Um-SNP
############################################ SignificantPhenotypes <- as.data.frame(SignificantPhenotypes) Step5SNPclose <- as.data.frame(SignificantPhenotypes[rownames(Step4SNPclose),]) rownames(Step5SNPclose) <- rownames(Step4SNPclose) Step5CloseGenes <- data.frame(Step4SNPclose$V8,Step5SNPclose[,1]) colnames(Step5CloseGenes) <- c("Gene_ID", "SignifPhenos")
Prática 1
AWM – Association Weight Matrix
• Passo 5 ############################################ ##### Step5: continuacao... ############################################ Step5CloseSorted <- Step5CloseGenes[order(Step5CloseGenes$SignifPhenos,decreasing=TRUE),] Step5CloseUnique <- subset(Step5CloseSorted, !duplicated(Step5CloseSorted$Gene_ID)) Step5FarSorted <- Step4SNPfar[order(Step4SNPfar$V8,decreasing=TRUE),] #Step5FarUnique <- subset(Step5FarSorted,!duplicated(Step5FarSorted$V8))
Prática 1
AWM – Association Weight Matrix
Prática 1
AWM – Association Weight Matrix
• Passo 6
############################################ ##### Step6: Popular a AWM
############################################
Step6SNPClose <- AWM_A[rownames(Step5CloseUnique),] Step6SNPFar <- AWM_A[rownames(Step5FarSorted),]
Step6SNPClose$SNP_ID <- rownames(Step6SNPClose)
rownames(Step6SNPClose) <- Step5CloseUnique$Gene_ID
Step6SNPFar$SNP_ID <- Step5FarSorted[(rownames(Step5FarSorted) %in% rownames(Step6SNPFar)),]$V8 Step6SNPClose$SYMBOL <-NULL Step6SNPFar$SYMBOL <-NULL Step6SNPClose$SYMBOL <- GenomeMap[as.character(Step6SNPClose$SNP_ID),]$V7 Step6SNPFar$SYMBOL <- GenomeMap[rownames(Step6SNPFar),]$V7 Step6Merged <-rbind(Step6SNPClose,Step6SNPFar) save.image(file=".RData")
Introdução
Introdução
PCIT:
• Redes de coexpressão gênica
• Correlação entre expressão de dois genes indica funcionamento de forma coordenada (padrões).
• Redes de coexpressão :
• Nós (nodes, vertices) = genes
• Conexões (edges) = linhas