Os dados simulados foram propostos para avaliação de diversas técnicas de GWAS e GWS no 15º workshop QTLMAS 2011 (QTL Mapping and Marker Assisted Selection), a m de comparar o mapeamento de QTLs e técnicas de predição usadas em seleção genômica. A estrutura de marcadores SNPs é semelhante às situações encontradas em populações de animais, com um SNP em cada 0,05 cM (correspondente a um chip 60K para um genoma clássico com 3.000 cM), uma MAF média de 0,23, e um LD médio (0,05 cM) entre loci próximos igual a 0,27, semelhante aos resultados anteriormente descrito em bovinos (MCKAY et al., 2007). A relação de co-ascendência exibe uma grande variabilidade conforme o esperado em raças reais (ELSEN et al., 2012).
O conjunto de dados simulado no workshop QTLMAS 2011 mimetiza a estrutura familiar de suínos sob um modelo oligogênico, onde cada QTL é especicado inicialmente. O primeiro desao é a seleção de marcadores SNPs que estão associados aos QTLs simulados, enquanto que o segundo desao, é a determinação dos efeitos dos QTLs, o que é feito a partir dos marcadores selecionados na primeira etapa.
De acordo com Elsen et al. (2012), a população foi uma coleção de 20 famílias de porcos não independentes. Cada macho foi acasalado com 10 fêmeas, sendo que cada fêmea acasalou com apenas um reprodutor. Cada fêmea procriou dois conjuntos de 10 e 5 lhos, respectivamente. O primeiro grupo de progênie (n = 2.000 indivíduos) formaram a população experimental, com genótipos de referência e com informações fenotípicas. O segundo grupo com 1.000 indivíduos eram candidatos à seleção, possuindo
somente informação genômica referente aos marcadores genéticos. A intenção é predizer o fenótipo a partir do genótipo para selecionar animais superiores em relação à característica considerada.
A geração parental (20 machos e 200 fêmeas) foi gerada por uma amostra aleatória de dois gametas escolhidos a partir de um conjunto de 75 gametas. Esta grade de gametas 2 por 75 foi gerada após uma longa evolução de deriva genética aleatória e mutação simulada pelo software LDSO (YTOURNEL et al., 2012). A evolução da população ocorreu em duas etapas: 1.000 gerações de uma população compreendendo 1.000 gametas, seguido por uma restrição severa com 150 gametas evoluindo durante 30 gerações.
O genoma simulado consiste de 5 cromossomos autossômicos de 1 Morgan. SNPs bialélicos foram simulados, localizados a cada 0,05 cM (2.000 SNPs por cromossomo). O conjunto de 1.000 gametas foi gerado na primeira geração em equilíbrio de ligação. Durante as 1.150 gerações seguintes a este passo inicial, uma taxa de mutação de 0,0002 foi aplicada no processo (ELSEN et al., 2012).
A arquitetura genética da característica quantitativa foi provavelmente muito mais simples do que a maioria das situações prevalecentes para as características de produção: apenas 8 QTLs segregando, um ou dois por cromossomo (ELSEN et al., 2012). Diferentes tipos de relações alélicas foram escolhidos: aditividade para um único QTL com o maior efeito (cromossomo 1), genes ligados (cromossomas 2 e 3), um recurso de imprinting no cromossomo 4 e dois loci epistáticos no cromossomo 5 (ELSEN et al., 2012). Esta situação simplicada foi escolhida de propósito para evitar um possível efeito de confusão devido ao ruído poligênico e para enfatizar as habilidades das técnicas em relação ao lidar com tais casos extremos (ELSEN et al., 2012). Todas as propriedades dos 8 QTLs simulados estão descritas na Tabela 7.2.
No cromossomo 1, um QTL (QTL1) com 4 alelos, exibindo grandes efeitos aditivos (0.0, 2.0, 4.0 e 6.0 TU para alelos 1-4) foi posicionada perto da fronteira cromossomo (2,85 cM). O desvio entre os genótipos extremas (44 vs. 11) foi, assim, 12 TU, ou seja, cerca de 1,28 desvios-padrão fenotípicos. Os cromossomas 2 e 3 foram atribuídos a dois QTLs aditivos ligados mostrando um efeito alélico de 1-TU, agindo "em fase"no cromossoma 2, e "em repulsão"no cromossomo 3. A expressão "fase"e "repulsão"deveria ser claricada na nossa contexto. Quatro classes nos cromossomos 2 e 3 respectivamente foram observados na última geração, denido pelos alelos presentes no QTL2 e QTL3 (respectivamente
Tabela 7.2 Características dos QTLs simulados. Adaptado de Elsen et al. (2012).
QTL Cr Posição (cM) Tipo Efeitos
QTL1 1 2,85 4 alelos, aditivo e grande Alelo 1 = 0,0; 2 = 2,0; 3 = 4,0; 4 = 6,0
QTL2 2 81,90 em fase com QTL3 11 11-4 12-2 220 QTL3 2 93,75 em fase com QTL2 1222 -20 02 24 QTL4 3 5,00 em oposição com QTL5 11 110 122 224 QTL5 3 15,00 em oposição com QTL4 1222 -2-4 0-2 20 QTL6 4 32,20 Imprinting 112 120 210 220 QTL7 5 36,30 Epistático com QTL8 11 112 121 220 QTL8 5 99,20 Epistático com QTL7 1222 00 00 00
QTL4 e QTL5.): 1-1, 1-2, 2-1 e 2-2. As associações 1-1 e 2-2 sendo mais frequentes do que o 1-2 ou 2-1 em ambos os casos, que recebem a mesma direção dos efeitos de alelos 1 (respectivamente 2) e QTL2 em 1 (respectivamente 2) em QTL3, e alelos 1 (respectivamente 2) em QTL4 e 2 (respectivamente 1) em QTL5. O cromossomo 4 foi caracterizado por um QTL com imprinting genômico1 de efeito moderado (2 TU). Todos
os indivíduos que receberam um alelo do seu pai apresentaram um fenótipo quantitativo com 2 TU a mais, em comparação com os indivíduos recebendo alelo 2. No cromossomo 5, dois QTLs epistáticos foram posicionados com distância signicativa um em relação ao outro. O efeito da QTL7 foi expresso (com valores médios de 0, 1 e 2 para genótipos 11, 12 e 22) apenas quando os animais apresentaram genótipo 11 no QTL8.
A codicação usada para o genótipo do conjunto de dados inicial foi AA = 11 para o homozigoto de referência, Aa = 12 para o heterozigoto ou 21 e aa = 22 para o homozigoto variante. Ademais, nenhum ltro de controle de qualidade (MAF, equilíbrio de Hardy- Weinberg, call-rate) foi aplicado no conjunto codicado de entrada no SMS. A justicativa para a não aplicação desses ltros está baseada na vericação da robustez do SMS em eliminar marcadores com pequenas MAFs. Além disso, o conjunto de dados do QTLMAS 2011 não possui genótipo ausente, por isso, não faz sentido o uso do ltro gerado pela call-rate.
A variabilidade do fenótipo foi devido à segregação de 8 QTLs e ao ruído ambiental. Os QTLs foram gerados, transformando SNPs que ainda foram polimórcos na última
1Signica a expressão diferencial do material genético quando o mesmo é herdado do macho ou da
geração. Estes SNPs foram então removidos do conjunto de marcadores para representar o que geralmente ocorre em situações reais. O QTL localizado no cromossoma 1 foi gerado por divisão de alelos em dois SNPs adjacentes, a m de criar um locus quadri-alélico. As características dos QTLs variaram entre os 5 cromossomos e foram escolhidos para representar situações extremas conforme Tabela 7.2. Os efeitos dos QTLs são dadas em unidades de "tratamento"(UT). A variância do ruído do ambiente foi ajustada à variação genética observada devido aos efeitos aditivos de QTL, a m de dar uma herdabilidade de 0,30. O desvio-padrão fenotípico resultante foi de 9,37 UT.
Para a seleção de marcadores no QTLMAS 2011, diversos técnicas foram usadas, porém, as mesmas podem ser classicadas em duas categorias, a primeira denominada genômica (global), onde todos os SNPs são avaliados simultaneamente em uma única etapa, e uma local, onde os SNPs são testados um por vez (ELSEN et al., 2012). No grupo global, o método GBLUP assume que todos os marcadores contribuem para a característica [(NADAF et al., 2012), (ZENG et al., 2012)], enquanto que todos os outros métodos consideram que o conjunto total de SNPs é uma mistura composta de uma pequena parte dos SNPs que inuenciam o fenótipo, e outra grande parte composta por SNPs neutros. Esse tipo de abordagem foi resolvida por diferentes métodos LASSO (o LASSO clássico usado por Nadaf et al. (2012) foi comparado com duas novas estratégias utilizadas por Usai, Carta e Casu (2012)) e por técnicas MCMC Bayes: Bayes A (NADAF et al., 2012), Bayes B [(NADAF et al., 2012), (ZENG et al., 2012)], Bayes C (DASHAB et al., 2012) e Bayes Cπ [(ZENG et al., 2012),(SCHURINK; JANSS; HEUVEN, 2012)]. Dashab et al. (2012) comparou diferentes maneiras de processar as informações dos marcadores e entre elas se destacou a clusterização de haplótipos baseado em genealogias locais usando o modelo GENMIX de Sahana et al. (2011).
Foi aplicado o teste de normalidade de Shapiro-Wilk ao fenótipo simulado e o mesmo indiciou valor-p igual a 0,72 (maior que α = 0, 05), logo existem evidências de que o mesmo segue uma distribuição normal com média 6,88 e desvio-padrão 9,20. Há alguns valores fenotípicos aberrantes como pode ser visto no boxplot da Figura 7.6, porém, eles não inueciaram no formato da distribuição a ponto de diferir de uma normal. O fenótipo simulado se situa entre os limites -24,48 e 36,96 (Tabela 7.3), o que mostra um ampla variação dada pela inuência do genótipo e do meio-ambiente.
Figura 7.6 Histograma e boxplot do fenótipo contínuo gerado pela simulação feita pelo LDSO usado no QTLMAS 2011.
(A) Histograma e (B) boxplot do fenótipo simulado pelo LDSO no QTLMAS 2011.
Tabela 7.3 Medidas descritivas do fenótipo simulado no QTLMAS 2011. Mínimo 1° Quartil Mediana Média 3º Quartil Máximo