• Nenhum resultado encontrado

Estudo genômico em caprinos leiteiros da raça saanen

N/A
N/A
Protected

Academic year: 2021

Share "Estudo genômico em caprinos leiteiros da raça saanen"

Copied!
68
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO CEARÁ CENTRO DE CIÊNCIAS AGRÁRIAS DEPARTAMENTO DE ZOOTECNIA

PROGRAMA DE PÓS-GRADUAÇÃO EM ZOOTECNIA

DIEGO RODRIGUES DE SOUSA

ESTUDO GENÔMICO EM CAPRINOS LEITEIROS DA RAÇA SAANEN

FORTALEZA 2020

(2)

DIEGO RODRIGUES DE SOUSA

ESTUDO GENÔMICO EM CAPRINOS LEITEIROS DA RAÇA SAANEN

Tese apresentada ao Programa de Doutorado Integrado em Zootecnia da Universidade Federal do Ceará, como requisito parcial à obtenção do título de Doutor em Zootecnia. Área de concentração: Produção Animal. Orientador: Prof. Dr. Raimundo Nonato Braga Lôbo.

Coorientador: Dra. Ana Maria Bezerra Oliveira Lôbo.

FORTALEZA 2020

(3)
(4)

DIEGO RODRIGUES DE SOUSA

ESTUDO GENÔMICO EM CAPRINOS LEITEIROS DA RAÇA SAANEN

Tese apresentada ao Programa de Doutorado Integrado em Zootecnia da Universidade Federal do Ceará, como requisito parcial à obtenção do título de Doutor em Zootecnia. Área de concentração: Produção Animal. Aprovada em: ___/___/______.

BANCA EXAMINADORA

________________________________________ Prof. Dr. Raimundo Nonato Braga Lôbo (Orientador)

Universidade Federal do Ceará (UFC) / Empresa Brasileira de Pesquisa Agropecuária (Embrapa)

_________________________________________ Profa. Dra. Aline Vieira Landim

Universidade Estadual Vale do Acaraú (UVA)

_________________________________________ Dr. Kleibe de Moraes Silva

Empresa Brasileira de Pesquisa Agropecuária (Embrapa)

____________________________________________ Prof. Dr. Luciano Pinheiro da Silva

Universidade Federal do Ceará (UFC)

_________________________________________ Dr. Octavio Rossi de Morais

(5)

Dedico este trabalho aos meus maiores e melhores mestres de toda a vida: meu PAI (in

(6)

AGRADECIMENTOS

Primeiramente a Deus, pela vida, pela minha família, pelas pessoas que Ele colocou no meu caminho e, apesar das dificuldades, pelas vitórias que Ele me ajudou a conquistar.

Aos meus pais, Benedito Aguiar de Sousa (in memoriam) e Maria Lúcia Rodrigues, sem os quais eu não teria chegado até aqui, agradeço por tudo o que fizeram por mim. Obrigado pelo carinho, valores, princípios, caráter, apoio, incentivo e amor incondicional durante toda minha vida e, ao meu irmão Rafael Rodrigues de Sousa, pelo apoio, confiança e amizade.

À minha noiva, Núria Wilhellm, parceira de todas as horas (boas e ruins) e incentivadora de todos os meus sonhos. Você foi peça essencial nesta conquista. Obrigada pela paciência, pelo carinho e por cuidar tanto de mim. Eu te amo! Estaremos juntos em todas as próximas conquistas em nossas vidas.

Ao meu orientador Raimundo Nonato Braga Lôbo, pela atenção, apoio, paciência, ensinamentos, compreensão, confiança, por estar sempre presente quando precisei, pelo exemplo de vida e de pessoa, meu respeito, gratidão e eterna admiração.

À minha coorientadora Ana Maria Bezerra Oliveira Lôbo, pela paciência, disponibilidade, auxílio e todo o conhecimento que me foi passado.

Aos membros da banca examinadora, Dra. Aline Landim, Dr. Kleibe de Moraes, Dr. Luciano da Silva e Dr. Octavio Rossi, muito obrigado pela disponibilidade e pelos ensinamentos, conselhos, sugestões e críticas que contribuíram para o meu desenvolvimento profissional e para o aperfeiçoamento deste estudo.

À professora Dra. Lucia Galvão de Albuquerque, da Faculdade de Ciências Agrárias e Veterinárias da Universidade Estadual Paulista Júlio de Mesquita Filho, por me receber em Jaboticabal – SP, durante o semestre 2017.1. Ao grupo de melhoramento genético animal, pelos cafés e conversas interessantes, que fizeram com que esse semestre fosse inesquecível na minha vida profissional e pessoal.

À Embrapa Caprinos e Ovinos, pelo apoio na realização deste estudo e ao Programa de Melhoramento Genético de Caprinos Leiteiros – Capragene®, pela disponibilidade dos dados.

À Universidade Federal de Ceará – UFC, em especial ao Programa de Doutorado Integrado em Zootecnia – PDIZ, pela oportunidade da realização do curso.

(7)

Pós-Graduação em Genética e Melhoramento Animal, André Vieira e Rafael Espigolan, pela imensurável ajuda nas análises computacionais; aos amigos do Grupo “Entre tapas e beijos”, Carolina Ferreira, Denise Azevedo, Eloisa Mendes, Francisco Naysson, Jordânia Lima, Rafael Rodrigues e Rodrigo Carvalho e, também, a galera do FIFA GMA, Anderson Alves, André Mauric, Andres Chaparro, Lucio Mota, Samuel Wallace, sem vocês esse desafio com certeza seria muito mais complicado.

E a todos aqueles que de alguma forma contribuíram para a minha formação pessoal e profissional.

O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior – Brasil (CAPES). – Código de Financiamento 001.

(8)

“A mente que se abre a uma nova ideia jamais voltará ao seu tamanho original.” (Albert Einstein).

(9)

RESUMO

Painéis comerciais com milhares de marcadores do tipo polimorfismos de nucleotídeo único (SNP) a custo acessível revolucionaram os estudos genéticos na pecuária, principalmente por meio da seleção genômica e análise de associação genômica ampla. A seleção genômica tem um aspecto prático, por ser diretamente aplicada aos programas de melhoramento, o que pode possibilitar aumento de acurácia das avaliações genéticas para as características quantitativas. Com base nisso, objetivou-se calcular o desequilíbrio de ligação (DL) dos segmentos cromossômicos no genoma de caprinos da raça Saanen e comparar diferentes modelos para avaliação genômica, com diferentes distribuições a priori para o efeito dos marcadores. Dessa forma, foi avaliado o DL e estimado o tamanho efetivo populacional a partir de marcadores de um painel Axiom_OviCap (Caprine), array customizado da Affimetrix com 62.557 SNPs. Foram genotipados 24 machos e 916 fêmeas que também participaram das avaliações genômicas. O valor médio do DL, expresso pela estimativa do r2, entre marcadores adjacentes (~52 kb), foi de 0,04±0,06. Níveis moderados de DL (r2>0,20), em uma escala de 0 a 1, foram observados em classes de distâncias genéticas até 20 kb. A amplitude dos valores entre os cromossomos variou de 0,03±0,06 a 0,05±0,08. A densidade do painel não foi considerada suficiente para proporcionar DL entre os segmentos cromossômicos para a predição de valores genéticos genômicos. As estimativas do tamanho efetivo populacional diminuíram ao longo do tempo, variando de 42 animais, 19 gerações no passado, para 15 animais na geração atual. Os níveis de diversidade genética nesta população Saanen representam uma ameaça e devem ser monitorados rotineiramente para garantir viabilidade para seleção em longo prazo. As avaliações genômicas para duração da lactação, produção média diária de leite até 305 dias de lactação, produções de leite, gordura, proteína, extrato seco total e lactose até 305 dias de lactação, e contagem de células somáticas até 305 dias de lactação foram realizadas pelos métodos BLUP genômico (GBLUP), Bayes Cπ e LASSO Bayesiano (BLASSO). Os valores genéticos estimados (EBV, do inglês, Estimated Breeding Values) e os valores genéticos estimados deregredidos (dEBV, do inglês, Deregressed Estimated Breeding Values) foram utilizados como variaríeis resposta para predições genômicas. As médias das acurácias de predição, de todas as características, quando o EBV foi utilizado com variável de resposta, foram de aproximadamente 0,682, 0,676 e 0,674 para GBLUP, Bayes Cπ e BLASSO, respectivamente. Quando a variável de resposta utilizada foi o dEBV, as médias das acurácias de predição foram de aproximadamente 0,501, 0,499 e 0,500 para GBLUP, Bayes Cπ e BLASSO, respectivamente. Nenhum dos métodos se destacou em termos de habilidade de

(10)

predição. No entanto, o método GBLUP foi o mais adequado, por apresentar o menor custo computacional.

Palavras-chave: Capra hircus. Desequilíbrio de ligação. Habilidade de predição. Métodos bayesianos.

(11)

ABSTRACT

Affordable commercial panels containing thousands of single nucleotide polymorphisms (SNPs) markers have revolutionized genetic studies in livestock, mainly through genomic selection and genome-wide association analysis. Genomic selection has a practical aspect, as it is directly applied to breeding programs, which may allow increase of the accuracy of genetic evaluations for quantitative traits. Based on that, the objective of this study was to calculate the linkage disequilibrium (LD) of chromosomal segments in the Saanen goats genome and to compare different models for genomic evaluation, with different a priori distributions for the effect of markers. Thus, the LD was evaluated and the effective population size was estimated through markers of an Axiom_OviCap (Caprine) panel, and array customized by Affimetrix with 62,557 SNPs. Twenty-four male and 916 were genotyped which also participated in the genomic evaluations. The average LD value, expressed by the estimate of r2, between adjacent markers (~ 52 kb), was 0.04 ± 0.06. Moderate levels of LD (r2>0.20), on a scale of 0 to 1, were observed in genetic distance classes up to 20 kb. The range of values between the chromosomes varied from 0.03 ± 0.06 to 0.05 ± 0.08. The panel density was not sufficient to provide LD between chromosomal segments to predict genomic genetic values. The estimates of effective population size decreased over time, ranging from 42 animals, 19 generations in the past, to 15 animals in the current generation. The levels of genetic diversity in this Saanen population represent a threat and should be routinely monitored to ensure viability for long-term selection. The genomic evaluations for lactation length, average daily milk yield, milk, fat, protein, total dry extract and lactose yields up to 305 days of lactation, as well as somatic cell count up to 305 days of lactation were performed by the methods genomic BLUP (GBLUP), Bayes Cπ and Bayesian LASSO (BLASSO). The estimated breeding values (EBV) and deregressed estimated breeding values (dEBV) were used as response variables for genomic predictions. The averages of prediction accuracies of all traits when EBV was used as a response variable, were approximately 0.682, 0.676 and 0.674 for GBLUP, Bayes Cπ and BLASSO, respectively. When the response variable was dEBV, the averages of prediction accuracies were approximately 0.501, 0.499 and 0.500 for GBLUP, Bayes Cπ and BLASSO, respectively. None of the methods stood out in terms of prediction ability. However, the GBLUP method was the most appropriate, for presenting the lowest computational cost.

(12)

SUMÁRIO

1 CONSIDERAÇÕES INICIAIS... 15

2 CAPÍTULO I – EXTENSÃO DO DESEQUILÍBRIO DE LIGAÇÃO E TAMANHO EFETIVO POPULACIONAL EM CAPRINOS BRASILEIROS DA RAÇA SAANEN... 19

2.1 Introdução... 21

2.2 Material e Métodos... 22

2.2.1 Genotipagem e controle de qualidade... 22

2.2.2 Alelo de menor frequência... 23

2.2.3 Análise do desequilíbrio de ligação... 23

2.2.4 Decaimento do DL... 23

2.2.5 Estimativa do tamanho efetivo populacional... 24

2.3 Resultados... 24

2.3.1 Controle de qualidade... 24

2.3.2 Cobertura do genoma... 24

2.3.3 Alelo de menor frequência... 25

2.3.4 Padrão do desequilíbrio de ligação... 27

2.3.5 Decaimento do desequilíbrio de ligação... 27

2.3.6 Tamanho efetivo populacional... 29

2.4 Discussão... 30

2.4.1 Genótipos... 30

2.4.2 Desequilíbrio de ligação... 31

2.4.3 Tamanho efetivo populacional... 32

2.4.4 Implicações para Mapeamento de QTL e Seleção Genômica... 33

2.5 Conclusão... 35

3 CAPÍTULO II – PREDIÇÃO DE VALORES GENÉTICOS GENÔMICOS DE CARACTERÍSTICAS LEITEIRAS EM CAPRINOS BRASILEIROS DA RAÇA SAANEN... 36

3.1 Introdução... 38

3.2 Material e Métodos... 39

3.2.1 Dados fenotípicos... 39

(13)

3.2.3 Modelo de análise baseada em pedigree... 41

3.2.4 Variáveis de resposta... 41

3.2.5 Modelos de análises genômicas... 42

3.2.6 Estratégia de validação... 44

3.2.7 Comparação de modelos de predição genômica... 44

3.3 Resultados... 45

3.4 Discussão... 49

3.5 Conclusão... 54

4 CONSIDERAÇÕES FINAIS... 55

REFERÊNCIAS... 57

APÊNDICE A – LISTA DE FIGURAS... 64

APÊNDICE B – LISTA DE TABELAS... 65

ANEXO A – ACURÁCIAS DE PREDIÇÃO MENSURADAS PELA CORRELAÇÃO PEARSON ENTRE A VARIÁVEL DE RESPOSTA (EBV OU DEBV) E O DGV, COEFICIENTE DE REGRESSÃO DA VARIÁVEL DE RESPOSTA (EBV OU DEBV) SOBRE O DGV E QUADRADO MÉDIO DO ERRO DE PREDIÇÃO (MSE) DAS CINCO RÉPLICAS UTILIZANDO A METODOLOGIA DE VALIDAÇÃO CRUZADA, AVALIADAS PELO MODELO DE PREDIÇÃO GENÔMICO GBLUP... 66

ANEXO B – ACURÁCIAS DE PREDIÇÃO MENSURADAS PELA CORRELAÇÃO PEARSON ENTRE A VARIÁVEL DE RESPOSTA (EBV OU DEBV) E O DGV, COEFICIENTE DE REGRESSÃO DA VARIÁVEL DE RESPOSTA (EBV OU DEBV) SOBRE O DGV E QUADRADO MÉDIO DO ERRO DE PREDIÇÃO (MSE) DAS CINCO RÉPLICAS UTILIZANDO A METODOLOGIA DE VALIDAÇÃO CRUZADA, AVALIADAS PELO MODELO DE PREDIÇÃO GENÔMICO BAYES LASSO... 67 ANEXO C – ACURÁCIAS DE PREDIÇÃO MENSURADAS PELA CORRELAÇÃO PEARSON ENTRE A VARIÁVEL DE RESPOSTA (EBV OU DEBV) E O DGV, COEFICIENTE DE REGRESSÃO DA VARIÁVEL DE RESPOSTA (EBV OU DEBV) SOBRE O DGV E QUADRADO MÉDIO DO ERRO DE PREDIÇÃO (MSE) DAS CINCO

(14)

RÉPLICAS UTILIZANDO A METODOLOGIA DE VALIDAÇÃO CRUZADA, AVALIADAS PELO MODELO DE PREDIÇÃO GENÔMICO BAYES CΠ... 68

(15)

1. CONSIDERAÇÕES INICIAIS

Os avanços de tecnologias de sequenciamento do genoma e genotipagem em larga escala tornaram disponíveis mapas de marcadores com cobertura completa do genoma, o que levou os pesquisadores a criar novas formas de utilizar as informações genômicas. Uma das aplicações das informações genômicas é a seleção genômica (SG), que se baseia na utilização de marcadores distribuídos ao longo de todo o genoma e supõe que todos os loci de características quantitativas (QTL, do inglês Quantitative Trait Loci) estão em desequilíbrio de ligação (DL) com pelo menos um marcador, e que idealmente toda variância genética aditiva pode ser explicada pelos marcadores (GODDARD; HAYES, 2007; MEUWISSEN; HAYES; GODDARD, 2001). Assim, a soma dos efeitos estimados de todos os marcadores vai compor o valor genético genômico (GODDARD; HAYES, 2009).

Na SG, a população de treinamento, que é formada por um conjunto de animais com fenótipo e genótipo conhecido, é usada para derivar a equação de predição genômica (MOSER et al., 2010), que é essencialmente um conjunto de efeitos estimados dos marcadores que pode ser usado para predizer os valores genômicos para indivíduos com genótipo conhecido, mas ainda sem fenótipo. Após a derivação da equação de predição, a população de validação é utilizada para testar a acurácia da equação de predição. Posteriormente, a equação de predição desenvolvida pode ser aplicada na obtenção do mérito genético de um grupo de animais candidatos à seleção, na qual apenas os genótipos estão disponíveis (GODDARD; HAYES, 2009).

A SG, em comparação com os métodos de seleção tradicional, possui pelo menos duas vantagens. A primeira é que com o uso dos métodos de melhor preditor linear não viesado (BLUP) as relações entre os indivíduos são determinadas com base na informação pedigree, enquanto na SG a relação realizada entre indivíduos pode ser estimada usando informações genômicas, o que significa que ela pode medir o efeito mendeliano da amostragem, o que potencialmente aumenta a acurácia da seleção (HAYES et al., 2009). A segunda é que como os dados fenotípicos dos candidatos à seleção não são necessários, a SG pode melhorar o processo de seleção de características que só podem ser mensuradas em um dos sexos, que se manifestam em uma fase tardia da vida ou após a morte do indivíduo ou são onerosas para medir (MEUWISSEN; HAYES; GODDARD, 2001).

O uso da seleção genômica já foi implementado em várias espécies, como bovinos (HAYES et al., 2009; LUAN et al., 2009; VANRADEN et al., 2009), suínos (CLEVELAND; HICKEY; FORNI, 2012; IBÁÑEZ-ESCRICHE et al., 2014), frangos (WOLC et al., 2015) e

(16)

ovinos (DAETWYLER et al., 2010a, 2012a, 2012b). Entretanto, o nível de absorção dessa estratégia tem sido maior principalmente nas raças de bovinos leiteiros, em que as vantagens da SG tem sido máximas (JOERG et al., 2014). Isso se deu principalmente por que milhares de touros leiteiros já foram testados, o que permitiu a composição de grandes populações de referência para avaliações genômicas, que levou a obtenção de elevadas acurácias de predição genômica (VANRADEN et al., 2009).

A utilização da SG em bovinos leiteiros permitiu além da melhoria da acurácia de predição genômica, que os candidatos à seleção fossem avaliados em idade precoce, fato que reduziu consideravelmente o intervalo de geração (JONAS; KONING, 2015; LILLEHAMMER; MEUWISSEN; SONESSON, 2011). Além disso, uma maior proporção de animais jovens pôde ser testada, o que, por sua vez, aumentou o número de potenciais candidatos, permitindo, portanto, um aumento na intensidade da seleção. Por fim, a seleção genômica também pode proporcionar uma redução dos custos de produção, já que atualmente o custo de genotipagem é relativamente baixo em relação ao custo dos testes de progênie em bovinos (KARIUKI et al., 2017). Todas essas vantagens tornaram a SG extremamente lucrativa em bovinos leiteiros.

Em 2013, o sequenciamento do genoma caprino foi finalizado e permitiu o desenvolvimento de chips de polimorfismos de nucleotídeo único (SNPs) de alta densidade, como o SNP50 BeadChip da Illumina Goat, contendo 53.347 SNPs. A disponibilidade dessa tecnologia abriu a possibilidade para a utilização dessas informações em estudos genômicos em caprinos. No entanto, em caprinos, a situação inicialmente parece ser menos favorável em relação às outras espécies animais. O custo relativamente alto de genotipagem comparado ao valor comercial dos caprinos ainda é uma forte barreira econômica, mas acima de tudo o potencial para acelerar o progresso genético é menos evidente (RUPP et al., 2016). Entre os fatores que influenciam o progresso genético, o intervalo de geração, já curto em pequenos ruminantes, dificilmente diminuirá significativamente (LARROQUE et al., 2014). Além disso, o tamanho das populações de referência de raças caprinas ainda é limitado, até mesmo quando comparada à espécie ovina.

Assim, em um contexto marcado pela consolidação da SG em bovinos leiteiros, a chegada dos painéis de SNP em caprinos levou os pesquisadores a questionar a viabilidade da SG na espécie. Um dos primeiros passos a serem empregados para avaliar a viabilidade da SG são os estudos que visam caracterizar a extensão e o decaimento do DL na população de referência avaliada. O DL é definido como qualquer desvio das frequências alélicas em relação às frequências esperadas sob independência, o que indica uma associação não

(17)

aleatória entre alelos de diferentes locos em uma população (BRITO et al., 2011; LEE et al., 2011). Quando o nível de DL entre dois locos é alto, significa que eles estão suficientemente próximos no genoma, a chance de recombinação será baixa e os segmentos do cromossomo serão conservados de uma geração para a outra (BOHMANOVA; SARGOLZAEI; SCHENKEL, 2010).

O sucesso da SG, portanto, depende da existência de DL entre os marcadores e os QTL em toda a população (GODDARD; HAYES, 2007). Quanto maior o nível de DL, mais precisamente os marcadores podem ser usados para estimar os efeitos dos QTL, já que haverá maior certeza de que os efeitos dos QTLs estão sendo estimados corretamente e, assim, os valores genômicos poderão ser preditos com maior acurácia (CALUS et al., 2008; SOLBERG

et al., 2008). Embora o DL seja fator que influencia a acurácia da SG (HAYES et al., 2009),

seu padrão e caracterização foi pouco estudado na raça Saanen. Deste modo, o objetivo do primeiro capítulo da tese foi estimar a extensão do DL, utilizando painel Axiom_OviCap (Caprine), array customizado da Affimetrix com 62.557 SNPs, em uma população desta raça, para futuros estudos de SG.

No segundo capítulo é apresentado um estudo sobre predição de valores genômicos de características leiteiras em caprinos brasileiros da raça Saanen. Uma das questões chave nesse processo é definir a variância dos QTL explicados pelos marcadores. Neste cenário, vários modelos têm sido propostos para estimar os efeitos dos marcadores, como o melhor preditor linear não viesado genômico (GBLUP; VanRaden, 2008) e os modelos do alfabeto bayesiano (HABIER et al., 2011; MEUWISSEN; HAYES; GODDARD, 2001). A principal diferença entre esses modelos está na suposição da distribuição a priori dos efeitos dos marcadores. No método GBLUP assume-se que os efeitos de todos os SNPs são normalmente distribuídos, com média zero e mesma variância para todos os marcadores (MEUWISSEN; HAYES; GODDARD, 2001; VANRADEN, 2008). Já os métodos com abordagem Bayesiana utilizam diferentes tipos de distribuições a priori para os efeitos e variâncias dos SNPs. Devido às particularidades da arquitetura genética de diferentes características quantitativas, modelos genômicos distintos podem ser adequados para diferentes características fenotípicas (CLARK; HICKEY; VAN DER WERF, 2011; COSTER

et al., 2010).

Deste modo, uma avaliação comparativa do desempenho de vários métodos é essencial para identificar aqueles que melhor se ajustem aos dados disponíveis. Isto posto, o objetivo do segundo capítulo da tese foi fornecer uma base científica para a aplicação de SG nesta população de caprinos da raça Saanen. Foram avaliados os desempenhos de três

(18)

métodos genômicos para identificar o mais adequado para estimar a acurácia de predição de características de produção, composição e contagem de células somáticas do leite.

(19)

2. CAPÍTULO I – EXTENSÃO DO DESEQUILÍBRIO DE LIGAÇÃO E TAMANHO EFETIVO POPULACIONAL EM CAPRINOS BRASILEIROS DA RAÇA SAANEN

RESUMO

O conhecimento sobre o desequilíbrio de ligação (DL) e o tamanho efetivo populacional (Ne) é essencial para determinar a densidade ideal de marcadores necessários para condução de estudos genômicos. Neste estudo, o objetivo foi estimar a extensão do DL e o Ne de uma população de caprinos da raça Saanen, com o uso de um painel de 62.557 polimorfismos de nucleotídeo único (SNPs), Axiom_OviCap (Caprine), customizado pela Affimetrix. Foram genotipados 24 machos e 916 fêmeas provenientes de rebanhos integrantes do Programa de Melhoramento Genético de Caprinos Leiteiros - Capragene®. A extensão e o decaimento do DL foram analisados utilizando a estatística coeficiente de correlação quadrático (r2) para todos os pares de marcadores em cada cromossomo. Para estimar o Ne, utilizou-se os valores de r2 combinados com a distância entre os marcadores, com base no mapa físico usado para a análise de DL. O valor médio de r2 entre os marcadores adjacentes (~52 kb) foi de 0,04±0,06. Entre os cromossomos, a amplitude dos valores variou de 0,03±0,06 a 0,05±0,08. O DL decaiu rapidamente do primeiro para o segundo intervalo de distância. Nos intervalos posteriores, a média de r2 reduziu de forma mais gradual. Níveis moderados de r2 (>0,20), em uma escala de 0 a 1, foram observados apenas nas classes de distâncias genéticas até 20 kb. A estimativa do Ne diminuiu ao longo do tempo, variando de 42 animais, 19 gerações no passado, para 15 animais na geração atual. Os resultados observados têm aplicações práticas para condução de estudos genômicos e indicam a necessidade de usar um painel de marcadores mais denso (~300k), já que o nível de DL foi relativamente pequeno, mesmo em distâncias curtas, além de ser fundamental expandir o tamanho da população de referência.

Palavras-chave: Capra hircus. Coeficiente de correlação quadrático. Estudos genômicos. Raças caprinas leiteiras. SNPs.

(20)

EXTENSION OF LINKAGE DISEQUILIBRIUM AND EFECTIVE POPULATION SIZE OF BRAZILIAN SAANEN GOATS

ABSTRACT

The knowledge about linkage disequilibrium (LD) and effective population size (Ne) is essential to determine the ideal markers density required for performing genomic studies. In this study, the aim was to estimate the extension of LD and the Ne of a population of Saanen goats using an Axiom_OviCap (Caprine) panel of 62,557 single nucleotide polymorphisms (SNPs), customized by Affimetrix. Twenty-four male and 916 female from herds of the Dairy Goats Breeding Program - Capragene®were genotyped. The extension and decay of the LD were analyzed using the quadratic correlation coefficient (r2) for all pairs of markers on each chromosome. To estimate Ne the values of r2 combined with the distance between the markers were used, based on the physical map used for the LD analysis. The average value of r2 between adjacent markers (~52 kb) was 0.04±0.06. Among chromosomes, the range of values varied from 0.03 ± 0.06 to 0.05 ± 0.08. The LD fell rapidly from the first to the second distance range. In later intervals, the average of r2 decreased more gradually. Moderate levels of r2 (> 0.20), on a scale of 0 to 1, were observed only in the genetic distance classes up to 20 kb. The estimate of Ne decreased over time, ranging from 42 animals, 19 generations in the past, to 15 animals in the current generation. The observed results have practical applications for performing genomic studies and indicate the need to use a denser panel of markers (~ 300k), since the LD level was relatively small, even at short distances, and it is essential to expand the size of the reference population.

Keywords: Capra hircus. Dairy Goat Breeds. Genomic Studies. Quadratic Correlation Coefficient. SNPs.

(21)

2.1. Introdução

Em 2013, o sequenciamento do genoma caprino permitiu o desenvolvimento da matriz de SNP de 53k projetada pela Illumina (San Diego, CA), em colaboração com o Consórcio Internacional do Genoma Caprino (goatgenome.org/; TOSSER-KLOPP et al., 2014). A disponibilidade dessa tecnologia abriu novas possibilidades para a utilização dessas informações em pesquisas genômicas na espécie caprina. O painel de SNP já foi utilizado para estudos de diversidade genética (BRITO et al., 2017a; COLLI et al., 2018; KIJAS et al., 2013; MANDAL et al., 2018; MDLADLA et al., 2016; VISSER et al., 2016), seleção genômica (CARILLIER et al., 2013; LARROQUE et al., 2014; MOLINA et al., 2018; MUCHA et al., 2015) e GWAS (MARTIN et al., 2016a, 2017, 2016b; MUCHA et al., 2017).

O princípio básico que fundamenta esses tipos de estudos é a existência de desequilíbrio de ligação (DL) entre marcadores moleculares e variantes causais (HAYES et

al., 2009). O DL é definido como associações não aleatórias entre alelos em diferentes loci

dentro de uma população. Essas associações alélicas acontecem, principalmente, devido à proximidade física, mas também são influenciadas pela história populacional e forças evolutivas (KHATKAR et al., 2008), que resultam em diferenças na extensão do DL entre as populações e, consequentemente, na eficácia dos estudos genômicos. Deste modo, o conhecimento da extensão do DL é fundamental para definir a densidade de marcadores genéticos necessária para a varredura completa do genoma ou para alcançar níveis aceitáveis de acurácia nas predições genômicas (BOHMANOVA; SARGOLZAEI; SCHENKEL, 2010; GARCÍA-GÁMEZ et al., 2012; LEE et al., 2011).

A extensão do DL no genoma também pode ser usada para inferir o tamanho efetivo populacional (Ne; HAYES et al., 2003), que é um parâmetro que ajuda a explicar como as populações evoluíram (TENESA et al., 2007). Seu conhecimento pode melhorar a compreensão sobre a diversidade genética, além de ser utilizado como um indicador da quantidade de dados genotípicos necessários para obter predições genômicas acuradas (BRITO et al., 2017b), e na interpretação de dados de estudos de associação genômica ampla (GWAS). Isso porque altos níveis de diversidade reduzem a probabilidade de marcadores altamente significativos estarem a uma pequena distância dos loci de características quantitativas (QTL, do inglês Quantitative Trait Loci).

Assim, um dos primeiros passos a serem empregados para avaliar a viabilidade dos estudos genômicos é a análise que visa caracterizar a extensão e decaimento do DL na população de referência estudada. No Brasil, dentre as raças especializadas para a produção

(22)

de leite, a mais difundida é a Saanen, que possui o maior número de informações dentro do Programa de Melhoramento Genético de Caprinos Leiteiros – Capragene® e a maior população de referência. Para avaliar os potenciais benefícios da construção de uma população de referência para raça Saanen no Brasil, é fundamental estimar o DL e avaliar a diversidade genética da população.

Deste modo, os objetivos deste estudo foram: (i) estimar a extensão do desequilíbrio de ligação utilizando um painel com 62.557 SNPs, Axiom_OviCap (Caprine),

array customizado da Affimetrix, em uma população de caprinos brasileiros da raça Saanen, e

(ii) estimar o tamanho efetivo desta população, com base em seu desequilíbrio de ligação.

2.2. Material e Métodos

2.2.1. Genotipagem e controle de qualidade

Os dados utilizados neste estudo são provenientes de caprinos da raça Saanen de rebanhos localizados nas regiões Nordeste e Sudeste do Brasil. Esses capris são participantes do programa Capragene®, gerenciado pela Embrapa Caprinos e Ovinos em parceira com a Associação dos Criadores de Caprinos e Ovinos de Minas Gerais (Caprileite/ACCOMIG) e a Associação Brasileira dos Criadores de Caprinos (ABCC). Um total de 940 animais (24 machos e 916 fêmeas) da raça Saanen foram genotipados utilizando um array customizado pela Affimetrix, contendo 62.557 SNPs. As amostras de DNA foram derivadas de estudos prévios, com aprovação de conduta ética para os projetos que as coletaram. Portanto, nenhuma aprovação ética adicional foi necessária para este estudo.

O controle de qualidade dos dados genômicos foi realizado para remover marcadores moleculares e/ou amostras que pudessem influenciar as estimativas do DL. O

software Axiom™ Analysis Suite foi utilizado para edição dos genótipos dos dados brutos e

realizar o controle inicial de qualidade, nos quais foram removidos os SNPs não polimórficos e as amostras que apresentaram „call rate‟ (CR) menor que 0,95. Posteriormente, os dados foram analisados no software PLINK v1. 90 (CHANG et al., 2015), com exclusão de marcadores de mesma posição cromossômica, não autossômicos, que apresentaram alelo de menor frequência (MAF) inferior a 0,02, CR menor que 0,95 e que se desviaram fortemente do equilíbrio de Hardy-Weinberg (valor de p<10−6).

(23)

2.2.2. Alelo de menor frequência

A MAF foi estimada utilizando o software PLINK v1. 90 para todos os SNPs autossômicos após realização do controle de qualidade. A distribuição das frequências alélicas foi analisada usando o software R (CORE TEAM, 2018) e resumidas como proporções dos marcadores representados em cinco categorias diferentes de MAF: 0,00 a 0,10; 0,10 a 0,20; 0,20 a 0,30; 0,30 a 0,40; e > 0,40. Os resultados das proporções de SNPs em diferentes categorias foram plotados utilizando o software R.

2.2.3. Análise do desequilíbrio de ligação

A extensão do DL entre os marcadores foi medida usando o coeficiente de correlação quadrático (r2; HILL; ROBERTSON, 1968), entre dois SNPs e pode ser expresso como:

r2 = D

2

f(A)f(a)f(B)f(b)

em que, D = f(AB) – f(A)f(B) e f(AB), f(A), f(a), f(B), f(b) são as frequências observadas dos haplótipos AB e dos alelos A, a, B e b, respectivamente.

O software PLINK v1. 90 foi utilizado para estimar os valores de r2 para cada cromossomo entre pares de marcadores vizinhos (SNPs adjacentes) separados por uma distância de até 1 Mb, com base nas frequências haplotípicas estimadas por meio do algoritmo EM.

2.2.4. Decaimento do DL

Para analisar o decaimento do DL de acordo com a distância física, os pares de SNPs por cromossomo foram classificados em intervalos, com base na distância entre os pares de marcadores e a média de cada intervalo foi calculada para todo o genoma e por cromossomo. Foram definidos 15 intervalos de classes de distância: 0-10 kb, 10-20 kb, 20-30 kb, 30-40 kb, 40-50 kb, 50-100 kb, 100-200 kb, 200-300 kb, 300-400 kb, 400-500 kb, 500-600 kb, 500-600-700 kb, 700-800 kb, 800-900 kb, 900-1000 kb. Os resultados das análises de decaimento por cromossomo foram plotados utilizando o software R.

(24)

2.2.5. Estimativa do tamanho efetivo populacional

O tamanho efetivo da população foi estimado usando o software SNeP versão 1.1 (BARBATO et al., 2015). O SNeP estima Ne a partir do desequilíbrio de ligação do genoma, usando a seguinte fórmula sugerida por Corbin et al. (2012),

NT(t)= 1 (4f(ct))(

1 E[radj2 |ct]

− α),

em que NT(t) é o tamanho efetivo estimado da população em t gerações no passado e ct é a taxa de recombinação em t gerações no passado, para a distância física específica entre os marcadores, calculada pela ferramenta SNeP (BARBATO et al., 2015) e com o uso de valores padrão (1Mb ~ 1cM); r2adj é a estimativa do desequilíbrio de ligação ajustada para o tamanho da amostra e α é uma correção para a ocorrência de mutação.

2.3. Resultados

2.3.1. Controle de qualidade

Todas as 940 amostras permaneceram no conjunto de dados após o controle de qualidade. Neste estudo, a principal causa de exclusão dos marcadores foi a presença de SNPs não polimórficos (48,45%) e CR menor que 0,95 (29,24%). Do conjunto inicial de 62.557 SNPs, 46.238 SNPs (73,91%) permaneceram após o controle de qualidade (Tabela 1).

2.3.2. Cobertura do genoma

O painel de 62k, após o controle de qualidade, cobriu 2402,42 Mb do genoma autossômico caprino com distância média entre marcadores de 51,71 ± 26,50 kb (Tabela 2). A distribuição dos marcadores variou entre os cromossomos, porém foi proporcional aos seus comprimentos, em que o cromossomo 1 apresentou o maior número de SNPs (n=2.899) e o cromossomo 25 a menor quantidade (n=837; Tabela 2). A distância física média entre marcadores foi semelhante para todos os cromossomos, variando de 49,29 a 54,57 kb (Tabela 2). As maiores lacunas entre SNPs foram observadas nos cromossomos 2 (389,87 kb), 12

(25)

(454,24 kb) e 15 (434,35 kb).

Tabela 1. Critérios de controle de qualidade e número de marcadores descartados no genoma caprino de uma população da raça Saanen

Controle de qualidade Número de SNPs

SNPs disponíveis 62.557

SNPs não polimórficos 7.908

SNPs com Call Rate < 0,95 4.773

SNPs em cromossomos não incluídos (sexuais) 2.693

Desvio de HWE (P<0,001) 314

SNP com mesma coordenada cromossômica 580

SNP com MAF <0,02 51

SNPs descartados 16.319

SNPs remanescentes 46.238

SNP = polimorfismos de nucleotídeo único; MAF = alelo de menor frequência; HWE = teste do χ2 para o equilíbrio de Hardy-Weinberg (p <10-6).

2.3.3. Alelo de menor frequência

A distribuição da MAF dos SNPs após o controle de qualidade foi semelhante entre os cromossomos, com um valor médio de 0,33 ± 0,11 (Tabela 2). Aproximadamente 85,05% dos SNPs tinham um valor de MAF acima de 0,20 (Figura 1). Estes níveis de MAF fornecem variabilidade suficiente para a obtenção de estimativas imparciais de DL. Para a estimativa de DL, os SNPs de frequência alélicas moderadas (MAF>0,20) são preferíveis, pois marcadores com MAF baixa tendem a gerar menores valores de r2 (BOHMANOVA; SARGOLZAEI; SCHENKEL, 2010; KHATKAR et al., 2008; QANBARI et al., 2009).

(26)

Tabela 2. Estatística descritiva dos polimorfismos de nucleotídeo único (SNP), desequilíbrio de ligação (r2) entre SNPs adjacentes e alelo de menor frequência (MAF) para cada cromossomo (CHI) no genoma caprino de uma população da raça Saanen

CHI Tamanho (Mb) SNP (N) Distância 𝐗̅ ±DP (kb) GAP (kb) r2 (𝐗̅ ±DP) r 2 (Md) MAF (𝐗̅ ±DP) 1 154,93 2899 53,44±28,82 237,41 0,04±0,06 0,02 0,34±0,11 2 135,41 2593 52,22±27,26 389,87 0,04±0,06 0,02 0,34±0,11 3 116,77 2243 52,05±27,21 232,64 0,04±0,07 0,02 0,33±0,12 4 115,95 2229 52,01±26,81 338,37 0,04±0,06 0,02 0,34±0,11 5 110,99 2093 53,01±26,61 307,04 0,04±0,06 0,02 0,33±0,12 6 114,32 2148 53,23±29,14 249,07 0,04±0,07 0,02 0,33±0,11 7 106,50 2042 52,17±25,83 223,44 0,04±0,06 0,02 0,33±0,11 8 110,98 2120 52,35±26,65 254,68 0,05±0,07 0,02 0,33±0,11 9 90,27 1738 51,87±25,68 291,93 0,04±0,06 0,02 0,34±0,11 10 99,10 1946 50,90±25,14 201,45 0,04±0,07 0,02 0,33±0,11 11 105,28 2030 51,79±26,85 292,89 0,04±0,07 0,02 0,34±0,11 12 83,55 1532 54,57±33,40 454,24 0,04±0,08 0,02 0,33±0,12 13 80,61 1605 50,17±25,17 248,60 0,05±0,08 0,02 0,33±0,11 14 92,30 1746 52,88±27,95 261,40 0,04±0,06 0,02 0,34±0,11 15 78,97 1521 51,95±27,88 434,35 0,03±0,06 0,01 0,33±0,11 16 77,63 1448 53,58±27,97 285,43 0,04±0,06 0,02 0,34±0,11 17 71,84 1356 52,97±27,96 250,76 0,04±0,06 0,02 0,33±0,11 18 60,99 1194 51,01±24,61 304,44 0,04±0,08 0,02 0,33±0,11 19 62,12 1214 51,03±24,55 264,66 0,04±0,06 0,02 0,33±0,11 20 71,20 1359 52,33±26,83 230,61 0,04±0,06 0,02 0,33±0,11 21 66,71 1329 50,20±24,26 201,52 0,04±0,06 0,02 0,33±0,11 22 57,86 1160 49,92±23,10 184,74 0,04±0,07 0,02 0,33±0,11 23 49,35 957 51,55±27,98 310,87 0,04±0,07 0,02 0,33±0,11 24 61,72 1252 49,29±24,68 249,04 0,04±0,07 0,01 0,34±0,11 25 41,48 837 49,52±23,99 244,02 0,03±0,06 0,01 0,34±0,11 26 50,08 1003 49,92±23,07 240,90 0,03±0,06 0,02 0,34±0,11 27 43,98 854 51,49±27,28 255,54 0,04±0,06 0,02 0,34±0,11 28 43,20 855 50,52±25,58 197,74 0,03±0,05 0,01 0,34±0,11 29 48,30 935 51,66±26,29 261,31 0,04±0,06 0,02 0,33±0,11 Genoma 2466,191 46238 51,71±26,50 272,38 0,04±0,06 0,02 0,33±0,11

1Genoma caprino (https://www.ncbi.nlm.nih.gov/genome?term=capra%20hircus); GAP – distância máxima entre SNP; X = Média; DP – Desvio padrão; Md = Mediana.

(27)

Figura 1. Proporção média de polimorfismos de nucleotídeo único (SNP) em diferentes classes do alelo de menor frequência (MAF) no genoma caprino de uma população da raça Saanen

2.3.4. Padrão do desequilíbrio de ligação

O valor médio de r2 entre os marcadores adjacentes (~52 kb) foi baixo, 0,04±0,06 (Tabela 2), com valores dos desvios padrão bastante elevados, às vezes superiores até a própria média, não diferindo significativamente de zero. Entre os cromossomos, a amplitude dos valores foi pequena, variou de 0,03±0,05 a 0,05±0,08. O maior DL foi observado no cromossomo 13, enquanto os cromossomos 15, 25, 26 e 28 tiveram os menores valores de DL (Tabela 2).

2.3.5. Decaimento do desequilíbrio de ligação

A média de r2 diminuiu rapidamente com o aumento da distância entre os marcadores (Tabela 3). Do primeiro (até 10 kb) para o segundo intervalo de distâncias (10 a 20 kb) houve uma redução nos valores de r2 de aproximadamente 55%. Nos intervalos de distância posteriores essa média reduziu de forma gradual. Níveis moderados (r2>0,20) foram observados em classes de distâncias genéticas até 20 kb (Tabela 3). Entretanto, até essa distância nem todos os marcadores apresentaram valores de r2>0,20. Nas classes de distância de 0 a 10 kb e 10 a 20 kb, 61,30% e 38,65% dos marcadores apresentaram r2>0,20, respectivamente.

(28)

Tabela 3. Desequilíbrio de ligação (r2) estimado entre polimorfismos de nucleotídeo único (SNP) separados por diferentes distâncias genéticas no genoma caprino de uma população da raça Saanen

Distância (kb) N Média r2± DP Mediana r2 %*

0 a 10 292 0,43±0,36 0,33 61,30 10 a 20 326 0,24±0,28 0,11 38,65 20 a 30 3354 0,13±0,19 0,05 20,72 30 a 40 15573 0,12±0,18 0,05 18,37 40 a 50 9650 0,10±0,16 0,04 15,17 50 a 100 43363 0,07±0,11 0,03 8,52 100 a 200 89678 0,05±0,07 0,02 3,72 200 a 300 89509 0,04±0,06 0,02 2,15 300 a 400 89063 0,04±0,05 0,02 1,56 400 a 500 89144 0,03±0,05 0,02 1,30 500 a 600 88885 0,03±0,05 0,02 1,19 600 a 700 88988 0,03±0,04 0,02 1,08 700 a 800 88734 0,03±0,04 0,01 0,93 800 a 900 88725 0,03±0,04 0,01 0,75 900 a 1000 88352 0,03±0,04 0,01 0,71

DP – desvio padrão; * Percentagem de pares de SNP com r2>0,20

Dentro das classes genômicas, as maiores variações de r2 (Figura 2) foram verificadas no intervalo de distância de 0 a 50 kb nos cromossomos 6 (0,16) e 13 (0,16) e no intervalo 50 a 100 kb no cromossomo 18 (0,09). Na distância genômica superior a 100 kb, os valores médios de r2 exibiram pequenas diferenças entre cromossomos, com valores variando de 0,06 a 0,02 no intervalo de distância de 100 a 1000 kb (Figura 2).

(29)

Figura 2. Desequilíbrio de ligação (r2) estimado entre polimorfismos de nucleotídeo único (SNP) separados por diferentes distâncias genéticas para cada cromossomo autossômico no genoma caprino de uma população da raça Saanen

2.3.6. Tamanho efetivo populacional

O Ne foi inferido com base na relação entre os padrões de DL em vários intervalos de distância entre os pares de marcadores e o tamanho da população em diferentes gerações. A extensão do DL em maiores distâncias de recombinação é mais indicada para estimar o Ne recente, enquanto que nas distâncias mais curtas, é mais indicada para fornecer o Ne ancestral (HAYES et al., 2003). A Figura 3 apresenta o Ne recente, isto é, as mudanças no Ne da geração 19 até a geração atual, mostrando a redução da estimativa de Ne que era de 42 indivíduos 19 gerações atrás e foi para 15 na geração atual. Neste estudo, as estimativas só se estenderam a 19 gerações no passado devido à escassez de estimativas pontuais em tempos mais profundos e ao foco do estudo nas gerações mais recentes. Ao se considerar um intervalo de geração de quatro anos, as estimativas de Ne corresponderiam ao período de quatro a setenta e seis anos no passado. Na geração atual, a estimativa de Ne foi de apenas 15 indivíduos, representando um pool genético mais estreito e um Ne baixo, considerando o tamanho crítico de 50 recomendado pela FAO (FAO, 1998).

(30)

Figura 3. Tamanho efetivo populacional (Ne) estimado ao longo de dezenove gerações a partir de dados de desequilíbrio de ligação em uma população da raça Saanen

2.4. Discussão

2.4.1. Genótipos

O número total de marcadores que passam no controle de qualidade depende da matriz de genotipagem, do grupo de animais utilizados e dos critérios aplicados nesse controle (KASARDA et al., 2016). Neste estudo, a proporção de SNPs remanescentes foi de 73,91%, menor do que a obtida em outros estudos com caprinos da raça Saanen. Brito et al., (2015), em uma população canadense formada por 318 caprinos Saanen, validaram 84,25% dos 53.347 marcadores disponíveis após o controle de qualidade. Os critérios usados no controle foram CR menor que 0,90, MAF menor que 0,05 e marcadores que desviaram do equilíbrio de Hardy-Weinberg (valor de p <10−6). Carillier; Larroque; Robert-Granié (2014), em população francesa formada por 1.164 caprinos Saanen, filtraram os SNPs que não estavam em equilíbrio de Hardy-Weinberg (valor de p <10−6), que apresentavam MAF menor que 0,01 e CR menor que 0,98 ou conteúdo de GC abaixo de 0,6, e validaram 47.306 SNPs (88,67%) dos 53.347 SNPs disponíveis.

Embora o genoma dos animais da raça Saanen tenha sido utilizado como referência no desenvolvimento do chip de SNPs (TOSSER-KLOPP et al., 2014), uma proporção elevada dos marcadores neste estudo não foi informativa, em parte devido à presença expressiva (48,45%) de marcadores não polimórficos. Uma das possíveis causas da elevada proporção não informativa de marcadores pode estar relacionada ao fato dos animais

(31)

utilizados no desenvolvimento do chip serem de origem européia, enquanto que os animais utilizados neste estudo foram criados e selecionados no Brasil, de modo que os processos evolutivos podem ter levado a diferenças genéticas marcantes entre as populações.

2.4.2. Desequilíbrio de ligação

O padrão e a extensão do DL são essenciais no ajuste fino de delineamentos experimentais para aumentar a acurácia das predições genômicas e a eficiência na detecção de QTL em estudos de associação genômica e, podem, portanto, ter grande impacto nas taxas de progresso genético realizadas em características economicamente importantes (BIEGELMEYER et al., 2016).

Em nosso estudo, a média de DL foi baixa e inferior aos valores reportados em outras populações de caprinos leiteiros. Carillier et al. (2013), em uma população francesa de caprinos da raça Saanen, relataram média de r2 de 0,17 a uma distância entre marcadores de 50 kb. Em uma população de caprinos mestiços (Alpina, Saanen e Toggenburg), Mucha et al. (2015) verificaram estimativas de r2 de 0,18 na distância média entre os marcadores de 50 kb. Brito et al. (2015), em um estudo com nove raças caprinas, relataram na distância média entre marcadores de 50 kb valores de r2 de 0,15, 0,14, 0,24, 0,19 e 0,27 para raças leiteiras Saanen, Alpina Britânica, Toggenburg, La Mancha e Nubiana, respectivamente. Uma das possíveis causas dos menores valores de DL para a população investigada neste estudo pode estar relacionada a uma reduzida intensidade de seleção aplicada ao longo dos anos nestes rebanhos e a pequena profundidade genética da população de referência, em virtude da estrutura de dados disponíveis.

Entre os cromossomos, a semelhança nos valores médios de DL pode ser atribuída à taxa de recombinação e ao efeito da seleção (QANBARI et al., 2009). Normalmente, entre e dentro dos cromossomos, há uma grande variação na taxa de recombinação, fato que pode levar a uma diversidade marcante no padrão de DL em diferentes regiões genômicas (ARIAS

et al., 2009). Neste estudo, embora haja variação nos níveis de DL entre os cromossomos

autossômicos, as diferenças foram pequenas, o que sugere que ocorreu uma pequena variação nas taxas de recombinação. A razão para isso possivelmente se deve à aplicação de pressão de seleção apenas em características poligênicas. Além disso, a maioria dos programas de melhoramento em caprinos ainda são recentes, de modo que a pressão de seleção sobre as características avaliadas não foi tão intensa (BRITO et al., 2017c).

(32)

DL nas diferentes distâncias genômicas. Os valores mais elevados de DL, verificados nos cromossomos 6 (0,16) e 13 (0,16), na distância genômica de 0 a 50 kb, podem ser explicados pela seleção. É possível que alelos favoráveis para diferentes características tenham sofrido ação da seleção natural nesses cromossomos, o que resultou em um maior grau de DL em curta distância. Como o DL para as curtas distâncias reflete o tamanho histórico efetivo da população (HAYES et al., 2003), provavelmente os alelos desses cromossomos foram selecionados em várias gerações no passado, em decorrência de algum processo de adaptação.

2.4.3. Tamanho efetivo populacional

A análise das tendências do Ne da população, a partir dos valores de DL, indicou uma baixa estimativa do Ne da população da raça Saanen nas gerações recentes. Essas estimativas foram inferiores ao recomendado pela Organização das Nações Unidas para Agricultura e Alimentação (FAO, 1998), que é no mínimo de 50 animais. Os baixos valores de Ne na população da raça Saanen podem ser reflexo de uma população fundadora pequena. Há dezenove gerações, período aproximado no qual a raça Saanen foi introduzida no Brasil (FONSECA et al., 2011), o Ne estimado para a raça, por meio das sub-populações amostradas foi de apenas 42 animais, ou seja, menor que o recomendo pela FAO (FAO, 1998). Nas gerações posteriores, apesar da expansão no Ne, provavelmente devido à importação de novos reprodutores oriundos da Europa ou cruzamento com caprinos nativos do Brasil, a estimativa do Ne foi de 56 animais 15 gerações no passado, superior ao recomendo pela FAO, porém ainda bem reduzida.

Após esse período de expansão as estimativas de Ne apresentaram flutuações ao longo das gerações. Essas flutuações podem estar relacionadas ao critério de seleção utilizado pelos criadores que era baseada principalmente no “modismo”, isto é, no uso exacerbado de poucos reprodutores campeões em feiras de exposição ou provenientes de importação. Esse tipo de seleção pode ter contribuído para a redução na estimativa do Ne, devido ao aumento da endogamia. Por outro lado, embora os criadores mantivessem pequenos rebanhos, era comum o compartilhamento de reprodutores entre as fazendas, o que pode ter resultado no aumento das estimativas do Ne. Além disso, devido à baixa magnitude das estimativas do Ne, processos de deriva genética podem ter ocasionado o aumento do Ne ao longo das gerações, de modo que esses fatores combinados podem ter proporcionado flutuações nestes valores.

Nas últimas cinco gerações, as estimativas do Ne apresentaram comportamento diferente, com uma redução contínua e acentuada ao longo dos anos, o que coincide com o

(33)

início da utilização de ferramentas de seleção e a criação do programa de melhoramento genético desta população. Assim, a redução do Ne de forma mais intensa nas ultimas gerações é consistente com a subdivisão e seleção da população da raça Saanen, mas também com o uso relativamente limitado de inseminação artificial. Esta tendência de redução do Ne nas ultimas gerações representa uma ameaça para a diversidade genética da população de cabras de Saanen e deve ser monitorada rotineiramente para garantir uma viabilidade da raça em longo prazo.

Brito et al. (2015), em uma análise do genoma de caprinos das raças Rangeland, Alpina, Saanen, Caxemira, La Mancha, Toggenburg, Nubiana, Boer Australiana e Boer Canadense estimaram em cinco gerações no passado, valores de Ne de 104, 149, 113, 41, 62, 38, 61, 46 e 77, respectivamente para cada raça. Em nosso estudo, as estimativas do Ne cinco gerações no passado foram menores (46) que as encontradas por Brito et al. (2015) na raça Saanen (113). Essa discrepância nos valores pode estar relacionada à diferença no tamanho da população fundadora. No entanto, nossa estimativa de Ne foi superior às encontradas nas raças Caxemira, Toggenburg e Boer Australiana. As baixas estimativas do Ne nas populações dessas raças estão relacionadas ao tamanho da população fundadora, que possivelmente é pequena, o que refletiu em menores estimativas do Ne nas gerações recentes.

2.4.4. Implicações para Mapeamento de QTL e Seleção Genômica

Valores de r2 considerados como úteis para serem utilizados em análises genômicas divergem na literatura. Na seleção genômica, valores médios de r2≥0,20 foram considerados suficientes para alcançar valores genéticos genômicos (GEBV; do inglês,

Genomic Estimated Breeding Values) com acurácia de 0,85 em bovinos leiteiros, com dados

simulados (MEUWISSEN; HAYES; GODDARD, 2001). Em estudos de associação genômica, Qanbari et al. (2009) consideraram um limiar de r2≥0,25 como um valor de DL útil, enquanto que Corbin et al. (2010) relataram que valores médios de r2≥0,30 deveriam ser empregados para a execução de estudos de associação genômica. Neste estudo, foi adotado como nível de DL útil o r2≥0,20. Considerando a distância média entre os marcadores (~52 kb), esta população de caprinos Saanen apresentou DL útil, maior que 0,20, em apenas 2,40% dos SNPs adjacentes.

Valores médios de r2≥0,20 foram verificados apenas em distâncias de até 20 kb, porém até essa distância, apenas 38,65% dos marcadores tinha valor de r2≥0,20. Já na distância de até 10 kb, a proporção de marcadores com r2≥0,20 era de 61,30%. Deste modo, o

(34)

ideal seria que houvesse pelo menos um marcador a cada 10 kb, para que uma maior proporção de marcadores tivesse r2≥0,20. Isso significa que o painel de SNP de 62K com distância média entre marcadores de 51,71 kb não foi suficiente para capturar as informações necessárias para aplicação de estudos genômicos nesta população.

Assim, nossos resultados apoiam a necessidade de usar painéis de SNP mais densos, para garantir o mapeamento fino das associações genômicas e a eficiência da seleção genômica em programas de melhoramento para raça Saanen no Brasil. As informações obtidas neste estudo podem ser utilizadas para projetar painéis de SNPs personalizados e alcançar níveis desejados de DL em cada um dos cromossomos ou em todo o genoma. Para cobrir todo o genoma caprino (2,46 Gb), o número necessário de SNPs seria de 246.619, considerando um marcador a cada 10 kb (2,46 Gb/10 kb). Contudo, presumindo que cerca de 20% dos SNPs não atendem ao controle de qualidade, o número inicial de marcadores deveria ser de aproximadamente 296.000.

Um conjunto maior de dados, com mais animais do que o deste estudo também poderia ser utilizado para obter níveis adequados de acurácia de predição em estudos genômicos. Contudo, a utilização de um maior número de animais teria impacto apenas se estes fossem representativos, ou seja, animais com um elevado número de crias avaliadas geneticamente. No entanto, nesta população, todos os animais representativos já foram genotipados. Assim, uma alternativa para aumentar a acurácia, de forma menos onerosa, seria genotipar fêmeas e crias sem avaliação genética, que são menos representativos, com um painel abaixo da densidade desejável e, posteriormente, imputar para painel de maior densidade, desde que os painéis de haplótipos da população de referência estejam disponíveis (PICCOLI et al., 2014).

(35)

2.5. Conclusão

São baixos os níveis de DL na população de caprinos da raça Saanen deste estudo, enquanto seu tamanho efetivo tende a ser elevado. Existe a necessidade de usar um painel de marcadores mais denso (~300k), já que o nível de DL é relativamente pequeno, mesmo em distâncias curtas, além da necessidade de aumentar o tamanho da população de referência.

(36)

3. CAPÍTULO II – PREDIÇÃO DE VALORES GENÉTICOS GENÔMICOS DE CARACTERÍSTICAS LEITEIRAS EM CAPRINOS BRASILEIROS DA RAÇA SAANEN

RESUMO

O objetivo deste estudo foi comparar a habilidade dos métodos de predição genômica para as características de produção, composição e contagem de células somáticas do leite de caprinos brasileiros da raça Saanen. Um total de 940 caprinos, genotipados com um painel Axiom_OviCap (Caprine), array customizado da Affimetrix com 62.557 polimorfismos de nucleotídeo único (SNPs), foi utilizado para análises de seleção genômica. Os métodos genômicos estudados para estimar os efeitos dos SNPs e os valores genômicos diretos (DGV) foram: (i) BLUP genômico (GBLUP), (ii) Bayes Cπ e (iii) LASSO Bayesiano (BLASSO). Os valores genéticos estimados (EBV; do inglês, Estimated Breeding Values) e os valores genéticos estimados deregredidos (dEBV; do inglês, deregressed Esimated Breeding Values) foram utilizados como variaríeis resposta para predições genômicas. A habilidade de predição foi avaliada pela correlação de Pearson (r) entre os DGV e as variáveis de resposta (EBV e dEBV). Os coeficientes de regressão (b̂) das variáveis de resposta sobre o DGV foram obtidos para verificar se as predições genômicas foram viesadas. Além disso, o quadrado médio do erro de predição (MSE) foi utilizado como medida de verificação do ajuste do modelo aos dados. Nenhum dos métodos se destacou em termos de habilidade de predição, no entanto, o método GBLUP foi o mais adequado por estimar os DGV, de forma ligeiramente mais confiável e menos tendenciosa, além de apresentar o menor custo computacional. Apesar do menor viés observado para os dEBV, os EBV são as variáveis de resposta preferidas considerando as acurácias de predição genômica em relação ao contexto do presente estudo.

Palavras-chave: Habilidade de predição. Métodos bayesianos. Multi-Step. Pequenas populações. Seleção genômica ampla.

(37)

PREDICTION OF GENOMIC BREEDING VALUES OF MILK TRAITS OF BRAZILIAN SAANEN GOATS

ABSTRACT

The objective of this study was to compare the ability of the genomic prediction methods for the production traits, milk composition and somatic cell count of Brazilian Saanen goats. Nine hundred forty goats, genotyped with an Axiom_OviCap (Caprine) panel, array customized by Affimetrix with 62,557 single nucleotide polymorphisms (SNPs), were used for genomic selection analyzes. The genomic methods studied to estimate the effects of SNPs and direct genomic values (DGV) were: (i) genomic BLUP (GBLUP), (ii) Bayes Cπ and (iii) Bayesian LASSO (BLASSO). The estimated breeding values (EBV) and deregressed estimated breeding values (dEBV) were used as response variables for the genomic predictions. The prediction ability was assessed by Pearson's correlation (r) between DGV and the response variables (EBV and dEBV). Regression coefficients (b̂) of the response variables on the DGV were obtained to verify if the genomic predictions were biased. In addition, the prediction mean square of the error (MSE) was used as a measure of verification of model‟s fit to the data. None of the methods stood out in terms of prediction ability, however, the GBLUP method was the most appropriate for estimating the DGV, in a slightly more reliable and less biased way, besides presenting the lowest computational cost. Despite the lower bias observed for dEBV, the EBV are the preferred response variables considering the genomic prediction accuracies regarding the context of the present study.

Keywords: Bayesian Methods. Genome wide selection. Multi-Step. Prediction ability. Small populations.

(38)

3.1. Introdução

Programas de melhoramento e avaliações genéticas para pequenos ruminantes, principalmente para caprinos, ainda são limitados em países em desenvolvimento (KOSGEY; OKEYO, 2007). No entanto, em alguns países como o Brasil, a parceria entre associações de raças e empresas públicas tem permitido alguns avanços nessa área, como a implantação do Controle Leiteiro Oficial – CLO em pequenos núcleos de melhoramento, a criação do Arquivo Zootécnico Nacional (FACÓ et al., 2011), além de ter proporcionado a realização dos primeiros testes de progênie e avaliações genéticas em raças de caprinos leiteiros (DOS SANTOS et al., 2015).

Entre as raças especializadas para produção de leite no Brasil, a Saanen é a mais utilizada. Os rebanhos dessa raça estão localizados principalmente na região sudeste do país e possuem um efetivo médio de 30 animais/rebanho, na sua maioria criados em confinamento, com alimentação suplementada e representam 84% dos registros do Programa de Melhoramento Genético de Caprinos Leiteiros – Capragene® (FACÓ et al., 2011). No entanto, apesar da maior parte dos registros do programa de melhoramento pertencer aos animais da raça Saanen, o número de rebanhos participantes é limitado, com apenas 12 criadores vinculados ao programa (LÔBO et al., 2017a).

Nas primeiras avaliações genéticas, realizadas pelo Capragene®, a acurácia das estimativas de valores genéticos (EBV; do inglês, Estimated Breeding Values) da raça Saanen foram, em geral, baixas ou moderadas (LÔBO et al., 2017a). Uma das razões para estes resultados é que, em caprinos brasileiros, as informações fenotípicas e da matriz de parentesco que são utilizadas nas avaliações genéticas tradicionais realizadas pelos procedimentos da máxima verossimilhança restrita/melhor preditor linear não viesado (REML/BLUP; do inglês

Restricted Maximum Likelihood/Best Linear Unbiased Predictor) ainda são bastante

inconsistentes. No entanto, o rápido progresso e a redução dos custos de genotipagem de todo o genoma tem facilitado a geração de dados de marcadores moleculares que podem ser incorporados em programa de melhoramento.

A seleção genômica (SG) surgiu neste contexto como uma alternativa às avaliações genéticas tradicionais, com intuito de aumentar a acurácia das predições do valor genético dos candidatos à seleção. Essa estratégia de seleção foi inicialmente proposta por Meuwissen et al. (2001) e consiste em utilizar os dados fenotípicos e genotípicos para estimar os efeitos dos marcadores SNPs de uma população de treinamento e, posteriormente, predizer os valores genéticos dos candidatos à seleção com base em seus genótipos, potencialmente

(39)

com maior acurácia do que os obtidos com base nas avaliações genéticas clássicas.

Como na seleção tradicional baseada em EBV, a acurácia de predição é uma questão fundamental para o sucesso da SG. Muitos modelos de predição genômica têm sido propostos para estimar o mérito genético dos candidatos à seleção, como o melhor preditor linear não viesado genômico (GBLUP; do inglês, Genomic Best Linear Unbiased Predictor; VanRaden, 2008) e os modelos do alfabeto bayesiano (HABIER et al., 2011; MEUWISSEN; HAYES; GODDARD, 2001). A principal diferença entre esses modelos é a suposição sobre a distribuição subjacente dos efeitos dos loci de características quantitativas (QTL). Devido às particularidades da arquitetura genética de diferentes características quantitativas, modelos genômicos distintos podem ser adequados para diferentes características fenotípicas (CLARK; HICKEY; VAN DER WERF, 2011; COSTER et al., 2010).

Assim, o objetivo do presente estudo foi avaliar métodos de predição genômica em caprinos leiteiros brasileiros da raça Saanen. Três métodos diferentes, GBLUP, Bayes Cπ e Bayes LASSO, que diferem em suposições sobre a arquitetura genética das características, foram utilizados para comparar a acurácia das predições genômicas para as características de produção, composição e contagem de células somáticas do leite.

3.2. Material e Métodos

3.2.1. Dados fenotípicos

Os dados utilizados neste estudo são provenientes de caprinos da raça Saanen de rebanhos localizados nas regiões Nordeste e Sudeste do Brasil. Esses capris são participantes do programa Capragene®, gerenciado pela Embrapa Caprinos e Ovinos em parceira com a Associação dos Criadores de Caprinos e Ovinos de Minas Gerais (Caprileite/ACCOMIG) e a Associação Brasileira dos Criadores de Caprinos (ABCC). As características analisadas foram: duração da lactação (DLAC), produção total de leite até 305 dias de lactação (PL305), produção média diária de leite até 305 dias de lactação (PLD305), produção total de gordura até 305 dias de lactação (PG305), produção total de proteína até 305 dias de lactação (PP305), produção total de extrato seco até 305 dias de lactação (PEX305), produção total de lactose até 305 dias de lactação (PLAC305) e contagem de células somáticas até 305 dias de lactação (CCS305). Uma descrição detalhada do sistema de produção dos rebanhos e características avaliadas pode ser encontrada em Lôbo et al. (2017b). A aprovação do Comitê de Ética no uso de animais não foi necessária porque os dados foram obtidos de um banco de dados existente,

(40)

já aprovado em projetos prévios da referida Unidade da Embrapa.

Os grupos de contemporâneos (GC) foram definidos por cabras que pariram no mesmo ano e estação, sob mesmo regime de manejo. Animais cujas mensurações eram três desvios padrão acima ou abaixo da média de seus respectivos GC foram eliminados, assim como GC com menos de três animais. A Tabela 1 resume a estatística descritiva e a estrutura final dos dados utilizados na análise dos componentes de variância para as características estudadas.

Tabela 1. Estatística descritiva e estrutura final dos dados das características de produção, composição e contagem de células somáticas de leite caprino da raça Saanen

Característica N Média±DP Min Max Npai NMãe GC

DLAC (dias) 6491 260,67±103,08 60,00 540,00 380 2028 506 PL305 (kg) 6491 671,30±363,64 150,00 2879,30 380 2028 506 PLD305 (kg/dia) 6491 2,77±1,14 0,61 11,50 380 2028 506 PG305 (kg) 4763 24,02±13,33 0,43 130,57 338 1667 445 PP305 (kg) 4659 20,02±11,24 0,37 114,38 334 1606 442 PEX305 (kg) 4421 79,12±43,30 1,33 427,54 329 1565 424 PLAC305 (kg) 4361 29,32±16,51 0,30 179,67 329 1553 413 CCS305 (cel/ml) 4577 6,04±0,42 4,43 9,30 331 1593 434

N – número de observações; DP – desvios padrão; Min – valores mínimos; Max – valores máximos; Npai – número de pais; Nmãe – número de mães; GC – grupos de contemporâneos; DLAC – duração da lactação; PL305 – produção total de leite na lactação até 305 dias de lactação; PLD305 – produção média diária de leite até 305 dias de lactação; PG305 – produção total de gordura na lactação até 305 dias de lactação; PP305 – produção total de proteína na lactação até 305 dias de lactação; PEX305 – produção total de extrato seco na lactação até 305 dias de lactação; PLAC305 – produção total de lactose na lactação até 305 dias de lactação; CCS305 – contagem de células somáticas na lactação até 305 dias de lactação

3.2.2. Dados genômicos e controle de qualidade

Um total de 916 cabras e 24 bodes foram genotipados utilizando um painel Axiom_OviCap (Caprine), array customizado da Affimetrix com 62.557 SNPs. O controle de qualidade dos dados genômicos foi realizado utilizando o software PLINK v1.90 (CHANG et

al., 2015) considerando os seguintes critérios de exclusão: SNP não autossômicos, SNP na

mesma posição cromossômica, alelo de menor frequência (MAF) ≤ 0,02, call rate (CR) ≤ 0,95 e marcadores que se desviaram fortemente do equilíbrio de Hardy-Weinberg (p<10−6). Amostras com CR inferior a 0,90 também foram eliminadas da análise. Após o controle de qualidade, o número total de amostras genotipadas e marcadores disponíveis foram de 940 amostras e 46.238 SNP.

Referências

Documentos relacionados

O objetivo deste artigo é justamente abordar uma metodologia alternativa para a elaboração de análises contábeis e financeiras, denominada de balanço perguntado e

A cessação do mandato pela perda de discernimento do mandante e a solução encontrada no ordenamento jurídico para a eficácia do mandato permanente ... Proposta de

4 PLANIFICAÇÃO DA ATENÇÃO À SAÚDE COMO INSTRUMENTO DE EDUCAÇÃO PERMANENTE NO MUNICÍPIO DE ÁGUAS LINDAS Goiás Águas Lindas de Goiás NORDESTE ENTORNO SUL Ana Carolina

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

palpação, a ausência de proeminência de canino por vestibular Com relação ao tratamento autores indicam que antes da exposição cirúrgica seja iniciado o tratamento

LOTEAMENTO VILA OLÍMPIA Cidade: FEIRA DE SANTNA CASA Padrão de construção: NORMAL ALTO. Valor unitário (R$/m²)

A NBC TG - 09 tem por objetivo estabelecer critérios para a elaboração e apresentação da Demonstração do Valor Adicionado. Sua elaboração deve levar em conta a NBC TG

Quando houver alguma irregularidade que não inviabilize o recebimento, a unidade com atribuições de protocolo deverá receber o documento, indicar a irregularidade na