• Nenhum resultado encontrado

Detecção de variações genômicas em bovinos da raça nelore usando dados de genotipagem e ressequenciamento = Detection of genomic variations in nelore-breed cattle using genotyping and resequenced data

N/A
N/A
Protected

Academic year: 2021

Share "Detecção de variações genômicas em bovinos da raça nelore usando dados de genotipagem e ressequenciamento = Detection of genomic variations in nelore-breed cattle using genotyping and resequenced data"

Copied!
107
0
0

Texto

(1)

JOAQUIM MANOEL DA SILVA

DETECÇÃODEVARIAÇÕESGENÔMICASEMBOVINOSDARAÇANELORE USANDODADOSDEGENOTIPAGEMERESSEQUENCIAMENTO

DETECTION OF GENOMIC VARIATIONS IN NELORE-BREED CATTLE USING GENOTYPING AND RESEQUENCING DATA

(2)

UNIVERSIDADE ESTADUAL DE CAMPINAS Instituto de Biologia

JOAQUIM MANOEL DA SILVA

DETECÇÃODEVARIAÇÕESGENÔMICASEMBOVINOSDARAÇANELORE USANDODADOSDEGENOTIPAGEMERESSEQUENCIAMENTO

DETECTION OF GENOMIC VARIATIONS IN NELORE-BREED CATTLE USING GENOTYPING AND RESEQUENCING DATA

Tese apresentada ao instituto de Biologia da Universidade Estadual de Campinas como parte dos requisitos exigidos para obtenção do título de Doutor em Genética e Biologia Molecular na área de Bioinformática

Thesis presented to the Institute of Biology of the University of Campinas in partial fulfillment of the requirements for the degree of Doctor in Genetics and Molecular Biology, in the area of Bioinformatics

Orientador: MICHEL EDUARDO BELEZA YAMAGISHI Coorientador: ALEXANDRE RODRIGUES CAETANO

Este exemplar corresponde à versão final da tese defendida pelo aluno Joaquim Manoel da Silva e orientado pelo Dr. Michel Eduardo Beleza Yamagishi

__________________________________ Michel Eduardo Beleza Yamagishi

(3)
(4)

CAMPINAS,22 DE OUTUBRO DE 2015

BANCA EXAMINADORA

Prof. Dr. Michel Eduardo Beleza Yamagishi (Orientador) __________________________

Dr. Adhemar Zerlotini Neto __________________________

Prof. Dr. Luiz Lehmann Coutinho __________________________

Prof. Dr. Mauricio de Alvarenga Mudadu __________________________

Prof. Dr. Roberto Hiroshi Higa __________________________

Prof. Dr. Fernando Sebastian Baldi Rey __________________________

Prof. Dr. José Andrés Yunes __________________________

Prof. Dra. Paula Regina Kuser Falcão __________________________

Os membros da Comissão Examinadora acima assinaram a Ata de defesa, que se encontra no processo de vida acadêmica do aluno.

(5)

O presente trabalho foi desenvolvido no Laboratório Multiusuário de Bioinformática, da unidade Embrapa Informática Agropecuária da Empresa Brasileira de Pesquisa Agropecuária (Embrapa), Campinas, São Paulo, com apoio financeiro do CNPQ (Processo # 578592/2008-8), Embrapa (Processo # 02.10.06.009.00) e da FAPESP (#2012/05002-9).

(6)

“Investir em conhecimentos rende sempre melhores juros. ” (Benjamin Franklin)

(7)

Dedico esta tese à minha esposa Karina,

(8)

A

GRADECIMENTOS

Foram aproximadamente três anos e meio de muito estudo e debates. Por fim, fica difícil agradecer a todos aqueles que participaram da construção desta tese de forma direta ou indireta. Portanto, irei mencionar alguns nomes e, ao mesmo tempo, estender meus profundos cumprimentos a todas as pessoas que me ajudaram.

Primeiramente, agradeço a Deus por permitir a conclusão de mais uma etapa da minha vida científica e à minha esposa, Karina de Cassia Faria, por me oferecer condições para que eu pudesse estudar e tornar-me doutor. Compartilhamos cada momento de alegria e de angústia nesses últimos anos. Não posso deixar de mencionar meu filho, Thomas Faria da Silva, que sofria com a minha ausência e a cada despedida.

Ao meu orientador e amigo, Michel Eduardo Beleza Yamagishi, que é um grande cientista com ideias fantásticas. Além de ser quem me incentivou à ir para a Unicamp fazer este doutorado. Obrigado pela atenção, paciência ao lidar com os problemas e pelo exemplo de profissionalismo. Não existem palavras suficientes para agradecer a oportunidade e para expressar a minha gratidão.

Ao meu coorientador e amigo, Alexandre Rodrigues Caetano, um excelente pesquisador: obrigado por me apresentar à bovinocultura e pela disponibilidade para nossas conversas para alinhamento da tese e artigos.

Ao meu médico José Eduardo Neves e toda a sua equipe. Graças à sua competência hoje não estou na fila de um transplante de rins.

Aos meus grandes amigos e agregados da república Rasputin pela convivência harmoniosa e intensa. Um agradecimento especial aos meus grandes amigos Danilo, José Henrique, Paulo, Bruno, Finado, Saulo, Bob e Renan: obrigado pela amizade, pela força nas horas difíceis, e pela alegria compartilhada ao ver o desenvolvimento deste trabalho e o seu término.

Aos amigos da EMBRAPA, em especial aqueles que trabalham no Laboratório Multiusuário de Bioinformática (LMB), Poliana, Paula, Adhemar, Chico, Leandro, Felipe, Alan, Fabiana, Giovani, Edmar, Jorge e Eijy, os quais proporcionaram total suporte para o

(9)

desenvolvimento das atividades desta tese (são muitos os nomes, então, considerem-se todos lembrados!).

Sou grato aos amigos do Laboratório de Expressão e Genômica (LGE) pelas breves discussões associadas aos conceitos de genética e genômica.

Agradeço aos amigos do Laboratório Central de Tecnologias de Alto Desempenho em Ciências da Vida (LACTAD), pelas intensas discussões associadas aos conceitos de bioinformática e genômica. Deixo dois grandes amigos neste laboratório. Leandro e Osvaldo, obrigado pelo convívio, pelos ensinamentos e pelas boas conversas que renderam colaborações em dois projetos - recentemente aprovados junto à Fundação de Amparo à Pesquisa do Estado de Mato Grosso (FAPEMAT).

Aos professores da pós-graduação que contribuíram para a minha formação pessoal e acadêmica.

Aos amigos do Instituto de Geologia (IG) por todas as discussões sobre ciência e política.

Ao grande amigo e irmão científico Dr. Roberto Hirochi Herai pela convivência, por todos os ensinamentos e contribuição efetiva na minha formação como doutor.

Aos meus pais, Joel e Marina, e minha irmã Liliane, vocês ajudaram a realizar esse grande sonho.

Ao Conselho Nacional de Desenvolvimento Científico (CNPq) e Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) pela concessão da bolsa de doutorado.

À empresa EMBRAPA Informática Agropecuária pela infraestrutura e suporte financeiro fornecido ao projeto.

À Universidade Estadual de Campinas – Programa de Pós-Graduação em Genética e Biologia Molecular que me acolheu para desenvolver este trabalho.

À Universidade do Estado de Mato Grosso por ter concedido afastamento remunerado para realização do doutorado.

(10)

Aos membros da banca de qualificação, da pré-banca, banca de defesa de tese aos revisores anônimos por terem aceitado participar da avaliação deste trabalho e pelos comentários construtivos.

Aos familiares, amigos e amigas que torcem por mim e que acompanharam toda a luta para a realização deste grande sonho. Um abraço especial aos meus irmãos de coração João Gabriel e Ivor, amigos os quais, sempre compartilho meus sonhos.

(11)

R

ESUMO

Os grandes avanços tecnológicos têm permitido o uso da genotipagem e do ressequenciamento para o estudo de variações genômicas que compreendem polimorfismos de base única (Single Nucleotide Polimorphism - SNP), pequenas inserções ou deleções, variações no número de cópias de alelos no genoma (Copy Number Variation - CNV) e uma gama de variantes estruturais. Esses avanços permitem uma análise completa do genoma com boa resolução e um custo cada vez mais baixo para ambas as tecnologias. O presente trabalho tem como objetivo detectar variações genômicas em bovinos da raça Nelore usando dados de genotipagem e ressequenciamento. Utilizamos dados genotípicos de 1.709 animais machos da raça Nelore genotipados com um chip de alta densidade com 777.962 marcadores SNPs e oito animais fundadores dessa população foram genotipados e ressequenciados com cobertura mínima de 20X. Inicialmente, usamos os Missing Genotypes, marcadores que falham em toda a população, para avaliar se eles contêm informações biológicas relevantes. Investigamos 3.200 SNPs que falharam consistentemente na população. Descobrimos que existe um total de 3.300 novos SNPs em Nelore. A anotação gênica mostrou que 31% desses novos SNPs estão em regiões gênicas e esses genes podem ser de interesse para os programas de melhoramento de gado de acordo com a literatura especializada. Sugerimos que a metodologia dos Missing Genotypes pode ser aplicada em saúde humana como possíveis marcadores para doenças genéticas hereditárias, doenças raras e doenças provenientes de mutações somáticas como o câncer. Além disso, o estudo de CNV (Copy Number Variation) permitiu o desenvolvimento de um novo algoritmo para agrupar CNV provenientes de dados de genotipagem e/ou ressequenciamento em CNV Region (CNVR). O algoritmo foi implementado em um web server Java-Merging Copy Number Variants (JM-CNV). Esse possui interface amigável, é de livre acesso e, parametrizável de modo que outros pesquisadores possam adaptá-lo às suas necessidades. Além disso, o arquivo de saída produzido pode ser facimente carregado no Genome Browser, o que facilita a visualização e o processo de curadoria manual. Comparamos o JM-CNV com outros dois softwares, o HD-CNV e o CNVRuler, com o mesmo propósito descrito acima. O JM-CNV se mostrou mais rápido e mais eficiente em resolver o agrupamento de CNVR em regiões complexas. Para a detecção de CNVs em Nelore usamos o software PennCNV para os dados de genotipagem e o software LUMPY para dados de ressequenciamento. Identificamos 68.007 regiões candidatas à CNVs nos 29

(12)

cromossomos autossomos, as quais foram agrupadas em 7.319 regiões de CNVs (CNVR) pelo JM-CNV. Usando o software LUMPY e os oito animais ressequenciados, detectamos 12.786 CNVs, as quais foram agrupadas em 3.781 regiões de CNVs (CNVR) pelo JM-CNV. Os dados de ressequenciamento nos permitiu validar 909 CNVs detectadas na genotipagem e outras 111 foram confirmadas fazendo uso da literatura, perfazendo um total de 1.020 CNVs validadas, que possuem diversos genes e QTLs anotados. O nosso estudo enriquece o mapa de variações genômicas do genoma bovino, em especial para a raça Nelore e fornece uma série de informações que podem subsidiar futuras pesquisas de associação entre CNVs e caraterísticas de interesse dos programas de melhoramento bovino.

(13)

A

BSTRACT

Major technological advances have allowed for the use of genotyping and resequencing for the study of genomic variations, which include single-nucleotide polymorphisms (SNPs), small insertions or deletions, variations in the number of copies of alleles in the genome (otherwise known as copy number variations, or CNVs), and a range of structural variants. These advances have enabled complete genome analysis with good results at progressively lower costs. The present study seeks to detect genomic variations in Nelore cattle using genotyping and resequencing data. We used genotyping data from 1,709 Nelore bulls genotyped with a high-density chip with 777,962 SNP markers. A set of eight Nelore bulls representing historical sires were genotyped and resequenced with an average depth coverage of 20X. First, we determined whether the missing genotypes, or markers that fail in the entire population, contained relevant biological information. We investigated 3,200 SNPs that failed consistently in the population. We discovered that there are a total of 3,300 new SNPs in Nelore cattle. According to the literature on genomic annotation, 31% of these new SNPs are in genetic regions. These genes may be of interest to cattle improvement programs. We suggest applying the missing genotypes methodology to human health as a way to determine possible markers for rare diseases, hereditary genetic diseases and diseases caused by somatic mutations, such as cancer. The CNV study also enabled the development of a new algorithm for grouping together CNVs from genotyping and/or resequencing data from the CNV region (CNVR). The algorithm was implemented in a Java-Merging Copy Number Variant web server (JM-CNV). It possesses a user-friendly, open source, and configurable interface, meaning other researchers can adapt it to their needs. Its output file can be loaded into Genome Browser. We compared JM-CNV to two other programs — HD-CNV and CNVRuler — with the same objectives. JM-CNV was found to be faster and more efficient in resolving CNVR grouping in complex regions. To detect CNVs in Nelore cattle, we used the PennCNV software for the genotyping data and the LUMPY software for the resequencing data. We identified 68,007 CNV candidate regions in the 29 autosomal chromosomes, which were then grouped into 7,319 CNVRs using JM-CNV. Using the LUMPY software and the eight resequenced animals, we detected 12,786 CNVs, which were then grouped into 3,781 CNVRs using JM-CNV. Using the resequenced data, we were able to confirm 909 CNVs detected in the genotyping data and another 111 using the literature, for a total of 1,020

(14)

confirmed CNVs possessing many different genes and annotated QTLs. This study enriches the map of CNVs within the bovine genome, particularly the Nelore breed, and supplies important information that may support future studies on the association between CNVs and traits of interest in genetic improvement studies on cattle.

(15)

O

RGANIZAÇÃO DA

T

ESE

✓ Introdução

Faz um breve apanhado dos avanços da pesquisa pecuária, com leve ênfase ao melhoramento genético e à genômica de bovinos.

✓ Capítulo 1

O capítulo 1 apresenta o artigo intitulado “Genomic Variants Revealed by Invariably Missing Genotypes in Nelore Cattle”.

Muitos projetos que usam chips de genotipagem, principalmente, aqueles de alta densidade, descartam marcadores devido aos critérios de qualidade pré-definidos. Alguns desses marcadores não produzem genótipo, e são denominados Missing Genotypes. Parte desses Missing Genotypes falham em toda a população, e podem ainda conter informações biologicamente relevantes. Neste artigo, usando dados de genotipagem de mais de 1.700 animais da raça Nelore e dados de ressequenciamento de outros oito, mostramos como utilizar os Missing Genotypes para localizar regiões que podem conter variação genômica.

A ideia principal deste manuscrito é baseada em uma limitação intrínseca do método de genotipagem SNP (Single Nucleotide Polimorphism). Muitos marcadores podem apresentar baixa taxa de leitura devido às variações na sequência das regiões alvo da sonda de hibridização e mesmo em regiões vizinhas a elas; nesses casos, os genótipos falharão consistentemente na população estudada. Esses marcadores são susceptíveis de serem descartados indiscriminadamente em conjunto com outros marcadores que apresentam baixa taxa de leitura por causa de outros fatores. No entanto, quando identificamos os marcadores SNP do chip de genotipagem estreitamente flanqueados por SNPs adicionais podemos usá-los para identificar variações genômicas entre as populações de referência utilizadas na concepção da sonda e em amostras sobre investigação.

O presente estudo investigou 3.200 SNPs que falharam consistentemente na população de 1.709 bovinos da raça Nelore. Descobrimos que existe um total de 3.300 novos SNPs em Nelore. A anotação gênica mostrou que 31% desses novos SNPs estão em regiões gênicas. Em seguida, mostramos que esses genes podem ser de

(16)

interesse para os programas de melhoramento de gado de acordo com a literatura especializada. Finalmente, sugerimos o uso da metodologia empregada na descoberta dos SNPs, que falham em uma determinada população, em saúde humana, como uma forma de descobrir marcadores de doenças genéticas hereditárias (doenças raras) e doenças provenientes de mutações somáticas como o câncer.

Destacam-se as seguintes contribuições:

(i) propomos uma metodologia simples para recuperar informações a partir do Missing Genotypes. Portanto, o que apresentamos é complementar às metodologias que são usadas atualmente, justamente, por aproveitar dados descartados nos controles de qualidade das demais.

(ii) dados de bovinos são usados para a prova de conceito. Regiões que envolvem genes com potencial interesse nos programas de melhoramento genético são encontradas.

(iii) sugerimos estratégias para aplicar diretamente a metodologia em duas áreas importantes em saúde humana na descoberta de fatores relacionados às doenças raras e às mutações somáticas em seres humanos e em animais bovinos e de outras espécies.

✓ Capítulo 2

No capítulo 2, apresentamos o artigo “Java Merging Copy Number Variants (JM-CNV): A New Algorithm for identifying Copy Number Variant Regions (CNVR)”.

Os dados de genotipagem em conjunto com os dados de ressequenciamento possibilitaram o estudo de detecção de variações no número de cópias de alelos no genoma (Copy Number Variation - CNV) de animais da raça Nelore.

Observando a literatura de CNVs sentimos a necessidade de um software que atendesse às seguintes características:

✓ Interface web amigável;

✓ O input do programa pode ser um arquivo default do PennCNV ou um arquivo texto tabular facilmente formatado contendo as CNVs provenientes de dados de genotipagem e/ou ressequenciamento;

(17)

✓ Ser possível parametrizar o programa para que pesquisadores que estudam CNVs em outras espécies também possam adaptá-lo às suas necessidades.

Daí surge o JM-CNV que está livremente disponível para acesso via web.

✓ Capítulo 3

No capítulo 3, apresentamos o artigo “Genome-Wide Copy Number Variation (CNV) Detection in Nelore Cattle Reveals Highly Frequent Variants in Genome Regions Harboring QTLs Affecting Production Traits”.

Este artigo é resultado das análises dos dados de genotipagem usando uma população de 1.717 bovinos da raça Nelore genotipados com o chip Illumina Bovine HD Genotyping Bead Chip contendo 777.692 SNPs. Desses 1.717 animais, oito touros fundadores dessa população foram ressequenciados. O artigo descreve toda metodologia utilizada para detectar as CNVs usando dados de genotipagem e sequenciamento. Além disso, o estudo destaca algumas regiões de interesse para os programas de melhoramento bovino que podem subsidiar futuras pesquisas de associação entre CNVs e características de interesse para esses programas, além de enriquecer com novas CNVs o mapa de variantes estruturais do genoma bovino.

Utilizamos os arquivos de reads paired-end e mapeamos no genoma bovino de referência montagem UMD 3.1, usando o BWA. Usamos o programa LUMPY — que é bastante empregado pela comunidade científica, além de apresentar resultados consistentes segundo a literatura especializada. Outro desafio foi o de integrarmos toda a informação adquirida da genotipagem e sequenciamento. Para isso, desenvolvemos alguns scripts em python e perl.

A integração dos dados geraram onze tabelas que compõem o material suplementar do artigo. Os nossos resultados permitem a comparação de CNVs detectadas por duas plataformas distintas: genotipagem e sequenciamento, enriquecendo o mapa de CNVs para o genoma bovino particularmente para a raça Nelore. Além disso, os resultados sugerem que estudos mais extensivos com raças divergentes e diferentes estruturas populacionais podem auxiliar na detecção de assinaturas de seleção. Nosso estudo também contribui para estudos futuros de associação entre CNVs e características de produção importantes para melhoramento genético em gado.

(18)

Sumário

INTRODUÇÃO ... 21

Contextualização da bovinocultura de corte no Brasil ... 21

Genômica bovina ... 22 REFERÊNCIAS BIBLIOGRÁFICAS ... 26 OBJETIVOS ... 32 Objetivo geral ... 32 Objetivos específicos ... 32 CAPÍTULO I... 33

GENOMIC VARIANTS REVEALED BY INVARIABLY MISSING GENOTYPES IN NELORE CATTLE ... 33

ABSTRACT ... 33

INTRODUCTION ... 34

MATERIALS AND METHODS ... 36

Animals ... 36

SNP Genotyping and Data Analysis ... 37

NGS Data Generation and Analysis ... 37

Probe Sequences and Analysis ... 37

Functional Annotation of SNP-Containing Genes ... 38

RESULTS ... 39

DISCUSSION ... 43

ACKNOWLEDGEMENTS: ... 53

REFERENCES ... 53

SUPPORTING INFORMATION LEGENDS ... 61

CAPÍTULO II ... 62

JAVA-MERGING COPY NUMBER VARIANTS (JM-CNV): A FAST ALGORITHM FOR IDENTIFYING COPY NUMBER VARIABLE REGIONS (CNVR) ... 62

(19)

ABSTRACT ... 62

INTRODUCTION ... 63

MATERIAL AND METHODS ... 64

RESULTS ... 66 CONCLUSIONS ... 70 ACKNOWLEDGEMENT ... 71 FUNDING... 71 REFERENCES ... 71 CAPÍTULO III ... 73

GENOME-WIDE COPY NUMBER VARIATION (CNV) DETECTION IN NELORE CATTLE REVEALS HIGHLY FREQUENT VARIANTS IN GENOME REGIONS HARBORING QTLS AFFECTING PRODUCTION TRAITS. ... 73

ABSTRACT ... 73

BACKGROUND ... 74

RESULTS AND DISCUSSION ... 75

Genome-Wide Discovery and Distribution of CNVs ... 75

CNVR Identification ... 77

CNVs in NGS Data ... 80

CNV and CNVR Independent Validation and Cross-referencing ... 81

CNVRs in Regions Containing QTLs in Cattle ... 84

Gene Ontology and CNVRs... 86

Annotation of Most Frequent CNVRs in Nelore Cattle ... 89

FINAL CONSIDERATIONS ... 91

METHODS ... 92

Genotyping and Resequencing Data ... 92

CNV and CNVR Detection in Genotyping Data ... 92

CNV Detection in NGS Data ... 93

Cross Validation of CNVs ... 93

(20)

REFERENCES ... 94 CONCLUSÕES ... 104 ANEXO ... 106

(21)

I

NTRODUÇÃO

Contextualização da bovinocultura de corte no Brasil

A pecuária bovina brasileira é uma das mais competitivas no mundo. O Brasil tem se consolidado como maior rebanho comercial de bovinos, o segundo maior produtor mundial de carne [1] e o segundo maior consumidor do produto, sendo que mais de 70% — de acordo com o Instituto Brasileiro de Geografia e Estatística (IBGE) — é absorvido pelos consumidores brasileiros [2]. Essa posição de destaque se deve primordialmente à relação de custos de produção e quantidade produzida, sendo que tal uniformidade produtiva pode ser justificada pelos modernos avanços da revolução verde [3-5] e biotecnológica [6] nas últimas décadas.

A revolução verde é denominada como a incorporação do modelo moderno de produção entre as décadas de 1960 e 1970 em países subdesenvolvidos, importando pacotes tecnológicos originários de países desenvolvidos. A consolidação desses pacotes ocorreu na década de 1950 e está fundamentada no uso intensivo de máquinas e insumos, além do desenvolvimento da biologia vegetal e animal. Por outro lado, a revolução biotecnológica ocorre em meados da década de 1990, em todo mundo, devido à participação de empresas privadas na pesquisa e desenvolvimento de produtos patenteáveis como remédios, vacinas, defensivos, adubos, fertilizantes e sementes. O efeito de tais pacotes tecnológicos e de desenvolvimento de pesquisa interna foi o crescimento da oferta de animais entre 1990 e 2009, quando o abate de animais cresceu 60% [7].

O melhoramento animal no Brasil tem seu marco estabelecido na década de 1930 com a introdução dos primeiros animais provenientes da Índia. O gado zebuíno e o seu cruzamento com as raças taurinas originou às raças industriais numa tentativa de obter animais mais adaptados às condições climáticas brasileiras [8]. Tal iniciativa foi apoiada pela Empresa Brasileira de Pesquisa Agropecuária (Embrapa) e pelas universidades federais [9].

O melhoramento genético em bovinos está fundamentado em diversas técnicas biotecnológicas da reprodução [10] que miram o aperfeiçoamento do bovino de corte e leiteiro para fins produtivos. Dentre as principais técnicas podemos destacar a inseminação artificial, a transferência de embriões, a sexagem de embriões com a fertilização in vitro e a

(22)

clonagem de animais pela produção de animais transgênicos [10, 11]. No Brasil, a inseminação artificial teve início em 1964 e, em 2014, foram comercializadas mais de treze milhões de doses de sêmen. O mercado brasileiro tem porporção de 59% para gado de corte e 41% para gado de leite segundo Associação Brasileira de Inseminação Artificial – ASBIA (http://www.asbia.org.br/novo/upload/mercado/index2014.pdf)

O início das pesquisas em genética quantitativa se deu por volta de 1974 e foram implementadas por universidades, instituições de pesquisa e associações de criadores para o melhoramento do rebanho. O objetivo era produzir animais com características comerciais superiores, como por exemplo, com crescimento mais rápido, reprodução precoce e carne de melhor qualidade [12]. Os principais programas de melhoramento genético no Brasil envolvem, principalmente, raças zebuínas, adaptadas às condições locais e esses programas permitem a intensa evolução e competitividade — garantindo constantes melhorias e desenvolvimento de tecnologias direcionadas às raças.

A raça Nelore tem se destacado na bovinocultura de corte brasileira devido à sua rusticidade e adaptabilidade ao sistema de criação no Brasil, predominantemente a pasto e aliado ao aumento de produtividade. A Associação Brasileira dos Criadores de Zebu (ABCZ) estima que o Brasil tenha 200 milhões de cabeças de bovinos, sendo que cerca de 80% têm contribuições de animais zebuínos. A raça com maior número de animais é a Nelore, representado em torno de 80% do rebanho de corte brasileiro entre animais puros e cruzados. Hoje existem cerca de dez programas de melhoramento genético para a raça Nelore no Brasil.

Genômica bovina

As raças bovinas contemporâneas podem ser subdivididas em dois principais grupos genéticos estritamente relacionados ou subespécies, que divergiram há 250 mil anos atrás [13]. As subespécies taurina (Bos taurus) e zebuína (Bos indicus), originalmente derivadas do norte da Europa e do continente indiano [14], respectivamente, apresentam um nível médio de nucleotídeos divergentes de 117.000-275.000 bp [14]. O genoma bovino é constituído de 30 pares de cromossomos homólogos, sendo que destes 29 pares são autossômicos e um par sexual. A genômica bovina avançou nos últimos 20 anos do mapeamento sintênico de genes codificadores de proteínas ao sequenciamento e anotação do genoma de uma vaca da raça Hereford (Bos taurus) (Bovine Genome Sequencing and Analysis Consortium), validação de um conjunto de 35 mil marcadores SNP (Single

(23)

Nucleotide Polymorphism) em várias raças de bovinos do mundo e construção do mapa de haplótipos bovino (Bovine HapMap Consortium 2009). Estas informações serviram de base para estudos em outros bovídeos como cabras, ovelhas e búfalos. Esses animais apresentam genomas altamente conservados em nível citogenético [15].

A partir da sequência referência anotada é possível identificar genes que causam doenças genéticas e que controlam características de interesse econômico. Os resultados das pesquisas têm aplicação direta nos programas de avaliação e melhoramento genético do mundo. Foram identificados por volta de dois milhões de marcadores SNP (Bovine Genome Sequencing and Analysis Consortium 2009, Bovine HapMap Consortium 2009), os quais serviram de base para a construção dos chips de genotipagem disponíveis comercialmente.

Os chips de genotipagem de alta densidade (genotyping panels High Density - HD) têm sido comercializados não apenas para humanos, mas também para diversas espécies de interesse econômico como: bovinos [16], caprinos, ovinos, suínos, caninos, frangos, peixes [17] e várias plantas [18-20]. O chip de genotipagem Illumina Bovine HD SNP BeadChip foi desenvolvido por um consórcio multi-institucional. Neste chip estão incluídos 777.962 SNPs polimórficos identificados, principalmente, a partir da comparação entre sequências de raças provenientes da Europa, da Índia e raças cruzadas [16]. As aplicações dos chips HD de genotipagem são diversas, desde estudos de caso e controle, genética de populações e estudos de análise de associação com cobertura ampla do Genoma “Genome-Wide Association Study” (GWAS) até avaliação genética e seleção genômica assistida por marcadores em programas de melhoramento genético e, mais recentemente, em estudo de variantes estruturais “Copy Number Variation” (CNV) [21].

As variações genômicas compreendem polimorfismos de base única (Single Nucleotide Polymorphism - SNP), pequenas inserções ou deleções, CNVs (Copy Number Variation) e uma gama de variantes estruturais (Figura 1). O espectro de variação genômica atinge desde um nucleotídeo até grande parte de um cromossomo [22]. Os CNVs são fragmentos de DNA, tipicamente maiores que um kilobase (Kb) e menores que cinco megabases (Mb) [23] quando comparados a um genoma de referência e representam um desequilíbrio genômico que altera a ploidia num determinado locus. Estima-se que 68,72% do genoma humano está coberto por esse tipo de variante estrutural (http://dgvbeta.tcag.ca/dgv/app/statistics?ref=GRCh37/hg19). Estudos indicam que os CNVs aparecem preferencialmente em regiões de sequências repetitivas tipo (Low Copy Repeats -

(24)

LCR) e alguns são CNVs comuns que podem ser transmitidos entre gerações [24]. Enquanto outros CNVs podem aparecer de maneira recorrente, os CNVs mais raros podem ser patogênicos [25].

Figura 1: Ilustração das classes de variantes estruturais, as quais, geralmente, se referem às alterações genômicas maiores que 1 Kb de comprimento. O desenho esquemático ilustra deleções, inserções, elementos móveis, duplicação em tandem ou intercaladas, inversões, translocações quando comparada com genoma de referência (retirada de [22]).

As principais plataformas utilizadas para os estudos de CNVs são: o array CGH (Comparative Genomic Hybridization), genotipagem (SNPs arrays) e sequenciamento de DNA. Apesar do crescimento do uso de sequenciamento, a primeira alternativa ainda continua sendo a genotipagem. Quando comparado a outras tecnologias, a genotipagem (SNP - arrays) produz muita informação (milhares de SNPs no chip) com baixo custo proporcionando boa cobertura do genoma. Para a detecção de CNVs usamos a informação do sinal de hibridização da sonda de cada SNP do indivíduo genotipado. O sinal consiste basicamente de duas medidas de intensidade, que são os valores dos alelos A e B, denotados por X e Y, respectivamente. Sob estas medidas calcula-se outros dois valores, o Log R Ratio (LRR=log(X+Y)) e o B Allele Frequency (BAF=Y/(X+Y)). O LRR é uma medida proporcional à intensidade total do sinal de hibridização e, desta forma, está relacionado ao

(25)

número de cópias. Já o valor do BAF trata-se de uma medida relativa à contribuição total do alelo B e dessa forma sensível a composição alélica do genótipo [26].

Os CNVs são fontes de variações genéticas estruturais conhecidas, mas apenas recentemente tiveram sua importância reconhecida, sendo extensivamente estudados em humanos [27-29] além de animais domésticos como cão [30-33], gado [34, 35], galinha [36, 37], porco [38, 39], ovelha [40, 41] e cabra [42], por exemplo. Os estudos de CNVs utilizando dados de genotipagem e resequenciamento em bovinos tornaram possível a criação de um mapa de CNVs para gado [39, 43-47].

A importância dos estudos de CNVs é reconhecida por sua prevalência em saúde humana [27, 48, 49]. Neste caso, aproximadamente metade das CNVs encontradas estão em sobreposição com regiões que codificam proteínas. Essas CNVs estão relacionadas com o ganho ou perda no número de cópias de genes, o que pode alterar o nível de expressão gênica. Um grande número delas está associado direta ou indiretamente a doenças e alterações fenotípicas [50, 51].

O desenvolvimento das novas tecnologias de sequenciamento (Next Generation Sequencing - NGS) foi o que tornou possível o uso do sequenciamento em estudos de CNVs. A vantagem do uso de sequenciamento sobre a genotipagem reside no fato de, não termos regiões pré-definidas. Os reads de NGS são randomicamente amostrados para todo o genoma, com alta cobertura e resolução, promovendo maior acurácia na detecção de CNVs e maior precisão na estimação dos pontos de quebra (breakpoints) [22, 52]. Um grande número de ferramentas para detecção de CNVs está em desenvolvimento para dados de genotipagem [53-56] e sequenciamento [22, 49, 57, 58].

(26)

R

EFERÊNCIAS

B

IBLIOGRÁFICAS

1. Sterman Ferraz JB, de Felicio PE. Production systems - An example from Brazil. Meat Science. 2010;84(2):238-43. doi: 10.1016/j.meatsci.2009.06.006. PubMed PMID: WOS:000272875600003.

2. IBGE - Instituto Brasileiro de Geografia e Estatística 2015. Análise do Consumo

Alimentar Pessoal no Brasil]. Available from:

http://www.ibge.gov.br/home/estatistica/populacao/condicaodevida/pof/2008_2009_analise_c onsumo/defaulttab_zip.shtm.

3. Ruttan VW. Agricultural research policy. Minneapolis: University of Minnesota Press; 1982. xiv, 369 p. p.

4. Ruttan VW. AGRICULTURAL-RESEARCH POLICY ISSUES - MORRISON,B.Y. MEMORIAL LECTURE. Hortscience. 1983;18(6):809-18. PubMed PMID: WOS:A1983SB33900009.

5. Ruttan VW. Agricultural research policy and development. Rome: Food and Agriculture Organization of the United Nations; 1987. 249 p. p.

6. Parayil G. Mapping technological trajectories of the Green Revolution and the Gene Revolution from modernization to globalization. Research Policy. 2003;32(6):971-90. doi: 10.1016/s0048-7333(02)00106-3. PubMed PMID: WOS:000183049000007.

7. Lemos FK. A evolução da bovinocultura de corte brasileira: elementos para a caracterização do papel da Ciência e da tecnologia na sua trajetória de desenvolvimento: Universidade de São Paulo; 2013.

8. Corte ECNdPdGd. Programa Nacional de Pesquisa de Gado de Corte: EMBRAPA-DID; 1981.

9. Lobato JFP, Freitas AK, Devincenzi T, Cardoso LL, Tarouco JU, Vieira RM, et al. Brazilian beef produced on pastures: Sustainable and healthy. Meat Science. 2014;98(3):336-45. doi: 10.1016/j.meatsci.2014.06.022. PubMed PMID: WOS:000341466900004.

10. Rodrigues JL, Rodrigues BdÁ. Evolução da biotecnologia da reprodução no Brasil e seu papel no melhoramento genético. Revista Ceres [Internet]. 2009; 56(4):[9 p.].

11. Melo LM, Teixeira DI, Havt A, da Cunha RM, Martins DB, Castelletti CH, et al. Buck (Capra hircus) genes encode new members of the spermadhesin family. Mol Reprod Dev. 2008;75(1):8-16. doi: 10.1002/mrd.20757. PubMed PMID: 17538948.

(27)

12. O MJ. Estudo setorial de carnes no Brasil. Projeto - Políticas regionais de inovação no MERCOSUL: obstáculos e oportunidades.: IDRC - REDES - CEFIR; 2009.

13. Burt DW. The cattle genome reveals its secrets. J Biol. 2009;8(4):36. doi: 10.1186/jbiol137. PubMed PMID: 19439025; PubMed Central PMCID: PMCPMC2688908. 14. Bradley DG, MacHugh DE, Cunningham P, Loftus RT. Mitochondrial diversity and the origins of African and European cattle. Proceedings of the National Academy of Sciences of the United States of America. 1996;93(10):5131-5. doi: 10.1073/pnas.93.10.5131. PubMed PMID: WOS:A1996UL25500112.

15. Womack JE. The bovine genome. Vertebrate Genomes. 2006;2:69-78. PubMed PMID: CCC:000240522600006.

16. Van Tassell CP, Smith TPL, Matukumalli LK, Taylor JF, Schnabel RD, Lawley CT, et al. SNP discovery and allele frequency estimation by deep sequencing of reduced representation libraries. Nature Methods. 2008;5(3):247-52. doi: 10.1038/nmeth.1185. PubMed PMID: WOS:000253777900018.

17. Johnston SE, Lindqvist M, Niemela E, Orell P, Erkinaro J, Kent MP, et al. Fish scales and SNP chips: SNP genotyping and allele frequency estimation in individual and pooled DNA from historical samples of Atlantic salmon (Salmo salar). Bmc Genomics. 2013;14. doi: 10.1186/1471-2164-14-439. PubMed PMID: WOS:000321860000001.

18. Parida SK, Mukerji M, Singh AK, Singh NK, Mohapatra T. SNPs in stress-responsive rice genes: validation, genotyping, functional relevance and population structure. Bmc Genomics. 2012;13. doi: 10.1186/1471-2164-13-426. PubMed PMID: WOS:000315031500001.

19. Song Q, Hyten DL, Jia G, Quigley CV, Fickus EW, Nelson RL, et al. Development and Evaluation of SoySNP50K, a High-Density Genotyping Array for Soybean. Plos One. 2013;8(1). doi: 10.1371/journal.pone.0054985. PubMed PMID: WOS:000315210400050. 20. van Poecke RMP, Maccaferri M, Tang J, Truong HT, Janssen A, van Orsouw NJ, et al. Sequence-based SNP genotyping in durum wheat. Plant Biotechnology Journal. 2013;11(7):809-17. doi: 10.1111/pbi.12072. PubMed PMID: WOS:000323253900005.

21. Redon R, Ishikawa S, Fitch KR, Feuk L, Perry GH, Andrews TD, et al. Global variation in copy number in the human genome. Nature. 2006;444(7118):444-54. doi: 10.1038/nature05329. PubMed PMID: WOS:000242215700038.

22. Alkan C, Coe BP, Eichler EE. APPLICATIONS OF NEXT-GENERATION SEQUENCING Genome structural variation discovery and genotyping. Nature Reviews

(28)

Genetics. 2011;12(5):363-75. doi: 10.1038/nrg2958. PubMed PMID: WOS:000289637600014.

23. Freeman JL, Perry GH, Feuk L, Redon R, McCarroll SA, Altshuler DM, et al. Copy number variation: New insights in genome diversity. Genome Research. 2006;16(8):949-61. doi: 10.1101/gr.3677206. PubMed PMID: WOS:000239441400001.

24. JIN C. Genética molecular da Perturbações do Espectro do Autismo Análise de variantes estruturais. 2012.

25. Stankiewicz P, Lupski JR. Structural Variation in the Human Genome and its Role in Disease. Annual Review of Medicine. 2010;61:437-55. doi: 10.1146/annurev-med-100708-204735. PubMed PMID: WOS:000274857600029.

26. Yau C, Holmes CC. CNV discovery using SNP genotyping arrays. Cytogenetic and Genome Research. 2008;123(1-4):307-12. doi: 10.1159/000184722. PubMed PMID: WOS:000264868300037.

27. Sebat J, Lakshmi B, Troge J, Alexander J, Young J, Lundin P, et al. Large-scale copy number polymorphism in the human genome. Science. 2004;305(5683):525-8. doi: 10.1126/science.1098918. PubMed PMID: WOS:000222828900042.

28. Conrad DF, Pinto D, Redon R, Feuk L, Gokcumen O, Zhang Y, et al. Origins and functional impact of copy number variation in the human genome. Nature. 2010;464(7289):704-12. doi: 10.1038/nature08516. PubMed PMID: WOS:000276205000035.

29. Ouyang L, Lee J, Park C-K, Mao M, Shi Y, Gong Z, et al. Whole-genome sequencing of matched primary and metastatic hepatocellular carcinomas. Bmc Medical Genomics. 2014;7. doi: 10.1186/1755-8794-7-2. PubMed PMID: WOS:000331817800001.

30. Chen W-K, Swartz JD, Rush LJ, Alvarez CE. Mapping DNA structural variation in dogs (vol 19, pg 500, 2009). Genome Research. 2009;19(4):690-. PubMed PMID: WOS:000264781900019.

31. Chen W-K, Swartz JD, Rush LJ, Alvarez CE. Mapping DNA structural variation in dogs. Genome Research. 2009;19(3):500-9. doi: 10.1101/gr.083741.108. PubMed PMID: WOS:000263847500015.

32. Nicholas TJ, Cheng Z, Ventura M, Mealey K, Eichler EE, Akey JM. The genomic architecture of segmental duplications and associated copy number variants in dogs. Genome Research. 2009;19(3):491-9. doi: 10.1101/gr.084715.108. PubMed PMID: WOS:000263847500014.

(29)

33. Nicholas TJ, Baker C, Eichler EE, Akey JM. A high-resolution integrated map of copy number polymorphisms within and between breeds of the modern domesticated dog. Bmc Genomics. 2011;12. doi: 10.1186/1471-2164-12-414. PubMed PMID: WOS:000294484200001.

34. Liu GE, Hou Y, Zhu B, Cardone MF, Jiang L, Cellamare A, et al. Analysis of copy number variations among diverse cattle breeds. Genome Research. 2010;20(5):693-703. doi: 10.1101/gr.105403.110. PubMed PMID: WOS:000277244800015.

35. Liu GE, Van Tassell CP, Sonstegard TS, Li RW, Alexander LJ, Keele JW, et al. Detection of Germline and Somatic Copy Number Variations in Cattle. Animal Genomics for Animal Health. 2008;132:231-7. PubMed PMID: WOS:000264184200027.

36. Volker M, Backstrom N, Skinner BM, Langley EJ, Bunzey SK, Ellegren H, et al. Copy number variation, chromosome rearrangement, and their association with recombination during avian evolution. Genome Research. 2010;20(4):503-11. doi: 10.1101/gr.103663.109. PubMed PMID: WOS:000276236100011.

37. Wang X, Nahashon S, Feaster TK, Bohannon-Stewart A, Adefope N. An initial map of chromosomal segmental copy number variations in the chicken. Bmc Genomics. 2010;11. doi: 10.1186/1471-2164-11-351. PubMed PMID: WOS:000279868100002.

38. Fadista J, Nygaard M, Holm L-E, Thomsen B, Bendixen C. A Snapshot of CNVs in the Pig Genome. Plos One. 2008;3(12). doi: 10.1371/journal.pone.0003916. PubMed PMID: WOS:000265458400002.

39. Ramayo-Caldas Y, Castello A, Pena RN, Alves E, Mercade A, Souza CA, et al. Copy number variation in the porcine genome inferred from a 60 k SNP BeadChip. Bmc Genomics. 2010;11. doi: 10.1186/1471-2164-11-593. PubMed PMID: WOS:000284172500001.

40. Fontanesi L, Beretti F, Martelli PL, Colombo M, Dall'Olio S, Occidente M, et al. A first comparative map of copy number variations in the sheep genome. Genomics. 2011;97(3):158-65. doi: 10.1016/j.ygeno.2010.11.005. PubMed PMID: WOS:000288147500003.

41. Liu J, Zhang L, Xu L, Ren H, Lu J, Zhang X, et al. Analysis of copy number variations in the sheep genome using 50K SNP BeadChip array. Bmc Genomics. 2013;14. doi: 10.1186/1471-2164-14-229. PubMed PMID: WOS:000317415600001.

42. Fontanesi L, Martelli PL, Beretti F, Riggio V, Dall'Olio S, Colombo M, et al. An initial comparative map of copy number variations in the goat (Capra hircus) genome. Bmc Genomics. 2010;11. doi: 10.1186/1471-2164-11-639. PubMed PMID: WOS:000285049300001.

(30)

43. Seroussi E, Glick G, Shirak A, Yakobson E, Weller JI, Ezra E, et al. Analysis of copy loss and gain variations in Holstein cattle autosomes using BeadChip SNPs. Bmc Genomics. 2010;11. doi: 10.1186/1471-2164-11-673. PubMed PMID: WOS:000285512300001.

44. Bickhart DM, Hou Y, Schroeder SG, Alkan C, Cardone MF, Matukumalli LK, et al. Copy number variation of individual cattle genomes using next-generation sequencing. Genome Research. 2012;22(4):778-90. doi: 10.1101/gr.133967.111. PubMed PMID: WOS:000302203800018.

45. Choi J-W, Lee K-T, Liao X, Stothard P, An H-S, Ahn S, et al. Genome-wide copy number variation in Hanwoo, Black Angus, and Holstein cattle. Mammalian Genome. 2013;24(3-4):151-63. doi: 10.1007/s00335-013-9449-z. PubMed PMID: WOS:000317847900008.

46. Jiang L, Jiang J, Yang J, Liu X, Wang J, Wang H, et al. Genome-wide detection of copy number variations using high-density SNP genotyping platforms in Holsteins. Bmc Genomics. 2013;14. doi: 10.1186/1471-2164-14-131. PubMed PMID: WOS:000318516500001.

47. Jiang L, Jiang J, Wang J, Ding X, Liu J, Zhang Q. Genome-Wide Identification of Copy Number Variations in Chinese Holstein. Plos One. 2012;7(11). doi: 10.1371/journal.pone.0048732. PubMed PMID: WOS:000311935800115.

48. Altshuler D, Durbin RM, Abecasis GR, Bentley DR, Chakravarti A, Clark AG, et al. A map of human genome variation from population-scale sequencing. Nature. 2010;467(7319):1061-73. doi: 10.1038/nature09534. PubMed PMID: WOS:000283548600039.

49. Mills RE, Walter K, Stewart C, Handsaker RE, Chen K, Alkan C, et al. Mapping copy number variation by population-scale genome sequencing. Nature. 2011;470(7332):59-65. doi: 10.1038/nature09708. PubMed PMID: WOS:000286886400033.

50. Beckmann JS, Estivill X, Antonarakis SE. Copy number variants and genetic traits: closer to the resolution of phenotypic to genotypic variability. Nature Reviews Genetics. 2007;8(8):639-46. doi: 10.1038/nrg2149. PubMed PMID: WOS:000248170700018.

51. Beroukhim R, Mermel CH, Porter D, Wei G, Raychaudhuri S, Donovan J, et al. The landscape of somatic copy-number alteration across human cancers. Nature. 2010;463(7283):899-905. doi: 10.1038/nature08822. PubMed PMID: WOS:000274582700036.

(31)

52. Meyerson M, Gabriel S, Getz G. Advances in understanding cancer genomes through second-generation sequencing. Nature Reviews Genetics. 2010;11(10):685-96. doi: 10.1038/nrg2841. PubMed PMID: WOS:000281911300009.

53. Wang K, Li M, Hadley D, Liu R, Glessner J, Grant SFA, et al. PennCNV: An integrated hidden Markov model designed for high-resolution copy number variation detection in whole-genome SNP genotyping data. Genome Research. 2007;17(11):1665-74. doi: 10.1101/gr.6861907. PubMed PMID: WOS:000250641700013.

54. Korn JM, Kuruvilla FG, McCarroll SA, Wysoker A, Nemesh J, Cawley S, et al. Integrated genotype calling and association analysis of SNPs, common copy number polymorphisms and rare CNVs. Nature Genetics. 2008;40(10):1253-60. doi: 10.1038/ng.237. PubMed PMID: WOS:000259651000028.

55. Zoellner S, Su G, Stewart WCL, Chen Y, McInnis MG, Burmeister M. Bayesian EM Algorithm for Scoring Polymorphic Deletions From SNP Data and Application to a Common CNV on 8q24. Genetic Epidemiology. 2009;33(4):357-68. doi: 10.1002/gepi.20391. PubMed PMID: WOS:000265724900009.

56. Diskin SJ, Hou C, Glessner JT, Attiyeh EF, Laudenslager M, Bosse K, et al. Copy number variation at 1q21.1 associated with neuroblastoma. Nature. 2009;459(7249):987-U112. doi: 10.1038/nature08035. PubMed PMID: WOS:000267063500043.

57. Zhao M, Wang QG, Wang Q, Jia PL, Zhao ZM. Computational tools for copy number variation (CNV) detection using next-generation sequencing data: features and perspectives. Bmc Bioinformatics. 2013;14. doi: 10.1186/1471-2105-14-s11-s1. PubMed PMID: WOS:000326744900001.

58. Hach F, Hormozdiari F, Alkan C, Hormozdiari F, Birol I, Eichler EE, et al. mrsFAST: a cache-oblivious algorithm for short-read mapping. Nature Methods. 2010;7(8):576-7. doi: 10.1038/nmeth0810-576. PubMed PMID: WOS:000280500000015.

(32)

O

BJETIVOS

Objetivo geral

Detectar variações genômicas em bovinos da raça Nelore usando dados de genotipagem e ressequenciamento, identificando regiões genômicas de interesse para programas de melhoramento genético.

Objetivos específicos

 Identificação de variações no genoma de bovinos da raça Nelore em relação ao taurus;

Desenvolver um algoritmo para identificação de Copy Number Variant Region (CNVR) que resolva melhor as regiões complexas de CNVs;

Detectar com amplitude e profundidade Copy Number Variants (CNVs) em bovinos da raça Nelore enriquecendo o mapa de CNVs para esta raça.

(33)

C

APÍTULO

I

Genomic Variants Revealed by Invariably

Missing Genotypes in Nelore Cattle

Joaquim Manoel da Silva1,2, Poliana Fernanda Giachetto3, Luiz Otávio Campos da Silva4, Leandro Carrijo Cintra3, Samuel Rezende Paiva5, Alexandre Rodrigues Caetano6, Michel Eduardo Beleza Yamagishi3

1 Faculdade de Ciências Agrárias, Biológicas e Sociais Aplicadas, Universidade do Estado de Mato Grosso (UNEMAT), Nova Xavantina, Mato Grosso, Brazil, 2 Programa de

Pós-Graduação em Genética e Biologia Molecular–Instituto de Biologia, Universidade Estadual de Campinas (UNICAMP), Campinas, São Paulo, Brazil, 3 Laboratório Multiusuário de Bioinformática (LMB)—Embrapa Informática Agropecuária, Campinas, São Paulo, Brazil, 4 Embrapa Gado de Corte, Campo Grande, Mato Grosso do Sul, Brazil, 5 Embrapa– Secretaria de Relações Internacionais, Brasília, Distrito Federal, Brazil, 6 Embrapa Recursos Genéticos e Biotecnologia, Brasília, Distrito Federal, Brazil

Abstract

High density genotyping panels have been used in a wide range of applications. From population genetics to genome-wide association studies, this technology still offers the lowest cost and the most consistent solution for generating SNP data. However, in spite of the application, part of the generated data is always discarded from final datasets based on quality control criteria used to remove unreliable markers. Some discarded data consists of markers that failed to generate genotypes, labeled as missing genotypes. A subset of missing genotypes that occur in the whole population under study may be caused by technical issues but can also be explained by the presence of genomic variations that are in the vicinity of the assayed SNP and that prevent genotyping probes from annealing. The latter case may contain

(34)

relevant information because these missing genotypes might be used to identify population-specific genomic variants. In order to assess which case is more prevalent, we used Illumina HD Bovine chip genotypes from 1,709 Nelore (Bos indicus) samples. We found 3,200 missing genotypes among the whole population. NGS re-sequencing data from 8 sires were used to verify the presence of genomic variations within their flanking regions in 81.56% of these missing genotypes. Furthermore, we discovered 3,300 novel SNPs/Indels, 31% of which are located in genes that may affect traits of importance for the genetic improvement of cattle production.

Introduction

Despite the strong lasting trend of decreasing costs associated with DNA sequencing caused by the continuing development of Next Generation Sequencing (NGS) technologies, SNP genotyping with DNA chips still offers the lowest cost and the most consistent solution for generating highly repeatable High-Density (HD) SNP data[1]. HD SNP genotyping panels have been made commercially available for humans and model species, as well as several agriculturally important species, such as cow [2], buffalo, goat, sheep, pig, chicken, trout [3], wheat [4], rice [5], and soybean [6], just to name a few. HD SNP data has been used in a wide range of applications, including population genetics, case-control and genome-wide association studies (GWAS), genomic evaluation and selection, and more recently copy number variation (CNV) studies [7].

In spite of the application, a portion of SNP genotyping data is always discarded from final datasets based on quality control criteria used to remove unreliable markers. A myriad of biological and technical issues can result in marker failure and low repeatability. As expected, genotyping probes cannot consistently anneal in the presence of any genomic variations (SNPs, deletions, insertions, etc) within target sequences and fail to produce accurate genotypes, or in some cases continually generate no genotypes at all, the so-called missing genotypes. Nevertheless, a recent study [8] has indicated that this issue may be more complex than previously thought because genomic variations outside target regions can prevent probes from properly annealing and performing their function as well. Thus, any

(35)

genomic variation within flanking regions, even those outside probe target sequences, might hamper accurate genotyping.

The extent of the aforementioned issues is highly dependent on the divergence between populations used for probe design and the population under study. When samples are derived from the same populations used for generating sequences for probe design, this may not be an issue at all, since the odds of novel unobserved genomic variants within the same population are small. However, the usefulness of HD SNP panels relies on their ability to work on samples from diverse populations, and in these cases the aforementioned technical limitations may produce corresponding genotypes that are consistently missing in either a proportion of samples or even within the entire dataset. Most data quality control procedures routinely and indistinctly discard markers that never generate genotyping data in a specific population or breed in the same manner as other markers that produce varying low call rates. While the latter ought to be discarded because they do not contain useful or reliable information, the former should be further investigated as they might reveal population-specific genomic variant regions, where genetic divergence between populations is higher as consequence of their evolutionary past.

Contemporary bovine breeds can be subdivided into two closely related genetic groups or subspecies, which diverged 250,000 years ago [9]. Taurine (Bos taurus) cattle and zebuine (Bos indicus) cattle, were originally derived from northern Europe and the Indian continent, respectively [10], and show an average nucleotide divergence level of 117,000-275,000 B.P. [10]. The Illumina Bovine HD SNP chip was built by a multi-institutional consortium and contains a total of 777,962 polymorphic SNPs identified mostly from within-breed sequence comparisons, including data derived from taurine, zebuine and composite breeds [2]. Illumina acknowledges that sequence divergence in regions flanking assayed SNPs may potentially result in probes which are not fully compatible across all breeds, and that consequently yield lower average call rates in specific breeds when compared to most of the loci in the panel (Illumina BovineHD Genotyping BeadChip Data Sheet - http://res.illumina.com/documents/products/brochures/brochure_agriculture.pdf).

Furthermore, they report that 29,968 SNPs (3.85%) which appear to be flanked by sequence polymorphisms because of breed-specific lower call rates, were retained in the HD panel because they may provide biologically relevant information (Illumina BovineHD Genotyping BeadChip Data Sheet).

(36)

An initial analysis of a dataset with genotyping data from 1,709 Nelore (zebuine) animals revealed a number of consistently missing genotypes. Do these failed SNPs observed in the Nelore breed actually reveal genomic variant? Do those hypothetical genomic variants occur within biologically relevant loci? To answer these questions, re-sequencing data from historical bulls from the breed, and automated and manual annotation of identified regions were performed.

Genotyping data from a total of 1,709 Nelore animals and re-sequenced NGS data from 8 historical sires were used to identify a total of 3,200 SNPs that consistently failed to generate genotyping data in the Nelore breed (a specific group of SNPs that will be henceforth termed SFNBs – SNPs Failed in Nelore Breed). Further investigation has shown that, within the flanking regions of these 3,200 SFNBs, there were 3,300 novel SNPs/Indels, from which 31% are located on regions containing genes. In the following sections, we present results confirming that SFNBs actually reveal divergent genomic variants between the Bos taurus and Bos indicus subspecies, and that these genomic variants observed in Nelore cattle (GVON)s can be found within genes that may affect production traits of importance for genetic improvement in cattle.

Materials and Methods

Animals

Specific approval from an Animal Care and Use Committee was not obtained for this study because samples had been previously collected as part of a commercial testing operation and no new animals had to be handled. The experiment was performed on genotyping data generated from DNA samples that had been previously collected. DNA was extracted from semen samples obtained from commercial companies from bulls that are in the market, and from hair and venous blood samples obtained from animals in commercial farms, as part of routine animal handling and testing procedures. Tissues were processed with standard commercial kits. The report is not intended to be a field study and none of the authors were involved in sample collection.

(37)

SNP Genotyping and Data Analysis

A total of 1,709 Nelore samples were genotyped with the Illumina Bovine HD Genotyping BeadChip in a commercial service lab. Genotyping failure frequency was estimated for all SNP markers. Markers that failed to generate genotyping calls in all tested samples were identified and submitted to further analysis.

NGS Data Generation and Analysis

A set of eight bulls representing historical sires in the Nelore breed were re-sequenced using Illumina HiSeq2000 100-bp paired-end reads, with an average depth coverage of >20X. Paired-end reads were mapped onto the UMD 3.1 reference bovine genome [11] through the use of Bowtie with MAQ-like alignment policy [12]. Alignment files were sorted and indexed using Samtools [13]. SNP and INDEL call procedures for each one of the 8 alignment files were performed using samtools mpileup and bcftools. No distinction was made between variations observed within Nelore sequences and between the taurine reference sequence and Nelore WGS.

Genomic variations observed within 100bp upstream and downstream (accession number at SRA: SRX973260, SRX973301, SRX973316, SRX973317, SRX973318, SRX973320, SRX973322, SRX973378) from SFNBs were identified and annotated with the Variant Effect Predictor (VEP) from Ensembl [14]. The Integrative Genomic Viewer (IGV – version 2.0.30) developed by the Broad Institute [15] was used to visualize alignment files. Distance estimates between the SNP assayed in the HD panel and the nearest observed Nelore-specific variant were calculated.

Probe Sequences and Analysis

The complete set of the Illumina BovineHD 50bp probe sequences was downloaded from the manufacturer’s website. Each one of the 50bp probe sequences was

(38)

blasted against the UMD3.1 reference bovine genome. This procedure was necessary for the acquisition of both the probes’ genomic start and end positions and their strand orientation. A C++ program was developed to integrate all the aforementioned information and to classify observed genomic variations according to their position in relation to each SFNB: 50bp Illumina probe target sequence (P1), 50bp adjacent to P1 on the distal side of the assayed SNP, and the symmetrical regions to P1 (S1) and P2 (S2) (see Fig 1).

Fig 1. Regions defined for obtaining estimates of genomic variation. P1 represents the 50bp Illumina probe target sequence. P2 corresponds to the 50bp adjacent to P1 on the distal side of the assayed SNP. S1 and S2 are symmetrical to P1 and P2, respectively.

Functional Annotation of SNP-Containing Genes

Fasta sequences of genes containing at least one identified SFNB were imported into Blast2GO [16] (http://www.blast2go.de/) for automated functional annotation. The dataset was blasted against NCBI nr database with default parameters (with an e-value threshold of 1e-03 and an HSP length cut-off of 100) using blastx. Mapping of sequences to GO terms and GO term assignments were performed using default parameters (an e-value hit filter of 1e-06, annotation cut-off of 55 and a GO weight of 5). Annotations were further augmented using the Annex function of the GO Annotation Toolbox [17]. InterProScan terms were obtained [18]and Kegg pathway maps (http://www.genome.jp/kegg/pathway.html) were downloaded for all enzyme codes. The same procedure was adopted for the automatic functional annotation of genes with identified synonymous substitutions in flanking regions of assayed SNPs.

(39)

Results

A total of 3,200 SFNBs were identified in all of the 1,709 Nelore samples evaluated (Fig 2). The number of SNPs observed to be missing in only part of the genotyped samples was minimal. The number of observed SFNBs was not found to be evenly distributed across chromosomes (Fig 3), and the correlation with chromosome size was estimated to be 0.58. Mean concordance observed between genotype calls obtained from the Bovine HD BeadChip and WGS data from eight animals was 99.5%.

Fig 2. Frequency of missing genotypes in Nelore cattle in a total of 1,709 samples tested with the Illumina Bovine HD.

(40)

Fig 3. Distribution of SFNBs across bovine chromosomes.

Fig 4 summarizes the functional analysis performed with 3,183 SFNBs (17 SFNBs are located on mtDNA, Y-specific regions or unmapped chromosomes and were not considered in the subsequent analyses - see S1 Table). The analysis revealed that 2,068 SNPs (64.97%) are located within intergenic regions (Fig 4) while 1,113 SNPs are located in intragenic regions: 751 SNPs (23.59%) are located within introns, 167 (5.25%) are upstream and 140 (4.4%) are downstream of assayed SNPs, 21 (0.66%) are non-synonymous variants, 20 (0.63%) are synonymous variants, 9 (0.28%) are located on 3’ UTR regions, 3 (0.09%) are located on 5’ UTR regions, 2 (0.06%) result in stop loss variants and 2 (0.06%) were found to be located on non-coding transcripts.

(41)

Fig 4. Functional characterization of 3,183 SNP markers derived from the Illumina Bovine HD panel that consistently generated missing genotypes in the Nelore breed (SFNBs).

The SNP call procedure on flanking regions around assayed SNPs (Fig 1) revealed 8,840 SNPs/INDELs, 3,300 of which are novel (see S2 Table). A total of 8,737 SNPs were annotated with VEP. A total of 2,807 (32.12%) SNPs were found within intragenic sequences. From these, 1,974 SNPs are located on introns, 424 and 335 SNPs are up and downstream from coding sequences, respectively, and 74 SNPs are located on exons (Fig 5). A total of 14 SNPs were observed within 3’UTRs and 6 SNPs within 5’UTR. Twenty-one synonymous substitutions and 32 non-synonymous substitutions were observed in 20 different genes (Fig 5).

Fig 5. Functional characterization of 8,837 SNPs and INDELs identified within 100bp regions flanking SNPs assayed in the HD panel.

Fig 6 shows the number of non-redundant SFNBs across the P1, S1, P2, and S2 regions (see S1 Table). Novel SNPs/INDELs were observed in the vicinity of 2,610 SFNBs (81.56%). Further classification of these SNPs revealed that at least one novel SNP was

(42)

observed in the P1 region of 1,221 assayed SNPs, while 1,442, 1,373 and 1,441 SNPs were observed in the S1, P2, and P3 regions, respectively. Variants were observed within all four regions in 240 assayed SNPs.

Distance estimates between assayed SNPs and the nearest novel Nelore SNP/INDEL observed in the resequencing data are shown in Fig 7. Variants were observed within 50bp and 100bp of the HD Illumina assayed SNP in a total of 7.68% and 21.32% , respectively.

Fig 6. Number of non-redundant SFNBs in regions flanking SNPs assayed in the Illumina Bovine HD panel (see S1 Table).

(43)

Fig 7. Mean frequency and standard deviation of the nearest Nelore SNPs within 50bp and 100bp size bins.

Discussion

The distribution of the HD Illumina SNPs within bovine chromosomes is proportional to chromosome size. If the chromosomal distribution of the SFNBs were random, we would expect that larger chromosomes would contain higher numbers of SFNBs, but that was not observed (Fig 3). In fact, BTA5 was found to have the highest number of SFNBs (n=194), followed by BTA15 (n=163), BTA7 (n=153), BTA4 (n=152), BTA12 (n=151), and BTA3 (n=150). In a recent study in which the same HD genotyping chip was used to search for divergent regions between zebuine and taurine cattle [19], the authors reported large regions comprised of millions of base pairs, on BTA 3, 4, 5, 7, and 12. The divergent regions were ranked in the top 1% for values of loci under positive selection. Even though BTA1 represents the largest chromosome in the bovine genome, it is absent from both lists. BTA15 was identified in our list but not in the previous study. The described methodology only included SNPs with more than 95% successful genotypes, and therefore we are led to conclude that all SFNBs were discarded from this study [19]. Additional genomic regions divergent between taurine and zebuine cattle have also been reported on BTA 3, 4, 5,

(44)

7, 12, and 15 [20]. Even though three distinct strategies were used in [19], [20] and the present report, the same chromosomes were identified to contain divergent regions between taurine and zebuine cattle, reinforcing that complementary results can be obtained with different methods. The use of missing genotypes in our analysis captured fine-grained information overlooked by traditional selection signature methods.

SFNBs could result from hybridization problems caused by technical issues on the chip and/or genotyping probes, rather than the presence of genomic variations within flanking regions. In these cases specific markers should always fail, in whichever breed or population tested. To test this possibility, we used HD Illumina genotypes from 52 animals (http://www.animalgenome.org/repository/cattle/Illinoi_Beever_Project.2012/) from different cattle breeds (Angus, Simmental and crossbreds) and confirmed that 3,019 out of the 3,200 SFNBs worked in most samples tested (see S3 Table). Moreover, this confounding factor was minimized even more in the current study by using NGS re-sequencing data to identify sequence variations within the vicinity of each selected locus that could explain the hybridization failure. At least one GVON was observed within 100bp in 81.56% of SFNBs, which could directly or indirectly [8] affect binding of genotyping probes. NGS resequencing data revealed GVONs 100bp up or downstream in only 21.32% of the Illumina Bovine HD SNPs. Therefore, the probability of observing a variant in the Nelore breed within an SFNB is almost four times higher than that of any other SNP in the Illumina HD panel. The odds are higher still when the region is reduced to less than 50bp. GVONs were observed within 62,53% of the 3,200 SFNBs when the P1 and S1 regions were considered. Furthermore, GVONs were observed within 50bp of the assayed SNPs in the Illumina HD panel in only 7.68% of cases. Therefore, it can be concluded that the presence of a GVON within 50bp of a SNP in the Illumina HD panel is eight times more likely to occur when we consider one of the 3,200 SFNBs. Thus, SFNBs can be considered good indicators of genomic regions containing variants between Bos taurus and Bos indicus subspecies. Genotyping failure in 18.44% of SFNBs could not be explained by SNP or INDEL variants within 100bp up or downstream of the respective SNP´s. Genotyping failure was also observed in other tested breeds (S3 Table) in a total of 59 of these SNPs, suggesting technical issues in probe manufacturing may be the cause for observed missing genotypes. The remaining 531 SFNBs may have been caused by other types of genomic variations further away from assayed SNPs which could not be elucidated with the analyzed data.

(45)

GO annotation of SFNB-containing genes revealed several categories, including biological regulation, response to stimuli, signaling, immune system processes, growth, and reproduction (Fig 8). Genes involved in these biological processes are responsible for phenotypic differences that have already been described between taurine and zebuine cattle and which are target traits in breeding programs, such as reproductive function (age of puberty, estrous cycle patterns and behavior, ovulatory capacity, reproductive hormone levels, mean number of preantral follicles) [21], resistance to endo- and ecto-parasites [22], response to heat-stress [23], susceptibility to bovine spongiform encephalopathy [24], and growth, carcass, and meat quality traits [25]. Among the SFNB-containing genes found (S2 Table), some noteworthy genes include PPARG (peroxisome proliferator-activated receptor gamma), which is the main regulator of adipogenesis and which is involved in intramuscular fat deposition (marbling) [26-30] and has been associated with age of puberty [31] in cattle. The genes found also included CAST genes (calpastatins) and calpain (CAPN) inhibitors, which are both accountable for post-mortem muscle fiber proteolysis and associated with shear force and tenderness in the skeletal muscles [32, 33].

Referências

Documentos relacionados

A construção inicial desta pesquisa apresentou um aspecto marcante, três mestrandos de áreas de conhecimento diferentes (educação física, filosofia,

A busca de uma autonomia no mundo das produções artísticas é um longo caminho construído historicamente: a edificação de um espaço próprio para a arte, galgado

pública do desporto e a gestão e funcionamento das instalações desportivas, na. normativa nacional e

Abstract – The objective of this work was to estimate the allelic and genotypic frequencies of CAST / Xmn I, a calpastatin gene polymorphism, and CAPN530, a calpain 1 large

The genetic variability for growth traits and population structure of Nelore cattle in Northern Brazil indicates that this population has potential for genetic gain by

This study estimated genetic and phenotypic parameters and genetic trends for reproductive traits used in breeding programs for Nelore beef cattle.. The (co)variance components

The objective of this study was to estimate (co)variance components and genetic parameters for weights (W) and scrotal circumferences (SC) at 365 and 450 days of age, of Nelore

Clinicamente, podem ocorrer várias com- plicações decorrentes da existência de dentes fusionados, como: a impactação de dentes; a ocorrência de diastemas, quando a fusão inclui