• Nenhum resultado encontrado

UNIVERSIDADE FEDERAL DE PELOTAS

N/A
N/A
Protected

Academic year: 2021

Share "UNIVERSIDADE FEDERAL DE PELOTAS"

Copied!
82
0
0

Texto

(1)

Programa de Pós-Graduação em Agronomia

Tese

Desenvolvimento de ferramentas de bioinformática

para montagem e prospecção de genomas selvagens

visando o melhoramento de arroz

Daniel da Rosa Farias

(2)

Desenvolvimento de ferramentas de bioinformática

para montagem e prospecção de genomas selvagens

visando o melhoramento de arroz

Orientador: Antônio Costa de Oliveira1 Co-Orientadores: Luciano Carlos da Maia2 Olivier Panaud3

1

Engenheiro Agrônomo, PhD em Genética, Professor Associado da Faculdade de Agronomia Eliseu Maciel da Universidade Federal de Pelotas.

2

Engenheiro Agrônomo, Doutor em Agronomia, Professor Adjunto da Faculdade de Agronomia Eliseu Maciel da Universidade Federal de Pelotas.

3

Professor do Laboratoire Genome et Developpement des Plants, Université de Perpignan Via Domitia, França.

Pelotas, 2013

Tese apresentada ao Programa de Pós-Graduação em Agronomia da Universidade Federal de Pelotas, como requisito parcial à obtenção do título de Doutor em Ciências (área do conhecimento: Fitomelhoramento).

(3)

F224 Farias, Daniel da Rosa

Desenvolvimento de ferramentas de bioinformática para montagem e prospecção de genomas selvagens visando o melhoramento de arroz / Daniel da Rosa Farias;

Antônio Costa de Oliveira, orientador; Luciano Carlos da Maia e Olivier Panaud, co-orientador. – Pelotas, 2013.

81 f.: il.

Tese (Doutorado em Agronomia), Faculdade de Agronomia Eliseu Maciel / Universidade Federal de Pelotas, Universidade Federal de Pelotas. Pelotas, 2013.

1.Oryza glumaepatula. 2.Oryza sativa. 3.Programa. 4.Sequenciamento. I. Oliveira, Antônio Costa de , orient. II. Panaud, Luciano Carlos da Maia e Olivier , co-orient. III. Título.

CDD: 633.18

Catalogação na Fonte: Gabriela Machado Lopes CRB:10/1842 Universidade Federal de Pelotas

(4)

Aos meus pais, Arita e João. Pela educação e amor. À minha esposa Ettiene. Por compartilhar sua vida comigo

(5)

Agradecimentos

A Deus, pela minha existência.

À minha família, por seu amor e doação e ensinamentos de vida me passados.

À minha esposa, minha melhor amiga e companheira, pelo apoio em todos os momentos.

Ao Professor Antônio, grande responsável pelo meu crescimento e minha formação profissional. Além da oportunidade de dividir seus conhecimentos, vitórias e sabedorias de vida. Considero um grande amigo.

Ao Professor Fernando Carvalho, sempre disposto a passar seus conhecimentos.

Ao professor Luciano, primeiramente colega, por estar sempre presente, dando suporte e conhecimentos transmitidos.

Ao pesquisador Cristian Chaparro, principal responsável pelo meu crescimento em bioinformática. Pela sua amizade, suporte e todos os conhecimentos transmitidos.

Ao professor José Barbosa, pela amizade, pelos conselhos, conhecimentos transmitidos e pelos momentos de alegria e descontração.

Ao professor Olivier Panaud, pela confiança, amizade e conhecimentos transmitidos.

À colega Naciele Marini pela amizade e ajuda nas constantes discussões e tarefas do laboratório.

Aos todos os colegas do CGF, pela amizade e ajuda nas constantes discussões e tarefas do laboratório. Principalmente a Renata, a Mariana, o Willian e o Carlos.

Aos colegas da Bioinformática, pela valiosa colaboração nas atividades e pelos momentos alegres e agradáveis.

Ao Conselho Nacional de Desenvolvimento Científico (CNPq) e Fundação de Amparo a Pesquisa do Estado do Rio Grande do Sul (FAPERGS), pela concessão de bolsas durante a Graduação e Pós-Graduação.

(6)

À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pela concessão de bolsa, e pela oportunidade de realização do Doutorado Sanduiche.

A todos os professores que participaram da minha formação da nossa grande Faculdade de Agronomia Eliseu Maciel – FAEM.

A todos os colegas e amigos, que nunca esqueço e que comigo compartilharam os momentos de alegrias e tristezas nesta jornada.

(7)

Resumo

FARIAS, Daniel da Rosa. Desenvolvimento de ferramentas de bioinformática para montagem e prospecção de genomas selvagens visando o melhoramento de arroz. 2013. F. Tese (Doutorado) – Programa de

Pós-Graduação em Agronomia, Universidade Federal de Pelotas, Pelotas.

O arroz é um dos mais importantes grãos em termos de valor econômico no mundo, essa cultura possui grande importância para os países em desenvolvimento, tanto pelo aspecto cultura, quanto sob o ponto de vista social e econômico, pois este é considerado um dos alimentos com melhor balanceamento nutricional, extremamente versátil, que se adapta a diferentes condições de solo e clima, sendo a espécie de maior potencial de aumento de produção para o controle da fome no mundo. Apesar da contribuição dada pelos marcadores moleculares no incremento do melhoramento genético vegetal, o aumento da disponibilidade de dados referentes a regiões genômicas sequenciadas e de análises de transcriptomas, possibilitaram um grande avanço em pesquisas de melhoramento genético. Esse fato fez com que a Bioinformática se tornasse uma ferramenta essencial para o tratamento de dados genômicos. O objetivo geral desse trabalho é gerar uma ferramenta que possa contribuir para os trabalhos com montagens de genomas, e montar o genoma da espécie Oryza glumaepatula. O primeiro capítulo aborda uma revisão bibliográfica sobre o arroz, tanto sobre as espécies cultivadas como as selvagens. O segundo capítulo apresenta a ferramenta AREOS, que tem como objetivo proporcionar a avaliação e a comparação de programas de montagem de genomas, proporcionando aos pesquisadores que irão trabalhar com esses dados, inferir sobre os resultados desses programas. O terceiro e último capítulo apresenta a montagem do genoma de arroz selvagem Oryza

glumaepatula. Com a realização desse trabalho, foi desenvolvido o programa

AREOS que simula uma sequência de referência e leituras de sequenciamento da plataforma Solexa da Illumina. Além disso, o genoma de O. glumaepatula (GEN 1233) foi sequenciado e montado. A montagem parcial do genoma dessa espécie possui um total de 292.860 scaffolds com 412M bases.

Palavra-chave: Oryza glumaepatula. Oryza sativa. Programa. Genômica. Sequenciamento.

(8)

Abstract

FARIAS, Daniel da Rosa. Development of bioinformatics tools for genome

assembly and prospection of wild genomes aiming the rice breeding 2013.

F. Thesis (Doctor of Science) – Programa de Pós-Graduação em Agronomia, Universidade Federal de Pelotas, Pelotas.

Rice is the most important grain in terms of economic value in the world, this crop has a significance to developing countries, both the culture aspect, as social and economic point. Rice is considered one of the best foods, with better nutritional balancing, extremely versatile, it is adapted in different soils and climates, this specie has greatest potential to increase the food production to control the world hunger. Despite the contribution that molecular markers gave for plant breeding, the increase of genome and transcriptome sequence data, the plant breeding approaches have greatly advanced. With this fact Bioinformatic becomes an essential tool for studies with genomic data. The principal aim of this study is to generate a tool that can contribute with assembly researches, and the assembly of Oryza glumaepatula genome. The first chapter is a review of rice, both on the cultivated species such as wilds. The second chapter presents the AEROS, a tool that aim provides the evaluation and comparison of genome assemblers, providing inferences about the results of these programs. The third chapter presents de assembly of the wild rice specie

Oryza glumaepatula. With this study, we development AREOS program, that

simulates a reference sequence and reads from Illumina platform. The draw assembly of Oryza glumaepatula genome has 292,860 scaffolds, and 412M bases.

(9)

Lista de Figuras

Capítulo I. Revisão de literatura – arroz.

Figura 1 Distribuição da produção de arroz na safra de 2011/2012, entre as regiões brasileiras. ... 17 Figura 2 Árvore filogenética do gênero Oryza e a espécie Leersia perrieri.

As setas indicam a origem dos aletetraplóides, círculos pretos indicam os genitores maternos. Círculos verdes abertos indicam espécies diploides desconhecidas. O tempo de divergência é baseado em dados da literatura (AMMIRAJU, et al., 2008; GUO; GE, 2005; WANG et al., 2009; TANG et al., 2010). ... 20

Capítulo II. AREOS – A repeat element oriented short read simulator.

Figura 1 Tamanho do genoma de espécies cultivadas. Dados publicados (em azul) e quatro espécies de importância econômica com o genoma não publicado (em verde). Modificado de Morrel e colaboradores (2012). ... 41 Figura 2 Leituras geradas pelos sequenciamentos de nova geração. (A)

Leituras simples, chamada de Single-end, a leitura é feita em apenas um lado (indicado pela seta em azul). (B) Nas leituras pareadas, paired-end, o sequenciamento é realizado em ambos os lados do fragmento, em sentidos contrários (indicado pelas setas em azul). (C) Nas leituras mate-pair, são ligados nucleotídeos com biotina em ambos os lados dos fragmentos, e em seguida o fragmento é circularizado e cortado em sequências menores que são selecionadas com base na biotina para seguir com a leitura das sequências (Simples pela plataforma 454 e pareada pelas Illumina e SOLID. (HAMILTON; BUELL, 2012). ... 42 Figura 3 Sentidos das leituras (representadas pelas setas azuis) da

plataforma Solexa da Illumina. (A) Leituras pair-end. (B) Leituras

(10)

Figura 4 Distribuição das mutações nas sequências, nos três cenários evolutivos: exponencial, normal e linear ... 50 Figura 5 Gráfico de caixas mostrando a distribuição da qualidade das

bases geradas pelo AREOS, nesse exemplo a qualidade das bases começa a decair em torno de 50% do final da leitura, gráfico gerado pelo programa FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) ... 51 Figura 6 Gráficos apresentando os resultados do programa MEGABLAST.

A) Cobertura dos alinhamentos no genoma de referência. B) Números de gaps e mismatches encontrados nos alinhamentos ... 54 Figura 7 Exemplo do alinhamento realizado pelo programa Mauve, entre a

sequência de referência e os scaffolds, após a ordenação dessas sequências ... 55

Capítulo III. Montagem do genoma de Oryza glumaepatula Steud.

Figura 1 Gráfico de caixas mostrando as distribuições das qualidades das bases nas leituras. A área em verde nos gráficos indicam qualidades altas das bases, com valor maior ou igual a 28, a área em amarela indica qualidade intermediária das bases, entre 28 e 20 de qualidade, e a área em vermelho indicam as bases com qualidades baixas, com valor de qualidade igual ou inferior a 20. A) Biblioteca pair-end de 100 bases, com insertos de 540b. B) Biblioteca pair-end de 100 bases com insertos de 545b. C) Biblioteca mate-pair de 50 bases com insertos de 4.700b ... 68 Figura 2 Gráfico de caixas mostrando as distribuições das qualidades das

bases nas leituras, após a limpeza das bibliotecas. A área em verde nos gráficos indicam qualidades altas das bases, com valor maior ou igual a 28, a área em amarela indica qualidade intermediária das bases, entre 28 e 20 de qualidade, e a área em vermelho indicam as bases com qualidades baixas, com valor de qualidade igual ou inferior a 20. A) Biblioteca pair-end de 100 bases, com insertos de 540b. B) Biblioteca pair-end de 100 bases

(11)

com insertos de 545b. C) Biblioteca mate-pair de 50 bases com insertos de 4.700b ... 70 Figura 3 Gráfico mostrando a percentagem de bases alinhadas em cada

(12)

Lista de Tabelas

Capítulo I. Revisão de literatura – arroz.

Tabela 1 Produção das 15 primeiras commodities no mundo. ... 17 Tabela 2 Número de cromossomos, composição genômica e distribuição

das espécies de Oryza. Modificado de Brar e Knush (2006). ... 19 Tabela 3 Tamanho de leituras e rendimento das plataformas de

sequenciamento Sanger e de nova geração. ... 28 Tabela 4 Situação do sequenciamento das 16 espécies de Oryza e Leersia

perrieri, no IOMAP... 30

Capítulo II. AREOS – A repeat element oriented short read simulator.

Tabela 1 Lista com a maioria dos assemblers, a tecnologia de sequenciamento com que trabalham, o ano de atualização e sua licença. ... 44 Tabela 2 Resumo das montagens de um genoma com 5.054.028 bases,

dos programas Ray, AbySS e MIRA. ... 52

Capítulo III. Montagem do genoma de Oryza glumaepatula Steud.

Tabela 1 Exemplo de introgressão de genes de espécies selvagens de arroz. ... 62 Tabela 2 Resumo das leituras de sequenciamento, com o tipo, tamanho do

inserto, formato, número dos pares e o total de bases lidas. ... 65 Tabela 3 Resumo das leituras após as análises de limpeza, mostrando

tamanho do inserto, formato, número dos pares, total de bases lidas e a cobertura.. ... 71 Tabela 4 Resumo dos contigs gerados pelos diferentes assemblers. ... 71 Tabela 5 Resumo do resultado da montagem do genoma de O.

glumaepatula, com os parâmetros das sequências dos contigs e scaffolds. ... 72

(13)

Lista de abreviaturas e siglas

Bacterial Artificial Chromosomes – BACs Beijing Genomics Institute – BGI

Centro de Genômica e Fitomelhoramento – CGF Elementos transponíveis – ETs

Estruturas suporte – scaffolds Inserções e/ou deleções – gaps

International Center for Tropical Agriculture – CIAT International Oryza Map Genome Initiative – IOMAP International Rice Genome Sequencing Project – IRGSP International Rice Research Institute – IRRI

Laboratoire Genome et Developpement des Plantes – LGDP Long Terminal Repet – LTR

Ministério da Agricultura, Pecuária e Abastecimento – MAPA Montagem – Assembly

National Center for Genome Resource – NCGR New Rice for Africa – NERICA

Oryza Genome Evolution Project – OGEP Oryza glumaepatula Steud. – O. glumaepatula Oryza Map Alignment Project – OMAP

Oryza sativa L. – O. sativa

Overlap-Layout-Consensus – OLC

P1-derived Artificial Chromosomes – PACs

Random Amplified Polymorphic DNA – RAPD

Registro Nacional de Cultivares – RNC Sequências contíguas – contigs

Single-nucleotide polymorphism – SNPs

(14)

Torrey Mesa Research Institute – TMRI

Univerité de Perpignan Vila Domitia – UPVD Universidade Federal de Pelotas – UFPel

(15)

Sumário

Resumo... ... 06

Abstract. ... 07

Lista de Figuras.. ... 08

Lista de Tabelas ... 11

Lista de abreviaturas e siglas ... 12

1. Capítulo I. Revisão de literatura – arroz ... 16

1.1. Importância econômica ... 16

1.2. Espécies ... 18

1.2.1 O.sativa ... 21

1.2.2 O.glaberrima. ... 23

1.2.3 Espécies brasileiras de arroz selvagem ... 23

1.3. Importância científica e a genômica ... 26

1.4. Referências bibliográficas ... 30

2. Capítulo II. AREOS – A repeat element oriented short read simulator ... 40

2.1. Introdução ... 40

2.2. Material e Métodos ... 47

2.2.1 Criação da sequência de referência e mutação dos ETs ... 47

2.2.2 Simulação das leituras. ... 47

2.3. Resultados e Discussão ... 48

2.3.1 Performance ... 48

(16)

2.3.3 Leituras de sequenciamento.. ... 51

2.3.4 Comparações entre programas. ... 52

2.4. Conclusão ... 56

2.5. Referências bibliográficas ... 57

3. Capítulo III. Montagem do genoma de Oryza glumaepatula Steud ... 61

3.1. Introdução ... 61

3.2. Material e Métodos ... 64

3.2.1 Estrutura ... 64

3.2.2 Material vegetal. ... 64

3.2.3 Sequenciamento.. ... 65

3.2.4 Análise das leituras.. ... 66

3.2.5 Montagem do genoma.. ... 66 3.2.6 Alinhamento de sequencias.. ... 66 3.3. Resultados e Discussão ... 67 3.3.1 Análises de qualidade ... 67 3.3.2 Montagem do genoma. ... 71 3.4. Conclusão ... 74 3.5. Referências bibliográficas ... 75

(17)

1. CAPÍTULO I

REVISÃO DE LITERATURA - ARROZ

1.1 IMPORTÂNCIA ECONÔMICA

É estimado que existam cerca de 5 a 30 milhões de espécies no planeta, das quais, somente 1,4 milhões foram catalogadas (WILSON, 1997). Aproximadamente 260 mil espécies de plantas foram descritas até o momento, mas somente ao redor de 30 são usadas em maior escala para o consumo humano. Entre as mais usadas, destacam-se o arroz, o milho e o trigo, desta forma, usa-se em escala comercial ou para fins de subsistência uma fração mínima de diversidade biológica existente.

Em termos de valor econômico, o arroz é um dos mais importantes grãos. Os países em desenvolvimento têm no arroz uma importante cultura sob o ponto de vista social e econômico, pois este é considerado um dos alimentos com melhor balanceamento nutricional, extremamente versátil, que se adapta a diferentes condições de solo e clima, sendo a espécie de maior potencial de aumento de produção para o controle da fome no mundo (AZAMBUJA et al., 2004). Este cereal está presente na dieta de mais de dois terços da população mundial, sendo responsável por cerca de 11% da área total cultivada. Na América Latina, o arroz é a fonte básica de calorias da dieta (FERREIRA; VILLAR, 2004).

Em 2011, o arroz foi a terceira commodity mais produzida no mundo (tabela 1), atrás de cana de açúcar e milho, a sua produção mundial em casca foi aproximadamente 723 milhões de toneladas (FAO, 2013).

(18)

Tabela 1. Produção das 15 primeiras commodities no mundo. Fonte: FAO.

CGF/FAEM/UFPel, 2013

Commodity Produção (toneladas)

Cana de Açucar 1.794.359.190 Milho 883.460.240 Arroz 722.760.295 Trigo 704.080.283 Leite 606.660.839 Batata 374.382.274 Beterraba Açucareira 271.644.917 Vegetais Frescos 268.373.869 Soja 260.915.871 Mandioca 252.203.769 Tomate 159.023.383 Cevada 134.279.415 Carne Suina 108.642.062 Bananas 106.541.709 Melancia 104.472.354

Cultivado em todos os continentes, o arroz tem grande parte da sua produção consumida localmente. A Ásia concentra 90% da produção mundial, sendo que fora dela, o Brasil destaca-se como maior produtor e consumidor, tendo produzido 13.613 mil toneladas na safra de 2011/2012 e ocupando a 9º posição (CONAB, 2013). A região sul é a principal produtora nacional e o Rio Grande do Sul é o estado que mais produz, sendo responsável por 54% da produção nacional, uma área semeada de 1.053 mil hectares e uma produtividade de 7.350 Kg ha-1 (figura 1).

Figura 1. Distribuição da produção de arroz na safra de 2011/2012, entre as

regiões brasileiras. CGF/FAEM/UFPel, 2013.

8% 7% 6% 1% 78% Norte Nordeste Centro Oeste Sudeste Sul

(19)

1.2 ESPÉCIES

O arroz pertence à divisão Angiosperma, classe das monocotiledôneas, ordem Glumiflora, família Poaceae, subfamília Oryzoideae, tribo Oryzea, e gênero Oryza (BOTELHO, 1914). É uma planta anual ou perene, que pode se desenvolver em condições de solo alagado ou seco (MAGALHÃES JUNIOR et al., 2004). O nome científico, Oryza, foi dado por Linneu, e vem de um termo grego antigo, designativo do arroz, que provém do árabe ou do chinês e significa “bom grão da vida”. O arroz é mencionado, diversas vezes, em escrituras chinesas e hindus muito antigas. Sua taxonomia, como a de outras espécies, foi e continua sendo objeto de discussão.

Taxonomicamente, o arroz engloba duas tribos de importância alimentar, que são a Zizaniae e Oryzae. Zizaniae inclui os gêneros Zizaniopsis e Zizania, sendo este último o mais conhecido, apresentando relação de parentesco com

Oryza, gênero de arroz cultivado. Designado pelos norte americanos como wild rice, o gênero Zizania reúne cerca de quatro espécies, merecendo destaque Z. aquatica, comumente encontrada em regiões alagadiças dos EUA e Z. latifolia,

utilizada como verdura no leste da Ásia (WET; OEKE, 1978; OELKE et al., 1997), todas elas com pequena expressão alimentar (MAGALHÃES JUNIOR; COSTA DE OLIVEIRA, 2008).

O número haploide do gênero Oryza foi determinado por Kuwada em 1910, mas somente na década de 1960 é que os caracteres que definiram o esse gênero foram estabelecidos (LAUNERT, 1965; TATEOKA, 1964). As principais características morfológicas do gênero Oryza são a presença de glumas estéreis rudimentares, espiguetas bissexuais e folhas estreitas. Herbáceas com nervuras lineares e bordos serrilhados (VAUGHAN et al., 2003). Botanicamente, esse gênero se caracteriza por apresentar espigueta conectada à ráquila e por conter uma única flor terminal fértil, composta de duas glumelas florais (pálea e lema), seis estames, um estigma bífido, e duas glumelas estéreis localizadas na base da flor (PEREIRA, 2002). Primeiramente Roschevicz (1931) publicou um estudo com 19 espécies desse gênero, que forneceu uma base para trabalhos de taxonomia posteriormente. Chatterjee (1948) e Sampath (1962) listaram 23 espécies, e Tateoka (1962) listou 21 espécies. Atualmente, no gênero Oryza, são reconhecidas duas espécies

(20)

cultivadas (Oryza sativa L. e Oryza glaberrima Steud.) e 21 selvagens (tabela 2) (LONDO et al., 2006).

Tabela 2. Número de cromossomos, composição genômica e distribuição das

espécies de Oryza. Modificado de Brar e Knush (2006). CGF/FAEM/UFPel, 2013.

Espécies 2n Genoma Distribuição

Complexo O.sativa

O.sativa L. 24 AA Mundial

O.glaberrima Steud. 24 AgAg Oeste da África

O.nivara Sharma et Shastry 24 AA Ásia tropical e subtropical

O.rufipogon Griff. 24 AA Austrália tropical, Ásia tropical e subtropical

O.barthii A. Chev. 24 AgAg África

O.longistaminata A.Chev. et

Roehr. 24 A

1

A1 África

O.meridionalis Ng 24 AmAm Austrália tropical

O.glumaepatula Steud. 24 AgpAgp América do Sul e Central

Complexo O.officinalis

O.punctata Kotschy ex Steud. 24, 48 BB, BBCC África

O.minuta J.S. Presl. ex C.B.Presl. 48 BBCC Filipinas e Papua-Nova Guiné

O.officinalis Wall ex Watt 24 CC Austrália tropical, Ásia tropical e subtropical

O.rhizomatics Vaughan 24 CC Sri Lanka

O.eichingeri A. Peter 24 CC Sul da Ásia e Leste da África

O.latifolia Desv. 48 CCDD América do Sul e Central

O.alta Swallen 48 CCDD América do Sul e Central

O.grandiglumis (Doell) Prod. 48 CCDD América do Sul e Central

O.australiensis Domin. 24 EE Austrália tropical

Complexo O.meyeriana

O.granulata Nees et Arn. ex Watt 24 GG Sul e Sudeste da Ásia

O.meyeriana (zoll. Et Mor. Ex

Steud.) Baill. 24 GG Sudeste da Ásia

Complexo O.ridleyi

O.longiglumis Jansen 48 HHJJ Papua Ocidental, Indonésia, Papua-Nova Guiné

O.ridleyi Hook.F. 48 HHJJ Sul da Ásia

Sem classificação

O.brachyantha A.Chev. et Roehr 24 FF África

O.schlechteri Pilger 48 HHKK Papua-Nova Guiné

As espécies do gênero Oryza podem ser diplóides ou tetraplóides, representando dez diferentes genomas (AA, BB, BBCC, CC, CCDD, EE, FF, GG, HHJJ e HHKK), e são divididas em quatro complexos, complexo sativa, complexo officinalis, complexo meyeriana e complexo ridleyi. As duas espécies

(21)

O. brachyantha e O. schlechteri não podem ser colocadas em nenhum desses

grupos, pois apresentam características que poderiam classificá-las como pertencentes a outro gênero (Leersia), e portanto, estariam no limite da classificação do gênero Oryza (BRAR; KHUSH, 2006; VAUGHAN et al., 2003).

O gênero Oryza se estende por cerca de 15 milhões de anos de história evolutiva (figura 2) (AMMIRAJU et al., 2010).

Figura 2. Árvore filogenética do gênero Oryza e a espécie Leersia perrieri. As

setas indicam a origem dos alotetraplóides, círculos pretos indicam os genitores maternos. Círculos verdes abertos indicam espécies diploides desconhecidas. O tempo de divergência é baseado em dados da literatura (AMMIRAJU et al., 2008; GUO; GE, 2005; WANG et al., 2009; TANG et al., 2010). CGF/FAEM/UFPel, 2013.

(22)

Citogeneticamente, as duas espécies cultivas, O.sativa e O.glaberrima são diplóides com número básico (x) de 12 cromossomos (2n=24, no tecido somático). Apesar da grande semelhança, existem diferenças entre seus genomas e, por isso, O.sativa é representado por AA e O.glaberrima, por AgAg. Embora possam apresentar cruzamento natural (hibridação), dependendo da interação genótipo-ambiente, ambas as espécies são predominantemente autógamas (TERRES et al., 1998).

1.2.1 O.sativa

A maioria das espécies importantes economicamente foram domesticadas durante o final da era neolítica, entre 8.000 a 10.000 anos atrás. Esse é o caso de todos os cereais incluindo o arroz. Há pelo menos cinco centro de origem para os cereais, espalhados em três continentes: o crescente fértil no Oriente Médio para espécies como trigo, aveia e cevada; na América central para o milho; na África Ocidental para o milheto, sorgo e arroz (O.

glaberrima); no sul da Ásia para a subespécie do grupo indica de O.sativa; no

leste da Ásia para a subespécie do grupo japonica de O.sativa e Setaria italica (SIMMONDS, 1976). O centro de origem do arroz e os lugares onde foi domesticado vêm sendo debatido há alguns anos e continua sendo discutido (KOVACH et al., 2007).

O centro de origem da espécie O. sativa é a Ásia e acredita-se a sua domesticação tenha ocorrido aproximadamente entre 10.000 e 9.000 anos (LONDO et al., 2006; KAWAKAMI et al., 2007). O país onde foi domesticada essa espécie é desconhecido, embora existam fortes evidências de que seu centro de origem seja o sudeste asiático, mais precisamente na região compreendida entre a Índia e Mianmar, em virtude da rica diversidade de formas cultivadas desse arroz ali encontradas (PEREIRA, 2002).

O gênero Oryza tem sua origem e distribuição em várias partes do mundo, tais como: a) no continente asiático onde são encontrados O. sativa, O.

granulata, O. meyeriana, O. nivara, O. rufipogon, O. minuta, O. rizomatis e

outros; b) no continente africano, com destaque para O. glaberrima, O.

breviligulada (O.barthii), O. longistaminata, O. punctata, O. brachyantha, entre

(23)

latifolia, O. alta, O. grandiglumis; d) no continente australiano, com destaque

para O. australiensis e O. meridionalis (VAUGHAN; CHANG, 1995).

Está claramente estabelecido que a espécie selvagem mais próxima de

O.sativa é O.rufipogon, essa espécie é encontrada exclusivamente em toda a

Ásia, e o real centro de origem e domesticação não é tão bem conhecido como no caso das espécies africanas. O principal debate diz respeito ao número de centro de domesticação (PANAUD, 2009). Com o processo evolutivo e a domesticação a que foi submetido O. sativa ao longo dos tempos, foram surgindo inúmeros tipos geneticamente divergentes, os quais foram se adaptando às mais variadas condições agroecológicas no mundo. Assim sendo, com base na distribuição geográfica, na morfologia da planta e do grão, na esterilidade dos cruzamentos, e em outras caraterísticas, em 1928, essa espécie foi classificada em duas principais subespécies, grupos ou raças ecogeográficas, denominadas indica e japonica. Posteriormente essa subdivisão seria acrescentada a subespécie javanica (LU; CHANG, 1980). Atualmente, as subdivisões incluem o grupo Aus e o Aromático rayada e ashima (GLASZMAN, 1987; GARRIS et al., 2005; MAGALHÃES JUNIOR; COSTA DE OLIVEIRA, 2008)

Atualmente, com os novos conhecimentos de pesquisas genômicas, bem como o desenvolvimento de grandes volumes de dados de sequenciamento, essas questões deverão ser brevemente elucidadas, como é o caso do trabalho de Huang e colaboradores (2012), que sequenciaram mais de mil genótipos de arroz, tanto do grupo indica como japonica, e mais de 400 acessos de O.rufipogon, nesse trabalho os autores indicam que a subespécie do grupo japonica foi domesticada de uma população específica de O.

rufipogon, no sul da China, e que a subespécie do tipo indica foi posteriormente

desenvolvida a partir do cruzamento entre o arroz japonico e o arroz selvagem local, como as variedades inicialmente distribuídas no Sudeste e Sul da Ásia.

(24)

1.2.2 O. glaberrima

A espécie O. glaberrima, foi originada nas bacias do delta do Rio Nilo no Oeste da África e o seu ancestral é a espécie O. barthii (SARLA; SWAMY, 2005). Estudos de diversidade genética utilizando marcadores moleculares demonstraram que o arroz Africano é único, podendo ser facilmente diferenciado do arroz de origem Asiática, e que O. barthii e O. glaberrima apresentam relação genética muito próxima (SWEENEY; MCCOUCH, 2007).

O cultivo de O. glaberima provavelmente iniciou em torno de 1.500 A.C., que é posterior ao cultivo do arroz asiático, e se estendeu desde o Senegal até o Niger, e de Mali até a região do Tombuctu (KHUSH, 1997).

Atualmente o cultivo de arroz na África incorporou tecnologias e cultivares O. sativa vindas da Ásia. Porém, a O. glaberrima é melhor adaptada aos estresses bióticos e abióticos da região. Os sistemas modernos de cultivo de arroz não são adequados para O. glaberrima principalmente porque ela apresenta baixa produtividade e estrutura de panícula inadequada, com alto poder de degrane natura (HEUER et al., 2003). Desta forma, foi criado através do melhoramento genético, novas variedades de arroz, chamadas NERICAs (New Rice for Africa) com o foco de combinar as características agronômicas importantes do arroz Asiático como Africano (JONES et al., 1997; SARLA; SWAMY, 2005; IKEDA et al., 2007).

1.2.3 ESPÉCIES BRASILEIRAS DE ARROZ SELVAGEM

Existem quatro espécies silvestres nativas do Brasil, O.glumaepatula, O.

grandiglumis, O. latifolia e O. alta (RANGEL, 1998). O. grandiglumis

encontra-se restrita à região oeste da Amazônia e pode encontra-ser encontrada nas bacias hidrográficas do Solimões, Negro, Japurá, Purus e Madeira. Sua presença está relacionada, principalmente, a locais sombreados nas proximidades ou dentro dos sub-bosques da floresta, iniciando seu crescimento através das brotações de órgãos vegetativos, como colmos, seguindo-se o alongamento dos entrenós, à semelhança do O. glumaepatula, com a diferença de que a planta permanece presa no solo até o final do ciclo. O. latifolia está restrita à bacia do

(25)

Rio Paraguai, no Pantanal Mato-grossense, enquanto que O. alta tem uma ampla distribuição no Brasil, incluindo a Bacia Amazônica, Região Nordeste (Maranhão) e Região Sudeste (Floresta Tropical Atlântica) (OLIVEIRA, 1994, RANGEL, 1998, CRISPIN, 2012).

O. glumaepatula é encontrada em várias partes da América Latina desde

Cuba 23ºN até 23ºS no Brasil (VAUGHAN, 2003). Diferentemente das espécies

O. grandiglumis, O. latifolia e O. alta, que são alotetraplóides (2n=48) com

CCDD, a O. glumaepatula é diploide com genoma AA e está no mesmo complexo da O. sativa, fator importante para o uso em programas de melhoramento de O. sativa (BRONDANI et al., 2001). Além do seu genoma ser semelhante ao da espécie cultivada, a sua importância também reside no fato de que é encontrada no Brasil e distribui-se por várias regiões, sendo adaptada as condições de clima e solo tropicais e, portanto, é uma fonte promissora de alelos de interesse (BRONDANI et al., 2005). Essa espécie pode ser encontrada em biomas tão diversos quanto a Amazônia, o Pantanal Matogrossense e bacias hidrográficas dos Estados de Goiás, Tocantins e Roraima (KARASAWA et al., 2007).

Até a década passada, O. glumaepatula era considerada um ecotipo da

O. rufipogon e era agrupada, juntamente com as espécies O. longistaminata da

Africa, O. meridionalis da Australia e a própria O. rufipogon, em um complexo denominado O. perennis. Isso porque estudos de caracterização baseados em caracteres morfológicos não encontraram diferenças que pudessem justificar a separação das duas espécies (AKIMOTO et al., 1998). Estudos posteriores, no entanto, confirmaram que O. glumaepatula é uma espécie distinta das demais. Diversas características morfológicas em acessos de O. glumaepatula, O.

rufipogon e O. nivara analisadas através de análise multivariada mostraram

diferenças suficientes para o reconhecimento de O. glumaepatula como uma espécie distinta (JULIANO et al., 1998). Estudos de hibridização entre acessos de O. glumaepatula, O. rufipogon, O. nivara e O. meridionalis foram realizados e observaram que os híbridos formados entre O. glumaepatula e as outras espécies eram altamente estéreis, com fertilidade nunca superior a 5%, demonstrando o isolamento reprodutivo da espécie e confirmando o resultado do estudo anterior (NAREDO et al., 1998). O uso de marcadores moleculares baseados em sequencias aleatórias do DNA nuclear (RAPD – Random

(26)

Amplified Polymorphic DNA) indicaram uma separação clara entre acessos de

O. glumaepatula coletados na Bacia do Rio Amazonas e de O. rufipogon

coletados na China (GE et al., 1999). Estes autores afirmaram que as análises de agrupamento revelaram uma separação clara entre as duas populações e que, portanto, O. glumaepatula deveria ser considerada uma espécie distinta de O. rufipogon. Zhu e Ge (2005) também confirmaram a distinção da O.

glumaepatula das demais espécies de genoma AA utilizando sequências de

introns de genes nucleares. A separação da O. glumaepatula das demais utilizando marcadores baseados em sequências de DNA de cloroplastos, mitocondrial e nuclear (DUAN et al., 2007).

Existe grande interesse em conservar e utilizar os acessos de O.

glumaepatula coletados em diversas regiões do Brasil, pois eles são

considerados fontes potenciais de alelos e genes relacionados a resistência e/ou tolerância a estresses bióticos e abióticos (BRONDANI et al., 2005). Essas características são importantes para ampliar a base genética do arroz cultivado. Trabalhos com sequenciamento de genomas estão cada dia mais presentes, e se tornando uma ferramenta importante no conhecimento e identificação de regiões gênicas de interesse agronômico, para utilização no melhoramento genético.

A base genética do arroz é, no entanto, bastante estreita, no Brasil, o desenvolvimento de cultivares de arroz irrigado de porte baixo é considerado como um dos maiores sucessos da história moderna do melhoramento genético (CORDEIRO, 2008). Uma das precursoras da “Revolução Verde” foi a cultivar IR-8, lançada para cultivo em 1966 pelo IRRI, que ficou conhecida como arroz milagroso e revolucionou a agricultura mundial. Por apresentar características agronômicas como porte baixo, alto perfilhamento, resposta a adubação nitrogenada e, principalmente, elevada produtividade de grãos, esta cultivar causou profundas transformações nos agricultores que passaram a usar melhor a tecnologia nas suas lavouras, como também, na filosofia dos programas de melhoramento genético que redirecionaram todo o seu esforço de pesquisa no sentido de desenvolver cultivares com arquitetura de planta moderna. Para isto, os melhoristas passaram a utilizar intensamente como genitores nos cruzamentos a cultivar IR-8 ou linhagens dela derivada,

(27)

restringindo a variabilidade genética das populações utilizadas no melhoramento (KHUSH, 1995; RANGEL et al., 1999).

Existem em torno de 230 mil acessos de arroz (Oryza spp.) preservados em bancos de germoplasma no mundo. Não se sabe com exatidão o número de cultivares de arroz existentes no mundo, porém no Brasil, existem 263 registros no Registro Nacional de Cultivares do Ministério da Agricultura, Pecuária e Abastecimento (MAPA, 2013).

1.3 IMPORTÂNCIA CIENTÍFICA E A GENÔMICA

O melhoramento genético promoveu o incremento de produtividade para a maioria das plantas cultivadas, através de cultivares com resistência e tolerância a estresses bióticos e abióticos, porém, os dados recentes da produção agrícola indicam, que a taxa de incremento de produtividade de várias espécies cultivadas vem decrescendo desde a década de 70. Isto é observado, particularmente, em espécies que representam grande parte da produção mundial de alimentos, como o milho, o trigo e o arroz (TANKSLEY; MCCOUCH, 1997). Recompor os índices anteriores de incremento de produtividade e, mais ainda, mantê-los ou mesmo ultrapassá-los é um dos grandes desafios dos programas de melhoramento dos próximos anos. Desta forma, a genômica surge como uma ferramenta que pode contribuir para superar este desafio, principalmente em pesquisas de estresse abiótico, que é apontado como um dos grandes desafios para áreas que não são ótimas para a agricultura e, desta forma, conhecimentos em genética, através da ciência, terá um grande papel para ultrapassar esses desafios (COSTA DE OLIVEIRA; VARSHNEY, 2011).

Neste sentido o arroz possui destaque em pesquisa genômicas, apresenta um genoma pequeno, mapas genéticos e físicos, e seu sequenciamento completo (IRGSP, 2005), e devido a estes fatos tem sido considerado um modelo para o melhoramento genético de gramíneas (IZAWA; SHIMAMOTO, 1996; GALE; DEVOS, 1998).

Os primeiros resultados de projetos de sequenciamento do genoma do arroz foram publicados em 2002 com as sequencias da cultivar “93-11”

(28)

(subespécie indica) e da variedade “Nipponbare” (subespécie japonica). O sequenciamento do genoma da cultivar 93-11 foi realizado por um consórcio Chinês com o BGI (YU et al., 2002) e a cultivar Nipponbare teve a primeira versão do seu genoma sequenciado por uma empresa privada, a Syngenta, através do seu instituto de pesquisas (TMRI – Torrey Mesa Research Institute) (GOFF et al., 2002). Em ambos os casos foi utilizada a estratégia de sequenciamento por “shotgun”, onde o DNA genômico é inteiramente fragmentado por sonicação ou por enzimas de restrição (PATERSON et al., 2005). Essa estratégia permitiu que aproximadamente 69% do genoma da cultivar indica e 78% do genoma da cultivar japonica fossem representados (IRGSP, 2005).

Uma segunda versão do sequenciamento do genoma da cultivar Nipponbare foi realizada pela Monsanto através da Universidade de Washington utilizando uma estratégia que envolveu o sequenciamento de clones em BACs com baixa redundância. Uma cobertura de aproximadamente 250 Mpb apenas, mas permitiu a identificação de genes nas sequências dos BACs (BENNETZEN, 2002). A terceira e versão do genoma da Nipponbare foi obtida por um consórcio internacional envolvendo 10 países: Japão, Estados Unidos, China, Taiwan, Coreia, Índia, Tailândia, França, Brasil (pela Universidade Federal de Pelotas) e Reino Unido, que foi denominado IRGSP (International Rice Genome Sequencing Project). Foi utilizada uma estratégia de sequenciamento por clone a clone, onde clones contendo longos insertos de DNA que se sobrepõem foram sequenciados, de maneira que cada clone sequenciado pode ser associado a uma posição especifica do mapa genético do arroz (PATERSON et al., 2005). Foram utilizados clones de PACs (P1-derived Artificial Chromosomes, ou cromossomos artificiais do bacteriófago P1), BACs e fosmídeos, os quais foram sequenciados com redundância de até dez vezes (IRGSP, 2005). A versão atual do genoma da Nipponbare foi atualizada em 2012, com a colaboração do IRGSP e MSU Rice Genome

Annotation Project, através da adição de novas leituras (em torno de 44 vezes

de cobertura) de plataformas de nova geração de sequenciamento (KAWAHARA et al., 2013).

O sequenciamento do genoma do arroz trouxe uma grande evolução para os estudos genéticos e moleculares da espécie, tornando públicas

(29)

informações que podem ser utilizadas para o desenvolvimento de marcadores moleculares capazes de amostrar virtualmente qualquer região do genoma, predição da função de sequências regulatórias e/ou genes e dos polipeptídeos por eles codificados, localização de marcas moleculares nos mapas genéticos e físicos, entre outras (TYAGI et al., 2004).

A maioria das aplicações comparativas utiliza as sequências genômicas do arroz como fonte para marcadores de genes de interesse em outras espécies gramíneas (BRUNNER et al., 2003; SUTTON et al., 2003; GOTTWALD et al., 2004; DEVOS, 2005). A alta conservação na ordem e conteúdo dos genes dentro dos cereais indica que a pesquisa com arroz pode proporcionar benefícios aos programas de pesquisa de outras gramíneas (BENNETZEN; MA, 2003).

Os primeiros projetos de sequenciamento de genomas foram realizados através da metodologia de sequenciamento automática de Sanger, e no período de 1995-2005, foram sequenciados os genomas das plantas modelo Arabidopsis (Arabidopsis Genome Initiative, 2000) e arroz (IRGSP, 2005). A partir de 2005, uma nova geração de tecnologias de sequenciamento emergiu (VARSHNEY et al., 2009), permitindo a geração de um grande volume de dados por reação e revolucionando o panorama da genômica (tabela 3).

Tabela 3. Tamanho de leituras e rendimento das plataformas de

sequenciamento Sanger e de nova geração. CGF/FAEM/UFPel, 2013.

Ano de Introdução Plataforma Tamanho máximo de leituras Rendimento por corrida 1977 Sanger 1000 pb 100 Kpb

2005 454 (Life Science/Roche Diagnostics) 500 pb 500 Mpb

2005 ABI SOLID (Life Technologies) 50 pb 30 Gpb

2007 Illumina Genome Analyser (Solexa) 150 pb 600 Gpb

2010 Helicos (Helicos Biosciences) 55 pb 35 Gpb

2010 Ion Torrent (Life Technologies) 400 pb 1 Gpb

2010 SMRT (Pacific Biosystems) 2000 pb 100 Mpb

Todas essas tecnologias promovem o sequenciamento de DNA em plataformas capazes de gerar informação sobre milhões de pares de bases em uma única corrida. Dentre as novas plataformas de sequenciamento, duas já possuem ampla utilização em todo o mundo: a plataforma 454 FLX da Roche e

(30)

a Solexa/Illumina. Devido à redução de custos e o aumento da capacidade de sequenciamento, essas novas plataformas são eficazes para a utilização rotineira em projetos de sequenciamento e resequenciamento de genomas individuais, para detecções de variações entre genomas alvos e de referência (SERVICE, 2006). Essas plataformas de sequenciamento estão promovendo grandes projetos de sequenciamento de plantas, entre eles, o IOMAP - International Oryza Map Genome Initiative, onde o Brasil é participante, através do Centro de Genômica e Fitomelhoramento da Universidade Federal de Pelotas (tabela 4). Essa iniciativa tem três focos principais: gerar sequências genômicas e de transcriptoma para todas as oito espécies com genoma AA e espécies representativas de nove outros tipos de genomas; gerar mapas e populações de linhagens avançadas de retrocruzamento, de linhas com substituição de segmentos cromossômicos e linhagens endogâmicas recombinantes para as espécies com genoma AA, com o objetivo de utilização no melhoramento genético; e por último, identificar coleções de populações de ocorrência natural das espécies de arroz selvagem, para análises de diversidade, evolução e conservação (JACQUEMIN et al., 2013).

(31)

Tabela 4. Situação do sequenciamento das 16 espécies de Oryza e Leersia

perrieri, no IOMAP. CGF/FAEM/UFPel, 2013.

Espécie (genoma) Tamanho

do genoma Líder do Grupo Conclusão

O.sativa ssp. indica (AA) ~400 Mb BGI 2002

O.sativa ssp.japonica (AA) ~400 Mb IRGSP, Sasaki T. 2004

O.glaberrima (AA) ~354 Mb AGI, Wing R.A. 2010

O.barthii (AA) ~411 Mb AGI, Wing R.A. 2012

O.brachyantha (FF) ~260 Mb CAS, Chen M. 2011

O.longistaminata (AA) ~352 Mb CAS, Wang W. 2011

O.nivara (AA) ~448 Mb AS, Hsing Y. Em montagem

O.rufipogon (AA) ~445 Mb NIG, Kurata N./NCGR,

Han B. 2013

O.glumaepatula (AA) ~464 Mb UFPel, Oliveira A.C. 2013

O.punctata (BB) ~423 Mb AGI, Wing R.A. 2012

O.meridionalis (AA) ~435 Mb SCU, Henry R.J./UP,

Panaud O. 2013

O.australiensis (EE) ~960 Mb UP, Panaud O. 2013

O.officinalis (CC) ~653 Mb NIG, Kurata N. 2013

O.eichingeri (CC) ~650 Mb NIG, Kurata N. 2013

O.rhizomatis (CC) ~650 Mb NIG, Kurata N. 2013

O.granulata (GG) ~862 Mb CAS, Gao L. 2013

L.perrieri (fora de grupo) ~323 Mb AGI, Wing R.A. 2012

Modificado de JACQUEMIN e colaboradores (2013).

Grupos: BGI, Beijing Genomics Institute, China; IRGSP, International Rice Genome Sequecing Project; AGI, Arizona Genomics Institute, Estados Unidos; CAS, Chinese Academy of Sciences, China; AS, Academia Sinica, Taiwan; NIG, National Institute for Gene Research, China; UFPel, Universida Federal de Pelotas, Brasil; SCU, Southern Cross University, Australia; UP, Université de Perpignan, França.

1.4 REFERÊNCIAS BIBLIOGRÁFICAS

Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature, v.408, n.6814, p.796–815, 2000.

AMMIRAJU, J.S. et al. Dynamic evolution of Oryza genomes is revealed by comparative genomic analysis of a genus-wide vertical data set. Plant Cell, v.20, n.12, p.3191-3209, 2008.

(32)

AMMIRAJU, J.S. et al. The Oryza BAC resource: a genus-wide and genome scale tool for exploring rice genome evolution and leveraging useful genetic diversity from wild relatives. Breeding Science, v.60, n.5, p.536-543, 2010.

AZAMBUJA, I. H. V; VERNETTI Jr. F. J; MAGALHÃES Jr., A. M. Aspectos socioeconômicos da produção do arroz. In: GOMES, A. da S.; MAGALHÃES Jr., A. M. de (Eds técnicos). Arroz Irrigado no Sul do Brasil. Brasília: Embrapa Informação Tecnológica. p.23-44. 2004.

AKIMOTO, M.; SHIMAMOTO, Y.; MORISHIMA, H. Population genetic structure of wild rice Oryza glumaepatula distributed in the Amazon flood area influenced by its life‐history traits. Molecular Ecology, v. 7, n. 10, p. 1371-1381, 1998.

BENNETZEN, J.L. Mechanisms and rates of genome expansion and contraction in flowering plants. Genetica, v.115, p.29–36, 2002.

BENNETZEN, J.L.; MA, J. The genetic colinearity of rice and other cereals based on genomic sequence analysis. Current Opinion in Plant Biology. v.6, p.128-133, 2003.

BOTELHO, C. O Arroz. São Paulo: Typografia Levi, 1914, 525 p.

BRAR, D.S.; KNUSH, G.S. Cytogenetic manipulation and germplasm enhancement of rice (Oryza sativa L.). In: SINGH, R.J; JAUHAR, P.P. (eds técnicos). Genetics resources, chromosome engineering and crop

improvement. CRC, Boca Raton, 2006. p.115-158.

BRAR, D. S.; SINGH, K. Oryza. In: KOLE, C. (ed técnico). Wild Crop

Relatives: Genomic and Breeding Resources Cereals. Springer-Verlag

Berlin Heidelberg, 2011. p.321-366.

BRONDANI, C. et al. Development and Mapping of Oryza Glumaepatula

Derived Microsatellite Markers in the Interspecific Cross Oryza Glumaepatula X

(33)

BRONDANI, R.P.V., et al. Genetic structure of wild rice Oryza glumaepatula populations in three Brazilian biomes using microsatellite markers. Genetica, v. 125, n. 2-3, p. 115-123, 2005.

BRUNNER S, KELLER B, FEUILLET C. A large rearrangement involving genes and low-copy DNA interrupts the microcollinearity between rice and barley at the Rph7 locus. Genetics. v.164, p.673-683, 2003.

CHATTERJEE, D. A modified key and enumeration of the species of Oryza Linn. The Indian Journal of Agricultural Science, v.18, p.185-192, 1948.

CONAB, Companhia Nacional de Abastecimento. Ministério da Agricultura, Pecuária e Abastecimento. Series históricas. Disponível em:

http://www.conab.gov.br/conteudos.php?a=1252&t=.Acesso em: 15 de maio de 2013.

CORDEIRO, A. C. C. Métodos de melhoramento genético de arroz irrigado. Boa Vista: Embrapa Roraima, 2008. 64 p. (Embrapa Roraima, Documentos, 06).

COSTA DE OLIVEIRA, A.; VARSHNEY, R.K. Introduction to Root Genomics. In: Root Genomics. Eds. Costa de Oliveira & Varshney, R.K. Springer. p.1-10, 2011.

CRISPIM, B.C.F. Variabilidade genética no gênero. Revista Eletrônica

Faculdade Montes Belos, v. 5, n. 4, 2012.

DEVOS, K.M. Updating the ‘crop circl. Current Opinion in Plant Biology. v.8, n.2, p.155-162, 2005.

DUAN, S. et al. Phylogenetic analysis of AA-genome Oryza species (Poaceae) based on chloroplast, mitochondrial, and nuclear DNA sequences.

(34)

FAO, Food Alimentatio Organization: STATISTICS. Disponível em:

http://faostat.fao.org/. Acesso em: 15 maio de 2013.

FERREIRA, C. M.; VILLAR, P. M. Aspectos da produção e do mercado de arroz. Informe Agropecuário, v.39, n.22, p.11-18, 2004.

GALE, M.D.; DEVOS, K.M. Comparative genetics in the grass. Proceedings of

the National Academy of Sciences of the United States of America. v.95,

n.5, p.1971-1974, 1998.

GARRIS, A.J. et al. Genetic structure and diversity in Oryza sativa L. Genetics, v.169, n.3, p.1631-1638, 2005.

GE, S. et al. RAPD variation within and between natural populations of the wild rice Oryza rufipogon from China and Brazil.Heredity, v.82, n.6, p.638-644,

1999.

GLASZANN, J.C. Isozymes and classification of Asian rice varieties. Theorical

and Applied Genectics, v.74, n.1, p.21-30, 1987.

GOFF, S.A. et al. A draft sequence of the rice genome (Oryza sativa L. ssp.

Japonica). Science, v.296, n.5565, p.92-100, 2002.

GOTTWALD, S. et al. The gibberellic-acid insensitive dwarfing gene sdw3 of barley is located on chromosome 2HS in a region 100 that shows high colinearity with rice chromosome 7L. Molecular Genetics and Genomics. v.271, n.4, p.426–436, 2004.

GUO, Y.; GE, S. Molecular phylogeny of Oryzeae (Poaceae) based on DNA sequences from chloroplast, mitochondrial, and nuclear genomes. American

(35)

HEUER, S. et al. Increasing biodiversity of irrigated rice in Africa by interspecific crossing of Oryza glaberrima (Steud.)× O. sativa indica (L.). Euphytica, v. 132, n. 1, p. 31-40, 2003.

HUANG, X. et al. A map of rice genome variation reveals the origin of cultivated rice. Nature, v.490, n.7421, p.497-501, 2012.

IKEDA, R.; SOKEI, Y.; AKINTAYO, I. Reliable multiplication of seed for NERICA varieties of rice, Oryza sativa L. Genetic Resources and Crop Evolution, v. 54, n. 8, p. 1637-1644, 2007.

INTERNATIONAL RICE GENOME SEQUENCING PROJECT. The map-based sequence of the rice genome. Nature, v.1, n.7052, p.793-800, 2005.

IZAWA T.; SHIMAMOTO K. Becoming a model plant: The importance of rice to plant science. Trends in plant science, v.1, n.3, p.95-99, 1996.

JACQUEMIN, J., et al. The International Oryza Map Alignment Project: development of a genus-wide comparative genomics platform to help solve the 9 billion-people question. Current opinion in plant biology, v.16, p.147-156, 2013.

JONES, M.P., et al. Interspecific Oryza sativa L. x O. glaberrima Steud. progenies in upland rice improvement. Euphytica, v. 94, n. 2, p. 237-246, 1997.

JULIANO, A.B.; NAREDO, M.E.B.; JACKSON, M. T. Taxonomic status of Oryza

glumaepatula Steud. I. Comparative morphological studies of New World

diploids and Asian AA genome species. Genetic Resources and Crop

Evolution, v. 45, n. 3, p. 197-203, 1998.

KAWAHARA, Y. et al. Improvement of the Oryza sativa Nipponbare reference genome using next generation sequence and optical map data. Rice, v. 6, n. 1, p. 1-10, 2013.

(36)

KARASAWA, M.M.G. et al. Mating system of Brazilian Oryza glumaepatula populations studied with microsatellite markers. Annals of botany, v. 99, n. 2, p. 245-253, 2007.

KAWAKAMI, S. et al. Genetic variation in the chloroplast genome suggests multiple domestication of cultivated Asian rice (Oryza sativa L.). Genome, v.50, n.2, p.180-187, 2007.

KHUSH, G.S. Origin, dispersal, cultivation and variation of rice. Plant

Molecular Biology, v.35, p. 25-34, 1997.

KHUSH, G.S. Aumento do potencial genético de rendimento do arroz: perspectivas e métodos. In: PINEIRO, B.S.; GUIMARAES, E.P. (ed.). CONFERENCIA INTERNACIONAL DE ARROZ PARA A AMERICA LATINA E O CARIBE, 9., 1994, Goiânia. Arroz na América Latina: perspectivas para o incremento da produção e potencial produtivo. Goiânia: EMBRAPA-CNPAF APA, 1995. v.1. (EMBRAPA-CNPAF. Documentos, 60).

KOVACH, M.J.; SWEENEY, M.T.; MCCOUCH, S.R. New insights into the history of rice domestication. Trends in Genetics, v.23, n.11, p.578-587, 2007.

LAUNERT, E. A survey of the genus Leersia in Africa. Senckenbergiana

Biologica, v.46, p.129-153, 1965.

LONDO, J.P., et al. Phylogeography of Asian wild rice, Oryza rufipogon, reveals multiple independent domestications of cultivated rice, Oryza sativa.

Proceedings of the National Academy of Sciences of the United States of America, v.103, n.25, p.9578-9583, 2006.

LU, B. R.; CHANG, T. T. Rice in its temporal and apatial perspectives. In: LUH, B. S. Rice: production and utilization. Westport:AVI, 1980, p.1-74.

MAGALHÃES JUNIOR, A. M., et al. Aspectos genéticos, morfológicos e de desenvolvimento de plantas de arroz irrigado In: GOMES, A. da S.;

(37)

MAGALHÃES Jr., A. M. de (Eds técnicos). Arroz Irrigado no Sul do Brasil. Brasília: Embrapa Informação Tecnológica, 2004. p.143-160.

MAGALHÃES JUNIOR, A. M.; COSTA DE OLIVEIRA, A. Arroz. In: BARBIERI, R.L.; STUMPF, E.R.T (Eds técnicos). Origem e Evolução das Plantas

Cultivadas. Brasília : Embrapa Informação Tecnológica, 2008. p.185-208.

MAPA, Ministério da Agricultura, Pecuária e Abastecimento. Registro Nacional

de Cultivares. Disponível em:

http://extranet.agricultura.gov.br/php/snpc/cultivarweb/cultivares_registradas.ph p. Acesso em: 07 de junho de 2013.

NAREDO, MA E. B. et al. Taxonomic status of Oryza glumaepatula Steud. II. Hybridization between New World diploids and AA genome species from Asia and Australia. Genetic Resources and Crop Evolution, v.45, n.3, p.205-214, 1998.

OELKE, E.A., et al. Wild rice – new interest in an old crop. Cereal foods World, v.42, n.4, p.234-247, 1997.

OLIVEIRA, G.C.X. Geographic distribution of wild Oryza species in Brazil. In: MORISHIMA, H.; MARTINS, P.S. (Ed.). Investigations of plant genetic

resources in the Amazon basin with the emphasis on the genus Oryza:

Report of 1992/93 Amazon Project. Mishima, Japan: The Monbusho International Scientific Research Program, 1994. p.10-15.

PEREIRA, J.A. Cultura do arroz no Brasil: subsídios para a sua história. Teresina:Embrapa Meio-Norte, 2002, 226 p.

PANAUD, O. The molecular bases of cereal domestication and the history of rice. Comptes rendus biologies, v. 332, n. 2, p. 267-272, 2009.

PATERSON, A.H.; FREELING, M.; SASAK,I T. Grains of knowledge: genomics of model cereals. Genome Research, v.15, n.12, p.1643-1650, 2005.

(38)

RANGEL, P.H.N. et al. Identificação, coleta, mapeamento e conservação de variedades tradicionais e espécies silvestres de arroz no Brasil. Embrapa

Arroz e Feijão. Documentos on-line, v. 220, 2008.

RANGEL, P.H.N. et al. Ampliação da base genética das populações utilizadas no melhoramento do arroz de várzea no Brasil. In: 1º CONGRESSO BRASILEIRO DE ARROZ IRRIGADO, 1., REUNIAO DA CULTURA DO ARROZ IRRIGADO, 23., 1999, Pelotas.. Anais... Pelotas: EMBRAPA Clima Temperado, 1999. 15p.

ROSCHEVICZ, R. A contribution to the knowledge of rice. Bull Appl Bot Genet

Plant Breed, v.27, n.4, p.1-33, 1931.

SAMPATH, D. The genus Oryza: its taxonomy and species relationship. Oryza, v.1, p.1-29, 1962.

SARLA, N.; SWAMY, B.P.M. Oryza glaberrima: A source for the improvement of Oryza sativa. Current Science, v.89, n.6, p.955-963, 2005.

SERVICE, R.F. The race for the $1000 genome. Science, v.311, p.1544–1546, 2006.

SUTTON, T. et al. The Ph2 pairing homoeologous locus of wheat (Triticum

0aestivum): identification of candidate meiotic genes using a comparative

genetics approach. Plant Journal. v.36, n.4, p.443-456, 2003.

SWEENEY, M.; MCCOUCH, S. The complex history of the domestication of rice. Annals of Botany, v.100, n. 5, p.951-957, 2007.

SIMMONDS, N.W. Evolution of Crop Plants, Longman, London & New York, 1976.

(39)

TANG, L. et al. Phylogeny and biogeography of the rice tribe (Oryzeae): evidence from combined analysis of 20 chloroplast fragments. Molecular

phylogenetics and evolution, v. 54, n. 1, p. 266-277, 2010.

TANKSLEY, S.D.; MCCOUCH, S.R. Seed banks and molecular maps: unlocking genetic potential from the wild. Science, v.277, n.5329, p.1063–1066, 1997.

TATEOKA, T. Taxonomic studies of Oryza.II. Several species complexes.

Botanical Magazine, v.75, p.455-461, 1962.

TATEOKA, T. Notes on some grasses. XVI. Embryo structure of genus Oryza in relation to systematics, American Journal of Botany, v.51, n.2, p.539-543, 1964.

TERRES, A. L. et al. Arroz Irrigado no Rio Grande do Sul: generalidades e cultivares. Pelotas: Embrapa Clima Temperado, 1998. 58 p. (Embrapa Clima Temperado. Circular Técnica, 14).

TYAGI, A.K., et al. Structural and functional analysis of rice genome. Journal of

Genetics, v.83, n.1, p.79-99, 2004.

VARSHNEY, R.K., et al. Next-generation sequencing technologies and their implications for crop breeding. Trends in Biotechnology, v.27, n.9, p.522-530, 2009.

VAUGHAN, D.A.; CHANG, T.T. Collecting the rice gene pool. In: GUARINO, L.; RAMANATHA RAO, V.; REID, R. Collecting plant genetic diversity: technical guidelines. Wallingford: CAB International, 1995. p.659-675.

VAUGHAN, D.A.; MORISHIMA, H. KADOWAKI,K. Diversity in the Oryza genus.

(40)

WANG, X., et al. Comparative inference of illegitimate recombination between rice and sorghum duplicated genes produced by polyploidization. Genome Research, v.19, n.6, p.1026-1032, 2009.

WET, J.M.J.de; OELKE, E.A. Domestication of American wild rice (Zizania

aquatic L., Gramineae). Journal of d’Agriculture Traditionelle et de

Botanique Appliqué, v.25, p.67-84, 1978.

WILLSON, D. Culture, conservation, and biodiversity: the social dimension of linking local-level development and conservation through protected areas.

Society and Natural Resources, v.10, n.6, p.595-597, 1997.

YU, J., et al. A draft sequence of the rice genome (Oryza sativa L. ssp indica).

(41)

2. CAPÍTULO II

AREOS – A repeat element oriented short read simulator

2.1 INTRODUÇÃO

O sequenciamento de DNA surgiu na década de 1970 com duas técnicas diferentes, a enzimática dideoxi de Sanger (SANGER et al., 1977) e por degradação química de Maxam e Gilbert (MAXAN; GILBERT, 1977). Estes primeiros esforços foram trazendo resultados de forma lenta, uma vez que o sequenciamento era manual e menos de duas centenas de bases eram produzidas num conjunto de quatro canaletas. O surgimento do sequenciador automático utilizando a técnica de Sanger na década de 1980 (CONNELL et al., 1987), permitiu que avanços mais significativos pudessem ser feitos em grande escala.

Desta forma, a técnica de sequenciamento de DNA representa uma poderosa ferramenta na identificação de uma ampla gama de fenômenos biológicos, através da coleta de um grande conjunto de dados. Essa estratégia inicia com a extração do DNA, que pode ser de genoma inteiro ou de partes de genomas clonados em vetores de BACs ou de leveduras (YACs – Yeast

Artificial Chromosomes), e posteriormente através do uso de algumas enzimas

e reagentes essas moléculas são fragmentadas para posteriormente serem lidas por uma plataforma de sequenciamento (por tecnologia de Sanger ou de nova geração). Em seguida, as análises com bioinformática se iniciam para a realização da montagem do DNA original, a partir das leituras geradas pelo sequenciador. Esta análise é uma tarefa hierárquica, porque parte de sequências menores para maiores, e é feita através de programas montadores (assemblers), que geram os chamados contigs (sequências contíguas), que são montados a partir das sobreposições das leituras do sequenciador, e como resultado final, os scaffolds (estruturas suporte), que são produzidos a partir da ordenação e sobreposição dos contigs

Os primeiros projetos de sequenciamento de genomas foram realizados através da metodologia de sequenciamento automática de Sanger. No período

(42)

de 1995-2005, foram sequenciados os genomas das plantas Arabidopsis (Arabidopsis Genome Initiative, 2000) e arroz (IRGSP, 2005).

A partir de 2005, uma nova geração de tecnologias de sequenciamento emergiu (VARSHNEY et al., 2009), permitindo a geração de um grande volume de dados por reação e revolucionando o panorama da genômica. Estas tecnologias contaram com os avanços em nanobiologia e robótica e contribuíram para a criação de uma meta no mundo científico, a realização do sequenciamento do genoma humano por um preço de 1.000 dólares (THUDI et al., 2012).

Durante as últimas décadas, os principais avanços nas tecnologias genômicas, conduziram a um crescimento na informação biológica gerada pela comunidade científica, principalmente nestas duas últimas décadas, onde o armazenamento de dados biológicos em bancos de dados públicos, vem se tornando cada vez mais comum e esses vem crescendo exponencialmente (figura 1).

Figura 1. Tamanho do genoma de espécies cultivadas. Dados publicados (em

azul) e quatro espécies de importância econômica com o genoma não publicado (em verde). Modificado de Morrel e colaboradores (2012). CGF/FAEM/UFPel, 2013.

Nos últimos anos, as tecnologias de sequenciamento de nova geração têm evoluído rapidamente, com potencial para acelerar os avanços em pesquisas biológicas e biomédicas, estimulando os estudos de variações gênicas, entendimento de respostas a estresses bióticos e abióticos e estudos evolutivos (SHENDURE, J.; JI, H., 2008). O resequenciamento de genomas

T a m a n h o d o g e n o m a ( M b )

(43)

inteiros é uma ferramenta essencial em pesquisas para a caracterização da variação genética em todos os contextos (BENTLEY, 2006). Essas plataformas de sequenciamento estão promovendo grandes projetos de sequenciamento de plantas, como o IOMAP - International Oryza Map Genome Initiative, buscando sequenciar todas as espécies do gênero Oryza, o “1000 Plant Genomes

Project” (www.onekp.com/), o “1001 Arabidopsis Genome Project”

(www.1001genomes.org/) e o “1000 Plant and Animal Genome Project” (www.1d1.genomics.cn/). Igualmente, o “Genome 10K Project” foi criado para sequenciar e montar 10.000 genomas de vertebrados, incluindo pelo menos um de cada gênero (www.genome10k.org/).

Como resultado, as novas plataformas de sequenciamento geram leituras pequenas (de 35 a 800 bases), que são menores que as geradas pelas tradicionais sequências da tecnologia Sanger, e com isso, à etapa de montagem dessas leituras em contigs, torna-se um dos maiores desafios na aplicação dessas novas tecnologias de sequenciamento (Figura 2). Frente a isso, a bioinformática tem um papel muito importante nessas pesquisas, auxiliando trabalhos de biologia, genética e no melhoramento genético.

Figura 2. Leituras geradas pelos sequenciamentos de nova geração. (A)

Leituras simples, chamada de Single-end, a leitura é feita em apenas um lado (indicado pela seta em azul). (B) Nas leituras pareadas, paired-end, o sequenciamento é realizado em ambos os lados do fragmento, em sentidos contrários (indicado pelas setas em azul). (C) Nas leituras mate-pair, são ligados nucleotídeos com biotina em ambos os lados dos fragmentos, e em seguida o fragmento é circularizado e cortado em sequências menores que são

(44)

selecionadas com base na biotina para seguir com a leitura das sequências (Simples pela plataforma 454 e pareada pelas Illumina e SOLID. (HAMILTON; BUELL, 2012). CGF/FAEM/UFPel, 2013.

Atualmente, existem diversas ferramentas e algoritmos dinâmicos que são utilizados pela bioinformática e que estão disponíveis para as análises dos dados produzidos pelas plataformas de sequenciamento de nova geração (tabela 1).

Referências

Documentos relacionados

Vale ressaltar que o PNE guarda relação direta com o Plano de Aceleração do Crescimento (PAC) que tem como objetivo o desenvolvimento econômico e social, além de

[r]

Depois de exibido o modelo de distribuição orçamentária utilizado pelo MEC para financiamento das IFES, são discutidas algumas considerações acerca do REUNI para que se

Não obstante a reconhecida necessidade desses serviços, tem-se observado graves falhas na gestão dos contratos de fornecimento de mão de obra terceirizada, bem

Apesar da melhora de desempenho nas compras dos setores pesquisados, os instrumentos de pesquisa utilizados permitiram verificar que na Universidade Federal de

intitulado “O Plano de Desenvolvimento da Educação: razões, princípios e programas” (BRASIL, 2007d), o PDE tem a intenção de “ser mais do que a tradução..

No Brasil, a falta de uma fiscalização mais rigorosa é uma das razões que possibilitam que certas empresas utilizem os estágios como forma de dispor de uma mão-de-obra qualificada,

A presente dissertação é desenvolvida no âmbito do Mestrado Profissional em Gestão e Avaliação da Educação (PPGP) do Centro de Políticas Públicas e Avaliação