Genômica comparativa de cepas de Saccharomyces cerevisiae produtoras de etanol

(1)

Mirta Natalia Coutoune

GENÔMICA COMPARATIVA DE CEPAS DE

SACCHAROMYCES CEREVISIAE PRODUTORAS

DE ETANOL

Campinas

2018

(2)

GENÔMICA COMPARATIVA DE CEPAS DE SACCHAROMYCES

CEREVISIAE PRODUTORAS DE ETANOL

Dissertação apresentada à ao

Instituto de Biologia da Universidade

Estadual de Campinas como parte

como parte dos requisitos exigidos para

a obtenção do Título de Mestra em

Genética e Biologia Molecular, na área

de Genética de Microrganismos.

Orientadora: JULIANA VELASCO DE CASTRO OLIVEIRA

ESTE EXEMPLAR CORRESPONDE À

VERSÃO FINAL DISSERTAÇÃO/TESE

DEFENDIDA PELA ALUNA MIRTA NATALIA

COUTOUNÉ E ORIENTADA PELA DRA

JULIANA VELASCO DE CASTRO OLIVEIRA.

CAMPINAS

2018

(3)

COMISSÃO EXAMINADORA

Dra. Juliana Velasco de Castro Oliveira

Prof. Dr. Marcelo Mendes Brandão

Prof. Dr. Jeferson Gross

Os membros da Comissão Examinadora acima assinaram a Ata de Defesa, que se

encontra no processo de vida acadêmica do aluno.

A Ata da defesa com as respectivas assinaturas dos membros encontra-se no

SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria do Programa de

Pós-graduação em Genética e Biologia Molecular da Unidade Instituto de Biologia.

(4)

A Dani y Ren, por el aguante, desde siempre, a pesar de los kilómetros.

Ao Squad e Fox.

I have no special talents. I am only passionately curious.

Albert Einstein

(5)

A minha orientadora, Juh, pela paciência infinita. Por me ajudar a crescer, por

ajudar-me a melhorar sempre. Por me fazer entender que existem caminhos diferentes

aos que já conhecemos, e que em cada um deles o aprendizado é enorme. Obrigada por

me ensinar a lidar com minhas dificuldades, com minhas inseguranças, medos e

desconhecimentos. Obrigada por todo o conhecimento e os valores, assim também como

o rigor. Obrigada por me apoiar nas decisões boas e nas não tão boas que tomei, assim

como me ajudar a lidar com as consequências. E sobre todo por estar de meu lado

durante todo este tempo, nos momentos bons e nos ruins, me acompanhando. Por subir

no pula-pula comigo, pelas cervejas e pizzas, e me acompanhar (todas) as vezes que

estive no hospital no que levo de mestrado, rs. Meu agradecimento infinito, tenho certeza

que depois deste trecho juntas, sou uma melhor pessoa e cientista.

A minha outra (orientadora) Juju, também pela paciência infinita. Por ter me

adotado, pelas jantas, pelas toneladas de brigadeiros e batatas fritas no lab. Pela bioinfo

com vinho, por todos os ensinamentos sobre genômica de populações, evolutiva e afins,

por me ensinar como bash salva vidas. E claro, pelo dia da borboleta <3.

Al Prof. Diego Riaño-Pachón, quien contribuyó de una manera íncreíble a mi

formación. Por invitarme a hacer la maestría con él. Por enseñarme bioinformática en

baby-steps y con una paciencia gigante. Por los almuerzos fantásticos, las reuniones de

python, por las inmesas contribuciones intelectuales, que reforzaron fuertemente mi critica

científica. Por enseñarme siempre las buenas (las mejores!) prácticas de bioinformática.

Por el español en el lab :)

A Marcelo Falsarella Carazzolle, quem sem ele nada disso tivesse sido possível.

Por sempre me encorajar a continuar buscando, pelas inúmeras discussões científicas,

pelo apoio nos bons e não tão bons momentos. Pela paciência e dedicação.

Ao Prof. Gonçalo Pereira, por me fazer um lugarzinho no lab, sem ter porquê. Pelas

conversas, discussões científicas e pelo apoio.

A Sheila, quem sem ela, também esse trabalho não tivesse sido possível. Por toda

a ajuda e as contribuições imensas ao trabalho. Mas sem dúvidas nenhuma, por estar

sempre que precisei, para me ouvir e me fazer entender que sempre há opções, que só é

necessário abrir a mente. Por toda a paz que trouxe a minha vida <3, pelas trocas de

chás <3.

A Fox, primeiro por sua amizade incondicional. Pelo apoio frente a qualquer coisa.

Pelos infinitos brainstormings (os científicos e os nem tanto). Por ser um exemplo de

pessoa, em todo o que alguém pode sê-lo. Por sua amizade desafiadora, me ajudar a ser

sempre melhor! Por todas as receitas e cozinha juntos. Por ser minha companhia de

mates :) te amo infinitamente, dear.

As pessoas incríveis da ilha 4, Boris, Zana, Neto, Robertica, Eli, Renato, Bruno,

Carlinha, Lu e Aline. Durante o mestrado vocês me fizeram sentir em casa sempre. Pelos

almoços cedinho, pelas conversas na sacada, baladinhas after 18hs no lab, pelas

cervejas no Pina, pelo carinho imenso <3. Amo muito vocês.

A toda a equipe do laboratório do lado C do CTBE, pelo suporte e carinho.

Ao grupo incrível de pessoas do LGE, que me desde sempre me fizeram sentir em

casa e saber que ali tem espacinho para mim.

As minhas irmãs da vida, Momo, Ju, Ba, Luna, Fe e Dani. Pelo apoio incondicional,

pelas incontáveis jantas no lab, ligações intermináveis, festas de pijamas, brigadeiros de

paçoca e tortas de milho, passeios de carrinhos de supermercado, as toneladas de risos,

o canvas, os três PIPE-FAPESP e por toda a motivação. Vocês me fazem uma pessoa

incrivelmente feliz, com vocês estou em casa. Amo vocês, infinitamente.

(6)

time zone just complicates our lives. Благодарю вас!

A mis viejos, por el aguante siempre. Por no dejarme rendirme jamás. Por guiarme

para ser la mujer fuerte que soy hoy. Por enseñarme con el ejemplo, sobre como ser

personas íntegras y centíficos íntegros. Mi admiración y respeto siempre. Ustedes son mi

norte. Los amo.

A mis hermanos, la fuerza que me mueve. Los dos ángeles que la vida me dio.

Gracias por estar siempre conmigo, en las buenas y en las malas. Con videollamadas sin

fin, y un millón de grupos, uno en cada red social. Los amo!

A Karina, a melhor orientadora que pude ter no TCC. Acredito que a quantidade de

coisas que aprendi durante aquela época, só consegui apreciar quando comecei o

mestrado. As boas práticas de laboratório, as discussões sobre genética de populações,

ecologia, e centos coisas mais, que foram fundamentais para que meu mestrado fosse o

melhor possível. Obrigada mais uma vez!

Y a Agustín, que ya no forma mas parte de mi vida, pero me enseñó sobre ciencia

como nadie. Sobre la vida de un científico como nadie. Gracias totales.

O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de

Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001. Portaria

portaria: CAPES n°206/2018.

O presente trabalho foi realizado com apoio da Fundação de Amparo à Pesquisa de São

Paulo (FAPESP), com o número de processo 2017/02124-0.

(7)

As crescentes mudanças na matriz energética mundial vêm sendo discutidas

mundialmente e apontam o aquecimento global como o principal causador das mudanças

climáticas. Existe um consenso de que uma das formas de diminuir este fenômeno é a

substituição do uso de combustíveis fósseis por biocombustíveis, como o etanol.

Atualmente, o etanol é obtido a partir da fermentação dos açúcares extraídos

principalmente da cana-de-açúcar (Brasil) e do milho (EUA), sendo de fundamental

importância entender os gargalos na produção deste biocombustível nas destilarias

brasileiras para melhorar a produtividade do setor. Entre os desafios biotecnológicos mais

importantes a serem superados pode-se citar a seleção e melhoramento de cepas de

leveduras capazes de resistir às condições estressantes do processo fermentativo, como

por exemplo, o estresse osmótico, altas concentrações de etanol e temperatura, entre

outros. Assim, o presente trabalho pretende contribuir aumentando o conhecimento, a

nível genômico, das cepas produtoras de etanol, visando associar as características

fenotípicas desejáveis a genes de interesse nestas cepas industriais, através de análises

de genômica comparativa. Para isso, neste trabalho foi realizado o sequenciamento da

cepa Barra Grande (BG-1) e foram selecionadas 14 cepas industriais, proveniente de

bancos de dados públicos, para realizar as análises comparativas. O sequenciamento e

montagem da cepa BG-1 apresentou uma boa qualidade, com tamanho de cerca de 12

Mbp, conteúdo GC de 38,5%, com uma completeza genômica de 98%, onde possíveis

rearranjos cromossômicos foram verificados. Em relação a genômica comparativa, as

análises filogenômicas mostraram que algumas cepas se agrupam em ramos de acordo

com a origem geográfica, como já reportado na literatura, mas que outras se agrupam

segundo o tipo de biomassa fermentada. Neste sentido, as cepas laboratoriais, por terem

uma origem americana, se agrupam próximo às brasileiras, em um ramo diferente das

industriais europeias e asiáticas. A busca de SNPs revelou que a diversidade e

quantidade de polimorfismos não sinônimos nas cepas industriais é muito elevado em

relação à cepa de referência, S288C. A anotação desses SNPs mostrou que os processos

que se encontram mais representados são os de sinalização e transporte celular. As

análises de aumento de número de cópias gênica apontam para vários genes envolvidos

em aumento de tolerância aos processos industriais. A avaliação dos genes com

evidência de seleção positiva revelou que existem alterações em regiões importantes para

a funcionalidade de proteínas relevantes durante estresse celular. Por fim, análises do

genoma mitocondrial mostraram que três cepas brasileiras apresentaram genoma

reduzido, com ausência de regiões intergênicas. Neste trabalho foram identificados

potenciais genes que poderiam contribuir com o fenótipo das cepas industriais brasileiras,

as quais apresentam um bom desempenho fermentativo mesmo sob as condições do

processo de produção de etanol. Apesar de seu caráter exploratório, futuras avaliações

em laboratório deverão ser feitas para validar estes candidatos, visando o

desenvolvimento de cepas mais robustas.

Palavras chave: Produção de etanol 1G, genômica comparativa, leveduras industriais,

BG-1.

(8)

The ongoing changes in the world energy matrix have been repeatedly discussed in the

United Nations meetings, addressing the global warming as the main cause of climate

change. There is a consensus that one way of contributing to the reduction of the

phenomenon is the gasoline substitution for biofuels, such as ethanol. Currently, ethanol is

obtained from the fermentation of sugars extracted mainly from sugarcane (Brazil) and

corn (USA), two crops that are also used as food. Thus, it is of fundamental importance to

understand the bottlenecks in the production of first and second generation ethanol (1G

and 2G) in the Brazilian distilleries to improve the productivity of the sector. Among the

most important biotechnology challenges to be overcome is the selection and

improvement of yeast strains capable to resist the stressing conditions of the fermentation

process. Among them, can mentioned the tolerance to high temperatures, high sugar and

ethanol concentration, inhibitors such as weak acids and leached metals. In order to be

able to associate these desirable phenotypic trait to genes of interest in tolerant strains,

one of the objectives of this work was to use comparative genomic analyzes, which helped

in comparing the complete genomes of different strains. For this, 14 industrial strains were

selected from public databases, to perform comparative genomic analyzes, including a

strain sequenced, assembled and annotated in the present study, the yeast Barra Grande

1 (BG-1). Sequencing and assembly of the BG-1 strain showed a good quality with a size

of ~12 Mbp, GC content of 38.5%, a genomic completeness of 98%, where possible

chromosomal rearrangements were verified. The phylogenomic analysis showed that

some strains are grouped in branches according to the geographical origin, as reported in

the literature, but others are grouped according to the type of fermented biomass. In this

way, the laboratory strains, because they have an American origin, are grouped next to the

Brazilian ones, in a different branch from the European and Asian industrialists. The

search for SNPs revealed that the diversity and amount of non-synonymous

polymorphisms in industrial strains is very high relative to the reference strain, S288C. The

annotation of these SNPs showed that the processes that are most represented are those

of signaling and cellular transport. Gene copy number analyzes point to several genes

involved in increased tolerance to industrial processes. The evaluation of genes with

evidence of positive selection revealed that there are alterations in regions important for

the functionality of relevant proteins during cell stress. Finally, analyzes of the

mitochondrial genome showed that three Brazilian strains presented reduced genome,

with absence of intergenic regions. In this work, we identified potential genes that could

contribute to the phenotype of the Brazilian industrial strains, which present a good

fermentation performance even under the conditions of the ethanol production process.

Despite its exploratory character, future laboratory evaluations should be done to validate

these candidates, aiming the development of more robust strains.

(9)

Figura 1. Correlação entre a concentração de CO2 e aumento da temperatura …….…...15

Figura 2. Emissões globais de CO2 por queima de combustíveis ……….….…..…....16

Figura 3. Emissões globais de CO2 por queima de combustíveis por setor ….…………..17

Figura 4. Matriz energética Brasileira em 2015 ……….………...19

Figura 5. Etapas no processo de produção de etanol 1G no Brasil ………….……..…..…22

Figura 6. Diferentes fases da resposta celular ao estresse ...……….…………...23

Figura 7. Diferentes tipos de estresse aos que estão submetidas as leveduras durante o

processo de fermentação alcoólica no Brasil ………...………..……….………….25

Figura 8. Gráfico do custo de sequenciamento por Mbp …………..………....……..32

Figura 9. Passos do sequenciamento NGS e Illumina ………...… 33

Figura 10. Estatísticas dos depósitos de genes e genomas no GenBank ………..… 36

Figura 11. Histograma da cobertura do sequenciamento do genoma ……….………..….. 48

Figura 12. Alinhamento do contig 2 contra S288C ……….……….…….50

Figura 13. Verificação de contaminação com Blobtools ……….…….51

Figura 14. Estimação da ploidia utilizando o script PloidyNGS …………..………….….….53

Figura 15. Árvore filogenética das cepas ………..…….56

Figura 16. Resumo dos SNPs não sinônimos filtrados por qualidade ……….…….62

Figura 17. Avaliação dos sítios com evidência de seleção positiva ……….…….85

(10)

Tabela 1. Cepas mais utilizadas na produção de bioetanol no Brasil ………..……….29

Tabela 2. Cepas utilizadas no presente trabalho ……….….…...42

Tabela 3. Comparação das diferentes montagens do genoma da BG-1 …...…….…….…49

Tabela 4. Resumo das características genômicas das cepas ………...……….……...54

Tabela 5. Resumo das análises do genoma feita com o BUSCO …………...…….……… 55

Tabela 6. Funções celulares enriquecidas nos genes com evidência de seleção positiva

exclusivos das cepas brasileiras ……….………..………. 84

(11)

µ = microlitro

ºC = grau centígrado

ω = Ômega, razão do dN/dS

BG-1 = Cepa Saccharomyces cerevisiae Barra Grande

bp = do inglês, Base Pairs

CAT-1 = Cepa Saccharomyces cerevisiae Catanduva

CH

2

= metano

CNV = do inglês, Copy Number Variation

IEA = do inglês, International Energy Agency

CO

2

= dióxido de carbono

DSB = do inglês, Double Strand Break

ESR = do inglês, Enviromental Stress Response

EUA = Estados Unidos de América

FEL = do inglês, Fixed Effects Likelihood

GEE = gases de efeito estufa

HMF = Hidroximetil furfural

HOG = do inglês, High Osmolarity Glycerol response

HSP = do inglês, Heat Shock Proteins

HT = do inglês, Horizontal Transfer

indel = do inglês, insertions and deletions

kbp = do inglês, Kilo base pairs

LRT = do inglês, Likelihood Rate Test

Mbp = do inglês, Mega Base Pairs

MMS = do inglês, Methyl Methane Sulfonate

MP = do inglês, Mate Pairs

mRNA = do inglês, messenger Ribonucleic Acid

NDC = do inglês, Nationally-Determined Contribution

NGS = do inglês, Next Generation Sequencing

NIH = do inglês, National Institute of Health

ORF = do inglês, Open Reading Frame

PE = do inglês, Paired End

PE-2 = Cepa Saccharomyces cerevisiae Pedra

REL = do inglês, Random Effects Likelihood

ROS = do inglês, Reactive Oxygen Species

SA-1 = Cepa Saccharomyces cerevisiae Santa Adélia

SNP = do inglês, Single-Nucleotide Polymorphism

UNFCCC = do inglês, United Nations Framework Convention on Climate Change

VR-1 = Cepa Saccharomyces cerevisiae Vale do Rosário

(12)

1.1. O contexto socioeconômico e o uso dos biocombustíveis ……….…..….14

1.2. O processo de produção de etanol brasileiro ………..…….……. ...… 20

1.3. Um lugar estressante para viver: a dorna de fermentação ………..……....… 22

1.4. As cepas brasileiras: a diversidade como base para a tolerância industrial ...….. 28

1.5. Bioinformática: a ponte entre a biologia e análise de dados em larga escala ….. 31

1.6. Genômica comparativa: um enfoque evolutivo para um entendimento profundo

……….. 34

2. Objetivos ……...……….………38

3. Material e Métodos ……...……….…...…...39

3.1. Sequenciamento do genoma de BG-1 na plataforma Hi-Seq 2500 ……..…...…...39

3.1.1. Cultivo da levedura e extração de DNA ……….…….…...….. 26

3.1.2. Geração das bibliotecas e sequenciamento ……….…...…... 39

3.2. Montagem e análise do genoma de BG-1 ………40

3.3. Genômica comparativa de leveduras ………..…...……. 41

3.3.1. Inferência filogenética ………42

3.3.2. Análise da expansão e retração das famílias ……….….. 43

3.3.3. Detecção de polimorfismos de nucleotídeo único (SNPs) ………..43

3.3.4. Avaliação de variação de número de cópias ……… 44

3.3.5. Avaliação das taxas de evolução relativas ……….44

3.3.6. Comparação dos genomas mitocondriais ………...….……..46

3.3.7. Análises de enriquecimento ………...………...…….…..46

4. Resultados e discussão ………...…….…..47

4.1. Montagem do genoma de BG-1.………...……...…….…47

4.2. Genômica comparativa das leveduras fermentadoras de etanol ………...….…... 54

4.2.1. Filogenômica ………..….…….…..54

4.2.2. Análise de expansão das famílias gênicas ………...…….58

4.2.3. Avaliação de SNPs ………...……….61

4.2.3.1. Análises dos SNPs implicados nas mudanças missense …....…...62

4.2.3.2. Análises dos SNPs implicados nas ganho de stop-codon ….….….68

4.2.3.3. Análises dos SNPs implicados nas perdas de stop-codon …….….74

4.2.3.4. Análises dos SNPs implicados nas perdas de start-codon ……….77

4.2.4. Análises de variação de número de cópias ……….…….…...…..80

4.2.5. Análise da taxa de evolução: dN/dS ……….84

4.2.6. Comparação de genomas mitocondriais ……….………....87

5. Conclusões gerais e perspectivas futuras ….………...……….…..90

6. Referências ……….………...…………...92

Anexo 1: Publicações científicas ……….………….…110

Anexo 2: Termo de bioética e biossegurança ……….………..………….111

Anexo 3: Termo de direitos autorais ……….…………...112

(13)

1. Introdução

1.1. O contexto socioeconômico e o uso de biocombustíveis

Desde o controle do fogo pelos primeiros hominídeos há três milhões de anos, a

energia dirige a evolução das civilizações, tendo um grande impacto nas atividades

cotidianas, como a autoproteção, caça, cozimento de alimentos e a fabricação de

armas (JAMES et al., 1989). E isso ainda não tem mudado. Atualmente, as civilizações

são dependentes de energia para seu desenvolvimento, e os combustíveis fósseis,

como carvão e petróleo, são as principais fontes, chegando a representar 81,4% da

energia utilizada no mundo (IEA, 2017). Essas fontes de energia estão causando

impactos ambientais enormes dado à queima dos combustíveis fósseis e a emissão

dos gases do efeito estufa (GEE), sendo a principal causa das mudanças climáticas.

Esta queima tem aumentado exponencialmente desde a revolução industrial, em

meados de 1880 (ASIF; MUNEER, 2007).

O carbono é o elemento mais comum na crosta terrestre, com reservatórios

continentais, oceânicos e atmosféricos. As concentrações de carbono em cada um

destes reservatórios são reguladas por processos naturais do ciclo do carbono, e as

mudanças climáticas globais são causadas por perturbações nesse ciclo. Na

atmosfera, as formas mais comuns deste elemento são o dióxido de carbono (CO

2

) e o

metano (CH

4

) e na biosfera na forma de compostos orgânicos e inorgânicos, sendo que

o fluxo entre estas duas partes é regulada principalmente pela fotossíntese (COX et al.,

2000). Porém, desde 1950 as emissões de GEE tem ultrapassado o processo de

absorção de carbono, o que levou ao aumento abrupto do CO

2

na atmosfera (IEA,

2016) e da temperatura global (Figura 1).

Além do aumento da temperatura, o aumento de CO

2

ocasiona outros efeitos

colaterais, como alteração do balanço ecológico devido a degradação ambiental,

aumento de incidência de doenças tropicais, inundação, secas excessivas, entre outros

(ASIF; MUNEER, 2007). As alterações climáticas podem inclusive gerar grandes

consequências econômicas; sabe-se que as catástrofes associadas as mudanças

globais, como inundações e temporais, se multiplicaram 9 vezes entre os anos 1960 e

(14)

1990, gerando perdas na ordem de bilhões de dólares e milhares de vidas humanas.

Um caso bem conhecido foi a furação Katrina, em 2005, que causou perdas materiais

de mais de 125 bilhões de dólares, e a morte de mais de 1000 pessoas (ASIF;

MUNEER, 2007).

Figura 1. Medições anuais mostram o aumento da temperatura global causado pelo efeito estufa, devido

ao acúmulo de GEE na atmosfera terrestre (baseado em medições da superfície terrestre e oceânica). A linha preta mostra as médias anuais de temperatura mundial (Anual mean), enquanto a linha vermelha representa a linha de tendência do incremento da temperatura (Lowess smooting) (Nasa Giss, 2017).

Considerando que as mudanças climáticas representam um perigo real para a

sobrevivência da espécie humana, em 2015, durante a 21º Conferência das Partes

(COP21), foi adotado o Acordo de Paris com o objetivo de atuar ativamente na

mitigação das emissões dos GEE, a denominado NCD (Nationally-Determined

Contribution), que é responsável por identificar adaptação dos países às mudanças

políticas e sociais necessárias que isso supõe, assim como financiar as mudanças,

com início em 2020. O objetivo principal é manter a temperatura global no máximo 2°C

acima em relação aos níveis de aquecimento pré-industriais. O acordo foi considerado

uma referência no contexto das mudanças climáticas, já que foi assinado por 195

países, mais de 95% dos países, demonstrando um forte movimento na busca de

soluções para os impactos antropogênicos causados no ambiente (FGV ENERGIA,

(15)

2017). Este acordo determina também quais países devem colocar mais ênfase em

planejamento e adaptação, e como as partes (cada um dos países) integrariam

esforços para atingir os objetivos (COP, 2015). Em teoria, este tipo de atividade

conjunta reforça as políticas de colaboração entre as partes, dando ao Acordo de Paris

um objetivo mundial comum, ausentes nos acordos prévios do UNFCCC (United

Nations Framework Convention on Climate Change).

No acordo, cada país é encarregado de identificar o setor de mitigação mais

importante. Durante estas análises, Gota e colaboradores (2016) identificaram o setor

de transporte como responsável por aproximadamente 23% das emissões de CO

2

ao

redor do mundo (Figura 2). Este setor é o maior consumidor de energia em 40% dos

países e o segundo maior nos restantes, com uma emissão de 8.5 gigatones (1×109

toneladas de CO

2

). Estes valores, quando comparado com os valores prévios a 1995,

que foram de 5.2 gigatones, mostram um incremento de 30% nas emissões (GOTA et

al., 2016).

Figura 2. Emissões globais de CO2 por setor em 2014. Pode-se observar que após a energia elétrica (42%), o setor responsável por maisemissão é o de transporte (23%) (Adaptado de FGV Energia 2016).

Foram propostas diferentes estratégias de mitigação pelo setor de transporte

dependendo no nível de desenvolvimento do país: países de baixa, média e alta

renda. Para os países de baixa renda ou subdesenvolvidos, foi proposto melhorar o

(16)

fluxo do tráfico de veículos nas maiores cidades, incentivar o desenvolvimento do

transporte público urbano e reduzir as taxas do mesmo, assim como otimizar e ampliar

a infraestrutura ferroviária. Para os países de renda alta ou desenvolvidos, as medidas

propostas foram aumentar a eficiência dos combustíveis, promover desenvolvimento de

carros de nova geração, como os que utilizam células de energia elétrica, melhorar o

trânsito promovendo desenvolvimento urbano e compartilhamento de carros e utilizar

combustíveis de aviação e marítimos com baixa emissão de carbono. Para os países

de renda média, como o Brasil, as estratégias propostas incluem estimular o transporte

público, redução de uso de veículos particularmente em áreas densamente povoadas e

promover o desenvolvimento de alternativas de combustíveis renováveis (GOTA et al.

2016).

No Brasil, a parcela de emissão de CO

2

pelo setor de transportes é ainda maior

que no resto do mundo: atinge 43% (Figura 3) (FGV ENERGIA, 2017). Neste contexto,

o Brasil se comprometeu a promover medidas de eficiência na infraestrutura de

transporte público, além de melhorar as vias de tráfico urbanas, assumindo o

compromisso de reduzir as emissões de GEE em 37% até 2025 e 43% até 2030, tendo

como referência o ano de 2005.

Figura 3. Emissões no Brasil de CO2 por setor em 2014. Diferentemente do gráfico anterior, no Brasil a queima de combustíveis para transporte é o principal emissor de CO2 na atmosfera, sendo assim, uma prioridade o desenvolvimento de alternativas de biocombustíveis renováveis (Adaptado de FGV Energia 2016).

(17)

Essa delicada situação determinou a necessidade de desenvolver fontes de

energia verde, que permitam suprir as demandas futuras mundiais sem causar danos

ambientais irreparáveis. Fontes de energia renováveis como energia solar, energia

eólica, biomassa e energia geotérmica são abundantes, inesgotáveis e amplamente

disponíveis (ASIF; MUNEER, 2007; MACEDO; SEABRA; SILVA, 2008; HO; NGO;

GUO, 2014). A energia produzida a partir de biomassa é representada principalmente

pelo etanol, um combustível renovável feito da cana-de-açúcar, milho e outros

materiais vegetais. O sucesso da produção deste biocombustível é dependente de

poucas variáveis, tais como a terra, com os nutrientes e recursos hídricos; a taxa de

crescimento das plantas e a quantidade de luz solar incidente (uma equação

fotossintética), entre outros. Esse contexto permitiu ao Brasil o desenvolvimento de

tecnologias para desenvolver a produção de biocombustíveis há mais de 30 anos, e de

integrá-los à matriz energética (ROSILLO-CALLE; CORTEZ, 1998).

O uso considerável de biocombustíveis renováveis na matriz energética

brasileira começou com a produção de etanol, incentivado pelo Programa Nacional do

Álcool (Proálcool) em 1975 (ROSILLO-CALLE; CORTEZ, 1998; SOCCOL et al., 2005),

visando reduzir a dependência do país ao petróleo importado. O preço do petróleo

bruto é extremamente sensível a uma série de fatores geopolíticos, de modo que

diferentes conflitos desempenham um papel importante ao provocar aumento no seu

preço global. Essa foi a motivação da criação do programa Proálcool, que surgiu em

resposta à crise do petróleo após a Guerra do Yom Kippur (1973), na qual as despesas

anuais para sua importação de passaram de US$ 600 milhões para US $2,5 bilhões

(ASIF; MUNEER, 2007). Assim, antes de existir uma preocupação ambiental, o Brasil

voltou-se para os biocombustíveis por questões de segurança energética e econômica,

assumindo uma posição de liderança tecnológica em relação à maioria dos países

(AMORIM et al., 2011; FGV ENERGIA, 2017). Isso fez do Brasil um dos maiores

produtores de bioetanol, com um mercado interno bem desenvolvido e cada vez mais

estimulado pela produção nacional de carros flex fuel (que usam gasolina e etanol)

(IBETO; OFOEFULE; AGBO, 2011). A alta produção de bioetanol tem sido possível

devido a novas variedades de cana-de-açúcar, clima favorável, solos férteis e

investimento constante em tecnologia, colocando o Brasil como um país com uma das

(18)

matrizes energéticas mais renováveis no mundo industrializado (CERQUEIRA LEITE et

al., 2009), com 43,5% de sua produção a partir de fontes como recursos hídricos e

biomassa (Figura 4) (EPE, Balanço Energético 2017).

Figura 4. Matriz energética Brasileira em 2016: 43,5% de toda a energia produzida é a partir de fontes

renováveis, como o etanol produzido a partir da cana-de-açúcar, carvão e madeira vegetal, energia hidroelétrica, entre outros (EPE, Balanço Energético 2017).

Atualmente, a produção de bioetanol pode ser classificada em três gerações,

dependendo da matéria-prima e processo tecnológico. O etanol de primeira geração

(1G) é produzido a partir da sacarose ou amido, principalmente provenientes da

cana-de-açúcar e milho, mas já existe processo de produção usando cereais como trigo e

arroz, assim como diferentes raízes (como beterraba e mandioca) (HO; NGO; GUO,

2014), sendo a tecnologia que produz a maior quantidade de etanol comercializada

atualmente no mundo. O etanol de segunda geração (2G) é produzido a partir de

matéria-prima lignocelulósica, como sólidos agroindustriais e urbanos (LIMAYEN et al.,

2012; HO; NGO; GUO, 2014), no entanto, o etanol 2G ainda não é comercializado em

grande escala devido a vários gargalos biotecnológicos que precisam ser superados

para que ele represente uma alternativa de combustível sustentável, em escala

industrial (BANERJEE et al., 2010). A terceira geração (3G) é o etanol produzido por

microalgas fotossintéticas. Essa tecnologia ainda está em fase de desenvolvimento e

experimentação, e precisa de um maior aprimoramento para se tornar uma fonte de

(19)

produção de etanol sustentável e economicamente viável (LIMAYEN et al., 2012; HO;

NGO; GUO, 2014).

1.2. O processo de produção de etanol brasileiro

Nos Estados Unidos (EUA), o primeiro motor a ser desenhado para usar este

combustível foi introduzido no ano 1899, por Henry Ford, o qual era capaz de utilizar

gasolina, etanol ou uma mistura de ambos, baseado no modelo do alemão Nikolaus

Otto (LIMAYEM et al., 2012). Porém, vários acontecimentos históricos, tais como a

Guerra Civil dos Estados Unidos, e a proibição de bebidas alcoólicas pela Lei Seca

(IEA, 2018), dificultaram a implementação da produção de etanol em larga escala. Esta

situação foi agravada após a Segunda Guerra Mundial pois, devido a falta de alimento,

houve pouco interesse em destinar cultivos para combustíveis, o que foi incentivado

pelo baixo custo do petróleo. Desta forma, o etanol não foi utilizado como combustível

na matriz energética dos EUA até o começo dos anos ‘90, devido ao risco de

esgotamento das reservas de petróleo (HARVEY; PILGRIM, 2011).

Em termos de produção mundial, os EUA são líder com uma produção de cerca

de 15.800 milhões de galões em 2017 e o Brasil ocupa a segunda posição com 7.060

milhões de galões no mesmo ano (Renewable Fuels Association, 2018). O Brasil

historicamente é conhecido pela sua produção de cana-de-açúcar, com elevadas taxas

de produtividade (ALMEIDA et al., 2007; HARVEY; PILGRIM, 2011). Já nos EUA, a

cana não tem as condições climáticas ideais para se desenvolver (MARIN et al., 2016),

sendo que a biomassa utilizada é o milho. Entre os processos de produção de etanol

1G brasileiro e americano existem várias semelhanças e diferenças. Para produzir

etanol no Brasil (Figura 5), a cana é colhida, lavada, moída e o suco extraído é tratado

para remover as impurezas (AMORIM et al., 2011). Nesta etapa de moagem e extração

do caldo, gera-se o bagaço, que é utilizado para geração de energia nas destilarias

(GOLDEMBERG; GUARDABASSI, 2010). O suco da cana junto com o melaço, resíduo

de cristalização do açúcar, compõem o mosto que vai para o fermentador, onde é

fermentado por leveduras (Saccharomyces cerevisiae), sendo uma das características

típicas do processo de produção de etanol brasileiro, a reciclagem destas células

(20)

(WHEALS et al., 1999). As fermentações industriais são realizadas com alta densidade

de células e com curta duração (6-12 horas), então o vinho é centrifugado para separar

as células de levedura, que seguem para um tratamento de duas horas com ácido

sulfúrico (pH 2.0-2.5), para diminuir a contaminação bacteriana. Depois, as células

retornam aos fermentadores para iniciar um novo ciclo fermentativo, e este processo é

repetido durante toda a safra (AMORIM et al., 2011). O etanol gerado como produto da

fermentação é destilado e convertido em etanol anidro ou hidratado, para ser

comercializado como combustível ou aditivo para carros (BASSO et al., 2008; AMORIM

et al., 2011).

Similar ao etanol brasileiro, o etanol obtido do milho no EUA também passa

pelos processos de moagem, fermentação alcoólica e destilação, porém com algumas

diferenças no processo: i) devido os açúcares serem derivados de amido, é necessário

um passo de despolimerização antes da fermentação, com enzimas tais como

amilases; ii) dependendo do tipo de moinho, as etapas de despolimerização e a

fermentação podem ser feitas em uma única etapa (Sacarificação e Fermentação

Simultânea ou SSF) ou hidrólise e posterior fermentação (Hidrólise e Fermentação

Separadas ou SHF); iii) no processo de produção do etanol americano, previamente à

fermentação, o milho é cozido, reduzindo a contaminação; (iv) nesse processo a

levedura não é reciclada e, finalmente, v) o tempo de fermentação é maior, até 72

horas (BOTHAST; SCHLICHER, 2005), enquanto o processo brasileiro não ultrapassa

10 horas (AMORIM et al., 2011). Outra vantagem da produção brasileira em relação à

americana é o rendimento, estima-se que um hectare possa produzir até 79,5

toneladas de cana, enquanto a produtividade do milho é de apenas 9,9 toneladas por

hectare, representando 7.200 e 3.800 litros por hectare de etanol de cana-de-açúcar e

milho, respectivamente (CONAB, 2012; HO; NGO; GUO, 2014). Apesar das vantagens

do uso de biocombustíveis, há preocupações quanto à sustentabilidade do processo,

no que se refere a economizar recursos finitos como água, terra arável e reduzir a

queima de campos de cana para diminuir as emissões de gases de efeito estufa

(AMORIM et al., 2011).

(21)

Figura 5. Etapas no processo de produção de etanol 1G no Brasil. A cana é colhida do campo,

transportada (2), moída (3) para extração do suco. O suco passa pelo decantador, onde é clarificado (4) e posteriormente levado para concentrar nos evaporadores (5). Este processo prévio é comum à produção de açúcar e etanol, e o melaço derivado da produção de açúcar é destinado a fermentação (6). O mosto (suco + melaço) é levado para o fermentador, onde as leveduras são adicionadas (7) para realizar fermentação, e o mosto fermentado é centrifugado (8). As leveduras são separadas e submetidas a um tratamento ácido (10) para diminuição da contaminação antes de retornarem ao fermentador. Após, o mosto fermentado é destilado e separado em etanol e vinhaça (11). Os processos 8, 9 e 10 são repetidos ao longo de toda safra com as mesmas leveduras adicionadas no começo da mesma. Adaptado de Amorim 2011.

1.3. Um lugar estressante para viver: a dorna de fermentação

Uma das características da vida é a excitabilidade, definida como a capacidade

de responder aos estímulos ambientais. As células estão constantemente expostas a

um meio externo, que influência o desenvolvimento e a atividade celular, mas quando

essa influência altera ou ameaça a sobrevivência celular, ou, pelo menos, a mantém

longe do ideal, pode ser definido como estresse (HOHMANN; MAGNER, 2003).

A resposta ao estresse ambiental é um processo muito complexo, mas pode ser

dividido em três fases (Figura 6), que pode variar dependendo do tipo de estímulo. A

exposição ao estresse e os danos imediatos constituem o primeiro evento, produzindo

mudanças intracelulares imediatas para resistir aos danos causados. A fase dois

(22)

envolve a percepção das alterações e sinalização celular, na qual a célula inicia

mudanças na expressão gênica e na síntese de proteínas que ajudam a tolerar esse

estresse. O último passo é a adaptação ao estímulo, a integração de todas as

modificações induzidas pelo estresse, que visam voltar ao estado homeostático,

retomar o crescimento e o estado proliferativo (HOHMANN; MAGNER, 2003), essencial

para a sobrevivência celular. De forma independente, todos tipos de estresse ativam

em primeira instância os chamados genes de resposta ao estresse ambiental (do

inglês, Enviromental Stress Response, ESR) (GASCH; WERNER-WASHBURNE,

2002), como uma via convergente de estresse (HOHMANN; MAGNER, 2003), e logo

serão ativadas as vias específicas.

O processo fermentativo brasileiro impõe vários desafios e estresses às

leveduras industriais, como o estresse osmótico, com altas concentrações de açúcar no

início e alta concentração de etanol no final, tratamento ácido para reduzir a

contaminação, reciclo celular, altas temperaturas e também competição com leveduras

selvagens e bactérias (BASSO et al., 2008). É fato que as leveduras industriais são

mais resistentes ao estresse do processo brasileiro e possuem um melhor desempenho

fermentativo em relação às cepas laboratoriais (Figura 7) (DELLA-BIANCA;

GOMBERT, 2013). A seguir, detalharemos um pouco mais sobre esses estresses.

Figura 6. Diferentes fases da resposta celular ao estresse. Quando as células são submetidas a

situações estressantes, passam por diferentes fases que ajudam a recuperar o estado de homeostase. Na primeira fase, as células têm que lidar com os danos celulares ocasionados pela exposição ao estresse. Este dano ativa a segunda linha de defesa da célula, onde ocorre a ativação de mecanismos que permitam uma resposta frente a situação estressante. Na terceira fase, a célula volta a um estado de homeostase após a integração dos estímulos da fase 2.

(23)

Como mencionado acima, as células são recicladas inúmeras vezes, sendo

tratadas com ácido sulfúrico (H

2

SO

4

), o que é um importante estresse para a levedura,

que requer linhagens robustas, capazes de se manterem viáveis enquanto são

submetidas reiteradamente ao processo. Entretanto, não existem trabalhos que

descrevam a resposta celular ou molecular das células durante estes tipos específicos

de estresse, por isso ele não será explorado em maior detalhe.

Durante a fermentação, as leveduras também têm que tolerar um alto estresse

osmótico, no início devido à alta concentração de açúcar do melaço e, no final, uma

alta concentração de etanol. O estresse osmótico ocasiona uma resposta fisiológica

causada por alterações na concentração de soluto ao redor da célula, provocando uma

rápida mudança no movimento da água através da membrana celular. Quando há um

aumento na osmolaridade externa (estresse hiperosmótico) a água se dispersa para

fora da célula através da osmose, causando alterações como por exemplo, inibição do

transporte de substratos. Alternativamente, baixas concentrações de solutos

extracelulares (estresse hipo-osmótico), causará influxo de água, provocando

enchimento celular, ou inclusive apoptose ou lise (CSONKA; HANSON, 1991;

BLOMBERG; ADLER, 1992). Este tipo de estresse também perturba a membrana

plasmática no nível de sua estrutura, permeabilidade e propriedades mecânicas,

afetando a viabilidade celular e sobrevivência da célula. Esses tipos de alterações na

membrana celular causam a retenção do ciclo celular, geralmente na fase G1

(HOHMANN; MAGNER, 2003). Esta provavelmente pode ser uma das razões que

explicam o baixo nível de divisão celular das leveduras durante a fermentação

alcoólica, a qual é ~10% por ciclo (LOPES et al., 2015).

(24)

Figura 7. Diferentes tipos de estresses aos que estão submetidas as leveduras durante o processo de

fermentação alcoólica no Brasil. Devem suportar alto estresse osmótico, tratamento com ácido sulfúrico, competição intra e interespecífica, temperaturas elevadas, presença de ácidos fracos e reciclo celular. Desta forma, as leveduras industriais devem ser robustas para resistirem a esta condição industrial e fermentarem com eficiência.

Ao longo do processo fermentativo, as leveduras devem tolerar uma quantidade

crescente de etanol, a medida que os açúcares são consumidos. As leveduras

selvagens são naturalmente capazes de tolerar pequenas concentrações de etanol, já

que ele atua como inibidor do crescimento bacteriano, diminuindo a competição

(INOUE et al., 2000). Porém, em grandes quantidades têm efeitos tóxicos sobre as

células, já que aumenta a fluidez da membrana, e uma vez dentro da célula,

desencadeia o acúmulo de espécies reativas de oxigênio. Para conseguir se sobrepor

a este estresse, as leveduras industriais possuem diferentes modificações no nível

funcional, tais como modificações na composição de membrana, aumento de

(25)

quantidade de proteínas da família HSP70

(do inglês, Heat Shock Protein, proteína de

choque por calor)

, trealose, e transcrição diferencial de genes (plasticidade fenotípica)

(DING et al., 2009). Estas modificações conferem as leveduras industriais uma maior

tolerância às grandes concentrações de etanol.

Como mencionado anteriormente, o processo brasileiro de etanol não é estéril,

sendo este um problema importante. A contaminação bacteriana não só compete com

as leveduras no consumo de açúcar, como também produzem ácidos orgânicos, como

ácido láctico e acético, que afetam seriamente o desempenho das cepas durante a

fermentação (CSONKA; HANSON, 1991). Os ácidos orgânicos mais abundantes na

fermentação de biocombustíveis estão representados pelos ácidos lático e acético

(LOPES et al., 2015). Em condições de baixo pH (<4,7), estes ácidos (pKa 3,86 para o

lático e 4,76 para o acético) estão em estado não dissociado, e podem entrar na célula

através de difusão simples (SCHNÜRER; MAGNUSSON, 2005; GENG; ZHANG; SHI,

2017). Uma vez no citoplasma, dissociam-se em ânion lactato e acetato

respectivamente, e prótons acidificam o citoplasma, levando ao aumento da atividade

da bomba de prótons e impactando consideravelmente no aumento da depleção de

ATP, o que finalmente causa inibição de alguns importantes processos metabólicos

(ARNEBORG; JESPERSEN; JAKOBSEN, 2000; SCHNÜRER; MAGNUSSON, 2005).

Embora o ácido lático encontra-se duas vezes mais concentrado que o ácido acético

durante a fermentação, este último possui uma toxicidade quase que 5 vezes maior,

sendo quantidades mínimas inibitórias para o crescimento da levedura

(NARENDRANATH; THOMAS; INGLEDEW, 2001).

A levedura S. cerevisiae é sensível ao ácido acético, mas pode sobreviver na

presença de baixas concentrações. Os ânions acetato podem ser convertidos em

acetil-CoA, então o acetil-CoA entra no ciclo tricarboxílico ou no ciclo glioxilato (GENG;

ZHANG; SHI, 2017). A levedura adaptada ao ácido acético apresenta diversas

alterações fisiológicas, incluindo a reorganização da parede celular e da membrana,

recuperação do pH, efluxo de ânions, desintoxicação e melhora na produção de ATP

(ARNEBORG; JESPERSEN; JAKOBSEN, 2000).

Além dos estresses anteriormente relatados, durante a produção de etanol, a

levedura é exposta a temperaturas elevadas, já que o processo de produção de etanol

(26)

é exotérmico, submetendo as células a altas temperaturas que, em média, ficam entre

32ºC e 35ºC, mas pode chegar a mais de 40ºC no verão, mesmo como sistema de

resfriamento das dornas (BASSO et al., 2011). Vários autores descreveram o acúmulo

de glicerol e trealose intracelular, um aumento na síntese de chaperonas e proteínas de

choque térmico (HSPs) como respostas principais para o estresse térmico. Todas

essas atividades estão relacionadas à estabilização de proteínas para prevenir a

desnaturalização e a perda de função (HOHMANN; MAGNER, 2003). Cada um dos

estresses descritos anteriormente, afeta, na maioria dos casos, a grupos de genes de

estresse específicos em vias específicas, ao contrário do choque térmico. Durante a

exposição ao calor, todas as vias celulares se encontram potencialmente ameaçadas,

já que todas as proteínas têm praticamente o mesmo risco de serem desnaturadas

(GASCH; WERNER-WASHBURNE, 2002). Devido à intensidade do estresse causado

pela temperatura, é muito provável que esse estímulo seja capaz de ativar outras vias,

e indiretamente causar adaptação a outros tipos de situações estressantes

(HOHMANN; MAGNER, 2003; GUYOT et al., 2015; SHUI et al., 2015). Além das

vantagens fisiológicas que organismos com maior termotolerância possuem, existem

razões econômicas que os tornam interessantes, tais como redução de custo

associado a fermentações a temperaturas mais elevadas, redução de contaminações e

até mesmo a extração de etanol in situ durante a fermentação (GASCH;

WERNER-WASHBURNE, 2002; HOHMANN; MAGNER, 2003).

Apesar de S. cerevisiae ser o organismo preferido para a produção de etanol e

ter sido extensivamente estudado, as bases genéticas dos mecanismos de tolerância

aos estresses e como isso afeta o metabolismo da levedura não são totalmente

compreendidas. Existe uma extensa literatura que descreve o comportamento da

levedura durante as fermentações (KLINKE; THOMSEN; AHRING, 2004; AGUILERA;

RANDEZ-GIL; PRIETO, 2007; CASPETA; NIELSEN, 2015; GUYOT et al., 2015; SHUI

et al., 2015; KITICHANTAROPAS et al., 2016), mas nenhum desses trabalhos

apresenta uma abordagem genômica das cepas brasileiras, que permita entender a

base genômica de cada uma delas e que auxilie no entendimento do desempenho

destacável delas durante as fermentações.

(27)

1.4. As cepas brasileiras: a diversidade como base para a tolerância industrial

A levedura S. cerevisiae é uma das espécies mais utilizadas na indústria para

produção de diferentes produtos, tais como alimentos, medicamentos e

biocombustíveis (STEENSELS et al., 2014). Porém, a escolha das cepas nem sempre

é a adequada para os processos, já que muitas vezes a escolha é feita por costume ou

motivos históricos, o que influência na produtividade do sistema (STEENSELS et al.,

2014).

Para os processos industriais, o fenótipo da cepa é uma caraterística muito

importante já que influência diretamente na produtividade. É por isso que explorar a

diversidade natural existente das cepas em busca de leveduras com características

que possam contribuir aos fenótipos tolerantes aos processos específicos de produção

é fundamental (STEENSELS et al., 2014). É sabido que muitas cepas industriais de S.

cerevisiae possuem uma arquitetura genética muito mais complexa em comparação

com cepas de laboratório, que foram selecionadas paor apresentarem características

particulares como boa reprodução sexual, crescimento ótimo e fácil manuseio em

laboratório (MORTIMER; JOHNSTON, 1986). Em contraposição, as cepas industriais

frequentemente mostram mudanças na composição cromossômica (como aneuploidia

ou poliploidia), baixa eficiência de esporulação, e dificuldade para trabalhar com

técnicas de biologia molecular (STEENSELS et al., 2014). Desta forma, fica claro que

as características fisiológicas, fenotípicas e genômicas das cepas laboratoriais não

representam as linhagens industriais (STEENSELS et al., 2014), e que muitos trabalhos

desenvolvidos com elas não podem ser aplicados às cepas industriais. Por essa razão,

é de importância primordial um estudo aprofundado das linhagens que são utilizadas

na indústria, já que muitas não possuem todas as características importantes para

tolerar o processo da maneira mais adequado (STEENSELS et al., 2014).

No Brasil existem várias cepas de S. cerevisiae fermentadoras de etanol

amplamente utilizadas nas usinas. Este grupo de cepas foi isolado das destilarias

brasileiras durante a década dos anos 90 por grupos diferentes (BASSO et al., 2008),

sendo as linhagens conhecidas como BG-1 (isolada da usina Barra Grande), SA-1

(isolada da usina Santa Adélia), CAT-1 (isolada da usina Catanduva), PE-2 (isolada da

usina da Pedra) e VR-1 (isolada da usina Vale do Rosário) as que apresentaram

(28)

melhores características de tolerância ao processo de produção de etanol de

cana-de-açúcar (Tabela 1).

Tabela 1. Cepas mais utilizadas na indústria do bioetanol no Brasil.

Basso e colaboradores (2008) mostraram em seu estudo com diferentes

linhagens que BG-1, PE-2 e CAT-1 apresentaram uma notável capacidade de competir

com leveduras selvagens, inclusive com outros gêneros não-Saccharomyces,

sobrevivendo e dominando o processo de fermentação industrial. Isso é fundamental,

já que uma das características do processo de produção do etanol brasileiro é que o

mosto a ser fermentado não é esterilizado (BATISTOTE et al., 2010). Além disso, estas

cepas apresentam outras vantagens, como: i) baixa formação de glicerol e espuma, ii)

não floculam, iii) alto rendimento na produção de etanol, iv) consumo de todo açúcar

presente no mosto (fermentação completa) e v) capacidade de manter a viabilidade nos

reciclos de células (BASSO et al., 2008).

A linhagem SA-1, assim como as leveduras previamente descritas, apresenta

capacidade de resistir à competição com leveduras selvagens, e uma das

características mais interessantes é que possui uma notável resistência à pressão

osmótica, temperatura e concentração de álcool durante a fermentação (TOSETTO,

2008). A cepa VR-1 é diplóide, heterotálica, conhecida por sua alta tolerância a etanol

(LOPES et al., 2015). Foi isolada no ano 1994, logo após ter contaminado uma dorna

de fermentação e apresentar uma alta dominância durante o processo (SWINNEN et

al., 2015).

Cepa Local Ano Referência

BG-1 Usina Barra Grande 1993 BASSO et al., 2008 SA-1 Usina Santa Adélia 1993 BASSO et al., 2008 PE-2 Usina da Pedra 1994 BASSO et al., 2008 VR-1 Usina Vale do Rosário 1994 BASSO et al., 2008 CAT-1 Usina Catanduva 1998 BASSO et al., 2008

(29)

Entre as características genômicas já conhecidas que conferem resistência as

cepas mais estudadas, sabe-se por exemplo, que CAT-1, PE-2, BG-1 e VR-1 possuem

aumento do número de cópias dos genes SNO e SNZ, envolvidos na biossíntese de

tiamina (vitamina B1) e piridoxina (B6) (STAMBUK et al., 2009b) o que garante um

eficiente crescimento em meio com alta concentração de açúcar e na ausência destas

vitaminas, essenciais para o metabolismo de açúcar. A PE-2 apresenta rearranjos

estruturais no genoma e aumento de número de cópias de genes associados a

estresse ambiental (ARGUESO et al., 2009; LOPES et al., 2015). Na literatura

encontra-se descrito que os genomas de cepas industriais são geralmente diploides,

altamente heterozigóticos e com elevados polimorfismos estruturais e funcionais

(LOPES et al., 2015; GALLONE et al., 2016; YUE et al., 2017). Isso acontece porque as

leveduras se encontram em um ambiente estressante, e uma maior variabilidade

genética possibilita o surgimento de variantes ou combinações que possam ser

benéficas, e ajudem as células a tolerar o processo. Tem sido proposto que os

fermentadores industriais funcionam como ilhas dirigindo a evolução adaptativa das

cepas para condições específicas (QUEROL et al., 2003), permitindo, desta forma,

moldar os genomas aos estresses do processo (LOPES et al., 2015).

Como cada cepa foi isolada de destilarias diferentes, elas têm backgrounds

genéticos distintos e as mudanças em cada um dos genomas podem ser únicas. Tendo

isso em vista, para conhecer as características genômicas específicas de cada uma e

conseguir associar os genótipos aos fenótipos observados, se faz necessário uma

comparação profunda. Esta análise também pode mostrar quais são os atributos

indispensáveis para as cepas fermentadoras e que fazem delas linhagens tolerantes.

Conhecer as cepas em maior profundidade também poderia auxiliar na modificação

genética e metabólica racional, para que inclusão de vias metabólicas alternativas seja

bem-sucedido. Neste sentido, existem estudos na literatura indicando que a inserção

das mesmas modificações genéticas em cepas diferentes pode resultar em fenótipos

distintos (ROMANÍ et al., 2015; COSTA et al., 2017), o que se deve a singularidade

genética de cada cepa. Assim, é importante estudos genômicos, para o qual são

necessárias ferramentas de bioinformática poderosas, que permitam uma análise

detalhada, e ao mesmo tempo rápida e eficiente.

(30)

1.5. NGS e bioinformática: a ponte entre a biologia e análise de dados em larga

escala

A bioinformática, segundo uma das definições mais simples, é o uso das

ciências da computação e estatística para a gestão de dados biológicos, utilizando

recursos computacionais para resolver problemas, organizar e extrair informação de

experimentos, em geral, em larga escala, tornando eles acessíveis (LUSCOMBE;

GREENBAUM; GERSTEIN, 2001). Atualmente o termo bioinformática e biologia

computacional são usados como sinônimos, porém possuem áreas de atuação, mesmo

que bem interconectadas, distintas. Ambas ciências integram conhecimentos de áreas

como a informática, matemática aplicada, ciência da computação, inteligência artificial,

bioquímica, estatística e biologia. O Instituto Nacional de Saúde dos EUA (do inglês,

National Institute of Health, NIH) (HUERTA et al., 2000), admite que nenhuma definição

evita a sobreposição dos termos, mas define explicitamente cada um deles: a biologia

computacional foi definida como o desenvolvimento e aplicação de métodos teóricos e

de análises de dados, modelado matemático e técnicas de simulação computacional

focado ao estudo de sistemas biológicos, condutais e sociais. Já a bioinformática foi

definida como a pesquisa, desenvolvimento ou aplicação de ferramentas

computacionais e aproximações para a expansão do uso dos dados biológicos,

incluindo aquelas ferramentas que sirvam para adquirir, armazenar, organizar, analisar

ou visualizar aqueles dados (HUERTA et al., 2000).

Uma das tecnologias mais recentes que geram dados em larga escala é o

sequenciamento de nova geração, mais conhecido como NGS (do inglês, Next

Generation Sequencing). Sequenciadores de DNA são equipamentos que lêem uma

amostra de DNA e geram um arquivo eletrônico com símbolos que representam a

sequência de bases nitrogenadas, A, C, G ou T, contidas na amostra. Os

sequenciadores NGS, apesar de terem tecnologias distintas, tem um objetivo comum: o

sequenciamento massivo e a diminuição do custo de sequenciamento por Mbp (do

inglês, Mega base pairs), equivalente a um milhão de pares de bases (HUERTA et al.,

2000). Na figura 8 pode se verificar a queda drástica do custo do sequenciamento,

(31)

desde o sequenciamento do genoma humano (USD$ 5292.39 por Mbp sequenciada),

até hoje, cujo valor é aproximadamente USD$0,012 por Mbp (NIH, 2018).

Figura 8. Queda do custo de sequenciamento por Mbp de setembro de 2001 até julho de 2017 (última

atualização). O gráfico inclui uma comparação da redução dos custos com a da lei de Moore, que descreve uma tendência de longo prazo na indústria de hardware de computador de duplicação de 'poder computacional' a cada dois anos. Qualquer avanço tecnológico que acompanhe esta lei é considerada que evolui em um ritmo adequado. Pode-se observar a enorme evolução da tecnologia de sequenciamento em relação a Lei de Moore a partir de janeiro de 2008. Este ano representa o momento em que os centros de sequenciamento transitaram de sequenciamento de terminação da cadeia de dideoxi (SANGER) para NGS (NIH, 2018).

Todas as tecnologias de sequenciamento massivo têm vários passos em

comum: (i) a preparação das amostras, (ii) amplificação da biblioteca e (iii) o

sequenciamento (Figura 9). Na preparação das amostras, também chamadas de

bibliotecas, o DNA é fragmentado por um processo químico, mecânico ou enzimático.

Cada um dos fragmentos é chamado de template, sendo muito importante que a

quebra do DNA seja aleatória, para que o genoma seja coberto de maneira o mais

uniforme possível. Após a fragmentação, são ligados adaptadores (sequências

(32)

artificiais conhecidas como barcodes) aos templates. Tipicamente os adaptadores

possuem 20 bp (do inglês, base pairs, pares de bases), sendo possível combinar

diferentes amostras em uma mesma reação de sequenciamento através do uso de

diferentes adaptadores, que possuem entre 5 ou 10 bases diferentes (MOUNT; W.,

2004).

Em seguida, é realizada a amplificação de bibliotecas, que tem como objetivo

gerar em um pequeno espaço físico, milhares de cópias de cada fragmento de DNA

produzido na etapa anterior. Esse passo de amplificação aumenta exponencialmente a

fonte de sinal que será detectado na etapa de sequenciamento. Após, as amostras são

introduzidas no sequenciador, um instrumento onde uma série de reações químicas

são realizadas, e que geram sinais que são detectados e determinam a sequência de

bases dos templates que estão sendo analisados (LIU et al., 2012). Atualmente a

plataforma mais utilizada de sequenciamento é a desenvolvida pela Illumina, devido a

boa relação entre custo, rapidez e acurácia (LIU et al., 2012).

Figura 9. Etapas comuns na maioria dos sequenciamentos de nova geração. O DNA é fragmentado por

diversos métodos (enzimáticos, sonicação, etc.) (A); após, aos fragmentos são ligados marcadores de sequência conhecidas como barcodes, que permitam separar as amostras computacionalmente (B); para que a detecção seja eficiente, os fragmentos devem ser amplificados (C) antes do sequenciamento propriamente dito (D).

As aplicações do NGS são virtualmente ilimitadas. Uma das aplicações que

foram democratizadas com este tipo de tecnologia é o sequenciamento de novo, o que

(33)

significa o sequenciamento de espécies não modelos e sem genoma de referência.

Também pode ser utilizado para sequenciar cDNA com a intenção de obter informação

sobre o transcriptoma de um mesmo organismo em diferentes situações. Outro

propósito amplamente utilizado é o sequenciamento de metagenomas, com o objetivo

de estudar o material genético extraído diretamente do ambiente, para conseguir

analisar a composição das comunidades e populações naturais. Outro tipo de aplicação

é o ressequenciamento (LIU et al., 2012), que tem como objetivo descobrir as

diferenças entre um genoma de referência e outro de interesse. Neste tipo de

comparações são detectadas diferentes variedades de mudanças entre esses

genomas, tais como SNPs (do inglês, Single Nucleotide Polimorfism, polimorfismo de

sítio único), variações estruturais, entre outros. Este tipo de análises pertence ao

campo de estudo da genômica comparativa.

1.6. Genômica comparativa: um enfoque evolutivo para um entendimento

profundo

A genômica comparativa pode ser definida de uma maneira simples como a

coleção de todas as atividades de pesquisa que derivam em conhecimento biológico

comparando características genômicas de dois ou mais indivíduos (XIA, 2013). Hoje

em dia é comum ouvir falar sobre genômica comparativa como se fosse uma área

nascente do conhecimento, porém sua origem se remonta há vários anos na história da

ciência. Esta abordagem tem sua origem na comparação dos genomas virais no

começo dos anos ‘80 (KOONIN; GALPERIN, 2003), quando foram sequenciados vários

fagos, e quando os pesquisadores os contrastaram, acharam esses genomas

surpreendentemente similares. O primeiro genoma sequenciado de um organismo

celular foi o da Haemophilus influenzae Rd, publicado em 1995 (FLEISCHMANN et al.,

1995), e o segundo foi da bactéria Mycoplasma genitalium (FRASER et al.,

1995) publicado no mesmo ano. A partir de então, as publicações de novos genomas

se transformaram, quase inevitavelmente, em artigos de genômica comparativa

(KOONIN; GALPERIN, 2003).