• Nenhum resultado encontrado

Comparação entre os programas MARVEL, VirFinder e VirSorter quanto a identificação de bacteriófagos a partir de dados metagenômicos

N/A
N/A
Protected

Academic year: 2021

Share "Comparação entre os programas MARVEL, VirFinder e VirSorter quanto a identificação de bacteriófagos a partir de dados metagenômicos"

Copied!
54
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DE SANTA CATARINA DEPARTAMENTO DE CIÊNCIAS BIOLÓGICAS

CIÊNCIAS BIOLÓGICAS - LICENCIATURA

Jaime Nunes Leal

Comparação entre os programas MARVEL, VirFinder e

VirSorter quanto a identificação de bacteriófagos a partir

de dados metagenômicos

FLORIANÓPOLIS 2020

(2)

Comparação entre os programas MARVEL, VirFinder e VirSorter quanto a identificação de bacteriófagos a partir de dados metagenômicos

Trabalho Conclusão do Curso de Graduação em Ciências Biológicas do Centro de Ciências Biológicas da Universidade Federal de Santa Catarina como requisito parcial para a obtenção do Título de Licenciado em Ciências Biológicas. Orientador: Prof. Dr. Glauber Wagner

Co-orientador: Eric Kazuo Kawagoe

Florianópolis 2020

(3)
(4)

Comparação entre os programas MARVEL, VirFinder e VirSorter quanto a identificação de bacteriófagos a partir de dados metagenômicos

Este Trabalho Conclusão de Curso foi julgado adequado para obtenção do Título de Licenciado em Ciências Biológicas e aprovado em sua forma final pelo Curso de

Ciências Biológicas.

Local, 16 de Novembro de 2020. _____________________ Prof. Dr. Carlos Roberto Zanetti

Coordenador do Curso Banca Examinadora:

________________________ Prof. Dr. Glauber Wagner

Orientador

Universidade Federal de Santa Catarina

________________________ Prof.ª Dra. Gislaine Fongaro Universidade Federal de Santa Catarina

________________________ Prof. Me. Renato Simões Moreira Instituto Federal de Santa Catarina

(5)

Dedicatória: Dedico esse trabalho ao Jaime do futuro que fez muito pelo Jaime do passado.

(6)

Agradeço a minha família que sempre me apoiou. A minha mãe, Isolete Maria Nunes, que mesmo com todas as dificuldades impostas pela vida, venceu todos os obstáculos de forma digna e trabalhadora, não desistindo em momentos no quais muitos desistiram. Aos meus irmãos, Tomas, Vitor, João Pedro e Vladmir, que estiveram presentes em toda minha trajetória durante a faculdade e na vida, sendo além de irmãos grandes amigos.

Agradeço a minha namorada, Bruna, que esteve comigo em grande parte da faculdade, incentivando, apoiando, trazendo palavras de carinho e afeto, não me deixando desistir em momentos nos quais as coisas não estavam dando certo e o desânimo tomava conta de mim. Boa parte dessa conquista, se deve a minha família e minha namorada, pois sem eles nada disso seria possível.

A Universidade Federal de Santa Catarina, por ter me proporcionado uma graduação de excelente qualidade de forma gratuita, além de diversas experiências além dos muros da faculdade. A CAPES por ter apoiado financeiramente grande parte do meu projeto de iniciação científica. Meu agradecimento à todos os professores que passaram por minha vida, antes e durante a graduação, foram pessoas importantes que ajudaram a moldar quem sou hoje. Em especial ao professor Glauber por ter me recebido e me acolhido em seu laboratório, e que além de um ótimo professor é uma grande pessoa.

Ao pessoal do laboratório de Bioinformática, Guilherme, Vilmar e Renato, que sempre estiveram dispostos a me ajudar durante as dificuldades que encontrei. Em especial ao Eric que aceitou o desafio de ser o meu co-orientador no trabalho de conclusão de curso, boa parte disso só foi possível pelo seu empenho e esforço em me auxiliar, estando disponível dia e noite.

Gostaria também de agradecer aos meus amigos, Lucas, Conrado, Evelyn, Gui, entre tantos outros, que tive o prazer de conhecer durante a faculdade e levarei para a vida. Ao todo o pessoal do Joaca Rugby que está presente na minha vida há cerca de 15 anos, Talaze, Wolf, José, Diogo, Baiano, John, Will, me acompanhando durante as etapas da minha vida. Ao grupo dos Cationcios, Gattino, Matheuzinho, Lehmenn, Aquiles, sempre animados e sedentos por uma festa, que são amigos que

(7)

vão além do bar do bigu, estando do lado em momentos bons e ruins. A Camila, Iasmym e o Nicholas que me incentivam a alcançar os meus objetivos, acreditando em mim, às vezes mais do que eu mesmo. A todos vocês, meus mais sinceros agradecimentos.

(8)
(9)

RESUMO

Os bacteriófagos, comumente chamados de fagos, são vírus intracelulares obrigatórios capazes de infectar arqueas e bactérias. A interação entra bacteriófago e bactérias podem levar a morte bacteriana e com isso impactar na comunidade microbiana interferindo nos ciclos ambientais e nos setores industriais nos quais estes microrganismos então envolvidos. Esse trabalho teve como objetivo analisar a variação entre os resultados de predição de bacteriófagos ambientais utilizando diferentes programas de predição viral. Para tal, utilizamos sequências de 927 genomas completos, obtidos do NCBI/GenBank, os quais foram utilizados para uma simulação de montagem de sequenciamento metagenômico através do programa ART, compondo um grupo controle. Para testes em amostras reais, utilizamos dados brutos de amostras metagenomas ambientais de Ganzi (China), Mar Mediterrâneo (Europa) e Santa Mônica (EUA) depositados no do NCBI/SRA. Os dados brutos passaram por uma etapa de controle de qualidade e montagem metagenômica pelos programas Trimmomatic e metaSPAdes, respectivamente. Predições de bacteriófagos para as montagens foram realizadas pelos programas VirFinder, VirSorter e MARVEL. Dos 927 bacteriófagos utilizados na montagem da amostra controle, o VirFinder encontrou 633 fagos (68%) em menos de uma hora de processamento, o ViSorter identificou 530 fagos (57%) em cerca de dez horas de análise e o MARVEL retornou 432 fagos (47%) em nove horas de processamento. Para as amostras ambientais, os programas foram capazes de identificar bacteriófagos apenas na amostra do Mar Mediterrâneo. O VirFinder identificou oito fagos, sendo sete destes da família Siphoviridae classificados como bacteriófagos não cultivados do Mar Mediterrâneo e um referente à família Microviridae. O VirSorter identificou apenas um bacteriófago da família Microviridae, enquanto o MARVEL identificou sete bacteriófagos, todos da família Siphoviridae classificados como não cultivados do Mediterrâneo. Os programas VirFinder e MARVEL identificaram quatro bacteriófagos exclusivos, não identificados por nenhum outro programa. Considerando o tempo de desempenho e a diversidade de fagos identificados, o programa VirFinder obteve o melhor resultado para as amostras analisadas. Nota-se que apenas a amostra do Mar Mediterrâneo faz parte de um estudo sobre o viroma, enquanto as demais são amostras de metagenoma global, o que demonstra que as etapas anteriores ao sequenciamento como construção de biblioteca e preparação de amostras, são essenciais para uma melhor identificação de bacteriófagos em amostras ambientais. Apesar de o VirFinder ter apresentado melhor desempenho, não podemos descartar o uso dos demais programas, em razão da identificação de fagos exclusivos por estes programas, sendo assim os programas estes podem ser utilizados de forma complementar para uma melhor interpretação da diversidade da amostra, além disso o preparo da amostra se demonstrou fundamental para capacidade de identificação de bacteriófagos ambientais.

(10)

Bacteriophages, commonly known as phages, are mandatory intracellular viruses able to infect archaea and bacteria. Phage-host interaction can impact different areas, such as pharmaceutical sectors, the food industry and biogeochemical cycles. This study aimed to analyse viral prediction results from three different softwares and their accuracy for environmental bacteriophage prediction. For the control sample, a total of 927 complete bacteriophage genomes obtained from NCBI/GenBank were concatenated and used to simulate raw data through the programa ART. Raw data for environmental samples were obtained from NCBI/SRA and corresponded to samples from Ganzi (China), Mediterranean Sea and Santa Monica (USA). Raw data were preprocessed and assembled with Trimmomatic and metaSPAdes, respectively. Bacteriophage prediction was performed by VirFinder, VirSorter and MARVEL. VirFinder identified 633 phages (68%) in less than one hour of processing, VirSorter identified 530 (57%) in around ten hours of analyse and MARVEL identified 432 (47%) in nine hours of processing from the 927 bacteriophages used in the control sample. The three prediction programas were able to identify bacteriophages only in the Mediterranean Sea sample. VirFinder identified eight phages, seven of which belonged to the Siphoviridae family and were classified as Uncultured Mediterranean Sea phages, and one of the Microviridae family. VirSorter identified only one bacteriophage of the Microviridae family. MARVEL identified seven bacteriophages, all from the Siphoviridae family and classified as Uncultured Mediterranean Sea phages. Both VirFinder and MARVEL identified four exclusive bacteriophages, which were not found by VirSorter. VirFinder presented the best performance regarding processing time and organism identification in all analysed samples. The sample of Mediterranean Sea is part of a virome study, while the others samples are from global metagenome, this shows that steps pre processing are essential for a more accurate identification. Although VirFinder had shown best performance, we cannot discard the use of other softwares, because there are exclusive phage identification with this programas, therefore the softwares can be used in complementary ways for better interpretations related to sample diversity. Keywords: Bioinformatics, Metagenomics, Prediction, Virus.

(11)

LISTA DE ILUSTRAÇÕES

Figura 1 - Visão estrutural de um bacteriófago comum ...………..16 Figura 2 - Ciclo de replicação dos bacteriófagos ...……….17 Figura 3 - Aplicações da Metagenômica …...………...20 Figura 4 - Fluxograma de etapas de processos e análises realizadas neste trabalho ………..27 Figura 5 - Comparação dos programas quanto ao tempo de processamento das amostras .……….………..36 Figura 6 - Comparação entre os programas quanto a identificação das espécies de bacteriófagos utilizados na montagem, por família ..………..37 Figura 7 - Identificação de bacteriófagos em comum e exclusivos por família ..…...39 Figura 8 - Identificação de bacteriófagos em comum e exclusivos para amostra do Mar Mediterrâneo ...………..42

(12)

Tabela 1 - Resultado das amostras após passar pelo controle de qualidade……….32 Tabela 2 - Resultado do FastQC das amostras ambientais e controle…………...….33 Tabela 3 - Resultado da montagem dos genomas através do metaSPAdes………..33 Tabela 4 - Tabela com o percentual de representatividade das famílias na amostra controle e o percentual de bacteriófagos identificados da família……….38

(13)

LISTA DE QUADROS

(14)

SUMÁRIO

1. INTRODUÇÃO ……….………...….15

1.1 BACTERIÓFAGOS ……….…………..…..15

1.2 METAGENÔMICA ....………...…19

1.3 MONTAGEM DE GENOMAS A PARTIR DE DADOS DE METAGENÔMICA ……….………..….22

1.4 IDENTIFICAÇÃO DE BACTERIÓFAGOS ATRAVÉS DA METAGENÔMICA ….………...23

2. OBJETIVOS………...25

2.1 OBJETIVO GERAL………..….25

2.2 OBJETIVOS ESPECÍFICOS………..….25

3. METODOLOGIA……….…..26

3.1 OBTENÇÃO DAS AMOSTRAS AMBIENTAIS………....26

3.2 PREPARO DA AMOSTRA CONTROLE………..….27

3.3 MONTAGEM DOS GENOMAS……….….28

3.4 MARVEL………....28

3.5 VIRFINDER……….…..29

3.6 VIRSORTER……….….30

3.7 IDENTIFICAÇÃO DOS BACTERIÓFAGOS……….…30

4. RESULTADOS……….….32

4.1 PREPARO DAS AMOSTRAS……….…32

4.2 PERFORMANCE DE TEMPO……….…...33

4.2.1 Amostra Controle……….…..33

4.2.2 Amostra Ganzi………...34

4.2.3 Amostra Mar Mediterrâneo………..34

4.2.4 Amostra Santa Mônica……….35

4.3 IDENTIFICAÇÃO DOS BACTERIÓFAGOS……….35

4.3.1 Amostra Controle……….…..35

4.3.2 Amostra Ganzi………...39

4.3.3 Amostra Mar Mediterrâneo………..39

4.3.4 Amostra Santa Mônica……….41

5. DISCUSSÃO……….….42

6. CONCLUSÃO………...45

(15)

15

1. INTRODUÇÃO

1.1 BACTERIÓFAGOS

Os vírus são alguns dos organismos mais abundantes e diversos do planeta, sendo descritos pela primeira vez no final do século XIX. Os vírus podem conter material genético composto de DNA ou RNA, na forma de fita simples ou fita dupla, linear ou circular, e segmentado ou não segmentado. O material genético é envolto por uma capa proteica protetora, o capsídeo, alguns vírus possuem também uma camada adicional de lipídeos e proteínas, denominado de envelope (GELDERBLOM, 1996).

Diversos organismos já foram identificados como hospedeiros de vírus, desde arqueas, bactérias, plantas, animais. As doenças causadas a partir de infecções virais em plantas podem atingir variadas estruturas como folhas, raízes, caules, frutos, sementes ou flores, causando um grande prejuízo econômico para o ramo agrícola (MARINTCHEVA, 2018; SUMIDA, 2020).

Os vírus também são responsáveis por diversas doenças que acometem os seres humanos como por exemplo, o ebola, causado por vírus do gênero Ebolavirus, a dengue, originada pelo vírus do gênero Flavivirus, a gripe, através dos vírus dos gêneros Influenzavirus, a COVID-19, causada pelo vírus SARS-CoV-2 responsável pela pandemia de 2020 que acarretou em milhares de mortes (AKHTAR, 2020; PATEL et al., 2020; ROJAS et al., 2020; MARINTCHEVA, 2018).

Existem também os bacteriófagos, que podem ser traduzidos literalmente como comedores de bactéria. Esses vírus foram documentados pela primeira vez em 1975 pelo bacteriologista Frederick Twort que os descreveu como agentes bacteriolíticos ao observar a capacidade de destruir colônias de estafilococos (DUCKWORTH, 1976). Os bacteriófagos, comumente chamados de fagos, são vírus intracelulares obrigatórios que infectam bactérias e arqueas, podendo ser encontrados em qualquer habitat em que haja hospedeiros disponíveis, desde solos, ambientes aquáticos, esgotos e intestinos de animais (COBIÁN GÜEMES et al., 2016; LYNE, 2011). Em nascentes de água termais, foram encontrados vírus infectando arqueas, sugerindo assim, a capacidade de sobrevivência desses organismos em ambientes extremos (PARMAR et al., 2017).

Um bacteriófago típico apresenta junção entre a cabeça e a cauda através de um conector proteico (WEINBAUER, 2004). Entretanto, são conhecidos

(16)

bacteriófagos de diferentes aparências, como filamentosos, cúbicos, icosaédricos e vírus pleomórficos. Eles ainda podem apresentar algumas estruturas alternativas (Fig. 1), como colarinho, fibras caudais ou “pontas” (ACKERMANN, 2009; WEINBAUER, 2004).

Figura 1 - Visão estrutural de um bacteriófago comum

Fonte: Adaptado de MANSOUR ( 2017).

Os bacteriófagos, assim como outros vírus, apresentam variações quanto ao seu material genético. Grande parte dos bacteriófagos conhecidos possuem material genético composto por dsDNA, já os bacteriófagos com dsRNA são considerados raros (ACKERMANN, 2009). Os genomas dos bacteriófagos variam quanto aos seus formatos de organização, podendo estar disposto em três formas: linear, circular ou super-hélice (ACKERMANN, 2001).

O ciclo de replicação dos bacteriófagos pode ser de dois tipos: lítico, lisogênico ou temperado. No ciclo lítico, os bacteriófagos dão início à replicação imediatamente após a inserção de seu material genético na bactéria e a progênie é liberada para o ambiente a partir da lise da célula hospedeira (DAFALE et al., 2015). Já no ciclo lisogênico, os bacteriófagos incorporam seu material genético, o profago, no cromossomo do hospedeiro, dependendo de estímulos ambientais para dar início a replicação viral (Fig. 2) (DAFALE et al., 2015).

A infecção do hospedeiro pelo bacteriófago se dá por: (i) adsorção na bactéria hospedeira; (ii) penetração do material genético fágico; (iii) síntese dos componentes fágicos e montagem do vírus; (iv) lise da célula hospedeira; e (v) liberação dos bacteriófagos recém-gerados para o ambiente (RAKHUBA et al., 2010). Tendo em vista que bacteriófagos não possuem estruturas específicas para

(17)

17

sua locomoção, o processo de adsorção é resultado de uma colisão ocasional entre o fago e o hospedeiro (RAKHUBA et al., 2010). Sendo assim, quanto maior a taxa de crescimento viral e bacteriano, maior será a chance dessa colisão ocorrer (RAKHUBA et al., 2010). Além disso, o mecanismo de adsorção é dependente de receptores bacterianos, que podem ser desde lipopolissacarídeos (LPS) de bactérias negativas, proteínas de superfície, até peptidoglicanos em bactérias gram-positivas (LINDBERG, 1973; RAKHUBA et al., 2010).

Figura 2 - Ciclo de replicação dos bacteriófagos

Fonte: Adaptado de CHIANG; PENADÉS; CHE (2019).

.

Em alguns casos, os bacteriófagos lisogênicos podem carregar em seu genoma informações genéticas de seu hospedeiro e com isso levar genes de um hospedeiro para o outro, o que pode acarretar no aumento da aptidão ambiental, codificação de novas funções, inativação de funções existentes ou ocasionar a

(18)

morte da bactéria (CHIANG; PENADÉS; CHEN, 2019; OBENG; PRATAMA; ELSAS, 2016). Atuando desta forma, como um veículo na transferência horizontal genética, os bacteriófagos representam um importante papel no processo evolutivo, pelo qual um microrganismo pode adquirir novas características que podem vir a ser benéficas (SUBIRATS et al., 2016).

Bacteriófagos podem ser classificados de acordo com sua morfologia, ciclo de replicação, tipo de ácido nucleico, arquitetura genômica e a organização do seu genoma (ABEDON; DUFFY; TURNER, 2009). Seguindo esses critérios, os bacteriófagos são organizados em 6 ordens, 87 famílias, 19 subfamílias e 348 gêneros (DAFALE et al., 2015). Apesar de existirem possibilidades de variações desses organismos, cerca de 96% dos bacteriófagos conhecidos pertencem à Ordem Caudovirales, fagos com dsDNA e que possuem cauda, distribuídos nas Famílias: Podoviridae, com cauda curta, Siphoviridae, com cauda longa não contrátil, e Myoviridae, com cauda longa contrátil (Fig.3) (PARMAR et al., 2017).

A interação entre os bacteriófagos e seus hospedeiros pode impactar diretamente o equilíbrio ambiental em função da mortalidade seletiva bacteriana (ABEDON; DUFFY; TURNER, 2009; PARMAR et al., 2017) ou até mesmo possibilitando a transferência horizontal de genes (HGT, do inglês Horizontal Gene

Transfer), ocasionando assim uma maior diversidade genética (DAFALE et al., 2015;

SUBIRATS et al., 2016).

A mortalidade das comunidades microbianas impacta nos ciclos biogeoquímicos (ciclo do carbono, fixação de oxigênio, ciclo de nitrogênio) e em processos industriais (na produção de alimentos e medicamentos para consumo humano) (MADIGAN et al., 2016). Por isso, compreender a interação entre bacteriófagos e bactérias é de extrema importância, tanto ambiental quanto clínica, já que algumas bactérias possuem características patogênicas e são responsáveis por diversas doenças, como a tuberculose, o botulismo, o tétano e a sífilis (MADIGAN et al., 2016).

Como mencionado anteriormente, a HGT é um dos processos em que o microrganismo bacteriano consegue adquirir novas características, como virulência ou resistência à antibióticos (SUBIRATS et al., 2016). Uma pesquisa realizada pelo Centro de Controle e Prevenção de Doenças (CDC) dos Estados Unidos em conjunto com a Agência Europeia de Medicamentos (EMA) constatou que cerca de 25 mil pessoas morrem por ano na Europa, vítimas de infecções causadas por

(19)

19

bactérias que desenvolveram resistência à antibióticos (MARTI; VARIATZA; BALCAZAR, 2014).

A HGT pode ser avaliada pela ação de bacteriófagos e por elementos genéticos móveis, como plasmídeos, sequências de inserção, transposons, ilhas genômicas e elementos conjugativos (MARTI; VARIATZA; BALCAZAR, 2014). Para tal, a abordagem metagenômica é uma das formas pelas quais podemos identificar bacteriófagos ambientais que podem ser utilizados para o uso alternativo aos antibióticos e desinfetantes, em um processo conhecido como fagoterapia (DAFALE et al., 2015; MARTI; VARIATZA; BALCAZAR, 2014).

1.2 METAGENÔMICA

O surgimento dos sequenciadores de segunda geração, anteriormente conhecidos como sequenciadores de nova geração, capazes de produzir maior volume de dados em menor tempo, proporcionou uma expansão do sequenciamento de genomas individuais e trouxe inovações nos sequenciamentos e análises metagenômicas (SCHOLZ; LO; CHAIN, 2012).

Com a redução dos custos, além do avanço das tecnologias de sequenciamento e das ferramentas bioinformáticas, os métodos para a determinação de organismos presentes em amostras ambientais têm se desenvolvido em paralelo (MORENO-INDIAS; TINAHONES, 2020; TRIPATHI; NAILWAL, 2020; SCHOLZ; LO; CHAIN, 2012). Neste novo cenário, estudos metagenômicos se destacam positivamente, já que permitem uma determinação mais precisa da diversidade presente no ambiente amostrado, não somente para a predição de microrganismos, bem como suas abundâncias relativas (ABEDON; DUFFY; TURNER, 2009; DAFALE et al., 2015; SCHOLZ; LO; CHAIN, 2012).

A metagenômica, também conhecida como genômica ambiental, é uma abordagem para o estudo molecular de comunidades, permitindo o sequenciamento e a análise dos genomas presentes em um determinado ambiente, como forma de caracterização do conteúdo genético da amostra ambiental (MADIGAN et al., 2016). Além disso, podem atuar na detecção de novos genes em organismos conhecidos, como também na identificação de genes já conhecidos em novos organismos, entre outras aplicações (Fig. 3) (MADIGAN et al., 2016).

(20)

Fonte: Adaptado de (ARYA; RAVINDRA, 2020)

Existem dois métodos para estudo de amostras ambientais, dependendo do objetivo e resposta a ser alcançada pelo projeto. O primeiro envolve o sequenciamento do material genético presente no ambiente, gerando milhões de fragmentos aleatórios que serão reconstruídos para identificação dos organismos. Esse método é chamado de sequenciamento shotgun e tem como objetivo identificar todos os genomas presentes em uma amostra, apesar de que isso nem sempre é possível (HAYES et al., 2017; MORENO-INDIAS; TINAHONES, 2020). Já o segundo, se dá pela ampliação de genes marcadores, como a utilização da sequência gênica 16s rRNA para o estudo de comunidades bacterianas ou da região ITS (do inglês Internal Transcribed Spacer) em fungos (HAYES et al., 2017).

Em uma amostra ambiental são encontrados DNA de diferentes origens: DNA livre, DNA eucariótico, DNA procariótico e DNA de procedência viral (TRINGE; RUBIN, 2005). Sendo assim, as relações taxonômicas e filogenéticas de organismos celulares de uma amostra podem ser avaliadas a partir das sequências universais do DNA ribossômico (rDNA) (EDWARDS; ROHWER, 2005). No entanto, esta abordagem não é aplicável quando o foco do estudo são os bacteriófagos, pois estes não apresentam sequências comuns a todos os genomas virais, sendo assim, é necessário a utilização da abordagem shotgun para a predição de bacteriófagos em uma amostra (EDWARDS; ROHWER, 2005).

(21)

21

Um procedimento que pode facilitar a seleção dos organismos é o pré-processamento da amostra, como, por exemplo, a partir do método de filtragem da água. Esta etapa permite uma seleção das partículas a serem analisadas (TRINGE; RUBIN, 2005). Nesse método a escolha do tamanho dos poros que compõem o filtro se torna crucial para a triagem das partículas, permitindo obter uma amostra rica em conteúdo viral (EDWARDS; ROHWER, 2005; SUBIRATS et al., 2016; TRINGE; RUBIN, 2005).

No estudo realizado por Parmar e colaboradores (2017), foram selecionados quatro diferentes dados metagenômicos, em banco de dados público, de habitats distintos, sendo um marinho, um de água doce, um de nascente de água termal e um de água de tratamento de esgoto. As amostras foram submetidas a análises para a identificação dos microrganismos e bacteriófagos, sendo que os vírus foram o segundo grupo mais identificado, ficando atrás somente das bactérias. Em quase todos os ambientes, os bacteriófagos da ordem Caudovirales se mostraram mais abundantes, exceto na amostra de nascente de água termal em qual os vírus identificados foram classificados como desconhecidos.

Ainda neste estudo as características funcionais também foram avaliadas, através da análise de componentes principais (PCA, do inglês Principal Component

Analysis), no qual as sequências foram divididas em diferentes categorias

funcionais. Os ambientes marinho e de água doce demonstraram uma maior abundância de sequências funcionais pertinentes a função gene transfer, que auxilia na HGT entre os bacteriófagos e seus hospedeiros.

Tendo em vista os avanços biotecnológicos, bacteriófagos vêm sendo alvo de importantes estudos visando o desenvolvimento de vacinas (a partir de partículas de bacteriófagos), a biopreservação e segurança de alimentos, o biocontrole de patógenos em plantas, o controle de biofilmes e desinfetantes de superfícies (HARADA et al., 2018). Nas vacinas, bacteriófagos podem atuar, principalmente, de duas maneiras: transportando em sua superfície antígenos expressos ou incorporando sequências essenciais para a síntese do antígeno em seu genoma, que é o caso para vacinas de DNA (HAQ et al., 2012).

Na indústria de laticínios os produtos fermentados não são esterilizados, já que o processo de fermentação do leite, principal matéria prima utilizada por esse setor, é realizado pelas bactérias presentes nele. Isso resulta em um ambiente propício para a interação entre os bacteriófagos e as bactérias e agrava o potencial

(22)

de falhas na produção do queijo, por exemplo, devido a não conclusão da acidificação do leite, o que ocasiona uma grande perda financeira recorrente (LYNE, 2011). Esses são apenas dois exemplos da importância de conhecermos melhor a diversidade de bacteriófagos presente em nosso planeta, bem como seus genomas.

1.3 MONTAGEM DE GENOMAS A PARTIR DE DADOS DE METAGENÔMICA Quando a montagem de um único genoma é realizada, assume-se que a cobertura da sequência se manterá constante. Isso facilita a identificação de cópias repetidas e a diferenciação entre erros de sequenciamentos e variações alélicas pela ferramenta de análise (QUINCE et al., 2017).

A montagem de um metagenoma apresenta alguns desafios, como a cobertura de cada genoma constituinte, relacionada com a abundância do genoma na comunidade, que pode ser fragmentado caso a profundidade do sequenciamento seja insuficiente (GHURYE; CEPEDA-ESPINOZA; POP, 2016; QUINCE et al., 2017). Além disso, podem existir diversas cepas de um mesmo organismo, esses genomas são intimamente relacionados e podem divergir por apenas algumas variantes nucleotídicas, ou pela ausência ou presença de genes, levando à reconstruções fragmentadas (QUINCE et al., 2017).

Existe uma ampla variedade de ferramentas que realizam a montagem de genomas a partir de dados metagenômicos, cada com suas vantagens e desvantagens (ARYA; RAVINDRA, 2020). A etapa de montagem é um processo computacional para alinhar e agrupar reads curtos de uma sequência mais longa, para reconstruir as sequências originais (NAKAOKA; OTA, 2020).

Essas ferramentas podem utilizar diferentes algoritmos para realizar a montagem desses genomas, entre elas: o algoritmo Greedy, o consenso de layout de sobreposição, OLC (do inglês, Overlap-Layout-Consensus) e o grafo de Bruijn (GHURYE; CEPEDA-ESPINOZA; POP, 2016; POP, 2009). Este último geralmente apresenta um melhor desempenho sendo mais veloz e com menor gasto de memória computacional, baseando-se na sobreposição de k-mers para construir o grafo, programas como MEGAHIT e metaSPAdes utilizam esse algoritmo (WANG, 2019).

Para uma melhor compreensão, serão abordados alguns conceitos básicos sobre termos que vão ser utilizados daqui em diante, como: (i) reads; (ii) qualidade

(23)

23

plataforma de sequenciamento de DNA, que corresponde a uma sequência de pares de base (STAATS et al., 2014). Qualidade phred é uma métrica que mensura a qualidade das identificações das bases nucleotídicas geradas no sequenciamento, por exemplo, se a qualidade phred é de 30 para uma base sequenciada, essa tem uma probabilidade de 1 em 1000 de estar incorreta ou 99,9% de precisão, já com

phred 20, ela possui uma chance de 1 em 100 de estar incorreta ou 99% de

precisão. (EWING et al., 1998; ILLUMINA, 2011). Contigs são conjuntos de segmentos de sequências de DNA contíguas, resultantes da sobreposição de reads, que em conjunto representam sequências originais de um dado genoma.

1.4 IDENTIFICAÇÃO DE BACTERIÓFAGOS ATRAVÉS DA METAGENÔMICA Tradicionalmente o método de identificação de bacteriófagos é realizado através do cultivo do hospedeiro e isolamento do bacteriófago mediante a ensaios de ágar duplo. Porém, tal abordagem apresenta limitações, principalmente devido ao fato de que a grande maioria das bactérias não serem cultiváveis em laboratório. Mesmo em caso de bactérias cultiváveis, alguns bacteriófagos necessitam que o hospedeiro esteja em uma fase específica de seu desenvolvimento para infecção (HAYES et al., 2017).

Devido a isso, a metagenômica é um método de análise mais indicado para a identificação de vírus ambientais, porque não depende de cultivo em laboratório. Em teoria a metagenômica permite a predição de qualquer vírus, mesmo em baixa abundância, difíceis de isolar ou não cultiváveis. Porém, apresenta desafios que envolvem o preparo da amostra, preparo da biblioteca, estratégia de sequenciamento e classificação taxonômica (AJAMI; PETROSINO, 2016; ARYA; RAVINDRA, 2020).

Como observado anteriormente, bacteriófagos não apresentam genes marcadores universais, por esse motivo a melhor forma de analisar a amostra é por meio de sequenciamento shotgun. A falta de genes marcadores também faz com que a detecção de reads virais seja limitada a seu alinhamento com sequências previamente depositadas em banco de dados, o que também é um fator limitante já que a quantidade de genomas virais é relativamente baixa, em 2017 o banco de dados de genomas virais do NCBI continha cerca de 2000 genomas, menos da metade dos genomas de apenas quatro gêneros bacterianos (Mycobacterium,

(24)

Portanto, diversas ferramentas utilizam a busca de bacteriófagos através de similaridade, como MG-RAST (MetaGenomic-Rapid Annotation using Subsystem

Technology), MetaPhyler, VirSorter, CARMA. Existem também programas que

utilizam algoritmos de k-mers, que são mais velozes, mas demandam mais da memória computacional, como o VirFinder, o CLARK (CLAssifier based on Reduced

K-mers) e o USEARCH (HAYES et al., 2017; REN et al., 2017; ROUX et al., 2015).

Diante disto, este trabalho analisou programas voltados para estudos metagenômicos que realizam a predição de bacteriófagos ambientais, quanto ao tempo de performance e a sensibilidade de identificação dos vírus. Dessa forma, definir um programa que seja rápido e com melhor retorno para avaliar a diversidade de bacteriófagos presentes em ambientes naturais, possibilitando uma melhor compreensão da composição viral dos locais amostrados e identificar possíveis fagos de interesse biotecnológico.

(25)

25

2. OBJETIVOS

2.1 OBJETIVO GERAL

Analisar a variação da identificação de bacteriófagos provenientes de amostras ambientais, utilizando diferentes programas de análise metagenômica.

2.2 OBJETIVOS ESPECÍFICOS

Avaliar a performance e desempenho (benchmark) dos programas VirSorter, VirFinder e MARVEL, quanto ao tempo de análise;

 Avaliar a sensibilidade na identificação bacteriófagos dos programas VirSorter, VirFinder e MARVEL, utilizando um banco de dados de genomas de bacteriófagos conhecidos depositados em banco de dados públicos;  Comparar a capacidade de identificação de bacteriófagos referente tanto a quantidade quanto diversidade pelos programas VirSorter, VirFinder e MARVEL. a partir de dados metagenômicos ambientais depositados em banco de dados públicos;

(26)

3. METODOLOGIA

Para esse trabalho foram utilizados servidores Dell localizados no SeTIC UFSC com 40 núcleos de processadores (3.2 GHz), 285 GB de RAM (DD4, 2400 MHz) e armazenamento de 5 TB (HD SATA 2.5” 7200 RPM).

3.1 OBTENÇÃO DAS AMOSTRAS AMBIENTAIS

Foram selecionadas três amostras de dados metagenômicos depositadas no banco de dados público Sequence Read Archive (SRA) (LEINONEN; SUGAWARA; SHUMWAY, 2010). Os identificadores das amostras escolhidas foram:

ERR3063492, amostra marinha coletada a 2000 metros de profundidade no Mar

Mediterrâneo; SRR9691031, amostra de solo úmido coletada na região de Ganzi, Sichuan, China; SRR9694932, amostra de solo coletada na região de Santa Mônica, Califórnia, USA.

Todas as amostras utilizadas se referem a dados de sequenciamento

paired-end, pela abordagem shotgun. As amostras de Ganzi e de Santa Mônica foram

obtidas pela plataforma de sequenciamento Illumina Novaseq 6000, enquanto a amostra do Mar Mediterrêneo utilizou sequenciamento Illumina HiSeq 4000.

As amostras foram baixadas através da ferramenta fastq-dump disponibilizada pelo programa SRA Toolkit versão 2.8.2 (LEINONEN; SUGAWARA; SHUMWAY, 2010). Em seguida, foi utilizado o programa FastQC versão 0.11.5 (ANDREWS, S., 2010) para avaliação das amostras, quanto à qualidade e ao tamanho dos reads. Após isso, foi realizado o controle de qualidade pelo programa Trimmomatic versão 0.39 (BOLGER; LOHSE; USADEL, 2014), para a remoção dos

reads referentes aos adaptadores específicos da plataforma de sequenciamento e

também das bases com baixa qualidade, removendo bases que apresentaram qualidade média abaixo de phred 20. Além disso, as bases iniciais e finais para cada

read foram removidas se estivessem abaixo de phred 30 e phred 25,

respectivamente. Por fim, os reads que apresentavam tamanho inferior a 50 pares de bases foram retirados. Posterior a etapa de controle de qualidade, foi realizada uma nova avaliação através do FastQC (Fig. 4).

(27)

27

Figura 4 - Fluxograma de etapas de processos e análises realizadas neste trabalho.

Fonte: Elaborado pelo autor (2020).

3.2 PREPARO DA AMOSTRA CONTROLE

Para a elaboração da amostra controle deste trabalho foi realizado o

download de 927 genomas completos de bacteriófagos disponíveis no banco de

dados do NCBI (do inglês, National Center for Biotechnology Information) (COORDINATORS, 2015). Além disso, foram selecionados 10 genomas de bactérias (Quadro 1) que auxiliaram na avaliação dos programas quanto à capacidade de distinção dos bacteriófagos e bactérias contidas na amostra.

(28)

Quadro 1 - Genomas bacterianos selecionados para montagem da amostra controle

TAXID

Microrganismo

470 Acinetobacter baumannii 646 Aeromonas sobria 654 Aeromonas veronii 1396 Bacillus cereus 1402 Bacillus licheniformis 1404 Bacillus megaterium 1494 Clostridium cochlearius 1977087 Proteobacteria bacterium 287 Pseudomonas aeruginosa 198616 Pseudomonas jinjuensis

Fonte: Elaborado pelo Autor (2020).

Desta forma, a montagem contou com 927 genomas completos referentes aos bacteriófagos da ordem Caudovirales das famílias Autographiviridae, Ackermannviridae, Chaseviridae, Demerecviridae, Drexlerviridae, Herelleviridae, Myoviridae, Podoviridae, Siphoviridae, dois genomas de bacteriófagos não classificados e dez genomas referentes às bactérias, gerando um arquivo MultiFASTA. Após esta etapa, foi utilizado o programa ART versão 2.5.8 (HUANG et al., 2012) para gerar reads paired-end sintéticos de sequenciamento Illumina HiSeq

2500, gerando dois arquivos FASTQ com 8.792.732 de sequências totais, em cada

arquivo, com tamanho de 150 pares de base.

Em seguida, foi analisada a qualidade dessas sequências sintéticas através do programa FastQC, sendo que a qualidade média se manteve acima do valor de qualidade phred 30. Devido a alta qualidade das sequências obtidas através da geração sintética realizada pelo ART a etapa de controle de qualidade não foi realizada.

(29)

29

3.3 MONTAGEM DOS GENOMAS

O processo de montagem dos genomas utilizados foi idêntico para as amostras ambientais e a amostra controle. Com a etapa de remoção de pares de bases de baixa qualidade concluída, com exceção da amostra controle na qual essa etapa não foi necessária.

Foram montados os genomas, a partir das sequências metagenômicas, utilizando o programa metaSPAdes versão 3.13.1 (NURK; MELESHKO; KOROBEYNIKOV; PEVZNER, 2017), com tamanho de k-mer de 71.

Posteriormente, foi utilizado a função dedupe do programa BBMap versão 38.67 (BUSHNELL, 2014) que remove os contigs duplicados, através da busca por correspondência exata entre os contigs gerados na etapa de montagem. Todos os programas deste trabalho utilizaram as montagens sem duplicatas geradas pelo BBMap como entrada para realização de suas análises.

3.4 MARVEL

O programa MARVEL (Metagenomic Analysis and Retrieval of Viral

ELements) é uma ferramenta de predição de sequências de bacteriófagos de

dsDNA, em amostras metagenômicas (AMGARTEN et al., 2018). O MARVEL utiliza

machine learning e características genômicas extraídas de contigs, considerando um contig previsto como parte de um conjunto previamente determinado. Com isso

busca considerar que os contigs, em princípio, são parte do mesmo organismo (AMGARTEN et al., 2018).

Inicialmente, foram realizadas algumas etapas antes da execução do MARVEL: (i) mapeamento dos reads brutos, obtidos após a etapa de controle de qualidade ou gerados pelo programa ART, no caso da amostra controle, contra as sequências presentes nos genomas montados, obtidos pelo metaSPAdes, após o

dedupe; (ii) agrupamento de sequências semelhantes em bins, arquivo em formato

FASTA com sequências que possivelmente são referentes a um mesmo organismo ou de organismos próximos.

Na etapa (i) foi utilizado o programa Burrows-Wheeler Aligner (BWA) versão 0.7.17 (LI; DURBIN, 2009) que resulta em um arquivo de alinhamento, contendo informações sobre a localização entre os reads alinhados e o genoma montado, posteriormente convertido pelo programa SamTools versão 1.7 (LI; DURBIN, 2009).

(30)

Por sua vez, na etapa (ii) o arquivo de alinhamento resultante do SamTools foi utilizado juntamente das sequências após o dedupe como entrada do programa MetaBAT2 versão 2 (KANG et al., 2019). O MARVEL utiliza os bins gerados na etapa (ii) para realizar a predição de bacteriófagos, utilizando o Prokka (SEEMANN, 2014) e HMMER (EDDY, 2011) para a predição de genomas virais e agrupamento de sequências homólogas, respectivamente. Os arquivos gerados a partir da análise do MARVEL foram submetidos ao CD-HIT versão 4.7 (LI; GODZIK, 2006) para a redução de sequências redundantes, baseado em um valor de 95% de identidade para realizar os agrupamentos.

Posteriormente ao CD-HIT os arquivos foram processados pelo CheckM versão 0.18 (PARKS et al., 2015), para a verificação de uma possível predição equivocada entre os bacteriófagos identificados. Foi utilizado o programa VIRALpro versão 1.0 (GALIEZ et al., 2016), para predição de estrutura de capsídeos e cauda do vírus. Esses passos foram utilizados tanto para a amostra controle quanto para as amostras ambientais.

3.5 VIRFINDER

O programa VirFinder é utilizado para identificação de sequências virais em dados metagenômicos a partir de k-mers para realizar a predição de contigs virais, para isso utiliza machine learning como método para identificar e diferenciar sequências virais de sequências bacterianas, construindo um sistema de pontuação para prever as sequências virais, a partir de um modelo de regressão logística e com regressão de lasso (REN et al., 2017), operando dentro do ambiente R (R DEVELOPMENT CORE TEAM, 2020).

Para execução é passado como entrada o arquivo FASTA sem duplicidade. Como resultado da análise, é gerado uma tabela contendo as sequências identificadas como virais, bem como seu score, seu valor de p e valor de q, que é o valor de p ajustado através do pFDR (do inglês positive False Discovery Rate), sendo assumidos como bacteriófagos aqueles identificados com o valor de q menor do que 0.05 (REN et al., 2017).

3.6 VIRSORTER

O programa VirSorter é uma ferramenta desenhada para detectar sequências virais em dados genômicos completos, assim podendo identificar os

(31)

31

profagos presentes nos genomas dos microorganismos (ROUX et al., 2015). Entretanto, ele também é capaz de identificar sequências virais, a partir dos dados genômicos fragmentados, incluindo genomas incompletos e de montagens de dados metagenômicos. No conjunto de dados metagenômicos, o VirSorter utiliza alinhamento e busca por similaridade em bancos de dados de vírus conhecidos, fazendo a busca por genes marcadores de estruturas virais como, proteínas de capsídeos, cauda, fibra da cauda central, revestimento e formação de viron para predição das sequências virais (ROUX et al., 2015).

O VirSorter recebeu como arquivo de entrada para análise o arquivo FASTA de saída do BBMap com os contigs duplicados removidos. Cada contig foi identificado a partir da semelhança com modelos conhecidos, e também foram identificados genes para cada sequência, sendo selecionadas as que contêm mais do que dois genes identificados como bacteriófagos.

3.7 IDENTIFICAÇÃO DOS BACTERIÓFAGOS

Para a identificação dos bacteriófagos preditos pelos programas foi utilizado o programa BLAST+ versão 2.9.0 (CAMACHO et al., 2009) através da ferramenta BLASTn contra os genomas presentes no banco de dados ENA (do inglês, European

Nucleotide Archive) (LEINONEN et al., 2010) contendo 2.480 genomas de

bacteriófagos disponíveis, sendo 2.434 genomas completos. Também foi utilizado o banco de dados do NCBI, GenBank, no qual foram selecionados apenas os genomas que não estavam contidos no ENA, obtendo assim mais 1.770 genomas, totalizando assim 4.250 genomas.

Após a obtenção dos genomas, as sequências foram concatenadas em um arquivo MultiFASTA. Posteriormente, as sequências identificadas pelos programa MARVEL, VirFinder e VirSorter, foram avaliadas contra este banco de dados com o valor de e-value < 10-5.

Os resultados dos alinhamentos para a amostra controle foram filtrados com parâmetros de 95% de identidade, sequências acima de 3.000 pares de base e 95% de cobertura. Por sua vez, os resultados do alinhamento das amostras ambientais foram filtrados com parâmetros de 50% de identidade, 1.000 pares de base de comprimento de alinhamento e 50% de cobertura. As amostras ambientais receberam valores diferentes para suas filtragens, pois não sabíamos quais vírus estariam presentes nas amostras, ao contrário da amostra controle, sendo aplicado

(32)

um valor de identidade relativamente baixo para identificação e uma cobertura de metade do contig evitando assim a identificação de quimeras.

(33)

33

4. RESULTADOS

4.1 PREPARO DAS AMOSTRAS

Após o controle de qualidade realizado através do programa Trimmomatic versão 0.39, em que foram retirados os adaptadores referentes à plataforma de sequenciamento e das sequências com qualidade phred menor que 20, um total de 56.8 milhões de reads foram retirados nesta etapa (Tab. 1). A amostra do Mar Mediterrâneo teve um número mais elevado de sequências removidas, em comparação com as demais, a mesma apresentava também um maior número de adaptadores de sequenciamento do que as outras duas amostras.

Na nova avaliação dos perfis das amostras realizada pelo FastQC, após a etapa de controle de qualidade, exceto para a amostra controle - pois não necessitou passar por esta etapa - obteve-se o total de sequências. Na amostra controle permaneceram 8.7 milhões de sequências, a amostra de Santa Mônica manteve um total de 163.8 milhões de sequências, a amostra de Ganzi manteve 101.1 milhões de sequências e a do Mar Mediterrâneo conservou 14.8 milhões de sequências totais (Tab. 2).

Tabela 1 - Resultado das amostras após passar pelo controle de qualidade Amostra ambiental Total de sequências iniciais Total de sequências removidas Porcentagem de sequências removidas Santa Mônica 165.582.671 110.872 0,07 Ganzi 101.412.404 9.322 0,01 Mar Mediterrâneo 148.351.585 56.734.173 38,24

Fonte: Elaborado pelo Autor (2020).

As montagens resultaram em 27.403 contigs para a amostra controle, 63.917 contigs para amostra de Ganzi, 45.179 contigs para a amostra do Mar Mediterrâneo e 444.976 contigs para a amostra de Santa Mônica. As análises de qualidade destas montagens foram realizadas através do programa Assembly Stats (CHALLIS, R., 2014) disponível na plataforma STINGRAY (WAGNER et al., 2014).

(34)

Tabela 2 - Resultado do FastQC das amostras ambientais e controle Amostra Total de sequências Tamanho das sequências

(pares de base) %GC Controle 8.792.732 150 48 Ganzi 101.112.945 150 59 Mar Mediterrâneo 14.847.273 150 43 Santa Mônica 163.840.207 150 63

Fonte: Elaborado pelo Autor (2020).

Após a etapa de remoção de sequências duplicadas pelo dedupe, 4 contigs foram removidos da amostra controle, 3 contigs da amostra de Ganzi, 3 contigs da amostra do Mar Mediterrâneo e 33 contigs da amostra de Santa Mônica (Tab. 3).

Tabela 3 - Resultado da montagem dos genomas através do metaSPAdes Amostra Número de contigs gerados pelo metaSPAdes Número de contigs após o BBMap contigs em N50 %GC Controle 27.403 27.399 621 48,20 Ganzi 63.917 63.914 16.653 55,54 Mar Mediterrâneo 45.179 45.176 6.298 43,65 Santa Mônica 444.976 444.943 43.282 64,02

Fonte: Elaborado pelo Autor (2020).

4.2 PERFORMANCE DE TEMPO 4.2.1 Amostra Controle

Quanto ao tempo de processamento e análise da amostra controle, o MARVEL levou 8 horas e 50 minutos para analisar a amostra, o VirFinder teve um tempo de performance de 40 minutos, VirSorter analisou em um tempo de 10 horas e 28 minutos. O programa VirFinder foi o que realizou a análise de forma mais veloz seguido do MARVEL e por último o VirSorter (Fig. 5).

(35)

35

4.2.2 Amostra Ganzi

Para a amostra ambiental de Ganzi, o VirFinder levou 01 hora 01 minuto e 45 segundos para realizar a análise, enquanto o VirSorter demorou 17 minutos para processar. Nesta amostra o MARVEL não foi utilizado já que ela não obteve arquivos de saída no pré-processamento dos dados. O programa que obteve um melhor desempenho quanto ao tempo de processamento foi o VirSorter seguido do VirFinder (Fig. 5).

4.2.3 Amostra Mar Mediterrâneo

Quanto ao tempo de processamento e análise da amostra do Mar Mediterrâneo, o MARVEL levou 44 minutos para realizar a análise, o Virfinder demorou 39 minutos e 08 segundos para processamento da amostra e o VirSorter precisou de 53 minutos para predição. Nesta amostra o MARVEL apresentou um melhor desempenho, seguido do VirFinder e, por último, o VirSorter (Fig. 5).

4.2.4 Amostra Santa Mônica

Quanto ao tempo de processamento e análise da amostra de Santa Mônica, o MARVEL demorou 18 horas e 50 minutos, o VirFinder exigiu 16 horas 02 minutos para análise e o VirSorter precisou de 15 horas e 59 minutos para o seu processamento. Santa Mônica teve como programa mais rápido o VirSorter seguido pelo VirFinder e, por último, o MARVEL (Fig. 5).

(36)

Figura 5 - Comparação dos programas quanto ao tempo de processamento das amostras

Fonte: Elaborado pelo Autor (2020).

4.3 IDENTIFICAÇÃO DOS BACTERIÓFAGOS 4.3.1 Amostra Controle

Dos 294 bins gerados pelo MetaBAT2, o MARVEL identificou 988 sequências de bacteriófagos com correspondência ao banco de dados utilizado. Que representam 432 espécies de bacteriófagos distintas dentro do espectro de 927 espécies utilizadas na montagem da amostra controle. O programa foi capaz de identificar ao menos um bacteriófago de cada família utilizada na montagem (Fig. 6).

Encontrando 100% dos bacteriófagos da família Chaseviridae, 100% da Demerecviridae, 75% da Podoviridae, 73,90% da Drexlerviridae, 66,66% da Autographiviridae, 50% dos não classificados, 50,14% da Siphoviridae, 35,80% da Myoviridae, 32,43% da Herelleviridae e 13,33% da Ackermannviridae.

O VirFinder identificou 1.935 sequências como sendo bacteriófagos com correspondência no banco de dados. Representando 633 espécies utilizadas para a

(37)

37

montagem da amostra controle, o VirFinder identificou bacteriófagos de todas as famílias utilizadas para desenvolvimento da amostra (Fig. 6).

Obtendo uma detecção de 100% da família Chaseviridae, 100% da Demerecviridae, 79,69% da Podoviridae, 74,50% da Autographiviridae, 73,91% da Drexlerviridae, 69,10% da Myoviridae, 66,20% da Herelleviridae, 64,66% da Siphoviridae, 60% da Ackermannviridae e 50% dos não classificados.

Para a amostra, o VirSorter identificou um total de 954 sequências como bacteriófagos. Essas, por sua vez, representam 530 espécies utilizadas na montagem do controle. Assim como os demais programas o VirSorter foi capaz de encontrar ao menos um bacteriófago de cada uma das famílias utilizadas (Fig. 6).

O programa conseguiu identificar 100% dos bacteriófagos da família Chaseviridae, 100% da Demerecviridae, 64,06% da Podoviridae, 59,73% da Siphoviridae, 58,82% da Autographiviridae, 56,52% Drexlerviridae, 54,05% da Herelleviridae, 53,51% da Myoviridae, 50% dos não classificados e 40% da família Ackermannviridae.

Figura 6 - Comparação entre os programas quanto a identificação das espécies de bacteriófagos utilizados na montagem, por família

Fonte: Elaborado pelo Autor (2020).

Como mencionado anteriormente, os três programas foram capazes de identificar ao menos um bacteriófago de cada família, porém a taxa de identificação

(38)

variou entre as famílias utilizadas na montagem. Em todas elas, o VirFinder identificou um número maior de bacteriófagos únicos, que os outros programas não encontraram, totalizando 69 bacteriófagos, o VirSorter identificou 15 organismos únicos e o MARVEL retornou apenas 5 bacteriófagos únicos (Fig. 7).

Foram identificados também 324 bacteriófagos em comum para todos os programas, entre o VirFinder e o VirSorter foram 164 encontrados, entre o VirFinder e o MARVEL esse número cai para 76, enquanto que na relação entre o VirSorter e MARVEL foram identificados 27 bacteriófagos em comum.

Os programas VirSorter e MARVEL oscilaram quanto a taxa de identificação. Nas famílias mais representativas, com um maior número de bacteriófagos, o VirSorter obteve um desempenho melhor do que o MARVEL, que por sua vez, ficou à frente do VirSorter na maioria das famílias, com um menor número de bacteriófagos representantes na amostra.

(39)

39

Figura 7 - Identificação de bacteriófagos em comum e exclusivos por família

(40)

Em quase todas as famílias, o VirFinder foi o que mais identificou bacteriófagos, com exceção da família Drexlerviridae na qual o MARVEL apresentou uma taxa de retorno melhor do que os demais programas.

Quando é observado o percentual de sensibilidade para a predição dos bacteriófagos essa diferença fica mais clara (Tab. 4). Os bacteriófagos das famílias Myoviridae e Siphoviridae representam 35,27% e 39,37%, respectivamente, totalizando 74,64% da amostra controle.

Em ambas as famílias o programa VirFinder apresentou uma maior sensibilidade de identificação, seguido pelo VirSorter e por último o MARVEL, com a menor taxa de identificação. Além disso, o VirFinder encontrou um maior número de bacteriófagos exclusivos, não encontrados pelos outros programas, em todas as famílias utilizadas, enquanto que o VirSorter identificou uma quantidade maior do que MARVEL, porém ambos identificaram bacteriófagos exclusivos em apenas três famílias.

Tabela 4 - Tabela com o percentual de representatividade das famílias na amostra controle e o percentual de bacteriófagos identificados da família

Família Percentual de representação na amostra Percentual de identificação de bacteriófago VirFinder Percentual de identificação de bacteriófagos VirSorter Percentual de identificação de bacteriófagos MARVEL Ackermannviridae 01,62 60,00 40,00 13,33 Autographiviridae 05,50 74,50 58,82 66,66 Chaseviridae 00,43 100 100 100 Demerecviridae 00,21 100 100 100 Drexlerviridae 02,48 69,57 56,52 73,91 Herelleviridae 07,99 66,20 54,05 32,43 Myoviridae 35,27 69,10 53,51 35,80 Podoviridae 06,90 79,69 64,06 75,00 Siphoviridae 39,37 64,66 59,73 50,14 Não Classificados 00,21 50.00 50,00 50,00

(41)

41

4.3.2 Amostra Ganzi

Para essa amostra o MARVEL não foi utilizado pois não houve bins gerados pelo MetaBAT2 na etapa anterior. O VirFinder selecionou algumas sequências com uma identificação positiva, mas nenhuma destas passou pelos parâmetros utilizados pelo BLAST+ para identificação de bacteriófagos neste trabalho. O VirSorter também não foi capaz de identificar bacteriófagos nesta amostra, como os demais programas.

4.3.3 Amostra Mar Mediterrâneo

Dos 19 bins analisados para essa amostra o MARVEL identificou sete bacteriófagos, sendo: AP013485, AP013393, AP013489, AP013489, AP013444, AP013490 e AP01350, todos pertencentes à mesma família: Siphoviridae. Os bacteriófagos encontrados estão classificados como fagos não cultivados do Mediterrâneo.

Na análise da amostra do Mar Mediterrâneo o VirFinder identificou oito bacteriófagos, sendo: AP013443, AP013402, AP013489, AP013494, AP013490, AP013490, AP013501 todos da família Siphoviridae, classificados como fagos do Mediterrâneo não cultivados e CP004084 da família Microviridae, que consistem em bacteriófagos com fita simples de DNA, classificado como Enterobacteria phage phiX174 (LABRIE et al., 2014).

O VirSorter identificou apenas um bacteriófago para a amostra, CP004084, com retorno contra o banco de dados, classificado como sendo da família Microviridae, compostos por ssDNA, Enterobacteria phage phiX174 (LABRIE et al., 2014).

O MARVEL e o VirFinder identificaram sete e oito bacteriófagos, respectivamente, sendo apenas dois deles em comum, AP013490 e AP013489. Além disso, o VirSorter foi capaz de identificar um bacteriófago da família Microviridae, Enterobacteria phage phiX174, encontrado também pelo programa VirFinder. O MARVEL e o VirSorter não identificaram bacteriófagos em comum (Fig. 8).

Nesta amostra, o MARVEL não foi capaz de identificar o bacteriófago

Enterobacteria phage phiX174, como era de se esperar, pois o mesmo possui

estrutura ssDNA e o programa é limitado a encontrar bacteriófagos com dsDNA. Uma das possibilidades para a não identificação do programa VirSorter quanto aos

(42)

bacteriófagos classificados como não cultivados do Mar Mediterrâneo, é que o mesmo trabalha com a busca de similaridade e para isso necessita que as sequências estejam bem consolidadas no banco de dados para sua identificação.

Figura 8 - Identificação de bacteriófagos em comum e exclusivos para amostra do Mar Mediterrâneo

Fonte: Elaborado pelo Autor (2020).

Como mencionado anteriormente, o VirFinder e o MARVEL encontraram bacteriófagos em comum na amostra, ambos encontram AP013490 e AP013489. Porém, o VirFinder identificou o bacteriófago AP013490 presente duas vezes na amostra e o MARVEL retornou apenas um. Enquanto para o bacteriófago AP013489 a situação se inverteu, o MARVEL identificou a presença dele duas vezes e o VirFinder apenas uma.

Uma possibilidade para esse fato é que o MARVEL, ao agrupar sequências em bins e posteriormente com o CD HIT, possa ter perdido um AP013490 dos dois identificados pelo VirFinder. Que por sua vez não identificou o bacteriófago AP013489 encontrado pelo MARVEL, pois durante a análise esta sequência foi

(43)

43

identificada com valor de q 0.057 e com isso acima do valor q 0.050 estipulado como valor de confiança para o programa neste trabalho.

4.3.4 Amostra Santa Mônica

Para essa amostra o MARVEL analisou 15 bins, com 45 sequências no total, mas nenhuma dessas retornou positivamente após a aplicação dos parâmetros de filtro utilizados para identificação contra o banco de dados. Assim como o MARVEL, o VirFinder obteve sequências positivas em sua análise. Porém, estas não passaram pelo filtro utilizado pelo BLAST+. O VirSorter também não identificou bacteriófagos para essa amostra.

(44)

5. DISCUSSÃO

De modo geral, o VirFinder apresentou um melhor desempenho, pois em três das quatro amostras ele se manteve com um tempo de processamento abaixo de cinco horas para análise dos dados. Passando desse valor apenas na análise de amostra de Santa Mônica que possui um número maior de contigs, 444.976, em comparação com as outras amostras.

O VirSorter, apesar de ter sido mais lento que o MARVEL em algumas amostras, recebe como entrada o arquivo de montagem gerado pelo metaSPAdes, enquanto o MARVEL necessita de algumas etapas de pré-processamento dos dados para poder ser utilizado. Assim, o MARVEL demanda maior esforço e tempo para sua execução, apesar desse tempo de pré-processamento não ter sido contabilizado. Com isso, VirSorter ficaria em segundo lugar quanto a performance dos dados.

O VirSorter utiliza o método de busca por similaridade e alinhamento para a predição de bacteriófagos, essa busca é realizada através do HMMER3 e do BLAST em banco de dados (ROUX et al., 2015), sendo que o tamanho do banco de dados e também a quantidade de sequências na amostra podem influenciar o tempo de processamento (WHEELER; BHAGWAT, 2007).

O MARVEL, por sua vez, usa o algoritmo de classificação random forest (AMGARTEN et al., 2018), criando árvores de decisões para identificação do bacteriófago, sendo um algoritmo dependente do número de sequências. Portanto, quanto maior o número de sequências maior será o tempo de análise e demanda de memória do computador (CHEN et al., 2017).

Todos os programas foram capazes de identificar ao menos um bacteriófago de cada família utilizada para a montagem da amostra controle. O índice de identificação de bacteriófagos por família do VirFinder se manteve acima dos outros programas em quase todas as famílias que foram usadas neste trabalho. Utilizando padrões de k-mers e um sistema de pontuação através de machine learning com efeito acumulativo para as diferenças de k-mers observados. Nos testes realizados pelos desenvolvedores do programa, o VirFinder teve uma identificação elevada de bacteriófagos em amostras com cerca de 90% de contigs virais, a amostra controle foi desenvolvida com um grande número de genoma de bacteriófagos, o que pode ter sido um diferencial para o desempenho superior do VirFinder (REN et al., 2017).

(45)

45

O VirSorter prediz como bacteriófagos as sequências que apresentam ao menos três genes marcadores de estruturas virais, alguns vírus possuem cerca de 14% regiões não codificadoras o que pode dificultar a identificação de bacteriófagos pelo programa, além disso, o tamanho do contig também pode influenciar na identificação desses genes (LU et al., 2013; REN et al., 2017; ROUX et al., 2015).

O MARVEL em princípio considera os contigs contidos nos bins como sendo de um mesmo organismo, além disso o programa utiliza o CD-HIT em seu pipeline que agrupa sequências similares. Uma possibilidade para a menor taxa de identificação pelo programa é que em caso de bacteriófagos com uma taxa alta de similaridade tenham sidos agrupados como sendo apenas um organismo. Em um estudo realizado por Hatfull e colaboradores (2010), a similaridade nucleotídica entre bacteriófagos da família Siphoviridae variou entre 53,7% a 99,9%, entre os integrantes da família Myoviridae a similaridade variou entre 66,5% a 99,2%, sendo que os vírus destas famílias foram os mais utilizados na montagem da amostra controle.

Estima-se que os vírus, principalmente os bacteriófagos, estejam presentes com cerca de 107 partículas por mililitro, em amostras de superfície de ambientes

marinhos (HURWITZ; SULLIVAN, 2013). No estudo realizado por Hurwitz e Sullivan (2013) foi verificado que a riqueza de grupos de proteínas de vírus caiu com o aumento da profundidade, com a distância da costa e com a estação do ano na qual as amostras foram coletadas.

A amostra do Mar Mediterrâneo utilizada neste trabalho foi coletada em uma profundidade de 2000 metros. Porém, não foi encontrado mais nenhum dado de como foi realizado o seu preparo, mas como ela faz parte de um estudo de análise de viroma do Mar Mediterrâneo podemos assumir que houve um preparo preliminar para identificar preferencialmente vírus ambientais.

Já considerando bacteriófagos em solo, a quantidade de fagos presentes nestes ambientes varia entre 103 e 109 por grama. Contudo, a identificação e

quantificação de vírus neste ambiente é relativamente complexa e depende de diversos fatores como método de extração, método de identificação, tipo de solo, altitude, disponibilidade de água, pH e temperatura (DION; OECHSLIN; MOINEAU, 2020; WILLIAMSON et al., 2017). Assim como para a amostra do Mar Mediterrâneo, não foi encontrado nenhum dado de como foi realizada a coleta, extração ou preparo das amostras de Ganzi e Santa Mônica.

(46)

Sendo assim, como esperado, foi possível identificar apenas bacteriófagos apenas na amostra do Mar Mediterrâneo. As amostras de Santa Mônica e Ganzi foram coletadas em ambiente de solo e não haviam informações sobre seu preparo e, por isso, acreditamos que o viés de preparação da amostra interfere diretamente na capacidade destes programas em identificar bacteriófagos de amostras ambientais.

(47)

47

6. CONCLUSÃO

A partir dos dados analisados, pode-se afirmar que o programa VirFinder demonstrou um melhor desempenho quanto a performance de tempo de processamento das amostras e de identificação de bacteriófagos nas amostras ambientais e na amostra controle, quando comparados com os programas MARVEL e VirSorter

Além disso, o tipo de ambiente e o preparo da amostra se demonstraram como fatores importantes na capacidade de identificação destes fagos e consequentemente no resultado final obtido pelo programa. Com isso, para uma melhor interpretação do ambiente os programas devem ser utilizados de forma complementar, já que os três foram capazes de identificar bacteriófagos exclusivos em suas análises.

Neste trabalho, o VirFinder apresentou um melhor desempenho quanto a taxa de identificação, sensibilidade e tempo de processamento. Dessa forma, o próximo passo é a elaboração de um pipeline para automatização da análise ambiental com esse programa.

Novos estudos devem ser realizados para desenvolver novos programas para a identificação de bacteriófagos com estratégias de identificação distintas para melhorar a capacidade de identificação de novos fagos com potencial biotecnológico a partir de dados metagenômicos.

(48)

REFERÊNCIAS

ABEDON, S. T.; DUFFY, S.; TURNER, P. E. Bacteriophage Ecology. In: Encyclopedia of Microbiology. San Diego: Elsevier, 2009.

ACKERMANN, H.-W. Frequency of morphological phage descriptions in the year 2000. Archives of Virology, v. 146, n. 5, p. 843–857, 29 maio 2001.

ACKERMANN, H.-W. Phage Classification and Characterization. In: CLOKIE, M. R. J.; KROPINSKI, A. M. (Eds.). Bacteriophages. Totowa, NJ: Humana Press, 2009. v. 501.

AJAMI, N.J.; PETROSINO, J.F.. Enteric Viral Metagenomics. Viral Gastroenteritis, [S.L.], p. 523-533, 2016.

AKHTAR, Iqra Naveed. Viral genetics and structure. Dengue Virus Disease, [S.L.], p. 85-113, 2020.

AMGARTEN, D. et al. MARVEL, a Tool for Prediction of Bacteriophage Sequences in Metagenomic Bins. Frontiers in Genetics, v. 9, p. 304, 7 ago. 2018.

ANDREWS, S. FastQC: A Quality Control Tool for High Throughput Sequence Data. Available online at: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/, 2010.

ARYA, Pooja; RAVINDRA. Metagenomics based approach to reveal the secrets of unculturable microbial diversity from aquatic environment. Recent Advancements In Microbial Diversity, [S.L.], p. 537-559, 2020.

BOLGER, Anthony M.; LOHSE, Marc; USADEL, Bjoern. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics, [s.l.], v. 30, n. 15, p.2114-2120, 1 abr. 2014.

BUSHNELL, Brian. BBMap: A Fast, Accurate, Splice-Aware Aligner. United States: N. p., 2014.

CAMACHO, Christiam; COULOURIS, George; AVAGYAN, Vahram; MA, Ning; PAPADOPOULOS, Jason; BEALER, Kevin; MADDEN, Thomas L. BLAST+: architecture and applications. Bmc Bioinformatics, [S.L.], v. 10, n. 1, p. 421-431, 2009.

(49)

49

CHALLIS R. rjchallis/assembly-stats17.02.Zenodo, 2014, doi:10.5281/zenodo.322347.

CHEN, Jianguo; LI, Kenli; TANG, Zhuo; BILAL, Kashif; YU, Shui; WENG, Chuliang; LI, Keqin. A Parallel Random Forest Algorithm for Big Data in a Spark Cloud Computing Environment. Ieee Transactions On Parallel And Distributed Systems, [S.L.], v. 28, n. 4, p. 919-933, 1 abr. 2017

CHIANG, Yin Ning; PENADÉS, José R.; CHEN, John. Genetic transduction by phages and chromosomal islands: The new and noncanonical. Plos Pathogens, [s.l.], v. 15, n. 8, p.1-7, 8 ago. 2019.

COBIÁN GÜEMES, A. G. et al. Viruses as Winners in the Game of Life. Annual Review of Virology, v. 3, n. 1, p. 197–214, 29 set. 2016.

COORDINATORS, Ncbi Resource. Database resources of the National Center for Biotechnology Information. Nucleic Acids Research, [s.l.], v. 44, n. 1, p. 7-19, 28 nov. 2015.

DAFALE, N. A. et al. Bacteriophage Diversity in Different Habitats and Their Role in Pathogen Control. In: KALIA, V. C. (Ed.). Microbial Factories. New Delhi: Springer India, 2015.

DION, Moïra B.; OECHSLIN, Frank; MOINEAU, Sylvain. Phage diversity, genomics and phylogeny. Nature Reviews Microbiology, [S.L.], v. 18, n. 3, p. 125-138, 3 fev. 2020.

DUCKWORTH, D H. "Who discovered bacteriophage?". Bacteriol Rev., Ontario, v. 40, n. 4, p. 793-802, out. 1976.

EDDY, Sean R.. Accelerated Profile HMM Searches. Plos Computational Biology, [s.l.], v. 7, n. 10, p. 1-10, 20 out. 2011.

EDWARDS, R. A.; ROHWER, F. Viral metagenomics. Nature Reviews Microbiology, v. 3, n. 6, p. 504–510, maio 2005.

EWING, Brent; HILLIER, Ladeana; WENDL, Michael C.; GREEN, Phil. Base-Calling of Automated Sequencer Traces UsingPhred. I. Accuracy Assessment. Genome Research, [s.l.], v. 8, n. 3, p. 175-185, 1 mar. 1998.

Referências

Documentos relacionados

Estudar o efeito da plastificação do ATp com glicerol nas características físico-químicas da blenda PLA/ATp; Analisar a mudança na cristalinidade dos laminados submetidos a

A tem á tica dos jornais mudou com o progresso social e é cada vez maior a variação de assuntos con- sumidos pelo homem, o que conduz também à especialização dos jor- nais,

A baixa taxa de desconto ao longo dos anos de produção do campo, para o cálculo da função objetivo, aliada a baixa produção de água que a locação de

Os estoques de serapilheira indicaram que a mata possui o maior acúmulo de matéria orgânica sobre o solo, sendo o controle positivo do processo de ciclagem

A placa EXPRECIUM-II possui duas entradas de linhas telefônicas, uma entrada para uma bateria externa de 12 Volt DC e uma saída paralela para uma impressora escrava da placa, para

Como não se conhece parâmetros hematológicos do pacu-manteiga Mylossoma duriventre Cuvier, 1817, a proposta do presente estudo foi descrever tais parâmetros em espécimes

No entanto, maiores lucros com publicidade e um crescimento no uso da plataforma em smartphones e tablets não serão suficientes para o mercado se a maior rede social do mundo

investimentos obedecerá às regras estabelecidas na Constituição Federal, na Constituição do Estado, nas normas de direito financeiro e nos preceitos desta Lei Orgânica. A