UNIVERSIDADE FEDERAL DE MINAS GERAIS
INSTITUTO DE CIÊNCIAS BIOLÓGICAS
PROGRAMA INTERUNIDADES DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA
DISSERTAÇÃO DE MESTRADO
FRANCISLON SILVA DE OLIVEIRA
Análise em larga escala das regiões intergênicas ITS, ITS1 e ITS2
para o filo Basidiomycota (Fungi)
Belo Horizonte
2015
Francislon Silva de Oliveira
Análise em larga escala das regiões intergênicas ITS, ITS1 e ITS2
para o filo Basidiomycota (Fungi)
Dissertação apresentada ao
Programa Interunidades de Pós-Graduação em
Bioinformática da UFMG como requisito parcial
para a obtenção do grau de Mestre em
Bioinformática.
ORIENTADOR: Prof. Dr. Guilherme Oliveira Correa
CO-ORIENTADOR: Prof. Dr. Aristóteles Góes-Neto
Belo Horizonte
2015
AGRADECIMENTOS
À minha família e amigos pelo amor e confiança depositadas em mim.
Aos meus orientadores Guilherme e Aristóteles por todo o suporte oferecido durante todo
o mestrado.
À Fernanda Badotti pelas discussões biológicas sobre o tema de DNA barcoding e por
estar sempre disposta a ajudar.
À toda equipe do Centro de Excelência em Bioinformática pelos maravilhosos momentos
que passamos juntos. Muito obrigado por toda paciência nesse momento final de turbulência do
mestrado.
Aos membros do Center for Tropical and Emerging Global Diseases pela sensacional
receptividade durante o meu estágio de quatro meses na University of Georgia. Um agradecimento
especial à Dra. Jessica Kissinger pelos conselhos científicos e à Betsy pela atenção e
disponibilidade de ajudar a qualquer momento.
Aos colegas do programa de pós-graduação em bioinformática da UFMG pelos momentos
de descontração e discussão científica na mesa do bar !.
Aos membros da secretaria do programa de pós-graduação pela simpatia e vontade de
ajudar sempre. Em especial à Sheila que é um anjo.
À Vale, NIH e FAPEMIG pelo provimento de minha bolsa e pelo suporte financeiro para
participação em eventos científicos.
SUMÁRIO
1
!
INTRODUÇÃO ... 1
!
1.1
!
CÓDIGO DE BARRAS DE DNA ... 1
!
1.2
!
A REGIÃO ITS ... 3
!
1.3
!
REINO FUNGI ... 3
!
1.3.1
!
Filo Basidiomycota ... 4
!
2
!
OBJETIVOS ... 6
!
2.1
!
OBJETIVO GERAL ... 6
!
2.2
!
OBJETIVOS ESPECÍFICOS ... 6
!
3
!
MATERIAL E MÉTODOS ... 6
!
3.1
!
AQUISIÇÃO DOS DADOS ... 6
!
3.2
!
FILTRAGEM DO BANCO DE DADOS ... 8
!
3.2.1
!
Filtros de qualidade ... 9
!
3.2.2
!
Filtros lógicos ... 10
!
3.3
!
ANÁLISE DOS DADOS ... 11
!
3.3.1
!
Análise de Barcode Gap ... 11
!
3.3.2
!
Probabilidade de identificação correta ... 12
!
3.3.3
!
Validação cruzada com BLAST ... 12
!
4
!
RESULTADOS E DISCUSSÃO ... 13
!
4.1
!
GÊNEROS COM BARCODE GAP ... 15
!
4.2
!
GÊNEROS COM BARCODE GAP EXCLUINDO AS DISTÂNCIAS ATÍPICAS ... 25
!
4.3
!
GÊNEROS SEM BARCODE GAP ... 34
!
5
!
CONCLUSÕES ... 45
!
REFERÊNCIAS ... 46
!
APÊNDICE I – LINHAS DE COMANDO DA ETAPA DE FILTRAGEM ... 49
!
APÊNDICE II – LINHAS DE COMANDO DA ETAPA DE ANÁLISE ... 50
!
LISTA DE ILUSTRAÇÕES
Figura 1: Diagrama de aquisição dos dados do Genbank ... 7!
Figura 2: Exemplo de um cabeçalho FASTA proveniente do UNITE ... 8!
Figura 3: Linhas de comando para aquisição dos dados ... 8!
Figura 4: Etapas de Filtragem ... 9!
Figura 5: Países com espécimes na base de análise estudada ... 14!
Figura 6: Gráficos de barcode gap para os gêneros Agaricus (A), Antherospora (B),
Ceriporiopsis (C), Clavaria (D), Cystodermella (E) e Descolea (F) ... 18
!
Figura 7: Gráficos de barcode gap para os gêneros Endoraecium (A), Entyloma (B),
Exobasidium (C), Favolus (D), Fibroporia (E) e Flammulina (F) ... 19
!
Figura 8: Gráficos de barcode gap para os gêneros Fuscoporia (A), Gloeophyllum (B),
Gymnopilus (C), Helicobasidium (D), Hyphodermella (E) e Lepista (F) ... 20
!
Figura 9: Gráficos de barcode gap para os gêneros Leucopaxillus (A), Lycoperdon (B),
Lyomyces (C), Lyophyllum (D), Neofavolus (E) e Octaviania (F) ... 21
!
Figura 10: Gráficos de barcode gap para os gêneros Oligoporus (A), Phellinus (B),
Porodaedalea (C), Psathyrella (D), Psilocybe (E) e Pycnoporellus (F) ... 22
!
Figura 11: Gráficos de barcode gap para os gêneros Resinicium (A), Rhodocollybia (B),
Rigidoporus (C), Thecaphora (D), Tilletia (E) e Tricholomopsis (F) ... 23
!
Figura 12: Gráficos de barcode gap para os gêneros Tylopilus (A), Xerocomus (B) e
Xeromphalina (C) ... 24
!
Figura 13: Gráficos de barcode gap para os gêneros Amanita (A), Amyloporia (B), Antrodia
(C), Antrodiella (D), Auricularia (E) e Calvatia (F) ... 28!
Figura 14: Gráficos de barcode gap para os gêneros Chlorophyllum (A), Chroogomphus (B),
Coprinopsis (C), Datronia (D), Entoloma (E) e Ganoderma (F) ... 29
!
Figura 15: Gráficos de barcode gap para os gêneros Geastrum (A), Gymnopus (B),
Hygrocybe (C), Hygrophorus (D), Hymenopellis (E) e Lactifluus (F) ... 30
!
Figura 16: Gráficos de barcode gap para os gêneros Lentinellus (A), Lepiota (B),
Leucoagaricus (C), Macrolepiota (D), Megacollybia (E) e Melampsora (F) ... 31
!
Figura 17: Gráficos de barcode gap para os gêneros Microbotryum (A), Parasola (B),
Phanerochaete (C), Phellodon (D), Piloderma (E) e Polyporus (F) ... 32
!
Figura 18: Gráficos de barcode gap para os gêneros Postia (A), Puccinia (B), Russula (C),
Sarcodon (D), Suillus (E) e Thelephora (F) ... 33
!
Figura 19: Gráficos de barcode gap para os gêneros Tricholoma (A) e Tuberculina (B) ... 34!
Figura 20: Gráfico de barcode gap dos gêneros: Alnicola (A), Armillaria (B), Boletus (C),
Butyriboletus (D), Clavulina (E) e Collybia (F) ... 37
!
Figura 21: Gráficos de barcode gap para os gêneros Cortinarius (A), Crepidotus (B),
Cystoderma (C), Fomitopsis (D), Hebeloma (E) e Hohenbuehelia (F) ... 38
!
Figura 22: Gráficos de barcode gap dos gêneros Hydnellum (A), Hydnum (B), Hyphoderma
(C), Hypholoma (D), Inocybe (E) e Laccaria (F) ... 39!
Figura 23: Gráficos de barcode gap para os gêneros Lactarius (A), Lentinus (B), Melanoleuca
(C), Mucidula (D), Mycena (E) e Paxillus (F) ... 40!
Figura 24: Gráficos de barcode gap dos gêneros Rhizopogon (A), Scleroderma (B), Sebacina
(C), Stephanospora (D), Strobilurus (E) e Tomentella (F) ... 41!
Figura 25: Gráficos de barcode gap dos gêneros Peniophorella (A), Phaeocollybia (B),
Pisolithus (C), Pleurotus (D), Pluteus (E) e Ramaria (F) ... 42
!
Figura 26: Gráficos de barcode gap dos gêneros Trametes (A) e Vuilleminia (B) ... 43!
Figura 27: Gráfico de cordas do gênero Russula ... 45!
LISTA DE TABELAS
Tabela 1: Gêneros com barcode gap ... 16!
Tabela 2: Gêneros sem barcode gap devido à sobreposição de valores atípicos ... 26!
Tabela 3: Gêneros sem barcode gap ... 35!
LISTA DE ABREVIATURAS
ITS: Internal Transcribed Spacer
COX1: Cytochrome c Oxidase I
NCBI: National Center for Biotechnology Information
GI: GenInfo Identifier
UNITE: User-friendly Nordic ITS Ectomycorrhiza Database
DNA: Deoxyribonucleic Acid
RNA: Ribonucleic acid
rDNA: Ribosomal DNA
pb: Pares de base
HTML: HyperText Markup Language
PIC: Probabilidade de Identificação Correta
RESUMO
O código de barras de DNA é um sistema microgenômico utilizado para
identificar espécies previamente descritas e para facilitar o reconhecimento de
novas espécies e segue os princípios de padronizaçãoo, minimalismo,
escalabilidade e rapidez. Esse sistema utiliza idealmente um único segmento
padronizado de DNA, o qual, nos fungos, corresponde a região espaçadora interna
transcrita (nrITS). Em muitas situações, subregiões da região de DNA barcode
(minibarcodes) podem ser utilizadas para substituir a região inteira. O Filo
Basidiomycota (Fungi) apresenta mais de 30 mil espécies descritas, apresentando
uma surpreendente complexidade morfológica com uma diversidade de funções
ecológicas e aplicações biotecnológicas. A identificação rápida e confiável de
espécies desse grupo de fungos é fundamental para muitas áreas de
desenvolvimento científico e tecnológico. O presente estudo objetivou realizar
uma análise em larga escala da região ITS e de suas subrregiões ITS1 e ITS2 de
espécies de Basidiomycota (Fungi) e testar a hipótese de que essas subrregiões
podem funcionar como minicódigos de barra de DNA para discriminar as
espécies desse grupo fúngico. Construiu-se um banco de dados primário
compreendendo todos as sequências completas de ITS de Basidiomycota com
com vouchers, depositadas no INSCD, enriquecidas com metadados, quando
disponíveis, da base de dados UNITE. Filtros de qualidade foram aplicados ao
banco de dados primário e dois bancos de dados secundários foram construídos,
um contendo a subrregião ITS1 e o outro, a subrregião ITS2. O banco de dados
primário compreendeu 7876 sequências, representando três subfilos, 25 ordens,
75 famílias, 215 gêneros e 951 espécies de Basidiomycota de 118 países em seis
continentes. Foram realizadas análises comparativas detalhadas da variabilidade
intra e interespecífica ao nível de gênero e três padrões gerais distintos foram
recuperados: (i) gêneros com um barcode gap; (ii) gêneros com um barcode gap
seas distâncias intra e interespecíficas atípicas (outliers) são removidas; (iii)
gêneros sem um barcode gap. Valores baixos de PCI (Probabilidade de
Identificação Correta) podem estar relacionados a identificações errôneas nos
acessos do NCBI (não-conformidades) ou a processos biológicos tais como
especiação recente ou críptica e, portanto, merecem uma revisão taxonômica.
Keywords: Basidiomycota; Código de Barras de DNA; Espaçador Interno Transcrito.
ABSTRACT
DNA barcoding is a DNA-based system used to identify previously described
species and to facilitate the recognition of new ones, following the general
principles of standardization, minimalism, scalability, and rapidity. It ideally
utilizes only one standardized DNA segment, which in fungi is the ribosomal
internal transcribed spacer region (nrITS). In many situations small portions of the
barcode region (minibarcodes) may be used to substitute the full-length barcode.
Basidiomycota is the second most speciose fungal group, exhibiting a striking
morphological complexity with a diversity of ecological roles and
biotechnological applications. The fast and reliable identification of these fungi is
fundamental to many research areas. The main goals of our work was to perform
a large scale analysis of ITS, ITS1 and ITS2 of basidiomycotan species and to test
the hypothesis of whether the ITS1 and ITS2 may work as DNA minibarcodes to
discriminate these fungal species. In order to reach this goal we have constructed
a primary database consisting of all completed vouchered ITS sequences of
Basidiomycota currently available in INSCD enriched with metadata, when
available, from the UNITE database. Quality filters were applied to the primary
dataset and then two secondary databases were constructed, one containing ITS1
and the other consisting of ITS2 subregion sequences. Our primary database
comprised 7876 sequences, which represented three subphyla, 25 orders, 75
families, 215 genera, and 951 species from 118 countries of six continents.
Detailed comparative analysis of intra and interspecific variability at the genus
level was performed. Three distinct general patterns were retrieved: (i) genera
with an undoubtedely barcode gap; (ii) genera with a barcode gap if atypical intra
and interspecific distances (outliers) are removed; (iii) genera without a barcode
gap. Low PCI (Probability of Correct Identification) values may be related to
misidentifications in the NCBI database or biological processes such as recent or
cryptic speciations and, therefore, deserve a taxonomic revision.
1!
INTRODUÇÃO
A metodologia tradicional para a identificação de organismos eucarióticos
geralmente realizada através do diagnóstico de características morfológicas, apresenta
limitações significativas, principalmente devido à plasticidade fenotípica e à variabilidade
natural nos caracteres empregados para o reconhecimento de espécies, que podem levar a
uma identificação incorreta. Além disso, táxons morfologicamente crípticos, comuns em
diversos grupos, podem não ser detectados devido às limitações no sistema de
identificação baseado na morfologia, aliada à escassez de taxonomistas especializados nos
diferentes grupos de organismos, técnicas moleculares têm sido utilizadas como
instrumentos complementares no processo de identificação de táxons (Hebert et al. 2003).
1.1! Código de barras de DNA
O código de barras de DNA é um sistema de identificação molecular que vem
sendo utilizado com a finalidade de reconhecer espécies conhecidas (já descritas) e
facilitar a identificação de espécies novas (não-descritas) (Casiraghi et al. 2010).
Este sistema de identificação molecular consiste na utilização de um pequeno
segmento de DNA (em analogia ao código de barras do comércio) suficientemente
variável ao nível de organização interespecífico (espécimes de diferentes espécies), mas
pouco variável ao nível intraespecífico (espécimes da mesma espécie), possibilitando,
desta forma, a discriminação acurada de espécies biológicas. O método baseia-se na
premissa de que a variação genética entre as espécies analisadas excede a variação
existente dentro dessas mesmas espécies para o segmento de DNA selecionado (Hebert et
al. 2003). Logo, a análise ideal de código de barras de DNA espelha as distribuições das
variabilidades intra e interespecíficas separadas por uma distância denominada de barcode
gap (Meyer & Paulay 2005; Wiemers & Fiedler 2007).
As ferramentas e aplicações relacionadas a sequências de DNA como fonte de
informação biológica foram basicamente desenvolvidas por duas áreas das Ciências
Biológicas: Filogenia Molecular e Genética de Populações. Entretanto, estas áreas
2
trabalham com níveis de organização biológica diferentes. Estudos de filogenia molecular
tipicamente tratam de relações filogenéticas entre espécies e demais grupos
supraespecíficos enquanto que estudos na área de genética de populações analisam a
variação intra e interpopulacional de uma única espécie. Comparativamente, os estudos de
código de barras de DNA ocupam a intersecção entre essas duas áreas, já que tratam de
uma abordagem ao nível específico, focada na delineação de espécies e não
necessariamente de suas relações filogenéticas. Portanto, os estudos de código de barras de
DNA podem complementar as pesquisas em filogenia molecular e em genética de
populações, fornecendo informação biológica que será útil tanto para a inferência de
filogenias como para as mais diversas análises populacionais (Hajibabaei et al. 2006).
A abordagem teórico-metodológica e prática de código de barras de DNA pode ser
considerada como a base de um sistema taxonômico integrado, capaz de implementar
todos os aspectos da taxonomia em direção à representação dos organismos da biosfera
como um todo (DeSalle et al. 2005; Dayrat 2005; Singer & Hajibabaei 2009). Esta
abordagem reside na conjugação de três inovações da taxonomia moderna: (i)
molecularização (o uso da variabilidade de um marcador molecular como um
discriminante), (ii) informatização (a transposição não-redundante de dados utilizando
suportes de informática) e (iii) padronização (a abrangência desta abordagem padrão a
vastos grupos de organismos não proximamente relacionados). A molecularização e a
informatização vêm ocorrendo independentemente na taxonomia há certo tempo, mas a
padronização, apesar dos esforços dos códigos internacionais, estava presente apenas
aleatoriamente na taxonomia. Assim, pela primeira vez, através da abordagem de código
de barras de DNA, é possível introduzir na taxonomia uma generalização, permitindo aos
pesquisadores especializados em diferentes campos de conhecimento compartilhar uma
base em comum (Casiraghi et al. 2010).
O sistema de código de barras de DNA, inicialmente utilizado, com sucesso, nos
mais diversos grupos de animais, utilizando o gene Cytochrome c oxidase I (COX1)
mitocondrial (Hebert et al. 2004; Ward et al. 2005; Hajibabaei et al. 2006), vem sendo
utilizado em plantas (com os genes RBCL e MATK) (Kress et al. 2009) e, mais
recentemente, em fungos, nos quais a região Internal Transcribed Spacer (ITS ou nrITS)
do DNA ribossômico foi selecionada como código de barras de DNA (Schoch et al. 2012).
1.2! A região ITS
Os genes que codificam para o RNA ribossômico nuclear em eucariotos (18S, 5.8S
e 28S) estão organizados em uma unidade repetitiva, apresentando-se em múltiplas cópias
ao longo do genoma e são inicialmente transcritos pela RNA polimerase I como um único
segmento. Posteriormente, sofrem edição após a transcrição e os dois espaçadores internos
transcritos são removidos. Esses dois espaçadores transcritos (ITS1 e ITS2) juntamente
com o gene que codifica o rRNA 5.8S, que se situa entre esses espaçadores, correspondem
à denominada região ITS (ITS1 + 5.8S + ITS2) (Schoch et al. 2012). A região ITS em
fungos contem aproximadamente 400-800 pares de bases (Porras-Alfaro et al. 2014) e,
embora o gene 5.8S seja altamente conservado, o ITS1 e o ITS2 conjuntamente, em geral,
apresentam resolução suficiente para diferenciação intragenérica (Nilsson et al. 2008).
1.3! Reino Fungi
Os fungos compõem um dos grupos de organismos mais diversos da Terra.
Atualmente são conhecidas aproximadamente 105 mil espécies de fungos (Kirk et al.
2008), correspondendo a cerca de 7% do total estimado em 1,5 milhões de espécies
(Hawksworth 2004). Isto faz dos fungos, assim como de bactérias e arqueas, um dos
grupos de seres vivos com diversidade específica menos conhecida.
Os fungos (Reino Fungi) constituem um grupo monofilético, tendo Nuclearia (um
grupo de amebas) como provável grupo-irmão. O Reino Fungi compreende os filos
Basidiomycota, Ascomycota e Glomeromycota, e várias linhagens basais (os subfilos
Mucoromycotina, Kickxellomycotina, Zoopagomycotina, Entomophthoromycotina,
Blastocladiomycotina,
Chytridiomycotina,
Neocallimastigomycotina)
que
até
recentemente eram agrupadas nos antigos filos não-monofiléticos, Zygomycota e
Chytridiomycota. Fazem ainda parte do Reino Fungi a linhagem de Rozella e os
Microsporidia (McLaughlin et al. 2009; Stajich et al. 2009).
Os fungos são organismos eucarióticos, quimioheterotróficos, de nutrição absortiva
com digestão extracorpórea parcial, predominantemente aeróbicos ou fermentadores
4
facultativos, que apresentam estrutura corpórea pluricelular micelial (fungos filamentosos)
ou unicelular leveduriforme (leveduras). A parede celular é constituída de quitina, glicanos
e proteínas, tendo o ergosterol como principal esterol constituinte da membrana
plasmática. Os fungos são predominantemente sapróbios e a decomposição,
particularmente em ambientes terrestres, é a principal função ecológica desempenhada por
este grupo de organismos. Eles podem ainda viver associados a outros seres vivos como
parasitas ou mutualistas, como também formarem associações que não compreendem nem
relação de parasitismo ou mutualismo estritos, como no caso dos líquens e fungos
endobióticos (Uetanabaro et al. 2007).
A importância econômica dos fungos compreende tanto aspectos negativos, quanto
aspectos positivos, sendo que estes últimos suplantam os primeiros. No setor agropecuário
os fungos são utilizados para a micorrização de sementes de algumas plantas cultivadas e
no controle biológico de animais, plantas e fungos parasitas de vegetais agricultáveis. O
impacto positivo dos fungos na economia decorre principalmente do setor industrial, já
que diversos produtos são o resultado direto da atividade biológica desses organismos.
Toda a indústria de processos fermentativos, de bebidas ou de alimentos fermentados,
baseia-se na utilização do processo natural de fermentação realizado por fungos. Os
fungos são ainda utilizados para a produção de metabólitos primários, como enzimas, e de
metabólitos secundários como antibióticos, alcalóides e pigmentos. Os fungos têm sido
utilizados na biorremediação de ambientes contaminados por poluentes, de forma que vêm
sendo utilizados para a decomposição mais eficiente do lixo orgânico, de compostos
naturais recalcitrantes e de xenobióticos, assim como na biosorção de metais pesados e
compostos radioativos. Além disso, os fungos compreendem uma importante fonte de
novos compostos bioativos de interesse farmacológico, agrícola e biotecnológico (Rai
2009; Stamets 2005).
1.3.1! Filo Basidiomycota
O filo Basidiomycota compreende todos os fungos que produzem, em algum
momento do seu ciclo de vida, meiosporângios denominados de basídios, onde são
produzidos, externamente, os esporos sexuais, os basidiósporos. Os basídios
compreendem, portanto, a característica sinapomórfica deste grupo de fungos. As espécies
do filo Basidiomycota apresentam uma impressionante diversidade morfológica e são
predominantemente pluricelulares miceliais. O micélio é sempre septado e os septos são
uniporados no micélio primário e do tipo dolíporos no micélio secundário, o qual constitui
a fase mais duradoura do ciclo de vida dos Basidiomycota miceliais e que apresenta
caracteristicamente dois núcleos por compartimento hifal, cada um proveniente de um
parental. As estruturas de reprodução sexuada compreendem, em geral, macrosporomas ou
macrosporóforos que são denominados de basidiomas, embora também existam estruturas
de reprodução sexuada que tem nível de organização simples como télio, espermagônio e
hifas receptivas. O ciclo de vida é do tipo haplobionte haplonte e a fase dicariótica é longa,
de função somática e sexual, independente da fase haploide, capaz de propagação
indefinida e único componente dos basidiomas, sendo a fase predominante no ciclo de
vida (Petersen 2013).
São fungos de distribuição cosmopolita, que vivem predominantemente em
ambiente terrestre e como sapróbios, e tem um papel ecológico crucial no ciclo de
carbono, já que são os principais responsáveis pela decomposição de resíduos
lignocelulósicos em ambientes terrestres. Muitas espécies são parasitas e patógenas de
vegetais, causando sérios prejuízos econômicos em plantas de interesse agronômico. Os
basidiomicetos são amplamente utilizados como fonte alimentar (cogumelos comestíveis),
em medicina popular (cogumelos medicinais) e apresentam grande potencial de utilização
para a produção de biocombustíveis (etanol lignocelulósico) e biorremediação (Petersen
2013).
A sistemática do grupo ainda é baseada na morfologia das estruturas reprodutivas.
O filo Basidiomycota compreende três subfilos monofiléticos: Os Subfilos
Pucciniomycotina e Ustilagomycotina compreendem basidiomicetos que não formam
basidiomas e são predominantemente fitoparasitas enquanto que a grande maioria das
espécies pertencem ao subfilo Agaricomycotina, o qual abrange todos os Basidiomycota
que formam basidiomas com himênio definido. Nesta classe encontram-se os
basidiomicetos mais popularmente conhecidos – os cogumelos e os orelhas de pau
(Petersen 2013).
6
2!
Objetivos
2.1! Objetivo Geral
O objetivo principal do presente estudo compreendeu a realização de uma análise
em larga escala da região genômica selecionada como código de barras primário de fungos
(nrITS) e suas sub-regiões (ITS1 e ITS2) para as espécies do Filo Basidiomycota.
2.2! Objetivos Específicos
•! Analisar a região ITS e suas sub-regiões ITS1 e ITS2 nos distintos gêneros
do Filo Basidiomycota.
•! Avaliar se as sub-regiões ITS1 e ITS2 podem ser utilizadas como mini-
códigos de barras de DNA para a identificação de espécies do Filo
Basidiomycota.
3!
MATERIAL E MÉTODOS
3.1! Aquisição dos dados
Neste estudo foram utilizadas apenas sequências com a região ITS completa
depositadas no Genbank (Benson et al. 2014) e oriundas de coleções permanentes às quais
a taxonomia é identificada por especialistas (voucher specimens). A aquisição de tais
sequências é efetuada em duas etapas como demonstrado na Figura 1.
Figura 1: Diagrama de aquisição dos dados do Genbank
Etapa 1: É efetuada uma consulta ao Genbank, por meio do webservice esearch
1da interface NCBI Entrez
2,
com os termos: "basidiomycota" and "internal transcribed spacer" and "voucher", sendo retornada uma lista
com todos os GenInfo Identifier (GI) referentes à busca; Etapa 2: Cada GI retornado na Etapa 1 é submetido
à uma nova busca ao Genbank, por meio do webservice efetch
2da interface NCBI Entrez, sendo retornado
um arquivo no formato genbank
3. Fonte: Francislon Silva de Oliveira, 2015.
Para facilitar a tarefa de aquisição dos arquivos genbank foi desenvolvido um
script, em linguagem Perl (get_data_by_term.pl), que utiliza o módulo Bio::DB::EUtilities
do pacote BioPerl
4para intermediar o acesso aos webservices do NCBI e formatar um
único arquivo genbank de saída.
Um arquivo genbank é um arquivo texto que possui metadados associados à uma
sequência de DNA depositada no Genbank. Uma importante informação contida no
arquivo genbank é o nome científico do organismo, ao qual a sequência pertence, e toda a
sua hierarquia taxonômica de acordo com o banco de dados de taxonomia do NCBI
5. Vale
ressaltar que é possível que uma sequência depositada neste banco de dados não possua
informações de categorias taxonômicas mais inclusivas, tais como família, ordem e classe.
Com o intuito de enriquecer as informações de taxonomia do NCBI foi utilizado o
banco de dados UNITE (Kõljalg et al. 2013). Além da linhagem taxonômica, é possível
consultar a localização geográfica onde o fungo foi coletado, entre outros metadados.
Entretanto o UNITE não possui webservices públicos para a consulta destes dados, desta
1
Disponível em: <
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi
>. Último acesso em 28/10/2015.
2Disponível em: <
http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi
>. Último acesso em 28/10/2015.
3Disponível em: <
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
>. Último acesso em 28/10/2015.
4Disponível em: <
http://www.bioperl.org
>. Último acesso em 28/10/2015.
8
forma, foi necessário baixar o arquivo FASTA contendo todas as sequências disponíveis
no UNITE e, a partir do cabeçalho do FASTA, gerar um arquivo tabular para facilitar as
análises posteriores. A Figura 2 mostra um exemplo de cabeçalho do FASTA do UNITE.
O primeiro campo separado pelo símbolo '|' representa o número de acesso da sequência.
Este campo apresenta referência cruzada com o número de acesso do Genbank. O segundo
campo representa a hierarquia taxonômica, onde cada item separado por ponto e vírgula
representa uma divisão: o item que começa com 'k__' representa o reino (kingdom); o item
que começa com 'p__' representa o filo (phylum); o item que começa com 'c__' representa
a classe (class); o item que começa com 'o__' representa a ordem (order); o item que
começa com 'f__' representa a família (family); o item que começa com 'g__' representa o
gênero (genera); e o item que começa com 's__' representa a espécie (species). O terceiro
campo representa a hipótese de espécie ao qual a sequência está classificada no UNITE.
Figura 2: Exemplo de um cabeçalho FASTA proveniente do UNITE
Fonte: Francislon Silva de Oliveira, 2015.
Todos os comandos utilizados nesta subseção para aquisição dos dados são
demonstrados na Figura 3.
Figura 3: Linhas de comando para aquisição dos dados
Fonte: Francislon Silva de Oliveira, 2015.
3.2! Filtragem do banco de dados
Neste trabalho foram realizados dois tipos de filtros na base de dados. O primeiro
foi o de qualidade, que objetivou remover sequências que não possuíam a propriedade
‘specimen_voucher’ no arquivo genbank de entrada, e visou remover também sequências
que apresentavam caracteres ambíguos. O segundo tipo de filtro é o lógico. Os filtros
lógicos visam garantir que as sequências estão adequadas para realizar um estudo de
código de barras seguindo as principais recomendações do Barcode of Life
6. Um resumo
de todas as etapas da filtragem é mostrado na
Figura 4
.
Figura 4: Etapas de Filtragem
Cada caixa na figura representa uma etapa de filtragem. As caixas com cor de fundo cinza representam as
etapas de filtro de qualidade. As caixas com cor de fundo branco representam as etapas dos filtros lógicos.
Fonte: Francislon Silva de Oliveira, 2015.
3.2.1! Filtros de qualidade
Para garantir que apenas sequências com taxonomia atribuída por especialistas sejam
utilizadas
nas
análises
posteriores
foi
implementado
o
script
filter_genbank_without_voucher.pl, que a partir do arquivo genbank, com todas as sequências
baixadas, remove as entradas que não possuem a propriedade specimen_voucher.
Sequências com bases ambíguas podem indicar baixa qualidade da sequência e/ou
dificuldade do sequenciador para realizar a leitura daquela base. As sequências com pelo
menos uma base ambígua, de acordo com o padrão IUB/IUPAC
7, foram removidas após a
execução do script remove_seq_with_amb_chars.pl.
6