Análise em larga escala das regiões intergênicas ITS, ITS1 e ITS2 para o filo Basidiomycota (Fungi)

(1)

UNIVERSIDADE FEDERAL DE MINAS GERAIS

INSTITUTO DE CIÊNCIAS BIOLÓGICAS

PROGRAMA INTERUNIDADES DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA

DISSERTAÇÃO DE MESTRADO

FRANCISLON SILVA DE OLIVEIRA

Análise em larga escala das regiões intergênicas ITS, ITS1 e ITS2

para o filo Basidiomycota (Fungi)

Belo Horizonte

2015

(2)

Francislon Silva de Oliveira

Análise em larga escala das regiões intergênicas ITS, ITS1 e ITS2

para o filo Basidiomycota (Fungi)

Dissertação apresentada ao

Programa Interunidades de Pós-Graduação em

Bioinformática da UFMG como requisito parcial

para a obtenção do grau de Mestre em

Bioinformática.

ORIENTADOR: Prof. Dr. Guilherme Oliveira Correa

CO-ORIENTADOR: Prof. Dr. Aristóteles Góes-Neto

Belo Horizonte

2015

(3)

AGRADECIMENTOS

À minha família e amigos pelo amor e confiança depositadas em mim.

Aos meus orientadores Guilherme e Aristóteles por todo o suporte oferecido durante todo

o mestrado.

À Fernanda Badotti pelas discussões biológicas sobre o tema de DNA barcoding e por

estar sempre disposta a ajudar.

À toda equipe do Centro de Excelência em Bioinformática pelos maravilhosos momentos

que passamos juntos. Muito obrigado por toda paciência nesse momento final de turbulência do

mestrado.

Aos membros do Center for Tropical and Emerging Global Diseases pela sensacional

receptividade durante o meu estágio de quatro meses na University of Georgia. Um agradecimento

especial à Dra. Jessica Kissinger pelos conselhos científicos e à Betsy pela atenção e

disponibilidade de ajudar a qualquer momento.

Aos colegas do programa de pós-graduação em bioinformática da UFMG pelos momentos

de descontração e discussão científica na mesa do bar !.

Aos membros da secretaria do programa de pós-graduação pela simpatia e vontade de

ajudar sempre. Em especial à Sheila que é um anjo.

À Vale, NIH e FAPEMIG pelo provimento de minha bolsa e pelo suporte financeiro para

participação em eventos científicos.

(4)

SUMÁRIO

1 !

INTRODUÇÃO ... 1

!

1.1 !

CÓDIGO DE BARRAS DE DNA ... 1

!

1.2 !

A REGIÃO ITS ... 3

!

1.3 !

REINO FUNGI ... 3

!

1.3.1 !

Filo Basidiomycota ... 4

!

2 !

OBJETIVOS ... 6

!

2.1 !

OBJETIVO GERAL ... 6

!

2.2 !

OBJETIVOS ESPECÍFICOS ... 6

!

3 !

MATERIAL E MÉTODOS ... 6

!

3.1 !

AQUISIÇÃO DOS DADOS ... 6

!

3.2 !

FILTRAGEM DO BANCO DE DADOS ... 8

!

3.2.1 !

Filtros de qualidade ... 9

!

3.2.2 !

Filtros lógicos ... 10

!

3.3 !

ANÁLISE DOS DADOS ... 11

!

3.3.1 !

Análise de Barcode Gap ... 11

!

3.3.2 !

Probabilidade de identificação correta ... 12

!

3.3.3 !

Validação cruzada com BLAST ... 12

!

4 !

RESULTADOS E DISCUSSÃO ... 13

!

4.1 !

GÊNEROS COM BARCODE GAP ... 15

!

4.2 !

GÊNEROS COM BARCODE GAP EXCLUINDO AS DISTÂNCIAS ATÍPICAS ... 25

!

4.3 !

GÊNEROS SEM BARCODE GAP ... 34

!

5 !

CONCLUSÕES ... 45

!

REFERÊNCIAS ... 46

!

APÊNDICE I – LINHAS DE COMANDO DA ETAPA DE FILTRAGEM ... 49

!

APÊNDICE II – LINHAS DE COMANDO DA ETAPA DE ANÁLISE ... 50

!

(5)

LISTA DE ILUSTRAÇÕES

Figura 1: Diagrama de aquisição dos dados do Genbank ... 7!

Figura 2: Exemplo de um cabeçalho FASTA proveniente do UNITE ... 8!

Figura 3: Linhas de comando para aquisição dos dados ... 8!

Figura 4: Etapas de Filtragem ... 9!

Figura 5: Países com espécimes na base de análise estudada ... 14!

Figura 6: Gráficos de barcode gap para os gêneros Agaricus (A), Antherospora (B),

Ceriporiopsis (C), Clavaria (D), Cystodermella (E) e Descolea (F) ... 18

!

Figura 7: Gráficos de barcode gap para os gêneros Endoraecium (A), Entyloma (B),

Exobasidium (C), Favolus (D), Fibroporia (E) e Flammulina (F) ... 19

!

Figura 8: Gráficos de barcode gap para os gêneros Fuscoporia (A), Gloeophyllum (B),

Gymnopilus (C), Helicobasidium (D), Hyphodermella (E) e Lepista (F) ... 20

!

Figura 9: Gráficos de barcode gap para os gêneros Leucopaxillus (A), Lycoperdon (B),

Lyomyces (C), Lyophyllum (D), Neofavolus (E) e Octaviania (F) ... 21

!

Figura 10: Gráficos de barcode gap para os gêneros Oligoporus (A), Phellinus (B),

Porodaedalea (C), Psathyrella (D), Psilocybe (E) e Pycnoporellus (F) ... 22

!

Figura 11: Gráficos de barcode gap para os gêneros Resinicium (A), Rhodocollybia (B),

Rigidoporus (C), Thecaphora (D), Tilletia (E) e Tricholomopsis (F) ... 23

!

Figura 12: Gráficos de barcode gap para os gêneros Tylopilus (A), Xerocomus (B) e

Xeromphalina (C) ... 24

!

Figura 13: Gráficos de barcode gap para os gêneros Amanita (A), Amyloporia (B), Antrodia

(C), Antrodiella (D), Auricularia (E) e Calvatia (F) ... 28!

Figura 14: Gráficos de barcode gap para os gêneros Chlorophyllum (A), Chroogomphus (B),

Coprinopsis (C), Datronia (D), Entoloma (E) e Ganoderma (F) ... 29

!

Figura 15: Gráficos de barcode gap para os gêneros Geastrum (A), Gymnopus (B),

Hygrocybe (C), Hygrophorus (D), Hymenopellis (E) e Lactifluus (F) ... 30

!

Figura 16: Gráficos de barcode gap para os gêneros Lentinellus (A), Lepiota (B),

Leucoagaricus (C), Macrolepiota (D), Megacollybia (E) e Melampsora (F) ... 31

!

Figura 17: Gráficos de barcode gap para os gêneros Microbotryum (A), Parasola (B),

Phanerochaete (C), Phellodon (D), Piloderma (E) e Polyporus (F) ... 32

!

Figura 18: Gráficos de barcode gap para os gêneros Postia (A), Puccinia (B), Russula (C),

Sarcodon (D), Suillus (E) e Thelephora (F) ... 33

!

Figura 19: Gráficos de barcode gap para os gêneros Tricholoma (A) e Tuberculina (B) ... 34!

Figura 20: Gráfico de barcode gap dos gêneros: Alnicola (A), Armillaria (B), Boletus (C),

Butyriboletus (D), Clavulina (E) e Collybia (F) ... 37

!

Figura 21: Gráficos de barcode gap para os gêneros Cortinarius (A), Crepidotus (B),

Cystoderma (C), Fomitopsis (D), Hebeloma (E) e Hohenbuehelia (F) ... 38

!

Figura 22: Gráficos de barcode gap dos gêneros Hydnellum (A), Hydnum (B), Hyphoderma

(C), Hypholoma (D), Inocybe (E) e Laccaria (F) ... 39!

Figura 23: Gráficos de barcode gap para os gêneros Lactarius (A), Lentinus (B), Melanoleuca

(C), Mucidula (D), Mycena (E) e Paxillus (F) ... 40!

(6)

Figura 24: Gráficos de barcode gap dos gêneros Rhizopogon (A), Scleroderma (B), Sebacina

(C), Stephanospora (D), Strobilurus (E) e Tomentella (F) ... 41!

Figura 25: Gráficos de barcode gap dos gêneros Peniophorella (A), Phaeocollybia (B),

Pisolithus (C), Pleurotus (D), Pluteus (E) e Ramaria (F) ... 42

!

Figura 26: Gráficos de barcode gap dos gêneros Trametes (A) e Vuilleminia (B) ... 43!

Figura 27: Gráfico de cordas do gênero Russula ... 45!

(7)

LISTA DE TABELAS

Tabela 1: Gêneros com barcode gap ... 16!

Tabela 2: Gêneros sem barcode gap devido à sobreposição de valores atípicos ... 26!

Tabela 3: Gêneros sem barcode gap ... 35!

(8)

LISTA DE ABREVIATURAS

ITS: Internal Transcribed Spacer

COX1: Cytochrome c Oxidase I

NCBI: National Center for Biotechnology Information

GI: GenInfo Identifier

UNITE: User-friendly Nordic ITS Ectomycorrhiza Database

DNA: Deoxyribonucleic Acid

RNA: Ribonucleic acid

rDNA: Ribosomal DNA

pb: Pares de base

HTML: HyperText Markup Language

PIC: Probabilidade de Identificação Correta

(9)

RESUMO

O código de barras de DNA é um sistema microgenômico utilizado para

identificar espécies previamente descritas e para facilitar o reconhecimento de

novas espécies e segue os princípios de padronizaçãoo, minimalismo,

escalabilidade e rapidez. Esse sistema utiliza idealmente um único segmento

padronizado de DNA, o qual, nos fungos, corresponde a região espaçadora interna

transcrita (nrITS). Em muitas situações, subregiões da região de DNA barcode

(minibarcodes) podem ser utilizadas para substituir a região inteira. O Filo

Basidiomycota (Fungi) apresenta mais de 30 mil espécies descritas, apresentando

uma surpreendente complexidade morfológica com uma diversidade de funções

ecológicas e aplicações biotecnológicas. A identificação rápida e confiável de

espécies desse grupo de fungos é fundamental para muitas áreas de

desenvolvimento científico e tecnológico. O presente estudo objetivou realizar

uma análise em larga escala da região ITS e de suas subrregiões ITS1 e ITS2 de

espécies de Basidiomycota (Fungi) e testar a hipótese de que essas subrregiões

podem funcionar como minicódigos de barra de DNA para discriminar as

espécies desse grupo fúngico. Construiu-se um banco de dados primário

compreendendo todos as sequências completas de ITS de Basidiomycota com

com vouchers, depositadas no INSCD, enriquecidas com metadados, quando

disponíveis, da base de dados UNITE. Filtros de qualidade foram aplicados ao

banco de dados primário e dois bancos de dados secundários foram construídos,

um contendo a subrregião ITS1 e o outro, a subrregião ITS2. O banco de dados

primário compreendeu 7876 sequências, representando três subfilos, 25 ordens,

75 famílias, 215 gêneros e 951 espécies de Basidiomycota de 118 países em seis

continentes. Foram realizadas análises comparativas detalhadas da variabilidade

intra e interespecífica ao nível de gênero e três padrões gerais distintos foram

recuperados: (i) gêneros com um barcode gap; (ii) gêneros com um barcode gap

seas distâncias intra e interespecíficas atípicas (outliers) são removidas; (iii)

gêneros sem um barcode gap. Valores baixos de PCI (Probabilidade de

Identificação Correta) podem estar relacionados a identificações errôneas nos

acessos do NCBI (não-conformidades) ou a processos biológicos tais como

especiação recente ou críptica e, portanto, merecem uma revisão taxonômica.

Keywords: Basidiomycota; Código de Barras de DNA; Espaçador Interno Transcrito.

(10)

ABSTRACT

DNA barcoding is a DNA-based system used to identify previously described

species and to facilitate the recognition of new ones, following the general

principles of standardization, minimalism, scalability, and rapidity. It ideally

utilizes only one standardized DNA segment, which in fungi is the ribosomal

internal transcribed spacer region (nrITS). In many situations small portions of the

barcode region (minibarcodes) may be used to substitute the full-length barcode.

Basidiomycota is the second most speciose fungal group, exhibiting a striking

morphological complexity with a diversity of ecological roles and

biotechnological applications. The fast and reliable identification of these fungi is

fundamental to many research areas. The main goals of our work was to perform

a large scale analysis of ITS, ITS1 and ITS2 of basidiomycotan species and to test

the hypothesis of whether the ITS1 and ITS2 may work as DNA minibarcodes to

discriminate these fungal species. In order to reach this goal we have constructed

a primary database consisting of all completed vouchered ITS sequences of

Basidiomycota currently available in INSCD enriched with metadata, when

available, from the UNITE database. Quality filters were applied to the primary

dataset and then two secondary databases were constructed, one containing ITS1

and the other consisting of ITS2 subregion sequences. Our primary database

comprised 7876 sequences, which represented three subphyla, 25 orders, 75

families, 215 genera, and 951 species from 118 countries of six continents.

Detailed comparative analysis of intra and interspecific variability at the genus

level was performed. Three distinct general patterns were retrieved: (i) genera

with an undoubtedely barcode gap; (ii) genera with a barcode gap if atypical intra

and interspecific distances (outliers) are removed; (iii) genera without a barcode

gap. Low PCI (Probability of Correct Identification) values may be related to

misidentifications in the NCBI database or biological processes such as recent or

cryptic speciations and, therefore, deserve a taxonomic revision.

(11)

1!

INTRODUÇÃO

A metodologia tradicional para a identificação de organismos eucarióticos

geralmente realizada através do diagnóstico de características morfológicas, apresenta

limitações significativas, principalmente devido à plasticidade fenotípica e à variabilidade

natural nos caracteres empregados para o reconhecimento de espécies, que podem levar a

uma identificação incorreta. Além disso, táxons morfologicamente crípticos, comuns em

diversos grupos, podem não ser detectados devido às limitações no sistema de

identificação baseado na morfologia, aliada à escassez de taxonomistas especializados nos

diferentes grupos de organismos, técnicas moleculares têm sido utilizadas como

instrumentos complementares no processo de identificação de táxons (Hebert et al. 2003).

1.1! Código de barras de DNA

O código de barras de DNA é um sistema de identificação molecular que vem

sendo utilizado com a finalidade de reconhecer espécies conhecidas (já descritas) e

facilitar a identificação de espécies novas (não-descritas) (Casiraghi et al. 2010).

Este sistema de identificação molecular consiste na utilização de um pequeno

segmento de DNA (em analogia ao código de barras do comércio) suficientemente

variável ao nível de organização interespecífico (espécimes de diferentes espécies), mas

pouco variável ao nível intraespecífico (espécimes da mesma espécie), possibilitando,

desta forma, a discriminação acurada de espécies biológicas. O método baseia-se na

premissa de que a variação genética entre as espécies analisadas excede a variação

existente dentro dessas mesmas espécies para o segmento de DNA selecionado (Hebert et

al. 2003). Logo, a análise ideal de código de barras de DNA espelha as distribuições das

variabilidades intra e interespecíficas separadas por uma distância denominada de barcode

gap (Meyer & Paulay 2005; Wiemers & Fiedler 2007).

As ferramentas e aplicações relacionadas a sequências de DNA como fonte de

informação biológica foram basicamente desenvolvidas por duas áreas das Ciências

Biológicas: Filogenia Molecular e Genética de Populações. Entretanto, estas áreas

(12)

2 trabalham com níveis de organização biológica diferentes. Estudos de filogenia molecular

tipicamente tratam de relações filogenéticas entre espécies e demais grupos

supraespecíficos enquanto que estudos na área de genética de populações analisam a

variação intra e interpopulacional de uma única espécie. Comparativamente, os estudos de

código de barras de DNA ocupam a intersecção entre essas duas áreas, já que tratam de

uma abordagem ao nível específico, focada na delineação de espécies e não

necessariamente de suas relações filogenéticas. Portanto, os estudos de código de barras de

DNA podem complementar as pesquisas em filogenia molecular e em genética de

populações, fornecendo informação biológica que será útil tanto para a inferência de

filogenias como para as mais diversas análises populacionais (Hajibabaei et al. 2006).

A abordagem teórico-metodológica e prática de código de barras de DNA pode ser

considerada como a base de um sistema taxonômico integrado, capaz de implementar

todos os aspectos da taxonomia em direção à representação dos organismos da biosfera

como um todo (DeSalle et al. 2005; Dayrat 2005; Singer & Hajibabaei 2009). Esta

abordagem reside na conjugação de três inovações da taxonomia moderna: (i)

molecularização (o uso da variabilidade de um marcador molecular como um

discriminante), (ii) informatização (a transposição não-redundante de dados utilizando

suportes de informática) e (iii) padronização (a abrangência desta abordagem padrão a

vastos grupos de organismos não proximamente relacionados). A molecularização e a

informatização vêm ocorrendo independentemente na taxonomia há certo tempo, mas a

padronização, apesar dos esforços dos códigos internacionais, estava presente apenas

aleatoriamente na taxonomia. Assim, pela primeira vez, através da abordagem de código

de barras de DNA, é possível introduzir na taxonomia uma generalização, permitindo aos

pesquisadores especializados em diferentes campos de conhecimento compartilhar uma

base em comum (Casiraghi et al. 2010).

O sistema de código de barras de DNA, inicialmente utilizado, com sucesso, nos

mais diversos grupos de animais, utilizando o gene Cytochrome c oxidase I (COX1)

mitocondrial (Hebert et al. 2004; Ward et al. 2005; Hajibabaei et al. 2006), vem sendo

utilizado em plantas (com os genes RBCL e MATK) (Kress et al. 2009) e, mais

recentemente, em fungos, nos quais a região Internal Transcribed Spacer (ITS ou nrITS)

do DNA ribossômico foi selecionada como código de barras de DNA (Schoch et al. 2012).

(13)

1.2! A região ITS

Os genes que codificam para o RNA ribossômico nuclear em eucariotos (18S, 5.8S

e 28S) estão organizados em uma unidade repetitiva, apresentando-se em múltiplas cópias

ao longo do genoma e são inicialmente transcritos pela RNA polimerase I como um único

segmento. Posteriormente, sofrem edição após a transcrição e os dois espaçadores internos

transcritos são removidos. Esses dois espaçadores transcritos (ITS1 e ITS2) juntamente

com o gene que codifica o rRNA 5.8S, que se situa entre esses espaçadores, correspondem

à denominada região ITS (ITS1 + 5.8S + ITS2) (Schoch et al. 2012). A região ITS em

fungos contem aproximadamente 400-800 pares de bases (Porras-Alfaro et al. 2014) e,

embora o gene 5.8S seja altamente conservado, o ITS1 e o ITS2 conjuntamente, em geral,

apresentam resolução suficiente para diferenciação intragenérica (Nilsson et al. 2008).

1.3! Reino Fungi

Os fungos compõem um dos grupos de organismos mais diversos da Terra.

Atualmente são conhecidas aproximadamente 105 mil espécies de fungos (Kirk et al.

2008), correspondendo a cerca de 7% do total estimado em 1,5 milhões de espécies

(Hawksworth 2004). Isto faz dos fungos, assim como de bactérias e arqueas, um dos

grupos de seres vivos com diversidade específica menos conhecida.

Os fungos (Reino Fungi) constituem um grupo monofilético, tendo Nuclearia (um

grupo de amebas) como provável grupo-irmão. O Reino Fungi compreende os filos

Basidiomycota, Ascomycota e Glomeromycota, e várias linhagens basais (os subfilos

Mucoromycotina, Kickxellomycotina, Zoopagomycotina, Entomophthoromycotina,

Blastocladiomycotina,

Chytridiomycotina,

Neocallimastigomycotina)

que

até

recentemente eram agrupadas nos antigos filos não-monofiléticos, Zygomycota e

Chytridiomycota. Fazem ainda parte do Reino Fungi a linhagem de Rozella e os

Microsporidia (McLaughlin et al. 2009; Stajich et al. 2009).

Os fungos são organismos eucarióticos, quimioheterotróficos, de nutrição absortiva

com digestão extracorpórea parcial, predominantemente aeróbicos ou fermentadores

(14)

4 facultativos, que apresentam estrutura corpórea pluricelular micelial (fungos filamentosos)

ou unicelular leveduriforme (leveduras). A parede celular é constituída de quitina, glicanos

e proteínas, tendo o ergosterol como principal esterol constituinte da membrana

plasmática. Os fungos são predominantemente sapróbios e a decomposição,

particularmente em ambientes terrestres, é a principal função ecológica desempenhada por

este grupo de organismos. Eles podem ainda viver associados a outros seres vivos como

parasitas ou mutualistas, como também formarem associações que não compreendem nem

relação de parasitismo ou mutualismo estritos, como no caso dos líquens e fungos

endobióticos (Uetanabaro et al. 2007).

A importância econômica dos fungos compreende tanto aspectos negativos, quanto

aspectos positivos, sendo que estes últimos suplantam os primeiros. No setor agropecuário

os fungos são utilizados para a micorrização de sementes de algumas plantas cultivadas e

no controle biológico de animais, plantas e fungos parasitas de vegetais agricultáveis. O

impacto positivo dos fungos na economia decorre principalmente do setor industrial, já

que diversos produtos são o resultado direto da atividade biológica desses organismos.

Toda a indústria de processos fermentativos, de bebidas ou de alimentos fermentados,

baseia-se na utilização do processo natural de fermentação realizado por fungos. Os

fungos são ainda utilizados para a produção de metabólitos primários, como enzimas, e de

metabólitos secundários como antibióticos, alcalóides e pigmentos. Os fungos têm sido

utilizados na biorremediação de ambientes contaminados por poluentes, de forma que vêm

sendo utilizados para a decomposição mais eficiente do lixo orgânico, de compostos

naturais recalcitrantes e de xenobióticos, assim como na biosorção de metais pesados e

compostos radioativos. Além disso, os fungos compreendem uma importante fonte de

novos compostos bioativos de interesse farmacológico, agrícola e biotecnológico (Rai

2009; Stamets 2005).

1.3.1! Filo Basidiomycota

O filo Basidiomycota compreende todos os fungos que produzem, em algum

momento do seu ciclo de vida, meiosporângios denominados de basídios, onde são

produzidos, externamente, os esporos sexuais, os basidiósporos. Os basídios

(15)

compreendem, portanto, a característica sinapomórfica deste grupo de fungos. As espécies

do filo Basidiomycota apresentam uma impressionante diversidade morfológica e são

predominantemente pluricelulares miceliais. O micélio é sempre septado e os septos são

uniporados no micélio primário e do tipo dolíporos no micélio secundário, o qual constitui

a fase mais duradoura do ciclo de vida dos Basidiomycota miceliais e que apresenta

caracteristicamente dois núcleos por compartimento hifal, cada um proveniente de um

parental. As estruturas de reprodução sexuada compreendem, em geral, macrosporomas ou

macrosporóforos que são denominados de basidiomas, embora também existam estruturas

de reprodução sexuada que tem nível de organização simples como télio, espermagônio e

hifas receptivas. O ciclo de vida é do tipo haplobionte haplonte e a fase dicariótica é longa,

de função somática e sexual, independente da fase haploide, capaz de propagação

indefinida e único componente dos basidiomas, sendo a fase predominante no ciclo de

vida (Petersen 2013).

São fungos de distribuição cosmopolita, que vivem predominantemente em

ambiente terrestre e como sapróbios, e tem um papel ecológico crucial no ciclo de

carbono, já que são os principais responsáveis pela decomposição de resíduos

lignocelulósicos em ambientes terrestres. Muitas espécies são parasitas e patógenas de

vegetais, causando sérios prejuízos econômicos em plantas de interesse agronômico. Os

basidiomicetos são amplamente utilizados como fonte alimentar (cogumelos comestíveis),

em medicina popular (cogumelos medicinais) e apresentam grande potencial de utilização

para a produção de biocombustíveis (etanol lignocelulósico) e biorremediação (Petersen

2013).

A sistemática do grupo ainda é baseada na morfologia das estruturas reprodutivas.

O filo Basidiomycota compreende três subfilos monofiléticos: Os Subfilos

Pucciniomycotina e Ustilagomycotina compreendem basidiomicetos que não formam

basidiomas e são predominantemente fitoparasitas enquanto que a grande maioria das

espécies pertencem ao subfilo Agaricomycotina, o qual abrange todos os Basidiomycota

que formam basidiomas com himênio definido. Nesta classe encontram-se os

basidiomicetos mais popularmente conhecidos – os cogumelos e os orelhas de pau

(Petersen 2013).

(16)

6 2!

Objetivos

2.1! Objetivo Geral

O objetivo principal do presente estudo compreendeu a realização de uma análise

em larga escala da região genômica selecionada como código de barras primário de fungos

(nrITS) e suas sub-regiões (ITS1 e ITS2) para as espécies do Filo Basidiomycota.

2.2! Objetivos Específicos

•! Analisar a região ITS e suas sub-regiões ITS1 e ITS2 nos distintos gêneros

do Filo Basidiomycota.

•! Avaliar se as sub-regiões ITS1 e ITS2 podem ser utilizadas como mini-

códigos de barras de DNA para a identificação de espécies do Filo

Basidiomycota.

3!

MATERIAL E MÉTODOS

3.1! Aquisição dos dados

Neste estudo foram utilizadas apenas sequências com a região ITS completa

depositadas no Genbank (Benson et al. 2014) e oriundas de coleções permanentes às quais

a taxonomia é identificada por especialistas (voucher specimens). A aquisição de tais

sequências é efetuada em duas etapas como demonstrado na Figura 1.

(17)

Figura 1: Diagrama de aquisição dos dados do Genbank

Etapa 1: É efetuada uma consulta ao Genbank, por meio do webservice esearch

1

_{da interface NCBI Entrez}

2

_,

com os termos: "basidiomycota" and "internal transcribed spacer" and "voucher", sendo retornada uma lista

com todos os GenInfo Identifier (GI) referentes à busca; Etapa 2: Cada GI retornado na Etapa 1 é submetido

à uma nova busca ao Genbank, por meio do webservice efetch

2

da interface NCBI Entrez, sendo retornado

um arquivo no formato genbank

3

. Fonte: Francislon Silva de Oliveira, 2015.

Para facilitar a tarefa de aquisição dos arquivos genbank foi desenvolvido um

script, em linguagem Perl (get_data_by_term.pl), que utiliza o módulo Bio::DB::EUtilities

do pacote BioPerl

4

para intermediar o acesso aos webservices do NCBI e formatar um

único arquivo genbank de saída.

Um arquivo genbank é um arquivo texto que possui metadados associados à uma

sequência de DNA depositada no Genbank. Uma importante informação contida no

arquivo genbank é o nome científico do organismo, ao qual a sequência pertence, e toda a

sua hierarquia taxonômica de acordo com o banco de dados de taxonomia do NCBI

5

. Vale

ressaltar que é possível que uma sequência depositada neste banco de dados não possua

informações de categorias taxonômicas mais inclusivas, tais como família, ordem e classe.

Com o intuito de enriquecer as informações de taxonomia do NCBI foi utilizado o

banco de dados UNITE (Kõljalg et al. 2013). Além da linhagem taxonômica, é possível

consultar a localização geográfica onde o fungo foi coletado, entre outros metadados.

Entretanto o UNITE não possui webservices públicos para a consulta destes dados, desta

1

_{Disponível em: <}

_{http://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi}

_{>. Último acesso em 28/10/2015.}

2

_{Disponível em: <}

_{http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi}

_{>. Último acesso em 28/10/2015.}

3

_{Disponível em: <}

_{http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html}

_{>. Último acesso em 28/10/2015.}

4

_{Disponível em: <}

_{http://www.bioperl.org}

_{>. Último acesso em 28/10/2015.}

(18)

8 forma, foi necessário baixar o arquivo FASTA contendo todas as sequências disponíveis

no UNITE e, a partir do cabeçalho do FASTA, gerar um arquivo tabular para facilitar as

análises posteriores. A Figura 2 mostra um exemplo de cabeçalho do FASTA do UNITE.

O primeiro campo separado pelo símbolo '|' representa o número de acesso da sequência.

Este campo apresenta referência cruzada com o número de acesso do Genbank. O segundo

campo representa a hierarquia taxonômica, onde cada item separado por ponto e vírgula

representa uma divisão: o item que começa com 'k__' representa o reino (kingdom); o item

que começa com 'p' representa o filo (phylum); o item que começa com 'c' representa

a classe (class); o item que começa com 'o__' representa a ordem (order); o item que

começa com 'f' representa a família (family); o item que começa com 'g' representa o

gênero (genera); e o item que começa com 's__' representa a espécie (species). O terceiro

campo representa a hipótese de espécie ao qual a sequência está classificada no UNITE.

Figura 2: Exemplo de um cabeçalho FASTA proveniente do UNITE

Fonte: Francislon Silva de Oliveira, 2015.

Todos os comandos utilizados nesta subseção para aquisição dos dados são

demonstrados na Figura 3.

Figura 3: Linhas de comando para aquisição dos dados

Fonte: Francislon Silva de Oliveira, 2015.

3.2! Filtragem do banco de dados

Neste trabalho foram realizados dois tipos de filtros na base de dados. O primeiro

foi o de qualidade, que objetivou remover sequências que não possuíam a propriedade

‘specimen_voucher’ no arquivo genbank de entrada, e visou remover também sequências

que apresentavam caracteres ambíguos. O segundo tipo de filtro é o lógico. Os filtros

(19)

lógicos visam garantir que as sequências estão adequadas para realizar um estudo de

código de barras seguindo as principais recomendações do Barcode of Life

6

. Um resumo

de todas as etapas da filtragem é mostrado na

Figura 4

.

Figura 4: Etapas de Filtragem

Cada caixa na figura representa uma etapa de filtragem. As caixas com cor de fundo cinza representam as

etapas de filtro de qualidade. As caixas com cor de fundo branco representam as etapas dos filtros lógicos.

Fonte: Francislon Silva de Oliveira, 2015.

3.2.1! Filtros de qualidade

Para garantir que apenas sequências com taxonomia atribuída por especialistas sejam

utilizadas

nas

análises

posteriores

foi

implementado

o

script

filter_genbank_without_voucher.pl, que a partir do arquivo genbank, com todas as sequências

baixadas, remove as entradas que não possuem a propriedade specimen_voucher.

Sequências com bases ambíguas podem indicar baixa qualidade da sequência e/ou

dificuldade do sequenciador para realizar a leitura daquela base. As sequências com pelo

menos uma base ambígua, de acordo com o padrão IUB/IUPAC

7

_{, foram removidas após a}

execução do script remove_seq_with_amb_chars.pl.

6

_{Disponível em <}

_{http://www.barcodinglife.com/docs/dwg_data_standards-final.pdf}

_{>. Último acesso em}

28/10/2015.

(20)

10 Ambos os scripts desenvolvidos, em linguagem Perl, abstraem um arquivo fasta por

meio do módulo Bio::SeqIO do pacote BioPerl.

3.2.2! Filtros lógicos

O primeiro filtro lógico utilizado garantiu que apenas sequências com taxonomia

definida até o nível de espécie fossem mantidas na base de dados. Para isto, foi necessário

remover as sequências das espécies que possuíam no nome os termos “uncultured”, “sp.”,

“cf.’

ou

“aff.”.

O

script,

desenvolvido

em

linguagem

Perl,

remove_species_with_inconclusive_name.pl foi implementado para realizar este filtro.

Para garantir que apenas sequências com a região ITS completa fossem mantidas no

banco de dados utilizou-se o programa FungalITSExtractor (Nilsson et al. 2010). Este

programa identifica a região ITS utilizando modelos probabilísticos de cadeias ocultas de

Markov (Eddy 2004) baseadas em padrões das regiões ITS1 e ITS2. No arquivo FASTA de

resultado os identificadores são truncados e para corrigi-los foi desenvolvido o script

fix_names_from_its_extractor.pl.

Aproximadamente 1% das sequências com a região ITS completa apresentaram

tamanhos menores que 400 pares de base (pb) ou maiores que 800 pb. Estas sequências muito

longas ou muito curtas poderiam distorcer o alinhamento múltiplo das sequências e, em

função da baixa representatividade na base de dados, foram excluídas por meio do script

filter_fasta_by_interval_size.pl.

Por fim, para garantir que a base de dados apresentasse apenas espécies das quais pelo

menos três espécimes (indivíduos ou amostras) fossem originadas de locais diferentes, foi

utilizado o script filter_by_three_localities.pl, que busca pelo local de coleta na propriedade

country do arquivo genbank. Aproximadamente 32% das sequências resultantes não

continham valor na propriedade country. Com o intuito de minimizar a perda de sequências

sem a informação do local de coleta, este dado foi recuperado do UNITE, quando a

informação estivesse disponível. Como mencionado anteriormente, o UNITE não possui

(21)

local de coleta foi necessário desenvolver um tipo de web parser em Perl

(get_country_by_unite_id.pl) que analisa a HyperText Markup Language (HTML) da página

web associada ao registro e extrai metadados de interesse utilizando expressões regulares.

Este enriquecimento da base com as informações provenientes do UNITE diminuiu bastante a

quantidade de sequências sem informação do local de coleta para aproximadamente 18% do

total. Então, o script filter_by_three_localities.pl foi executado e todas as espécies que não

possuíam sequências coletadas em pelo menos três localidades diferentes foram removidas.

Este filtro lógico é necessário para garantir que as sequências sejam de espécimes distintos e

geograficamente distantes, evitando assim a possibilidade de se trabalhar com clones

(espécimes que apresentam genomas idênticos).

Todas as linhas de comando utilizadas na etapa de filtragem encontram-se no

Apêndice I.

3.3! Análise dos dados

As sequências resultantes das regiões ITS, ITS1 e ITS2 da etapa de filtragem foram

separadas nos níveis taxonômicos de gênero, família, ordem e classe por meio do script

separate_by_taxon.pl.

As sequências foram alinhadas utilizando o software MUSCLE (versão 3.8.31)

(Edgar 2004) com os parâmetros padrão.

Matrizes de distância foram calculadas utilizando a distância P não-corrigida

(proporção de diferentes pares de nucleotídeos alinhados não-ambíguos) por meio do

script calculate_uncorrected_p.pl. Utilizou-se a distância P não-corrigida porque é a mais

simples, sem nenhum tipo de pressupostos biológicos (Matioli 2001).

(22)

12 Para realizar a análise do Barcode Gap (Meyer & Paulay 2005) a matriz de distância

foi separada em distâncias intraespecíficas (distâncias entre sequências de espécimes

pertencentes a mesma espécie) e distâncias interespecíficas (distâncias entre sequências de

espécimes pertencentes a espécies diferentes) para cada gênero. Tais valores foram utilizados

para a construção do gráfico de caixa que auxiliou na interpretação do Barcode Gap. Cada

gráfico de caixa foi construído por meio do script, em linguagem R, boxplot.R que utiliza a

biblioteca ggplot2.

3.3.2! Probabilidade de identificação correta

Apenas a análise visual provida pela análise de Barcode Gap dificulta a avaliação da

qualidade de um marcador proposto. Então é necessário quantificar de alguma forma a

eficiência deste marcador. Neste trabalho tal eficiência é calculada por meio da Probabilidade

de Identificação Correta (PIC), sendo a PIC de um grupo taxonômico a razão entre as espécies

identificadas corretamente e o total de espécies. Considera-se que uma espécie é identificada

corretamente se existe um Barcode Gap local, ou seja, se a máxima distância intraespecífica é

menor do que a mínima distância interespecífica, para esta espécie (Hollingsworth et al.

2009). O cálculo da PIC é realizado através do script, em linguagem Perl,

calculate_local_gap.pl.

3.3.3! Validação cruzada com BLAST

As análises de Barcode Gap e PIC foram realizadas utilizando as distâncias oriundas

do alinhamento múltiplo das sequências e são úteis na análise da eficiência de uma

determinada região como código de barras de DNA. Em casos onde não existe uma separação

(23)

clara entre as distâncias intra e interespecíficas é necessária uma análise mais detalhada com

foco na similaridade entre as sequências.

Para cada grupo taxonômico de interesse foi realizada uma validação cruzada

utilizando a ferramenta BLAST (versão 2.2.22) (Altschul et al. 1990) da seguinte forma: uma

sequência por vez foi retirada da base de dados e serviu como sequência-teste (query) contra o

banco restante. Se o melhor escore do BLAST apresentava apenas resultados da mesma

espécie então considerava-se como identificação correta; se o melhor escore do BLAST

apresentava pelo menos uma sequência de espécie diferente da sequência-teste (query), então

considerava-se como identificação incongruente. Ao final, foi calculada a porcentagem de

sequências identificadas corretamente, e quando necessário, foi construído um gráfico de

cordas mostrando a relação entre as espécies de identificação incongruente.

O script blast_cross_validation.pl foi implementado para realizar a validação cruzada

do BLAST, e gráficos de cordas foram gerados através da ferramenta Circos (versão 0.67-7)

(Krzywinski et al. 2009) para cada gênero.

4!

RESULTADOS E DISCUSSÃO

Ao final da etapa de filtragem, de um total de 37699 sequências de espécimes,

restaram 7876 sequências de espécimes de 951 diferentes espécies e 215 diferentes gêneros

oriundas de 118 países distribuídas entre os seis continentes (Figura 5). O intuito da rigidez na

etapa de filtragem foi criar uma base de dados de alta qualidade, estatisticamente

representativa e que refletisse os pressupostos teóricos do sistema de identificação biológica

por código de barras de DNA (Hebert et al. 2003).

(24)

14 Figura 5: Países com espécimes na base de análise estudada

Cada ponto representa um país com representantes na base de análise. Fonte: Francislon Silva de Oliveira, 2015.

Os três subfilos do filo Basidiomycota tiveram representantes na base de dados em

diferentes abundâncias. O subfilo Agaricomycotina com 7310 sequências (~92,8%) foi o mais

representativo seguido de Pucciniomycotina com 474 sequências (~6%) e Ustilaginomycotina

com 92 sequências (~1,2%). Este forte viés para o subfilo Agaricomycotina representa

principalmente o fato de que a grande maioria das espécies conhecidas do filo Basidiomycota

são do subfilo Agaricomycotina (mais de 70% das espécies conhecidas) (Hibbett 2014).

De uma maneira geral foram encontrados três distintos padrões (em pelo menos uma

das três regiões estudadas) após a análise de barcode gap em todos os gêneros:

(i)!

Gêneros que apresentaram claramente um barcode gap identificado no gráfico de

caixa como um intervalo entre o valor máximo das distâncias intraespecíficas e o

valor mínimo das distâncias interespecíficas (Seção 4.1);

(ii)!

Gêneros que somente não apresentaram um barcode gap devido à sobreposição de

distâncias intra e interespecíficas atípicas (outliers) (Seção 4.2);

(iii)!

Gêneros sem barcode gap (Seção 4.3).

Cem gêneros apresentaram espécimes de uma única espécie e, portanto, não puderam

ser analisados, visto que são necessárias duas ou mais espécies para o cálculo das distâncias

interespecíficas. Desta forma, apenas 115 gêneros apresentaram pelo menos duas espécies e

os resultados para estes gêneros elegíveis serão demonstrados nas subseções seguintes.

(25)

4.1! Gêneros com barcode gap

Trinta e nove gêneros (~34% dos gêneros elegíveis; 746 espécimes; 98 espécies)

apresentaram barcode gap em pelo menos uma das três regiões estudadas.

Na Tabela 1 é possível visualizar os resultados das análises para cada um dos gêneros

e para cada região. Em seguida são mostrados os gráficos de barcode gap para cada gênero, e

por questão de organização eles foram divididos em ordem alfabética, sendo que cada figura

apresenta seis gêneros por vez.

Os gêneros demonstrados nesta seção não apresentaram diferença significativa entre as

três regiões tanto na análise de PIC (Teste de Kruskal-Wallis; p-value = 0,272), quanto na

análise por validação cruzada do BLAST (Teste de Kruskal-Wallis; p-value = 0,804).

Nas figuras 6 a 12, cada gráfico possui três setores representando o barcode gap das

regiões ITS, ITS1 e ITS2 para um determinado gênero. Em cada setor a caixa da esquerda

representa a distribuição das distâncias intraespecíficas, enquanto a caixa da direita representa

a distribuição das distâncias interespecíficas.

(26)

16 Tabela 1: Gêneros com barcode gap

ITS

ITS1

ITS2

Gênero

Espécimes Espécies

PIC

Blast (%) Max_Intra Min_Inter

PIC

Blast (%) Max_Intra Min_Inter

PIC

Blast (%) Max_Intra

Min_Inter

Agaricus

15

4

1

100 0,021

0,041

1

100 0,027

0,048

1

100 0,039

0,057

Antherospora

14

2

1

100 0,007

0,025

1

100 0,012

0,049

1

100 0,009

0,026

Ceriporiopsis

25

4

1

100 0,051

0,112

1

100 0,045

0,164

1

100 0,092

0,146

Clavaria

13

4

1

100 0,061

0,078

1

100 0,067

0,093

1 92,308

0,086

0,121

Cystodermella

7

2

1

100 0,009

0,094

1

100 0,025

0,128

1

100

0 0,122

Descolea

9

2

1

100 0,058

0,089

0,5

88,889

0,143

0,13

1

100 0,075

0,144

Endoraecium

23

4

1

100 0,015

0,087

1

100 0,014

0,058

1

100 0,025

0,107

Entyloma

18

2

1

100

0 0,044

1

100

0 0,059

1

100

0 0,064

Exobasidium

18

3

1

100 0,033

0,045

1

100 0,019

0,057

1

100 0,057

0,066

Favolus

8

2

1

100 0,005

0,099

1

100

0 0,117

1

100 0,014

0,151

Fibroporia

17

3

1

100 0,085

0,113

1

100 0,098

0,151

0,667

100 0,133

0,098

Flammulina

40

4

1

100 0,027

0,029

0,5

100 0,046

0,016

0,75

100 0,041

0,024

Fuscoporia

8

2

1

100 0,083

0,209

1

100 0,112

0,277

1

100 0,127

0,304

Gloeophyllum

14

2

1

100 0,051

0,221

1

100 0,05

0,302

1

100 0,061

0,291

Gymnopilus

14

2

1 92,857

0,063

0,066

1 92,857

0,089

0,09

0,5

92,857

0,096

0,083

Helicobasidium

26

4

1

100 0,029

0,023

0,75

100 0,081

0,033

1

100 0,023

0,028

Hyphodermella

19

2

1

100 0,007

0,024

1

100 0,005

0,009

1

100 0,015

0,054

Lepista

7

2

1

100 0,002

0,071

1

100

0 0,15

1

100 0,005

0,031

Leucopaxillus

10

3

1

100 0,031

0,095

1

100 0,036

0,148

1

100 0,035

0,119

Lycoperdon

26

2

1

100 0,038

0,077

1

100 0,045

0,114

1

100 0,065

0,082

Lyomyces

40

2

1

100 0,02

0,093

1

100 0,033

0,122

1

100 0,036

0,102

Lyophyllum

20

3

1

100 0,039

0,052

1

100 0,04

0,052

1

100 0,072

0,086

Neofavolus

10

2

1

100 0,004

0,08

1

100 0,011

0,112

1

100

0 0,127

Octaviania

9

2

1

100 0,002

0,062

1

100

0 0,062

1

100 0,006

0,106

(27)

17 ITS

ITS1

ITS2

Gênero

Espécimes Espécies

PIC

Blast (%) Max_Intra Min_Inter

PIC

Blast (%) Max_Intra Min_Inter

PIC

Blast (%) Max_Intra

Min_Inter

Oligoporus

6

2

1

100 0,009

0,111

1

100 0,022

0,152

1

100 0,016

0,16

Phellinus

57

3

1

100 0,015

0,018

0

100 0,033

0,013

0,667

100 0,032

0,027

Porodaedalea

9

2

1

100 0,007

0,018

1

100 0,012

0,024

1

100 0,005

0,02

Psathyrella

7

2

1

100 0,042

0,105

1

100 0,095

0,137

1

100 0,035

0,134

Psilocybe

11

2

1

100 0,013

0,096

1

100 0,015

0,119

1

100 0,023

0,152

Pycnoporellus

8

2

1

100 0,005

0,058

1

100

0 0,079

1

100 0,014

0,079

Resinicium

12

2

1

100 0,01

0,067

1

100 0,013

0,138

1

100 0,01

0,05

Rhodocollybia

29

3 0,667

100 0,107

0,106

0,667

100 0,158

0,133

1

100 0,141

0,162

Rigidoporus

26

2

1

100 0,078

0,082

1

100 0,093

0,129

0,5

100 0,12

0,096

Thecaphora

18

2

1

100 0,002

0,011

1

100

0 0,026

1

100 0,004

0,008

Tilletia

20

3

1

100 0,002

0,008

0,333

100 0,004

0,004

1

100

0 0,016

Tricholomopsis

16

3

1

100 0,05

0,053

1

100 0,057

0,068

1

100 0,097

0,074

Tylopilus

10

2

1

100 0,171

0,185

1

100 0,191

0,218

1

100 0,213

0,269

Xerocomus

42

2 0,5

100 0,107

0,106

1

100 0,103

0,106

1

100 0,161

0,185

Xeromphalina

65

2

1

100 0,011

0,024

1

100 0,015

0,039

0,5

100 0,02

0,02

PIC=Probabilidade de Identificação Correta; BLAST (%) = Porcentagem de identificação correta na validação cruzada por BLAST; Max_Intra = Distância intraespecífica máxima; Min_Inter =

(28)

18 Figura 6: Gráficos de barcode gap para os gêneros Agaricus (A), Antherospora (B), Ceriporiopsis

(C), Clavaria (D), Cystodermella (E) e Descolea (F)

(29)

Figura 7: Gráficos de barcode gap para os gêneros Endoraecium (A), Entyloma (B), Exobasidium

(C), Favolus (D), Fibroporia (E) e Flammulina (F)

(30)

20 Figura 8: Gráficos de barcode gap para os gêneros Fuscoporia (A), Gloeophyllum (B),

Gymnopilus (C), Helicobasidium (D), Hyphodermella (E) e Lepista (F)

(31)

Figura 9: Gráficos de barcode gap para os gêneros Leucopaxillus (A), Lycoperdon (B), Lyomyces

(C), Lyophyllum (D), Neofavolus (E) e Octaviania (F)

(32)

22 Figura 10: Gráficos de barcode gap para os gêneros Oligoporus (A), Phellinus (B), Porodaedalea

(C), Psathyrella (D), Psilocybe (E) e Pycnoporellus (F)

(33)

Figura 11: Gráficos de barcode gap para os gêneros Resinicium (A), Rhodocollybia (B),

Rigidoporus (C), Thecaphora (D), Tilletia (E) e Tricholomopsis (F)

(34)

24 Figura 12: Gráficos de barcode gap para os gêneros Tylopilus (A), Xerocomus (B) e Xeromphalina

(C)

(35)

4.2! Gêneros com barcode gap excluindo as distâncias atípicas

Trinta e oito gêneros (~33% do total de gêneros elegíveis; 2680 espécimes; 297

espécies) apresentaram barcode gap, em pelo menos uma das três regiões, sem levar em

consideração a sobreposição de distâncias intra e interespecíficas atípicas. Na Tabela 2

podemos visualizar os resultados das análises para as regiões em estudo.

Os gêneros apresentados nesta seção não tiveram diferença significativa entre as três

regiões tanto na análise de PIC (Teste de Kruskal-Wallis; p-value = 0.4033), quanto na análise

por validação cruzada do BLAST (Teste de Kruskal-Wallis; p-value = 0.3678).

Nas figuras 13 a 19, cada gráfico possui três setores representando o barcode gap das

regiões ITS, ITS1 e ITS2 para um determinado gênero. Em cada setor a caixa da esquerda

representa a distribuição das distâncias intraespecíficas, enquanto a caixa da direita representa

a distribuição das distâncias interespecíficas.

(36)

26 Tabela 2: Gêneros sem barcode gap devido à sobreposição de valores atípicos

ITS

ITS1

ITS2

Gênero

Espécime

s

Espécie

s

PIC

Blast

(%)

Max_Intr

a

Min_Inte

r

PIC

Blast

(%)

Max_Intr

a

Min_Inte

r

PIC

Blast

(%)

Max_Intr

a

Min_Inter

Amanita

339

37 0,35

1 92,33

0,323

0 0,29

7 91,74

0,497

0 0,27

91,74

0,415

0 Amyloporia

56

4 0,25

89,286

0,202

0 0,25

87,5

0,284

0 0,25

83,929

0,306

0 Antrodia

73

10 0,7

94,521

0,14

0,004

0,7

94,521

0,17

0 0,6

97,26

0,228

0,005

Antrodiella

36

4 0,75

97,222

0,041

0,005

0,5

75 0,061

0 0,75

97,222

0,058

0,029

Auricularia

25

5 0,8

96 0,069

0,035

0,4

96 0,158

0,056

0,6

96 0,051

0,021

Calvatia

12

2

0

75 0,044

0

0 41,667

0,066

0

0 83,333

0,056

0 Chlorophyllum

25

4

1

100 0,036

0,017

1

100 0,051

0,032

1

100 0,05

0,009

Chroogomphu

s

13

2 0,5

100 0,075

0,039

0,5

92,308

0,083

0,073

0,5

100 0,115

0,028

Coprinopsis

9

2 0,5

88,889

0,192

0,082

0,5

88,889

0,3

0,119

0,5

88,889

0,228

0,102

Datronia

21

2

0

100 0,141

0,053

0,5

100 0,215

0,079

0 95,238

0,228

0,067

Entoloma

105

15 0,93

3

100 0,035

0,016

0,86

7

100 0,052

0,024

0,93

3

100 0,067

0,01

Ganoderma

56

7 0,42

9 60,714

0,071

0 0,28

6 41,071

0,122

0 0,42

9 53,571

0,095

0 Geastrum

23

3

1

100 0,128

0,108

0,66

7

100 0,221

0,152

0,66

7

100 0,225

0,14

Gymnopus

134

15 0,66

7 85,821

0,207

0 0,66

7 75,373

0,315

0 0,53

3 81,343

0,311

0 Hygrocybe

39

4 0,25

92,308

0,267

0,177

0,25

92,308

0,35

0,2

0 87,179

0,448

0,303

Hygrophorus

14

3 0,66

7

100 0,129

0,107

0,66

7 92,857

0,33

0,11

0,33

3 92,857

0,179

0,135

Hymenopellis

30

4

1

100 0,043

0,022

0,75

100 0,054

0,026

1

100 0,053

0,033

Lactifluus

25

2 0,5

100 0,09

0,063

0,5

96 0,14

0,049

0,5

100 0,134

0,1

Lentinellus

75

7 0,42

9 98,667

0,038

0,004

0,42

9

96 0,045

0 0,42

9 98,667

0,081

0,014

Lepiota

104

12 0,83

3 99,038

0,145

0,038

0,83

3 99,038

0,231

0,022

0,75

99,038

0,16

0,044

Leucoagaricus

69

11 0,81

100 0,08

0,02

0,81

100 0,114

0,031

0,63

98,551

0,16

0,019

(37)

27 ITS

ITS1

ITS2

Gênero

Espécime

s

Espécie

s

PIC

Blast

(%)

Max_Intr

a

Min_Inte

r

PIC

Blast

(%)

Max_Intr

a

Min_Inte

r

PIC

Blast

(%)

Max_Intr

a

Min_Inter

8

6 Macrolepiota

30

6 0,5

93,333

0,034

0,002

0,5

93,333

0,044

0,004

0,33

3 66,667

0,048

0 Megacollybia

121

6 0,83

3

100 0,02

0,014

0,66

7

100 0,039

0,013

0,33

3

100 0,045

0,005

Melampsora

52

5 0,4

94,231

0,117

0 0,4

94,231

0,15

0 0,2

63,462

0,157

0 Microbotryum

74

10 0,7

100 0,042

0,004

0,8

98,649

0,075

0,011

0,5

87,838

0,064

0 Parasola

16

3

1 93,75

0,029

0,66

7

100 0,044

0,031

0,66

7 93,75

0,054

0,036

Phanerochaete

16

3 0,66

7 93,75

0,082

0,03

0,66

7 93,75

0,14

0,068

0,66

7 93,75

0,105

0,015

Phellodon

43

7 0,85

7 97,674

0,081

0,065

0,85

7 95,349

0,127

0,09

0,71

4

100 0,114

0,048

Piloderma

7

2 0,5

85,714

0,263

0,091

0,5

85,714

0,421

0,09

0,5

85,714

0,294

0,121

Polyporus

35

7 0,85

7

100 0,096

0,022

1

100 0,099

0,05

0,85

7

100 0,153

0,039

Postia

40

6 0,5

82,5

0,12

0 0,5

82,5

0,173

0 0,5

85 0,193

0 Puccinia

223

9 0,11

1 98,206

0,311

0,005

0,33

3 95,067

0,503

0 0,44

4 98,655

0,372

0,005

Russula

410

46 0,37

92,439

0,178

0 0,15

2

90 0,286

0 0,39

1 92,439

0,248

0 Sarcodon

53

7 0,85

7 98,113

0,138

0,004

0,85

7 98,113

0,187

0,008

0,85

7 98,113

0,186

0,004

Suillus

33

6 0,83

3 93,939

0,08

0,031

0,83

3 93,939

0,118

0,038

0,83

3 96,97

0,094

0,038

Thelephora

21

2

0 90,476

0,107

0,006

0 90,476

0,139

0,02

0 85,714

0,157

0,004

Tricholoma

180

14 0,42

9 92,222

0,205

0 0,5

90 0,282

0 0,21

4 84,444

0,297

0 Tuberculina

43

3 0,66

7

100 0,107

0,002

0 55,814

0,107

0 0,66

7 97,674

0,197

0,005

PIC=Probabilidade de Identificação Correta; BLAST (%) = Porcentagem de identificação correta na validação cruzada do BLAST; Max_Intra = Distância intraespecífica máxima; Min_Inter =

Distância interespecífica mínima. Fonte: Francislon Silva de Oliveira, 2015.

(38)

28 Figura 13: Gráficos de barcode gap para os gêneros Amanita (A), Amyloporia (B), Antrodia (C),

Antrodiella (D), Auricularia (E) e Calvatia (F)

(39)

Figura 14: Gráficos de barcode gap para os gêneros Chlorophyllum (A), Chroogomphus (B),

Coprinopsis (C), Datronia (D), Entoloma (E) e Ganoderma (F)

(40)

30 Figura 15: Gráficos de barcode gap para os gêneros Geastrum (A), Gymnopus (B), Hygrocybe (C),

Hygrophorus (D), Hymenopellis (E) e Lactifluus (F)

(41)

Figura 16: Gráficos de barcode gap para os gêneros Lentinellus (A), Lepiota (B), Leucoagaricus

(C), Macrolepiota (D), Megacollybia (E) e Melampsora (F)