• Nenhum resultado encontrado

Variáveis associadas à época de diversificação na região neotropical

N/A
N/A
Protected

Academic year: 2021

Share "Variáveis associadas à época de diversificação na região neotropical"

Copied!
52
0
0

Texto

(1)

JOÃO CLAUDIO DE SOUSA NASCIMENTO

VARIÁVEIS ASSOCIADAS À ÉPOCA DE DIVERSIFICAÇÃO NA REGIÃO NEOTROPICAL

CAMPINAS 2019

(2)

VARIÁVEIS ASSOCIADAS À ÉPOCA DE DIVERSIFICAÇÃO NA REGIÃO NEOTROPICAL

Dissertação apresentada ao Instituto de Biologia da Universidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do Título de Mestre em Ecologia.

ESTE ARQUIVO DIGITAL CORRESPONDE À VERSÃO FINAL DA DISSERTAÇÃO

DEFENDIDA PELO ALUNO JOÃO

CLAUDIO DE SOUSA NASCIMENTO E ORIENTADA PELA PROFA. DRA. VERA NISAKA SOLFERINI.

Orientadora: Profa. Dra. Vera Nisaka Solferini

Campinas 2019

(3)

Mara Janaina de Oliveira - CRB 8/6972

Nascimento, João Claudio de Sousa,

N17v NasVariáveis associadas à época de diversificação na região neotropical / João Claudio de Sousa Nascimento. – Campinas, SP : [s.n.], 2019.

NasOrientador: Vera Nisaka Solferini.

NasDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de Biologia.

Nas1. Filogeografia. 2. Aprendizado de máquina. I. Solferini, Vera Nisaka, 1957-. II. Universidade Estadual de Campinas. Instituto de Biologia. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Variables associated with the timing of diversification in the neotropical region

Palavras-chave em inglês: Phylogeography

Machine learning

Área de concentração: Ecologia Titulação: Mestre em Ecologia Banca examinadora:

Vera Nisaka Solferini [Orientador] Fábio Pinheiro

Isabel Aparecida da Silva Bonatelli Data de defesa: 26-04-2019

Programa de Pós-Graduação: Ecologia Identificação e informações acadêmicas do(a) aluno(a)

- ORCID do autor: https://orcid.org/0000-0002-6665-9305 - Currículo Lattes do autor: http://lattes.cnpq.br/7989518729523139

(4)

Comissão examinadora

Profa. Dra. Vera Nisaka Solferini

Prof. Dr. Fábio Pinheiro

Dra. Isabel Aparecida da Silva Bonatelli

Os membros da Comissão Examinadora acima assinaram a Ata de Defesa, que se encontra no processo de vida acadêmica do aluno.

(5)

Agradeço à minha mãe e minha irmã, motivos maior de tudo que faço,

À Vera, pela orientação, por me ensinar a reconhecer as questões que valem a pena ser respondidas e pela liberdade de me deixar explora-las de outras maneiras,

Ao meu tio Alex, por me abrir bem mais portas que apenas as da própria casa, À Julia, pela presença indispensável que foi nos últimos anos,

Ao Nikito, por mesmo distante ainda estar sempre comigo,

Aos meus colegas de laboratório, ou quase, Jair, Fernanda, Luiz, Elen, Wendy, Felipe, Jéssica, Analice, Natália e Rafael, pela companhia, cafés e conhecimento compartilhado, À Célia, por todo auxílio mesmo quando as coisas nunca davam certo,

Aos meus amigos da Ecologia, em especial Vere, Alina, Zé, Edu e Estrela, por tornarem esse caminho da pós-graduação mais agradável,

Aos membros do comitê de acompanhamento, Dr. Fábio Raposo, Dra. Elen Peres e Dra. Fernanda Fontes, e da pré-banca, Dra. Isabel Bonatelli, Dr. Manolo Perez e Dr. Renato Vicentini; pelos comentários e a ajuda que deram para tornar esta dissertação melhor, Aos membros da banca, Prof. Dr. Fábio Pinheiro, Dra. Isabel Bonatelli, Dr. Manolo Perez e Dra. Juliana José, por aceitarem o convite para participar dessa defesa,

Ao CCES (Center for Computing in Engineering & Sciences, projeto FAPESP

2013/08293-7) pelos recursos computacionais necessários à execução deste projeto,

À FAPESP (processo no 2017/00051-5, Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)) e Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001, pela bolsa concedida em convênio, e ao CNPq (Processo 132222/2017-5) pelos apoios financeiros que permitiram a realização desse trabalho,

(6)

região Neotropical esteve comumente associada à recuperação do período em que ocorreu esta diversificação. Quando as datações desses grupos são recentes, datadas do Quaternário, isto é interpretado como sendo uma evidência da influência de processos associados às variações climáticas desse período. Quando estas datações são antigas, datadas do Terciário, estas são associadas aos eventos orogênicos que ocorreram nesse período. Contudo, as características de um grupo que levam este a ter sua época de diversificação sendo o Quaternário ou Terciário não foram claramente exploradas. Neste trabalho, esta pergunta foi abordada a partir de uma revisão dos trabalhos já publicados com datação de separações intraespecíficas de linhagens como método de recuperar a época de diversificação das espécies. A partir dessas datas, foi utilizado um método de aprendizado de máquina, o algoritmo random forest, para realizar a análise e classificação dessas observações. O método random forest busca, a partir de um conjunto de variáveis preditoras, construir uma regra de classificação para as observações. Nesse processo, ele também permite identificar quais variáveis são mais importantes para a classificação dos grupos nesses dois períodos. Para se realizar a análise, obteve-se da literatura um banco de dados de espécies cujas datações das linhagens são conhecidas, bem como as localidades de ocorrência destas. Utilizando-se essas informações, a análise foi realizada para todas as localidades obtidas, tanto para o conjunto total de espécies, quanto para animais e plantas separadamente, usando um conjunto de variáveis climáticas, ecológicas e de classificação taxonômica como variáveis preditoras. Os resultados mostram que a classificação taxonômica é a mais importante variável nessa classificação, sugerindo um forte papel para características de história natural, morfologia ou fisiologia dos grupos em determinar como se dá o processo de diversificação. As variáveis de distribuição geográfica (latitude e longitude) também estiveram entre as mais importantes, adicionando um contexto geográfico para o processo de diversificação. A análise sem a inclusão de classificação taxonômica sugere um papel para a forma de locomoção em animais, possivelmente mediada pela forma como isso influencia a capacidade de dispersão. Em plantas, o tipo de gene surgiu como a mais importante nesse cenário, destacando o cuidado que se deve ter ao analisar resultados provenientes de um ou poucos marcadores. Os resultados são um primeiro passo na busca da compreensão das características que podem influenciar o padrão de diversificação e distribuição da diversidade genética dos grupos da região Neotropical.

(7)

Neotropical groups was traditionally mainly associated with identifying the period in which said diversification occurred. Groups that presented younger datings were supposed to have been influenced by the Quaternary climatic oscillations, while older dating were supposed to be associated with orogenic events that occurred in the Tertiary. Nevertheless, it was not well explored which specific traits of the organisms are associated with a younger or older dating. In this work, this question was approached by using a meta-analysis of the published works that presented an estimate of the oldest intraspecific lineages divergence for a number of species. The random forest algorithm, a machine-learning approach, was then used to perform the analysis and classification of these observations. This algorithm uses a set of predictor variables to construct a classification rule for the observations. In this process, it also allows the estimation of the importance of each predictor variable for the correct classification of the groups in these two periods. For the analysis, a dataset comprising of species with known dating and sampling localities was constructed from a literature survey. From this, the analysis was performed for all localities obtained, for the full dataset of organisms as well as for plants and animals separately, using a number of climatic, ecological and taxonomic characteristics as predictor variables in the algorithm and the period of diversification as the response variable. The results showed that the taxonomic rankings were the most important variables for the classification, which suggest an important role for natural history, morphological or physiological characteristics of the groups in shaping the way the diversification process occurs. Latitude and longitude were also among the most important variables, adding a geographical context to the diversification processes. The analysis that did not included taxonomic identified the form of locomotion in animals as highly important, probably due to its influence in the dispersal capability of organisms. For plants, the kind of gene used in the analysis was the most important variable, highlighting the carefulness that is necessary in making inferences from results from one of few genetic markers. The results here presented are a first attempt in trying to uncover how the traits of organisms influence the diversification patterns and genetic diversity distribution in groups of the Neotropical region.

(8)

coloridos por datação de diversificação: (a) Geral, (b) Plantas e (c) Animais ... 22 Figura 2. Representação gráfica das matrizes de confusão para cada uma das análises com o conjunto completo de dados, indicando a percentagem de localidades de cada período que foram recuperadas como pertencentes a cada um dos períodos. (a,b) Geral com e sem taxonomia, respectivamente. (c,d) Plantas com e sem taxonomia, respectivamente. (e,f) Animais com e sem taxonomia, respectivamente ... 23 Figura 3. Importância das variáveis (MDA) para as todas as análises realizadas com o conjunto completo de dados. (a,b) Geral com e sem taxonomia, respectivamente. (c,d) Plantas com e sem taxonomia, respectivamente. (e,f) Animais com e sem taxonomia, respectivamente. ... 25 Figura 4. Análise de Componentes Principais (PCA) para o conjunto completo de observações. (a) Dados gerais (b) Animais e (c) Plantas ... 26 Figura 5. Distribuição das variáveis identificadas como principais para o conjunto geral de dados completo, separados por época de diversificação do grupo. (a) Longitude, (b) Latitude, (c) Precipitação Média do Quarto Mais Quente (bio18), (d) Precipitação anual (bio12), (e) Altitudes ... 27 Figura 6. Distribuição das variáveis identificadas como principais para o conjunto de animais dos dados completos, separados por época de diversificação do grupo. (a) Longitude, (b) Latitude, (c) Altitudes, (d) Temp. Máx. do Mês mais Quente (bio5) e (e) Sazonalidade de Precipitação (bio15) ... 27 Figura 7. Distribuição das variáveis identificadas como principais para o conjunto de plantas dos dados completos, separados por época de diversificação do grupo. (a) Longitude, (b) Latitude, (c) Precipitação do quarto mais seco (bio17), (d) Precipitação anual (bio12) e (e) Precipitação do mês mais seco ... 28 Figura 8. Representação gráfica das matrizes de confusão para cada uma das análises com o conjunto reduzido de dados, indicando a percentagem de localidades de cada período que foram recuperadas como pertencentes a cada um dos períodos.(a,b) Geral com e sem taxonomia, respectivamente. (c,d) Plantas com e sem taxonomia, respectivamente. (e,f) Animais com e sem taxonomia, respectivamente ... 29 Figura 9. Importância das variáveis (MDA) para as todas as análises realizadas com o conjunto reduzido de dados. (a,b) Geral com e sem taxonomia, respectivamente. (c,d) Plantas

(9)

Figura anexa 1. Análise de Componentes Principais (PCA) para o conjunto reduzidos de observações. (a) Dados gerais (b) Animais e (c) Plantas ... 49 Figura anexa 2. Distribuição das variáveis identificadas como principais para a análise geral com o conjunto de dados reduzido, separados por época de diversificação do grupo. (a) Latitude, (b) Longitude, (c) Precipitação do quarto mais quente (bio18), e (d) Altitudes ... 49 Figura anexa 3. Distribuição das variáveis identificadas como principais para animais com o conjunto de dados reduzido, separados por época de diversificação do grupo. (a) Latitude, (b) Longitude, (c) Sazonalidade de temperatura (bio4), (d) Precipitação do quarto mais quente (bio18) e (e) Altitudes... 50 Figura anexa 4. Distribuição das variáveis identificadas como principais para animais com o conjunto de dados reduzido, separados por época de diversificação do grupo. (a) Sazonalidade de precipitação (bio15), (b) Longitude, (c) Altitudes, (d) Precipitação anual (bio12) e (e) Latitude ... 50

(10)

período de datação ... 22 Tabela 2. Acurácia (%) da análise por localidades quando sumarizadas por espécie, levando em conta o conjunto de dados completo e o subconjunto reduzido, para todas as combinações.. ... 24 Tabela 3. Valores de p do teste U de Mann-Whitney para as variáveis bioclimáticas identificadas como as principais para a análise todos os cenários conjunto completo de dados. Variáveis em negrito foram significativas ao nível de 0.05 ... 26 Tabela 4. Resumo das variáveis identificadas como mais importantes para cada conjunto de dados analisado ... 31 Tabela anexa 1. Variáveis utilizadas nas análises ... 47 Tabela anexa 2. Acurácia (%) das análises de random forest por localidade para cada uma das combinações utilizadas nas análises com o conjunto de dados completo ... 47 Tabela anexa 3. Acurácia (%) da análise por localidade para o subconjunto de dados reduzido, para os dados totais e separados por período de diversificação, para todas as combinações ... 48 Tabela anexa 4. Acurácia (%) da análise por espécie, levando em conta o conjunto de dados completo, para todas as combinações ... 48 Tabela anexa 5. Acurácia (%) da análise por espécie, levando em conta o conjunto de dados reduzido, para todas as combinações ... 48 Tabela anexa 6. Valores de p do teste U de Mann-Whitney para as variáveis bioclimáticas identificadas como as principais para todos os cenários analisados com conjunto reduzido de dados. Variáveis em negrito foram significativas ao nível de 0.05 ... 48

(11)

Introdução ... 12 Material e Métodos ... 17 Resultados ... 21 Discussão ... 32 Conclusões ... 38 Referências ... 39 Apêndices ... 47 Anexos ... 51

(12)

Introdução

A alta biodiversidade da região Neotropical é um dos padrões de distribuição de espécies mais bem conhecidos e estudados no planeta, cujo reconhecimento, desde ao menos a primeira metade do Séc. XIX (e.g., von Humboldt, 1808), suscitou diversas hipóteses para a explicação de suas origens e dos fatores que a influenciaram. Wallace (1878) foi um dos primeiros a sugerir que a estabilidade climática da região tropical poderia explicar a alta diversidade por reduzir a chance de extinção; Rosenzweig (1995) propôs que a grande extensão da região tropical seria capaz de suportar um grande número de espécies, o que explicaria a alta biodiversidade; Wiens & Donoghue (2004) sugeriram que a maior parte dos grupos têm origem tropical e reduzida dispersão para fora dos trópicos enquanto Fischer (1960) também atribuiu o grande número de espécies à estabilidade climática da região tropical em comparação com as zonas temperadas, dentre outras (revisão em Mittlebach et al., 2007). A hipótese dos refúgios pleistocênicos surgiu como mais uma proposta para explicar a ampla biodiversidade Neotropical, creditando essa diversidade a eventos recentes, dos últimos 2 milhões de anos, relacionados a instabilidade dos biomas durante as glaciações do Quaternário, período que se estende de 2,58 milhões de anos atrás até 10.000 anos atrás (Haffer, 1969, Vanzolini & Williams, 1970).

A hipótese dos refúgios também pôs em primeiro plano a discussão sobre a época de diversificação da maior parte da biodiversidade tropical. Enquanto essa teoria propunha um aumento das taxas de especiação no Quaternário, sugerindo uma biota de origem majoritariamente recente, posteriormente surgiram resultados que propunham uma origem mais antiga da biodiversidade, ligada, sobretudo aos diversos eventos orogênicos que ocorreram no Terciário, que abrange de 65 milhões de anos atrás até 2,58 milhões de anos atrás (Willis & Niklas, 2004, Hoorn et al., 2010). Durante muito tempo tidas como opostas, as duas hipóteses não são mutuamente exclusivas; contudo, ainda não é claro o papel relativo que estes eventos tiveram para diferentes grupos em diferentes biomas. Também não é claro se algum conjunto de características ecológicas tornaria um grupo mais suscetível a diversificar em consequência de eventos em um ou outro desses períodos.

Proposta originalmente para a região Neotropical por Haffer (1969), a ideia de que eventos de especiação poderiam ocorrer em decorrência da formação de refúgios florestais já havia sido proposta para a África tropical alguns anos antes (Moreau, 1966). Trabalhando a partir de mapas de distribuição de aves na região Amazônica, Haffer propôs que durante os períodos mais secos e frios destes ciclos houve uma expansão das vegetações abertas e retração das matas úmidas, restringindo assim as espécies amazônicas a pequenas áreas de

(13)

refúgio, com o oposto ocorrendo nos períodos mais quentes e úmidos, repetidamente. Tais ciclos teriam uma forte influência nos processos de especiação por provocarem retratações cíclicas e isolamento das populações (Haffer, 1969). Inicialmente, a teoria dos refúgios foi amplamente aceita e era considerada como sendo primordial para explicar a alta diversidade Neotropical (Vuilleumier, 1971; Haffer, 1974). Nos anos posteriores à publicação de Haffer, diversas evidências aparentemente concordantes com a hipótese dele começaram a se acumular. Na região, os primeiros trabalhos que buscaram reconstruir a paleovegetação da região mostravam uma expansão de gramíneas em regiões atualmente ocupadas por florestas tropicais durante os máximos glaciais, com o retorno da presença de florestas nos últimos milhares de anos (van der Hammen, 1974; Simpson & Haffer, 1978). Paralelamente, trabalhos a partir do padrão de distribuição atual de espécies congêneres, realizados principalmente com grupos amazônicos, também pareciam concordar com as predições da hipótese de Haffer e permitiram a reconstrução de diversas áreas que poderiam ter sido os refúgios florestais. Esse tipo de análise foi feita para aves (Haffer, 1974), borboletas (Brown et al., 1974; Brown & Ab’Saber, 1979), répteis (Vanzolini & Williams, 1970) e plantas (Prance, 1973).

A partir dos anos 80, alguns autores começaram a questionar essa hipótese, apresentando resultados indicativos de que ela não poderia explicar a origem de toda a biodiversidade Neotropical. Alguns autores, baseados também em reconstrução de paleovegetação, encontraram evidências de que a floresta Amazônica não foi substituída por savanas em diversas regiões durante o máximo glacial, indicando que a fragmentação postulada pela teoria dos refúgios não teria ocorrido (Colinvaux, 1987, Hooghiemstra & van der Hammen, 1998,). Trabalhando com simulações, Beven e colaboradores (1984) testaram se a distribuição das espécies amazônicas diferia significativamente do que seria esperado se as bordas das distribuições fossem desenhadas ao acaso e encontraram um alto grau de concordância entre as bordas simuladas e as reais; isto os levou a sugerir que o padrão de distribuição das espécies observado atualmente poderia existir independentemente dos refúgios. Para plantas, um inventário da densidade de coleta de espécimes mostrou uma grande sobreposição entre os locais mais intensamente coletados e as zonas endemismo (um dos suportes da teoria dos refúgios) sugerindo que poderiam ser apenas artefato das amostragens (Nelson et al., 1990). Além disso, a partir do reconhecimento que grande parte da biota Neotropical é de origem mais antiga que o Quaternário, como demonstrado por dados paleopalinológicos (Jaramillo et al., 2006) e biogeográficos (Brown, 1982), começou a emergir um cenário mais complexo dos processos de diversificação nessa região (Bush, 1994).

(14)

Neste contexto, foi reconhecido que diversos eventos orogênicos do Terciário tiveram impacto profundo na diversificação da região, sendo o soerguimento da Cordilheira dos Andes o mais impactante (Hoorn et al., 2010; Wesselingh et al., 2010; Antonelli & Sanmartin, 2011). Iniciado no Eoceno, os Andes experimentaram seu período de soerguimento mais intenso nos últimos 10 milhões de anos (Horrn et al., 2010). Concomitantemente, e em parte influenciado por este soerguimento, teve início a compartimentalização das florestas úmidas na América do Sul, com a diferenciação das florestas tropicais ao norte, e junto à costa do Oceano Atlântico, e as savanas e vegetações abertas a leste e sul (Colli, 2005).

Junto com soerguimento da região central dos Andes, houve o surgimento do sistema de Pebas e fragmentação da Amazônia ao redor deste lago; posteriormente, o soerguimento da região norte dos Andes provocou o gradual desaparecimento deste sistema de lagos e deu origem à configuração fluvial atual, com os rios da bacia Amazônica correndo para o leste (Hoorn et al., 2010). Estes processos tiveram um profundo impacto na diversificação dos grupos neotropicais, já tendo sido relacionados a diversos aumentos nas taxas de diversificação (Antonelli et al., 2009; Matos-Maraví et al., 2013). Além das alterações na geografia e clima, o surgimento das montanhas criou novas oportunidades para especiação, separou linhagens previamente existentes, criou barreiras para migração, dentre outros efeitos que podem ter acarretado um aumento da taxa de diversificação das regiões montanhosas, bem como da bacia Amazônica, que sofreu mais intensamente seus efeitos (Gentry, 1982; Hughes & Eastwood, 2006; Hoorn et al., 2010; Winterton et al., 2014). Além disso, como consequência do rearranjo das placas tectônicas com o soerguimento dos Andes, ocorreu o fechamento do istmo do Panamá e o grande intercâmbio Americano (Webb et al., 1991). Este evento teve grande importância na biogeografia das Américas, pois marcou o fim do isolamento entre as Américas do Norte e do Sul e aumentou a migração de organismos entre eles. O istmo estava completamente formado entre 5 e 2,8 milhões de anos atrás, mas o início da migração e intercâmbio de biota precede esta data em dezenas de milhões de anos (Bacon et al., 2015, O'Dea et al., 2016).

Nas últimas décadas do Séc. XX foram desenvolvidos métodos mais elaborados e precisos para a construção e datação de filogenias a partir de dados moleculares. O aprimoramento dessas técnicas permitiu a obtenção direta da época de diversificação para diversos grupos e ofereceu a oportunidade de testar padrões de diversificação de maneira complementar aos registros geológicos e de paleovegetação, acarretando um grande aumento de dados para a discussão do papel relativo de diferentes épocas no estabelecimento da

(15)

diversidade atual (Rull, 2008). Concomitantemente, o surgimento e expansão da filogeografia, ciência dedicada a análise da distribuição geográfica de linhagens genéticas intraespecíficas (Avise, 1987), acrescentou um novo conjunto de ferramentas que permitiu analisar esse novo aporte de dados. O aumento de estudos deste tipo na região Neotropical (Beheregaray, 2008; Turchetto-Zolet et al., 2013) têm contribuído de maneira significativa para elucidar os padrões de idade das espécies, e estes estudos têm revelado um padrão contínuo de especiação, sem aparentes picos em nenhum dos dois períodos (Rull, 2008, 2011). Em estudos filogeográficos da região Neotropical, pouco menos de metade dos eventos de diversificação ocorreram no Terciário, com o restante ocorrendo no Quaternário (Turchetto-Zolet et al., 2013).

Não obstante a quantidade de estudos realizados na região, inferências sobre os processos que podem ter influenciado a diversificação nos Neotrópicos têm tradicionalmente enfatizado a época de separação das linhagens, associando a datação filogenética aos eventos mais ou menos concomitantes. Embora métodos para o teste de hipóteses demográficas tenham sido desenvolvidos ao longo dos últimos (Bertorelle et al., 2010, Hickerson et al., 2010), boa parte dos estudos não realizam tal teste de maneira explícita e recorrem apenas a essa associação. Além disso, estes estudos são majoritariamente voltados para a reconstrução da história demográfica de uma ou poucas espécies. Ainda é necessário um esforço para a compreensão da influência relativa dos fatores bióticos e abióticos na estruturação genética das populações (Papadopolou & Knowles, 2016). A integração de fatores causais é essencial para avançar além da dicotomia entre explicações baseadas em eventos orogênicos ou oscilações climáticas, no sentido de elucidar os processos que atuaram sobre as linhagens. Apesar de se reconhecer que características ecológicas, tais como capacidade de dispersão, amplitude de nicho e preferências climáticas são importantes para identificação de padrões genéticos (e.g, Guarnizo et al., 2016), a contribuição dessas diferentes características para a diversificação genética não foi explicitamente testada na região Neotropical utilizando-se de uma grande variedade de grupos.

Recentemente, métodos de aprendizado de máquina (machine-learning) têm sido difundidos em diversas áreas da biologia, devido à sua capacidade de incorporar uma grande quantidade de dados, variáveis correlacionadas, relações não lineares, dentre outras, que os permitem analisarem grandes conjuntos de dados biológicos (Cutler et al., 2007, Tarca et al., 2007, Brieuc et al., 2018). Os métodos de aprendizado de máquina dividem-se em duas principais categorias: não supervisionados e supervisionados (Olden et al., 2008). Os algoritmos não supervisionados são utilizados para buscar padrões em dados sem informações

(16)

a priori (Tarca et al., 2007). Os métodos supervisionados buscam relacionar informações prévias sobre as observações em questão, buscando a combinação de variáveis capazes de prever a variável resposta, seja em forma de classificação ou análise de regressão (Crisci et al., 2012). Entre métodos não supervisionados incluem-se, entre outros, as redes neurais artificiais (artificial neural networks, Lek et al., 1996), as árvores de decisão (De’ath & Fabricius, 2000) e as florestas randômicas (random forest) (Breiman, 2001).

O método random forest é uma técnica de aprendizado de máquina que permite a análise e agrupamento de observações em categorias a partir de variáveis associadas a estas estas (Breiman, 2001). Ele funciona construindo uma grande quantidade de árvores de decisões. Nestas árvores, cada nó representa uma dicotomização dos dados que busca maximizar a dissimilaridade entre as categorias dos dados; assim, esse processo é repetido até que todas as observações estejam classificadas, construindo uma regra de classificação para novas observações (Boulesteix et al., 2012). Ao contrário de métodos que constroem apenas uma árvore de decisão, no random forest são construídas centenas de árvores e cada uma é um bootstrap dos dados em que variáveis são escolhidas aleatoriamente e a categoria final de uma observação é baseada nas árvores de escolha construídas (Breiman, 2001). Cerca de 2/3 das árvores construídas são usadas para treinar o algoritmo, enquanto as observações restantes, chamadas de out-of-bag, são utilizadas como um teste da acurácia das árvores construídas. A construção de uma grande quantidade de árvores, bem como a validação com as observações out-of-bag, permite a determinação da acurácia da floresta, calculada como a porcentagem de classificações corretas. Neste processo, o algoritmo também permite estimar o quão importante cada variável é para a classificação correta das observações.

Em especial nos últimos anos, o algoritmo random forest tem sido utilizado para responder questões sobre padrões genéticos, como identificação e predição de diversidade críptica (Espíndola et al., 2016, Smith et al., 2018, Sullivan et al., 2019), teste de modelos demográficos (Smith et al., 2017), análises globais de estruturação genética (Pelletier & Carstens, 2018) e identificação de características relacionadas à expansão populacional pós-glacial (Carstens et al., 2018). Tal metodologia têm se mostrado eficiente nestes estudos e pode ser um importante passo para a identificação de quais características estão relacionadas à diversificação no Quaternário ou no Terciário para grupos da região Neotropical.

Neste trabalho, foi realizada uma análise de associação entre variáveis ecológicas e ambientais e a época de diversificação de grupos da região Neotropical, utilizando o método de random forest para identificar quais destas variáveis estão associadas a uma diversificação de linhagens intraespecíficas mais antiga, do Terciário, ou mais recente, do Quaternário. A

(17)

identificação dessas possíveis características pode ter importante papel em sugerir os mecanismos que podem estar associados aos processos que foram responsáveis pela diversificação da biota viventa da região Neotropical.

Material e Métodos Compilação de dados

Para a realização desse trabalho, foi necessária a coleta de informação sobre distribuição e data de diversificação para diversos grupos da região Neotropical. Essa coleta foi realizada através de uma revisão sistemática da literatura já publicada que envolvesse a análise genética de grupos distribuídos na região e que provesse alguma estimativa da datação em que ocorreu esta diversificação do grupo em questão. Para se realizar a busca dessa literatura, utilizou-se a base de dados do Web of Science (Institute of Scientific Information, Thomson Scientific). Foram utilizados dois termos de busca: “phylogeograph* + Neotropic*” e “phylogeograph* + south america”. A filogeografia é a área da biologia que trabalha com a distribuição de linhagens intraespecíficas, servindo como ponte entre a biogeografia e a genética de populações (Avise, 2000). Assim, a busca de artigos dessa área pode ser o método mais eficiente para a obtenção da estimativa das idades de diversificação de linhagens intraespecíficas. Todos os artigos identificados na busca foram visualmente checados para identificar se possuíam as características necessárias para serem incluídos na análise final, nominalmente: (i) Localidades de coleta dos organismos em questão e (ii) Datação da diversificação do grupo.

Para as análises, foram incluídos apenas artigos lidando com organismos nativos e com a maior parte de sua distribuição na região Neotropical, excluindo-se assim estudos transcontinentais e com espécies invasoras. Em virtude da grande quantidade de grupos analisados, optou-se por aceitar a classificação e definição de espécie que cada artigo adotava para seu caso. Também foram excluídos artigos com vírus, bactérias e outros organismos parasitas devido à distribuição destes estar potencialmente muito mais associada à presença de possíveis hospedeiros do que a variáveis climáticas ou ecológicas. Também foram excluídos da análise artigos lidando com organismos exclusivamente marinhos, para os quais os dados de variáveis climáticas seriam bastante reduzidos e talvez não reflitam as condições que os organismos sofrem.

Datação

Para cada artigo obtido da literatura, foi analisado se este artigo apresentava alguma estimativa de datação da diversificação das linhagens. A partir da análise de cada

(18)

artigo, esta data foi buscada nos dados disponibilizados, usualmente na forma de uma filogenia datada ou estimativa de tempo para o ancestral comum mais recente (TMRCA). Para as análises subsequentes, foi utilizada a crown-age de cada espécie para o qual estava disponível esta data, que em uma filogenia representa o nó mais antigo de separação de linhagens ainda dentro da mesma espécie. Assim, a crown-age representa a data do ancestral comum mais recente (MRCA) das linhagens extantes. Foi optado por utilizar esta datação ao invés da stem-age em virtude de possíveis incertezas quanto às datações desta última quando o grupo externo escolhido não corresponde ao grupo irmão mais próximo, o que levaria a uma superestimação da época de diversificação das espécies, bem como esta idade também pode não ser representativa da origem da diversidade atual, devido a potenciais eventos de extinção que não são detectados a partir das filogenias (Rull, 2011). Dividiram-se os organismos em dois grupos tendo por base esta idade disponível no artigo: grupos que se diversificaram no Quaternário (diversificação nos últimos 2,6 milhões de anos atrás) ou no Terciário (diversificação entre 2,6 milhões e 65 milhões de anos atrás).

Incerteza nas datações

A datação de filogenias está associada a intervalos de confiança das datas estimadas. Grupos nos quais esse intervalo de confiança abrange diferentes períodos poderiam servir como um elemento de confusão para a análise, devido à indefinição sobre o real período no qual ocorreu esta separação. Em virtude disso, as análises acima foram repetidas para o subconjunto de espécies nos quais os intervalos de confiança associados à datação do ancestral mais recente não abrangiam diferentes períodos geológicos. A metodologia de análise desse subconjunto reduzido de dados foi a mesma utilizada para o conjunto de dados completos, totalizando as mesmas 6 análises que foram realizadas para o conjunto completo. Extração de variáveis

Para cada artigo no qual foi possível obter uma datação das linhagens, foram extraídas todas as coordenadas dos locais de coleta presentes no estudo, caso estas estivessem disponíveis. Os artigos que não disponibilizavam essas coordenadas foram descartados. Cada ponto de coleta foi utilizado então para a obtenção de diversas variáveis climáticas, altimetrias e ecológicas. Para cada localidade obtidas foram extraídas as latitudes, longitudes, altitude e as 19 variáveis bioclimáticas disponíveis no WorldClim (Fick & Hijmans, 2017, Tabela anexa 1). Além dessas variáveis físicas, o bioma de cada ponto de coleta também foi obtido utilizando-se a classificação de ecorregiões terrestres proposta por Olson e colaboradores (2001), que divide o globo em um conjunto de regiões ecologicamente similares e fornece uma forma de acessar o ambiente do local. A obtenção destas variáveis a partir dos pontos de

(19)

coleta foi realizada utilizando-se os pacotes raster (Hijmans & van Etten, 2014) e rgdal (Bivand et al., 2014), no software R.

A classificação taxonômica já se mostrou explicativa em estudos prévios realizados com a mesma metodologia aqui empregada (Espíndola et al., 2016, Pelletier & Carstens, 2018). Assim sendo, essa classificação foi utilizada como uma aproximação de características ecológicas específicas das espécies analisadas, i.e, a classificação de mamíferos, por exemplo, serve como uma aproximação para o conjunto de sinapomorfias que define este grupo e que poderiam ser separadamente incluídas na análise caso disponíveis. Para os animais, também foi utilizada uma caracterização da capacidade de movimento da espécie, codificada como forma de deslocamento, característica já associada a padrões de estruturação genética (Medina et al., 2018). Assim, os animais foram divididos em três grupos: (i) Terrestres, (ii) Aquáticos ou (iii) Voadores. O tipo de marcador molecular utilizado para a realização da datação molecular nos artigos também foi utilizado como uma característica preditora. Devido a diferentes taxas de mutação de cada gene, é esperado que estes revelem idades diferentes para a separação das linhagens nas espécies. A inclusão dessas características, portanto, é essencial para evitar o potencial efeito complicador dessa variação e permitir elucidar qual o papel que a escolha de marcadores tem na realização de inferências sobre processos históricos, revelando a presença de possíveis vieses nas análises de datação. Assim, os artigos foram divididos baseados em três grupos de acordo com o tipo de marcador molecular utilizado na datação: (i) Nuclear, (ii) Citoplasmático e (iii) Ambos.

Aprendizado de máquina

As análises de aprendizado de máquina utilizando-se do random forest foram conduzidas utilizando o pacote randomForest (Liaw & Wiener, 2002) no software R. Para as análises, foram construídas 1000 árvores de decisão. Seguindo a metodologia de Espíndola e colaboradores (2016), as unidades focais da análise são as localidades de coleta, que eram classificadas como Terciário ou Quaternário baseado no artigo de onde ela foi obtida. Esta classificação de período por localidade era a variável resposta. As demais variáveis climáticas, ecológicas e outras que foram obtidas a partir da metodologia descrita anteriormente foram utilizadas como as variáveis preditoras da análise. Estas são as variáveis que são usadas para a construção das árvores, de modo que a cada nó ocorra uma dicotomização dos dados, baseada na seleção das variáveis que maximizam a diferença entre os grupos. Isto é feito até que todas as observações estejam classificadas. As observações eram classificadas a partir do voto do conjunto de todas as árvores (classifier). A porcentagem

(20)

de observações para os quais o algoritmo acerta a classificação é a partir daqui referida como acurácia do classifier.

Optou-se por realizar a construção de dois classifiers para cada conjunto de dados: (A) incluindo-se a classificação taxonômica das espécies como variável preditora, (B) não incluindo a classificação taxonômica. Isso foi feito para identificar até que ponto apenas características relacionadas ao nicho climático e outras características de história natural são capazes de recuperar de maneira correta a época estimada de separação das linhagens intraespecíficas. As análises também foram realizadas separadamente para plantas e para animais, seguindo-se a mesma sistemática descrita acima. Assim sendo, a análise foi repetida para três conjuntos de dados: Com todos os organismos (geral), com animais e plantas. Para cada um desses três conjuntos, a análise foi repetida: (A) Incluindo-se a classificação taxonômica e (B) Não se incluindo a classificação taxonômica, para um total final de 6 análises por conjunto de dados.

Sumarização por espécie

Para identificar os padrões em nível de espécie, os resultados obtidos nas análises baseadas nas localidades foram sumarizados seguindo um critério de voto majoritário similar ao utilizado por Espindola et al. (2016) e Sullivan et al. (2019). Nas análises, o algoritmo retorna uma classificação para cada localidade/população e a classificação por espécie é baseado na proporção de localidades identificadas como sendo de um período, isto é, se as análises por localidade classificassem mais de 50% dos pontos de coleta de uma espécie como pertencente a um dado período, esta espécie era classificada como tendo se diversificado em tal período. Esta identificação foi repetida para cada uma das 6 análises realizadas. Adicionalmente, também foi realizada uma análise de random forest utilizando-se dos valores de média, desvio padrão, máximo e mínimo para cada variável quantitativa para cada espécie, seguindo-se a mesma metodologia utilizada na análise por localidade.

Identificação das principais variáveis

O algoritmo do random forest permite a estimativa da importância de cada uma das variáveis preditoras para a obtenção da resposta (Terciário ou Quaternário), através de um cálculo da perda de acurácia (Mean Decrease in Accuracy, MDA) da análise com a remoção de cada uma das variáveis na construção das árvores e observando o quanto isso influência na taxa de acerto (Cutler et al., 2007).

As variáveis com maior MDA são, portanto, as características mais importantes para que o algoritmo acerte a classificação, o que nesse caso sugere que estas características

(21)

podem ser biologicamente informativas sobre as razões que influenciam grupos que se diferenciam em cada um dos períodos.

Diferenças entre grupos Terciário ou Quaternário

Para testar se as variáveis identificadas no passo anterior diferiam entre as localidades identificadas como Quaternário e Terciário foram realizadas duas análises.

Primeiramente, foi realizada uma Análise de Componentes Principais (PCA) para checar por diferenças entre os períodos. A PCA é uma análise não paramétrica que visa reduzir a dimensionalidade dos dados através de transformações ortogonais, de forma que os primeiros eixos expliquem a maior parte da variância dos dados. A visualização desses dados permite identificar se existe alguma estrutura identificável nos dados, bem como analisar que variáveis poderiam estar guiando essa diferença. A PCA foi realizada utilizando-se apenas as variáveis quantitativas, ou seja, as variáveis bioclimáticas, Latitude, Longitude e altitudes.

Também foi realizado o teste U de Mann-Whitney para checar se existe diferença entre as médias dos dois períodos para as variáveis com MDA mais relevante. Optou-se por utilizar esse teste devido a não normalidade de distribuição das variáveis (Zar, 1999). Assim, é possível analisar, para cada variável identificada, se existe uma diferença significativa entre as localidades do Quaternário e Terciário, caso no qual essa diferença poderiam ser biologicamente relevantes para compreensão do padrão de diversificação.

Resultados

Compilação de dados e datação

A busca resultou num total de 1400 artigos. Após o crivo, um total de 153 artigos foi mantido e foram estes os artigos utilizados para as análises posteriores. Estes 153 artigos continham um total de 165 espécies, distribuídas em 4950 localidades (Figura 1a). Dessas 165 espécies, 132 espécies (4094 localidades) eram de animais e 33 espécies (856 localidades) eram de plantas. Do total de espécies analisadas, 105 (63,6% do total) apresentavam datação de separação de linhagens intraespecífica no Quaternário, enquanto 60 (36,4% do total) apresentavam datação dessa separação no Terciário (Tabela 1).

Para a análise realizada utilizando-se apenas artigos cujo intervalo de confiança não abrangia mais que um período geológico, foram obtidos 96 artigos, compreendendo um total de 130 espécies e um total de 3821 localidades. Desse total, 88 espécies apresentavam datação do Quaternário, enquanto 42 apresentavam datação do Terciário.

(22)

Tabela 1. Resumo do total de espécies incluídas nas análises finais, por conjunto de dados e período de datação.

Conjunto de dados Total de espécies Quaternário Terciário

Completo 165 105 60

Reduzido 130 88 42

Figura 1. Mapa de distribuição das localidades analisadas para cada grupo de organismos, coloridos por datação de diversificação: (a) Geral, (b) Plantas e (c) Animais.

(i) Conjunto completo de dados

Análises de random forest por localidade

No total, foram realizados 6 análises de random forest para o conjunto completo de dados, cujas taxas de acerto para a análise geral, com todos os organismos, variaram de 78,38% a 99,65% (Figura 2, tabela anexa 2). A acurácia para grupos cuja diversificação ocorreu no Quaternário variou de 80,07% a 99,71%, e para grupos cuja diversificação se deu no Terciário, de 76,46% a 99,61%. Para plantas, a taxa de acerto variou de 87,14% a 99,71%. Para animais, a taxa variou de 86,02% a 94,19%.

(23)

Figura 2. Representação gráfica das matrizes de confusão para cada uma das análises com o conjunto completo de dados, indicando a percentagem de localidades de cada período que foram recuperadas como pertencentes a cada um dos períodos. (a,b) Geral com e sem taxonomia, respectivamente. (c,d) Plantas com e sem taxonomia, respectivamente. (e,f) Animais com e sem taxonomia, respectivamente.

Sumarização por espécie

Quando os resultados das análises por localidade foram sumarizados por espécie, a taxa de classificação correta das espécies variou de 81,80% a 100% para as análises realizadas com o conjunto completo de dados (Tabela 2). As análises de random forest que foram realizadas utilizando-se de média, variância, máximo e mínimo por espécie obteve resultados muito piores do que quando estes resultados foram sumarizados a partir das localidades, com taxas de acerto oscilando entre 31,7% e 87,5% (Tabela anexa 4).

(24)

Tabela 2. Acurácia (%) da análise por localidades quando sumarizadas por espécie, levando em conta o conjunto de dados completo e o subconjunto reduzido, para todas as combinações.

Completo Reduzido

Geral – com taxonomia 93,30 93,10

Geral – sem taxonomia 81,80 83,10

Planta – com taxonomia 100,00 100,00

Planta – sem taxonomia 97,00 100,00

Animal – com taxonomia 91,70 91,90

Animal – sem taxonomia 85,60 87,40

Identificação das principais variáveis

A análise da MDA revelou as principais características associadas a cada período de diversificação (Figura 3). Para a análise completa, a Ordem foi a característica mais importante em todas as análises em que classificação taxonômica foi incluída como variável preditora. Para a análise geral com a inclusão de taxonomia, Classe foi a segunda característica mais importante, seguida das variáveis de distribuição geográfica, Latitude e Longitude. As demais variáveis bioclimáticas tiveram importância similar (Figura 3a). Para animais e plantas separadamente, o tipo de gene utilizado também se revelou como uma característica de alta importância, superando Latitude e Longitude (Figura 3c, e). A ecorregião terrestre também surgiu entre as principais variáveis. Para animais, além de latitude, longitude e gene, também surgiram entre as variáveis mais importantes altitude, Bio5 (Temperatura do mês mais quente) e Bio15 (Sazonalidade de precipitação).

Quando não se inclui taxonomia, Latitude e Longitude se tornam as características mais importantes na análise geral, seguidas de tipo de gene (Figura 3b). Para a análise apenas com plantas, o tipo de gene se revelou como a característica mais importante para a classificação, seguida das variáveis de distribuição geográfica (Figura 3d). Para a análise apenas com animais, a forma de movimentação se mostrou como a mais importante variável preditora, seguida de Latitude e Longitude e tipo de gene (Figura 3e).

(25)

Figura 3. Importância das variáveis (MDA) para as todas as análises realizadas com o conjunto completo de dados. (a,b) Geral com e sem taxonomia, respectivamente. (c,d) Plantas com e sem taxonomia, respectivamente. (e,f) Animais com e sem taxonomia, respectivamente.

Teste de diferença entre grupos

A análise de componentes principais das variáveis quantitativas não revelou grandes diferenças entre o grupo de localidades classificadas como Quaternário ou Terciário (Figura 4). Existe uma grande sobreposição do conjunto de dados das variáveis quantitativas, tanto para a análise completa (Figura 4a), quanto para as análises realizadas separadamente para animais e plantas (Figura 4b,c).

Os testes U de Mann-Whitney revelaram a presença de diferenças significativas entre as principais variáveis bioclimáticas, identificadas pelos seus MDAs. Para o conjunto de

(26)

dados completos, a análise geral revelou diferenças entre Latitude, Longitude, Bio18 (Precipitação no quarto mais quente), Bio12 (Precipitação anual) e altitudes (Tabela 3). Para a análise com plantas e animais separadamente, a maior parte das observações apresentou diferenças significativas (Tabela 3). Em plantas, a variável Bio14 (Precipitação do mês mais seco) foi a única dentre as principais que não apresentou diferença significativa.

Figura 4. Análise de Componentes Principais (PCA) para o conjunto completo de observações. (a) Dados gerais (b) Animais e (c) Plantas.

Tabela 3. Valores de p do teste U de Mann-Whitney para as variáveis bioclimáticas identificadas como as principais para a análise todos os cenários conjunto completo de dados. Variáveis em negrito foram significativas ao nível de 0.05.

Geral Animais Plantas

valor-p valor-p valor-p

Latitude 2,9x10-80 Latitude 2.9x10-98 Latitude 0,019 Longitude 9,4x10-07 Longitude 0,002 Longitude 9x10-07

Bio18 6,2x10-21 Altitudes 1x10-12 Bio17 0,006

Bio12 6,9x10-08 Bio5 5,9x10-33 Bio12 0,002

(27)

Figura 5 Distribuição das variáveis identificadas como principais para o conjunto geral de dados completo, separados por época de diversificação do grupo. (a) Longitude, (b) Latitude, (c) Precipitação Média do Quarto Mais Quente (bio18), (d) Precipitação anual (bio12), (e) Altitudes.

Figura 6. Distribuição das variáveis identificadas como principais para o conjunto de animais dos dados completos, separados por época de diversificação do grupo. (a) Longitude, (b) Latitude, (c) Altitudes, (d) Temp. Máx. do Mês mais Quente (bio5) e (e) Sazonalidade de Precipitação (bio15)

(28)

Figura 7. Distribuição das variáveis identificadas como principais para o conjunto de plantas dos dados completos, separados por época de diversificação do grupo. (a) Longitude, (b) Latitude, (c) Precipitação do quarto mais seco (bio17), (d) Precipitação anual (bio12) e (e) Precipitação do mês mais seco.

(ii) Subconjunto reduzido de dados Análises de random forest por localidade

As 6 análises descritas anteriormente também foram realizados para o conjunto de dados reduzidos. As taxas de acerto geral variaram de 79,64% a 98,90% (Figura 8, Tabela anexa 3). A taxa de acerto para grupos do Quaternário variaram de 83,41% a 98,33%, enquanto para grupos do Terciário variou de 74,78% a 99,19%. Para animais, a taxa de acerto variou de 87,87% a 96,81%. Para plantas, a taxa de acerto variou de 93,86% a 99,19%.

(29)

Figura 8. Representação gráfica das matrizes de confusão para cada uma das análises com o conjunto reduzido de dados, indicando a percentagem de localidades de cada período que foram recuperadas como pertencentes a cada um dos períodos. (a,b) Geral com e sem taxonomia, respectivamente. (c,d) Plantas com e sem taxonomia, respectivamente. (e,f) Animais com e sem taxonomia, respectivamente.

Sumarização por espécie

Quando os resultados das localidades foram sumarizados por espécie, a taxa de classificação correta das espécies variou de 83,10% a 100% para as análises realizadas com o subconjunto reduzido de dados (Tabela 2). As análises de random forest que foram realizadas utilizando-se de média, variância, máximo e mínimo por espécie obteve resultados muito piores do que quando estes resultados foram sumarizados a partir das localidades, com taxas de acerto oscilando entre 28,12% e 86,53 % (Tabela anexa 5).

(30)

Identificação das principais variáveis

Na análise geral realizada apenas com o subconjunto de dados, a Ordem foi a característica mais importante. Para a análise geral com a inclusão de taxonomia, Classe foi a segunda característica mais importante, seguida de gene, Latitude e Longitude (Figura 9a). Para animais e plantas separadamente, o tipo de gene utilizado também se revelou como uma característica de alta importância, superando Latitude e Longitude (Figura 9c, Tabela 4). Como terceira variável mais importante para planta, estava bioma. Para animais, além de Latitude, Longitude e tipo gene, também surgiram entre as variáveis mais importantes a classe.

Figura 9 Importância das variáveis (MDA) para as todas as análises realizadas com o conjunto reduzido de dados. (a,b) Geral com e sem taxonomia, respectivamente. (c,d) Plantas com e sem taxonomia, respectivamente. (e,f) Animais com e sem taxonomia, respectivamente.

(31)

Quando não se inclui taxonomia, latitude é a característica mais importante na análise geral, seguidas de tipo de gene e Longitude (Figura 9b). Para a análise apenas com plantas, o tipo de gene se revelou como a característica mais importante para a classificação com alguma margem, seguida do tipo de bioma e variáveis de distribuição geográfica (Figura 9d). Para a análise apenas com animais, a forma de movimentação se mostrou como a mais importante variável preditora, seguida de Latitude e Longitude e tipo de gene (Figura 9e). Teste de diferença entre grupos

A análise de componentes principais das variáveis quantitativas não revelou grandes diferenças entre o grupo de localidades classificadas como Quaternário ou Terciário (Figura anexa 1). Existe uma grande sobreposição do conjunto de dados das variáveis, tanto para a análise completa (Figura anexa 1a), quanto para as análises realizadas separadamente para animais e plantas (Figura anexa 1b, c).

Os testes U de Mann-Whitney revelaram a presença de diferenças significativas entre as principais variáveis bioclimáticas, identificadas pelos seus MDAs. Para o conjunto de dados completos, a análise geral revelou diferenças entre Latitude, Longitude, Bio18 (Precipitação no quarto mais quente), mas não para altitudes. Para a análise com animais separadamente, todas as variáveis apresentaram diferenças significativas. Em plantas, altitude, bio15 (Sazonalidade de precipitação) e bio12 (Precipitação anual) apresentaram diferença significativa entre os períodos (Tabela anexa 6).

Tabela 4. Resumo das variáveis identificadas como mais importantes para cada conjunto de dados analisado

Conjunto de dados Organismos Variáveis preditoras Variável mais importante

Completo Geral Com taxonomia Ordem

Geral Sem taxonomia Latitude

Animais Com taxonomia Ordem

Animais Sem taxonomia Movimento

Plantas Com taxonomia Ordem

Plantas Sem taxonomia Gene

Reduzido Geral Com taxonomia Ordem

Geral Sem taxonomia Latitude

Animais Com taxonomia Ordem

Animais Sem taxonomia Movimento

Plantas Com taxonomia Ordem

(32)

Discussão

Nos últimos anos houve uma integração de duas posições antes antagônicas, com o reconhecimento de que tanto o final do Terciário como o Pleistoceno contribuíram de maneira equivalente para a diversificação dos grupos da região Neotropical (Rull, 2008, Turcheto-Zolet et al., 2013). No entanto, não houve avanços na compreensão dos fatores que influenciam a diversificação de alguns grupos majoritariamente em um dos períodos, questão que este trabalho visou explorar.

A utilização do método de aprendizado de máquina random forest permitiu explorar as características associadas a cada um dos períodos de diversificação. O algoritmo obteve uma alta taxa de acerto em todas as análises, indicando que a metodologia empregada é confiável na identificação de padrões nos dados, permitindo a realização de inferências sobre tais padrões.

Os resultados com o conjunto de dados reduzidos foram bastante similares aos obtidos com o conjunto de dados completos em quesito de acurácia. Na maior parte das simulações, a utilização desses dados reduzidos aumentou a taxa de acerto, em especial para a análise realizada com plantas sem a inclusão de variáveis taxonômicas (aumento de 90,65% para 96,70%), embora tenha provocado uma leve queda na acurácia para a análise realizada com plantas com a inclusão de variáveis taxonômicas (redução de 99,65% para 98,90%). Contudo, este foi o único caso em que a utilização dos dados reduzidos provocou uma piora no desempenho das análises. Assim, a discussão que segue baseia-se principalmente nos resultados utilizando o conjunto completo de dados e não difere das inferências feitas usando os dados reduzidos.

Classificação taxonômica

Destaca-se, primeiramente, a influência das variáveis de classificação taxonômica. Estas foram identificadas como as principais variáveis (pelo seu MDA) em todas as análises nas quais elas foram incluídas. Isto também se reflete na queda de acurácia da análise quando estas variáveis eram removidas, fato que ocorreu em todas as situações. A classificação taxonômica já foi recuperada como principal variável na identificação de diversidade críptica, em outros trabalhos utilizando este mesmo algoritmo (Espindola et al., 2016, Smith et al., 2018). Contudo, nestes trabalhos a quantidade de grupos taxonômicos analisados era bastante restrita quando comparada ao número que foi aqui utilizado, e não era necessariamente esperado que um padrão que ocorreu para poucas espécies de animais se repetisse para um número muito maior de organismos, abarcando, além de animais, também grupos de plantas.

(33)

Isto ressalta a importância que características que são altamente conservadas, ao menos ao nível de classe, têm na forma como ocorreu o processo de diversificação nos neotrópicos.

Dentro de vertebrados, que representam a maior parte das espécies animais analisadas, houve uma clara separação ligada à endotermia. Os grupos endotérmicos, aves e mamíferos, apresentavam na maior parte dos casos episódios de diversificação no Quaternário, em oposição a anfíbios e répteis, cuja datação em geral era bem mais antiga. Tal relação também já havia sido previamente notada (Turcheto-Zolet et al., 2013), ainda que os motivos dessa associação não sejam totalmente claros. Destaca-se que grupos que estiveram entre os primeiros a serem utilizados para suportar a hipótese dos refúgios para a Amazônia (e.g, Vanzolini & Williams, 1970) ou para a Mata Atlântica (e.g. Carnaval & Moritz, 2008), estejam entre os que apresentam consistentemente linhagens intraespecíficas mais antigas.

Ainda para animais, a forma de movimento surgiu como a principal variável preditora quando não se incluía taxonomia. A forma de locomoção é intimamente ligada a taxonomia, e.g. aves e voo e répteis e andar, portanto, isto pode apenas refletir a importância que taxonomia teve nas análises prévias. Contudo, é reconhecido que a forma de locomoção tem influência na diferenciação entre populações (Medina et al., 2018), especialmente devido à forma como afeta a capacidade de dispersão e a diferenciação genética das populações (Bohonak, 1999, Claramunt et al., 2012, Ikeda et al., 2012, Schiebelhut & Dawson, 2018). A menor vagilidade de organismos promove maior diferenciação genética, que pode estar refletida nas datações mais antigas para répteis e anfíbios que foram observadas nas análises.

Para plantas, também diversas características podem estar associadas a diferentes padrões de distribuição de diversidade genética, destacando-se o ciclo de vida com diferenças entre plantas anuais e perenes (Gaut et al., 2011), entre plantas arbustivas ou árvores (Smith & Donoghue, 2008, Petit & Hampe, 2006), que possuem diferentes tempos de geração além de forma de polinização e de dispersão, dentre outras (Loveless & Hamrick, 1984). O efeito que a inclusão dessas características teria na eficiência da análise, bem como sua importância para explicação dos padrões, ainda resta ser testada.

Os motivos que levam a taxonomia a ser tão importante para prever a época de diversificação de linhagens podem ser diversos. Dentre eles, está a taxa de evolução dos genes em cada grupo (Gillespie, 1989), a capacidade de dispersão das espécies (Bohonak, 1999), o tamanho efetivo das populações (Charlesworth, 2009) e o tempo de geração (Laird et al., 1969, Smith & Donoghue, 2008). Embora estas características variem dentro de cada grupo, espera-se que elas sejam mais similares dentro de cada grupo do que entre diferentes grupos. Tanto para animais como para plantas, a importância da classificação taxonômica sugere que

(34)

a busca de padrões gerais comparando diferentes grupos de organismos pode não ser a melhor estratégia para compreender os padrões de diversificação na região Neotropical, sendo que as idiossincrasias de cada grupo devem ser levadas em consideração. Assim, embora possa não existir explicações que sejam válidas para todos os organismos da região Neotropical, talvez existam determinados processos que atuam preferencialmente em certos clados. Para se compreender a contribuição desses processos para a diversidade total da região é necessário entender como os diferentes organismos reagiram a estes.

Distribuição geográfica

Apesar da importância da variável de taxonomia, a análise teve uma alta taxa de acerto mesmo quando não se incluía essa variável preditora. Os resultados obtidos nas análises sem esta variável permitem sugerir algumas características associadas à diversificação em um período ou em outro. Sem a inclusão de taxonomia, latitude e longitude surgem como as principais variáveis explicativas na análise geral, e como segunda e terceira nas análises separadas por plantas e animais. Apesar da alta sobreposição, existe uma pequena tendência, significativa, da ocorrência de episódios de diversificação no Quaternário em latitudes superiores, padrão que é influenciado principalmente pelos animais (Figura 5b, 6b). Latitudes mais altas foram provavelmente influenciadas mais drasticamente pelas mudanças climáticas que ocorreram no Quaternário, especialmente regiões do Chile e Argentina que podem ter sofrido um processo de glaciação intenso, que teria reduzido a distribuição dos organismos de baixas latitudes a poucos refúgios (Martinez Araneda, 2011, Breitman et al., 2012, Pfanzelt et al., 2017). Esse padrão foi especialmente intenso na região a oeste dos Andes, onde se concentra a maior parte das localidades aqui analisadas para animais (Figura 1a,c). Com isso essa região apresentaria um padrão de refúgios e diversificações recentes, decorrentes do intenso gargalo populacional que estes organismos teriam sofrido (Hewitt, 1996). À leste dos Andes, onde a maior parte dos estudos analisados foi realizado com plantas (Figura 1c), há uma predominância de episódios de diversificação no Terciário. Nessa região as geleiras não chegaram a atingir a planície da Patagônia, o que pode ter mitigado o efeito dos ciclos glaciais na diversidade genética dos organismos (Breitman et al., 2012).

Nas latitudes mais próximas ao equador parece não existir a predominância de episódios de diversificação em nenhum dos dois períodos (Figura 5b, 6b). Curiosamente, essa região, que abarca a Amazônia, foi usada tanto nos trabalhos que defenderam originalmente a Hipótese dos Refúgios (Haffer, 1969, Vanzolini & Williams, 1970) quanto pelos trabalhos mais recentes que defenderam a importância dos eventos orogênicos do Terciário (e.g, Hoorn et al., 2010). A presença de grupos que diversificaram em ambos os períodos na região

(35)

implica que essas generalizações podem não refletir a real natureza dos processos de diversificação dos neotrópicos, bem como chamam a atenção para a necessidade de trabalhos nas demais áreas que compõe a região Neotropical para que se possa compreender mais amplamente esses processos.

Os trabalhos realizados na Amazônia que indicavam a importância do Terciário podem ter sido induzidos por outro padrão aqui identificado, que as longitudes mais a oeste apresentam uma grande quantidade de diversificações que remontam ao Terciário (Figura 6a). As longitudes próximas a 80o W abrangem a região norte dos Andes, entre o Peru e a Colômbia, bem como a América Central. A região dos Andes passou por um intenso processo orogênico que seguiu até ao fim do Terciário e que teve papel muito importante nos eventos de diversificação de seus organismos (Antonelli et al., 2009, Santos et al., 2009). Novamente, este padrão geral parece ser guiado principalmente pelo padrão em animais, embora também ocorra de maneira menos pronunciada entre plantas (Figura 6a). Na América Central, o terciário foi marcado como o período em que houve o surgimento do Istmo do Panamá, que pode ter contribuído para os eventos de diversificação dos grupos dessas áreas (Bacon et al., 2015).

Tipo de marcador molecular

O tipo de marcador molecular utilizado na datação foi identificado como a característica mais importante para a análise com plantas quando não se incluía a classificação taxonômica. Levando-se em conta que a maior parte dos trabalhos na região foi realizada utilizando apenas um tipo de gene, usualmente citoplasmático (Turchetto-Zolet et al., 2013), destaca-se o cuidado com que devem ser feitas inferências acerca de processos que moldaram a diversidade em plantas, já que estas podem ser criticamente dependente do marcador escolhido e estes podem apresentar diversas limitações (Edwards & Bensch, 2009, Arthofer et al., 2010). Em relação à datação, utilizar apenas um gene pode acarretar erros grandes em relação a estimativa das datas de divergências (Mulcahy et al., 2012). A inclusão de mais genes, embora não necessariamente diminua os intervalos de confiança associados a datação, pode aumentar a acurácia dessas estimativas (Battistuzi et al., 2010, Mulcahy et al., 2012), embora esse efeito dependa criticamente da determinação correta de modelos e taxas de substituição, caso contrário a utilização de maior número de genes pode levar a inferência de datas errôneas porém com alto grau de confiança (Dos Reis & Yang, 2014, Jin & Brown, 2018). Além disso, o tempo de coalescência de um gene, parâmetro recuperado por todas as metodologias utilizadas para datação, não necessariamente reflete o tempo de separação de populações da espécie, o que decorre do fato que árvores dos genes não necessariamente

Referências

Documentos relacionados

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

 São TADs representados através de listas sequenciais.. (fixas) ou encadeadas (dinâmicas), em que a seguinte regra deve

função recursiva, mais recursos de memória são necessários para executar o programa, o que pode torná-lo lento ou. computacionalmente

 Caminho simples que contém todas as arestas do grafo (e,. consequentemente, todos os

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

De seguida, vamos adaptar a nossa demonstrac¸ ˜ao da f ´ormula de M ¨untz, partindo de outras transformadas aritm ´eticas diferentes da transformada de M ¨obius, para dedu-

Posteriormente, em Junho de 1999, ingressei no grupo Efacec, onde fui responsável pela elaboração de projetos e propostas para a construção de Estações de Tratamento

Os doentes paliativos idosos que permanecem nas instituições privadas são encaminhados pelos hospitais em que estavam ou internados pelos próprios familiares