• Nenhum resultado encontrado

3 MATERIAL E MÉTODOS

3.5 GRUPOS GENÉTICOS POR INFERÊNCIA BAYESIANA

3.5.1 Grupos genéticos ancestrais

Para a análise de subestruturação populacional e avaliar se há mistura entre os indivíduos e as subpopulações de S. adstringens, foi utilizado o programa STRUCTURE v.2.3.4 (Pritchard et al., 2000), que utiliza algoritmo de agrupamento bayesiano, no modelo com mistura e frequências alélicas correlacionadas (admixture). Os possíveis grupos genéticos (k) são obtidos a partir de uma abordagem bayesiana, tendo como única informação os genótipos dos indivíduos. Assim, cada indivíduo é alocado em um determinado grupo a partir de um teste de atribuição que tende a maximizar o EHW e, as frequências alélicas são correlacionadas, a fim de agrupar os indivíduos semelhantes geneticamente. A partir da posteriori associada ao k gerado pelo programa, obtêm-se o número de grupos mais apropriado para a análise. O melhor valor de k foi estimado pelos métodos de Evanno et al. (2005) e Puechmaille (2016).

As simulações foram conduzidas com os valores de k variando de 1 (para nenhuma estruturação genética) até 20, com burn-in de 20.000 (corridas descartadas) e 30 réplicas para cada k, sendo que cada repetição foi realizada com um milhão de permutações pelo método de Monte Carlo via cadeias de Markov (MCMC). Os arquivos clumpp, com os valores de coancestria (indifile e popfile) para cada grupo, foram obtidos meio do programa

51 Structure Selector (Li & Liu, 2018). A partir deste programa, também foi obtido o gráfico populacional com o valor de k que melhor explicaria os dados.

Além disto, os genótipos multilocos para barbatimão foram analisados usando o método espacialmente explícito de agrupamento bayesiano implementado no programa TESS v.2.3.1 (Chen et al., 2007), para determinar o número mais provável de clusters (K). O TESS implementa algoritmos de estimativa de ancestralidade para análises genético- geográficas, executando atribuição geográfica individual, além de ser adequado para buscar descontinuidades genéticas em populações contínuas e estimar proporções de mistura individuais que variam espacialmente (Chen et al., 2007). Para esta análise, além das informações dos genótipos, foram inseridas as coordenadas geográficas de cada indivíduo que, neste caso, foram obtidas aleatoriamente a partir de um limite pré-determinado para cada subpopulação. Neste programa, foram testados ambos os modelos, admitindo ou não mistura. Na análise que pressupõe mistura, foi testado o modelo CAR (Durand et al., 2009), com superfície de tendência linear. Este modelo assume que os genomas individuais surgem da mistura de, no máximo, Kmáx (potencialmente) populações parentais não observadas.

Pressupõe-se, ainda, que a fração do genoma de cada indivíduo seja espacialmente autocorrelacionada, de modo que os indivíduos vizinhos sejam mais semelhantes que os distantes (Durand et al., 2009).

Foram realizadas dez repetições para cada potencial valor de k (variação de 2 a 19), com 50.000 varreduras registradas após uma queima de 10.000 varreduras. A definição do melhor valor de k (Kmáx) foi obtida a partir do menor valor de DIC (Deviance Information

Criterion), ou critério de informação do desvio (Spiegelhalter et al., 2002). Utilizando este

critério, descartamos as execuções que visitam regiões menos interessantes da distribuição posterior.

3.5.2 Estrutura espacial e fatores climáticos

A abordagem multivariada denominada Análise de Redundância (RDA) foi utilizada para avaliar a contribuição relativa dos fatores climáticos, ligados à precipitação e temperatura, na determinação da diversidade genética de populações de S. adstringens. No processo de triagem inicial, foram utilizadas as 19 variáveis bioclimáticas (Anexo I) extraídas do banco de dados ecoClimate (Lima-Ribeiro et al., 2015; http://ecoclimate.org/),

52 correspondentes às coordenadas geográficas de cada subpopulação. Para a extração das variáveis climáticas, foi selecionada a base de dados moderna, que corresponde aos anos entre 1950 até 1999, sob o modelo CCSM (Community Climate System Model).

Inicialmente, foram calculadas as correlações entre altitude, variáveis bioclimáticas, latitude e longitude, para evitar redundância nos resultados devido à alta correlação entre algumas variáveis. A partir dessa triagem, prosseguiu-se à análise RDA utilizando, como variáveis preditoras, a altitude e três variáveis bioclimáticas com baixa correlação: BIO2 (intervalo médio diurno), BIO4 (sazonalidade de temperatura) e BIO16 (precipitação do quadrimestre mais úmido). A RDA é uma extensão da regressão múltipla para o caso multivariado e, neste estudo, foi utilizada a matriz de dados genotípicos com a matriz de variáveis bioclimáticas (variáveis explicativas), utilizando o pacote vegan (Oksanen et al., 2019), na Plataforma R v.3.6.1 (R Core Team 2020). Além disto, foi estimado o coeficiente de determinação múltipla ajustado (R2aju) e aplicada uma ANOVA

com 10.000 permutações, para testar a significância do teste.

A partir das variáveis bioclimáticas selecionadas na RDA, foi conduzida outra abordagem espacialmente explícita, para avaliar quais os efeitos dos fatores climáticos na distribuição da variabilidade genética de S. adstringens, utilizando um algoritmo bayesiano implementado no programa PoPS v.1.2 (Jay et al., 2015). No PoPS, os modelos de distribuição de ancestrais estimam simultaneamente a mistura genética variável espacialmente dos k grupos ancestrais, com base em marcadores genéticos e os efeitos de covariáveis ambientais na estrutura genética populacional. Nesta etapa, foram utilizados os dados genotípicos individuais, a altitude, as coordenadas geográficas, além das três variáveis bioclimáticas indicadas na análise anterior.

Além da simulação para o presente, o programa PoPS permite realizar modelagens preditivas para detectar como os grupos genéticos estarão distribuídos no futuro. Para isso, foram utilizadas duas previsões climáticas futuras (entre os anos de 2080 e 2100), relacionadas à emissão de gases de efeito estufa: o primeiro cenário, menos pessimista, corresponde ao aumento de temperatura de até 1,8 °C até 2100 (cenário RCP 4.5); e o segundo cenário, RCP 8.5, corresponde às previsões climáticas mais pessimistas, com o aumento do valor de radiação quatro vezes maior e aumento de temperatura de até 3,7 °C até 2100. As análises preditivas foram realizadas sem a informação de altitude, por se tratar de uma variável constante. A análise no PoPS decorreu de forma semelhante ao descrito para as corridas no TESS, com a exceção de que aqui foram inseridas as variáveis bioclimáticas

53 correspondentes à cada coordenada geográfica populacional, onde todos os indivíduos da mesma subpopulação tinham as mesmas coordenadas. Para a análise do presente, foi admitido um modelo de mistura (admixture), com 20.000 varreduras registradas após queima de 2.000 varreduras. Foram realizadas três réplicas para cada valor de k (variação de 2 a 19). A partir do menor valor de DIC, foi selecionado o melhor valor de k para, finalmente, serem conduzidas as análises de simulações dos cenários futuros. Os valores de coancestria, gerados para cada simulação, foram comparados para avaliar se houve alteração na distribuição da variabilidade genética no decorrer dos anos. Os mapas dos grupos genético- ambientais foram produzidos na plataforma R v.3.6.1 (R Core Team, 2020). Além disso, foi avaliada a extensão de turnover intraespecífico, por meio da estimativa de correlação entre os coeficientes de ancestralidades estimados, usando dados genéticos e as variáveis bioclimáticas atuais, além do previsto para os dois cenários descritos. Essa medida é relevante, pois quanto mais próxima de 1 for essa correlação, menores serão as mudanças esperadas na estrutura populacional.