Predictive habitat distribution
models in ecology – Part II
Guisan, A. ; Thuiller, W. 2005, Predicting species
distribution: offering more than simple habitat. Ecology
Letters, 8:993-1009.
Guisan, A. ; Zimmermann. 2000, Predictive habitat distribution models in ecology. Ecological Modelling, 135:147-186.
2. Preparação dos Dados
SDMs – modelos empíricos que relacionam observações de campo
a variáveis ambientais preditoras, baseados em superfícies de respostas derivadas estatística ou teoricamente.
Dados das espécies:
presença, presença-ausência, observações de abundância a partir de amostragem de campo aleatória ou estratificada, ou oportunistas – coleções
Preditores ambientais – efeitos diretos ou indiretos:
Fatores limitantes (reguladores): controlam eco-fisiologia (temp, água, solo)
Distúrbios: perturbações (naturais ou antropogênicas) no ambiente Recursos: todos componentes assimiláveis (energia, nutrientes, água) Padrões espaciais diferenciados conforme a escala, hierarquicamente:
Distribuição gradual – grande extensão e resolução grosseira– controle por reguladores climáticos Distribuição agrupada – pequena área e resolução fina – controle por distribuição agrupada de
recursos (variação micro-topográfica ou fragmentação de habitat)
SDM – fatores limitantes x escala
Informação Ambiental
Dados de campo, mapeamentos sistemáticos, sensoriamento remoto, e resultantes de modelagem em GIS
DEM- importante pela correlação com outras variáveis, maior precisão, porém pode não ser de alto poder preditivo
Gradiente topográfico pode ser usado para verificar correspondência entre atributos digitais e aqueles observados no campo
Tarefa: Selecionar conjunto apropriado de dados para parametrizar o modelo
??? Como selecionar variáveis preditoras???
As variáveis ambientais
Como selecionar?
Baseado no conhecimento do especialista do grupo
– exigências ambientais mínimas, seguindo
princípios fisiológicos.
Conhecimento do grupo
Procedimentos estatísticos para seleção de variáveis
explicativas
stepwise para LS, GLMs e CCA Jackknife, etc.
As variáveis ambientais
Comumente utilizadas – escalas regionais(!)
Climáticas
Topográficas
Solo
Para facilitar SDMs...
AMBDATA
Variáveis Ambientais para Modelagem de Distribuição de Espécies
Departamento de Processamento de Imagens – DPI/INPE Grupo de Modelagem para Estudos da Biodiversidade
Variáveis ambientais normalmente usadas para MDE
Recorte BRASIL e Amazônia Legal
Dados para download com referências/metadados
Para facilitar SDMs...
AMBDATA
Variáveis Ambientais para Modelagem de Distribuição de Espécies
Departamento de Processamento de Imagens – DPI/INPE Grupo de Modelagem para Estudos da Biodiversidade
Variáveis ambientais normalmente usadas para MDE
Recorte BRASIL e Amazônia Legal
Dados para download com referências/metadados
Formulação do Modelo estatístico:
Escolha de um algoritmo adequado para predizer um tipo de
variável-resposta e estimar os coeficientes do modelo
Escolha de uma abordagem estatística ótima para o contexto
do modelo
A maioria dos modelos estatísticos é específica para um tipo
de variável-resposta e está associada a uma distribuição de probabilidade específica.
Tem que testar se a variável (distr empírica) se comporta
conforme a distribuição estatística
Regressões Generalizadas
Relacionam uma variável-resposta a uma única (simples) ou
uma combinação (múltipla) de variáveis ambientais (preditoras)
Preditoras – as var ambientais ou componentes ortogonais
derivados (evitar multicolinearidade) de análise multivariada (PCs).
Regressão clássica (RL) – válida qdo variável resposta tem distr
normal e variância não muda com a média (homocedasticidade)
Regressões Generalizadas
GLMs – modelos de regressão mais flexíveis – var.resposta com
outras distribuições e funções de variância não-constantes.
Combinação de preditores está relacionadada var.resposta através
de uma função link, que possibilita:
Transformar para linearidade
Manter as predições (var.resposta) dentro de um intervalo de valores coerentes Lida com distribuições Gaussiana, Poisson, Binomial ou Gamma com as funções
identidade, logaritmica, logistica e inversa
Se a resposta não tem uma relação linear com o preditor, pode-se
incluir um termo transformador para o preditor
Quando o modelo inclui termos de ordem maiores, é chamada de regressão
polinomial
Regressão polinomial de segunda ordem – simula resposta unimodal simétrica De terceira ordem - simula respostas bimodais e com desvios, ou ambos Outras funções de transformação...
Regressões Generalizadas
GAMs - Regressão Alternativa – baseadas em funções
não-paramétricas de suavização do preditor
Médias-móveis, regressão ponderada pela localidade ou
funções de densidade ponderadas localmente
Modelo aditivo generalizado – suaviza independentemente
cada preditor e aditivamente calcula a var. resposta
Smoothers Multidimensional - possíveis
Modelos de regressão podem incorporar processos ecológicos – dispersão ou
conectividade
Técnicas de Classificação
Árvores de classificação (qualitativa) e regressão (quantitativa),
classificação baseada em regras, e class. Máxima Verossimilhança.
Técnicas que associam uma classe da variável resposta (binomial
ou multinomial) para cada combinação de preditores ambientais (nominais ou contínuos).
Ajuste do Modelo
Construídos a partir da inter-relação de
regras simples deduzidas do conhecimento prévio sobre o
fenômeno a ser modelado – literatura, laboratório, etc.
Envelopes ambientais -
comparam a atual distribuição de uma espécie com uma quantidade de variáveis climáticas, produzindo um envelope(hipercubo) que descreve a atuação das variáveis climáticas na variação de uma espécie ƒ
Os parâmetros do envelope climático podem ser usados para para estimar
mudanças potenciais na distribuição, subordinadas aos vários cenários de mudanças climáticas
Envelopes ambientais
BIOCLIM – cálculo de envelope mínimo retangular num espaço climático multi-dimensional
HABITAT – espaço mais restrito com envelopes convexo (convex hull).
Resultados similares, classificação difere – árvore de decisão dicotômica ou com
muitos nós terminais
Ajuste do Modelo
DOMAIN – baseado em métrica de similaridade
ponto a ponto (medidas de distância
multivariadas). Mais adequado quando dados disponíveis são limitados
Environmental Distance (OM)
- métricas de dissimilaridade ambiental. Gower e Distância Máxima == DOMAIN
Técnicas de Ordenação – spp ou comunidades
Maioria baseia-se em Análise de Correspondência Canônica
Análise direta de gradiente onde os eixos de ordenação principais são
combinações lineares dos descritores ambientais
Baseia-se na média recíproca dos scores dos locais e das espécies Assume distr gaussina das spp, com limiar inf e sup de ocorrência e
um ótimo ao longo do gradiente.
Apropriado para conjunto de dados com muitas ausências. Método
robusto.
Ajuste do Modelo
Análise de Redundância
menos usada para simular distr de comunidades ou taxa ambientalmente dependente
Limita-se a gradientes ambientais curtos (truncados)
Abordagem Bayesiana
Combina uma probabilidade a priori de observar a sp ou comunidade
com suas probabilidades condicionadas ao valor de cada preditor
ambiental
.
Ajuste do Modelo
Probabilidade condicional pode ser freq relativa
da ocorrência de uma sp dentro de uma classe discreta de um preditor nominal.
A P a priori pode ser baseada na literatura
No mapeamento da vegetação a P a posteriori é
calculada para cada unidade de vegetação,
e a unidade com maior probabilidade é prevista para
Redes Neurais
Recurso promissor – muitas referências para (ANN), poucas
para predizer distr espacial de spp ou comunidades usando descritores biofísicos
Mais poderoso que regressão múltipla para modelar relações
não-lineares
Problema – classificação processo não-paramétrico (“black art”)
Outras abordagens
Modelos em SIG – sobreposição de variáveis ambientais,
medidas de variação, similaridade e regras para combinar probabilidades
Análise de função discriminante
Outras abordagens
ENFA – Ecological Niche-factor analysis – implementado no
Biomapper, difere de CCA ou RDA por considerar uma sp a cada vez. Somente dados de presença (animais).
Índice de marginalidade e tolerância situa o envelope ambiental
da sp dentro de um envelope ambiental multidimensional
definido pelo mapeamento de todas as unidades de estudo da área
MONOMAX – conjunto de algoritmos ajusta uma função
monotônica de máxima verossimilhança através de processo iterativo
Problema: probabilidade da var. resposta é obtida de no máx 2
preditores por vez
Vantagem: nenhum pressuposto sobre a distr do dado, resíduo ou
variância é necessário -> bom para análise exploratória
GARP
3 11 10 13 4 10 6 7 Fitness 11000000000000000001 10111010111000100101 10101000101001110110 11001110101011101101 00001000101000000100 11001010101010100101 00011000101010000010 11001000101000100100 População inicial 8 7 6 5 4 3 2 1 Ind. 3 11 10 13 4 10 6 7 Fitness 11000000000000000001 10111010111000100101 10101000101001110110 11001110101011101101 00001000101000000100 11001010101010100101 00011000101010000010 11001000101000100100 População inicial 8 7 6 5 4 3 2 1 Ind. 11001010101010100101 11001110101011101101 10101000101001110110 11001110101011101101 11001000101000100100 10111010111000100101 10101000101001110110 11001010101010100101 Cromossomos pais 3 5 6 5 1 7 6 3 Indivíduo 11001010101010100101 11001110101011101101 10101000101011101101 11001110101001110110 11001010111000100101 10111000101000100100 10101000101001100101 11001010101010110110 Cromossomos filhos 27 81 37 50 Sorteio 11001010101010100101 11001110101011101101 10101000101001110110 11001110101011101101 11001000101000100100 10111010111000100101 10101000101001110110 11001010101010100101 Cromossomos pais 3 5 6 5 1 7 6 3 Indivíduo 11001010101010100101 11001110101011101101 10101000101011101101 11001110101001110110 11001010111000100101 10111000101000100100 10101000101001100101 11001010101010110110 Cromossomos filhos 27 81 37 50 Sorteio 11001010101010100101 11001110101011101101 10101000101011101101 11001110101001110110 11001010111000100101 10111000101000100100 10101000101001100101 11001010101010110110 Cromossomos filhos 11001110101010100101 11001110101011101101 10101000101011101111 11001110101001110110 11001100101000100100 11111010111000100101 10101000101001110110 11101010101010000101 Cromossomos (mutação) 8 7 6 5 4 3 2 1 Indivíduo 11001010101010100101 11001110101011101101 10101000101011101101 11001110101001110110 11001010111000100101 10111000101000100100 10101000101001100101 11001010101010110110 Cromossomos filhos 11001110101010100101 11001110101011101101 10101000101011101111 11001110101001110110 11001100101000100100 11111010111000100101 10101000101001110110 11101010101010000101 Cromossomos (mutação) 8 7 6 5 4 3 2 1 Indivíduo 3 11 10 13 4 10 6 7 Fitness 11000000000000000001 10111010111000100101 10101000101001110110 11001110101011101101 00001000101000000100 11001010101010100101 00011000101010000010 11001000101000100100 População inicial 11001110101010100101 11001110101011101101 10101000101011101111 11001110101001110110 11001100101000100100 11111010111000100101 10101000101001110110 11101010101010000101 População 1ageração 8 7 6 5 4 3 2 1 Ind. 11 13 12 12 8 12 10 10 Fitness 3 11 10 13 4 10 6 7 Fitness 11000000000000000001 10111010111000100101 10101000101001110110 11001110101011101101 00001000101000000100 11001010101010100101 00011000101010000010 11001000101000100100 População inicial 11001110101010100101 11001110101011101101 10101000101011101111 11001110101001110110 11001100101000100100 11111010111000100101 10101000101001110110 11101010101010000101 População 1ageração 8 7 6 5 4 3 2 1 Ind. 11 13 12 12 8 12 10 10 FitnessSource: Santa Catarina, 2006
GARP - Genetic Algorithm for Rule-set Production
Um AG para predição da distribuição potencial de espécies biológicas
a partir de dados raster ambientais e biológicos;
Trabalha de forma automática e não-supervisionada;
Robusto: testa diversas soluções e diversos modelos (regras); Maximiza a significância e a precisão de predição das regras.
Maxent
Distribuição de probabilidade potencial para toda área
(soma dos pixels =1)
Distr Prob ?
Maxent
Dado (não tem significado) = 25 - pode ser armazenado no
computador
Informação (tem significado associado) temperatura = 25
(informação pode ser representada pelos dados)
Media da temperatura maxima de fevereiro = 25 二月份的平均最高氣溫 = 25
(esta representação não nos traz informação)
Conhecimento se nao souber o que é média, a informação nao faz sentido! (depende da experiência de cada um)
Entropia é uma medida de desordem ou previsibilidade de um sistema. É uma medida de incerteza de um acontecimento.
Observacoes inesperadas tem mais informação que observações esperadas
Maxent
É uma Medida da incerteza de informação
do acontecimento de um evento;
Mas se eu não tenho nenhuma ideia inicial, e um evento ocorre, a
entropia é maior porque me traz mais informação !
Está relacionada à probabilidade de ocorrência de um evento: Quanto
maior a probabilidade de ocorrer um evento, menor a entropia.
Se P for alta, nao vai ter info associada. Vai ser uma surpresa! Vai trazer
informação!
Entropia máxima: P uniforme (dado não viciado), Se o dado for viciado, a
entropia vai ser menor, pq a P será maior.
Incerteza → surpresa → informação (entropia no acontecimento de um
evento, ou incerteza)
Maxent
Princípio da Entropia Máxima: Tendo-se varias distribuições de
probabilidade possíveis deve-se escolher a distribuição de
probabilidade cuja a entropia é máxima (mais dispersa ou próxima da uniforme) de acordo com algumas restrições.
Entropia: quantidade de incerteza na ocorrência de algum evento.
Associado a quantidade de informação transmitida no evento (“métrica”)
Tendo-se várias distribuições de
probabilidade possíveis para aquele
conjunto de pontos e camadas, deve-se selecionar aquela distribuição que
transmita o maior quantidade de informação possível => Entropia Máxima
Distr Prob ?
Maxent
Restrições => representam as evidências, ou seja, fatos
conhecidos sobre o conjunto de dados de entrada, neste caso
são as camadas ambientais.(
features
)X => região geográfica de interesse
x1, x2,...,xn => ptos observados/registrados
f1, f2,...,fn => features (valor da camada ou uma função do valor de entrada )
Tarefa: Tendo conjunto de pontos e de camadas, tem-se que encontrar a distribuição de probabilidade para este conjunto de dados:
Restrições:
Features , evidências
(critério sobre os valores das camadas) Soma das prob = 1.
xn x1 x2 x3 x4 n distribuições de probabilidade possíveis Elisangela S. C. Rodrigues, 2010
Maxent
Existem várias distribuições de probabilidade que satisfazem todas as restrições.
Quando isso acontece, o modelo é considerado consistente e dentre estes, tem-se que escolher aquele q tem a entropia máxima (p *)
Encontrar os pesos para cd uma das features de forma q o resultado seja de Max
entropia x1 x2 x3 x4 xn
O modelo expressa a adequação de cada célula da grade como uma função das variáveis ambientais daquela célula. Um valor alto desta função numa célula indica que ali existem condições favoráveis para a espécie. Predição de condições favoráveis
Do modelo, faz-se a projeção para a área,
usando as variáveis ambientais
http://www.cs.princeton.edu/~schapire/maxen t/
Ferramentas para modelagem
R - modelos estatísticos (RL, GLM, GAM,…)
http://www.r-project.org/
openModeller (Bioclim, climate space model, envelope score,
environmental distance (várias métricas), GARP, SVM, maxent)
http://openmodeller.sourceforge.net/
DesktopGarp
http://www.nhm.ku.edu/desktopgarp/
Maxent
http://www.cs.princeton.edu/~schapire/maxent/
BioClim & Domain
http://www.diva-gis.org/
Biomapper
http://www2.unil.ch/biomapper/
Spatial Analysis in Macroecology
4. Calibração do Modelo
Ajuste do modelo matemático que foi selecionado para um
conjunto de dados específico
Melhorar a concordância entre a saída do modelo e o conj dados Seleção de variável explicativa – quais usar, estimar seus coeficientes
Seleção de preditores:
Arbitrária (não recomendada)
Automática – stepwise para LS, GLMs e CCA
Seguindo princípios fisiológicos ou seguindo regras de “shrinkage” (encolhimento)
N preditores < m/10 (m= total de observações ou, para resposta
binárias, observações para a categoria de menor representatividade)
Calibração do Modelo
Preditores – considerar também as transformações (termos
polinomiais, função beta, eixos ordenados – difícil de explicar por não ter valor biológico associado)
Melhor selecionar os gradientes diretos e de recursos para calibrar
o modelo, para otimizar significado ecológico e interpretabilidade
Transformação de variáveis – curvas resposta da sp aos gradientes
ambientais. Tendo uma forma – modelo estatístico deverá reproduzir e formalizar esta forma.
Estimativa de parâmetros – disponível na maioria dos softs (SAS,
S-Plus, SPSS, SYSTAT, etc)
Ajuste => medida da redução da variância (ou do desvio no caso da estimativa por Máx. Ver.)
Calibração do Modelo
GLMs – redução do desvio D2 (equivalente ao R2 do LS)
D2= (desvio nulo – desvio residual)/ Desvio nulo
desvio nulo= desvio do modelo em relação ao intercepto
desvio residual = desvio inexplicado após a inclusão de todas vars
Modelo perfeito não tem desvio residual e D2= 1 D2 ajustado (equivalente ao R2 ajustado)
D2adj= 1 – [(n-1)/(n-p)] x [1 - D2]
(n de observações, p de parâmetros)
D2 ajustado permite comparar modelos com diferentes
combinações de variáveis.
Deve ser testado para um nível de significância, de acordo com
o método escolhido para estimar os coeficientes. Para GLMs – usa-se
X
2 para testar a diferença das variâncias e testet
paraCalibração do Modelo
Métodos de classificação por árvores de decisão
Modelo tenta prever o dado exatamente, e assim não precisa ajuste, pode
fazer a avaliação do modelo após a calibração
Árvores de regressão e classificação – número de nós quase igual ao de obs. Modelo não é tem redução de complexidade. Pode ser feita redução de
terminais, combinada com validação cruzada.
Replicações seriam aconselhadas para evitar a aleatoriedade dos resultados
Envelopes ambientais
Ao invés de usar o mesmo conj de var ambientais para todas as spp
(BIOCLIM), selecionar um sub-conjunto para usar no algoritmo CART
Este sub-conj define o envelope multidimensional que melhor engloba a ocorrência das spp O modelo de HABITAT divide o envelope global em sub-envelopes de tamanhos variados
A proporção de ocorrência da sp / total observações em cada sub-envelope dá uma medida do grau de pertinência de cada novo site para cada sub-envelope da sp.
Para o DOMAIN – há uma estimativa do grau de confiança para a
Calibração do Modelo
Métodos de ordenação – ou análise de gradiente ou ordenação direta
Como CCA – semelhante à calibração da regressão linear critério de ajuste é minimizar a razão:
Média da soma dos quad. da var entre spp / var da soma dos quad. total Variáveis selecionadas passo-a-passo
Após a ordenação – cada eixo pode ser testado para significância através
de permutações de Monte-Carlo.
(e segue...)
Modelo Bayesiano
Equivale a calcular a probabilidade condicional de estado multivariado de
cada entidade considerada, dando os valores dos preditores ambientais
Significância de cada variável é medida por análise de frequência X2 -
Calibração do Modelo
Funções discriminantes – ou análise de gradiente ou ordenação
direta
Calibradas usando estatística Wilk´s
de ajuste – medidaequivalente ao R2 para a regressão
Durante a calibração do modelo a influência individual de cada
observação pode ser avaliada graficamente
LS e GLMs – outliers, análise dos resíduos
Método Jack-knife – deixando sempre uma observação de fora a
cada vez e observando o resultado do ajuste do modelo => valores de influência empírica
para cada observação.5.Predições dos modelos
Uma vez calibrado o modelo, pode-se predizer a
distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat
potencial => mapas de distr de habitat potencial, ou representação cartográfica de:
Probabilidade de ocorrência ( GLMs
Predições dos modelos
Uma vez calibrado o modelo, pode-se predizer a
distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat
potencial => mapas de distr de habitat potencial, ou representação cartográfica de:
Probabilidade de ocorrência ( GLMs
logísticos)
Distribuição de abundância mais
Predições dos modelos
Uma vez calibrado o modelo, pode-se predizer a
distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat
potencial => mapas de distr de habitat potencial, ou representação cartográfica de:
Probabilidade de ocorrência ( GLMs
logísticos)
Abundância mais provável (GLM
ordinal)
Ocorrência predita – métricas não
probabilísticas (CCA) – Distribuição potencial
Predições dos modelos
Uma vez calibrado o modelo, pode-se predizer a
distribuição potencial da sp (ou comunidade)
Equivale a modelar seu habitat
potencial => mapas de distr de habitat potencial, ou representação cartográfica de:
Probabilidade de ocorrência ( GLMs
logísticos)
Abundância mais provável (GLM
ordinal)
Ocorrência prevista – métricas não
probabilísticas (CCA)
Entidade mais provável (das análises
Predições dos modelos
Dificuldades de fazer modelagem diretamente
em ambientes GIS
Ausência dos procedimentos estatísticos para a modelagem e
calibração
Algumas opções são mais facilmente implementáveis (GLMs)
As classificações baseadas em regras são as mais facilmente
realizadas - de sobreposição de mapas com regras condicionais
Alguns algoritmos de envelopes climáticos foram
implementados com funcionalidades para visualização dos mapas
Maioria são implementados através de macros
6. Avaliação dos modelos
Validação – medir a adequação entre o modelo predito e as
observações de campo (~accuracy para RS)
Mas Validação = análise lógica dos modelos, o que chamou de formulação do modelo teórico.
Propõe termo avaliação – não avalia se é V ou F, mas testa hipóteses e predição de padrões biológicos
Avaliação – medida de adequação, depende do objetivo do projeto
6. Avaliação dos modelos
Duas abordagens gerais:
Usar um conj de dados para calibrar o modelo e depois avaliá-lo por validação
cruzada (CV)
Técnicas de bootstrap - dois data set independentes, um para calibrar e outro
para avaliar
Primeiro passo - bootstrap e CV avaliam a estabilidade do modelo
Segundo passo – se tiver dados independentes – a qualidade das predições do
Avaliação dos modelos
Jack-knife, validação cruzada e Bootstrap
Jack Knife
- Swiss penknife
fácil de carregar (1958) –abordagem genérica para testar hipóteses e calcular intervalos de confiança
Computado deixando de fora uma observação por vez
Cross-validation – verificar a replicabilidade dos resultados.
Hipótese - se o resultado é replicável ou simplesmente aleatório.
Conhecido por usar parte das observações para ajustar o modelo e parte para
testar o erro
Simples – computa para conj treinamento e computa o erro de predição com o
de teste
Dupla – modelos para os dois conjuntos e ambas equações usadas para gerar a
CV
Avaliação dos modelos
Jack-knife, validação cruzada e Bootstrap
Um conjunto de dados único para calibrar e avaliar
Poucos dados (melhor usar JK ou bootstrap), ou quer usar
todas as obs para calibrar – neste caso não pode avaliar o modelo fora do intervalo de calibração.
Bootstrap – aborda o desvio da estimativa realizando
re-amostragens múltiplas com reposição, dentro do conj dados de calibração. Remove os desvios para obter uma estimativa
unbiased
. Bias – diferença entre a estimativa do parâmetro e o valor real da
população.
Se a diferença entre o valor obtido e o corrigido para desvios é
Avaliação dos modelos
Avaliação por conjunto de dados independente
Dois conjuntos de dados independentes - calibrar e avaliar
Abordagem split-sample – um grande conjunto de dados é dividido para cada etapa
Inapropriado para pequenos conj de dados
Atraente quando se tem muitos dados – CV ou bootstrap
Se há dois conjuntos originais (amostragem e observacional) – não misturar em uma mesma análise estatística: calibração e avaliação
Interfere no desenho amostral, impedindo o ajuste adequado do modelo 1. Avaliar a predição com a mesma métrica de ajuste usada na calibração –
medir ajuste entre predito e do conj dados de avaliação. (LS – calcular R2
para valores preditos e valores de campo)
2. Usar qualquer medida discreta de associação entre o predito e o
Métodos de avaliação
Método de avaliação
mais comum é a matriz
de confusão
Erro de comissão não são
considerados erros do modelo
Erros de omissão são graves
+
-+
a
b
-
c
d
Predito
Real
Erros de omissão Erros de omissão Erros de comissão Erros de comissão Iwashita, 2007 - INPE Área mínima prevista -
prever áreas com potencial de ocorrência as menores
Métodos de avaliação
Receiver operator characteristic (ROC-plot), gráfico de
sensibilidade versus especificidade
Iwashita, 2007 - INPE
Sensibilidade é a probabilidade de um pixel x ser corretamente
classificado como ocorrência
Especificidade é a probabilidade de um pixel ser corretamente
classificado como ausência
Quanto mais próximo de 1 for a área sob a curva AUC, melhor o desempenho do modelo
Métodos de avaliação
Receiver operator characteristic (ROC-plot), gráfico de
sensibilidade versus especificidade
Sensibilidade é a probabilidade de um pixel x ser corretamente
classificado como ocorrência
Especificidade é a probabilidade de um pixel ser corretamente
classificado como ausência
Quanto mais próximo de 1 for a área sob a curva AUC, melhor o desempenho do modelo
Obrigada!
(consultem e participem de nossas Referatas! www.dpi.inpe.br/referata)
“
All models are wrong
but some are useful!”
Referências
Guisan, A. ; Thuiller, W. 2005, Predicting species distribution:
offering more than simple habitat. Ecology Letters, 8:993-1009.
Guisan, A. ; Zimmermann. 2000, Predictive habitat distribution
models in ecology. Ecological Modelling, 135:147-186. Ambdata (http://www.dpi.inpe.br/Ambdata/index.php)
Referatas (http://www.dpi.inpe.br/referata/)
IWASHITA, F. Sensibilidade de modelos de distribuição de espécies a erros de
posicionamento de dados de coleta. 2007. 103 p. (INPE-15174-TDI/1291).
Dissertação (Mestrado em Sensoriamento Remoto) - Instituto Nacional de Pesquisas Espaciais, São José dos Campos, 2007. Disponível
em: <http://urlib.net/sid.inpe.br/mtc-m17@80/2007/06.13.12.04>. Acesso em: 06 abr. 2011.
Modelagem da Distribuição Potencial das Palmeiras
na Amazônia: Cenários Atuais e Futuros
Luciana S. Arasato Silvana Amaral
Reunião do Projeto Cenários – INPA/Manaus 29 e 30 de outubro de 2012
Cenários para a Amazônia:
Clima, Biodiversidade e Uso da Terra
Meta 4. Modelagem Climática Regionalizada para Amazônia
Meta 4 - Modelagem Climática Regionalizada para
Amazônia
Atividade 1: Aprimorar a modelagem de
relações bioma-clima
Atividade 2: Elaboração de Cenários Climáticos Futuros Regionalizados
(Pedro Dias)
CENÁRIOS PARA A AMAZÔNIA: USO DA TERRA, BIODIVERSIDADE E CLIMA
“Integrar ações e competências de três dos grandes programas de pesquisas do Ministério da Ciência e Tecnologia para a Amazônia e, assim, formar cenários mais completos que permitam ampliar o embasamento técnico-científico
e o apoio à tomada de decisões em níveis estaduais e regionais na Amazônia incrementar e aprimorar as ações de disseminação dos conhecimentos gerados e de formação de recursos humanos qualificados nas áreas de atuação
MODELAGEM DA DISTRIBUIÇÃO POTENCIAL DAS
PALMEIRAS NA AMAZÔNIA:
1) Selecionar o melhor conjunto de variáveis ambientais para descrever a distribuição das palmeiras na Amazônia, a partir dos MDEs, no cenário de clima atual;
2) Discutir a influência da mudança do clima na distribuição das palmeiras.
Objetivos específicos
- Definir critérios para a escolha do conjunto de variáveis ambientais mínimas para a geração dos MDEs;
- Gerar mapas de distribuição de ocorrência da espécie, baseado nos MDEs gerados;
- Gerar um mapa que indique a riqueza (número de espécies) das palmeiras, considerando as espécies estudadas;
- Realizar exercícios de modelagem de distribuição futura das palmeiras, com base nos MDEs de clima atual.
Modelagem de distribuição potencial de espécies
Arasato (2011) Pontos de ocorrência ou presença/ausência Posição geográfica Variáveis descritoras temperatura precipitação topografia MODELO de DISTRIBUIÇÃO de ESPÉCIES A L GO RIT M O Distribuição PreditivaÁrea de estudo
Região da
Amazônia Legal Brasileira
Modelagem de distribuição potencial na Amazônia
Dados de presença de palmeiras Variáveis ambientais atuais 1ª etapa Cenário de Clima atualModelagem de distribuição potencial na Amazônia
MDEs cenário atualMaxent
1ª etapa Cenário de Clima atualDados de ocorrência
espécies com ocorrência somente na Amazônia Legal do Brasil
com mínimo de 10 ocorrências
INSTITUTO DE BOTÂNICA Jardim Botânico de São Paulo
Total: 2637 registros
Espécies modeladas
Espécie número de ocorrências
Mauritiella aculeata (Kunth) Burret 11 Mauritiella armata (Mart.) Burret 17 Attalea maripa (Aubl.) Mart. 10 Astrocaryum vulgare Mart. 10 Bactris concinna Mart. 10 Bactris elegans Barb.Rodr. 10
Bactris maraja Mart. 40
Bactris oligocarpa Barb.Rodr. 11 Barcella odora (Trail) Drude* 10 Socratea exorrhiza (Mart.) H. Wendl. 23 Chamaedorea pauciflora Mart. 18 Chamaedorea pinnatifrons (Jacq.) Oerst. 12 Euterpe oleracea Mart. 15 Euterpe precatoria Mart. 16 Geonoma brongniartii Mart. 16
Geonoma camana Trail 12
Geonoma deversa (Poit.) Kunth 45 Geonoma leptospadix Trail 15 Geonoma macrostachys Mart. 46 Geonoma maxima (Poit.) Kunth 32 Geonoma stricta (Poit.) Kunth 76
21
Variáveis ambientais
Variáveis climáticas (67 variáveis):
• Bioclimáticas
• Precipitação
• Temperaturas: mínimas, médias e máximas
http://www.worldclim.org/
Variáveis ambientais
Topografia: • altitude • declividade
• orientação de vertente
• distância vertical a drenagem mais próxima - HAND
Seleção das variáveis ambientais
MDEs – cenário atual
1) Geração de MDEs das palmeiras considerando
todas as variáveis ambientais (71 variáveis)
COM TODAS
AS VARIÁVEIS
Seleção das variáveis ambientais
MDEs – cenário atual
•
Os critérios considerados para seleção das variáveis
foram:
1) Variáveis apresentaram algum valor no teste de importância de permutação;
2) Variáveis apresentaram valores maiores que 1% na porcentagem de contribuição;
3) Entre as variáveis correlacionadas, escolheu-se a que apresentou maior importância no valor de permutação;
Variáveis ambientais – cenário atual
Variáveis ambientais al ti tu de de cl iv id ad e ex po si cao han d1 00 bi o0 2 bi o0 3 bi o0 4 bi o0 5 bi o0 7 bi o1 1 bi o1 2 bi o1 3 bi o1 4 bi o1 5 bi o1 6 bi o1 7 bi o1 8 bi o1 9 pr ec 01 pr ec 02 pr ec 03 pr ec 04 pr ec 05 pr ec 06 pr ec 07 pr ec 08 pr ec 09 pr ec 10 pr ec 11 pr ec 12 tm ax 01 tm ax 02 tm ax 03 tm ax 04 tm ax 05 tm ax 06 tm ax 07 tm ax 09 tm ax 10 tm ax 11 tm ax 12 tm ean 02 tm ean 05 tm ean 08 tm ean 09 tm ea n1 0 tm in 01 tm in 02 tm in 03 tm in 04 tm in 05 tm in 09 tm in 11 tm in 12 Es p éci es (I D ) 1 x x x x x x x x x x x 2 x x x x x x x x x 3 x x x x x x x x x x x x 4 x x x x x x x x x x 5 x x x x x x x x x x x x 6 x x x x x x x x x x x x 7 x x x x x x x x x x x x x x x 8 x x x x x x x x x x x x 9 x x x x x x x x x 10 x x x x x x x x x x x x x 11 x x x x x x x x x x x x x x x 12 x x x x x x x x x x x x x x x x 13 x x x x x x x x x x 14 x x x x x x x x x x x x x x x 15 x x x x x x x x x x x x x x 16 x x x x x x x x x x x x 17 x x x x x x x x x x x x x x 18 x x x x x x x x x x x x x x 19 x x x x x x x x x x x x x x x x x 20 x x x x x x x x x x x x x x x x x 21 x x x x x x x x x x x x x x x xCada espécie tem seu conjunto de variáveis ambientais
MDE
Mauritiella aculeata
Total: 21 MDEs
MDE
Mauritiella aculeata Total: 21 MDEsMDEs descrevem a
distribuição real
das espécies?
Henderson et al. (1995)Mapa de ocorrência
método LPT (Lowest presence threshold)
(PEARSON et al., 2007)
limiar = o menor valor de probabilidade entre os pontos de presença
MDE
Barcella odora (Trail) Drude
Mapa binário
Limiares de presença de espécie
Espécie Limiar de presença da
espécie
Mauritiella aculeata (Kunth) Burret 0,431 Mauritiella armata (Mart.) Burret 0,196 Attalea maripa (Aubl.) Mart. 0,184 Astrocaryum vulgare Mart. 0,208 Bactris concinna Mart. 0,453 Bactris elegans Barb.Rodr. 0,298 Bactris maraja Mart. 0,167 Bactris oligocarpa Barb.Rodr. 0,524 Barcella odora (Trail) Drude 0,367 Socratea exorrhiza (Mart.) H. Wendl. 0,208 Chamaedorea pauciflora Mart. 0,234 Chamaedorea pinnatifrons (Jacq.) Oerst. 0,218 Euterpe oleracea Mart. 0,594 Euterpe precatoria Mart. 0,165 Geonoma brongniartii Mart. 0,259 Geonoma camana Trail 0,475 Geonoma deversa (Poit.) Kunth 0,117 Geonoma leptospadix Trail 0,104 Geonoma macrostachys Mart. 0,096 Geonoma maxima (Poit.) Kunth 0,106 Geonoma stricta (Poit.) Kunth 0,001
Sobreposição de mapas
Mapa binário de ocorrência da espécie, baseado no MDE. Mapa de ocorrência da espécie de Hendersonet al.
(1995)Sobreposição de mapas
Comparação dos mapas
21 espécies
modeladas
Adequado; Razoável; ou Inadequado.Comparação dos mapas
Comparação dos mapas
Melhorar um pouco - RAZOÁVEL
ausência presença
Comparação dos mapas
17 espécies
Avaliação dos MDEs
21 espécies
modeladas
2 espécies – RAZOÁVEL
Geonoma stricta (Poit.) Kunth
Mauritiella armata (Mart.) Burret
2 espécies – INADEQUADO
Mauritiella aculeata (Kunth) Burret
Bactris oligocarpa Barb.Rodr.
17 espécies – ADEQUADO
Astrocaryum vulgare Mart., Attalea maripa (Aubl.) Mart., Bactris concinna Mart.,
Bactris elegans Barb.Rodr., Bactris maraja Mart.,
Barcella odora (Trail) Drude, Chamaedorea pauciflora Mart.,
Chamaedorea pinnatifrons (Jacq.) Oerst., Euterpe oleracea Mart.,
Euterpe precatoria Mart., Geonoma brongniartii Mart., Geonoma camana Trail,
Geonoma deversa (Poit.) Kunth, Geonoma leptospadix Trail,
Geonoma macrostachys Mart., Geonoma maxima (Poit.) Kunth e Socratea exorrhiza (Mart.) H. Wendl.
Soma dos mapas de ocorrência
Indicação de riqueza de nicho ecológico das palmeiras
Mapas binários de ocorrência das palmeiras
Mapa da riqueza de palmeiras
Soma dos mapas de ocorrência
Indicação de riqueza de nicho ecológico das palmeiras Mapa da riqueza de palmeiras Mapas binários de ocorrência das palmeirasModelagem de distribuição potencial na Amazônia
MDEs cenário atualMaxent
1ª etapa Cenário de Clima atualModelagem de distribuição potencial na Amazônia
MDEs cenário atualMaxent
2ª etapa Cenário de Clima futuro Variáveis ambientais futuros?
? ?
MDEs cenário futuroE se o clima muda??
Simulação com as condições climáticas provenientes de
cenários de mudanças futuro.
?
Contribuir para o entendimento das influências
das mudanças do clima na região em relação os
limites do nicho ecológico para a sobrevivência
das palmeiras.
Exercício de Modelagem - Predição
Espécies com MDE e mapas validados pela
literatura:
Barcella odora
e
Chamaedorea pauciflora
Variáveis adequadas para o presente
Projeção futura
Clima Futuro –WordClim Variáveis
• Método Delta;
• cenário SRES A2A
• HadCM3
• América do Sul
• período de 2050.
B. odora: bio15, bio4, bio7,
declividade, prec1, prec5, tmax4, tmax7, tmean2
C. pauciflora: bio15, bio16, bio18, bio19, bio4, declividade,
exposição, hand50, prec11, prec2, prec7, tmax1, tmax5, tmin9.
Exercício de Modelagem - Predição
Maxent
Validação Cruzada: 10
(B. odora)
e 15 (
C.
pauciflora) runs
América do Sul – AMBDATA (30 arcsec)
Variáveis topográficas mesmas do presente
Clima Futuro –WordClim Variáveis
• Método Delta;
• cenário SRES A2A;
• HadCM3;
• América do Sul
• período de 2050.
B. odora: bio15, bio4, bio7,
declividade, prec1, prec5, tmax4, tmax7, tmean2
C. pauciflora: bio15, bio16, bio18, bio19, bio4, declividade,
exposição, hand50, prec11, prec2, prec7, tmax1, tmax5, tmin9.
http://www.ccafs-climate.org/data/
Modelagem – Barcella odora
Resultados:
Modelagem – Predição – B. odora
Resultados:
avg max median min stddev
Modelagem – Predição – B. odora
Resultados:
avg max median min stddev
B.odora
:- Preferência por solos mais úmidos (mal drenados); -Tipicamente presente ao norte do rio Amazonas;
- Relacionada às regiões de baixa altitude umidade do solo e temperatura;
- Cenário predito de mudanças climáticas favorável pelo exercício de simulação por MDE teria seu nicho ecológico potencial aumentado!!!
Modelagem
Chamaedorea pauciflora
Resultados:
Modelagem – Predição – C. pauciflora
avg max median min stddev
Modelagem – Predição – C. pauciflora
avg max median min stddev
treino AUC teste
C. pauciflora
:- Exclusiva de terras baixas da Bacia Amazônica, em florestas de várzea da Colômbia, Equador, Peru e Brasil;
- Oeste da Amazônia BR - restrita ao Acre);
- simulação indica que ficará restrita às areas dos Andes e no sul do BR (condições semelhantes) improvável !
- Cenário predito de mudanças climáticas desfavorável pelo exercício de simulação por MDE teria seu nicho ecológico potencial muito reduzido na Amazônia !!!
Comentários Finais
- Banco de dados de ocorrência com localização e identificação revisados;
- identificar um conjunto de variáveis ambientais específico para a modelagem de nicho ecológico de cada espécie de palmeira
estudada;
- Resultados compatíveis com as áreas de ocorrência descrita por Henderson et al. (1995)
- Critérios para banco de dados, seleção de variáveis, e validação dos resultados são críticos para construção de distribuição atual
Considerações finais
Factível, útil PORÉM dependente
de conhecimento das variáveis
condicionantes de distribuição atual (modelagem tempo presente)
simulação de respostas a MC futuras depende do conhecimento / descrição do processo atual.
Efeito dos cenários de MC sobre biodiversidade usando MDE
Considerações
Continuidade:
- Seleção de cenários de MC – discussão junto aos pares
- Reproduzir modelagem preditiva
para todas as espécies cujos modelos atuais foram consistentes
- Inferência de impacto sobre a distribuição do padrão de riqueza - Estudar dispersão do grupo/ das espécies em relação à paisagem possibilidade de migração e.g. áreas de floresta existentes (desmatamento)
Família Arecaceae
(Palmae)
As mais características da flora tropical
Brasil: ~ 36 gêneros e 195 espécies (Giulietti et al, 2005)
buriti pupunha A gro m un d o