• Nenhum resultado encontrado

2. Metodologia 32

2.4. Análise estatística 37

2.4.1. Avaliação do desempenho do modelo extrapolado

Com os valores de probabilidade de ocorrência de lontra prevista para cada ponto prospetado, foi avaliada a diferença entre o conjunto de valores nos pontos em que se observou presença, em relação ao conjunto dos pontos ausência. Deste modo, pretendia-se avaliar o desempenho das previsões do modelo de Barbosa et al. (2003) quando extrapolado para uma escala de resolução mais fina em relação à de origem (de 10x10 km para 1x1 km).

Como tal, utilizaram-se as duas layers com os valores de probabilidade de ocorrência para as presenças (p_lontra_2008_fav.dbf) e para as ausências (a_lontra_2008_fav.dbf) respetivamente, e a partir do software estatístico R (R Core Team, 2014), estas foram submetidas ao teste não-paramétrico de Mann-Whitney-Wilcoxon (Wilcoxon, 1945), sendo este complementado pelo desenvolvimento de um gráfico de caixas com “notches” (Chambers et al., 1983). Através desta avaliação, pretende-se perceber se os valores de probabilidade para a presença de lontra prevista pelo modelo de 2003 são efetivamente inferiores nas áreas de ausência atual de lontra, comparativamente aos valores nos locais com presenças, e se esta diferença é estatisticamente relevante. Em Anexo, encontram-se os comandos utilizados para esta avaliação.

Notas: Inicialmente, para cada conjunto de dados, foi realizado um “summary” e depois aplicado o Teste de Wilcoxon. Dado que se pretendia testar se os valores de probabilidade de presença para os pontos de ausência seriam significativamente menores que os valores de probabilidade de presença para os pontos de presença, foi escolhida a opção: alternative = "less".

No comando para a construção do boxplot, foi escolhido o parâmetro “notch = TRUE”, de modo a ser mais visível a existência ou não de sobreposição entre os “notches” (que indicaria a ausência de diferenças significativas) de cada conjunto de valores.

2.4.2. Avaliação do desempenho do modelo original

Desenvolvimento dos vetores para a análise estatística

Para se avaliar o desempenho do modelo de probabilidade de ocorrência de lontra em quadrículas UTM de 10x10 km, recorreu-se aos dados de distribuição de lontra resultantes das

-38- JOANA A. GUERREIRO

prospeções de 1998 (Ruiz-Olmo & Delibes, 1998) e de 2008 (López-Martín & Jiménez-Pérez, 2008) a esta escala de resolução.

Antes dos testes estatísticos, foi necessário realizar algum tratamento dos dados, com o recurso ao software R, de modo a compilar numa única tabela, as informações referentes às quadrículas de 1998 e às de 2008. Foram ainda criadas duas novas colunas (LLU_2008 e survey2008) correspondentes a dois novos vetores de valores no R (2008_all e 2008_surveyed). Os comandos utilizados em todas as operações são apresentados em Anexo.

Nota: Para se juntar (a partir do comando “merge”) as duas tabelas (UTM10 e lu98) foi necessário que se identificasse uma coluna em comum de modo a possibilitar uma junção organizada dos dados, com a correta correspondência entre quadrículas. Daí a continua utilização dos comandos “colnames()”, “head()”, “names()”, “sum()”, “sort()” ou “nrow()“, que funcionaram como controladores de qualidade em todo o processo.

Verificação da hipótese de simples dispersão para áreas vizinhas

De modo a testar se a evolução da distribuição de lontra em Espanha não se deu simplesmente de modo aleatório para as áreas nas proximidades de anteriores presenças, mas antes para as áreas que o modelo de Barbosa et al. (2003) apontou como mais prováveis, foi realizada uma interpolação espacial das presenças utilizadas na construção do modelo. Para isso, foi utilizada a função “distPres” do pacote Fuzzy similarity in species distributions (fuzzySim) versão 1.7, disponível em: http://fuzzysim.r-forge.r-project.org (Barbosa, 2015a). Esta função toma partido de um ficheiro que contenha dados de presença e ausência da espécie alvo (para o presente trabalho, a coluna/vetor “LLU_1998” da tabela UTM10) e as respetivas coordenadas espaciais (colunas “LONG” e “LATI” da mesma tabela), de modo a calcular, para cada quadrícula da tabela, o inverso da distância (euclidiana simples) à presença de lontra. O vetor resultante (designado por “LLU98_dist”) foi posteriormente agregado à tabela UTM10, de modo a ser submetido aos mesmos testes estatísticos que o modelo de Barbosa et al. (2003). Os comandos utilizados podem ser consultados no Anexo.

Testes estatísticos para a avaliação do modelo

De forma a avaliar o desempenho do modelo de Barbosa et al., (2003) frente à simples interpolação espacial das presenças foram então utilizados os dados de presença/ausência de lontra em Espanha de Ruíz-Olmo & Delibes (1998; dados de treino) e de López-Martín & Jiménez (2008; dados de teste), bem como o pacote Model Evaluation and Analysis (modEvA) versão 1.2, disponível em:

avaliação de SDM, tendo como base funções que permitem o cálculo de valores de discriminação e calibração do modelo. Cada função toma partido de dois vetores: Obs, vetor com os dados binários observados, que neste caso são ausências (0) e presenças (1); e Pred, vetor dos valores previstos pelo modelo (ou pela interpolação espacial) para cada um dos valores observados. Deste pacote foram utilizadas as funções que se seguem (para informações mais detalhadas sobre a sua definição ou utilização consultar a documentação do pacote), sendo que os comandos utilizados encontram-se em Anexo.

Nota: Os vetores “LLU_1998”, “LLU_2008” e “survey2008” apresentam, respetivamente, os dados de 1998, os dados de 2008, e os dados apenas das quadrículas prospetadas em 2008.

Plot generalized linear model (plotGLM) – Da utilização desta função obtém-se um gráfico dos dados observados (presenças e ausências) frente aos valores previstos pelo modelo logístico, em relação aos valores da equação de regressão linear y.

Proportion of deviance explained by a GLM (Dsquared) – Esta função calcula valores de desviância explicada pelo modelo.

R-squared measures for GLMs (RsqGLM) - Função que calcula um pseudo “R2“ (variância explicada) para GLM binomiais.

Area Under the ROC Curve (AUC) - Esta função calcula a área abaixo da curva ROC (Receiver Operating Characteristic) e é indicada para comparar vetores com valores observados binários e valores previstos contínuos. A partir desta obtém-se a medida de valor preditivo geral das predições, ou da probabilidade de um sítio com presença apresentar um valor de probabilidade prevista superior a um sítio sem vestígios de presença. Apresenta semelhanças funcionais com a função

ThreshMeasures, sem contudo necessitar da definição de um limiar de probabilidade ou threshold a

partir do qual considerar que o modelo prediz que a espécie estará presente.

Threshold-based measures of model evaluation (ThreshMeasures) - Calcula um conjunto de medidas que permitem avaliar a capacidade de discriminação dos SDM, em relação aos dados de presença/ausência observados, relativamente a um dado limiar de probabilidade.

Optimize the discrimination threshold for a pair of related model evaluation measures (optiPair) – Como o nome indica, esta função otimiza o limiar de discriminação de um modelo, através de um par de medidas de avaliação que se equilibrem (especificidade-sensibilidade ou omissão- comissão, por exemplo).

Hosmer-Lemeshow goodness of fit (HLfit) - Calcula a fiabilidade ou desempenho da calibração do modelo através da métrica de Hosmer & Lemeshow, contrariando outras medidas que se focam na capacidade de discriminação. Esta função toma partido de um método de agrupamento

-40- JOANA A. GUERREIRO

para comparar a probabilidade prevista com a prevalência observada em cada grupo (bin) de probabilidades, sendo que possui diferentes métodos de formação dos “bins” que produzem diferentes resultados. Para a presente avaliação foram utilizados os métodos “n.bins” e “quantiles”.

Miller’s calibration statistic for logistic regression models (MillerCalib) - Função que calcula a Calibração de Miller para GLM com distribuição binomial e função logística. É uma função indicada para a avaliação da calibração ou fiabilidade dos modelos, dado que identifica se um modelo está bem calibrado ao verificar quão próximas estão as médias das probabilidades previstas e da proporção de presenças nos dados. É útil apenas para avaliar a calibração dos modelos fora dos dados de treino, já que nestes produz sempre, por definição, valores perfeitos (interceção = 0 e declive = 1).