• Nenhum resultado encontrado

Análise de erro de funções de pedotransferência na estimativa de retenção de água no solo por meio de árvore de decisão

N/A
N/A
Protected

Academic year: 2021

Share "Análise de erro de funções de pedotransferência na estimativa de retenção de água no solo por meio de árvore de decisão"

Copied!
132
0
0

Texto

(1)

i

RAQUEL STUCCHI BOSCHI

ANÁLISE DE ERRO DE FUNÇÕES DE

PEDOTRANSFERÊNCIA NA ESTIMATIVA DE RETENÇÃO DE

ÁGUA NO SOLO POR MEIO DE ÁRVORE DE DECISÃO

CAMPINAS 2014

(2)
(3)

iii

UNIVERSIDADE ESTADUAL DE CAMPINAS

Faculdade de Engenharia Agrícola

RAQUEL STUCCHI BOSCHI

“ANÁLISE DE ERRO DE FUNÇÕES DE

PEDOTRANSFERÊNCIA NA ESTIMATIVA DE RETENÇÃO DE

ÁGUA NO SOLO POR MEIO DE ÁRVORE DE DECISÃO”

Tese apresentada à Faculdade de Engenharia Agrícola da Universidade Estadual de Campinas como parte dos requisitos exigidos para obtenção do título de Doutora, em Engenharia Agrícola, na Área de Planejamento e Desenvolvimento Rural Sustentável.

Orientador: Prof. Dr. Luiz Henrique Antunes Rodrigues

Coorientadora: Prof. Dra. Maria Leonor Ribeiro Casimiro Lopes Assad

ESTE EXEMPLAR CORRESPONDE À VERSÃO FINAL DA TESE DEFENDIDA PELA ALUNA RAQUEL STUCCHI BOSCHI, E ORIENTADA PELO PROF. DR. LUIZ HENRIQUE ANTUNES RODRIGUES.

---

CAMPINAS 2014

(4)
(5)
(6)
(7)

vii RESUMO

O conhecimento das propriedades hidráulicas do solo é indispensável para modelagem do sistema solo-planta-atmosfera. A determinação destas propriedades de forma direta é problemática: exigem métodos caros, laboriosos e grandes demandantes de tempo. O uso de funções, que estimam estas propriedades a partir de outras, facilmente obtidas, tem sido objeto de várias pesquisas. Estas funções são denominadas de funções de pedotransferência (PTF). As PTF são normalmente avaliadas em função dos valores observados e estimados; pouca atenção tem sido dada à análise do erro em função dos atributos do solo. Este tipo de análise pode revelar detalhes importantes sobre o desempenho de uma PTF, podendo contribuir para melhorar sua capacidade preditiva. A hipótese científica deste trabalho foi que é possível identificar e avaliar padrões nos erros das PTF utilizadas para estimar a retenção de água no solo, por meio de modelos baseados em árvore de decisão. Outra hipótese é que a identificação dos padrões nos erros das PTF fornecerá subsídios para o uso de tais funções de forma mais confiável e precisa. O objetivo geral deste trabalho, portanto, foi obter árvores de decisão capazes de auxiliar na compreensão de quais atributos do solo afetam o desempenho das PTF na estimativa de retenção de água no solo. A metodologia foi baseada no modelo CRISP-DM e foram avaliadas PTF disponíveis na literatura, com base na análise do erro, por meio de árvore de decisão. A metodologia foi dividida em duas partes. Na primeira parte, a PTF desenvolvida por Vereecken e colaboradores em 1989, foi avaliada no próprio conjunto de dados utilizado para sua geração. Na segunda parte, as PTF desenvolvidas por Vereecken e colaboradores em 1989, van den Berg e colaboradores em 1997 e Lopes-Assad e colaboradores em 2001, foram avaliadas em um conjunto de dados diferente do utilizado na sua geração. Os resultados mostraram que os erros inaceitáveis a -10 kPa (CC) se deram para as mesmas condições de erros aceitáveis a -1500 kPa (PMP) ; por outro lado, os erros inaceitáveis na estimativa de PMP, de modo geral, se deram para as mesmas condições de erros aceitáveis para estimativa de CC. A diferença entre o conjunto de dados utilizado para desenvolver uma PTF e o conjunto de dados utilizado para avaliá-la é um importante fator na incidência de erros. Na seleção de uma PTF deve-se considerar o maior número de fatores possíveis e não somente a distribuição granulométrica e a proximidade geográfica dos conjuntos de dados. A técnica de indução de árvore de decisão apresentou-se como uma alternativa complementar à avaliação da PTF, uma vez que

(8)

viii

permitiu uma avaliação detalhada dos erros nas estimativas. Este tipo de avaliação é interessante, pois permite a identificação de erros sistemáticos na aplicação destas funções. Pode, ainda, ser usada como uma forma de diagnóstico a ser explorada por desenvolvedores de PTF.

(9)

ix ABSTRACT

Knowledge of the soil hydraulic properties is essential for modeling the soil-plant-atmosphere system. Direct determination of these properties is problematic: the methods are expensive, laborious and time consuming. Therefore, the use of functions that estimate soil hydraulic properties from other more easily measurable soil properties has been the subject of several studies. These functions are called pedotransfer functions (PTF). Most studies have focused on the development of these functions; however, few have attempted to improve their implementation. PTF are usually evaluated in terms of the measured and predicted values; less attention has been given to the analysis of the error term in relation to soil properties such as texture, bulk density and organic matter. This type of analysis may reveal important details about the performance of PTF including options to improve their predictive capability. The hypothesis of this study was that it is possible to identify and evaluate patterns in the errors of PTF used to estimate soil water retention by using decision tree models. Another hypothesis is that the identification of PTF errors patterns will provide subsidies for the use of such functions more reliably and accurately. The objective of this study was to obtain a decision tree that can assist in understanding what soil properties affect the performance of PTF in estimating soil water retention. The methodology was based on the CRISP-DM model and refers to the evaluation of PTF available in the literature, based on an error analysis by means of decision tree induction. The PTF developed by Vereecken and coworkers in 1989 was evaluated the same data set as used for their development. Next, the PTF developed by Vereecken and coworkers in 1989, van den Berg and coworkers in 1997 and Lopes-Assad and coworkers 2001, were evaluated on a different dataset than the one used for their development. Results indicate that unacceptable errors at -10 kPa (CC) occurred for the same conditions that lead to acceptable errors at -1500 kPa (PMP); on the other hand the unacceptable errors at -1500 kPa (PMP) occurred for the same conditions that lead to acceptable errors at -10 kPa (CC). The difference between the data set used to develop a PTF and the data set used to evaluate is a factor of error incidence. In selecting a PTF should be considered the largest possible number of factors and not only the particle size distribution and the geographical proximity of the datasets. The decision tree induction technique provides a complement for evaluation of PTF, since the method is efficient in the detailed evaluation of PTF. This type of

(10)

x

assessment is interesting because it allows identifying systematic errors in PTF applications. It can also be used as a diagnostic tool to be explored by PTF developers.

(11)

xi SUMÁRIO

1. INTRODUÇÃO ... 1

2. REVISÃO BIBLIOGRÁFICA ... 5

2.1. Funções de Pedotransferência ... 5

2.1.1. Tipos de PTF para estimativa de valores de retenção de água no solo e métodos utilizados na sua geração ... 9

2.1.2. Avaliação de funções de pedotransferência ... 12

2.2. Mineração de Dados ... 17

2.2.1. Tarefas de Mineração de Dados. ... 20

2.3. Árvore de Decisão ... 22

2.3.1. Indução de árvore de decisão... 23

2.3.2. Poda ... 24

2.3.3. Balanceamento de Classes ... 26

2.3.4. Medida de desempenho de um classificador ... 27

3. MATERIAL E MÉTODOS ... 31

3.1. Entendimento dos dados ... 32

3.1.1. Avaliação da PTF no mesmo conjunto de dados utilizado para sua geração ... 32

3.1.1.1. Caracterização da PTF selecionada ... 32

3.1.1.2. Caracterização dos dados utilizados ... 33

3.1.2. Avaliação da PTF em um conjunto de dados diferente do utilizado na sua geração 36 3.1.2.1. Caracterização das PTF selecionadas ... 36

3.1.2.2. Caracterização do conjunto de dados utilizado para as análises ... 37

3.2. Preparação dos dados ... 41

3.2.1. Definição do atributo meta ... 41

3.3. Modelagem ... 43

3.4. Avaliação dos resultados ... 45

4. RESULTADOS E DISCUSSÃO ... 47

4.1. Avaliação da Vereecken_PTF no mesmo conjunto de dados utilizado para sua geração. ... 47

4.2. Avaliação de PTF em um conjunto de dados diferente do utilizado para sua geração, ... 57

(12)

xii

4.2.1 Capacidade de Campo (CC) ... 65

4.2.2. Ponto de Murcha Permanente (PMP) ... 80

5. CONCLUSÃO ... 95

(13)

xiii

Dedico à toda minha família e a todos os meus amigos.

(14)
(15)

xv

AGRADECIMENTOS

À Faculdade de Engenharia Agrícola da Universidade Estadual de Campinas, pela oportunidade de desenvolvimento e aprendizagem.

Ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq), pela Bolsa concedida.

Ao professor Luiz Henrique Antunes Rodrigues, pela orientação e dedicação e por todos os ensinamentos.

À professora Maria Leonor Lopes-Assad, pela amizade e companheirismo, pela orientação durante toda a minha formação e pelas inúmeras conversas enriquecedoras.

Ao Pesquisador Eduardo Delgado Assad pela disponibilização dos dados e por toda ajuda durante meu Doutorado.

Ao Pesquisador Harry Vereecken pela disponibilização dos dados.

Ao Pesquisador Yakov Pachepsky pela oportunidade de realizar um estágio no Agricultural Research Service/United States Department of Agriculture sob sua supervisão, e por toda a colaboração para o desenvolvimento do meu trabalho.

À Letícia Grego, pelo companheirismo, pela paciência e por todo o suporte nas traduções. Aos amigos Guilherme Megeto e Felipe Bocca pela disposição em sempre ajudar e pela companhia nos almoços no RU.

À Nara Policarpo, pela amizade e companheirismo.

Aos amigos Eduardo de Souza, Camila Dourado, Marilene de Jesus, Andrea Koga e Juliano Groppo, pelas partidas de vôlei e por tornarem os meus dias mais alegres.

Aos meus pais Angelina e Maximino e ao meu irmão Rafael, pelo amor e apoio incondicional e pela compreensão.

Às minhas tias Vera e Cristina, por todo o apoio.

(16)
(17)

xvii

LISTA DE FIGURAS

Figura 1. Fases da mineração de dado segundo o modelo CRISP-DM (CHAPMAN et al., 2000). ... 19 Figura 2. Tarefas de mineração de dados (adaptado de Rezende et al., 2005). ... 21 Figura 3. Exemplo de uma árvore de decisão para avaliação das condições que levam a um erro aceitável ou inaceitável na estimativa de retenção de água no solo, por meio de funções de pedotransferência. ... 23 Figura 4. Relacionamento entre o tamanho da árvore e a taxa de erro. Adaptado de Monard e Baranauskas (2005b)... 25 Figura 5. Espaço ROC ilustrando cinco modelos (A, B, C, D, E). Adaptado de Fawcett (2006). ... 30 Figura 6. Ilustração da metodologia proposta para a avaliação de funções de pedotransferência. ... 32 Figura 7. Triângulo textural proposto pelo Departamento de Agricultura dos Estados Unidos (USDA), com as classes de textura do conjunto de dados utilizado nesta parte deste trabalho. Fonte: Soil Survey Staff (1993). Cl=argilosa; SaCl= argilo arenosa; SaClLo=franco argilo arenosa; Sa=arenosa; LoSa= areno siltosa; SaLo=franco arenosa, ClLo=franco argilosa; Lo=franca; SiCl=argilo siltosa; SiClLo=franco argilo arenosa; SiLo=franco siltosa; Si=siltosa. ... 34 Figura 8. Representação gráfica da relação tridimensional (contour plot) entre os teores de silte, argila e areia no conjunto de dados utilizado nesta parte deste trabalho. ... 35 Figura 9. Mapa com as delimitações dos estados e os pontos amostrados. ... 38 Figura 10. Triângulo textural proposto pelo Departamento de Agricultura dos Estados Unidos (USDA), com as classes de textura dos dados utilizados (CD). Fonte: Soil Survey Staff (1993). Cl=argilosa; SaCl= argilo arenosa; SaClLo=franco argilo arenosa; Sa=arenosa; LoSa= areno siltosa; SaLo=franco arenosa, ClLo=franco argilosa; Lo=franca; SiCl=argilo siltosa; SiClLo=franco argilo arenosa; SiLo=franco siltosa; Si=siltosa. ... 39 Figura 11. Representação gráfica da relação tridimensional (contour plot) entre os teores de silte, argila e areia no conjunto de dados utilizados (CD). ... 40 Figura 12. Figura ilustrativa das classes “InAceit” e “Aceit”. ... 41 Figura 13. Figura ilustrativa das classes “Sub” e “Super” na avaliação de funções de pedotransferência (PTF). ... 43 Figura 14. Configuração do classificador J48 no Weka para geração das árvores de decisão. ... 44 Figura 15. Distribuição dos erros na estimativa da retenção de água no solo a -10 kPa (CC). ... 47 Figura 16. Distribuição dos erros na estimativa da retenção de água no solo a -1500 kPa (PMP). ... 48 Figura 17. Valores observados de retenção de água no solo (cm3 cm-3) (OBS) versus valores estimados (EST) a -10 kPa (CC) e a -1500 kPa (PMP). ... 48

(18)

xviii

Figura 18. Árvore de decisão gerada para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência (Vereecken_PTF), proposta por Vereecken et al. (1989). ... 50 Figura 19. Análise da distribuição do erro na estimativa da retenção de água a -10 kPa (CC), em função do teor de silte (%), argila (%), areia (%) e densidade do solo (g cm-3). .. 53 Figura 20. Árvore de decisão para avaliação dos erros nas estimativas feitas para retenção de água a -1500 kPa (PMP) estimada pela função de pedotransferência (Vereecken_PTF), proposta por Vereecken et al. (1989)... 54 Figura 21. Análise da distribuição do erro na estimativa da retenção de água a -1500 kPa (PMP), em função do teor de argila (%), areia (%), silte (%) e densidade do solo (g cm-3).57 Figura 22. Boxplot para os dados observados (obs) e paras os dados estimados pela Vereecken_PTF, VDB_PTF e Assad_PTF, na estimativa de retenção de água a -10 (CC) e a -1500 kPa (PMP). ... 59 Figura 23. Valores observado (OBS) versus valores estimados (EST) de retenção de água no solo para a Vereecken_PTF: a) -10 kPa (CC); b) -1500 kPa (PMP). ... 59 Figura 24. Valores observados (OBS) versus valores estimados (EST) de retenção de água no solo para a VDB_PTF: a) -10 kPa (CC); b) -1500 kPa (PMP). ... 60 Figura 25. Valores observado (OBS) versus valores estimados (EST) de retenção de água no solo para a Assad_PTF: a) -10 kPa (CC); b) -1500 kPa (PMP). ... 60 Figura 26. Distribuição dos erros para a Vereecken_PTF, a VDB_PTF e a Assad_PTF na estimativa de retenção de água no solo a -10 kPa (CC). ... 61 Figura 27. Distribuição dos erros para a Vereecken_PTF, a VDB_PTF e a Assad_PTF na estimativa de retenção de água no solo a -1500 kPa (PMP). ... 61 Figura 28. Convex hull para determinação do melhor modelo para a Vereecken_PTF para avaliação dos erros na estimativa de retenção de água a -10 kPa (CC)... 66 Figura 29. Convex hull para determinação do melhor modelo para a Assad_PTF para avaliação dos erros na estimativa de retenção de água a -10 kPa (CC)... 68 Figura 30. Árvore de decisão para avaliação dos erros nas estimativas feitas pela função de pedotransferência (Vereecken_PTF), proposta por Vereecken et al. (1989), para retenção de água a -10 kPa (CC). ... 69 Figura 31. Árvore de decisão para avaliação dos erros nas estimativas feitas pela função de pedotransferência (VDB_PTF), proposta por van den Berg et al. (1997), para retenção de água a -10 kPa (CC). ... 69 Figura 32. Árvore de decisão para avaliação dos erros nas estimativas feitas pela função de pedotransferência (Assad_PTF), proposta por Lopes-Assad et al. (2001), para retenção de água a -10 kPa (CC). ... 70 Figura 33. Triângulo textural proposto pelo Departamento de Agricultura dos Estados Unidos (USDA), com as classes de textura dos exemplos enquadrados pela principal regra da árvore induzida para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência, proposta por Vereecken et al. (1989): a) classe “InAceit; b) classe “Aceit”. Fonte: Soil Survey Staff (1993). Cl=argilosa; SaCl=

(19)

xix

argilo arenosa; SaClLo=franco argilo arenosa; Sa=arenosa; LoSa= areno siltosa; SaLo=franco arenosa, ClLo=franco argilosa; Lo=franca; SiCl=argilo siltosa; SiClLo=franco argilo arenosa; SiLo=franco siltosa; Si=siltosa. ... 72 Figura 34. Triângulo textural proposto pelo Departamento de Agricultura dos Estados Unidos (USDA), com as classes de textura dos exemplos enquadrados pela principal regra da árvore induzida para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência, proposta por van den Berg et al. (1997): a) classe “InAceit; b) classe “Aceit”. Fonte: Soil Survey Staff (1993). Cl=argilosa; SaCl= argilo arenosa; SaClLo=franco argilo arenosa; Sa=arenosa; LoSa= areno siltosa; SaLo=franco arenosa, ClLo=franco argilosa; Lo=franca; SiCl=argilo siltosa; SiClLo=franco argilo arenosa; SiLo=franco siltosa; Si=siltosa. ... 74 Figura 35. Triângulo textural proposto pelo Departamento de Agricultura dos Estados Unidos (USDA), com as classes de textura dos exemplos enquadrados pela principal regra da árvore induzida para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência, proposta por Assad et al. (2001): a) classe “InAceit; b) classe “Aceit”. Fonte: Soil Survey Staff (1993). Cl=argilosa; SaCl= argilo arenosa; SaClLo=franco argilo arenosa; Sa=arenosa; LoSa= areno siltosa; SaLo=franco arenosa, ClLo=franco argilosa; Lo=franca; SiCl=argilo siltosa; SiClLo=franco argilo arenosa; SiLo=franco siltosa; Si=siltosa. ... 77 Figura 36. Árvore de decisão utilizada para avaliar as condições de sub e superestimativa da na estimativa da retenção de água no solo a -10 kPa (CC), pela Vereecken_PTF, ... 79 Figura 37. Árvore de decisão utilizada para avaliar as condições de sub e superestimativa da na estimativa da retenção de água no solo a -10 kPa (CC), pela VDB_PTF. ... 79 Figura 38. Árvore de decisão utilizada para avaliar as condições de sub e superestimativa da na estimativa da retenção de água no solo a -10 kPa (CC), pela Assad_PTF. ... 79 Figura 39. Convex hull para determinação do melhor modelo para a Vereecken_PTF para avaliação dos erros na estimativa de retenção de água a -1500 kPa (PMP). ... 80 Figura 40. Árvore de decisão para avaliação dos erros nas estimativas feitas pela função de pedotransferência (Vereecken_PTF), proposta por Vereecken et al. (1989), para retenção de água a -1500 kPa (PMP), ... 83 Figura 41. Árvore de decisão para avaliação dos erros nas estimativas feitas pela função de pedotransferência (VDB_PTF), proposta por van den Berg et al. (1997), para retenção de água a -1500 kPa (PMP). ... 83 Figura 42. Árvore de decisão para avaliação dos erros nas estimativas feitas pela função de pedotransferência (Assad_PTF), proposta por Lopes-Assad et al. (2001), para retenção de água a -1500 kPa (PMP). ... 84 Figura 43. Triângulo textural proposto pelo Departamento de Agricultura dos Estados Unidos (USDA), com as classes de textura dos exemplos enquadrados pela principal regra da árvore induzida para avaliar os erros na estimativa dos valores de retenção de água a -1500 kPa (PMP) estimada pela função de pedotransferência, proposta por Vereecken et al. (1989): a) classe “InAceit; b) classe “Aceit”. Fonte: Soil Survey Staff (1993). Cl=argilosa;

(20)

xx

SaCl= argilo arenosa; SaClLo=franco argilo arenosa; Sa=arenosa; LoSa= areno siltosa; SaLo=franco arenosa, ClLo=franco argilosa; Lo=franca; SiCl=argilo siltosa; SiClLo=franco argilo arenosa; SiLo=franco siltosa; Si=siltosa. ... 86 Figura 44. Triângulo textural proposto pelo Departamento de Agricultura dos Estados Unidos (USDA), com as classes de textura dos exemplos enquadrados pela principal regra da árvore induzida para avaliar os erros na estimativa dos valores de retenção de água a -1500 kPa (PMP) estimada pela função de pedotransferência, proposta por van den Berg et al. (1997): a) classe “InAceit; b) classe “Aceit”. Fonte: Soil Survey Staff (1993). Cl=argilosa; SaCl= argilo arenosa; SaClLo=franco argilo arenosa; Sa=arenosa; LoSa= areno siltosa; SaLo=franco arenosa, ClLo=franco argilosa; Lo=franca; SiCl=argilo siltosa; SiClLo=franco argilo arenosa; SiLo=franco siltosa; Si=siltosa. ... 88 Figura 45. Triângulo textural proposto pelo Departamento de Agricultura dos Estados Unidos (USDA), com as classes de textura dos exemplos enquadrados pela principal regra da árvore induzida para avaliar os erros na estimativa dos valores de retenção de água a -1500 kPa (PMP) estimada pela função de pedotransferência, proposta por Lopes-Assad et al. (2001): a) classe “Aceit; b) classe “Aceit”. Fonte: Soil Survey Staff (1993). Cl=argilosa; SaCl= argilo arenosa; SaClLo=franco argilo arenosa; Sa=arenosa; LoSa= areno siltosa; SaLo=franco arenosa, ClLo=franco argilosa; Lo=franca; SiCl=argilo siltosa; SiClLo=franco argilo arenosa; SiLo=franco siltosa; Si=siltosa. ... 90 Figura 46. Árvore de decisão utilizada para avaliar as condições de sub e superestimativa da na estimativa da retenção de água no solo a -1500 kPa (PMP), pela Vereecken_PTF. .. 92 Figura 47. Árvore de decisão utilizada para avaliar as condições de sub e superestimativa da na estimativa da retenção de água no solo a -1500 kPa (PMP), pela VDB_PTF. ... 92 Figura 48. Árvore de decisão utilizada para avaliar as condições de sub e superestimativa da na estimativa da retenção de água no solo a -1500 kPa (PMP), pela Assad_PTF. ... 93

(21)

xxi

LISTA DE TABELAS

Tabela 1. Funções de pedotransferência para solos do Brasil. ... 7 Tabela 2. Valores médios do RMSE encontrados na literatura (adaptado de Barros, 2010). ... 14 Tabela 3. Matriz de confusão para problemas de duas classes. Adaptado de Monard e Baranauskas (2005a)... 28 Tabela 4. Estatística descritiva do conjunto de dados (173 horizontes) utilizado, conforme publicado por Weynants et al. (2009), e entre parênteses do conjunto (182 horizontes) de dados para desenvolvimento da função de pedotransferência por Vereecken et al. (1989). 34 Tabela 5. Estatística descritiva para as variáveis do solo nos 138 horizontes com dados de retenção de água a -10 kPa (CC) e, entre parênteses, para os 154 horizontes com dados de retenção de água a -1500 kPa (PMP). ... 35 Tabela 6. Estatística descritiva dos atributos do conjunto de dados utilizado (CD). ... 38 Tabela 7. Valor mínimo, valor máximo e a média (entre parênteses) do conjunto de dados utilizado nas análises (CD), e dos conjuntos de dados utilizados para o desenvolvimento das PTF avaliadas. ... 40 Tabela 8. Modelos gerados para cada avaliação de funções de pedotransferência por meio de árvore de decisão, a partir da combinação de conjuntos de treinamento e métodos de poda. ... 45 Tabela 9. Critérios para interpretação de árvores de decisão geradas para estimativas de erros em funções de pedotransferência. ... 46 Tabela 10. Área abaixo da curva ROC (AUC) para os diferentes métodos de balanceamento utilizados no conjunto de dados para a retenção de água a -10 kPa (CC) e a -1500 kPa (PMP). ... 49 Tabela 11. Matriz de confusão da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência (Vereecken_PTF), proposta por Vereecken et al. (1989). ... 50 Tabela 12. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “Aceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência, proposta por Vereecken et al. (1989). ... 51 Tabela 13. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “InAceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência, proposta por Vereecken et al. (1989). ... 52 Tabela 14. Matriz de confusão da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -1500 kPa (PMP) estimada pela função de pedotransferência (Vereecken_PTF), proposta por Vereecken et al. (1989). ... 54 Tabela 15. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “Aceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de

(22)

xxii

água a -1500 kPa (PMP) estimada pela função de pedotransferência, proposta por Vereecken et al. (1989). ... 55 Tabela 16. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “InAceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -1500 kPa (PMP) estimada pela função de pedotransferência, proposta por Vereecken et al. (1989). ... 56 Tabela 17. Porcentagem de exemplos pertencentes a cada classe do atributo meta na estimativa da retenção de água a -10 kPa (CC) e a -1500 kPa (PMP). ... 62 Tabela 18. Porcentagem de exemplos pertencentes a cada classe do atributo meta para estimativa da retenção de água a -1500 kPa (PMP) (épsilon = 0,02 cm3 cm-3). ... 63 Tabela 19. Área abaixo da curva ROC (AUC) para os diferentes métodos de balanceamento utilizados no conjunto de dados para a retenção de água a -10 kPa (CC), com dados de retenção estimados pela Vereecken_PTF. ... 65 Tabela 20. Área abaixo da curva ROC (AUC) para os diferentes métodos de balanceamento utilizados no conjunto de dados para a retenção de água a -10 kPa (CC), com dados de retenção estimados pela VDB_PTF. ... 67 Tabela 21. Área abaixo da curva ROC (AUC) para os diferentes métodos de balanceamento utilizados no conjunto de dados para a retenção de água a -10 kPa (CC), com dados de retenção estimados pela Assad_PTF. ... 67 Tabela 22. Medidas extraídas da matriz de confusão para avaliação das árvores geradas na avaliação da Vereecken_PTF, da VDB_PTF e da Assad_PTF, na estimativa da retenção de água a -10 kPa (CC). ... 68 Tabela 23. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “InAceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência, proposta por Vereecken et al. (1989). ... 70 Tabela 24. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “Aceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência, proposta por Vereecken et al. (1989). ... 72 Tabela 25. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “InAceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência, proposta por van den Berg et al. (1997). ... 73 Tabela 26. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “Aceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência, proposta por van den Berg et al. (1997). ... 74 Tabela 27. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “InAceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de

(23)

xxiii

água a -10 kPa (CC) estimada pela função de pedotransferência, proposta por Lopes-Assad et al. (2001). ... 75 Tabela 28. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “Aceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -10 kPa (CC) estimada pela função de pedotransferência, proposta por Lopes-Assad et al. (2001). ... 76 Tabela 29. Porcentagem de exemplos superestimados e subestimados na estimativa da retenção de água no solo a -10 kPa (CC). ... 77 Tabela 30. Medidas de avaliação dos modelos gerados para avaliação das sub e superestimativas na estimativa de retenção de água no solo a -10 kPa (CC). ... 78 Tabela 31. Área sob a curva ROC (AUC) para os diferentes métodos de balanceamento utilizados no conjunto de dados para a retenção de água a -1500 kPa (PMP), com dados de retenção estimados pela Vereecken_PTF. ... 80 Tabela 32. Área sob a curva ROC (AUC) para os diferentes métodos de balanceamento utilizados no conjunto de dados para a retenção de água a -1500 kPa (PMP), com dados de retenção estimados pela VDB_PTF. ... 81 Tabela 33. Área sob a curva ROC (AUC) para os diferentes métodos de balanceamento utilizados no conjunto de dados para a retenção de água a -1500 kPa (PMP), com dados de retenção estimados pela Assad_PTF, ... 82 Tabela 34. Medidas extraídas da matriz de confusão para avaliação das árvores geradas na avaliação da Vereecken_PTF, da VDB_PTF e da Assad_PTF, na estimativa de retenção de água no solo a -1500 kPa (PMP). ... 82 Tabela 35. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “InAceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -1500 kPa (PMP) estimada pela função de pedotransferência, proposta por Vereckeen et al. (2001). ... 84 Tabela 36. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “Aceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -1500 kPa (PMP) estimada pela função de pedotransferência, proposta por Vereecken et al. (2001). ... 85 Tabela 37. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “InAceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -1500 kPa (PMP) estimada pela função de pedotransferência, proposta por van den Berg et al. (1997). ... 87 Tabela 38. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “Aceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -1500 kPa (PMP) estimada pela função de pedotransferência, proposta por van den Berg et al. (1997). ... 87 Tabela 39. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “InAceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de

(24)

xxiv

água a -1500 kPa (PMP) estimada pela função de pedotransferência, proposta por Lopes-Assad et al. (2001). ... 89 Tabela 40. Estatística descritiva dos exemplos enquadrados na principal regra para a classe “InAceit”, da árvore gerada para avaliar os erros na estimativa dos valores de retenção de água a -1500 kPa (PMP) estimada pela função de pedotransferência, proposta por Lopes-Assad et al. (2001). ... 89 Tabela 41. Porcentagem de exemplos superestimados e subestimados na estimativa da retenção de água no solo a -1500 kPa (PMP). ... 91 Tabela 42. Medidas de avaliação dos modelos gerados para avaliação das sub e superestimativas na estimativa da retenção de água no solo a -1500 kPa (PMP). ... 91

(25)

xxv

LISTA DE ABREVIATURAS E SIGLAS

Acc – acurácia

Aceit – atributo meta que representa a classe de erro considerado “aceitável” Assad_PTF – PTF gerada por Lopes-Assad et al. (2001)

AUC – área abaixo da curva ROC. CC – capacidade de campo (-10 kPa) CO – carbono orgânico total

DS – densidade do solo

HP – posição no horizonte do solo

InAceit – atributo meta que representa a classe de erro considerado “inaceitável” nrel – confiança negativa

PMP – ponto de murcha permanente (-1500 kPa) prel – confiança positiva

PTF – função de pedotransferência Sens – sensitividade

Spec – especificidade

Sub – atributo meta que representa a classe de erro subestimado Super – atributo meta que representa a classe de erro superestimado USDA – United States Department of Agriculture

VDB_PTF – PTF gerada por van den Berg et al. (1997) Vereecken_PTF – PTF gerada por Vereecken et al. (1989)

(26)
(27)

1 1. INTRODUÇÃO

Funções de pedotransferência (PTF) são funções preditivas utilizadas para estimar atributos do solo de difícil mensuração, a partir de outros mais facilmente mensuráveis e que fazem parte de análises de rotina dos laboratórios ou dos levantamentos de solos (BOUMA, 1989; McBRATNEY et al., 2002). O uso de PTF vem sendo bastante difundido (McBRATNEY et al., 2011), principalmente, devido à falta de informação a respeito das propriedades hidráulicas do solo. Essas propriedades são essenciais para aplicação de modelos de simulação de processos hidrodinâmicos do solo, com o objetivo de compreender a dinâmica de água e de solutos neste meio, e dar suporte à avaliação de problemas agrícolas e ambientais.

As PTF são desenvolvidas a partir de um conjunto limitado de dados, e nem sempre é claro até que ponto elas podem ser utilizadas em ambientes diferentes do qual ela foi desenvolvida (McBRATNEY et al., 2002; MEDINA et al., 2002; TOMASELLA et al., 2000). Além disso, a utilização de PTF disponíveis para uma região pode gerar estimativas consideravelmente diferentes (NEMES et al., 2003; SCHAAP et al., 1998). Como consequência, os usuários encontram uma grande dificuldade na seleção da PTF mais apropriada para o seu conjunto de dados (ACUTIS e DONATELLI, 2003).

Os estudos de avaliação e comparação de PTF comumente classificam essas funções de acordo com o seu desempenho, em termos de acurácia, diante da aplicação em determinado conjunto de dados. Avaliação funcional, também, tem sido explorada (VEREECKEN et al., 1992; WOSTEN et al., 2004). A raiz quadrada do erro médio (RMSE) é o índice mais utilizado nestes estudos de avaliação (CORNELIS et al., 2001; KERN, 1995; PACHEPSKY e RAWLS, 1999; TIETJE e TAPKENHINRICHS, 1993). Conforme destacado por BOTULA et al. (2012), quando se trata de PTF para solos tropicais esses estudos são ainda mais limitados.

Ainda, na avaliação de PTF pouca atenção tem sido dada para análise do comportamento dos erros, já que na maior parte dos estudos frequentemente busca-se a correspondência entre os valores estimados e os medidos. A análise dos erros das PTF em função dos atributos do solo, tais como a granulometria, densidade do solo e teor de carbono total pode dar indicações a respeito do efeito dos atributos do solo na estimativa dada pela função, podendo indicar opções para melhorar sua capacidade preditiva. Bell e van Keulen (1995), Cresswell e Paydar (1996), Mayr e Javis (1999), Tomasella et al. (2000), Hodnett e Tomasella (2002), Donatelli et al. (2004), Nemes et al. (2009) e Buccigrossi et al. (2010)

(28)

2

utilizaram este tipo de análise e encontraram padrões nos erros em função de atributos do solo. A maior parte destes estudos, normalmente, analisa o erro em função de determinada propriedade do solo por meio de gráficos 2D. Portanto, a combinação de atributos que levam a determinados erros não pode ser avaliada.

A relação entre retenção de água e atributos do solo parece ser complexa, não linearidade e interações são comumente observadas. O mesmo nível de complexidade pode ser esperado para a relação entre os erros na estimativa da retenção de água por PTF e os atributos do solo. Neste contexto, modelos baseados em árvore de decisão apresentam-se como uma alternativa promissora, uma vez que são conhecidos pela sua habilidade de modelar relações complexas entre diferentes fatores. As árvores também adicionam clareza às análises, pois são representações simples, o que facilita tanto a atuação do especialista da área, quanto a utilização por parte do usuário final (FAYYAD et al., 1996; HAN et al., 2011). Essas representações permitem a compreensão das fronteiras de decisão que existem nos dados e também da lógica implícita neles (APTE e WEISS, 1997). A intenção é compreender quais variáveis e interações conduzem ao fenômeno estudado. De acordo com McKenzie e Ryan (1999), uma das principais vantagens dos modelos baseados em árvore de decisão é a capacidade de modelar relações não aditivas e não lineares de uma maneira relativamente simples. Este fato é de grande utilidade para estudos envolvendo dados pedológicos, nos quais as interações entre a variável resposta e as variáveis ambientais explicativas dependem, na maioria dos casos, de outras variáveis explicativas. Essas propriedades das árvores na área de PTF foram demonstradas por Rawls e Pachepsky (2002) e Pachepsky e Rawls (2003).

A hipótese científica deste trabalho foi que é possível identificar e avaliar padrões nos erros das PTF utilizadas para estimar a retenção de água no solo, por meio de modelos baseados em árvore de decisão. Outra hipótese é que a identificação dos padrões nos erros das PTF fornecerá subsídios para o uso de tais funções de forma mais confiável e precisa.

O objetivo geral deste trabalho foi obter árvores de decisão capazes de auxiliar na compreensão de quais atributos do solo afetam o desempenho das PTF na estimativa de retenção de água no solo. Esta avaliação é importante, pois contribui para identificação de erros sistemáticos na aplicação destas funções. Pode, também, ser utilizada por desenvolvedores de PTF como uma forma de diagnóstico a ser explorada, onde erros

(29)

3

encontrados podem possivelmente ser corrigidos, ou, apresentados, aumentando a confiabilidade ao recomendar um modelo.

O objetivo específico foi analisar e interpretar os padrões nos erros, diante da aplicação de PTF dentro do próprio conjunto de dados utilizado para a geração da função, e em um conjunto de dados diferente do utilizado para o seu desenvolvimento. Fez parte dos objetivos específicos a avaliação das árvores junto ao especialista da área de aplicação, por meio de reuniões periódicas para discussão dos resultados obtidos.

Este estudo pode ser visto como uma tentativa de aumentar a confiança na utilização de PTF, uma vez que procura identificar condições nas quais a PTF tem ou não um desempenho satisfatório. Além disso, busca atender a demanda de trabalhos voltados para a avaliação de funções já disponíveis.

Os capítulos seguintes estão organizados conforme descrito. O capítulo 2 apresenta uma revisão bibliográfica do tema deste trabalho: funções de pedotransferência e árvore de decisão. A primeira parte apresenta uma revisão sobre funções de pedotransferência (item 2.1), iniciando com conceitos, aplicações e princípios envolvidos na geração e no uso destas funções. Em seguida, são apresentados os tipos de funções de pedotransferência e os principais métodos utilizados para a sua geração (item 2.1.1). Por fim, destaca-se a forma como estas funções são normalmente avaliadas e os principais problemas envolvidos neste processo (2.1.2). A segunda parte trata da mineração de dados (item 2.2), apresentando a metodologia CRISP-DM (Cross Industry Standard Process for Data Mining) e as principais tarefas e técnicas (item 2.2.1). Será dado destaque para as tarefas preditivas, mais especificadamente indução com árvore de decisão (item 2.3), que será a técnica utilizada neste trabalho.

O capítulo 3 apresenta os materiais e métodos utilizados. Os dados utilizados, as PTF avaliadas, e o modelo adotado são apresentados com base no processo utilizado para a extração do conhecimento: Entendimento dos dados (item 3.1); Preparação dos dados (item 3.2); Modelagem (item 3.3) e Avaliação dos Resultados (item 3.4).

O capítulo 4 apresenta os resultados e a discussão, e está organizado de acordo com as avaliações feitas: Avaliação da PTF dentro do próprio conjunto de dados utilizado na sua geração (item 4.1); Avaliação de PTF em um conjunto de dados diferente do utilizado na sua geração (item 4.2).

(30)

4

O capítulo 5 apresenta as conclusões e sugestões para trabalhos futuros. Ao final estão apresentadas as referências bibliográficas.

(31)

5 2. REVISÃO BIBLIOGRÁFICA

2.1. Funções de Pedotransferência

Funções de pedotransferência (PTF) são funções preditivas de atributos do solo de difícil determinação, a partir de outras medidas obtidas de forma mais simples e com menor custo (McBRATNEY et al., 2002). Estas funções permitem que atributos básicos do solo, oriundas de levantamentos, ou obtidos a partir de sistemas de informação geográfica, sejam traduzidos em atributos cuja determinação direta é cara e laboriosa. Com isso, busca-se preencher a lacuna existente entre dados disponíveis e dados e informações demandados.

O termo funções de pedotransferência foi introduzido por Bouma (1989), com o significado de “transformar dados que possuímos em dados que necessitamos”, na tentativa de padronização do termo, e também para evitar confusões com o termo “funções de transferência”, utilizado em outras áreas para designar diferentes tarefas. O termo pedotransferência foi inicialmente aplicado para designar as relações entre atributos do solo e transferência de água, no entanto, como ressaltado por Pachepsky e Rawls (2004), PTF tem um sentido mais abrangente, descrevendo qualquer relação matemática entre atributos do solo. De fato, as PTF surgiram na fase inicial de desenvolvimento quantitativo da ciência do solo, numa tentativa de prever alguns atributos a partir de outros, quando ficou claro que todos os atributos e processos estão mutuamente relacionados, e que se pode determinar vários outros atributos a partir de um conjunto de parâmetros básicos do solo (SHEIN e ARKHANGEL’SKAYA, 2006). O conceito de PTF vem sendo aplicado há muito tempo e são inúmeros os trabalhos disponíveis a respeito do assunto (ARRUDA et al., 1987; VAN DEN BERG et al., 1997; MAYR e JARVIS, 1999; RAWLS et al., 1991; TOMASELLA et al., 2000; VEREECKEN et al., 1989; WÖSTEN et al., 1995).

A pesquisa mais frequente no desenvolvimento de PTF foi para a estimativa da retenção de água, sendo que, dados de granulometria constituem a principal variável de entrada utilizada nessas equações (VEREECKEN et al., 2010).

Revisões sobre o desenvolvimento e uso de PTF podem ser encontradas em: Pachepsky e Rawls (2004); Shein e Arkhangel’skaya (2006); Wosten et al. (2001); e Vereecken et al. (2010). Revisões sobre PTF para solos tropicais são apresentadas por Minasny e Hartemink (2011) e Tomasella e Hodnett (2004).

(32)

6

A maior parte dos trabalhos concentra-se, sobretudo, em países de clima temperado, cujas propriedades edafoclimáticas são diferentes das regiões tropicais, o que torna inviável a extrapolação de funções (McBRATNEY et al., 2002; TOMASELLA et al., 2000; VAN DEN BERG et al., 1997). No Brasil, ainda, são poucas as referências sobre pedotransferência (MINASNY e HARTEMINK, 2011). A Tabela 1 apresenta um resumo dos trabalhos levantados para solos do território brasileiro no decorrer desta pesquisa. Destaque para os trabalhos de van den Berg et al. (1997), Tomasella et al. (2000), Lopes-Assad et al. (2001) e Hodnett e Tomasella (2002), que apresentam um maior alcance regional, sendo de grande importância para o desenvolvimento de diversos trabalhos.

(33)

7

Tabela 1. Funções de pedotransferência para solos do Brasil.

Variáveis preditas Preditores Localização dos solos Referências

θ-33kpa e θ-1500 kPa argila + silte, DS Estado de São Paulo Arruda et al. (1987)

θ-1500 kPa e SWRC θ-33kpa e argila + silte Solos do semiárido Silva et al. (1990)

θ-10kpa e θ-1500 kPa Granulometria, DS Ferrasols (Latossolos) do Brasil

van den Berg et al. (1997) Parâmetros de Brooks-Corey (1964) Granulometria, DS, porosidade

Amazônia brasileira Tomasella e Hodnett (1998) Parâmetros VG Granulometria, CO, Ueq,

DS Dados gerais de relatórios de levantamentos de solos Tomasella et al. (2000)

Retenção de água CO, silte Solos do semiárido da

África Ocidental e Nordeste do Brasil Gaiser et al. (2000) θ-10kpa, θ-1500 kPa e AD

Areia total Solos das regiões Sul e Sudeste

Lopes-Assad et al. (2001) θ-33kpa e θ-1500 kPa Granulometria e DS Solos de Pernambuco Oliveira et al.

(2002) Parâmetros VG Granulometria, DS, mineralogia de argilas Ferrasols (latossolos), Andossols e outros Hodnett e Tomasella (2002) Parâmetros VG Propriedades químicas e

físicas

Solos do Rio Grande do Sul Peraza (2003) θ-1kpa, θ-33kPa, θ -100kPa, θ-300kPa, θ -1500kPa. Granulometria, DS, resistência à penetração

Região central do estado de São Paulo

Netto (2007)

θ-1kpa, θ-6kPa, θ-33kPa, θ-100kPa, θ-500kPa, θ -1500kPa

Granulometria e DS Solos do Rio Grande do Sul

Urach (2007)

θ-6kpa, θ-10kPa, θ-33kPa, θ-100kPa, θ-500kPa, θ -1500kPa e AD

Porosidade total,

granulometria, DS, DP e da partícula, matéria orgânica

Solos do Rio Grande do Sul

Reichert et al. (2009)

Parâmetros VG Granulometria, DS, MO Solos da Região Nordeste

Barros et al. (2013)

θ-6kpa, θ-10kPa, θ-33kPa, θ-100kPa, θ-500kPa, θ -1500kPa

Granulometria, DS, DP, porosidade

Solos do Rio Grande do Sul

Michelon et al. (2010)

DS: densidade do solo; MO: matéria orgânica; DP: densidade da partícula; VG: van Genuchten; AD: água disponível; Ueq: umidade equivalente; CO: carbono orgânico.

(34)

8

Dado o elevado número de trabalhos visando à geração de PTF, Minasny e Hartemink (2011) definiram quatro princípios para o desenvolvimento e uso destas funções. Os três primeiros princípios são para o desenvolvimento, e o último para o uso de PTF.

O primeiro princípio trata do esforço na geração de uma PTF: “Não predizer algo que é mais fácil medir do que o preditor”. Uma vez que o objetivo de uma PTF é predizer atributos, cuja determinação é complexa e/ou cara, os preditores devem ser de obtenção mais fácil e barata. O uso de informações de solos disponíveis em levantamentos para predizer uma variável perdida, que não foi determinada, constitui uma PTF, mesmo quando a informação predita apresenta determinação direta menos complexa e/ou mais barata, em relação à dos preditores.

O segundo refere-se à necessidade de se ter um embasamento físico na seleção dos atributos que serão utilizados como preditores. O desenvolvimento de PTF não deve ser um exercício estatístico. O desenvolvedor deve ter conhecimento sobre solos, e usar este conhecimento para selecionar atributos lógicos.

O terceiro princípio explicita a necessidade de apresentação da estatística das variáveis utilizadas na geração da PTF. McBratney et al. (2011) chamam a atenção para a necessidade de inclusão de metadados na geração de PTF. A falta de informações a respeito de diversas PTF disponíveis na literatura impossibilita o seu uso de forma confiável. Em alguns casos, não se tem informações básicas, como por exemplo, a unidade das variáveis utilizadas. Os autores sugerem três tabelas que deveriam fazer parte de todo estudo para a geração de uma PTF, para que os usuários possam avaliar se podem utilizar potencialmente determinada função em seus dados. A primeira deve conter informações gerais e a estatística básica do conjunto de dados utilizado para treinamento e calibração da PTF. A segunda tabela deve prover informações gerais e a estatística básica da variável a ser predita. A terceira deve apresentar uma análise estatística do conjunto a ser utilizado na validação. A apresentação dos metadados é essencial para os usuários, e pode ajudá-los a decidir qual PTF melhor se enquadra aos seus dados.

O quarto princípio é direcionado aos usuários: “Não se deve usar uma PTF a menos que se possa avaliar a incerteza associada, e para um dado problema, se houver mais de uma PTF disponível, utilizar aquela que apresenta a menor variância”. Este princípio implica em dois subprincípios: a incerteza de PTF deve ser quantificada; e se várias PTF estiverem

(35)

9

disponíveis, deve-se utilizar aquela com menor variância, ou a que tenha utilizado dados semelhantes para calibração do modelo. Segundo McBratney et al. (2002), as incertezas de uma PTF são devidas a duas principais fontes: aos dados de entrada e ao modelo utilizado. Os dados de entrada apresentam graus variados de incerteza, principalmente devido à variabilidade das propriedades físico-hídricas dos solos. Minasny et al. (1999), ao analisar a incerteza de parâmetros, constataram que o erro na determinação da textura e a variabilidade espacial dos dados de entrada podem causar propagação de erro na estimativa do teor de água. A incerteza do modelo pode ser calculada pelo método de cross-validation (PACHEPSKY et al., 1999) ou pela análise de primeira ordem, se as PTF forem geradas pelo método dos quadrados mínimos. Já a incerteza nos dados de entrada pode ser calculada pelo método de simulação Monte Carlo (McBRATNEY et al., 2002).

2.1.1. Tipos de PTF para estimativa de valores de retenção de água no solo e métodos utilizados na sua geração

Funções de pedotransferência são classificadas como um método indireto empírico de determinação da curva de retenção de água (SCHAAP, 2005). Outro tipo de método indireto são os semifísicos, que se baseiam em suposições mecânicas sobre partículas e arranjo de poros do solo (ARYA e PARIS, 1981; HAVERKAMP e PARLANGE, 1986).

Na determinação da curva de retenção de água no solo, as PTF podem ser classificadas em dois tipos: PTF tipo classe e PTF contínuas. As PTF do tipo classe estimam as propriedades hidráulicas para um conjunto particular de solos (AL-MAJOU et al., 2008; BRUAND et al., 2003; WÖSTEN et al., 1999). Este conjunto pode ser definido, por exemplo, pela classe do solo definida com base em determinado sistema de classificação (Sistema Brasileiro de Classificação de Solos, Sistema Internacional de Classificação (WRB), Sistema dos EUA - Soil Taxonomy), ou mesmo pela classe textural, também, definida com base em determinado sistema. PTF deste tipo são fáceis de serem aplicadas, mas, apresentam limitações na precisão, uma vez que as estimativas representam uma média dos valores observados para cada classe definida; por exemplo, para cada classe textural estima-se um valor médio de retenção de água (WÖSTEN et al., 1995).

As PTF contínuas subdividem-se em dois tipos: PTF tipo ponto ou PTF tipo paramétrica (RAWLS et al., 1991). A estimativa pontual busca relacionar determinados

(36)

10

parâmetros do solo e valores de retenção de água em potenciais mátricos específicos (AHUJA et al., 1985; ARRUDA et al., 1987; ASSAD et al., 2001; GUPTA e LARSON, 1979; PACHEPSKY e RAWLS, 1999; RAWLS et al., 1982; SANTOS et al., 2013; VAN DEN BERG et al., 1997). Normalmente, as estimativas são feitas para os potenciais -10 kPa e -33 kPa, considerados como limites superiores da água disponível para solos arenosos e argilosos, respectivamente, ou capacidade de campo (CC), e para o potencial -1500 kPa, considerado como limite inferior da água disponível, ou ponto de murcha permanente (PMP) (REICHARDT, 1988; MEYER e GEE, 1999; MELLO et al., 2002). A água disponível (AD) pode ser representada pela diferença entre estes limites. Na literatura, CC e PMP representam dois pontos importantes da curva de retenção de água no solo. A curva de retenção descreve a relação funcional entre o potencial matricial do solo e seu teor de água gravimétrico ou volumétrico (HILLEL, 1998; JURY e HORTON, 2004). Uma vez que a forma da curva está relacionada com os vários atributos do solo, que são únicos para cada tipo de solo, Cornelis et al. (2001) considerou-a como a impressão digital de um solo.

Já a abordagem paramétrica visa estimar parâmetros de entrada e ajuste em equações analíticas que descrevem os valores de retenção de água no solo em toda uma gama de pressões. A principal equação utilizada é a de van Genuchten (1980), devido à facilidade de incorporação em modelos de simulação (Equação 1).

m n r s r h|) ) | ( 1 (( ) (

    (1)

onde θ é o conteúdo de água volumétrica (cm3 cm-3); θr e θs são o conteúdo de água residual e na saturação, respectivamente; h o valor absoluto do potencial mátrico (kPa); e os índices α, m e n são parâmetros de ajuste da curva.

Van den Berg et al. (1997) geraram PTF do tipo ponto e do tipo paramétrica e concluíram que as estimativas para potenciais específicos são superiores aos métodos indiretos, como o de van Genuchten (1980). Resultados semelhantes foram encontrados por Barros et al. (2013), Minasny et al. (1999) e por Tomasella et al. (2003). Em trabalho anterior, Tomasella et al. (2000) sugeriram que se utilizem potenciais específicos mesmo para o cálculo de parâmetros de equações analíticas, interpolando valores na tentativa de reduzir a

(37)

11

variabilidade. Nos últimos anos, a maioria dos esforços vem sendo concentrada na estimativa paramétrica, pelo fato de fornecerem uma função matemática da curva de retenção de água, que pode ser diretamente incorporada em modelos matemáticos (VEREECKEN et al., 2010). Estes modelos são utilizados para estudo do comportamento do solo, e também, para simulação de cenários para avaliação do efeito de diferentes práticas na agricultura.

Tradicionalmente, os métodos de regressão são os mais utilizados na geração de PTF (LOPES-ASSAD et al., 2001; VAN DEN BERG et al., 1997; MAYR e JARVIS, 1999; SCHEINOST et al., 1997; VEREECKEN et al., 1989; WÖSTEN et al., 1995; WÖSTEN et al., 1999). No entanto, de acordo com Nemes et al. (2009) e Weynants et al. (2009), a utilização de algoritmos de busca global pode melhorar a estimativa dos parâmetros hidráulicos e, consequentemente, o desenvolvimento de PTF. Neste sentido, métodos baseados em redes neurais artificiais (RNA) têm sido explorados na estimativa dos valores de retenção de água no solo (KOEKKOEK e BOOLTINK, 1999; MERDUN et al., 2006; MINASNY et al., 1999; PACHEPSKY et al., 1996; SCHAAP et al., 1998). As RNA têm apresentado um desempenho superior, com relação aos indicadores básicos utilizados para avaliação de PTF, como por exemplo, o RMSE. Isto se deve ao fato das redes não exigirem uma estrutura de modelo a

priori, que relaciona os dados de entrada da PTF com os dados de saída (PACHEPSKY et al.,

1996; SCHAAP et al., 1998). Técnicas como árvores de regressão (RAWLS e PACHEPSKY, 2002), máquina de vetores de suporte (LAMORSKI et al., 2008; TWARAKAVI et al., 2009), a técnica denominada GMDH (do inglês, Group Method of Data Handling) (PACHEPSKY e RAWLS, 1999; PACHEPSKY et al., 1998), e métodos não paramétricos, como k-vizinhos mais próximos; k-NN (JAGTAP et al., 2004; NEMES et al., 2006; NEMES et al., 2009), também foram utilizados como métodos alternativos para geração de PTF.

De forma geral, estas técnicas têm mostrado resultados satisfatórios na estimativa de valores de retenção de água no solo, com resultados ora superiores a abordagens tradicionalmente utilizadas, ora semelhantes. Conforme ressaltado por Vereecken et al. (2010), existe ainda uma necessidade de continuar a avaliar e analisar os bancos de dados existentes, desenvolvendo e aplicando novos métodos de exploração de dados.

(38)

12 2.1.2. Avaliação de funções de pedotransferência

Na validação de um modelo, o objetivo principal é aumentar a confiança a cerca de sua precisão (DONATELLI et al., 2004), uma vez que um dos princípios da validação refere-se à impossibilidade de realização de todos os testes para uma “validação completa” (BALCI, 1997). Para o aumento da confiabilidade, não somente a acurácia deve ser avaliada, mas também outras características que podem afetar a aplicação do modelo.

Dada a dificuldade de obtenção de bases de dados representativas, o desenvolvimento, calibração e avaliação de PTF podem conduzir a resultados arbitrários. Portanto, cabe ao usuário a decisão de qual PTF é mais adequada para determinada aplicação. Isto implica na necessidade de avaliar as PTF utilizando diferentes critérios com o objetivo de melhorar a confiança na utilização destas funções.

Na avaliação de PTF, frequentemente busca-se a correspondência entre os valores estimados e os medidos. Uma abordagem que vem sendo aplicada é a avaliação das incertezas em um contexto de uma aplicação específica, após a incorporação das PTF em outros modelos; trata-se de uma avaliação funcional (BARROS, 2010; VEREECKEN et al., 1992; WOSTEN et al., 2004).

A acurácia da PTF é obtida por meio da comparação dos valores observados com os estimados, no mesmo conjunto de dados utilizado no desenvolvimento da função. Já na análise da confiança, os valores observados são diferentes daqueles utilizados para a sua geração (WÖSTEN et al., 2001). Quando o conjunto de dados é grande o suficiente, pode-se dividi-lo em duas partes: conjunto de treinamento e conjunto de teste. No entanto, na maior parte dos casos, o conjunto de dados não é grande o suficiente para ser particionado desta forma. Sendo assim, a confiança geralmente é determinada utilizando-se técnicas de amostragem. Dentre as mais utilizadas destaca-se a técnica do cross-validation e o método bootstrap (KIM, 2009; WITTEN et al., 2011).

Existe uma grande diversidade de estatísticas para avaliar tanto a acurácia quanto a confiança (PACHEPSKY et al., 1999). No entanto, conforme ressaltado por Donatelli et al. (2004), normalmente, apenas um número limitado de testes é realizado, devido à limitação de tempo e de recursos. Outro fator é a aceitação por parte dos usuários de diferentes limiares de confiança, de acordo com a aplicação do modelo, o que leva a um menor ou maior número de

(39)

13

testes exigidos. Como regra geral, quanto maior o número de testes que não demonstram a ineficiência de um modelo, maior a confiança na sua utilização.

Os índices mais utilizados para avaliar PTF são o erro médio (ME) (Equação 2) e a raiz quadrada do erro médio (RMSE) (Equação 3). O ME vai indicar onde a PTF subestima (ME < 0), ou superestima (ME > 0), os valores de retenção de água. Já o RMSE, sempre positivo, somente será zero se todos os valores preditos forem idênticos ao medidos. O RMSE pode ser interpretado como um desvio padrão de uma curva de retenção (TIETJE e TAPKENHINRICHS, 1993). Quanto mais baixo os valores tanto de ME, quanto de RMSE melhor é a PTF.

Quando utilizados para avaliar valores de retenção de água no solo em um potencial específico, o ME e o RMSE podem ser definidos como:

  N m p ME   (2)

  N m p RMSE 2 ) (  (3)

onde me p são os valores medidos e os valores preditos de retenção de água (cm3cm-3), e N é o número de exemplos avaliados.

Já quando estes índices são utilizados para comparar a curva como um todo, são definidos da seguinte forma (TIETJE e TAPKENHINRICHS, 1993) (Equação 4 e 5):

   b a h d m p a b ME 1 (  ) log| | (4) 2 | | log ) ( 1         

b a h d m p a b RMSE   (5)

ondeme p são os valores medidos e os valores preditos de retenção de água (cm3cm-3) ; h é o potencial mátrico (kPa) ; a e b definem a gama de pressões para qual a curva foi definida.

(40)

14

Outros índices encontrados para avaliar uma PTF são o coeficiente de determinação (R2) e o erro absoluto médio (MAE). O RMSE, que é o índice mais encontrado na literatura para avaliação de PTF, oscila entre 0,03 a 0,08 m3 m-3 (Tabela 2).

Tabela 2. Valores médios do RMSE encontrados na literatura (adaptado de Barros, 2010). Fonte (PTF) Média de RMSE (m3 m-3)

Gupta e Larson (1979) 0,060

Rawls et al. (1982) 0,065

Vereecken et al. (1989) 0,041

Scheinost et al. (1997) 0,057

van den Berg et al. (1997) 0,080

Schaap e Leij (1998) 0,013

Wosten et al. (1999) 0,051

Tomasella et al. (2000) 0,066

Hodnett e Tomasella (2002) 0,066

Tomasella et al. (2003) 0,037

Existem diversos estudos na literatura que avaliam e comparam o desempenho de PTF na estimativa da retenção de água no solo. Estes estudos de avaliação envolvem, principalmente, solos de regiões temperadas, e utilizam conjuntos de dados independentes. Tietje e Tapkenhinrichs (1993) avaliaram treze PTF disponíveis na literatura, utilizando um conjunto de dados com uma ampla gama de solos. As PTF foram classificadas com base no RMSE, sendo a função desenvolvida por Vereecken et al. (1989) a mais acurada. Kern (1995) avaliou seis PTF com a finalidade de identificar o mínimo de dados de entrada necessários. A avaliação foi feita com base no erro médio. Em Cornelis et al. (2001), erros absoluto e quadrático foram utilizados em conjunto com o coeficiente de correlação para avaliação da acurácia na predição da retenção de água de nove PTF disponíveis na literatura, em um conjunto de dados de solos da Bélgica. A função desenvolvida por Vereecken et al. (1989) foi a mais acurada. Ungaro e Calzolari (2001) utilizaram o MAE e o RMSE para avaliar PTF desenvolvidas por sete diferentes estudos para determinação da retenção de água. De acordo com o tipo de solo, as PTF mostraram diferentes respostas em termos de acurácia e os melhores resultados não estiveram associados aos modelos com maior número de variáveis. Buccigrossi et al. (2010) avaliaram a acurácia de seis PTF para o sudeste da Itália, agrupados por classes texturais, utilizando o RMSE, o MAE, o R2e a eficiência, definida por Romano e

(41)

15

Palladino (2002). Os autores constataram que o RMSE forneceu uma excelente informação a respeito do desempenho das PTF, uma vez que a classificação final das PTF com base somento no RMSE obedeceu a mesma ordem quando todos os índices foram considerados.

Alguns trabalhos avaliaram PTF para solos tropicais. Tomasella e Hodnett (2004) testaram PTF provenientes de dez estudos e concluíram que as PTF desenvolvidas para solos tropicais apresentaram acurácia semelhantes às das PTF desenvolvidas para solos temperados, e que uma das possíveis explicações para o melhor desempenho de determinada PTF poderia ser o número de variáveis consideradas, ou mesmo a técnica utilizada para sua geração. Nebel (2010) avaliou oito PTF utilizando RMSE, MAE, R2, semivariogramas e validação cruzada para solos de várzea, e concluiu que as PTF mais acuradas não foram as que tiveram o melhor desempenho para reproduzir a estrutura de variabilidade espacial dessas variáveis. Reichert et al. (2009) avaliaram a acurácia de PTF desenvolvidas para solos tropicais e para solos temperados, utilizando dados do estado do Rio Grande do Sul. Concluíram que PTF geradas a partir de um conjunto de dados que difere consideravelmente dos dados utilizados para avaliação do modelo apresentaram baixa acurácia, e que, portanto, PTF geradas para solos temperados não devem ser utilizadas para solos tropicais. Botula et al. (2012) avaliaram a acurácia de PTF tropicais e temperadas com base no erro médio e no erro quadrático para solos do Baixo Congo. Foi observado um melhor desempenho das PTF tropicais, com exceção da PTF de Schaap et al. (2001), desenvolvida para solos temperados utilizando RNA, que, também, apresentou um bom desempenho.

Observa-se que estes estudos de avaliação e comparação de PTF classificam estas funções de acordo com o seu desempenho, em termos de acurácia. A acurácia das diferentes PTF parece ter considerável dependência do conjunto utilizado para treinamento e teste do modelo, da metodologia utilizada para desenvolver a função e dos parâmetros utilizados. No entanto, as condições que afetam o desempenho da PTF não são identificadas de forma clara. Além disso, a utilização de medidas estatísticas como única forma de avaliação apresenta limitação com relação às conclusões que podem ser extraídas. Conforme Donatelli et al. (2004), diversos autores defendem a utilização de mais de um método para uma avaliação melhor fundamentada. Embora outras medidas possam ser utilizadas, os índices citados acima são dominantes. Ou seja, pouca atenção vem sendo dada para a análise de padrões dos erros. A análise dos erros e sua correlação com outras variáveis tais como a densidade e conteúdo de

(42)

16

matéria orgânica, podem revelar importantes detalhes a respeito do desempenho de uma PTF, adicionando confiança à sua utilização. Bell e van Keulen (1995) desenvolveram uma PTF para estimar a retenção de água a -1500 kPa, para solos de quatro contrastantes ambientes agroecológicos no México, e utilizaram os erros das PTF para identificar diferenças entre os locais, com relação à contribuição de argila e carbono orgânico (CO) nas estimativas. Cresswell e Paydar (1996) aplicaram cinco PTF amplamente utilizadas em um conjunto de dados de solos australianos, para avaliar o quão bem elas descrevem a curva de retenção de água do solo, e analisaram os erros das estimativas para verificar em quais pontos da curva os erros foram sistemáticos. Mayr e Jarvis (1999) desenvolveram uma PTF a partir de um conjunto de dados de solos da Inglaterra e do País de Gales e descobriram que os maiores erros ocorreram quando o teor de silte foi baixo e o teor de argila alto (> 65%); altos RMSE foram associados a solos de baixa densidade (<0,9 g cm-3) e/ou elevado CO (> 5%). Os autores analisaram o erro em função de atributos do solo por meio de gráficos 2D; com isso, combinação de atributos que levam a determinados erros não pôde ser avaliada. Tomasella et al. (2000) desenvolveram uma PTF para solos brasileiros e confrontaram os erros da PTF proposta e os erros das PTF propostas por Vereecken et al. (1989) e Saxton et al. (1986) com o teor de silte. Os autores constataram que, com o aumento do teor de silte, os erros da PTF proposta aumentaram gradualmente, enquanto que os das PTF avaliadas diminuíram. Hodnett e Tomasella (2002) geraram duas PTF diferentes para uma vasta gama de solos tropicais e avaliaram os erros de acordo com os valores de densidade do solo. Eles observaram que os maiores erros ocorreram para valores baixos de densidade, em ambas as funções. Donatelli et al. (2004) propuseram um índice de avaliação integrado, incluindo um teste padrão nos erros. Os autores relacionaram o diâmetro médio das partículas do solo, e o CO com os erros na estimativa da retenção. Em geral, para a maioria das PTF avaliadas foi observado um padrão nos erros com relação ao diâmetro médio das partículas e ao CO. Nemes et al. (2009) reavaliaram a PTF desenvolvida por Rawls et al. (1982) e verificaram que os erros não foram distribuídos de forma aleatória, mas correlacionada com as variáveis, especialmente com a matéria orgânica (R2 = 0,319). Os autores corrigiram este problema com a transformação dos dados (matéria orgânica em CO), e utilizaram a técnica do k-vizinhos mais próximo como uma alternativa para geração da PTF. Buccigrossi et al. (2010) correlacionaram os parâmetros de entrada de seis PTF com os erros das PTF para identificar os atributos que mais influenciaram

Referências

Documentos relacionados

Otite externa define-se como inflamação do conduto auditivo externo desde o pavilhão auditivo até à membrana timpânica, representando cerca de 5 a 12% (percentagem) das

A arquitetura de software a especificar e a concretizar como prova de conceito, impli- cará o desenvolvimento de uma Applet em Javacard para o elemento seguro, um serviço Android

Aplicando o nosso modelo acho que deve ser feito um trabalho antes com as situações, e tentar introduzir nos jovens uma consciência de uma relação saudável e

(W +H) φ with the F redholm index of the Wiener-Hopf minus Hankel operator (W −H) φ based on the winding number of a pie ewise almost periodi fun tion ( onstru ted from the. initial

À vista de tudo quanto foi dito, a forma mais adequada para compreender a questão parece ser a seguinte: (i) os direitos fundamentais são, em princípio,

Decidiu-se então criar um plano fatorial com base no ensaio Pn8, variando 3 parâmetros (pH, dose de depressor e dose de coletor) em dois níveis cada, tal como descrito no

Purpose: This thesis aims to describe dietary salt intake and to examine potential factors that could help to reduce salt intake. Thus aims to contribute to

Objetivou-se com este estudo avaliar a qualidade de leite pasteurizado com inspeção estadual pela pesquisa de estafilococos coagulase positiva, sua