• Nenhum resultado encontrado

XXXII Congresso Brasileiro de Ciência do Solo Mineração de dados aplicada ao mapeamento digital de solos: folha Dois Córregos

N/A
N/A
Protected

Academic year: 2021

Share "XXXII Congresso Brasileiro de Ciência do Solo Mineração de dados aplicada ao mapeamento digital de solos: folha Dois Córregos"

Copied!
5
0
0

Texto

(1)

XXXII Congresso Brasileiro de Ciência do Solo

“Mineração de dados aplicada ao mapeamento digital de solos: folha

Dois Córregos”

RAFAEL CASTRO CRIVELENTI

(1)

, RICARDO MARQUES COELHO

(2)

& SAMUEL FERNANDO

ADAMI

(2)

; STANLEY ROBSON DE MEDEIROS OLIVEIRA

(3)

1 Biólogo, Mestre em Agricultura Tropical e Subtropical. Centro de Solos e Recursos Ambientais, Instituto Agronômico, Caixa Postal 28, CEP 13020-902, Campinas, SP. Email: grilasso@hotmail.com.

2 Instituto Agronômico, Centro de Solos e Recursos Ambientais, Caixa Postal 28, CEP 13020-902, Campinas, SP. Email: rmcoelho@iac.sp.gov.br; samuel@iac.sp.gov.br.

3 Embrapa Informática Agropecuária, Av. André Tosello n.º 209, CEP 13.083-886, Barão Geraldo, Campinas, SP. Email: stanley@cnptia.embrapa.br.

RESUMO – Técnicas de mapeamento digital de solos

ainda são de conhecimento relativamente incipiente para seu uso com confiabilidade. Esta pesquisa buscou desenvolver técnica de mapeamento digital de solos para a folha Dois Córregos, SP (1:50.000), com apoio de parâmetros geomorfométricos, de geologia e com base de dados pré-existentes de solo. O Modelo Digital de Elevação da folha topográfica Dois Córregos forneceu os parâmetros geomorfométricos declividade, curvatura em planta e em perfil, área de contribuição da bacia e distância diagonal da drenagem. Esses parâmetros, associados por georreferenciamento aos mapas de solos, permitiram construção de uma matriz de dados de geologia, geomorfometria e solos. Em ambiente de aprendizado de máquina, essa matriz foi analisada por árvores de decisão para geração do modelo de predição de unidades de mapeamento de solos com legenda simplificada. O maior poder preditivo obtido pela variável geologia deveu-se às características granulométricas contrastantes das formações geológicas locais. Balanceamento de classes para treinamento e pré-poda da árvore pelo número de registros contribuíram para a maior acurácia do modelo (61%).

Palavras-Chave: levantamento de solos; árvores de

decisão; sistemas de informação geográfica

Introdução

Distribuição espacial, caracterização e interpretação dos solos para diferentes usos são dadas pelos levantamentos pedológicos. O mapeamento digital de solos é a criação de sistemas de informação espacial, utilizando modelos numéricos para a inferência das variações espaciais e temporais dos tipos de solos e de suas propriedades, a partir de observações e conhecimento dos solos e de variáveis ambientais correlacionadas [1]. Se o seu uso pode introduzir algumas vantagens em relação ao método tradicional para mapeamento de solos, por ser mais rápido e econômico [2], em muitos casos, as técnicas ainda precisam ser melhoradas e suas limitações conhecidas para sua aplicação com confiabilidade.

A mineração de dados consiste na aplicação de técnicas inteligentes para extração de padrões de

interesse em banco de dados. Uma das técnicas que pode ser usada nessa etapa é a de Árvores de Decisão, que permite implementar tarefas de classificação de dados e predição de classes, fazendo uso de estatística e de aprendizado de máquina [3].

O objetivo deste trabalho foi desenvolver metodologia para mapeamento digital de solos da folha Dois Córregos, com apoio de parâmetros geomorfométricos, geologia e de base de dados oriundos de levantamentos de solos existentes, com uso de árvores de decisão.

Material e Métodos

A. Área de estudo

A folha Dois Córregos na escala 1:50.000 (SF-22-Z-B-III-3) localiza-se na região central do estado de São Paulo e caracteriza-se por dois tipos climáticos predominantes: um Aw, tropical chuvoso com inverno seco e mês mais frio com temperatura média superior a 18ºC; e outro Cwa, subtropical, com inverno seco e mês mais quente com temperatura média superior a 22ºC [4]. O relevo é representativo de três províncias geomorfológicas, que também delimitam formações geológicas distintas [5][6]: a) Planalto Ocidental, com arenitos da formação Itaqueri; b) Cuestas Basálticas, com basaltos da formação Serra Geral e arenitos da formação Botucatu; e c) Depressão Periférica, com arenitos e folhelhos da formação Pirambóia.

B. Formação do banco de dados

A carta topográfica 1:50.000 em formato raster foi digitalizada e vetorizada. A carta geológica 1:1.000.000 [6] foi escaneada, georreferenciada e vetorizada. A carta pedológica foi extraída da quadrícula Brotas (escala 1:100.000) [7] previamente digitalizada, e foi georreferenciada. A legenda de solos do mapa pedológico original foi simplificada para a folha Dois Córregos, unificando-se as unidades de mapeamento pelo 3º nível categórico do Sistema Brasileiro de Classificação de Solos [8] e por grupamento de textura. O modelo digital de elevação (MDE) com 30 m de resolução foi gerado em ArcGIS e os parâmetros geomorfométricos declividade, curvaturas em planta e perfil, distância diagonal da drenagem [9] e área de contribuição foram obtidos no software Ilwis Academic [10] e Idrisi Andes [11]. Após

(2)

classificação dos mapas dessas variáveis de relevo, eles foram cruzados com os mapas de geologia e solos da área, o que permitiu obtenção de uma matriz de dados com 794.273 linhas, em que cada linha representou um pixel (30 x 30 m) do mapa 1:50.000, contendo informações discretas de cada parâmetro.

No software Weka 3.5.6 [12], após pré-processamento da matriz de dados, foram usados 90 % dos registros (linhas) da matriz de dados, escolhidos aleatoriamente, para treinamento por árvores de decisão e 10 % dos registros foram usados para validar o modelo gerado. O treinamento por árvores de clasificação foi realizado em três diferentes balanceamentos de classes, recurso usado para não favorecer, na geração do modelo de aprendizado, as unidades de mapeamento com maior área de ocorrência. Os balanceamentos utilizados foram 0, 0,5 e 1, que representam, respectivamente, a distribuição original dos dados, a distribuição com subamostragem das classes (unidades de mapeamento) com maior ocorrência e a distribuição com igual proporção de ocorrência para todas as classes. A validação foi feita por meio das acurácias geral do modelo e individual de cada unidade de mapeamento.

Resultados e Discussão

Os solos da folha Dois Córregos estão distribuídos em quatro ordens do Sistema Brasileiro de Classificação de Solos: Latossolos, Argissolos, Nitossolos e Neossolos (Tabela 1). Os Latossolos ocupam a maior parte da área (64,3%), com destaque para o Latossolo Vermelho-Amarelo distrófico textura média (40,5%). O Argissolo Vermelho-Amarelo também está presente em grande parte da área, com 22% de distribuição, sendo que os Neossolos (5,5%) e Nitossolos (8,2%) apresentam menor expressividade.

A acurácia das predições por árvores de decisão nos diferentes balanceamentos de classe é mostrada nas tabelas 2 e 3. Observa-se que três das quatro unidades de mapeamento de menor extensão no mapa original: Latossolo Vermelho distrófico textura argilosa, Latossolo Vermelho distroférrico textura argilosa ou muito argilosa e Argissolo Vermelho-Amarelo distrófico textura média ou arenosa/média, não foram preditas no modelo com balanceamento de classes igual a 0. Com balanceamento 0,5, que aumenta a amostragem das classes pouco extensas e diminui a amostragem nas classes já abundantemente amostradas, essas três unidades são preditas com acurácia em torno de 10%. Em contrapartida, os Neossolos Quartzarênicos, com acurácia de 34% no balanceamento de classes zero, têm a acurácia reduzida no balanceamento 0,5. Curiosamente, esse Neossolo é aquele de menor área na folha (1%) e, ao contrário das três unidades citadas anteriormente, foi predito com acurácia relativamente (à sua extensão) elevada (34,5%) no balanceamento zero. Imagina-se que a localização e distribuição do único polígono de Neossolo Quartzarênico na folha, alongado e no limite norte da folha, em associação com o sistema de

amostragem para treinamento seja causa desse contraste da acurácia em relação às outras unidades de mapeamento de solos de pequena extensão. As outras unidades de mapeamento, que apresentaram maior distribuição na folha, a exemplo do Latossolo Vermelho-Amarelo distrófico textura média e Argissolo Vermelho-Amarelo eutrófico, quando foram reamostradas no treinamento do modelo (balanceamentos 0,5 e 1), não tiveram sua acurácia diminuída. Isto se deve à grande representatividade destas unidades na folha, o que minimiza efeitos de redução de amostragem. À exceção dos Neossolos Quartzarênicos, o balanceamento de classes 0,5 apresentou maior acurácia que o não-balanceamento (zero) ou o balanceamento 1, em todas as classes (unidades de mapeamento). O balanceamento de classes 0,5 foi, assim, o que deu maior acurácia às unidades de mapeamento de solos, considerando-se o conjunto dessas unidades.

Todavia, a situação em que obteve-se maior acurácia para unidades de mapeamento foi ao eliminar-se as três unidades de mapeamento com 0% de acurácia no balanceamento zero (11% dos dados). Isso implicou em uma elevação da acurácia de predição do modelo em geral (Tabela 4) e das unidades de mapeamento de solos individualmente (Tabela 5), principalmente devido a uma redistribuição dos dados de modo mais homogêneo entre as demais unidades. Neste caso, o aumento no balanceamento de classes para treinamento de 0 para 1 reduz a acurácia de predição do modelo em 18%, provavelmente devido ao aumento das classificações incorretas por sub-amostragem de unidades de maior área na folha de estudo. Porém, com a retirada das unidades de mapeamento com probabilidade nula de ocorrência houve aumento na acurácia do modelo de 6% na média dos três balanceamentos de classe, com a maior acurácia (61 %) ocorrendo no balanceamento zero (Tabela 4).

O número de regras gerado por esse modelo foi elevado (Tabela 6), mesmo após eliminação das unidades com acurácia zero (98 regras). Para diminuir o número de regras geradas e aumentar a acurácia das estimativas de erro que, com o crescimento da árvore, são avaliadas em amostras cada vez menores, realizou-se pré-poda da árvore. As classes de poda 20, 50 e 100 representam o número mínimo de pixels que as regras devem considerar até que se encontre uma unidade de mapeamento de solo (folha da árvore). A acurácia do modelo não diferiu entre as três classes de pré-poda, mantendo-se em 61% (Tabela 7). A pré-poda 100 contribuiu para a diminuição em 12 % do número de regras (86 regras). Isto evidencia que determinadas combinações (regras) de variáveis geomorfométricas e geológicas são pouco relevantes na inferência das unidades de mapeamento de solos e, assim, podem ser desconsideradas. Como a classe de poda 100 corresponde à área mínima mapeável na escala 1:50.000 (9 hectares), a manutenção da acurácia mesmo nessa classe de poda sugere que poder-se-ia aumentar a classe de poda até possivelmente 400, valor correspondente à área mínima mapeável na escala 1:100.000 (36 hectares), escala de publicação original, sem prejuízo da precisão cartográfica do mapa digital pedológico, o que reduziria ainda mais o número de regras de classificação.

(3)

Formação geológica foi a variável mais influente na predição das unidades de mapeamento, seguida por distância diagonal > declividade > curvatura em perfil > curvatura em planta > área de contribuição da bacia. A diferenciação da mais extensa ordem de solos que ocorre na folha, a dos latossolos, predominantemente devido a diferenças texturais entre as unidades de mapeamento, conjugada à diferenciação entre as formações geológicas locais (arenitos e basalto) condicionando fortemente os constituintes granulométricos do material resultante de sua alteração, é fator importante para o maior poder preditivo da variável formação geológica.

Bui et al., [13] aplicaram árvores de decisão com a ferramenta C5.0, a mesma usada neste trabalho, para mapeamento digital de solos na região de Toowoomba, Austrália. A partir de um MDE de 250 metros de resolução espacial, os autores obtiveram os parâmetros declividade, aspecto, curvaturas em perfil, em planta e tangencial e área de contribuição. A geologia foi obtida de mapa 1:250.000. Bui et al. [13] obtiveram coeficiente de incerteza para o mapa predito de 0,48 e concordância entre mapa predito e original de 69 %. O coeficiente Kappa para as classes individuais variou de 0,23 a 0,89, enquanto que o coeficiente kappa geral do mapa foi 0,64. O relativamente baixo coeficiente kappa obtido no mapa da folha Dois Córregos, 0,43 (Tabela 6), pode ter se dado devido a (a) simplificação da legenda original do mapa, o que reuniu em um mesmo solo domínios de relevo distintos; (b) baixa associação dos parâmetros escolhidos, particularmente os de relevo, com os solos; (c) problemas de precisão cartográfica ou exatidão taxonômica do mapa pedológico original; ou mesmo (d) problemas de precisão ou de exatidão na base de dados de relevo.

Conclusões

O maior poder de preditivo da variável formação geológica em relação às variáveis descritoras do relevo para unidades de mapeamento pedológico da folha Dois Córregos deve-se ao grande contraste entre as litologias das formações geológicas locais, especialmente nas suas características que condicionam a granulometria dos solos.

O conjunto de atributos de relevo e geologia utilizados e sua classificação apresentaram acurácia relativamente elevada. Todavia, o balanceamento de classes pode aumentar essa acurácia e o ajuste de fatores como o número de registros para execução de pré-poda da árvore pode diminuir sua complexidade.

Referências

[1] LAGACHERIE, P.; McBRATNEY, A. B. 2007. Spatial soil information systems and spatial soil inference systems: perspectives for digital soil mapping. p.3-23. In: P. LAGACHERIE; A.B. McBRATNEY; M. VOLTZ (edit.). Digital Soil Mapping: An Introductory Perspective. Sydney: Elsevier, 2007. (Developments in Soil Science, v. 31) [2] MENDONÇA-SANTOS, M.L.; SANTOS, H. G.; DART, R.

O.; PARES, J. G. Digital mapping of soil classes in Rio de Janeiro state, Brazil: data, modelling and prediction. p. 381. In: HARTEMINK, A. E.; McBRATNEY, A. B.; MENDONÇA-SANTOS, M. L. (Edit.). Digital Soil Mapping with Limited Data. Amsterdam: Elsevier, 2008.

[3] BREIMAN, L.; FRIEDMAN, J.H.; OLSHEN, R.A. 1984. Stone, Classification and Regression Trees. Wadsworth. [4] CEPAGRI. 2006. Clima dos Municípios Paulistas. Disponível

em http://www.cpa.unicamp.br/outras- informacoes/clima-dos-municipios-paulistas.html. Acessado em 04 de abril 2008. [5] IPT (INSTITUTO DE PESQUISAS TECNOLÓGICAS DO

ESTADO DE SÃO PAULO). Mapa geomorfológico do estado de São Paulo (Série Monografias, 5). São Paulo. v. 1 (Nota Explicativa) e 2 (Mapa), 1981a.

[6] IPT (INSTITUTO DE PESQUISAS TECNOLÓGICAS DO ESTADO DE SÃO PAULO). Mapa geológico do estado de São Paulo (Série Monografias, 6). São Paulo. v. 1 (Nota Explicativa) e 2 (Mapa), 1981b.

[7] ALMEIDA, C.L.F.; OLIVEIRA, J.B.; PRADO, H. Levantamento pedológico semidetalhado do estado de São Paulo: quadrícula de Brotas. Mapa (escala 1:100.000). Campinas: Instituto Agronômico, 1989.

[8] EMBRAPA. Sistema Brasileiro de Classificação de Solos. 2ª edição. Rio de Janeiro: Embrapa Solos, 2006. 306 p.

[9] VALERIANO, M.M. Estimativa de variáveis topográficas para modelagem da perda de solos por geoprocessamento. Tese (Doutorado). Rio Claro: Universidade Estadual Paulista (Unesp), 1999. 172 p.

[10] ITC. Ilwis 3.3: User's Guide. Enschede: ITC. 2001. 530 p. [11] CLARK LABS. Idrisi Andes. Clark Labs, Clark University,

Worcester, MA, USA, 2006.

[12] WITTEN, I. H.; FRANK, E. Data mining: Practical machine learning tools and techniques. 2nd. ed. San Francisco: Morgan Kaufmann, 2005. 525p.

[13] BUI, E.N.; LOUGHHEAD, A.; CORNER, R. Extracting soil-landscape rules from previous soil surveys. Australian Journal of Soil Research, v.37, n.3, p.495-508, 1999.

(4)

Tabela 1. Proporção de ocorrência das unidades de mapeamento na folha Dois Córregos, após simplificação da legenda.

Unidades de Mapeamento Área (%)

LVA text. média 40,5

LVd text. argilosa 3,2

LVd text. média 12,3

LVdf text. arg. ou muito argilosa 3,9 LVef arg. ou muito argilosa 4,45

Urbana 0,43

NVe ou NVd arg. ou muito argilosa 8,15 PVAd text. méd. ou arenosa/média 3,7 PVAe text. aren/méd. ou méd/arg. 17,9 RLe ou RLd text. argilosa 0,21

RLe ou RLd text. média 4,26

RQ 1

TOTAL 100

Tabela 2 . Efeito do balanceamento das classes no modelo gerado para a folha Dois Córregos.

Balanceamento de classes 0 0,5 1

Regras geradas 172 294 418

Acurácia geral do modelo (%) 54,24 53 36,13 Coeficiente Kappa 0,37 0,36 0,25

Tabela 3. Acurácia (%) individual das unidades de mapeamento de solos da folha Dois Córregos.

Balanceamentos de Classes

Unidades de Mapeamento de Solos 0 0,5 1

LVd text. argilosa 0 12,3 3,8

LVd text. média 18,6 18,8 21,2

LVAd text. média 63 63,4 68,2

PVAe text. arenosa/média ou média/argilosa 63 65,3 65

RLe ou RLd text. média 57,9 54,5 52,4

RQd 34,5 18,9 8,9

LVdf text. argilosa ou muito argilosa 0 8,3 11,6 NVdf ou NVef text. argilosa 31,7 34,3 37,5 LVef text. argilosa ou muito argilosa 20,1 20,2 18,2 PVAd text. média ou arenosa/média 0 13,3 8,2 LVd – Latossolo Vermelho distrófico; LVAd – Latossolo Vermelho-Amarelo distrófico; PVAe – Argissolo Vermelho-Amarelo distrófico; RLe – Neossolo Litólico eutrófico; RLd – Neossolo Litólico distrófico; RQd – Neossolo Quartzarênico distrófico; LVdf – Latossolo Vermelho distroférrico; NVdf – Nitossolo Vermelho distroférrico; NVef – Nitossolo Vermelho eutroférrico; LVef – Latossolo Vermelho eutroférrico; PVAd – Argissolo Vermelho-Amarelo distrófico.

Tabela 4. Acurácia geral (%) do modelo nos diferentes balanceamentos de classes, retiradas as classes com probabilidade nula de

ocorrência no balanceamento de classes igual a zero.

Balanceamento de classes 0 0,5 1

Acurácia geral do modelo 54,24 53 36,13

Acurácia geral sem unidades com probabilidade nula de ocorrência 60,88 58,77 43

Tabela 5. Acurácia (%) individual das unidades de mapeamento de solos, retiradas as com probabilidade nula de ocorrência no

balanceamento de classes igual a zero.

Balanceamentos de Classes

Unidades de Mapeamento de Solos 0 0,5 1

LVd text. média 14,3 0 23,4

LVAd text. media 68,8 68,9 73,2

PVAe text. arenosa/média ou média/argilosa 63,7 65 65,1

RLe ou RLd text. média 62,3 56 55,6

RQ 61,1 17,6 10,9

NVd ou NVe text. argilosa 41,3 46 46,1

(5)

Tabela 6. Acurácias nos diversos balanceamentos das classes depois de retiradas as unimaps de solos com probabilidade nula de

ocorrência no modelo inicial da folha Dois Córregos.

Balanceamento de classes 0 0,5 1

Regras geradas 98 156 214

Acurácia geral do modelo (%) 60,88 58,77 43 Coeficiente Kappa 0,43 0,41 0,3

Tabela 7. Diferentes classes de pré-poda da árvore aplicadas nos dados de melhor acurácia geral.

Poda da Árvore de decisão Números de regras geradas Acurácia (%)

20 98 60,75

50 92 60,75

Referências

Documentos relacionados

A não uniformização quanto ao método de referência pode promover diferenças entre as curvas de calibração geradas por laboratórios de dosimetria citogenética, que podem

A variação do pH da fase móvel, utilizando uma coluna C8 e o fluxo de 1,2 mL/min, permitiu o ajuste do tempo de retenção do lupeol em aproximadamente 6,2 minutos contribuindo para

Field Studies on the Ecology of the Sand Fly Lutzomyia longipalpis (Diptera: Psychod- idae) at an Endemic Focus of American Visceral Leishmaniasis in Colombia. Bionomía de los

Esse trabalho, apresentado no contexto do Curso de Especialização de Educação na Cultura Digital da Universidade Federal de Santa Catarina, trata do processo de

Este presente artigo é o resultado de um estudo de caso que buscou apresentar o surgimento da atividade turística dentro da favela de Paraisópolis, uma

Changes in the gut microbiota appears to be a key element in the pathogenesis of hepatic and gastrointestinal disorders, including non-alcoholic fatty liver disease, alcoholic

seria usada para o parafuso M6, foram utilizadas as equações 14 e 15, referentes aos parafusos de 8 mm de diâmetro e folga entre parafuso e furo de 0,5 mm, que definem,

No entanto, os resultados apresentados pelo --linalol não foram semelhantes, em parte, aos do linalol racêmico, uma vez que este apresenta um efeito vasorelaxante em anéis de