• Nenhum resultado encontrado

Comparação entre quatro algoritmos de aprendizagem de máquina no mapeamento digital de solos do Vale dos Vinhedos, RS, Brasil

N/A
N/A
Protected

Academic year: 2021

Share "Comparação entre quatro algoritmos de aprendizagem de máquina no mapeamento digital de solos do Vale dos Vinhedos, RS, Brasil"

Copied!
5
0
0

Texto

(1)

Comparação entre quatro algoritmos de aprendizagem de máquina no

mapeamento digital de solos do Vale dos Vinhedos, RS, Brasil

ELIANA CASCO SARMENTO(1), ELISEU WEBER(2), ÉLVIO GIASSON(3),CARLOS ALBERTO

FLORES(4) & HEINRICH HASENACK(5)

(1) Primeiro autor é mestrando em Ciência do Solo, UFRGS. Av. Bento Gonçalves, 7.712, CEP 91540-000. Porto Alegre – RS, Brasil. e-mail: eliana.sarmento@ufrgs.br

(2) Segundo autor é doutorando em Fitotecnia, UFRGS. e-mail: eweber@portoweb.com.br (3) Terceiro autor é professor da UFRGS, Departamento de Solos. e-mail: giasson@ufrgs.br

(4) Quarto autor é Pesquisador da Embrapa Clima Temperado, BR 392 Km 78, C.P. 403, CEP 96001-970. Pelotas - RS, Brasil. e-mail: flores@cpact.embrapa.br

(5) Quinto autor é professor da UFRGS, Departamento de Ecologia. Av. Bento Gonçalves, 9.500, CEP 91540-000. Porto Alegre – RS, Brasil e-mail: hhasenack@ufrgs.br

Apoio financeiro: FINEP e CNPq.

RESUMO – Este trabalho testa quatro algoritmos de aprendizagem de máquina na predição da ocorrência de grupos de solos na Serra Gaúcha, Rio Grande do Sul, Brasil. Utilizou-se um Modelo Numérico do Terreno (MNT) com resolução espacial de 5 metros, uma base cartográfica digital 1:10.000, um mapa convencional detalhado de solos e software de SIG (Sistema de Informação Geográfica). Do MNT e da base cartográfica foram derivadas sete variáveis topográficas e hidrológicas, cujos valores e identificação do grupo de solos foram lidos em 1.288 pontos aleatoriamente distribuídos. Os dados destes pontos amostrais foram utilizados para treinar os algoritmos e então classificar os grupos de solos. O resultado foi avaliado através de matriz de erros, exatidão geral e índice Kappa. A árvore de decisão apresentou a melhor acurácia, seguida da rede neural SOM (Self Organizing Map). Ambos mostraram-se promissores para a predição da distribuição dos solos.

Palavras-Chave: mapeamento digital de solos, Sistemas de Informação Geográfica, aprendizagem de máquina.

Introdução

Os levantamentos tradicionais de solos contemplam um estudo do terreno e das principais características dos perfis de solo, compreendendo a descrição morfológica, a caracterização física e química e a classificação taxonômica, além da espacialização dos limites das unidades cartográficas para a obtenção do mapa final de classes de solo. Pela necessidade de caracterizar no campo e de realizar análises em laboratório, tais levantamentos são demorados e dispendiosos (Weber et al. [1]). Atualmente, a disponibilidade de tecnologias como GPS (Global

Positioning System) e Sistemas de Informação

Geográfica (SIG) tem permitido acelerar e objetivar a coleta de dados em campo, melhorar a precisão na delimitação das unidades de mapeamento, facilitar a disponibilização do produto final e potencializar os usos e aplicações dos levantamentos tradicionais (Aronoff [2]; Morris et al. [3]; Hempel et al. [4], Flores et al. [5]). De outro lado, essas tecnologias ampliaram as possibilidades de integrar informações espaciais de diversas origens e de realizar análises

complexas, contribuindo no desenvolvimento de novos métodos e técnicas voltados ao mapeamento digital de solos (Morris, et al. [3]; Zhu et al. [6]; McBratney et al. [7]; Giasson et al. [8]; Brodsky et al. [9]).

De acordo com Lagacherie & McBratney [10], o mapeamento digital de solos consiste na criação e população de sistemas espaciais de informação de solos, através do uso de modelos numéricos para a inferência das variações espaciais e temporais dos tipos de solos e de suas propriedades, a partir de observações e conhecimento dos solos e de variáveis ambientais correlacionadas. Assim como nos levantamentos convencionais, grande parte dos trabalhos de mapeamento digital de solos baseia-se nas relações entre os solos e as características da paisagem, geralmente derivadas de Modelos Numéricos do Terreno (MNT). Os modelos empregados para avaliar e quantificar essas relações baseiam-se principalmente em métodos paramétricos, que precisam ser calibrados com dados de solos, sobre os quais os parâmetros de entrada podem ser obtidos e o resultados das funções ajustadas podem ser avaliados (Lagacherie [11]). Sua aplicação exige uma base de conhecimento consistente sobre solos e sobre os processos pedogenéticos e suas relações com a paisagem.

Mais recentemente métodos não paramétricos baseados em algoritmos de aprendizagem de máquina (Machine

Learning Algorithms - MLA) também têm sido aplicados

ao mapeamento digital de solos. Aprendizagem de máquina é uma abordagem computacional de particionamento e categorização de dados que se baseia na idéia de “aprender” padrões existentes em bases de dados. Seu uso já é relativamente comum em outras aplicações, como no processamento de imagens de sensoriamento remoto. Os MLA tem a capacidade de processar grandes volumes de dados multidimensionais com baixo nível de intervenção humana, demandam tempo de processamento reduzido e têm apresentado valores de acurácia mais elevados do que métodos paramétricos (Lippitt et al. [12]). Todavia os MLA ainda são pouco compreendidos em função de uma falta de conhecimento sobre suas capacidades, limitações e aplicação para o mapeamento digital de solos.

O presente trabalho compara quatro algoritmos de aprendizagem de máquina para o mapeamento digital de solos, utilizando dados digitais de um levantamento aerofotogramétrico e um mapa convencional detalhado de solos. O objetivo foi avaliar o desempenho desses

(2)

algoritmos na predição de grupos de solos na Serra Gaúcha, Rio Grande do Sul, Brasil.

Material e Métodos

A área de estudo situa-se no Vale dos Vinhedos, na região da Serra Gaúcha, nordeste do Estado do Rio Grande do Sul. Compreende uma superfície de 673,5 ha, correspondente a uma carta na escala 1:5.000 da articulação do levantamento detalhado de solos do Vale dos Vinhedos, situada entre as coordenadas UTM (fuso 22) 444.055 mE, 446.540 mE, 6.772.460 mN e 6.775.285 mN. De maneira geral, as condições naturais da região são heterogêneas, com relevo complexo e grande variabilidade de tipos de solos (Sarmento et al. [13]).

O material utilizado consistiu em um Modelo Numérico do Terreno (MNT) com resolução espacial de 5 metros, uma base cartográfica digital em escala 1:10.000 e um mapa detalhado de solos produzido por levantamento convencional (Sarmento et al. [14]). O mapa original de solos contém 155 polígonos distribuídos em 37 unidades de mapeamento. O

software de SIG empregado para a execução de todos

os cálculos e análises foi o Idrisi Andes (Clarklabs©). A partir do MNT foram derivados cinco novos planos de informação raster, três deles referentes a variáveis topográficas (declividade, orientação e curvatura) e dois referentes a variáveis hidrológicas (acúmulo de fluxo e direção de fluxo). Além destes, foi calculada a distância linear dos cursos d´água a partir da rede de drenagem superficial da base cartográfica. O mapa original de solos foi agrupado para o primeiro nível (grupos de solos), resultando em 4 classes, e utilizado como verdade de campo para a caracterização das áreas amostrais. As áreas amostrais foram definidas por 1.288 pontos aleatoriamente distribuídos, correspondendo a uma razão de aproximadamente 1 ponto para cada 0,5 ha. Em cada ponto foram extraídos os valores correspondentes às variáveis anteriormente citadas, além da altitude e a identificação da classe de solos ocorrente no ponto.

Para o estabelecimento das relações entre as variáveis e a distribuição espacial dos solos foram utilizados quatro algoritmos de classificação baseados no conceito de aprendizagem de máquina, sendo três implementações de redes neurais (Fuzzy ARTMap, SOM e MLP) e uma árvore de decisão (Gini). De acordo com Lippitt et al. [12], os dois tipos de MLA utilizados neste trabalho são ambos abstrações do processo de aprendizagem humana, mas diferem fundamentalmente na sua abordagem: redes neurais simulam a estrutura de neurônios e conexões do cérebro humano, enquanto árvores de decisão simulam o processo de abstração humana através de uma categorização hierárquica.

As redes neurais procuram construir modelos matemáticos que tentam simular a forma como o cérebro humano processa informações. Elas são não lineares e podem ser entendidas como funções matemáticas complexas que convertem dados de

entrada (por exemplo, variáveis de relevo) para uma saída desejada, geralmente do tipo categórica (por exemplo, classes de solos). Uma rede neural típica contém uma camada de entrada, uma ou mais camadas intermediárias ocultas e uma camada de saída. Cada camada contém um conjunto de nós, chamados de neurônios, que estão conectados a todos os neurônios das outras camadas, com a possibilidade de aplicar diferentes pesos em cada conexão (Richards & Jia [15]).

Árvores de decisão ou de classificação (Classification

Trees – CT) usam um procedimento no qual os dados são

particionados recursivamente para formar subconjuntos homogêneos, resultando em uma árvore hierárquica de regras de decisão. As CT inicialmente analisam todas as variáveis de entrada e determinam uma divisão binária de uma variável isolada que minimize o desvio da variável dependente (classe) dos nós (bifurcações) recém-criados, ignorando particionamentos futuros e todos os dados de treinamento anteriormente particionados. Assim, enquanto o particionamento inicial é feito com todos os dados de entrada, cada partição subseqüente é executada com um subconjunto de dados de treinamento cada vez menor. Da mesma forma que as redes neurais, CT não assumem uma distribuição prévia dos dados e podem rapidamente caracterizar relações não lineares, com a vantagem de produzir regras de decisão facilmente interpretáveis (Rogan et al. [16]). O algoritmo Gini utilizado emprega uma medida de impureza para isolar o maior subconjunto homogêneo possível de dados em cada nó da árvore.

Todos os quatro algoritmos MLA foram empregados sobre o mesmo conjunto de pontos amostrais. A concordância entre os quatro mapas estimados e o mapa original de solos foi avaliada através de matrizes de erro, da exatidão geral e do índice Kappa (Cohen [17]).

Resultados e discussão

As tabelas 1 a 4 mostram as matrizes de erro obtidas com os quatro algoritmos e a tabela 5 apresenta a exatidão geral e o índice Kappa, calculados a partir das matrizes de erro. Os mapas estimados através da predição da ocorrência dos grupos de solos são mostrados na figura 1.

Os dados das tabelas 1 a 4 mostram que o algoritmo de árvore de decisão Gini foi o que melhor conseguiu reproduzir no mapa estimado (total das linhas) a proporção ocupada pelas diferentes classes no mapa original de solos (total das colunas). Constata-se também que os erros de omissão (colunas) variaram de 0,1501 a 0,8460 e os erros de inclusão (linhas) variaram de 0,2024 a 0,7833. A árvore de decisão Gini apresentou os menores erros de inclusão para todas as classes, enquanto os menores erros de omissão ficaram distribuídos em diferentes classes nas três redes neurais.

Os dados da tabela 5 mostram que tanto a exatidão geral quanto o índice Kappa foram maiores para a árvore de decisão em comparação com os três algoritmos de redes neurais. A exatidão geral variou de 0,5174 a 0,7129, respectivamente para a rede neural MLP e para a árvore de decisão (Gini). Entre as redes neurais, a melhor exatidão foi obtida com a rede SOM, com um valor de 0,6562, seguida da rede Fuzzy ARTMap, com 0,5712. Já o índice

(3)

Kappa variou de 0,3959 a 0,5813, respectivamente

para a rede neural Fuzzy ARTMap e para a árvore de decisão (Gini). Entre as redes neurais, o melhor Kappa foi obtido com a rede SOM, com um valor de 0,4653, seguida da rede MLP, com 0,3962. Conforme a escala proposta por Luoto & Hjort [18], as redes neurais Fuzzy ARTMap e MLP obtiveram concordância fraca e a rede neural SOM e a árvore de decisão apresentaram concordância moderada com os dados de referência.

A figura 1 mostra uma grande similaridade visual entre alguns dos mapas estimados, o que evidencia a importância de usar medidas quantitativas para avaliar a concordância de cada mapa estimado com o mapa original. A matriz de erros possibilita identificar as classes que melhor se ajustam e aquelas em que a predição está errando mais, e a exatidão geral e o índice Kappa fornecem medidas sobre a consistência do mapa estimado como um todo.

Os resultados encontrados expressam a capacidade dos algoritmos testados em reproduzir o mapa usado como referência. Conforme encontrado por Chagas et

al. [19], em função das incertezas na delimitação das

unidades de mapeamento, é provável que se obtenha resultados melhores caso sejam empregadas observações feitas in loco em vez de extrair os dados amostrais dos polígonos de um mapa existente. O mapa convencional contém generalizações decorrentes da tentativa de delimitar unidades de mapeamento homogêneas, enquanto o cálculo das variáveis derivadas do MNT é feito pixel a pixel, resultando em inconsistências nas amostras situadas próximo aos limites entre duas classes distintas.

Conclusões

A árvore de decisão apresentou a melhor acurácia na predição dos grupos de solos na área estudada, além de gerar regras de classificação facilmente compreensíveis e de fácil implementação em SIG.

A rede neural SOM apresentou acurácia próxima da árvore de decisão, mostrando-se também um método promissor para predizer a ocorrência de grupos de solos.

Os dois algoritmos apresentam grande facilidade de uso e não requerem suposições a priori sobre a natureza e relações entre os dados em análise.

Agradecimentos

À Financiadora de Estudos e Projetos (Finep) e ao CNPq, pelo apoio financeiro.

Referências

[1] WEBER, E.; HASENACK, H.; FLORES, C. A.; PÖTTER, R. O.; FASOLO, P. J. 2008. GIS as a Support to Soil Mapping in Southern Brazil. In: Hartemink, A. E.; McBratney, A.; Mendonça-Santos, M. L. Digital Soil Mapping with Limited

Data. Springer. Amsterdam, 436 p. Capítulo 9. p. 103-112. ISBN: 978-1-4020-8591-8, e-ISBN: 978-1-4020-8592-5.

[2] ARONOFF, S. 1991. Geographic Information Systems: a Management Perspective. Otawa: WDL. 294 p.

[3] MORRIS, D. K.; STIENHARDT, G. C.; NIELSEN, R. L.; HOSTETTER, W.; HALEY, S.; STRUBEN, G. R. 2000. Using GPS, GIS, and Remote Sensing as a Soil Mapping Tool. In Proc. 5th International Conference on Precision Agriculture. Bloomington, MN. Center for Precision Agriculture, University of Minnesota, St. Paul, MN.

[4] HEMPEL, J. W; HAMMER, R. D; MOORE, A. C.; BELL, J. C.; THOMPSON, J. A.; GOLDEN, M. L. 2006. Challenges to Digital Soil Mapping. In: Global Workshop on Digital Soil Mapping, 2. Proceedings. Rio de Janeiro. CD-ROM. 10 p.

[5] FLORES, C. A.; PÖTTER, R. O.; FASOLO, P. J.; HASENACK, H; WEBER, E. J. 2007. Levantamento semidetalhado de solos: Folha Palomas, Estado do Rio Grande do Sul. Editora da UFRGS. Porto Alegre, , 95 p. Capítulo 3. p. 21-28.

[6] ZHU, A. X.; HUDSON, B.; BURT, J.; LUBICH, K.; SIMONSON, D. 2001. Soil Mapping Using GIS, Expert Knowledge, and Fuzzy Logic. Soil Sci. Soc. Am. J., Vol. 65, september–October.

[7] McBRATNEY, A. B.; MENDONÇA-SANTOS, M. L.; MINASNY, B. 2003. On Digital Soil Mapping. Geoderma, 117. p. 3-52. [8] GIASSON, E.; CLARKE, R. T.; INDA JUNIOR, A. V.; MERTEN,

G. H.; TORNQUIST, C. G. 2006. Digital soil mapping using logistic regression on terrain parameters: A case study in Southern Brazil. Scientia Agricola, Piracicaba, SP, [online] v. 63, n. 3, p. 262-268. [9] BRODSKY, L.; BORUVKA, L.; HAJEK, F. 2006. Object-oriented

fuzzy analysis of remote sensing data for bare soil mapping. In: Global Workshop on Digital Soil Mapping, 2. Proceedings. Rio de Janeiro. CD-ROM. 6 p.

[10] LAGACHERIE, P.; McBRATNEY, A. B. 2007. Chapter 1. Spatial soil information systems and spatial soil inference systems: perspectives for Digital Soil Mapping. Pp. 3-24. In: LAGACHERIE, P.; McBRATNEY, A. B.; VOLTZ, M. (Editors). Digital Soil Mapping, an introductory perspective. Developments in soil science, volume 31. Elsevier, Amsterdam.

[11] LAGACHERIE, P. 2008. Chapter 1. Digital Soil Mapping: A State of the Art. In.: HARTEMINK, A. E.; McBRATNEY, A. B.; Mendonça-Santos, M. L. (Editors), Digital Soil Mapping with Limited Data. Springer. p. 3 -14.

[12] LIPPITT, C. D.; ROGAN, J.; LI, Z.; EASTMAN, J. R.; JONES, T. G. 2008. Mapping Selective Logging in Mixed Deciduous Forest: A Comparison of Machine Learning Algorithms. Photogrammetric Engineering and Remote Sensing, vol 74, n.o 10. p. 1201 – 1211. [13] SARMENTO, E. C.; WEBER, E. J.; HASENACK, H.; TONIETTO,

J.; MANDELLI, F. 2006 .Topographic modeling with GIS at Serra Gaúcha, Brazil: elements to study viticultural terroir. In: Terroir Viticoles 2006 VI Congrès Internacional. Bordeaux. Vigne et vin Publications Internacionales, 2006. v.1. p. 365-372.

[14] SARMENTO, E. C.; FLORES, C. A.; WEBER, E.; HASENACK, H. & POTTER, R. O. 2008. Sistema de informação geográfica como apoio ao levantamento detalhado de solos do Vale dos Vinhedos. Rev. Bras. Ciênc. Solo, 32: 2795-2803.

[15] RICHARDS, J. A.; JIA, X. 1999. Remote Sensing Digital Image Analysis. New York: Springer.

[16] ROGAN, J.; MILLER, J.; STOW, D. A.; FRANKLIN, J.; LEVIEN, L.; FISCHER, C. 2003. Land-cover change mapping in California using classification trees with Landsat TM and ancillary data, Photogrammetric Engineering & Remote Sensing, 69(7):793–804. [17] COHEN, J. 1960. A coefficient of agreement for nominal scales,

Educational and Psychological Measurement, 20(1):37:46.

[18] LUOTO, M.; HJORT, J. 2005. Evaluation of current statistical approaches for predictive geomorphological mapping. Geomorphology, 67. 299–315.

[19] CHAGAS, C. S.; FERNANDES FILHO, E. I.; VIEIRA, C. A. O.; CARVALHO JUNIOR, W. 2007. Utilização de redes neurais artificiais para predição de classes de solo em uma bacia hidrográfica no Domínio do Mar de Morros. In: Simpósio Brasileiro de Sensoriamento Remoto, 13. Anais, p. 2421 – 2428.

(4)

Tabela 1. Matriz de erros obtida com o algoritmo de rede neural Fuzzy ARTMap.

Argissolos Cambissolos Chernossolos Neossolos Total Erro de inclusão Argissolos 0,0936 0,1085 0,1010 0,0363 0,3394 0,7242 Cambissolos 0,0372 0,2644 0,0365 0,0191 0,3572 0,2597 Chernossolos 0,0170 0,0269 0,1914 0,0147 0,2499 0,2341 Neossolos 0,0031 0,0178 0,0107 0,0218 0,0535 0,5931 Total 0,1508 0,4177 0,3396 0,0919 Erro de omissão 0,3795 0,3668 0,4364 0,7632

Tabela 2. Matriz de erros obtida com o algoritmo de rede neural MLP.

Argissolos Cambissolos Chernossolos Neossolos Total Erro de inclusão Argissolos 0,0677 0,1161 0,0397 0,0027 0,2261 0,7006 Cambissolos 0,0286 0,1362 0,0170 0,0143 0,1961 0,3053 Chernossolos 0,0272 0,0280 0,2621 0,0236 0,3410 0,2312 Neossolos 0,0273 0,1373 0,0208 0,0513 0,2368 0,7833 Total 0,1508 0,4177 0,3396 0,0919 Erro de omissão 0,5512 0,6739 0,2282 0,4414

Tabela 3. Matriz de erros obtida com o algoritmo de rede neural SOM.

Argissolos Cambissolos Chernossolos Neossolos Total Erro de inclusão Argissolos 0,0360 0,0218 0,0184 0,0030 0,0792 0,5451 Cambissolos 0,0836 0,3550 0,0599 0,0382 0,5367 0,3386 Chernossolos 0,0272 0,0307 0,2510 0,0365 0,3454 0,2733 Neossolos 0,0040 0,0102 0,0103 0,0141 0,0387 0,6345 Total 0,1508 0,4177 0,3396 0,0919 Erro de omissão 0,7612 0,1501 0,2609 0,8460

Tabela 4. Matriz de erros obtida com o algoritmo de Árvore de decisão Gini.

Argissolos Cambissolos Chernossolos Neossolos Total Erro de inclusão Argissolos 0,0921 0,0521 0,0182 0,0074 0,1698 0,4578 Cambissolos 0,0387 0,3200 0,0351 0,0144 0,4083 0,2163 Chernossolos 0,0141 0,0256 0,2561 0,0252 0,3211 0,2024 Neossolos 0,0059 0,0200 0,0301 0,0448 0,1008 0,5558 Total 0,1508 0,4177 0,3396 0,0919 Erro de omissão 0,3894 0,2339 0,2459 0,5129

Tabela 5. Exatidão geral e índice Kappa obtidos com os quatro algoritmos utilizados.

Medidas de acurácia Rede neural Fuzzy ARTMap Rede neural MLP Rede neural SOM Árvore de decisão (Gini) Exatidão geral 0,5712 0,5174 0,6562 0,7129 Kappa 0,3959 0,3962 0,4653 0,5813

(5)

(a) (b)

(c) (d)

1.000 metros

Figura 1. Mapa de solos resultante da predição com os quatro algoritmos utilizados: (a) Rede neural Fuzzy ARTMap, (b) Rede neural MLP, (c) Rede neural SOM, (d) Árvore de decisão (Gini).

Referências

Documentos relacionados

(grifos nossos). b) Em observância ao princípio da impessoalidade, a Administração não pode atuar com vistas a prejudicar ou beneficiar pessoas determinadas, vez que é

No entanto, maiores lucros com publicidade e um crescimento no uso da plataforma em smartphones e tablets não serão suficientes para o mercado se a maior rede social do mundo

We postu- lated that, although the insect parasite attack would affect the entire host tree, the impact by galling insects on the host-plant branch attacked by Psittacanthus sp..

Os Oficiais de Registro Civil das Pessoas Na- turais do Estado de São Paulo também têm competência para os atos notariais de reconhecimento de firma, autenticação de cópia

Por sua vez, a complementação da geração utilizando madeira, apesar de requerer pequenas adaptações do sistema, baseia-se em um combustível cujas origens são mais diversifi

As regiões em cinza indicam regiões onde não houve quebra de safra, ou seja, ou a produtividade aumentou em relação ao ano anterior, ou houve uma queda de produtividade inferior a

I. DESCRIÇÃO DAS ATIVIDADES DESENVOLVIDAS NO ESTÁGIO ... Horário de Funcionamento ... Perfil dos Utentes ... Espaço Exterior ... Espaço Interior ... Fontes de Informação ...

Na vertente prática, foi feito o acompanhamento da implementação dos módulos já adjudicados à iPortalMais de Gestão de Correspondência Recebida e Gestão de Reuniões da