• Nenhum resultado encontrado

APLICAÇÃO DE MINERAÇÃO DE DADOS NA IDENTIFICAÇÃO DE ÁREAS CULTIVADAS COM CANA-DE-AÇÚCAR EM IMAGENS DE SENSORIAMENTO REMOTO NO ESTADO DE SÃO PAULO

N/A
N/A
Protected

Academic year: 2021

Share "APLICAÇÃO DE MINERAÇÃO DE DADOS NA IDENTIFICAÇÃO DE ÁREAS CULTIVADAS COM CANA-DE-AÇÚCAR EM IMAGENS DE SENSORIAMENTO REMOTO NO ESTADO DE SÃO PAULO"

Copied!
147
0
0

Texto

(1)

UNIVERSIDADE ESTADUAL DE CAMPINAS

FACULDADE DE ENGENHARIA AGRÍCOLA

APLICAÇÃO DE MINERAÇÃO DE DADOS NA

IDENTIFICAÇÃO DE ÁREAS CULTIVADAS COM

CANA-DE-AÇÚCAR EM IMAGENS DE SENSORIAMENTO REMOTO NO

ESTADO DE SÃO PAULO

ROBSON TAVARES NONATO

CAMPINAS JULHO DE 2010

(2)

UNIVERSIDADE ESTADUAL DE CAMPINAS

FACULDADE DE ENGENHARIA AGRÍCOLA

APLICAÇÃO DE MINERAÇÃO DE DADOS NA

IDENTIFICAÇÃO DE ÁREAS CULTIVADAS COM

CANA-DE-AÇÚCAR EM IMAGENS DE SENSORIAMENTO REMOTO NO

ESTADO DE SÃO PAULO

ROBSON TAVARES NONATO

Orientador: Prof. Dr. Stanley Robson de Medeiros Oliveira

CAMPINAS JULHO DE 2010

Dissertação submetida à banca examinadora para obtenção do título de mestre em Engenharia Agrícola na área de concentração Planejamento e Desenvolvimento Rural Sustentável.

(3)

ii

FICHA CATALOGRÁFICA ELABORADA PELA

BIBLIOTECA DA ÁREA DE ENGENHARIA E ARQUITETURA - BAE - UNICAMP

N73a

Nonato, Robson Tavares

Aplicação de mineração de dados na identificação de áreas cultivadas com cana-de-açúcar em imagens de sensoriamento remoto no estado de São Paulo / Robson Tavares Nonato. --Campinas, SP: [s.n.], 2010.

Orientador: Stanley Robson de Medeiros Oliveira. Dissertação de Mestrado - Universidade Estadual de Campinas, Faculdade de Engenharia Agrícola.

1. Mineração de dados (Computação). 2. Árvores de decisão. 3. Análise de imagem. 4. Cana-de-açucar - Colheita. 5. Atributos. I. Oliveira, Stanley Robson de Medeiros. II. Universidade Estadual de Campinas. Faculdade de Engenharia Agrícola. III. Título.

Título em Inglês: Application of data mining for identifying sugar cane crop plantations in remote sensing images of the state of São Paulo

Palavras-chave em Inglês: Data mining (Computer), Decision trees, Image analysis, Cane sugar - Harvest, Attributes Área de concentração: Planejamento e Desenvolvimento Rural Sustentável Titulação: Mestre em Engenharia Agrícola

Banca examinadora: Marcela Xavier Ribeiro, Jurandir Zullo Junior, Julio Cesar Dalla Mora Esquerdo

Data da defesa: 07/07/2010

(4)
(5)

iv

Dedico esta dissertação Às minhas filhas Júlia e Samara pelo amor em todos os momentos, à minha esposa Viviane pela compreensão, à minha amada família pelo amor, pela amizade, pelo companheirismo, pela força, pelas orações e pela companhia nessa misteriosa e bela jornada que é a vida.

(6)

v

AGRADECIMENTOS

A Deus pela presença em minha vida.

À minha amada família pelo amor incondicional.

Ao Prof. Luiz Henrique Antunes Rodrigues e ao Prof. Stanley Robson de Medeiros Oliveira pela orientação, amizade, paciência e por terem me ensinado aquilo que eu sei sobre mineração de dados.

Ao Prof. Jurandir Zullo Júnior e ao Prof. Jansle Vieira pelo estímulo e por terem me ensinado aquilo que eu sei sobre sensoriamento remoto e processamento de imagens.

Aos companheiros do CEPAGRI-UNICAMP pelas dúvidas sanadas, pela atenção e pelo compartilhamento de conhecimento.

Aos companheiros do LABGEO-FEAGRI pelas dúvidas sanadas e pelo compartilhamento de conhecimento

À Faculdade de Engenharia Agrícola pelo ótimo aprendizado que obtive em suas dependências.

À Universidade Estadual de Campinas pela minha graduação e por ter me proporcionado o encontro com pessoas das mais diversas áreas do conhecimento, fazendo de mim uma pessoa melhor pelos novos ideais e pela nova visão de mundo, muito mais do que pela capacitação técnica.

Aos meus muitos amigos por serem, acima de tudo, amigos.

A todas as pessoas que direta ou indiretamente estiveram comigo durante esta jornada, transformando-me e sendo transformados, os meus mais profundos e sinceros agradecimentos.

(7)

vi

SUMÁRIO

LISTA DE FIGURAS ... x

LISTA DE TABELAS ...xii

RESUMO ... xv ABSTRACT ...xvii 1. INTRODUÇÃO ... 1 2. OBJETIVOS ... 6 2.1 Objetivo Geral ... 6 2.2 Objetivos Específicos ... 6 3. REVISÃO BIBLIOGRÁFICA ... 7

3.1 Descoberta de Conhecimento em Bancos de Dados ... 7

3.1.1 Preparação de Dados... 11

3.1.2 Mineração de dados ... 12

3.1.3 Diferenças entre classificadores tradicionais e os utilizados em mineração de dados ... 16

3.1.4 As Árvores de Decisão ... 17

3.1.5 Regras de Classificação Extraídas de Árvores de Decisão ... 19

3.1.6 Avaliação de Métodos de Classificação de Dados ... 20

3.1.7 Análise de concordância e a estatística Kappa de Cohen ... 22

3.2 Sensoriamento Remoto ... 24

3.2.1 A radiação eletromagnética e suas interações com a atmosfera e o alvo ... 25

3.2.2 O comportamento espectral da vegetação ... 27

3.2.3 Índices de vegetação ... 29

3.2.4 O Satélite Landsat 5 e o sensor Thematic Maper (TM)... 31

3.2.5 Pré-processamento de imagens de sensoriamento remoto... 33

(8)

vii

3.3 Classificação digital de imagens de sensoriamento remoto ... 35

3.3.1 Extração de informações de imagens de satélite ... 36

3.3.2 Seleção de atributos e redução da dimensionalidade em dados de sensoriamento remoto ... 39

3.3.3 Métodos de seleção de atributos ... 40

3.4 A cana-de-açúcar ... 46

3.4.1 Ciclo Produtivo ... 47

3.4.2 Fenologia e Ciclo de Desenvolvimento ... 48

4. MATERIAL E MÉTODOS ... 50

4.1 MATERIAL ... 50

4.1.1 Áreas de estudo ... 50

4.1.2 Satélites e sensores utilizados no trabalho ... 50

4.1.3 Imagens Landsat 5 TM utilizadas e dados referentes ao local e data de passagem do satélite ... 51

4.1.4 Imagens TERRA/Modis utilizadas e dados relativos ao local e data de passagem do satélite ... 52

4.1.5 Mapeamentos e dados adicionais utilizados na construção do plano amostral ... 53

4.1.6 Repositórios de imagens ... 53

4.1.7 Softwares e sistemas de processamento de imagens de satélite e informações geográficas ... 54

4.1.8 Sistema empregado para a correção atmosférica e conversão dos dados em valores de refletância de superfície ... 54

4.1.9 Sistema de análise estatística de dados ... 55

4.1.10 Sistemas empregados na fase de preparação, seleção de atributos e mineração dos dados ... 55

4.1.11 Arquivos vetoriais relativos aos limites municipais (Shape Files) ... 56

4.2.1 Seleção das Áreas de Estudo (Fase 1) ... 58

(9)

viii

4.2.1.3 Lista preliminar de municípios produtores após seleção por amostragem . 62

4.2.1.4 Aquisição das imagens ... 62

4.2.1.5 Busca por áreas cultivadas com cana-de-açúcar dentro das imagens ... 63

4.2.1.6 Busca por áreas cultivadas com cana-de-açúcar em diferentes fases fenológicas ... 66

4.2.1.7 Lista final de municípios ... 68

4.2.2 Processamento das Imagens (Fase 2) ... 69

4.2.2.1 Correção radiométrica ... 69

4.2.2.2 Conversão de Números Digitais (NDs) em valores de radiância ... 69

4.2.2.3 Registro e georreferenciamento das imagens ... 70

4.2.2.4 Correção geométrica ... 71

4.2.2.5 Correção atmosférica ... 71

4.2.3 Preparação dos dados (Fase 3) ... 73

4.2.3.1 Cálculo dos índices de vegetação ... 73

4.2.3.2 Extração de atributos de textura ... 74

4.2.3.3 Extração de dos dados relativos às regiões de interesse ... 75

4.2.3.4 Transformação dos dados em formato de imagem para o formato tabular 75 4.2.3.5 Consolidação dos dados em arquivos individuais ... 75

4.2.4 Mineração de Dados (Fase 4) ... 76

4.2.4.1 Definição dos atributos e entendimento dos dados ... 78

4.2.4.2 Seleção de atributos ... 81

4.2.4.3 Aplicação do modelo de classificação ... 82

4.2.4.4 Comparação entre os resultados obtidos pelos diferentes conjuntos de atributos ... 82

4.2.4.5 Avaliação dos resultados de classificação ... 83

5. RESULTADOS E DISCUSSÃO ... 84

5.1 Identificação de regiões cultivadas com cana-de-açúcar em meio a alvos diversos (Cenário 1: Cana X Outros) ... 85

(10)

ix

5.1.2 Avaliação do modelo de classificação com maior acurácia (Cenário 1) ... 88

5.1.3 Avaliação de níveis diferentes de pré-poda para o modelo com maior acurácia (Cenário 1)... 89

5.1.4 Considerações sobre os resultados obtidos (Cenário 1) ... 93

5.2 Distinção das fases fenológicas em uma imagem com áreas cultivadas com cana-de-açúcar (Cenário 2) ... 94

5.2.1 Seleção inicial de atributos (Cenário 2) ... 94

5.2.2 Avaliação do modelo de classificação com maior acurácia (Cenário 2) ... 98

5.2.3 Avaliação de níveis diferentes de pré-poda para o modelo com maior acurácia (Cenário 2)... 99

5.2.4 Considerações sobre os resultados obtidos (Cenário 2) ... 105

5.3 Identificação de culturas de cana-de-açúcar em diferentes fases fenológicas e em meio a alvos diversos (Cenário 3) ... 105

5.3.1 Seleção inicial de atributos (Cenário 3) ... 105

5.3.2 Avaliação do modelo de classificação com maior acurácia (Cenário 3) .... 109

5.3.3 Avaliação de diferentes níveis de pré-poda para o modelo com maior acurácia(cenário 3)... 111

5.3.4 Considerações sobre os resultados obtidos (Cenário 3) ... 116

6. CONCLUSÕES ... 117

6.1 O potencial do algoritmo de indução de árvores de decisão J48 na classificação digital de regiões ... 118

6.2 Seleção e avaliação de subconjuntos de atributos mais adequados para a classificação. .. 118

6.3 O resultado da ampliação do espaço inicial de atributos através da introdução de atributos de textura ... 119

6.4 O resultado da introdução de índices de vegetação ... 119

6.5 Objetivos atingidos e validação da hipótese científica ... 120

6.6 Contribuições ... 120

6.7 Sugestões de trabalhos futuros ... 121

(11)

LISTA DE FIGURAS

Figura 2: As fase do processo de KDD (FAYYAD et al., 1996a) ______________________ 10 Figura 3: Objetivos e tarefas de mineração de dados (REZENDE et al., 2002) ___________ 14 Figura 4: Uma ilustração e aplicação da árvore de decisão (MONARD e BARANAUSKAS, 2002) _____________________________________________________________________ 18 Figura 6: O processo de imageamento pelos sensores orbitais ________________________ 25 Figura 7: Espectro eletromagnético adaptado de SLATER (1980). _____________________ 26 Figura 8: Comportamento espectral de alguns alvos na superfície terrestre. ______________ 27 Figura 9: Representação do comportamento espectral do dossel de uma cultura ao longo do ciclo de desenvolvimento. Fonte: Adaptado de BARET e GUYOT (1991). ______________ 29 Figura 11: Matriz ilustrando uma janela 4X4 com níveis de cinza(0,1,2,3). Fonte

(THEODORIDIS e KOUTROUMBAS, 1999). ____________________________________ 37 Figura 12: Direções utilizadas na construção da matriz de co-ocorrência. Fonte

(THEODORIDIS e KOUTROUMBAS, 1999). ____________________________________ 37 Figura 13: Matriz de co-ocorrência para o ângulo zero graus e para distância de um pixel. Fonte (THEODORIDIS e KOUTROUMBAS, 1999). _______________________________ 37 Figura 14: Matriz de co-ocorrência para o ângulo zero graus e para distância de um pixel. Fonte Fonte (THEODORIDIS e KOUTROUMBAS, 1999). __________________________ 37 Figura 15: Componentes principais de uma distribuição gaussiana bivariada centrada nos pontos (1,3) do sistema cartesiano de coordenadas. _________________________________ 45 Figura 16: Evolução da produção de cana-de-açúcar no Brasil e no Estado de São Paulo, de 1990 a 2006. Fonte: IBGE (2008). ______________________________________________ 47 Figura 17: Ciclo de uma cultura de cana-de-açúcar com cinco cortes. Fonte: Modificado de Rodrigues (1995). ___________________________________________________________ 48 Figura 18: Mapeamento do cultivo de cana-de-açúcar 2007/2008. Fonte (CANASAT, 2009) 53 Figura 19: Fluxograma ilustrando as fases do processo de mineração de dados de

sensoriamento remoto. _______________________________________________________ 57 Figura 21: As sete cenas Landsat 5 TM relativas aos 30 municípios com maior produção de cana-de-açúcar em São Paulo. _________________________________________________ 60

(12)

Figura 22: Mapeamento do cultivo da cana-de-açúcar na cidade de araras. Fonte (CANASAT, 2009) _____________________________________________________________________ 64 Figura 23 : Seleção de culturas em diferentes fases fenológicas. Município de Araras. _____ 66 Figura 24: Determinação da linha do solo para o cálculo do índice PVI imagem de 10/09/2008 _________________________________________________________________________ 74 Figura 25: Determinação da linha do solo para o cálculo do índice PVI imagem de 24/05/2009 _________________________________________________________________________ 74 Figura 26: O processo CRISP-DM. Fonte (CHAPMAN et al., 2000) ___________________ 77 Figura 27: Taxa de acerto em função de diferentes níveis de pré-poda (cenário 1). ________ 91 Figura 28: Valores da estatística Kappa para diferentes níveis de pré-poda ______________ 91 Figura 29: Número de regras para diferentes níveis de pré-poda. ______________________ 92 Figura 30: Árvore de decisão para um nível de pré-poda igual 500. ____________________ 93 Figura 31: Taxa de acerto em função de diferentes níveis de pré-poda _________________ 101 Figura 32: Valores da estatística Kappa para diferentes níveis de pré-poda _____________ 102 Figura 33: Número de regras para diferentes níveis de pré-poda. _____________________ 102 Figura 34: Árvore de decisão para um nível de pré-poda igual 500. ___________________ 104 Figura 35: Taxa de acerto em função de diferentes níveis de pré-poda _________________ 112 Figura 36: Valores da estatística Kappa para diferentes níveis de pré-poda _____________ 113 Figura 37: Número de regras para diferentes níveis de pré-poda. _____________________ 113 Figura 38: Árvore de decisão para um nível de pré-poda igual 800. ___________________ 115

(13)

LISTA DE TABELAS

Tabela 2: Índices de vegetação, fórmulas e referências ______________________________ 30 Tabela 3: Características dos principais satélites/sensores e utilização principal __________ 31 Tabela 4: Descrição das bandas do sensor TM do LandaSat5 ( NASA, 2009). ____________ 32 Tabela 5: Definição de alguns atributos de textura (THEODORIDIS e KOUTROUMBAS, 1999). ____________________________________________________________________ 38 Tabela 7: Plataforma e sensores utilizados no trabalho ______________________________ 51 Tabela 9: Imagens TERRA/Modis utilizadas no trabalho. ____________________________ 52 Tabela 10: Os 30 maiores municípios produtores de cana de açúcar no estado de São Paulo. Fonte (CANASAT, 2009) levantamento relativo ao ano safra 2007/2008) ______________ 59 Tabela 11: As 30 cidades com maior produção de cana-de-açúcar distribuídas por cena

Landsat 5 TM. _____________________________________________________________ 61 Tabela 12: Estratos e estatísticas utilizadas no cálculo do tamanho da amostra de cidades inseridas no estudo. _________________________________________________________ 61 Tabela 13: A lista de cidades selecionadas por amostragem __________________________ 62 Tabela 14: Identificação de áreas cultivadas com cana-de-açúcar utilizando imagens auxiliares e mapas temáticos. __________________________________________________________ 65 Tabela 15: Identificação de áreas cultivadas com cana-de-açúcar em diferentes fases

fenológicas. Município de Araras. ______________________________________________ 67 Tabela 16: Lista final de municípios produtores de cana-de-açúcar inseridos no trabalho. ___ 68 Tabela 17: Pós-calibração sensor TM Landsat 5 (CHANDER e MARKHAN, 2003) ______ 70 Tabela 18: Imagens MODIS de espessura ótica dos aerossóis. ________________________ 72 Tabela 19: Parâmetros atmosféricos para o modelo MODTRAN. ______________________ 73 Tabela 20: Parâmetros da linha dos solos para cálculo do PVI ________________________ 74 Tabela 21: Atributos de textura ________________________________________________ 75 Tabela 22: Arquivos resultantes dos processos de consolidação _______________________ 76 Tabela 23: Atributo meta para o Cenário 1, composto por cinco classes. ________________ 78 Tabela 24: O atributo meta para o Cenário 2, composto por três classes. ________________ 78 Tabela 25: O atributo meta para o Cenário 3, composto por oito classes. ________________ 78 Tabela 26: Atributos preditores relativos à resposta espectral dos alvos em estudo nas

(14)

diferentes bandas do espectro visível e infra vermelho da radiação eletromagnética. ______ 79 Tabela 27: Atributos preditores do modelo de classificação relativos aos índices de vegetação. _________________________________________________________________________ 79 Tabela 28: Definição de descrição dos atributos de textura* __________________________ 80 Tabela 29: Métodos de seleção de atributos em relação ao mérito individual _____________ 81 Tabela 31: Parâmetros do modelo de árvores de decisão _____________________________ 82 Tabela 32: Subconjuntos de atributos frequentemente utilizados pelos especialistas em

sensoriamento remoto ________________________________________________________ 83 Tabela 33: Avaliação de atributos em relação à contribuição individual para a classificação (Cenário 1). ________________________________________________________________ 86 Tabela 34 : Seleção e avaliação de subconjuntos de atributos usando o classificador J48 com divisão binária de nós (Cenário 1). ______________________________________________ 87 Tabela 35: Avaliação de subconjuntos de atributos freqüentemente utilizados pela comunidade de sensoriamento remoto (cenário 1).____________________________________________ 87 Tabela 36: Matriz de confusão para o melhor modelo classificação (Cenário 1) __________ 88 Tabela 37: Métricas da qualidade do modelo extraídas da matriz de confusão ____________ 89 Tabela 38: Taxas de acerto, a estatística Kappa e o número de regras para diferentes níveis de pré-poda __________________________________________________________________ 90 Tabela 39: Avaliação de atributos em relação à contribuição individual para a classificação (cenário 2). ________________________________________________________________ 96 Tabela 40 : Seleção e avaliação de subconjuntos de atributos usando o classificador J48 com divisão binária de nós (cenário 2). ______________________________________________ 96 Tabela 41: Avaliação de subconjuntos de atributos utilizados frequentemente pela comunidade de sensoriamento remoto (cenário 2).____________________________________________ 97 Tabela 42: Matriz de confusão para o modelo classificação com melhor acurácia (cenário 2). _________________________________________________________________________ 98 Tabela 43: Métricas da qualidade do modelo extraídas da matriz de confusão (Cenário 2). __ 99 Tabela 44: Taxas de acerto, a estatística Kappa e o número de regras para diferentes níveis de pré-poda _________________________________________________________________ 100 Tabela 46: Seleção e avaliação de subconjuntos de atributos usando o classificador J48 com divisão binária de nós (Cenário 3). _____________________________________________ 108

(15)

Tabela 47: Avaliação de subconjuntos de atributos freqüentemente utilizados pela comunidade de sensoriamento remoto (cenário 3).___________________________________________ 109 Tabela 48: Matriz de erros para o melhor modelo classificação (cenário 3). _____________ 110 Tabela 49:Métricas da qualidade do modelo extraídas da matriz de confusão (Cenário 3) __ 110 Tabela 50: Taxas de acerto, a estatística Kappa e o número de regras para diferentes níveis de pré-poda _________________________________________________________________ 111

(16)

RESUMO

O surgimento e a evolução das geotecnologias, que podem ser entendidas como tecnologias originadas de estudos e pesquisas na área de sensoriamento remoto, mais especificamente da utilização de sensores situados na órbita do planeta Terra, têm permitido o desenvolvimento de metodologias inovadoras para o mapeamento da cobertura do solo e o monitoramento agrícola. O emprego dessas novas tecnologias tem permitido, também, uma melhoria das metodologias utilizadas na estimativa da produtividade agrícola e na previsão de safras. Mesmo assim, no Brasil, muitas das metodologias empregadas no mapeamento agrícola ainda utilizam as imagens de satélite como material auxiliar, principalmente, em levantamentos amostrais. Isto se deve, em parte, aos avanços necessários no processo de extração de informações das imagens. Dentre estes avanços, deve-se destacar a necessidade de melhoria dos métodos utilizados para identificação e classificação digital de regiões contendo a cultura agrícola de interesse dentro da imagem.

Amplamente utilizadas na resolução de problemas de classificação automatizada de dados, nas mais diversas áreas do conhecimento, as técnicas de mineração de dados se apresentam como uma alternativa promissora na resolução de problemas de identificação e classificação de regiões cultivadas com cana-de-açúcar.

Dentro desse contexto, o objetivo desse trabalho foi avaliar as técnicas de mineração de dados voltadas para classificação de dados, dentre elas os métodos de seleção de atributos e a técnica de árvore de decisão binária na identificação de áreas cultivadas com cana-de-açúcar, no estado de São Paulo, em imagens com correção atmosférica do sensor TM a bordo do satélite Landsat 5. Também foi investigado o resultado da inserção de atributos de textura e de índices de vegetação com o objetivo de melhorar os resultados da identificação e classificação de áreas cultivadas com cana-de-açúcar.

Neste trabalho foram abordados três cenários contendo áreas cultivadas com cana-de-açúcar. No primeiro cenário, a técnica de árvore de decisão foi avaliada na classificação de pixels puros de regiões cultivadas com cana-de-açúcar em meio a alvos diversos, como áreas urbanas, solo exposto, corpos compostos por água e outros tipos de vegetação. No segundo cenário, a ênfase foi a classificação de pixels puros de regiões cultivadas com cana-de-açúcar em diferentes fases fenológicas. No último cenário, a técnica de classificação foi avaliada na

(17)

fenológicas, e em meio a outros tipos de cobertura do solo como áreas urbanas, solo exposto, corpos compostos por água e outros tipos de vegetação, como pastos e florestas.

Nos três cenários abordados, os modelos de árvores de decisão binária, induzidos pelo algoritmo J48, produziram taxas de acerto superiores a 90%. A introdução de atributos de textura trouxe ganhos expressivos nos três cenários e contribuiu para melhorar a distinção de áreas cultivadas com cana-de-açúcar em meio a tipos diversos de cobertura do solo, como solo exposto, área urbana e corpos d’água.

Os resultados de todos os cenários estudados reforçam o potencial forte das árvores de decisão no processo de classificação e identificação de áreas cultivadas com cana-de-açúcar, em diferentes cidades produtoras no estado de São Paulo. Também, deve-se destacar, que as técnicas de mineração de dados destinadas à seleção de subconjuntos de atributos relevantes para a classificação trouxeram redução significativa dos conjuntos de dados e permitiram a identificação de modelos melhores de classificação.

Palavras Chave: mineração de dados, árvores de decisão, classificação de imagens, previsão

(18)

ABSTRACT

The appearance and evolution of geotechnologies, notably those originated from research results in the area of remote sensing, allowed for the development of innovative methodologies for the land cover mapping and agricultural monitoring. The use of such technologies also allowed for a significant improvement in the methods used for agricultural productivity and crop forecasting. However, in Brazil, most of the methodologies applied to agricultural mapping are still using remote sensing images as an auxiliary tool, especially in connection with sample surveys designed to solve agricultural problems. This fact may be explained, in part, by the advances in the information extraction process of remote sensing images. Among such advances, it could be highlighted the need for improvement in methods used for identification and digital classification of regions containing agricultural crops inside the remote sensing images.

Frequently used to solve data classification problems at the most different knowledge areas, the data mining techniques arise as alternative way to solve problems related to classification of pixels related to sugar cane tilled areas. So this work aimed evaluate the data mining techniques driven for data classification like decision tree learning methods and feature selection methods for the identification and classification of tilled regions with sugar cane inside TM Landsat 5 images.

In this work three scenarios having tilled areas with sugar cane inside were evaluated. In the first scenario, decision tree learning technique was evaluated in the classification process of pixels having only sugar cane tilled areas among several others soil coverage like water, rivers, lakes, forest and others kind of vegetations. The second scenario was compound by pure pixels having only sugar cane in three different age phases. In the last scenario, the decision three learning technique was evaluated in the distinction of pure pixels having sugar cane in three different age phases among different kinds of soil coverage like urban areas, water, rivers, lakes, forests and vegetation.

In all of the three scenarios, the binary decision three learning techniques, inducted by J48 algorithm, produced accuracy rates up to 90%. The insertion of the texture attributes produced relevant gains in two of three scenarios and also has demonstrated to bring contribution to improvement of the classification process of tilled sugar cane among different

(19)

The observed results in all studied scenarios confirm the relevance of the decision three learning technique in the classification and identification process of regions tilled with sugar cane in different producer cities from the state of São Paulo. Also, should be highlighted that data mining techniques driven to feature selection have bring significant reduction of the databases and allowed the identification of better classification models.

Keywords: data mining, decision trees, image classification, crop forecasting, feature

(20)

1. INTRODUÇÃO

O surgimento e a evolução das geotecnologias, que podem ser entendidas como tecnologias originadas de estudos e pesquisas na área de sensoriamento remoto, mais especificamente da utilização de sensores situados na órbita do planeta Terra, têm permitido o desenvolvimento de metodologias inovadoras para o mapeamento da cobertura do solo. Este mapeamento é um procedimento essencial em estudos ambientais, em avaliações da biodiversidade, no monitoramento agrícola, no apoio às decisões de ações sociais, políticas e econômicas. O emprego destas novas tecnologias tem permitido, também, uma melhoria das metodologias utilizadas na estimativa da produtividade agrícola e da previsão de safras.

A estimativa da safra agrícola de um país e o conhecimento da sua distribuição, no espaço geográfico, são de extrema importância para o planejamento estratégico do Estado, no que concerne à formulação de políticas públicas, à logística e à segurança alimentar, além de atuar como elemento importante na formação de preços, tanto no mercado interno, como também no mercado externo (FIGUEIREDO, 2005).

No Brasil, mesmo com o crescente avanço do uso das geotecnologias, as principais metodologias utilizadas nos processos de previsão de safras ainda são aquelas baseadas em amostragem estatística e informações oriundas dos censos agrícolas (PINO, 2001).

Um sistema de previsão de safras eficiente é uma ferramenta importante e indispensável para qualquer país que dependa diretamente da agricultura (UNITED NATIONS, 1996). Por isso, vários estudos vêm sendo realizados pela comunidade nacional e internacional a fim de possibilitar o desenvolvimento de sistemas automatizados de previsão de safras.

Sistemas automatizados de previsão de safras, baseados em imagens de sensoriamento remoto, embora amplamente estudados, ainda estão longe de ser uma realidade. A título de ilustração, um sistema automatizado de previsão de safras agrícolas, baseado em imageens de sensoriamento remoto, pode ser entendido como todo o sistema possuindo a arquitetura (Figura 1).

(21)

Imagens de satélite Entrada

Sistema Automatizado de Previsão de Safras Agrícolas

Correção Atmosférica

Correção Geométrica e Registro das Imagens

Identificação das Áreas cultivadas com a cultura agrícola de interesse

Identificação da idade e saúde da cultura

(fase fenológica) Estimativa da safra agrícola para a região e

para o período de interesse

Previsão da Safra Agrícola Saída

Estágio 1: Pré-processamento Estágio 2: Classificação Digital Estágio 3: Modelagem

Correção Radiométrica

Aplicação do modelo de previsão Escolha do modelo

de previsão

(Séries Temporais, Variáveis Climáticas, Dados históricos)

Figura 1: A arquitetura de um sistema automatizado de previsão de safras

A dificuldade no desenvolvimento de sistemas como o proposto na Figura 1 se deve à complexidade do problema de previsão de safras em si. Existe um conjunto de avanços de pesquisa necessários para que um sistema desse tipo seja concebido e alguns desses avanços necessários são listados a seguir (CRÓSTA, 2002; ASSAD et. al. 2007; MATHER, 1987; RICHARDS, 1993):

1. Melhoria da qualidade do imageamento

Embora as tecnologias de imageamento a bordo dos satélites tenham melhorado muito nos últimos anos, distorções ópticas e radiométricas são algumas das causas principais da baixa qualidade das imagens (CRÓSTA, 2002). Para resolver esses problemas, muitos estudos em busca de técnicas melhoradas de correção geométrica, radiométrica

(22)

e atmosférica têm sido conduzidos trazendo bons resultados e novas metodologias, porém ainda muito dependentes de especialistas e de dados nem sempre disponíveis. 2. Melhoria da qualidade da identificação automática das áreas de interesse contidas

na imagem.

Como qualquer estimativa da produção depende diretamente de estimativas precisas das áreas ocupadas pela cultura, métodos mais precisos de classificação digital de imagens são fundamentais e devem ser amplamente estudados.

3. Identificação da fase fenológica da cultura

Após a identificação da área cultivada, o próximo passo é a identificação da fase fenológica (idade) e do estado da cultura. Diversas metodologias de modelagem do desenvolvimento da cultura, incorporando informações sobre variáveis climáticas, meteorológicas e séries temporais, têm sido empregadas na estimação da produção agrícola com bons resultados, porém a maioria desses modelos leva em consideração o conhecimento prévio da data de plantio. Um sistema automatizado deve, na medida do possível, identificar o estado fenológico da cultura para assim aplicar o modelo mais adequado para a estimação da produção em uma data pré-especificada.

4. Melhoria dos modelos de desenvolvimento da cultura

Após a identificação da fase fenológica da cultura, o próximo passo é a aplicação do modelo de previsão de sua produção. Metodologias incorporando variáveis climáticas, séries históricas e modelos agrometeorológicos são frequentemente empregadas nessa fase, mas ainda muito dependentes do especialista. Um sistema automatizado deve identificar e aplicar o modelo mais adequado, uma vez que a fase fenológica da cultura foi identificada.

Dentre estes problemas citados acima, a identificação automática de áreas cultivadas, com uma dada cultura agrícola de interesse, merece destaque especial e constitui uma das etapas mais importantes no processo de previsão de safras baseada em imagens de sensoriamento remoto. Segundo Assad et al. (2007), a melhoria dos resultados do processo de

(23)

classificação digital de regiões em imagens de satélite impacta diretamente o resultado da previsão de uma dada safra agrícola, visto que a produção agrícola é uma função explícita da área cultivada.

Assim, com o objetivo de buscar melhorias para o resultado final do processo de classificação digital de imagens de sensoriamento remoto, muitas estratégias podem ser adotadas pelos pesquisadores. Dentre estas estratégias, destacam-se a aplicação de novas técnicas de classificação e a ampliação do espaço de atributos através de transformações nos dados originais.

Amplamente utilizadas na resolução de problemas de classificação automatizada de dados das mais diversas áreas do conhecimento, as técnicas de mineração de dados, mais precisamente as árvores de decisão, se apresentam como alternativa promissora na resolução de problemas de identificação e classificação de regiões cultivadas com cana-de-açúcar.

Neste trabalho foram abordados três cenários contendo áreas cultivadas com cana-de-açúcar. No primeiro cenário, a técnica de árvore de decisão foi avaliada na classificação de pixels puros de regiões cultivadas com cana-de-açúcar em meio a alvos diversos, como áreas urbanas, solo exposto, corpos d’ água e outros tipos de vegetação. No segundo cenário, a ênfase foi a classificação de pixels puros de regiões cultivadas com cana-de-açúcar em diferentes fases fenológicas. No último cenário, a técnica de classificação foi avaliada na distinção de pixels puros de regiões cultivadas com cana-de-açúcar, em diferentes fases fenológicas, e em meio a outros tipos de cobertura do solo como áreas urbanas, solo exposto, corpos d’ água e outros tipos de vegetação, como pastos e florestas.

A hipótese do trabalho foi verificar a aderência de técnicas de mineração de dados aos problemas de classificação de áreas cultivadas com cana-de-açúcar em imagens de sensoriamento remoto. Dois aspectos foram investigados: a) O potencial da técnica de árvore de decisão para resolução de problemas de classificação de áreas cultivadas com cana-de-açúcar em imagens de sensoriamento remoto; e b) A identificação do conjunto de atributos mais significativos para cada um dos cenários estudados.

(24)

subconjuntos de atributos com maior relevância para resolução dos problemas de classificação de regiões em imagens de sensoriamento remoto, para cada um dos cenários estudados; b) Identificação de um modelo mais adequado para a classificação de pixels relativos às regiões cultivadas com cana-de-açúcar em meio a tipos diversos de cobertura do solo.

Espera-se, ainda, que os resultados desse trabalho criem subsídios importantes para o desenvolvimento de sistemas automatizados de previsão de safras agrícolas baseados em imagens de sensoriamento remoto, mais especificamente, subsídios para a resolução dos problemas encontrados na etapa de identificação e classificação de áreas cultivadas com uma dada cultura de interesse. A título de ilustração, as regras produzidas pelos modelos de árvores de decisão poderiam ser utilizadas para a construção de uma base de conhecimento de um sistema especialista de identificação de regiões cultivadas com cana-de-açúcar.

(25)

2. OBJETIVOS

2.1 Objetivo Geral

O objetivo desse trabalho foi avaliar as técnicas de mineração de dados voltadas para classificação de dados, dentre elas, os métodos de seleção de atributos e a técnica de árvore de decisão binária na identificação de áreas cultivadas com cana-de-açúcar no estado de São Paulo, em imagens com correção atmosférica do sensor TM a bordo do satélite Landsat 5. Também foi investigado o resultado da inserção de atributos de textura e de índices de vegetação com o objetivo de identificar melhorias nos resultados da identificação e classificação de áreas cultivadas com cana-de-açúcar.

2.2 Objetivos Específicos

• Avaliar o potencial do algoritmo de árvore de decisão binária, J481, na classificação de áreas cultivadas com cana-de-açúcar em imagens de sensoriamento remoto.

• Identificar subconjuntos menores de atributos na caracterização de áreas cultivadas com cana-de-açúcar em imagens através da aplicação de técnicas de seleção de atributos.

• Verificar o potencial da inserção de atributos de textura no processo de classificação e distinção de áreas cultivadas com cana-de-açúcar, em meio a outros tipos de cobertura do solo.

• Identificar aqueles índices de vegetação que propiciam melhores resultados no processo de classificação de áreas cultivadas com cana-de-açúcar em imagens de sensoriamento remoto.

• Obter resultados mais acurados no processo de classificação de áreas cultivadas com cana-de-açúcar em imagens de sensoriamento remoto.

1

J48 é uma implementação do algoritmo C4.5, release 8, implementado em linguagem Java, disponível no software Weka.

(26)

3. REVISÃO BIBLIOGRÁFICA

3.1 Descoberta de Conhecimento em Bancos de Dados

Devido aos avanços tecnológicos em diversas áreas das ciências aplicadas, pesquisadores e analistas experimentam um aumento sem precedentes na capacidade de geração e armazenamento de dados. O sensoriamento remoto é um dos exemplos de áreas do conhecimento onde a quantidade de dados existentes, em muitos casos, é maior do que a capacidade de análise. Esse crescimento explosivo na quantidade de dados armazenados tem gerado a necessidade do desenvolvimento de novas técnicas e ferramentas automatizadas com o intuito de auxiliar o analista na transformação dos dados em informação útil e conhecimento (HAN e KAMBER, 2006).

Diante desse contexto, surgiu o processo de Descoberta de Conhecimento em Bases de Dados ou somente KDD cuja sigla em inglês significa Knowledge Discovery in Databases. Segundo Fayyad et al. (1996a), descoberta de conhecimento em bancos de dados é um processo não trivial de identificar padrões em dados que sejam válidos, novos (previamente desconhecidos), potencialmente úteis e compreensivos, visando melhorar o entendimento de um problema ou um procedimento de tomada de decisão. Examinando estes termos individualmente, tem-se:

1. Dados: Um conjunto de fatos F, como instâncias de um banco de dados. Por

exemplo, uma coleção de n cadastros de pessoas físicas contendo idade, profissão, renda ou, mais especificamente no contexto desse trabalho, um pixel da imagem e seu número digital registrado em bandas espectrais.

2. Padrão: Uma expressão E em uma linguagem L descrevendo fatos em um

subconjunto FE de F. E é dito um padrão se, em geral, é mais simples do que a enumeração de todos os fatos em FE. Por exemplo, o padrão “se renda < r então a pessoa não recebe financiamento” seria aplicável para uma escolha apropriada de r. No contexto desse trabalho, “se refletância do pixel > z, então esse alvo não corresponde ao alvo de interesse” seria aplicável para uma escolha apropriada de z.

(27)

3. Processo: geralmente em KDD, processo é uma sequência de vários passos que

envolvem preparação de dados, pesquisa de padrões, avaliação de conhecimento, refinamento envolvendo iteração e modificação.

4. Validade: os padrões descobertos devem ser válidos em novos dados com

algum grau de certeza. Uma medida de interesse é uma função C mapeando expressões em L para um espaço de medidas MC. Por exemplo, se um regra de decisão restringe a classificação a uma classe, então a medida de certeza diminuiria à proporção que o modelo fosse aplicado a novas imagens, diferentes daquelas usadas na fase de treinamento.

5. Novo: em geral, assume-se que “novidade” pode ser medida por uma função

N(E,F), que pode ser uma função booleana ou uma medida que expresse grau de “novidade” ou “surpresa”. Exemplo de um fato que não é novidade: sejam E = “vegetação” e F =“alta refletância na banda do infravermelho” então N(E,F) = 0 ou N(E,F) = false. Por outro lado: sejam E =“pixel de área cultivada com cana-de-açúcar” e F = “textura com média alternância de cor” então N(E,F) = 0,85 ou N(E,F) = true.

6. Potencialmente útil: padrões devem, potencialmente, levar a alguma atitude

prática, conforme medida gerada por alguma função de utilidade. Por exemplo, regras obtidas no processo de classificação podem identificar um número reduzido de bandas espectrais a serem inseridas no modelo e, assim, proporcionar uma diminuição no tempo de processamento necessário para a resolução de um outro problema semelhante de classificação de regiões.

7. Compreensível: um dos objetivos do KDD é gerar padrões compreensíveis para

humanos, visando promover uma compreensão melhor dos próprios dados. Embora seja um tanto subjetivo medir compreensibilidade, um dos fatores frequentes é a medida de simplicidade. O fator de compreensão dos dados está relacionado à intuitividade da representação destes, bem como da granularidade alta o suficiente para que estes sejam compreendidos. Por exemplo, o log de um servidor Web não é uma representação compreensível, já fatos estatísticos extraídos deste log, tais como totais de acesso ou classificação dos acessos realizados, fornecem informação num formato mais intuitivo e de granularidade humanamente compreensível.

(28)

Segundo Fayyad et al. (1996a), o processo de KDD é interativo, iterativo, cognitivo e exploratório, envolvendo vários passos, apresentados na Figura 2, com muitas decisões sendo feitas pelo analista (que é um dos especialistas do domínio dos dados, ou um especialista de análise dos dados), conforme descrito:

I. Definição do tipo de conhecimento a descobrir: o que pressupõe uma

compreensão do domínio da aplicação bem como do tipo de decisão que tal conhecimento pode contribuir para melhorar.

II. Criação de um conjunto de dados alvo (Seleção): selecionar um conjunto de

dados, ou focar num subconjunto, onde a descoberta deve ser realizada.

III. Limpeza de dados e pré-processamento (Pré-processamento): operações

básicas tais como remoção de ruídos quando necessário, coleta da informação necessária para modelar ou estimar ruído, escolha de estratégias para tratar campos de dados ausentes, formatação de dados de forma a adequá-los à ferramenta de mineração.

IV. Redução de dados e projeção (Transformação): localização de

características úteis para representar os dados dependendo do objetivo da tarefa, visando a redução do número de variáveis e/ou instâncias a serem consideradas para o conjunto de dados.

V. Mineração de dados (Mineração): aplicação de métodos a serem utilizados

para localizar padrões nos dados, seguida da efetiva busca por padrões de interesse numa forma particular de representação ou conjunto de representações; busca pelo melhor ajuste dos parâmetros do algoritmo para a tarefa em questão.

VI. Interpretação dos padrões minerados (Interpretação/Avaliação): Análise

dos padrões encontrados para verificar se estes apresentam conhecimento novo em aplicações práticas, com um possível retorno aos passos I-VI para posterior avaliação.

VII. Implantação do conhecimento descoberto (Conhecimento): incorporação

deste conhecimento à performance do sistema ou, simplesmente, documentá-lo e reportá-lo às partes interessadas.

(29)

Figura 2: As fase do processo de KDD (FAYYAD et al., 1996a)

Os processos e estudos em KDD continuam em evolução constante. Estes podem também ser entendidos como a intersecção de áreas de pesquisa afins tais como aprendizado de máquina, reconhecimento de padrões, banco de dados, estatística e visualização de dados (FAYYAD et al., 1996b).

KDD se baseia fortemente em técnicas conhecidas de aprendizado de máquina, de reconhecimento de padrões e de estatística para encontrar padrões nos dados. A estatística oferece, também, métodos de quantificação da incerteza inerente quando se procura inferir padrões gerais a partir de amostras de uma população. As técnicas de visualização de dados estimulam naturalmente a percepção e a inteligência humana, aumentando a capacidade de entendimento e associação de novos padrões (REZENDE et al., 2002).

O processo de KDD é centrado na cooperação entre os seus diversos agentes, e o seu sucesso depende, em parte, dessa cooperação. Os agentes do processo podem ser divididos em três classes (REZENDE et al., 2002):

Especialista do domínio: pessoa que deve possuir conhecimento amplo do domínio de

(30)

Analista de dados: pessoa responsável pela execução do processo de KDD. Este

usuário deve conhecer a fundo as etapas que compõem o processo.

Usuário final: representa a classe de usuários que vai utilizar o conhecimento extraído

como auxílio em um processo de tomada de decisão.

3.1.1 Preparação de Dados

Como relatado anteriormente, o processo de KDD envolve várias etapas e, em quase todas elas, existe a intervenção do analista. Dentre essas etapas, estão a preparação, a seleção, a limpeza de dados e a incorporação de conhecimento adicional.

A realização apropriada dessas etapas assegura a viabilidade da extração de conhecimento útil que é derivado dos dados. Uma realização imprudente das etapas constituintes do processo de descoberta de conhecimento em bancos de dados pode ser uma atividade que pode conduzir à descoberta de padrões enganosos ou sem sentido prático (AGRAWAL et al., 1996). Abaixo, destacamos algumas dessas etapas:

I. Construção da base ou conjunto de dados que será utilizado para aprendizagem

e extração de conhecimento. Isso, muitas vezes, envolve a fusão de dados oriundos de diversas fontes.

II. Pré-processamento e limpeza dos dados, que são constituídas de operações

básicas como remoção de ruídos, escolha de estratégias para o tratamento de valores faltantes e identificação de variáveis dependentes no tempo.

III. Seleção e redução de atributos a fim de diminuir o tempo total de processamento

dos algoritmos, simplificar os modelos de predição e fornecer um entendimento melhor sobre os relacionamentos entre os atributos.

IV. Transformação dos dados a fim de realçar informações importantes do domínio

(31)

Como exemplo, uma etapa da preparação de dados com aplicação em sensoriamento remoto consiste na montagem das composições coloridas, muito utilizadas na classificação de dados, pois são formadas por várias imagens de bandas diferentes do espectro eletromagnético e, também, de imagens de índices de vegetação. Para facilitar o entendimento, uma imagem, em uma determinada banda, pode ser convertida em uma tabela com três campos: latitude, longitude e número digital (DN), onde cada registro corresponde ao vetor de atributos de um dado pixel. Uma composição resultante da sobreposição de imagens em três bandas distintas, teria um vetor de atributos de tamanho 3, isto é, um registro com três campos, onde cada campo é interpretado como uma variável de estudo.

3.1.2 Mineração de dados

Frequentemente, o processo de mineração de dados é confundido com o processo mais geral que é o KDD. Isso ocorre por que o processo de mineração de dados é uma das etapas essenciais do processo de KDD. Isto é, a mineração de dados é uma fase dentro de um processo mais geral (HAN e KAMBER, 2006).

Segundo Fayyad et al. (1996a), KDD refere-se ao processo global de descoberta de conhecimento a partir de dados, enquanto a mineração de dados é uma fase desse processo. Dentro desse contexto, a mineração de dados deve ser entendida como a aplicação de algoritmos específicos para extrair padrões dos dados. As demais fases do processo de KDD também são importantes, pois garantem a qualidade e a utilidade do conhecimento adquirido através dos dados.

Ainda tendo em vista a descoberta de conhecimento expresso através de padrões existentes nos dados, é importante conceituar o que é uma tarefa e o que é uma técnica de mineração de dados. Uma tarefa de mineração de dados consiste na especificação do tipo de conhecimento que se deseja extrair dos dados, como exemplo, a frequência de um padrão de uso de cartão de credito, a classificação de um bom ou mal pagador a partir de informações cadastrais. Já a técnica de mineração consiste na especificação de metodologias que serão utilizadas para a realização de uma tarefa especificada anteriormente (AMO, 2004).

(32)

Também, de acordo com Rezende et al. (2002), as técnicas descrevem um paradigma de extração de conhecimento e vários algoritmos podem seguir este paradigma. Por exemplo, o aprendizado simbólico que gera regras de decisão, muito utilizadas para extração de conhecimento, pode ser realizado utilizando algoritmos diferentes como o C4.5-rules e CN2.

Não existe a melhor técnica, já que cada uma possui vantagens e desvantagens. A escolha de uma técnica requer uma análise mais detalhada do problema em questão e a decisão de qual representação e estratégia de descoberta seja mais adequada. Em particular, neste trabalho, a tarefa principal é a classificação com ênfase em técnicas de aprendizado simbólico, mais especificamente, árvores de decisão.

Na prática, os dois objetivos principais da mineração de dados são a predição e a descrição. A predição envolve o uso de variáveis com valores conhecidos para predizer um valor desconhecido ou futuro de outra variável (atributo meta). A descrição caracteriza propriedades gerais encontradas nos dados, com foco em padrões interpretáveis pelo ser humano. Esses objetivos podem ser alcançados por meio de vários tipos de tarefas. A escolha de uma ou mais tarefas depende do problema em questão. As tarefas tradicionais de mineração de dados estão representadas na Figura 3 e são brevemente descritas a seguir (HAN e KAMBER, 2006; FAYYAD et al., 1996b).

(33)

Figura 3: Objetivos e tarefas de mineração de dados (REZENDE et al., 2002)

Ainda segundo Amo (2004), dentre as principais técnicas utilizadas em mineração de dados, tem-se técnicas estatísticas, técnicas de aprendizado de máquina e técnicas baseadas em crescimento-poda e validação. A seguir, descrevemos sucintamente as principais tarefas de mineração (REZENDE et al., 2002).

3.1.2.1 Predição

Classificação: É o processo de encontrar um conjunto de modelos (funções) que

descrevam e distingam classes ou conceitos, com propósito de utilizá-los para predizer classes de objetos que ainda não foram classificados. O modelo construído baseia-se na análise prévia de um conjunto de dados de amostragem ou dados de treinamento, contendo objetos classificados corretamente. Como exemplo, no contexto deste trabalho, poderia ser citada a classificação de um pixel da imagem em um tipo de cobertura do solo, como solo exposto, água ou vegetação.

(34)

alguns valores ausentes em seus dados, em vez de descobrir classes de objetos. Isto ocorre sobretudo quando os valores que faltam são numéricos. Neste caso, a tarefa de mineração é denominada Regressão e uma das técnicas que podem ser empregadas para atingir este fim é a análise de regressão, que consiste em descobrir uma função que mapeie um item de dados para uma variável de predição de valor numérico contínuo. Como exemplo, no contexto deste trabalho, poderia ser de interesse modelar o desenvolvimento de uma cultura agrícola a partir da variação da intensidade de radiação registrada em um dado pixel.

3.1.2.2 Descrição

Associação: uma regra de associação é um padrão da forma X→ Y, onde X e Y são

conjuntos de valores (tais como artigos comprados por um cliente ou sintomas apresentados por um paciente). Por exemplo, consideremos o caso de um supermercado. O padrão “Clientes que compram pão também compram leite” representa uma regra de associação que reflete um padrão de comportamento dos clientes do supermercado. Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzi-lo a comprar mais.

Agrupamento: diferentemente da classificação e predição, onde os dados de

treinamento estão devidamente classificados e as denominações das classes são conhecidas, a análise de clusters trabalha sobre dados onde as denominações das classes não estão definidas. A tarefa consiste em identificar agrupamentos de objetos, que identificam, formam ou correspondam a uma classe. Por exemplo, pode-se aplicar a análise de clusters sobre o banco de dados de um supermercado a fim de identificar grupos homogêneos de clientes, tais como: clientes de determinados pontos da cidade que costumam ir ao supermercado aos domingos, clientes de outros pontos da cidade que costumam fazer suas compras às segundas-feiras. No contexto deste trabalho, poderia ser interessante para o analista executar um procedimento de classificação não-supervisionada, como análise de agrupamentos (cluster), como passo inicial de um processo de construção de mapas temáticos.

(35)

3.1.2.3 Outros

Análise de Outliers: um banco de dados pode conter dados que não apresentem o

comportamento esperado. Estes dados são denominados exceções “outliers”. Muitos métodos de mineração descartam estes “outliers” como sendo ruído indesejado. Entretanto, em algumas aplicações, tais como detecção de fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente. Por exemplo, podemos detectar o uso fraudulento de cartões de crédito ao descobrir que certos clientes efetuaram compras de valor extremamente alto, fora de seu padrão habitual de gastos.

3.1.3 Diferenças entre classificadores tradicionais e os utilizados em mineração de dados Existem diversos tipos de metodologias de classificação de dados, já publicadas na literatura científica e também utilizadas na prática. Algumas dessas metodologias são utilizadas mais freqüentemente pela facilidade, viabilidade e qualidade dos resultados. Dentre elas, pode-se citar os métodos de máxima-verossimilhança, as técnicas de regressão, o discriminante linear de Fisher, os classificadores bayeseanos, as metodologias baseadas em distâncias como a euclidiana, as redes neurais, a lógica fuzzy entre outras. Assim, uma questão que pode ser feita é “por que apenas alguns desses classificadores são considerados na mineração de dados e outros não?” ou ainda, “o que torna alguns classificadores mais interessantes que outros quando o assunto é mineração de dados?”.

A resposta a estas questões reside no fato do processo de mineração de dados ser dirigido à obtenção de conhecimento sobre o domínio do problema, tendo como base os dados, seus relacionamentos, suas estruturas de variabilidade e de associação. Em geral, em KDD e mineração de dados, evita-se o emprego de suposições preliminares sobre os dados. O analista deixa os dados “falarem” por eles mesmos. A título de ilustração, enquanto um modelo baseado em máxima-verossimilhança tem como resultado apenas um classificador e sua acurácia, um modelo de árvore de decisão, também denominado um modelo não-paramétrico de classificação, traz como resultado um conjunto de regras de classificação interpretáveis pelo analista.

(36)

Segundo Monard e Baranauskas (2002), as regras de classificação extraídas após a modelagem por árvore de decisão são consideradas técnicas de aprendizado orientadas a conhecimento, em que o interesse principal consiste em obter descrições simbólicas que sejam de compreensão fácil e utilização por meio de modelos mentais. São adequadas ao processo de KDD, pois, como visto, KDD dá ênfase especial no descobrimento de padrões compreensíveis que possam ser interpretados como conhecimento útil ou interessante.

Também, soluções simbólicas permitem a compreensão das fronteiras de decisão que existem nos dados e da lógica implícita neles (APTE e WEISS, 1997). As redes neurais artificiais, por exemplo, embora possam ter precisão elevada, são relativamente difíceis de compreender quando comparadas com as árvores de decisão (FAYYAD et al., 1996a). Isto ocorre porque as redes neurais artificiais são modelos paramétricos, isto é, o analista parte da suposição que o relacionamento entre as variáveis explanatórias e o atributo meta são definidos por uma função conhecida a priori. Feita esta suposição, o objetivo do analista passa a ser encontrar os parâmetros que produzam o melhor ajuste daquela função aos dados em estudo. Geralmente, os modelos baseados em redes neurais, como o “perceptron multilayer”, são chamados modelos de “caixa preta”, devido à complexidade das relações entre suas camadas internas.

3.1.4 As Árvores de Decisão

Dentre as muitas metodologias de classificação de dados existentes, as árvores de decisão são modelos não-paramétricos com características peculiares. São constituídas de nodos, que representam os atributos, de arcos provenientes destes nodos, que recebem os valores possíveis para estes atributos, e de nodos folha, que representam as classes distintas de um conjunto de treinamento (INGARGIOLA, 2010). Assim, a classificação por árvores de decisão é a construção de uma estrutura, que pode ser utilizada para classificar todos os objetos do conjunto de dados da entrada (BRAZDIL, 2005).

Segundo Han e Kamber (2006), uma árvore de decisão é um modelo representado graficamente por nós e ramos, parecido com uma árvore, no sentido invertido. O nó raiz é o

(37)

primeiro nó da árvore, no topo da estrutura. Os nós internos, incluindo o nó raiz, são nós de decisão. Cada um contém um teste sobre um ou mais atributos (variáveis independentes) e os resultados desse teste formam os ramos da árvore. Geralmente, o teste em um nó compara o valor de um atributo com um valor constante. No entanto, algumas árvores podem comparar dois atributos entre si, ou utilizar alguma função envolvendo um ou mais atributos (WITTEN e FRANK, 2005).

A título de ilustração, na Figura 4, tem-se uma aplicação de um modelo de árvore de decisão com o objetivo de recomendar a saída para uma viagem ou não. O atributo meta de interesse possui duas classes: vá viajar ou não vá viajar. A decisão é baseada em dados relativos às condições do tempo.

Figura 4: Uma ilustração e aplicação da árvore de decisão (MONARD e BARANAUSKAS, 2002)

O propósito básico da modelagem por árvores de decisão é a produção de um modelo de predição ou a descoberta de estruturas preditivas do problema (BREIMAN et al.,

(38)

1984). No último caso, a intenção é compreender quais variáveis e interações dessas variáveis conduzem à melhor descrição do fenômeno estudado. Assim, a árvore de decisão, depois de construída, pode ser utilizada para classificar exemplos cuja classe é desconhecida. Para classificar um exemplo, testam-se os valores de seus atributos segundo a árvore de decisão. Um caminho é traçado a partir do nó raiz, descendo pelos ramos, de acordo com os resultados dos testes, até chegar a um nó folha, que representa a classe de predição do exemplo (HAN e KAMBER, 2006).

3.1.5 Regras de Classificação Extraídas de Árvores de Decisão

O conhecimento representado em árvores de decisão pode ser extraído e representado na forma de regras de classificação SE-ENTÃO. Uma regra é criada para cada caminho entre a raiz e um nó folha. Os testes de valor de atributo ao longo do caminho formam uma conjunção no antecedente da regra e o nó folha transforma-se no consequente da regra. Essas regras podem ser mais fáceis de compreender, especialmente se a árvore de decisão for muito grande (HAN e KAMBER, 2006). Logo abaixo, seguem as regras de classificação extraídas da árvore de decisão ilustrada na Figura 4.

SE aparência = sol E umidade 78 ENTÃO classe = vá SE aparência = sol E umidade > 78 ENTÃO classe = não_vá SE aparência = nublado ENTÃO classe = vá

SE aparência = chuva E ventando = não ENTÃO classe = vá SE aparência = chuva E ventando = sim ENTÃO classe = não_vá

Regras produzidas a partir de uma árvore de decisão são não-ambíguas e disjuntas, ou seja, a ordem com que são executadas é irrelevante. Uma única regra é disparada quando um novo exemplo é classificado. Em geral, essas regras são mais complexas que o necessário, sendo possível remover testes redundantes (MONARD e BARANAUSKAS, 2002; WITTEN e FRANK, 2005).

(39)

3.1.6 Avaliação de Métodos de Classificação de Dados

O princípio fundamental das metodologias de avaliação de classificadores é a mensuração da acurácia dos resultados obtidos após a aplicação destes a novos dados. O ideal é que o classificador acerte 100% nos novos dados e erre 0%. Isto raramente é possível. Assim, o analista deve buscar configurações capazes de alcançar as maiores taxas de acerto e as menores taxas de erro possíveis.

Em geral, as taxas de erros e acertos devem ser obtidas após aplicação do modelo em um conjunto de dados diferente daquele utilizado na fase de treinamento. Isto é importante para evitar um ajuste específico (overfitting em inglês) do modelo ao dados de treinamento. A consequencia principal quando ocorre o overfitting é uma alta taxa de erro na aplicação do modelo em novos dados.

Segundo Han e Kamber (2006), uma das formas mais utilizadas para contornar esse problema é dividir, aleatoriamente, os exemplos em dois conjuntos independentes: um de treinamento e o outro de teste. Esse método é conhecido como splitting, do inglês divisão. O conjunto de treinamento (tipicamente dois terços dos dados) é utilizado para gerar o modelo, enquanto que sua taxa de erro é verificada com um terço dos dados restantes (conjunto de testes).

Outro método bastante utilizado é a validação cruzada (cross-validation), particularmente quando a quantidade de dados para dividir entre treinamento e teste é limitada (WITTEN e FRANK, 2005). Na validação cruzada, os exemplos são aleatoriamente divididos em k partições mutuamente exclusivas (folds) de tamanho aproximadamente igual.

Uma das partições é reservada para teste, enquanto as demais, juntas, são utilizadas para treinamento. Este procedimento é executado k vezes, sendo cada vez com uma partição diferente para teste. A taxa de erro, ao final, é calculada como a média das taxas de erro obtidas em cada uma das partições de teste. A vantagem da validação cruzada é utilizar cada um dos exemplos para treinamento e para teste.

(40)

fase da avaliação é a aplicação do modelo ao conjunto de testes selecionado. Como resultado, o analista obtém a chamada matriz de erros ou matriz de confusão (Figura 5), amplamente utilizada em análise estatística de concordância.

Considerando a matriz de confusão da Figura 5, que ilustra o caso relativo a um problema com duas classes, denominadas C+ (classe positiva) e C

-

(classe negativa), as quatro possibilidades de acertos e de erros do classificador podem ser identificadas como:

• Verdadeiros positivos (VP), quando os exemplos pertencem à classe C+ e foram preditos como pertencentes a essa mesma classe.

• Falsos negativos (FN), quando os exemplos pertencem à classe C+ e foram preditos como pertencentes à classe C

-

.

• Verdadeiros negativos (VN), quando os exemplos pertencem à classe C

-

e foram preditos como pertencentes a essa mesma classe.

• Falsos positivos (FP), quando os exemplos pertencem à classe C

-

e foram preditos como pertencentes à classe C+.

(41)

Além da própria acurácia e da taxa de erro, outras medidas podem ser derivadas da matriz de confusão, (Tabela 1), tais como (MONARD e BARANAUSKAS, 2002):

Tabela 1: Medidas derivadas da matriz de confusão

A acurácia (taxa de acerto) mede a proporção do número total de predições que foram classificadas corretamente. Nessa definição, n é o número total de objetos classificados.

A sensibilidade é definida como a proporção de casos positivos que foram corretamente identificados. .

A especificidade é definida como a proporção de casos negativos que foram classificados corretamente.

A confiabilidade positiva ou precisão é definida como a proporção de casos preditos como positivos, que de fato eram positivos.

A confiabilidade negativa é definida como a proporção de casos negativos que foram classificados como positivos.

A medida F é uma média harmônica ponderada entre a precisão e a sensitividade.

3.1.7 Análise de concordância e a estatística Kappa de Cohen

Segundo Cohen (1960), para saber se uma dada classificação de um objeto é confiável, é necessário ter este objeto caracterizado ou classificado várias vezes, por exemplo, por mais de um juiz ou classificador. Para descrever a intensidade da concordância entre dois ou mais juizes, ou entre dois métodos de classificação, utilizamos a medida Kappa que é baseada no número de respostas concordantes, ou seja, no número de casos cujo resultado é o mesmo entre os juízes. O Kappa é uma medida de concordância e mede o grau de acurácia além do que seria esperado tão somente pelo acaso. O valor máximo desta medida de concordância é 1, onde este valor representa total concordância e os valores próximos a 0, indicam nenhuma concordância, ou a concordância foi exatamente a esperada pelo acaso.

(42)

Para avaliar se a concordância é razoável, pode ser necessário um teste estatístico para avaliar a significância do Kappa. Neste caso a hipótese testada é se o Kappa é igual a 0, o que indicaria concordância nula, ou se ele é maior do que zero, concordância maior do que o acaso (teste monocaudal: H0: K = 0; H1: K > 0). Um Kappa com valor negativo, que não tem interpretação cabível, pode resultar num paradoxal nível crítico (valor de p) maior do que um (LANDIS e KICH, 1977).

No caso de rejeição da hipótese (Kappa=0) temos a indicação de que a medida de concordância é significantemente maior do que zero, o que indicaria que existe alguma concordância. Isto não significa necessariamente que a concordância seja alta. Cabe, portanto, ao pesquisador avaliar se a medida obtida é satisfatória ou não, isto baseado, por exemplo, em dados de literatura ou pesquisas anteriores. Landis e Kich (1977) sugerem a seguinte interpretação:

Estatística Kappa Qualidade

0,00 Péssima 0,21 – 0,40 Ruim 0,21 – 0,40 Razoável 0,41 – 0,60 Boa 0,61 – 0,80 Muito Boa 0,81 – 1,00 Excelente

Essa avaliação de concordância através do Kappa é utilizada quando se compara dois ou mais classificadores ou quando se avalia o desempenho de um classificador em cenários distintos. O coeficiente Kappa, para a matriz de confusão da Figura 5, pode ser definido pela seguinte equação:

Onde Pr(a) é a concordância relativa observada para uma dada classe na matriz de confusão e Pr(e) é a probabilidade de concordância esperada para esta mesma classe. O coeficiente Kappa é calculado levando-se em consideração todas as classes.

Referências

Documentos relacionados

The SUnSET bovine spermatozoa results demand the use of other translation elongation inhibitors, namely emetine, in place of cycloheximide, a competitive inhibitor of the

Este artigo parte de um contexto de mudança de paradigma no que diz respeito ao arquivo, assim como da emergência de novas formas de experimentar a memória através da arte do

This was considered a unique case in Portugal, since power transformers are only available for this type of assessment, when a catastrophic failure occurs, preventing an analysis

Este dado diz respeito ao número total de contentores do sistema de resíduos urbanos indiferenciados, não sendo considerados os contentores de recolha

Purpose: This thesis aims to describe dietary salt intake and to examine potential factors that could help to reduce salt intake. Thus aims to contribute to

Visando este trabalho analisar o impacto e a importância dos Projetos Educativos do TNSJ no âmbito de uma educação artística, interessa-nos refletir sobre a relação dos

Os supercondutores magnéticos, volantes de inércia e os condensadores são apropriados para aplicações que necessitam de grande potência de saída em pouca

A rede de teste 118 IEEE representada na figura 4.3 foi a rede que serviu de base para a aplicação da metodologia descrita e para os estudos de Data Mining apresentados nos