• Nenhum resultado encontrado

Indução de regras de decisão para análise descritiva de padrões de produtividade em talhões de cana-de-açúcar

N/A
N/A
Protected

Academic year: 2021

Share "Indução de regras de decisão para análise descritiva de padrões de produtividade em talhões de cana-de-açúcar"

Copied!
122
0
0

Texto

(1)

i

PAULO RODRIGUES PELOIA

INDUÇÃO DE REGRAS DE DECISÃO PARA ANÁLISE

DESCRITIVA DE PADRÕES DE PRODUTIVIDADE EM

TALHÕES DE CANA-DE-AÇÚCAR

CAMPINAS

(2)
(3)

iii

UNIVERSIDADE ESTADUAL DE CAMPINAS

Faculdade de Engenharia Agrícola

PAULO RODRIGUES PELOIA

INDUÇÃO DE REGRAS DE DECISÃO PARA ANÁLISE

DESCRITIVA DE PADRÕES DE PRODUTIVIDADE EM

TALHÕES DE CANA-DE-AÇÚCAR

Tese apresentada à Faculdade de Engenharia Agrícola da Universidade Estadual de Campinas como parte dos requisitos exigidos para obtenção do título de Doutor em Engenharia Agrícola, na Área de Planejamento e Desenvolvimento Rural Sustentável

ORIENTADOR: Prof. Dr. Luiz Henrique Antunes Rodrigues

ESTE EXEMPLAR CORRESPONDE À VERSÃO FINAL DA TESE DEFENDIDA PELO ALUNO PAULO RODRIGUES PELOIA E ORIENTADO PELO PROF. DR. LUIZ HENRIQUE ANTUNES RODRIGUES

CAMPINAS

(4)
(5)
(6)
(7)

vii

RESUMO

As indústrias do setor sucroalcooleiro coletam anualmente, durante sua operação comercial normal, milhares de dados relacionadas à produção e fatores que podem influenciá-la. A análise descritiva de padrões nos fatores de influência associados à talhões de destacado desempenho relacionado ao potencial produtivo pode ser um ponto chave para tornar o sistema de produção mais eficiente, principalmente quando passíveis de ação e/ou inesperados, assim auxiliando na tomada de decisão ou servindo de hipótese para experimentos específicos futuros em condições controladas. Apesar desta disponibilidade de bases de dados e potenciais resultados, ainda existe uma lacuna em abordagens que contemplem desde a obtenção e preparação dos dados até extração de padrões num formato compreensível. Assim, o objetivo desta pesquisa foi propor uma abordagem baseada na técnica de indução de regras de decisão para análise descritiva de padrões em talhões de alto e baixo desempenho em produtividade na cana-de-açúcar. A abordagem possui 9 etapas, sendo: obtenção da base de dados de produtividade e seu enriquecimento com dados de fatores de influência complementares e sua limpeza; criação de atributos derivados, padronização do potencial produtivo dos talhões e segmentação em baixo e alto desempenho pelo método K-means; extração de regras por indução de regras de decisão usando os algoritmos RIPPER e Classification Tree, seguida pela seleção das principais regras por medidas de interesse (Novidade e Likelihood ratio ou precisão e complexidade); avaliação agronômica das regras selecionadas e dos atributos descritores. A abordagem foi exemplificada numa base de dados de produtividade de talhões de duas safras consecutivas de uma unidade de produção de cana-de-açúcar. Os resultados mostraram que a abordagem foi capaz de descrever 18 padrões, sendo 10 passíveis de ação e 4 inesperados. A abordagem proposta mostrou-se válida para descrever padrões inesperados ou passíveis de ação relacionados à produtividade, reproduzindo o conhecimento de especialistas de forma estruturada (passível de reprodução) e automática (sem a necessidade um especialista durante o processo), podendo ser estendida a outras culturas.

(8)
(9)

ix

ABSTRACT

Industries of sugarcane sector collect annually thousands of information related to production and influence factors during current commercial operation. The descriptive analysis of influence factors patterns related to commercial blocks with outstanding performance related to productive potential may be a key-point to make the sugarcane production system more efficient, mainly when actionable and/or unexpected, thus assisting decision making or being hypothesis for future specific experiments under controlled conditions. Despite of the databases availability and potential results, still exist a gap in approaches that cover from the data obtainment and preparation until patterns extraction in a comprehensive format. Therefore, the objective of this research is to propose a methodology based on decision rules induction technique to descriptively analyze patterns in commercial blocks with high and low performance regarding sugarcane yield. The approach has 9 phases: yield database obtainment and its enrichment with complementary influence factors data and clean up; derived attributes creation, productive potential of commercial blocks standardization and clustering in high and low performance by k-means method; rules induction by algorithms RIPPER and Classification Tree, followed by main rules selection based on interestingness measures (Novelty and Likelihood ratio or precision and complexity); agronomic evaluation of selected rules and descriptive attributes. The approach has been exemplified in a two consecutive season yield database of commercial blocks from a production unit has been analyzed. Results show that the approach was able to describe 18 patterns, where 10 are actionable and 4 unexpected. The proposed approach is valid to describe unexpected patterns or actionable ones related to yield, reproducing the experts knowledge in a structured form (reproducible) and automatically (nor requiring an knowledge expert during the process). It may be extended to other crops.

(10)
(11)

xi SUMÁRIO 1 INTRODUÇÃO ... 1 1.1 HIPÓTESE ... 5 1.2 OBJETIVO ... 5 2 REVISÃO BIBLIOGRÁFICA ... 7 2.1 Cana-de-açúcar ... 7

2.1.1 Modelos no sistema de produção da cana-de-açúcar ... 8

2.1.2 Fatores de influência sobre a produtividade ... 11

2.1.3 Variedades ... 15

2.1.4 Manejo ... 16

2.1.5 Ambiente de Produção ... 18

2.2 Mineração de dados ... 19

2.2.1 Indução de árvore de decisão ... 21

2.2.2 Indução de regras de decisão ... 23

2.2.3 Categorização do atributo meta ... 25

2.2.4 Medidas de Interesse ... 26

3 MATERIAL E MÉTODOS ... 31

3.1 Abordagem empregada ... 31

Etapa 1. Obtenção de Bases de Dados ... 33

Etapa 1.1. BD Produção... 33

Etapa 1.2. BDs Complementares ... 34

Etapa 2. Limpeza dos Dados ... 35

Limpeza de dados no BD Clima ... 36

(12)

xii

Etapa 3.1. Divisão em Fases fenológicas ... 37

Etapa 3.2. Cálculo de índices meteorológicos ... 38

Etapa 3.3. Cálculo de relações edáficas ... 38

Etapa 3.4. Caracterização das variedades ... 40

Etapa 4. Padronização do potencial produtivo ... 40

Etapa 5. Categorização do desempenho produtivo ... 42

Etapa 6. Criação dos BD´s Modelagem ... 45

Etapa 7. Extração de regras ... 46

Etapa 8. Seleção de regras por medidas de Interesse ... 47

Etapa 9.1. Análise agronômica das regras selecionadas ... 48

Etapa 9.2. Análise agronômica dos atributos descritores... 48

3.2 Descrição da unidade de produção em estudo ... 48

4 RESULTADOS E DISCUSSÃO ... 51

4.1 Resultados ... 51

4.1.1 Regras individuais – Alto desempenho ... 54

4.1.2 Regras individuais – Baixo desempenho ... 57

4.1.3 Atributos descritores ... 60

4.2 Discussão ... 62

5 CONCLUSÃO ... 77

6 REFERÊNCIAS BIBLIOGRÁFICAS ... 79

ANEXOS ... 91

ANEXO I – Método utilizado para determinação do fator de maior influência na produtividade ... 93

ANEXO II – Descrição dos atributos utilizados para indução de regras ... 95

(13)

xiii

Aos meus pais, Nilce e Ailton (in memorian), minha esposa e filha, Anna e Giovanna.

(14)
(15)

xv

AGRADECIMENTOS

À FAPESP e Odebrecht Agroindustrial pelo apoio ao projeto de pesquisa (Processo FAPESP N° 2012/50049-3).

À Faculdade de Engenharia Agrícola da Universidade Estadual de Campinas por todo o apoio dado durante o curso.

Aos professores desta instituição pelos ensinamentos transmitidos.

Ao prof. Luiz Henrique A. Rodrigues, com quem tive o privilégio de conviver durante estes anos, pela confiança em mim depositada, conhecimento e experiência compartilhados.

Aos colegas que conheci, especialmente à Felipe Bocca, pelo trabalho conjuntamente desenvolvido.

(16)
(17)

xvii

LISTADEFIGURAS

Figura 1. Ilustração do conceito de Graus-dia (°C). ... 12

Figura 2. Abordagem empregada na indução de regras de decisão para análise descritiva de padrões de produtividade em cana-de-açúcar. ... 31

Figura 3. Fenologia típica para região de estudo em função do tipo de ciclo e meses do ano (BOCCA, 2014). ... 37

Figura 4. Exemplo da forma de integração de atributos da BD Clima na BD enriquecida. ... 41

Figura 5. Distribuição dos valores do atributo meta produtividade originais (TCH) e após padronização do seu potencial (ZTCH). ... 42

Figura 6. Visualização do agrupamento utilizando K-means (K = 3) sobre TCH ... 43

Figura 7. Formação dos atributos meta categóricos Alto k3 e Baixo k3. ... 44

Figura 8. Formação dos BD´s Modelagem ... 45

Figura 9. Balanceamento de classes do atributo meta e validação ... 47

Figura 10. Precipitação mensal e temperatura média mensal para Usina Alcídia – Teodoro Sampaio – SP, de Jan/2010 a Nov/2012. ... 49

Figura 11. Precisão e cobertura das regras induzidas para talhões de alto desempenho de produtividade padronizada pelo número de corte (ZTCH)... 51

Figura 12. Precisão e cobertura das regras induzidas para talhões de baixo desempenho de produtividade padronizada pelo número de corte (ZTCH). ... 52

Figura 13. Participação das variáveis descritivas agrupadas nos padrões induzidos para talhões de desempenho Alto e Baixo ... 61

Figura 14. Distribuição do parâmetro graus-dia no período de maturação em função do mês de colheita (•) e ponto de corte determinado pela regra R32 (- -)... 65

Figura 15. Produtividade (TCH) em função do número de corte para dois grupos de textura de solo. ... 67

Figura 16. Distribuição do parâmetro graus-dia no período de brotação em função do mês de plantio (•) e ponto de corte determinado pela regra R34 (-)... 71

(18)
(19)

xix

LISTADETABELAS

Tabela 1. Coeficientes de cultura (Kc) para cana-de-açúcar. ... 14 Tabela 2. Tabela de contingência para a regra X→Y. ... 27 Tabela 3. Relações de atributos químicos e físicos do solo. ... 39 Tabela 4. Percentil de registros na categoria de desempenho Alto e Baixo com relação ao atributo meta desempenho produtivo (ZTCH) em função de diferentes valores de k no método de agrupamento K-means. ... 44 Tabela 5. Número de regras induzidas e selecionadas por algoritmo para desempenho Alto. ... 53 Tabela 6. Número de regras induzidas e selecionadas por algoritmo para desempenho Baixo. ... 53 Tabela 7. Regras induzidas a partir do BD Modelagem K3, selecionadas, associadas a desempenho Alto. ... 54 Tabela 8. Regras induzidas a partir do BD Modelagem K4, selecionadas, associadas a desempenho Alto. ... 55 Tabela 9. Regras induzidas a partir do BD Modelagem K5, selecionadas, associadas a desempenho Alto. ... 56 Tabela 10. Regras induzidas a partir do BD Modelagem K3, selecionadas, associadas a desempenho Baixo. ... 57 Tabela 11. Regras induzidas a partir do BD Modelagem K4, selecionadas, associadas a desempenho Baixo. ... 58 Tabela 12. Regras induzidas a partir do BD Modelagem K5, selecionadas, associadas a desempenho Baixo. ... 59 Tabela 13. Participação na variabilidade explicada pelo modelo para os atributos descritores induzidos por árvore de decisão com atributo meta TCH ... 93 Tabela 14. Descrição dos atributos contínuos ou ordinais utilizados para indução de regras ... 95 Tabela 15. Descrição dos atributos categóricos utilizados para indução de regras ... 100 Tabela 16. Regras selecionadas em ordem numérica ... 101

(20)
(21)

1

1 INTRODUÇÃO1

A cultura da cana-de-açúcar tem grande importância econômica no mundo, sendo cultivada numa faixa de latitude entre 35° N e 30° S. É cultivada principalmente como matéria-prima para produção de álcool e açúcar, sendo o Brasil o maior produtor mundial, com destaque para o estado de São Paulo como maior produtor e exportador nacional (WACLAWOVSKY et al., 2010).

O sistema produtivo da cana-de-açúcar tem como principais objetivos o acúmulo de biomassa por unidade de área (produção de cana por hectare), riqueza de sacarose nos colmos industrializáveis (açúcares totais recuperáveis por tonelada de cana) e longevidade do canavial, dado pela manutenção da produtividade e qualidade da matéria-prima ao longo das safras (CÂMARA, 1993). Para atingir alta produção de sacarose por área, a planta precisa encontrar épocas com condições de temperatura e umidade adequadas para permitir o máximo acúmulo de biomassa na fase vegetativa, seguida de um período com restrição hídrica ou térmica para favorecer o acúmulo de sacarose no colmo na época do corte (SCARPARI; BEAUCLAIR, 2004).

Em função do seu ciclo perene, a cana-de-açúcar sofre a influência de diversos fatores que afetam sua produtividade e maturação durante todo o ano e durante sucessivas safras. Estes fatores estão relacionados à adaptabilidade de variedades (LAVORENTI; MATSUOKA, 2001; RAMBURAN et al., 2011), clima (MACHADO et al., 2009; MARIN et al., 2011), técnicas de manejo (MARCHIORI, 2004; MUCHOW et al., 1998), pressão de pragas, daninhas e doenças (GILBERT et al., 2006) e condições edáficas (MAULE et al., 2001).

A interação do clima de determinado local com fatores edáficos, denominado ambiente de produção (DIAS et al., 1999), interagindo com variedades e técnicas de

1 Esta tese é fruto do Projeto de Pesquisa “Técnicas de mineração de dados aplicadas à análise e

previsão da produtividade da cana-de-açúcar” apoiado pelo convênio firmado entre FAPESP e Odebrecht Agroindustrial (N° processo FAPESP: 2012/50049-3).

(22)

2

manejo tem sido foco de estudos, gerando conhecimento para subsidiar o planejamento em unidades produtoras (LANDELL; BRESSIANI, 2010).

A compreensão da magnitude e natureza das interações entre fatores do ambiente de produção, variedade e manejo é um ponto chave para o desenho de um sistema produtivo de alta produtividade. Porém, a maior parte dos trabalhos relacionados com este tipo de estudo visa apenas a descrição do comportamento das variedades frente a diferentes conjuntos de fatores inerentes a cada sistema de produção (GILBERT et al., 2006; LAVORENTI; MATSUOKA, 2001; MAULE et al., 2001; RAMBURAN et al., 2010). Entender de que forma estes fatores interferem na produtividade atingida frente ao potencial produtivo pode levar a um sistema de produção mais eficiente, por meio de desenho de experimentos específicos, estratégias de melhoramento de variedades ou mesmo alternativas de manejo e planejamento visando o aumento da eficácia nas tomadas de decisão (FERRARO et al., 2009; SCARPARI, 2002; TITTONELL et al., 2008).

A identificação de padrões e entendimento dos fatores que interferem na variabilidade da produção de um talhão frente o seu potencial produtivo podem ser extraídos por meio da análise de bases de dados de campos comerciais, porém, apesar dos resultados promissores produzidos, tais estudos não são conduzidos rotineiramente (LAWES; LAWN, 2005).

A principal vantagem de se utilizar bases de dados comerciais é que estas trazem uma ampla gama de interações entre as variáveis do sistema de produção devido a sua larga escala, o que não seria possível pela análise de experimentos de campo (LAWES; LAWN, 2005). Em contrapartida, a estrutura deste tipo de dado frequentemente não atende as premissas necessárias para o uso de técnicas estatísticas clássicas como: distribuição normal da variável dependente (atributo meta), ausência de correlação entre variáveis independentes (multicolinearidade), linearidade, ausência de dados categóricos e balanceamento do modelo, etc. (ZHANG et al., 2005). Na cana-de-açúcar, o uso de bases de dados comerciais é voltado mais comumente para a predição da produtividade e maturação para fins de planejamento,

(23)

3

com modelos obtidos por meio de regressão (ARGENTON, 2006; ARGENTON et al., 2010; BEAUCLAIR, 1991, 1994; BERNARDES et al., 2002; BRUGGEMANN et al., 2001; SUGAWARA et al., 2007; TERAMOTO, 2003), ou ainda redes neurais artificiais (XU et al., 2010), ensemble (EVERINGHAM et al., 2009; PICOLI, 2006), modelos bayesianos (EVERINGHAM et al., 2007) e modelos não-lineares (BAJPAI et al., 2012). Nestes casos, o conhecimento gerado sobre a influência dos fatores no sistema de produção, que não é o foco principal destas pesquisas, é limitado e complexo ao entendimento do ser humano pela própria característica dos métodos utilizados para a obtenção dos modelos (FAYYAD et al., 1996).

De forma geral, quando há a descrição de sistemas agrícolas, ainda existe uma lacuna com relação às variáveis submetidas à análise. Em função da ausência de detalhamento, não é possível identificar qual prática de manejo, ou interações dentre as várias possíveis, têm realmente destaque (FERRARO et al., 2009). São raros os trabalhos que analisam simultaneamente variáveis relacionadas à adaptabilidade de variedades, clima, técnicas de manejo detalhadas e condições edáficas, uma vez que quanto maior a disponibilidade de diferentes combinações entre fatores de influência, melhor tende a ser a descrição do sistema de produção, porém torna a sua análise ainda mais complexa (LOBELL; ORTIZ-MONASTERIO, 2006; TITTONELL et al., 2005, 2008; ZHENG et al., 2009).

Outra lacuna que pode ser mencionada é a falta de enfoque de trabalhos numa metodologia para análises descritivas para a identificação de fatores de produção associados a um desempenho de destaque, seja superior ou inferior (ROEL et al., 2007; TITTONELL et al., 2008; ZHENG et al., 2009).

Entende-se como desempenho aqui, a diferença entre a produtividade potencial de um dado talhão e a realmente atingida. São diversos os autores que propõem maneiras para estimar o potencial de uma área, baseando-se no ambiente de produção (PRADO, 2005), ou sua combinação com o número de cortes (DEMATTÊ; DEMATTÊ, 2009) e época de colheita ou plantio (LANDELL et al., 2010).

(24)

4

O estudo de padrões em talhões com alto ou baixo desempenho é rotineira em algumas unidades de produção comercial, porém se limita a identificar os fatores de maior importância baseado em conhecimentos prévios de especialistas (DEMATTÊ; DEMATTÊ, 2009). Assim, padrões inesperados não são focados, tampouco todas as possibilidades analisadas, visto que hipóteses devem ser formuladas e então testadas com as bases de dados disponíveis, via de regra não enriquecidas ou submetidas a uma correção de ruídos.

Dentre as diversas técnicas de análise de dados, a indução de regras de decisão e árvores de decisão recebem especial atenção quando o foco é descoberta de conhecimento (FAYYAD et al., 1996), devido à capacidade de utilizarem representações simbólicas que permitem explicitar o conhecimento descoberto de forma inteligível ao ser humano. Tais representações simbólicas possibilitam o entendimento das fronteiras de decisão presentes nos dados e também da lógica implícita neles (APTÉ; WEISS, 1997).

O propósito básico da indução de uma árvore de decisão é produzir um modelo de predição ou compreender quais e como as variáveis e interações entre variáveis interferem no fenômeno estudado (MEIRA et al., 2008, 2009). Por sua vez, a indução de regras de decisão tem foco voltado à criação de modelos descritivos que são mais fáceis de interpretar que os gerados pelas árvores de decisão (HAN et al., 2012). Alguns algoritmos de indução de regras, inclusive, se baseiam na simplificação do conhecimento extraído inicialmente pela árvore de decisão. Em função desta característica de mais fácil interpretação de regras frente à árvore de decisão, este trabalho optou por interpretar os ramos das árvores induzidas na forma de regras.

Alguns algoritmos de indução de árvore de decisão ou regras de classificação exigem que o atributo meta seja do tipo categórico. A forma como é feita esta categorização na fase de preparação de dados afeta diretamente o desempenho dos modelos criados (BAY, 2000). Apesar da importância desta etapa para os algoritmos em questão, esta fase é dependente de decisões arbitrárias e subjetivas (TITTONELL

(25)

5

et al., 2008), como realizado em trabalhos relacionados com a análise do sistema produtivo da cana-de-açúcar (FERRARO et al., 2009; SOUZA et al., 2010).

Como mencionado, a indução de regras de decisão é uma técnica de mineração de dados reconhecidamente capaz de encontrar conhecimento compreensível em bases de dados complexas sem a necessidade de um prévio estabelecimento de hipóteses. Assim, a principal justificativa para uma abordagem baseada na indução de regras de decisão é complementar o que já se faz comumente em unidades de produção, para se estudar os fatores que atuam no desempenho dos talhões, é a possibilidade de identificar padrões passíveis de ação ou conhecimentos inesperados com maior frequência, de forma estruturada.

1.1 HIPÓTESE

A hipótese deste trabalho é:

i. Uma abordagem baseada em indução de regras de decisão, aplicada a registros de talhões comerciais de cana-de-açúcar, permite a análise descritiva de padrões em alto e baixo desempenho com relação ao potencial produtivo, que auxiliem na tomada de decisão ou apontem a necessidade de comprovação por meio de experimentos futuros.

1.2 OBJETIVO

O objetivo desta pesquisa é aplicar uma abordagem baseada na técnica indução de regras de decisão, para análise descritiva de padrões em talhões comerciais de cana-de-açúcar de alto e baixo desempenho, com relação ao potencial produtivo, visando à descoberta de conhecimento.

(26)
(27)

7

2 REVISÃO BIBLIOGRÁFICA

2.1 Cana-de-açúcar

A cana-de-açúcar é uma planta monocotiledônea, alógama e perene, com centro de origem provável na Indonésia e Nova Guiné. Pertence a família Poaceae, gênero Saccharum, tendo em seus cultivares híbridos interespecíficos das espécies S. officinarum, S. spontaneum,S. sinense, S. barbieri, S. robustum e S. edule (SCHULTZ, 1963).

A fenologia da cana-de-açúcar, segundo Gascho e Shih (1983) citado por Silva et al. (2010), pode ser dividida em quatro estádios diferentes, a saber: brotação e emergência, perfilhamento, crescimento dos colmos e maturação dos colmos. O acúmulo de matéria seca da cana-de-açúcar em função do tempo, também chamado de curva de crescimento, tem uma distribuição do tipo sigmóide, sendo: fase de crescimento inicial (do plantio até 200 dias após plantio), correspondendo às duas primeiras fases fenológicas, acumulando 10% da matéria seca total; fase de crescimento máximo (de 200 a 400 dias após o plantio), onde o acúmulo de matéria seca total é na faixa de 70 a 80%; fase de acúmulo de sacarose (de 400 dias até a colheita); e crescimento novamente lento, onde o acúmulo de matéria seca total é de 10% (MACHADO, 1981).

Argenton et al. (2010) e Beauclair (1991) relatam que a produção da cana-de-açúcar, assim como toda cultura agrícola, é influenciada por um grande número de fatores de produção que afetam seu sistema produtivo. Alguns desses não podem ser manejados, como o clima, enquanto outros, como o solo, escolha de variedades, tipo de muda, época de plantio e colheita, podem ser manejados visando o melhor desempenho da cultura. Em função do grande número e complexidade das interações entre as variáveis envolvidas ao longo do ciclo de produção, surge a necessidade de se entender e prever as respostas da cultura aos diferentes estímulos para fins de planejamento e tomada de decisão.

(28)

8

2.1.1 Modelos no sistema de produção da cana-de-açúcar

A exploração de bases de dados por meio da criação de modelos, de forma geral, pode ser classificada em duas categorias: preditiva e descritiva. Modelos preditivos utilizam dados históricos para fazer inferências sobre eventos futuros. Já modelos descritivos têm como objetivo encontrar padrões nos dados de forma a prover informações sobre relacionamentos em variáveis em formato compreensível (EL SEDDAWY, 2012).

Existem modelos que simulam o sistema de produção da cana, com foco na previsão e descrição da produtividade, alguns elaborados para condições do Brasil.

Scarpari e Beauclair (2004) e Scarpari (2002) visaram a previsão de produtividade e maturação por meio de regressão linear múltipla, com seleção de variáveis pelo método “stepwise”, chegando à conclusão que os fatores de maior importância para previsão são: precipitação, graus-dia e graus-dia negativo. A granularidade dos dados usados foi mensal. Os valores dos coeficientes de determinação (R2), para modelos de maturação nas diferentes condições estudadas, foi em torno de 70% na fase de desenvolvimento do modelo. Por outro lado, os modelos de previsão de produtividade não foram significativos. A criação dos modelos foi feita com dados de duas safras consecutivas e a validação com os dados da safra seguinte.

Argenton et al. (2010) utilizaram as variáveis graus-dia, armazenamento de água no solo, em granularidade decendial, e produtividade no corte anterior para previsão de produtividade. O método de modelagem utilizado foi a regressão polinomial múltipla, gerando modelos com coeficientes de determinação entre 15 a 77%.

Bernardes et al. (2002) e Teramoto (2003) buscaram a previsão de produtividade usando características edáficas e de clima. O método usado foi a regressão linear múltipla com seleção de atributos pelo método “stepwise”. Foram criados modelos para cada uma das duas safras estudadas, sendo o coeficiente de determinação de 62 e

(29)

9

74%. Não foi feita validação com dados diferentes dos utilizados para construção dos modelos.

Sugawara et al. (2007) e Picoli (2006), com dados obtidos durante duas safras, estimaram a produtividade de talhões comerciais de 2º a 5º corte para a região de Catanduva/SP, com uso de atributos obtidos por meio de sensoriamento remoto ou fornecidos pela unidade de produção. Foi aplicada a técnica regressão linear múltipla e redes neurais, respectivamente. As variáveis utilizadas foram: produtividade estimada por modelo agronômico-espectral, produtividade do ano anterior, NDVI, safra, variedade, número de cortes, capacidade de água disponível no solo, tipo de colheita e aplicação de vinhaça. Os melhores resultados – que explicaram em torno de 65% da variabilidade - foram obtidos com o uso dos atributos: produtividade estimada pelo modelo, produtividade do ano anterior, NDVI, número de cortes e tipo de colheita.

Bruggemann et al. (2001) criaram modelos baseados em regressão múltipla para previsão de produtividade de talhões comerciais, para determinada região da África do Sul, com uso de dados de 19 safras (área média de 1.000 ha safra-1). Um intensivo trabalho de limpeza dos dados teve que ser realizado, com uso da estratégia de exclusão de registros incoerentes ou com dados faltantes. O melhor modelo explicou 55% da variabilidade na produtividade, tendo selecionado: localidade, altitude, tipo de solo, profundidade efetiva do sistema radicular, safra, precipitação acumulada no ciclo, variedade, número de cortes, adubação com nitrogênio, potássio e relação Ca:Mg no solo.

Uma característica comum a vários trabalhos é o uso de técnicas estatísticas clássicas, como a regressão múltipla, para prever maturação e produtividade. Segundo constatado por Teramoto (2003), esta ferramenta estatística pode não ser a melhor metodologia para elaboração de modelos e identificação de fatores que interferem na produtividade.

Xu et al. (2010) utilizaram redes neurais para a previsão da produtividade anual de uma determinada região produtora na China. Como atributos preditores, em granularidade mensal, utilizaram: temperatura média, radiação solar, precipitação,

(30)

10

umidade; e também a participação na área cultivada de oito diferentes variedades. Os atributos selecionados pelo melhor modelo de previsão foram 10, sendo: temperatura média (3), radiação solar (1), precipitação (3) e variedade (3).

Em sua pesquisa, Ferraro et al., (2009) analisaram, por meio de árvore de decisão e regressão, os fatores de influência sobre a produtividade da cana-de-açúcar para a região Nordeste da Argentina, com uso de uma base de dados de informações de talhões comerciais de cinco safras consecutivas. Os atributos meta produtividade de cana e toneladas de açúcar por hectare foram categorizados em três níveis, com uso da técnica k-means com k igual a três, sem o teste de outros valores. O atributo exploratório fazenda – que representa um conjunto de técnicas de manejo não detalhadas – foi o de maior influência entre os testados para produtividade de cana, seguido por número de cortes (que associou altas produtividades com cortes menores ou iguais a 2). Para produtividade de açúcar, os atributos de destaque foram variedade e número de cortes. Os outros atributos explanatórios testados que não mostraram significativa importância foram: mês de colheita, duração do ciclo, área do talhão, precipitação acumulada no ciclo e precipitação durante o verão.

Souza et al. (2010) relacionaram, por meio da geoestatística e indução de árvore de decisão, mapas de atributos químicos do solo e produtividade da cultura da cana-de-açúcar durante uma safra, obtidos por técnicas de agricultura de precisão, num talhão comercial de 23 ha. Para o uso da árvore de decisão, o atributo meta toneladas de cana por hectare, originalmente contínuo, foi categorizado em três níveis, sendo que a classe média compreendeu os registros no intervalo média ± desvio-padrão. Como atributos preditores, além da altitude, atributos de química do solo também foram coletados em duas profundidades (0,0-0,2m e 0,2-0,4m), sendo: pH, cálcio, magnésio, potássio, fósforo, saturação por bases e teor de matéria orgânica. As variáveis altitude e potássio, em ambas as profundidades, apresentaram os maiores valores de correlação com a produtividade de cana-de-açúcar. A indução de árvores de decisão permitiu verificar que a altitude é a variável com maior potencial para interpretar os mapas de produtividade, mostrando-se uma ferramenta adequada para o estudo de definição de zonas de manejo.

(31)

11

2.1.2 Fatores de influência sobre a produtividade 2.1.2.1 Fatores Climáticos

O comportamento fenológico da cana-de-açúcar e, consequentemente, sua produtividade e maturação dependem fortemente de fatores climáticos, sendo considerados os mais importantes a disponibilidade térmica, pluviosidade e radiação solar (VAN HEERDEN et al., 2010; INMAN-BAMBER, 2004; LIU et al., 1998; SMIT; SINGELS, 2006; UEHARA et al., 2009). Segundo Beauclair (1994), modelos que não consideram o clima podem, no máximo, representar parte da variação total na faixa de 20%.

2.1.2.2 Temperatura

Segundo Almeida et al. (2008) e Liu et al. (1998), o perfilhamento, crescimento dos perfilhos em comprimento e diâmetro e número de entrenós da cana-de-açúcar se inicia a partir de temperaturas superiores a 20°C, tendo a faixa ótima de desenvolvimento entre 25°C e 33°C. Para Barbieri (1981), são 20°C e 32°C a 38°C, respectivamente, a temperatura basal e faixa ótima. De acordo com Brunini (2010), o crescimento máximo da cana é obtido com temperaturas entre 30 e 34°C, tornando-se lento em condições acima de 35°C ou inferiores a 25°C e cessa em 38°C e entre 16 a 10°C, dependendo da variedade.

Com relação especificamente à brotação de gemas, principal forma de propagação da cultura onde se plantam pedaços do colmo com uma ou mais gemas, Liu et al. (1998) consideram a temperatura mínima de 11,6°C e faixa ótima de 28°C a 30°C. Nickell (1977), citado por Scarpare (2011), considera a temperatura do ar ideal entre 34 e 37°C, com limitantes abaixo de 21°C e acima de 44°C. Esta amplitude nos valores foi observada por Pincelli et al. (2010), que verificaram diferentes temperaturas

(32)

12

mínimas para brotação entre variedades, sendo que os valores variaram entre 16°C e 24°C.

Segundo Villa Nova et al. (1972), o melhor método para correlacionar temperatura e crescimento das plantas é o método de graus-dia (Figura 1), que corresponde à área compreendida entre a temperatura basal, considerada a mínima para que haja desenvolvimento vegetal, e a curva de temperatura média diária.

Figura 1. Ilustração do conceito de Graus-dia (°C).

Na fase de emergência da cultura, Singels et al. (2008) citado por Scarpare (2011), considerando a temperatura basal de 10°C para a variedade NCo 376, encontrou o somatório térmico para cana planta (do plantio até a emergência) de 428°C.d e para cana soca (colheita até a emergência) de 203°C.d. Na cana soca, Inman-Bamber (1994), considerando a temperatura basal de 16°C, verificou que o pico de perfilhamento e posterior redução no seu número se iniciou após 500°C.d e que a estabilização ocorreu com 1.200°C.d.

15 16 17 18 19 20 21 22 23 24 25 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 T emp er atu ra Hora do dia

Temperatura Basal Temperatura Graus-dia

(33)

13

2.1.2.3 Disponibilidade hídrica

Os déficits hídricos afetam negativamente a taxa de brotação, número de perfilhos, alongamento dos colmos, desenvolvimento foliar, produção de matéria seca, sólidos solúveis e sacarose, sendo a principal causa de redução de produtividade (BEZUIDENHOUT et al., 2001; INMAN-BAMBER, 2004; MACHADO et al., 2009; RAMESH; MAHADEVASWAMY, 2000). Segundo Inman-Bamber e Smith (2005), a fase fenológica em que ocorre o déficit hídrico pode afetar a produtividade de maior ou menor forma, sendo o alongamento dos colmos a fase mais suscetível, podendo resultar em queda de produtividade.

O estabelecimento de uma relação entre produção e consumo de água pela cana-de-açúcar é uma tarefa difícil devido às interações locais entre clima e variedade (TERAMOTO, 2003), estádio fenológico, ciclo da cultura (cana planta ou soca) e água disponível no solo (SCARDUA; ROSENFELD, 1987).

Com relação à disponibilidade hídrica, Inman-Bamber e Smith (2005) consideram um suprimento de 1.000 mm por ciclo vegetativo com uma boa distribuição suficiente para obtenção de altas produtividades em cana-de-açúcar. Para Brunini (2010), este valor deve estar na faixa de 1.100 a 1.700 mm por ano, já para Ometto (1980), este intervalo é de 1.200 a 1.500 mm, concentrado nos meses de crescimento da cultura e, no período de maturação, a seca é desejável, desde que não drástica, por reduzir o crescimento e, consequentemente, favorecer o acúmulo de sacarose.

A melhor forma de verificar a influência da disponibilidade hídrica em modelos de análise e previsão é o cálculo do balanço hídrico segundo Thornthwaite e Mather (1955), onde são levados em conta precipitação, evapotranspiração potencial e real, coeficiente da cultura (Kc) em função da fase fenológica, juntamente com a capacidade de armazenamento hídrico do solo (CAD), resultando na água disponível (BRUNINI, 2010; SCARPARI; BEAUCLAIR, 2004).

O primeiro passo no cálculo do balanço hídrico é a seleção de um determinado valor para o CAD, em mm. Este corresponde ao intervalo entre a umidade do solo na

(34)

14

capacidade de campo e no ponto de murcha permanente, multiplicado pela densidade do solo e profundidade de exploração do sistema radicular da cultura (compreendido pela área em que se concentram 80% das raízes) (SENTELHAS et al., 2000).

A evapotranspiração potencial (ETP) é a quantidade de água consumida por uma superfície vegetada com grama com plena disponibilidade de água no solo, sendo assim um indicativo da demanda evapotranspirativa da atmosfera de um local num dado período. A evapotranspiração da cultura (ETc) refere-se à quantidade de água usada por uma determinada cultura na ausência de restrição hídrica. Este valor pode ser estimado pela correção da ETP pelo coeficiente de cultura (Kc), dado em função do desenvolvimento da cana-de-açúcar (Tabela 1).

Tabela 1. Coeficientes de cultura (Kc) para cana-de-açúcar. Idade da cultura (meses) Período de desenvolvimento Estádio de desenvolvimento Coeficiente (Kc) Cana planta Cana

soca mínimo Máximo médio

0 – 2 0 – 1 Do plantio até 25% de cobertura do solo Estabelecimento da cultura seguido de período vegetativo 0,40 0,60 0,50 2 – 3 1 – 2 De 25% a 50% de cobertura do solo 0,75 0,85 0,80 3 – 4 2 – 3 De 50% a 75% de cobertura do solo 0,90 1,00 0,95 4 – 7 3 – 4 De 75% a cobertura completa do solo 1,00 1,20 1,10

7 – 14 4 – 9 Utilização máxima Formação da

produção 1,05 1,30 1,20

14 – 16 9 – 10 Início da maturação

Maturação

0,80 1,05 0,95

16 – 18 10 – 12 Maturação 0,60 0,75 0,70

(35)

15

Em função da dificuldade em estimar com precisão a CAD para grandes áreas, uma medida alternativa para medir a disponibilidade hídrica é o cálculo da diferença entre precipitação e evapotranspiração potencial ou da cultura (BRUNINI, 2010).

2.1.2.4 Radiação solar

A radiação solar é um fator ambiental de grande influência no processo de perfilhamento da cultura, tanto com relação à formação quanto ao crescimento. A quantidade de perfilhos aumenta com o aumento da intensidade luminosa, enquanto a elongação é reduzida (BEZUIDENHOUT et al., 2003). Este fenômeno pode ser explicado pela foto-oxidação apical, o que reduz o fluxo de auxinas e, por conseguinte há um decréscimo na inibição das gemas basais e então perfilhos se formam (VAN DILLEWIJN, 1952). Para condições de reduzida radiação solar, a emissão de novos perfilhos diminui substancialmente (CÂMARA, 1993), e quando há competição intra-específica por luz com o fechamento do dossel, há um crescimento do colmo principal e senescência dos perfilhos mais jovens (INMAN-BAMBER, 1994).

De acordo com Ortolani e Paes de Camargo (1987) citado por Marchiori (2004), a radiação solar tem influência direta em todos os fenômenos meteorológicos, determinando parcial ou integralmente na origem ou desenvolvimento de tais fenômenos. A radiação solar intervém no crescimento e desenvolvimento dos vegetais, influindo indiretamente na temperatura do ambiente e na demanda hídrica. Por este motivo, a radiação solar não é considerada diretamente em modelos de análise e previsão, mas sim os seus efeitos como temperatura e demanda por água.

2.1.3 Variedades

A variabilidade genética entre diferentes variedades comerciais de cana-de-açúcar pode resultar em comportamentos distintos em função de mesmas condições de

(36)

16

sistema produtivo. Hoffmann et al. (2008) caracterizaram as variedades segundo os seguintes critérios: brotação de cana planta; brotação de cana soca (colheita manual); brotação de cana soca (colheita mecanizada); perfilhamento de cana planta; perfilhamento de cana soca; velocidade de crescimento; porte; hábito de crescimento; fechamento das entrelinhas; suscetibilidade ao tombamento; produção agrícola; época de maturação; teor da açúcar; teor de fibra; período útil de industrialização (PUI); floração; chochamento; adaptabilidade; estabilidade; resistência à seca; tolerância a herbicidas; época de corte; densidade do colmo; facilidade de despalha; e exigência ao ambiente de produção.

Com relação ao número de perfilhos, Ramesh e Mahadevaswamy (2000) observaram que as variedades que perfilham mais têm uma menor produtividade.

Outras características específicas também foram estudadas para algumas variedades como em Pincelli et al. (2010) e Silva et al. (2004), que constataram diferentes taxas de brotação entre variedades em função da temperatura. Rodrigues et al. (2009) observaram diferentes tolerâncias à seca das variedades, sendo o controle desta característica multigênico, expresso por meio de respostas celulares a modificações morfológicas. Brunini (2010) citou diferentes exigências de calor em função da variedade e Orlando Filho (1983) diferentes exigências nutricionais.

Beauclair e Penteado (1984) relatam que trabalhos desenvolvidos na Austrália, sobre a influência do período de plantio e corte de cana-de-açúcar, demonstraram respostas semelhantes em diferentes variedades com características sabidamente distintas, variando apenas a intensidade desta resposta às condições do ambiente.

2.1.4 Manejo

O manejo da cultura da cana-de-açúcar na região centro-sul do Brasil pode ser resumido nas operações de preparo de solo (setembro a março), plantio de cana de 12 meses (setembro a novembro), plantio de cana de 18 meses (janeiro a maio), cultivo de

(37)

17

soqueira (maio a dezembro) e colheita (março a dezembro). A colheita da cana de plantio de 12 meses se faz quando esta possui de 11 a 14 meses (agosto a dezembro) e a de plantio de 18 meses quando esta tem de 15 a 20 meses de idade (março a outubro). A colheita de cana soca é feita aproximadamente 12 meses após o corte anterior. A cana de 12 meses tem seu máximo desenvolvimento de novembro a abril, reduzindo em seguida em função das condições climáticas desfavoráveis. A cana de 18 meses, por sua vez, devido ao clima, tem um crescimento restrito de maio a setembro, retomando o crescimento normal de outubro a abril com o aumento das precipitações, com pico a partir de dezembro (CASTRO, 1999).

O plantio é uma das atividades mais importantes por afetar diretamente a produtividade e longevidade do canavial, sendo o ciclo médio de exploração de cinco anos. São diversos os fatores operacionais a serem considerados para se conseguir um plantio que resulte num estande adequado de plantas como: idade da muda e tempo de armazenamento até o plantio no sulco, profundidade de sulcação, quantidade de terra na cobrição dos toletes, tempo entre abertura dos sulcos e plantio, posição da gema no colmo e tamanho, umidade e disponibilidade de açúcares e nutrientes de reserva nos toletes (ROCHA, 1984; SILVA et al., 2004, 2010).

Com relação ao tamanho do tolete por ocasião do plantio, Van Dillewijn (1952) apontou que a secção dos mesmos aumenta a taxa de brotação, pois toletes menores têm uma taxa de brotação maior. Tal fenômeno ocorre, pois quando há brotação de uma gema (normalmente da parte apical do tolete), esta produz o hormônio auxina que inibe ou retarda a brotação das demais. Segundo o mesmo autor, o tamanho do tolete deve ser ajustado de acordo com as condições de plantio e qualidade da muda, se estas forem adversas, toletes de maior tamanho resultarão num melhor estande de plantas, enquanto sob condições favoráveis, podem ser plantados toletes de até uma gema. Lee (1984) constatou que sob forte déficit hídrico, toletes menores desidrataram mais e resultaram em piores estandes. Segundo Rocha (1984), a brotação e desenvolvimento inicial da cana decresce com o aumento do tempo de armazenamento das mudas e a influência deste fator decresce com o aumento do tamanho do tolete.

(38)

18

No planejamento do plantio, além da correta alocação de variedades, a época é o fator de maior influência na produtividade segundo Ricaud e Cochran (1980) citado por Marchiori (2004). De maneira geral, plantios de 12 meses têm um perfilhamento mais rápido e intenso, porém produzem colmos de menor altura, diâmetro e peso quando comparado ao plantio de 18 meses (ROCHA, 1984).

A época de plantio e corte, tanto da cana planta como soca, influenciam diretamente no número de perfilhos e de colmos industrializáveis (CÂMARA, 1993; MACHADO et al., 2009).

2.1.5 Ambiente de Produção

Ambiente de produção é formado pelas interações entre os atributos do solo com condições climáticas locais, considerando o manejo adequado da camada arável com relação a preparo, calagem, adubação, controle de ervas daninhas e pragas de solo. Aspectos do solo como condições físico-hídricas, morfológicas, químicas e mineralógicas são importantes na determinação do ambiente de produção, assim como aqueles relacionados ao clima, como: precipitação, temperatura, radiação solar, evaporação e vento (PRADO et al., 2010).

Os componentes do ambiente de produção podem ser representados de forma mais simples pela fertilidade, servindo de fonte de nutrientes para a cultura; profundidade, que tem relação forte com o volume de solo explorado pelas raízes e com a disponibilidade de água; textura, diretamente relacionada com os níveis de disponibilidade hídrica, capacidade de troca de cátions e matéria orgânica; água, indispensável para a produção da cultura e parte integrante da solução do solo (DEMATTÊ; DEMATTÊ, 2009; PRADO et al., 2010).

O conhecimento do ambiente de produção é importante para avaliar o potencial de determinada região com relação à produtividade agrícola, bem como alocar corretamente variedades e tomar medidas de manejo da cultura (LANDELL et al., 2010;

(39)

19

TERAMOTO, 2003). Prado (2005) criou 10 classes de ambiente de produção, atribuindo produtividades médias esperadas para os 5 cortes que vão de 100 a 68 t/ha. Por sua vez, Demattê e Demattê (2009) propõem 8 classes, com produtividade média potencial dos cinco cortes de 100 a 70 t/ha.

Neste sentido, estudos que relacionam ambientes de produção e variedades são comuns, visando indicar a adaptabilidade de cada variedade a determinados ambientes (GILBERT et al., 2006; LANDELL et al., 2010; MAULE et al., 2001). Uma característica comum a estes trabalhos é considerar o ambiente de produção como um fator único, sem decompô-lo em seus fatores constituintes no intuito de descrever as interações e fatores de influência nas variedades (LAVORENTI; MATSUOKA, 2001). O entendimento desta interação entre fatores e variedade poderia contribuir para tomadas de decisão sobre o sistema de produção e demonstrar os impactos da seleção de determinada variedade (RAMBURAN et al., 2010).

2.2 Mineração de dados

Os avanços rápidos na tecnologia de coleta e armazenamento de dados permitiram que se acumulassem uma vasta quantidade de dados. A extração de informação útil, porém, tem provado ser extremamente desafiadora. Em muitos casos, ferramentas e técnicas tradicionais de análise de dados não podem ser usadas devido ao tamanho do conjunto de dados, por ser muito grande, ou mesmo a própria natureza não trivial destes dados, mesmo que em conjuntos pequenos, impedem a aplicação de abordagens tradicionais (TAN et al., 2009).

Com o avanço da tecnologia da computação, um novo método de modelagem empírica, mineração de dados, tornou-se popular em função de sua capacidade de encontrar novos conhecimentos e padrões em bases de dados já analisadas anteriormente por métodos tradicionais (TAN et al., 2009). A mineração de dados é um processo de consulta e extração de informações, padrões e tendências úteis, inicialmente desconhecidas, em bases de dados (FAYYAD et al., 1996). Esse potencial

(40)

20

de análise de dados complexos levou a um número crescente de aplicações bem sucedidas de mineração de dados nos últimos anos, inclusive na área agrícola (GALVÃO; MARIN, 2009).

A mineração de dados é uma atividade integral do processo geral de conversão de dados brutos em informações úteis, denominado descoberta de conhecimento em bancos de dados (KDD – Knowledge Discovery in Databases). Embora cada autor dê diferente ênfase e divisão para as atividades do KDD (CHAPMAN et al., 2000; FAYYAD et al., 1996; REZENDE et al., 2005), estes seguem uma linha básica que pode ser resumida em: i. estabelecimento do objetivo do processo; ii. ajustes na base de dados para permitir a mineração; iii. modelagem (mineração propriamente dita); iv. avaliação do modelo gerado; v. organização do conhecimento gerado.

Apesar dos diferentes processos de KDD seguirem uma sequência, é muito frequente a necessidade de voltar às fases anteriores. Esse fato é algo descrito como comum (FAYYAD et al., 1996), dando-se não pela falta de qualidade na execução das fases anteriores, mas sim pela necessidade que surge em função da evolução do modelo que vai sendo construído.

Independentemente da forma de divisão das etapas do KDD, a fase de preparação de dados, que compreende todas as atividades realizadas nos dados brutos de forma a disponibilizar a informação contida neles, da melhor maneira possível às ferramentas de modelagem (PYLE, 1999), é de suma importância no processo de descoberta de conhecimento em bases de dados (LU et al., 1996), porém nem sempre recebe a devida atenção (MEIRA, 2008).

As técnicas de mineração de dados são divididas em duas categorias, supervisionadas e não-supervisionadas. As não-supervisionadas têm como característica a ausência de atributo meta, podendo ser citadas as técnicas de associação e agrupamento. As técnicas supervisionadas, que possuem um atributo meta, são chamadas de classificação ou regressão se o atributo meta for categórico ou contínuo, respectivamente (TAN et al., 2009).

(41)

21

O objetivo das tarefas não-supervisionadas é encontrar padrões, correlações, tendências, grupos homogêneos, anomalias em meio a base de dados. As tarefas supervisionadas visam à elaboração de modelos para determinar um atributo específico de interesse (atributo meta) baseado nos valores de outros atributos (variáveis independentes).

Dentro das técnicas supervisionadas, existem aquelas que não permitem a geração de conhecimento inteligível, como regressão múltipla, regressão logística, redes neurais ou máquinas de vetores de suporte (Support Vector Machine - SVM). Também existem aquelas tarefas com possibilidade de explicitar o conhecimento descoberto de forma inteligível ao ser humano, como exemplo os algoritmos de indução de regras de classificação e árvores de decisão, em função da capacidade de utilizarem representações simbólicas para explicitar o conhecimento descoberto (FAYYAD et al., 1996). Tais representações simbólicas possibilitam o entendimento das fronteiras de decisão presentes nos dados e também da lógica implícita neles (APTÉ; WEISS, 1997). Árvores de decisão já foram usadas com sucesso no entendimento do sistema de produção da cultura da cana-de-açúcar (FERRARO et al., 2009, 2012; SOUZA et al., 2010).

Faz-se importante salientar duas limitações no uso de indução de regras de classificação e árvores de decisão. Primeira, não há possibilidade de expressar relações lineares de forma simples e concisa de forma semelhante à regressão linear. Segunda, não há solução única (ZHANG et al., 2005), ou seja, diferentes árvores ou conjuntos de regras podem levar a resultados igualmente satisfatórios. Tais vantagens e desvantagens fazem da técnica árvore de decisão e indução de regras de classificação métodos complementares a outras técnicas.

2.2.1 Indução de árvore de decisão

A indução de árvore de decisão é uma técnica de modelagem não-paramétrica, que faz divisões recursivas num espaço finito multidimensional definido por variáveis

(42)

22

independentes, em zonas que são tão homogêneas quanto possível em termos da resposta do atributo meta. O resultado da análise é uma estrutura hierárquica chamada árvore de decisão com ramos e folhas, que contém as regras para predizer novos casos (TAN et al., 2009).

A árvore de decisão é a representação gráfica do modelo criado, semelhante a uma árvore em sentido invertido. No topo da estrutura, existe o nó raiz, seguido por nós internos, que são chamados de nós de decisão. Cada um possui um teste sobre uma ou mais variáveis independentes (atributos) e os resultados desses testes formam os ramos da árvore. Estes testes, na maioria dos casos, consistem na comparação do valor do atributo independente com um valor constante. Se o atributo em teste num determinado nó é do tipo nominal, o número de ramos a partir do nó de decisão poderá ser igual ou menor ao número de categorias que o atributo possa assumir. Já para atributos em testes do tipo contínuo, o nó de decisão se ramifica em dois, fazendo a comparação do tipo maior ou menor que uma dada constante. Na extremidade inferior da árvore estão as folhas, que representam um valor de predição para a variável dependente (atributo meta) ou uma distribuição de probabilidade dos seus possíveis valores.

Existem diferentes métodos para escolha do atributo em teste em cada nó de decisão, como índice de Gini ou a entropia (medida de desorganização de um sistema), porém, a escolha do método tem pouca influência no desempenho do algoritmo de aprendizagem (TAN et al., 2009). O método mais utilizado é o ganho de informação, também interpretado como redução de entropia (MEIRA, 2008). O atributo com maior redução de entropia é o que divide os dados em grupos mais homogêneos. Isso permite reduzir o número de testes para classificação de um exemplo, e consequentemente o tamanho da árvore (HAN et al., 2012).

Após a construção da árvore de decisão, esta pode se tornar demasiadamente específica aos dados utilizados e, via de regra, com alta complexidade. Esta condição é chamada de overfitting, ou super-ajuste, e pode ser evitada com o uso de podas da

(43)

23

árvore, que a tornam mais generalista e menos complexa. Existem duas categorias principais de poda, a pré-poda e a pós-poda.

No método de pós-poda, a árvore é construída por completo e em seguida são buscados ramos que podem ser podados, seja pela substituição de ramos (sub-árvore) por uma folha, ou pela elevação de uma sub-árvore na estrutura da árvore principal, podando-se assim algum ramo intermediário.

Na pré-poda, a árvore de decisão pára de crescer em função de determinadas restrições disponíveis nos algoritmos e escolhidos pelo usuário, de forma que um ramo de decisão, para ser criado, deve atender a estas restrições, caso contrário, se torna uma folha. Como tipo de restrições temos, nível de profundidade da árvore (SAS INSTITUTE INC., 2013), número mínimo de registros cobertos por folha (WITTEN; FRANK, 2011), significância estatística ou ganho de informação (TAN et al., 2009). Segundo Han et al. (2012), a maior dificuldade está na escolha do valor apropriado da restrição para poda, pois, uma vez que este seja muito elevado, torna a árvore muito simples, e no caso de valores baixos, a árvore é pouco generalista.

A árvore de decisão, depois de pronta, pode ser utilizada para descobrir a estrutura preditiva do problema, permitindo a compreensão de quais variáveis e interação dessas variáveis conduzem ao fenômeno estudado. Regras podem ser extraídas de árvores de decisão, no formato “SE... → ENTÃO” (explicação detalhada no tópico seguinte), seguindo o caminho do nó raiz até uma das folhas, facilitando assim sua compreensão, uma vez que permitem a análise dos padrões encontrados de forma individual (TAN et al., 2009; WITTEN; FRANK, 2011).

2.2.2 Indução de regras de decisão

A indução de regras de classificação é uma abordagem alternativa a árvores de decisão, tendo como vantagem a possibilidade de gerar uma base de conhecimento de

(44)

24

mais fácil interpretação, principalmente para os casos de árvores de decisão profundas (APTÉ; WEISS, 1997; HAN et al., 2012).

A base de conhecimento gerada por esta classe de algoritmo de classificação é expressa por meio de um conjunto de regras do tipo “SE... → ENTÃO”, onde o “SE”, que corresponde ao antecedente ou pré-condição da regra, consiste numa série de testes sobre os atributos independentes. E o “ENTÃO”, por sua vez, é o consequente ou conclusão da regra, indicando a classe dos exemplos cobertos pela regra (WITTEN; FRANK, 2011).

O conjunto de regras gerado, em função da característica do algoritmo utilizado, pode ser do tipo ordenado ou não-ordenado. No conjunto de regras ordenadas, estas são organizadas num lista de prioridades, também chamada de lista de decisão, de acordo com alguma determinada medida de qualidade da regra (precisão, cobertura, complexidade, opinião de especialistas, etc.). Na predição de um novo registro, o antecedente das regras é testado em ordem decrescente de importância dentro da lista até que a regra seja ativada (antecedente satisfeito), dando assim a classificação do registro. As regras seguintes na lista, mesmo que tivessem seu antecedente satisfeito, são ignoradas. Para o caso de conjunto de regras não-ordenadas, as regras podem ser testadas em qualquer ordem uma vez que são mutuamente exclusivas. Regras que pertencem à conjuntos não-ordenados tentem a serem mais facilmente interpretadas (HAN et al., 2012).

Para se extrair um conjunto de regras, existem duas grandes classes de métodos, diretos, que extraem regras diretamente da base de dados, e indiretos, que geram o conjunto de regras a partir do conhecimento extraído por outros métodos, como árvores de decisão. Os métodos diretos segmentam a base de dados por meio de divisões nos atributos independentes, de forma que seja possível atribuir uma classe aos registros contidos em cada segmento, usando uma única regra de classificação. Os métodos indiretos usam regras para simplificar o conhecimento extraído por outros métodos.

(45)

25

Como algoritmo de indução direta pode ser citado o RIPPER (COHEN, 1995), especialmente indicado para conjuntos de dados com distribuição de frequência desequilibradas entre classes e ruídos (TAN et al., 2009).

Para problemas com múltiplas classes, o RIPPER ordena-as de forma crescente a partir de sua frequência. Na primeira interação, com o intuito de gerar regras para a classe minoritária, é atribuído rótulo positivo aos seus registros e negativo a todos os demais. Após, partindo de uma regra de antecedente vazio e consequente positivo (estratégia de aumento de regra conhecida como geral-para-específico), o algoritmo estuda o conjunto de restrições a serem incluídas, por meio do método de ganho de informação, de forma a melhorar a qualidade da regra, uma vez que inicialmente esta era ruim, pois cobria todos os registros da base de dados. Uma vez que a regra passa a cobrir novamente registros negativos, o algoritmo pára de aumentá-la e então é feita uma poda com base em registros do conjunto de dados de validação. Finalmente, a regra pronta é adicionada ao conjunto de regras e os registros cobertos por ela, tanto positivos como negativos, são retirados da base de dados inicial e o processo de extração se repete até que todos os registros das classes não majoritárias sejam cobertos (TAN et al., 2009).

2.2.3 Categorização do atributo meta

Algoritmos de indução de árvore de decisão ou de regras de classificação exigem que o atributo meta seja do tipo categórico, sendo que a forma com que é feita esta discretização afeta diretamente o desempenho dos modelos criados (BAY, 2000), frequentemente de forma subjetiva (TITTONELL et al., 2008). Como trabalhos que fazem uso deste artifício em cana-de-açúcar, podem ser citados Everingham et al. (2007), Ferraro et al. (2009) e Souza et al. (2010).

As técnicas de discretização podem ser usadas para reduzir o número de valores de um atributo contínuo por meio da sua divisão em intervalos. Os novos intervalos criados podem então ser utilizados para substituir os valores brutos

(46)

26

contínuos. Essa substituição de atributos com valores contínuos por um pequeno número de intervalos tende a reduzir e simplificar a base de dados original. Desta forma, os resultados de modelagem se tornam de mais fácil compreensão (HAN et al., 2012).

Dentre as possíveis técnicas de discretização podem ser citadas: análise de histograma, binning e análise de agrupamentos. A análise de histograma (Equal Frequency) segmenta o atributo meta em k intervalos com igual número de registros por classe. O binning (Equal width) consiste na divisão do atributo meta em k intervalos de igual amplitude, sendo, este método, sensível a valores extremos (outliers). O método de análise de agrupamento visa minimizar a diferença entre pontos dentro de um mesmo grupo e maximizar a diferença entre os k grupos. Em todos os métodos citados, o número de k é previamente selecionado pelo usuário, sendo um fator fundamental para o sucesso dos métodos de modelagem posteriores (HAN et al., 2012; WITTEN; FRANK, 2011).

Um exemplo de algoritmo para análise de agrupamentos é o k-means (FORGEY, 1965; FRIEDMAN; RUBIN, 1967; MCQUEEN, 1967). Este inicia seu processo de partição dos registros da base de dados com a escolha arbitrária de k centros de grupos e então alocação dos registros ao centro mais próximo. Em seguida, os centros, que representam as médias dos registros dos grupos, são recalculados e, então, os registros são movidos de grupo caso um novo centro de outro grupo esteja mais próximo que o novo centro do grupo original. O processo continua iterativamente até que seja obtida estabilidade. Usualmente um domínio de valores é experimentado para o número de k grupos (MANLY, 2005).

2.2.4 Medidas de Interesse

Uma etapa importante na descoberta de conhecimento em bases de dados é a avaliação dos resultados do modelo gerado, no caso de tarefas descritivas, representado na forma de regras. Medidas de interesse são as medidas de avaliação

(47)

27

destas regras usadas para comparar a qualidade do conhecimento descoberto. É muito comum o uso da medida do percentual de registros corretamente classificados (acurácia) num conjunto de regras, porém, segundo Freitas (1999), este não é o melhor indicador de interesse a ser aplicado em tarefas de cunho descritivo. Em diversos casos, a acurácia de um classificador pode não ser satisfatória, em contra partida, o conhecimento induzido por poucas regras do conjunto podem ter uma boa taxa de acerto e trazer alguma outra propriedade interessante (MEIRA, 2008).

Dentro do processo de avaliação, cada regra é medida de forma objetiva, onde são calculadas medidas de interesse, que funcionam como um filtro para regras potencialmente interessantes. Em seguida, a forma subjetiva é aplicada, sendo o conhecimento avaliado por especialistas, que atua como um filtro final (FREITAS, 1999; GENG; HAMILTON, 2006; MCGARRY, 2005; TAN et al., 2009). Han et al. (2012) salientam que medidas objetivas não substituem a avaliação de especialistas para identificação de regras interessantes devido à frequente ausência de correlação entre estas duas formas de avaliação.

As medidas objetivas são calculadas com base na metodologia desenvolvida por Lavrac et al. (1999). Cada regra é considerada com o formato X → Y, onde X corresponde ao antecedente, formado pelos atributos independentes; e Y, consequente, correspondendo ao atributo meta. As medidas objetivas podem ser calculadas com base nos contadores de frequência tabulados em uma tabela de contingência (Tabela 2).

Tabela 2. Tabela de contingência para a regra X→Y.

Y ¬Y

X f11 f10 f1+

¬X f01 f00 f0+

f+1 f+0 N

(48)

28

f11 = número de exemplos para os quais Y é verdadeiro e X é verdadeiro

f01 = número de exemplos para os quais Y é verdadeiro e X é falso (¬X)

f10 = número de exemplos para os quais Y é falso (¬Y) e X é verdadeiro

f00 = número de exemplos para os quais Y é falso (¬Y) e X é falso (¬X)

f1+ = número de exemplos para os quais X é verdadeiro

f+1 = número de exemplos para os quais Y é verdadeiro

f0+ = número de exemplos para os quais X é falso (¬X)

f+0 = número de exemplos para os quais Y é falso (¬Y)

N= número total de exemplos

A complexidade consiste na contagem do número de atributos independentes que constituem a regra, dado por X.

A cobertura (Equação 1) determina a frequência na qual uma regra é aplicável a um determinado conjunto de dados, sendo importante porque uma regra que abranja poucos registros pode acontecer simplesmente por coincidência.

𝑐(𝑋 → 𝑌) =𝑓1+

𝑁 (1)

A precisão (Equação 2), mede o número de registros corretamente cobertos pela regra.

𝑝(𝑋 → 𝑌) = 𝑓11

𝑓1+ (2)

A medida de novidade (Equação 3) se baseia na diferença entre a probabilidade observada de X e Y e o valor esperado se X e Y forem estatisticamente independentes,

(49)

29

em outras palavras, uma regra é considerada “nova” se a probabilidade de antecedente e consequente ocorrerem juntos não puder ser inferido pelas probabilidades deles isoladamente. A faixa de valores da novidade é entre -0,25 e 0,25, onde valores extremos indicam forte associação entre X e Y, ou seja, uma regra interessante (LAVRAC et al., 1999).

𝑁𝑜(𝑋 → 𝑌) =𝑓11 𝑁 −

𝑓+1× 𝑓1+

𝑁2 (3)

A medida likelihood ratio (Equação 4) está relacionada com a diferença na distribuição das classes do atributo meta na base de dados integral e após a aplicação da regra. Quanto maior esta diferença, maior o valor da medida, que vai de zero até infinito (HAN et al., 2012; ZAR, 2010).

𝐿𝑅(𝑋 → 𝑌) = 2 [𝑓11× ln (𝑓11

𝑓+1) + 𝑓10× ln ( 𝑓10

𝑓+0)] (4)

A avaliação de regras por medidas subjetivas, de forma geral, comparam o conhecimento de especialistas de determinada área do conhecimento com padrões descobertos pelos algoritmos. Estas são consideradas como subjetivas, pois o grau de interesse está estritamente relacionado às impressões gerais do especialista do domínio sobre uma regra. A classificação possível é se as regras são, ou não, inesperadas e passíveis de ação (MCGARRY, 2005).

De acordo com Geng e Hammilton (2006), com base em revisão bibliográfica, são poucos os estudos que tentam correlacionar medidas de interesse objetivas e subjetivas, sendo que a medida objetiva que mais se aproxima da opinião dos especialistas é muito dependente da área em que o estudo está sendo conduzido. Desta forma, não é possível prever quais medidas objetivas terão melhor desempenho em representar a classificação dada pelos especialistas.

(50)

30

Referências

Documentos relacionados

Assim, a estrutura dúplex é metaestável, sendo obtida na temperatura ambiente após resfriamento que impeça as transformações de fase, particularmente de ferrita em sigma, como

Os casos não previstos neste regulamento serão resolvidos em primeira instância pela coorde- nação do Prêmio Morena de Criação Publicitária e, em segunda instância, pelo

a) AHP Priority Calculator: disponível de forma gratuita na web no endereço https://bpmsg.com/ahp/ahp-calc.php. Será utilizado para os cálculos do método AHP

Silva e Márquez Romero, no prelo), seleccionei apenas os contextos com datas provenientes de amostras recolhidas no interior de fossos (dado que frequentemente não há garantia

Membro_Faculdade (Matrícula: Inteiro, Nome: string[50], Carga: Inteiro, IniContrato: data, Curso: string[30], professor: booleano, aluno: booleano). Membro

Mineração de conhecimento interativa em níveis diferentes de abstração: Como é  difícil  prever  o  que  exatamente  pode  ser  descoberto  de  um  banco 

 Numéricos das das Propriedades Propriedades do do Ar Ar Úmido, Úmido, Cartas Cartas Psicrométricas, Psicrométricas, Processos Processos Psicrométricos, Psicrométricos,

Na Farmácia São Gonçalo estes produtos são muitas vezes solicitados, sendo que existe uma grande variedade dos mesmos, como material de penso, produtos para controlo da