• Nenhum resultado encontrado

(RB867515) Santa Luzia

3.4 Análises estatísticas 1 Análise exploratória

3.4.2 Regressões multivariadas

Para identificar as variáveis e época mais importante para estimar a produtividade da cana-de-açúcar, foram realizadas regressões multivariadas, integrando parâmetros biométricos, índices de vegetação, atributos de solo e análises nutricionais da folha, com todas as avaliações da subparcela “D” (onde foram realizadas quatro avaliações na mesma subparcela). Para isso, foi necessário realizar uma seleção de variáveis para eliminar aquelas com efeitos insignificantes. A seleção de variáveis foca em encontrar o melhor conjunto de variáveis para incluir em um modelo e assim, reduzir consideravelmente a gama de possibilidades de modelos (CLARKE; FOKOUE; ZHANG, 2009). Partindo do princípio da parcimônia, a explicação para qualquer fenômeno deve assumir apenas as premissas

qualquer diferença aparente nas predições (COURTNEY; COURTNEY, 2008). Dessa forma, vários parâmetros foram levados em conta para se adequar à necessidade do produtor e os melhores modelos foram aqueles que continham o menor número de variáveis com as melhores métricas de ajuste.

Prever a produtividade da cana com antecedência é interessante para realizar algum tipo de manejo que vise correções que possam alcançar o aumento de produtividade, e a fim de aumentar as possibilidades, todos os atributos foram levados em consideração, inclusive atributos da última avaliação (colheita). Isso porque pode haver interesse da usina no planejamento da colheita, dimensionamento de frentes de colheita, escalonamento de máquinas e suporte à indústria.

Assim sendo, havia inúmeras possibilidades de modelos que poderiam ser gerados a partir dos dados coletados, pois havia sete variáveis de planta e seis índices de vegetação em três avaliações biométricas, quatorze atributos de solos em duas profundidades, análise nutricional (macro e micro) das folhas, todos coletados em duas fazendas com variedades diferentes, o que torna inviável manter todas as variáveis devido ao número restrito de 40 parcelas.

Uma vez que não há um único e melhor método de seleção de variáveis (HASTIE; TIBSHIRANI; FRIEDMAN, 2001), algumas alternativas foram utilizadas, como a remoção de variáveis altamente correlacionadas (colinearidade). Ao ajustar um modelo de predição utilizando um conjunto de variáveis com alta correlação entre si, a qualidade do modelo pode ser reduzida, pois estas não acrescentam informação adicional ao modelo e, ao contrário, podem adicionar ruído (DRAPER; SMITH, 1998). Por exemplo, com o intuito de aumentar as chances de predizer a produtividade da cana através da refletância do dossel, buscou-se explorar outros índices de vegetação (SAVI, MTCI, CI e CCCI) além dos mais citados na literatura (NDVI e NDRE). Esses índices, com exceção do CCCI, apresentaram-se altamente relacionados com NDVI e NDRE (Figura 7) em função de utilizarem a banda Red ou Red- edge, respectivamente. Sendo assim, os índices SAVI, MTCI e CI foram excluídos da análise, porém, mesmo que o NDVI e NDRE também apresentaram colinearidade, optou-se em mantê-los por serem os mais importantes na literatura. Dessa forma, a seleção de atributos pode facilitar a visualização dos dados, reduzir requisitos de armazenamento, tempo de processamento e melhorar a eficiência dos modelos (GUYON; ELISSEEFF, 2003).

Figura 7. Correlação entre variáveis (exemplo de índices de vegetação na 1ª avaliação) e sua linearidade; na diagonal principal, a distribuição dos dados (histograma) de cada variável.

Como se buscava encontrar a melhor época de avaliação e as variáveis que poderiam predizer a produtividade foi realizado um levantamento com todas as possibilidades possíveis para modelagem, já excluindo as variáveis com alta colinearidade. Assim, gerou-se um fatorial entre os subconjuntos de atributos contendo: três possibilidades de fazenda (individuais ou juntas), quatro de solo (sem solo, 0-20 cm, 20-40 cm e 0-40 cm), dezesseis de biometria (sem biometria e combinações das quatro avaliações), oito de índices de vegetação (sem e com combinações dos índices NDVI, NDRE e CCCI) e quatro de análise nutricional (sem análise, macro, micro e juntas), conforme Figura 8. Isso totaliza 6141 combinações possíveis para modelagem, onde, por exemplo, “Biometria 1” corresponde a todos os atributos biométricos da primeira avaliação e “IVs 13” corresponde a todos atributos de índices de vegetação das avaliações 1 e 3. Exemplificando, uma combinação possível foi: ambas as fazendas, com dados de solo de 0-20 cm, com dados biométricos das avaliações 1 e 3, com índices de vegetação das avaliações 1 e 2 com a análise nutricional de macronutrientes. Para

caso específico do k-fold), com k igual ao número total de dados N, onde são realizados N cálculos de erro, um para cada dado. Isso com o objetivo de realizar uma investigação completa sobre a variação do modelo em relação aos dados utilizados.

Figura 8. Exemplo de combinações de subconjuntos de variáveis para criação dos modelos de regressão. Para efeito de visualização, a figura apresenta apenas algumas possibilidades, porém todas as combinações entre os subconjuntos foram realizadas.

Após efetuar essas possíveis combinações de subconjuntos, dependendo da combinação, ainda restaram muitos atributos, e, por isso, foi adotado o método da regressão Stepwise, que é capaz de identificar um subconjunto útil de variáveis. Esse tipo de seleção integra duas estratégias para fazer essa seleção: forward e backward, e, ao final, têm-se uma estratégia híbrida (HASTIE; TIBSHIRANI; FRIEDMAN, 2001). Segundo os mesmos autores, a primeira estratégia inicia com o coeficiente linear, e então sequencialmente adiciona ao modelo a variável que mais contribui para o ajuste. Já a segunda, começa com o

modelo completo e sequencialmente exclui as variáveis que tem o menor impacto no ajuste. Dessa forma, o modo híbrido integra as duas estratégias em cada passo, selecionando a “melhor” das duas utilizando o critério AIC (Akaike information criterion), para dar peso às escolhas. Os modelos foram comparados utilizando o ΔR² (módulo da diferença entre R² da validação cruzada e R² da calibração), o RMSE (raiz do erro quadrático médio) da calibração e validação e o RPD (Ratio Percentage Deviation – relação entre o desvio padrão da produtividade real pelo RMSE da validação). De acordo com a classificação proposta por Viscarra Rossel, McGlynn e McBratnet (2006), o RPD pode ser dividido conforme Tabela 4.

Tabela 4. Classificação de modelos em função do RPD.

Modelo Uso RPD

Muito fraco Não recomendado ≤ 1

Fraco Distinção entre valores altos e baixos 1 a 1,4

Regular Inferências e correlações 1,4 a 1,8

Bom Possíveis previsões quantitativas 1,8 a 2

Muito bom Quantificações 2 a 2,5

Ótimo Quantificações ≥ 2,5

Ainda, segundo Terra, Demattê e Viscarra Rossel (2015), os modelos de regressão podem ser classificados em três categorias de qualidade para fins de comparação, considerando a confiabilidade de predição de acordo com a variação dos valores de R² da validação: A) R² > 0,75: modelos bem ajustados para uma predição com acurácia; B) 0,50 ≤ R² ≤ 0,75: modelos ajustados que podem ser melhorados; e C) R² < 0,50: modelos não confiáveis sem habilidades de previsão.

Documentos relacionados