Modelo de Regressão Logística Múltipla - PRODUTIVIDADE AGRÍCOLA CANAVIEIRA

CAPÍTULO III EXPANSÃO DA CULTURA DE CANA-DE-AÇÚCAR NOS

2 PRODUTIVIDADE AGRÍCOLA CANAVIEIRA

3.2 Modelo de Regressão Logística Múltipla

Para Dalchiavon et al. (2014), a produtividade da cana-de-açúcar pode ser obtida por meio de seus componentes tecnológicos e também da produção, com a utilização de técnicas estatísticas que permitam estimá-la. Dewey e Lu (1959) foram os pioneiros a utilizar a estatística para análise da produção de trigo. Os métodos de correlação linear e regressão múltipla foram os primeiros métodos utilizados em análises dos componentes de produção.

Para consecução do objetivo desse trabalho foi utilizado o método de Regressão Logística Múltipla. Segundo Corrar; Paulo e Dias Filho (2014), essa técnica estatística busca explicar ou predizer valores de uma variável dependente categórica, em função de valores conhecidos de outras variáveis independentes, que podem ser categóricas ou métricas.

Dessa forma, o referido método foi utilizado nesta pesquisa para avaliar quais os fatores e em que extensão estes afetam o grau de produtividade de cana-de-açúcar em propriedades dos estados do Mato Grosso do Sul e Goiás.

Para realizar esta análise, definiu-se a variável dependente e dicotômica “Produtividade (P0,1)”, categorizada pelo valor 0, como “Baixa Produtividade”, e pelo valor 1,

como “Alta Produtividade”. O parâmetro que limita tais categorias é a produtividade média de cana-de-açúcar de cada um dos estados analisados, calculados a partir de dados secundários divulgados pelo Sistema IBGE de Recuperação Automática (SIDRA/IBGE) e também a partir dos dados fornecidos pelo Centro de Tecnologia Canavieira (CTC, 2015).

Supõe-se que um conjunto de variáveis independentes seja capaz de explicar o comportamento da variável dependente, ou variável resposta “Produtividade”. A fim de exemplificar as possíveis variáveis independentes, foram selecionadas aquelas relacionadas ao perfil do produtor, à propriedade rural, ao sistema de produção, à variedade de cana, à utilização da mecanização, ao uso de assistência técnica, ao tipo de contrato com a usina e ao uso anterior da terra.

Segundo Corrar; Paulo e Dias Filho (2014, p. 7), “o objetivo da regressão logística é encontrar uma função logística formada por meio de ponderação das variáveis (atributos), cuja resposta permita estabelecer a probabilidade de ocorrência de determinado evento e a importância das variáveis (peso) para esta ocorrência”.

Para a validação do modelo de regressão, o método prevê duas etapas. A primeira consistiu em converter equação (10), a variável dependente numa razão de chance (odds ratio), e a segunda, transformá-la equação (11), numa variável de base logarítmica (CORRAR; PAULO; DIAS FILHO, 2014).

𝑅𝑎𝑧ã𝑜 chance = _{−𝑃 𝑠𝑢𝑐𝑒𝑠𝑠𝑜}𝑃 𝑠𝑢𝑐𝑒𝑠𝑠𝑜 (10)

ln ( 𝑃 𝑠𝑢 𝑠𝑠𝑜

onde:

βi = coeficientes (pesos)

xi = variáveis independentes

ϵi = efeitos aleatórios

Nesta pesquisa foi considerado como sucesso o sistema de produção de cana-de- açúcar com “Alta Produtividade” (P1). Consequentemente, o insucesso será o sistema de

produção com “Baixa Produtividade” (P0).

A análise estatística e a sistematização dos dados foram realizadas por meio de planilhas do Microsoft Excel e do Minitab Statistical Software Versão17. Este último calcula um modelo ajustado e otimizado para o método de regressão logística múltiplo, utilizando um algoritmo iterativo para obter as estimativas dos parâmetros de interesse.

O processo de seleção das variáveis preditoras foi realizado por meio de testes de hipóteses da existência dos parâmetros 𝛽 , 𝛽 , 𝛽 , … , 𝛽_𝑘. O procedimento utilizado consiste em testar a hipótese nula H de que certo parâmetro é igual a zero. Se esta for rejeitada, para ₀ um nível de significância α estabelecido, então, pode-se afirmar que há evidências de que uma determinada variável independente influencia na variável resposta, ou equivalentemente, se p- valor ≤ α rejeita-se a hipótese nulaH , de que o parâmetro associado a esta variável é igual a ₀ zero.

Uma vez definido o modelo e obtidas as estimativas dos parâmetros deste, é necessário avaliar a qualidade do ajuste do modelo aos dados, com base em medidas que podem ser calculadas mediante as funções de ligação e de máxima verossimilhança.

Os testes de Goodness-of-fit tests, ou testes de aderência, permitem avaliar a qualidade dos resultados obtidos, ou seja, a validação do ajustamento do modelo. Neste caso, é testada a hipótese nula de que o ajuste do modelo aos dados é bom versus a hipótese de que o ajuste é ruim.

Para o teste baseado na distribuição qui-quadrado, os mais usuais são: Pearson (que verifica o quanto as observações são satisfatoriamente previstas pelo modelo); Deviance (compara o logaritmo da verossimilhança do modelo ajustado com o logaritmo da verossimilhança do modelo completo); e Hosmer-Lemeshow (avalia o modelo ajustado verificando se as frequências observadas e frequências esperadas da variável resposta estão próximas). Analisando o p-valor para os testes baseados na distribuição qui-quadrado, para valores entre 0,37 e 0,85, indica que não há evidências suficientes de que o modelo não se ajusta

aos dados adequadamente, ou ainda, se p-valor ≤ α, rejeita-se a hipótese nula H de que o ajuste ₀ do modelo é apropriado (PINO, 2007).

Para o caso em que uma ou mais variáveis explicativas são quantitativas, os dados costumam ser dispersos demais para o uso dos testes de aderência de Pearson e de Deviance. Nesta situação, o resultado obtido com o teste de Hosmer-Lemeshow fornecerá melhores resultados.

A qualidade do ajuste do modelo pode ser verificada ainda por meio de alguns índices de correlação de postos, sendo os mais utilizados: índice D de Somers, índice Gamma de Goodman-Kruskal e índice Tau-a de Kendall. Estes índices variam entre zero e um e, quanto maior forem seus valores, melhor será a capacidade preditiva do modelo estimado (PINO, 2007).

Para diagnóstico de multicolinearidade (correlação cruzada entre variáveis independentes) utilizou-se a estatística Variance Inflation Factor (VIF), a qual é calculada estimando-se cada variável independente como se esta fosse dependente, regredindo-a em relação às demais. Se VIF ≤ 1, não existe multicolinearidade; 1<VIF≤10, a multicolinearidade é aceitável; VIF >10, a multicolinearidade é problemática.

Uma vez que a variável dependente (ou resposta) é qualitativa binária, para a análise de regressão a ausência de quaisquer anotações restritivas assume valor zero, e a presença de pelo menos uma anotação assume o valor um (1), formando a referida variável.

4 RESULTADOS E DISCUSSÕES

No documento Análise da produtividade agrícola da cana-de-açúcar nos estados de Mato Grosso do Sul e Goiás (páginas 111-114)