Na modelagem econométrica/uso final utilizou-se conceitos básicos sobre regressões estatísticas, incluindo parâmetros de análise e avaliação da qualidade dos ajustes obtidos, conforme Wonnacot & Wonnacot (1981).
A evolução comportamental de um dado parâmetro pode ser associada a um outro, ou mesmo a um conjunto de outros parâmetros. Uma exemplificação típica pode ser definida na área agrícola, onde a safra de uma dada cultura, batata por exemplo, depende, entre outros parâmetros, da quantidade de fertilizante aplicada à terra no período de crescimento da planta. Essa associação pode ser representada graficamente plotando-se em um simples diagrama bidimensional o conjunto de dados correspondente às observações feitas entre a quantidade de fertilizante aplicada (X) e a colheita obtida (Y).
Uma equação poderia ser definida, relacionando esses dois parâmetros. A estimativa dessa equação é geometricamente equivalente a ajustar uma curva aos dados dispersos no diagrama. Isto é o que se chama regressão de Y (safra) sobre X (fertilizante). Como modelo matemático simples, tal relação pode ser útil como descrição breve e precisa da correlação entre esses dois parâmetros, ou ainda como meio de estimativa da safra de batatas a partir de uma certa aplicação de fertilizante, desprezado o efeito de todos os demais parâmetros que afetam a safra. Se o modelo matemático associa uma variável dependente a uma única variável que explica seu comportamento, e por isso chamada variável explanatória, ou independente, tem-se uma regressão simples.
Se a explicação do comportamento da variável dependente é feita em uma associação com duas os mais variáveis explanatórias, tem-se um modelo de regressão múltipla. Por outro lado, se a estimativa da equação entre as variáveis dependente e independentes equivale geometricamente ao ajuste de um reta entre os pontos, tem-se um modelo de regressão linear. A maioria dos "softwares" estatísticos disponíveis para o ajuste e análise dessas regressões só são capazes de efetuar ajustes lineares, restando ao analista a alternativa de "linearizar" a relação matemática
ANÁLISE PROSPECTIVA DO ÁLCOOL COMBUSTÍVEL NO BRASIL
180
entre as variáveis quando a distribuição das observações claramente evidencia um comportamento não linear.
Uma questão importante está associada à qualidade do ajuste, ou em outras palavras, à precisão com que o modelo matemático consegue reproduzir os dados da observação tomada como base para a definição da própria equação de ajuste. A diferença entre o valor observado Yi e o valor ajustado Ya é definida como erro, ou desvio. Um bom ajuste é obviamente aquele em que o erro total é minimizado, isto é, a soma dos desvios entre as estimativas e suas respectivas observações é minimizada. Para evitar que desvios positivos e negativos sejam cancelados, o método mais usual de ajuste estabelece a solução pelo procedimento dos Mínimos Quadrados, onde a somatória do quadrado dos erros é minimizada.
De posse de um conjunto de dados, que reflete observações da variável dependente e de uma ou mais variáveis explanatórias, é possível, então, a definição de uma regressão através do procedimento de ajuste de uma reta, ou de uma função linearizada, em que os desvios entre observações e ajuste são minimizados. É legítimo, então, o questionamento de quão preciso é o ajuste obtido: mesmo com a minimização dos desvios, é possível que a qualidade do ajuste seja ruim, e, consequentemente, o uso desta regressão como modelo de previsão da variável dependente pode ser inadequado. A Estatística define uma série de parâmetros úteis à análise de regressões e avaliação da qualidade dos ajustes obtidos. Estes parâmetros são relacionados a seguir.
Coeficiente de correlação múltipla - R² :
É um índice global que aponta quão bem a variável dependente é explicada pelas variáveis explanatórias, ou regressores. Em um procedimento de ajuste tal parâmetro também auxilia na análise da contribuição, ao ajuste propriamente dito, de cada variável explanatória adicional que é introduzida ao modelo. Tomado um conjunto de observações da variável dependente Yi, existe um valor médio associado a esses valores Ym, de tal forma que a somatória de (Yi - Ym)² pode ser interpretada como a variação total da variável dependente Y. Por outro lado, a definição de um ajuste ao conjunto de dados da associação observada entre Y e as variáveis explanatórias utilizadas Xi, permite a estimativa Ya, onde: Ya = a + b(Xi). A somatória
ANÁLISE PROSPECTIVA DO ÁLCOOL COMBUSTÍVEL NO BRASIL
181
dos desvios de Ya em relação ao valor médio Ym, isto é, somatória de (Ya - Ym)², pode ser interpretada como a variação explicada por todos os regressores.
Assim, a relação entre a variação explicada por todos os regressores e a variação total das observações pode ser utilizada como uma medida de qualidade do ajuste efetuado: R² = somatória (Ya - Ym)²/ somatória (Yi - Ym)².
O coeficiente de correlação R² varia entre zero e um. Note-se que R² = 1 se, e somente se,
Ya = Yi, isto é, se todos os valores ajustados forem exatamente coincidentes com os valores
observados. O coeficiente de correlação múltipla expressa a porcentagem da variação explicada pela regressão. Obviamente quanto maior for o R² de uma regressão, mais preciso é o ajuste obtido entre a variável dependente e as variáveis explanatórias, aumentando-se a chance de que tal regressão possa ser utilizada de forma mais precisa como modelo de previsão da variável dependente.
Grau de significância dos coeficientes da equação de regressão
O procedimento de ajuste de uma equação de reta correlacionando a variável dependente à uma ou mais variáveis explanatórias é feito de forma a que os coeficientes da equação ajustada indiquem um valor médio em torno de uma certa dispersão de pontos. Estatisticamente a equação de ajuste Ya = a + b(Xi) tem dois estimadores, a e b, com valores médios definidos e uma certa variância amostral. Em termos práticos, quanto maior for o valor estimado do coeficiente em relação à sua variância, mais certeza tem-se da significância do regressor Xi quanto ao ajuste obtido.
Essa verificação está estatisticamente associada a um teste de hipótese, e permite ao analista aceitar ou refutar a inserção de um certo regressor ao modelo de previsão de Y. Neste trabalho, os testes de hipótese acima referenciados foram feitos dentro da significância 90%, o que vale dizer que foram mantidas nas regressões todas as variáveis explanatórias cuja relação valor médio/variância amostral estavam acima do valor correspondente na tabela de distribuição