5 M ODELOS DE CALIBRAÇÃO
5.1 R EGRESSÃO LINEAR MÚLTIPLA
A regressão linear múltipla é uma técnica estatística que pode ser usada para analisar a relação entre uma variável dependente Y e duas ou mais variáveis “independentes” X. Na realidade, não é correcto falar em variável dependente Y e variáveis independentes X porque as variáveis X podem manifestar alguma correlação entre si. Ao longo do texto aparece esta nomenclatura (de variáveis independentes) para facilitar a sua identificação em oposição à variável Y que se pretende estimar.
O objectivo da regressão linear múltipla é usar os valores (conhecidos) das q variáveis independentes para prever o valor da variável dependente. Cada variável independente é afectada por um peso que é calculado de forma a minimizar o erro de previsão da variável dependente.
A relação entre as variáveis X e a variável Y é obtida a partir de um conjunto de valores conhecidos X e y usado para calibração:
y = X* b* + e (51)
yi = b0 + b1 xi1 + b2 xi2 + ... + bq xiq + ei,
sendo o cálculo do vector dos factores de regressão feito pela simples aplicação das regras algébricas aplicadas às matrizes assumindo que e = 0:
b* = (X*’ X*)-1 X*’ y (52)
e o valor estimado de Y (yi), dentro do grupo de calibração e fora dele, é obtido pela equação:
yi = xi *
b (53)
yi = b0 + b1 xi1 + b2 xi2 + ... + bq xiq
A matriz X* é formada por q + 1 colunas - a primeira coluna com todos os valores iguais a 1, a segunda coluna com os valores da primeira variável para todos os objectos da calibração e a coluna
p + 1 com os valores da variável p para os mesmos objectos; a primeira coluna serve para
contabilizar o factor aditivo b0 presente na estimativa de Y.
Se estiverem a ser estimados vários elementos teremos:
y = X* b (54)
Em alternativa pode manter-se a matriz original (X) inalterada e calcular-se o vector b dos coeficientes das variáveis a partir da expressão (55) supondo que e = 0:
y = 1 b0 + X b + e (55)
O factor aditivo b0 calcula -se pela expressão (57) e os valores estimados da variável Y serão
obtidos pela expressão (58):
b0 = y - x ’ b (57)
yˆ= 1 b0 + X b (58)
O cálculo do vector dos coeficientes de regressão, apresentado na equação (52) ou na equação (56) pressupõe que a soma dos quadrados dos resíduos (SSRes), ou seja, a soma dos quadrados da
diferença entre o valor de Y medido (y) e o valor previsto (y) no conjunto de calibração deve ser mínimo:
SSRes = (y - y)’ (y - y) = mínimo possível (59)
5.1.1 SELECÇÃO DE VARIÁVEIS PARA A REGRESSÃO
Em algumas situações, em que se aplica a regressão linear múltipla, podem existir muitas variáveis independentes (X) que podem até ser excessivas na medida em que, por um lado, impedem o cálculo dos coeficientes de regressão se o número de amostras for inferior ao número de variáveis, e por outro lado, pode estar a usar-se informação redundante que não melhora o modelo. Perante estes factos é, por vezes, pertinente proceder à selecção das variáveis independentes.
Para se resolver esta questão pode usar-se o método de selecção de variáveis progressivo, ou iterativo. No primeiro processo há uma adição progressiva de variáveis até atingir um determinado limite; no segundo método há, em cada etapa, a adição de nova variável e a avaliação da necessidade de todas as outras entretanto introduzidas no modelo.
No método de selecção de variáveis progressivo escolhe-se, na primeira etapa, a variável independente (Xi) com maior correlação com a variável dependente (Y) (ver parágrafo 5.4 na
página 34) e construi-se uma regressão linear com as duas variáveis (Y,X1) calculando a ordenada
na origem (b0), o coeficiente de regressão (b1) e os demais parâmetros que permitam avaliar da
correcção do uso da regressão linear com a variável seleccionada. Sendo pertinente a aplicação da regressão linear com uma variável dependente (X1) pode procurar-se a segunda variável a incluir na
regressão linear. Uma metodologia possível consiste no cálculo dos resíduos de Y (ou seja de ey =
y- y = y - b0 - b1 x1) e de todas as variáveis independentes Xi (eXi = xi - b0i - b1i x1) em função da
variável X1 usada na regressão linear. Faz-se a regressão destes resíduos e, desta forma, o resíduo
da variável Xi que tiver maior correlação com o resíduo de Y será a variável que estará mais
correlacionada com Y descontando o contributo da correlação com a variável X1. 8
A escolha das sucessivas variáveis deve ter em conta a correlação com as demais variáveis já usadas no modelo para evitar o uso de informação redundante, ou seja, as novas variáveis devem
introduzir valor acrescentado ao modelo. Uma forma de visualizar esta selecção é representada na Figura 5. A maior parte da variância de Y é explicada pela variável X1. A variável X3 também está
muito relacionada com Y (quase tanto como a variável X1), mas as variáveis X1 e X3 estão altamente
correlacionadas entre si o que significa que a variável X3 pouco acrescenta ao modelo (Y,X1). Já a
variável X2, apesar de ter menor correlação com Y, tem um contributo para a explicação da
variância de Y que não é desprezável e que é complementar ao modelo (Y,X1).
Figura 5. Importância de cada variável X na explicação de Y 5
De forma a alcançar o mesmo objectivo, que é conhecer as variáveis a seleccionar progressivamente, é possível usar o coeficiente de correlação parcial.5 A correlação parcial de Y, X2
tendo em conta X1 (rY,X2(X1)) pode calcular-se pela expressão (60) em que rY,X é a correlação entre
duas variáveis genéricas Y e X calculada pela expressão (80):14
5 , 0 1 , 2 5 , 0 1 , 1 , 2 1 , 2 , ) 1 ( 2 , ) 1 ( ) 1 ( YX X X X X X Y X Y X X Y r r r r r r ? ? ? ? ? ? (60)
Deve seleccionar-se a variável Xi que tenha o maior coeficiente de correlação parcial com Y
tendo em conta o contributo da variável X1 para a explicação da variância de Y e Xi.
Quando um modelo de regressão tem p variáveis X e se pretende avaliar a introdução de mais uma variável independente (ficando p + 1 variáveis X) pode avaliar-se a vantagem da introdução da nova variável pelo acréscimo do coeficiente de determinação (R2).
Outra forma de avaliar a utilidade da introdução de mais uma variável consiste na aplicação de um teste F em que se avalia se o acréscimo de variância no valor estimado centrado pela média (medida pela diferença das somas dos quadrados das diferenças de y e yi - SSReg) é maior do que a
média dos quadrados dos resíduos (MSRes):
FIV = (SSReg(p+1) - SSReg(p)) ? MSRes(p+1) (61)
Enquanto o valor de FIV calculado for superior ao valor tabelado (F1,n-p+1) considera-se útil a
introdução de mais uma variável; se o valor calculado for inferior ao valor tabelado então considera-se que a nova variável não introduz mais variância do que aquela que existe devido aos erros de estimativa e a variável é desprezada.