R EGRESSÃO LINEAR MÚLTIPLA - M ODELOS DE CALIBRAÇÃO

5 M ODELOS DE CALIBRAÇÃO

5.1 R EGRESSÃO LINEAR MÚLTIPLA

A regressão linear múltipla é uma técnica estatística que pode ser usada para analisar a relação entre uma variável dependente Y e duas ou mais variáveis “independentes” X. Na realidade, não é correcto falar em variável dependente Y e variáveis independentes X porque as variáveis X podem manifestar alguma correlação entre si. Ao longo do texto aparece esta nomenclatura (de variáveis independentes) para facilitar a sua identificação em oposição à variável Y que se pretende estimar.

O objectivo da regressão linear múltipla é usar os valores (conhecidos) das q variáveis independentes para prever o valor da variável dependente. Cada variável independente é afectada por um peso que é calculado de forma a minimizar o erro de previsão da variável dependente.

A relação entre as variáveis X e a variável Y é obtida a partir de um conjunto de valores conhecidos X e y usado para calibração:

y = X* b* + e (51)

yi = b0 + b1 xi1 + b2 xi2 + ... + bq xiq + ei,

sendo o cálculo do vector dos factores de regressão feito pela simples aplicação das regras algébricas aplicadas às matrizes assumindo que e = 0:

b* = (X*’ X*)-1 X*’ y (52)

e o valor estimado de Y (yi), dentro do grupo de calibração e fora dele, é obtido pela equação:

yi = xi *

b (53)

yi = b0 + b1 xi1 + b2 xi2 + ... + bq xiq

A matriz X* é formada por q + 1 colunas - a primeira coluna com todos os valores iguais a 1, a segunda coluna com os valores da primeira variável para todos os objectos da calibração e a coluna

p + 1 com os valores da variável p para os mesmos objectos; a primeira coluna serve para

contabilizar o factor aditivo b0 presente na estimativa de Y.

Se estiverem a ser estimados vários elementos teremos:

y = X* b (54)

Em alternativa pode manter-se a matriz original (X) inalterada e calcular-se o vector b dos coeficientes das variáveis a partir da expressão (55) supondo que e = 0:

y = 1 b0 + X b + e (55)

O factor aditivo b0 calcula -se pela expressão (57) e os valores estimados da variável Y serão

obtidos pela expressão (58):

b0 = y - x ’ b (57)

yˆ= 1 b0 + X b (58)

O cálculo do vector dos coeficientes de regressão, apresentado na equação (52) ou na equação (56) pressupõe que a soma dos quadrados dos resíduos (SSRes), ou seja, a soma dos quadrados da

diferença entre o valor de Y medido (y) e o valor previsto (y) no conjunto de calibração deve ser mínimo:

SSRes = (y - y)’ (y - y) = mínimo possível (59)

5.1.1 SELECÇÃO DE VARIÁVEIS PARA A REGRESSÃO

Em algumas situações, em que se aplica a regressão linear múltipla, podem existir muitas variáveis independentes (X) que podem até ser excessivas na medida em que, por um lado, impedem o cálculo dos coeficientes de regressão se o número de amostras for inferior ao número de variáveis, e por outro lado, pode estar a usar-se informação redundante que não melhora o modelo. Perante estes factos é, por vezes, pertinente proceder à selecção das variáveis independentes.

Para se resolver esta questão pode usar-se o método de selecção de variáveis progressivo, ou iterativo. No primeiro processo há uma adição progressiva de variáveis até atingir um determinado limite; no segundo método há, em cada etapa, a adição de nova variável e a avaliação da necessidade de todas as outras entretanto introduzidas no modelo.

No método de selecção de variáveis progressivo escolhe-se, na primeira etapa, a variável independente (Xi) com maior correlação com a variável dependente (Y) (ver parágrafo 5.4 na

página 34) e construi-se uma regressão linear com as duas variáveis (Y,X1) calculando a ordenada

na origem (b0), o coeficiente de regressão (b1) e os demais parâmetros que permitam avaliar da

correcção do uso da regressão linear com a variável seleccionada. Sendo pertinente a aplicação da regressão linear com uma variável dependente (X1) pode procurar-se a segunda variável a incluir na

regressão linear. Uma metodologia possível consiste no cálculo dos resíduos de Y (ou seja de ey =

y- y = y - b0 - b1 x1) e de todas as variáveis independentes Xi (eXi = xi - b0i - b1i x1) em função da

variável X1 usada na regressão linear. Faz-se a regressão destes resíduos e, desta forma, o resíduo

da variável Xi que tiver maior correlação com o resíduo de Y será a variável que estará mais

correlacionada com Y descontando o contributo da correlação com a variável X1. 8

A escolha das sucessivas variáveis deve ter em conta a correlação com as demais variáveis já usadas no modelo para evitar o uso de informação redundante, ou seja, as novas variáveis devem

introduzir valor acrescentado ao modelo. Uma forma de visualizar esta selecção é representada na Figura 5. A maior parte da variância de Y é explicada pela variável X1. A variável X3 também está

muito relacionada com Y (quase tanto como a variável X1), mas as variáveis X1 e X3 estão altamente

correlacionadas entre si o que significa que a variável X3 pouco acrescenta ao modelo (Y,X1). Já a

variável X2, apesar de ter menor correlação com Y, tem um contributo para a explicação da

variância de Y que não é desprezável e que é complementar ao modelo (Y,X1).

Figura 5. Importância de cada variável X na explicação de Y 5

De forma a alcançar o mesmo objectivo, que é conhecer as variáveis a seleccionar progressivamente, é possível usar o coeficiente de correlação parcial.5 A correlação parcial de Y, X2

tendo em conta X1 (rY,X2(X1)) pode calcular-se pela expressão (60) em que rY,X é a correlação entre

duas variáveis genéricas Y e X calculada pela expressão (80):14

5 , 0 1 , 2 5 , 0 1 , 1 , 2 1 , 2 , ) 1 ( 2 , ) 1 ( ) 1 ( _Y_X _X _X X X X Y X Y X X Y r r r r r r ? ? ? ? ? ? (60)

Deve seleccionar-se a variável Xi que tenha o maior coeficiente de correlação parcial com Y

tendo em conta o contributo da variável X1 para a explicação da variância de Y e Xi.

Quando um modelo de regressão tem p variáveis X e se pretende avaliar a introdução de mais uma variável independente (ficando p + 1 variáveis X) pode avaliar-se a vantagem da introdução da nova variável pelo acréscimo do coeficiente de determinação (R2).

Outra forma de avaliar a utilidade da introdução de mais uma variável consiste na aplicação de um teste F em que se avalia se o acréscimo de variância no valor estimado centrado pela média (medida pela diferença das somas dos quadrados das diferenças de y e yi - SSReg) é maior do que a

média dos quadrados dos resíduos (MSRes):

FIV = (SSReg(p+1) - SSReg(p)) ? MSRes(p+1) (61)

Enquanto o valor de FIV calculado for superior ao valor tabelado (F1,n-p+1) considera-se útil a

introdução de mais uma variável; se o valor calculado for inferior ao valor tabelado então considera-se que a nova variável não introduz mais variância do que aquela que existe devido aos erros de estimativa e a variável é desprezada.

No documento Análise de polissacaridos da parede celular da laranja por quimimetria (páginas 38-41)