REGRESSÃO MÚLTIPLA
♦ Um método utilizado para determinar qual a relação entre a variável que se pretende explicar e as variáveis que se pretendem ser explicativas.
♦ Descreve uma relação entre um conjunto de variáveis quantitativas independentes Xj (j=1,2,...,J) e uma variável dependente também quantitativa, Y, através da expressão:
(
)
j(
j j)
n n X X X X E Y n n − + + − + + =α
β
1. 1 1 ...β
. em que,α, β1, ..., βj – parâmetros fixos (desconhecidos, a estimar) da relação
linear entre X1, ..., Xj e Y;
En – desvio aleatório associado ao valor observado Yn.
♦ As hipóteses do modelo são as seguintes:
1) Os valores Xjn e, portanto, os valores Xj são encarados como constantes predeterminadas, sem erro;
2) Os desvios En são mutuamente independentes, têm valor esperado nulo, variância constante, σ2, e são Normalmente
distribuídos, isto é,
En ~ N (0, σ2)
♦ Os parâmetros α, β1, ..., βj do modelo considerado podem ser estimados
a partir de um conjunto de observações e adoptando um critério de estimação, por exemplo recorrendo ao método dos mínimos quadrados.
As variáveis independentes (também designadas por regressores) são especificadas à partida ou num cenário mais real existe uma multiplicidade de regressores potencialmente úteis na explicação do comportamento da variável
dependente, havendo que seleccionar de entre eles quais os que são efectivamente merecedores de figurar no modelo.
Correlação
A análise da correlação permite avaliar o grau de relacionamento linear entre variáveis. O coeficiente amostral de correlação múltipla entre Y e X1, ..., Xj (RyX1X2....Xj), pode ser definido das duas formas alternativas equivalentes:
♦ Coeficiente amostral de correlação simples entre os valores observados
da variável Y e os correspondentes valores estimados:
• RY,X1X2...Xj =RYYˆ
♦ Raíz quadrada do coeficiente de determinação múltipla (R2Y,X1X2...Xj), que por sua vez, é dado por:
VT VDR RYX X Xj = 2 ... 2 1 , em que:
VDR – Variação devida à regressão (para este termo contribuem os desvios entre pontos que, na recta estimada, correspondem às observações Xn e a média Y );
VT – Variação Total das observações Yn em torno da sua média
Na regressão múltipla consegue-se isolar o efeito do regressor Xj na variável dependente, sem que haja necessidade de manter constantes os valores dos restantes regressores. Tal efeito traduz-se no valor do correspondente coeficiente βj.
Também no âmbito da regressão múltipla se consegue definir uma medida de correlação entre duas variáveis quaisquer quando se anulam os efeitos induzidos pelas restantes variáveis. Tal medida designa-se por coeficiente de correlação parcial.
Aplicação a um caso de estudo
Objectivo: explicar a variável representativa das vendas anuais por posto de
abastecimento de combustíveis (gasolina e gasóleo) através de uma ou mais variáveis que se julgam influenciar a primeira.
Variável vendas
1) Analisar a variável que se pretende explicar através de alguns parâmetros de estatística descritiva desta variável, para as 115 observações:
Cada posto, da amostra considerada, vende em média 700 m3 por ano. No entanto a distribuição é bastante assimétrica, variando entre um mínimo de 118 e um máximo de 2074 m3. A média encontra-se à direita da mediana (611m3) revelando assimetria à direita. Este facto pode ser confirmado visualmente pelo histograma que se apresenta abaixo.
Histogram: Vendas: VENDAS [m3] Expected Normal 0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 X <= Category Boundary 0 5 10 15 20 25 30 35 N o. o f o bs .
2) Análise Bivariada – Objectivo: explicar a variável VENDAS através do tráfego como variável explicativa das vendas.
Caracterizar a amostra bivariada com dados quantitativos de forma a pôr em evidência a relação existente ou não, envolve a representação destes num sistema de eixos ortogonais, construindo o que se designa por diagrama de dispersão (x,y) ou Scatterplot.
No diagrama é patente que existe uma relação expressiva entre estas duas variáveis: “locais com elevado tráfego propiciam, normalmente, vendas
elevadas”.
Scatterplot (Petron-dados.sta in Petron_v.1.2.stw 49v*115c)
-20 0 20 40 60 80 100 120 140 160 180 200 220 240 TRAFEGO 0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 V E N D A S
Regressão linear simples das vendas sobre o tráfego
Estimação de uma relação linear recorrendo ao método dos mínimos quadrados: descrever a relação entre a variável VENDAS (variável dependente) e a variável TRAFEGO (variável independente) nos seguintes termos: TRAFEGO VENDAS ∧ ∧ ∧ + =
α
β
Onde VENDAS^ será o valor previsto para a variável VENDAS, TRAFEGO o valor observado para a variável TRAFEGO, α^ e β^ os estimadores dos
parâmetros do modelo.
Nota: Assume-se que os erros (valor previsto(i) – valor observado(i)) têm valor esperado nulo,
variância constante (homoscedasticidade) , covariância nula (inexistência de autocorrelação) são mutuamente independentes e Normalmente distribuídos.
Adoptando o modelo consagrado, os parâmetros podem ser estimados a partir das 115 observações recorrendo ao método dos mínimos quadrados. No software STATISTICA v.6.0 obteve-se os seguintes resultados:
Multiple Regression Results
Dependent: VENDAS Multiple R = ,67364552 F = 93,88328 R²= ,45379828 df = 1,113
No. of cases: 115 adjusted R²= ,44896464 p = ,000000 Standard error of estimate:267,20970921
Intercept: 313,81983743 Std.Error: 47,00407 t(113) = 6,6764 p = ,0000
TRAFEGO beta= ,674
As estimativas para os parâmetros do modelo obtidas pelo método dos mínimo quadrados:
9904 , 5 819 , 313 = = ∧ ∧
β
α
TRAFEGO VENDAS∧ =313,819+5,9904.A estimativa de β^ no presente modelo significa que as vendas diárias
aumentariam em cerca de 6 m3 por cada unidade de tráfego por dia. A estimativa de α, por seu lado, não tem nenhum significado inteligível,
correspondendo ao valor teórico das vendas, no modelo, caso não existisse tráfego na via de acesso.
Scatterplot (Petron-dados.sta in Petron_v.1.2.stw 49v*115c) VENDAS = 313,8198+5,9904*x -20 0 20 40 60 80 100 120 140 160 180 200 220 240 TRAFEGO 0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 V E N D A S
Efectuando um teste de hipótese semelhante mas agora testando a hipótese de ausência de regressão (teste F), obtemos também p-values muito perto de zero, o que significa que para qualquer nível de confiança os parâmetros do modelo são sempre estatisticamente diferentes de zero.
Este modelo revela uma relação relativamente forte entre a variável VENDAS e a
variável TRAFEGO: coeficiente de correlação (r) de 0,674 num máximo de 1.
Porém, a variação das VENDAS em torno da sua média é explicada apenas em
Desta forma confirma-se que “existem muitos casos que não confirmam esta regra, pelo que se supõe a influência de outras variáveis na explicação das vendas”. Contudo julga-se correcto continuar a incluir a variável TRAFEGO pela forte correlação existente com a variável explicada.
Regressão Múltipla
1) Seleccionar as variáveis independentes a incluir no modelo recorrendo à matriz de correlações, de onde se destaca a primeira linha que revela a correlação das diferentes variáveis com a variável a explicar, VENDAS.
Das variáveis analisadas destacam-se quatro por possuírem coeficientes de correlação mais elevados com a variável VENDAS: TRAFEGO (já analisada), AVENDAS com r=0,74, NBOMBAS com r=0,68 e NHORAS com r=0,64.
Aparentemente, as variáveis relativas ao número de veículos e número de habitantes não possuem relação forte com a variável VENDAS.
Nas correlações entre as restantes variáveis surgem algumas relações fortes, podendo existir redundância de informação se as variáveis se mostrarem relevantes na explicação de VENDAS.
A exclusão de algumas variáveis do modelo pode ser justificada pela análise da redundância das variáveis independentes. No quadro seguinte indicam-se os coeficientes de determinação de cada variável com o conjunto das restantes variáveis independentes.
Toleran. R-square Partial Semipart Pergasolin 0,626810 0,373190 0,086059 0,046809 NBOMBAS 0,343702 0,656298 0,211706 0,117385 AVENDAS 0,313712 0,686288 0,353915 0,205059 TRAFEGO 0,601971 0,398029 0,465031 0,284653 NVeicLigeir 0,003786 0,996214 -0,127455 -0,069636 NVeicTotal 0,003120 0,996880 0,070249 0,038162 Nhab 0,045049 0,954951 0,204964 0,113480 NHORAS 0,419538 0,580462 0,076191 0,041409
As variáveis NVEICLIGEIR, NVEICTOTAL E NHAB possuem individualmente um R2 superior a 95%, revelando-se irrelevantes no modelo na explicação da variável VENDAS.
Construindo e estimando um modelo de regressão linear apenas com as variáveis que se mostram relevantes:
Regression Summary for Dependent Variable: Vendas R= ,82378716 R²= ,67862529 Adjusted R²= ,66693893 F(4,110)=58,070 p<0,0000 Std.Error of estimate: 207,74
Beta Std.Err. B Std.Err. t(110) p-level
Intercept 66,42863 106,5918 0,623206 0,534439 Nbombas 0,163149 0,090494 7,74487 4,2958 1,802881 0,074145
Avendas
0,387188 0,095756 0,20911 0,0517 4,043465 0,000098Trafeg 0,370954 0,068301 3,29872 0,6074 5,431155 0,000000 NHoras 0,050622 0,082651 4,60304 7,5154 0,612479 0,541485
O modelo: NHORAS NBOMBAS TRAFEGO AVENDAS VENDAS 66,428 0,21 3,3 7,75 4,6 ^ + + + + =
explica cerca de 67% da variação da variável explicada em torno da sua média, comparativamente com os 45% do modelo univariável já analisado.
Testando a aderência global do modelo (todos os coeficientes de regressão iguais a zero) através da estatística F, verificamos que o valor observado de F está estatisticamente afastado de zero, já que p-value é quase nulo.
Note-se que embora as relações possam não ser lineares é sempre possível linearizar o modelo e estimar os parâmetros pelo método dos mínimos quadrados, tendo em conta que esses parâmetros estão associados à variável “linearizada” e nunca à variável original.
Modelo Potência (multiplicativo)
U TRAFEGO AVENDAS VENDAS = + ln + ln + ln
α
β
1β
2 R2=65% R2Ajustado=65% F=108,2Modelo logarítmico (lin-log )
U TRAFEGO AVENDAS
VENDAS =
α
+β
1ln +β
2ln +R2=65% R2Ajustado=64% F=101,92
Modelo exponencial (log-lin)
U TRAFEGO AVENDAS VENDAS = + 1 + 2 + ln
α
β
β
R2=57% R2Ajustado=56% F=76,13Modelo Exponencial Inverso
e TRAFEGO AVENDAS VENDAS = + 1 + 1 + ln 2 1 β β α R2=53% R2Ajustado=52% F=61,96
MODELO COM VARIÁVEIS DUMMIES
Nos pontos anteriores apenas foram consideradas variáveis quantitativas enquanto variáveis explicativas. Porém, pode acontecer que estados ou atributos possam influenciar a variável VENDAS.
A introdução de variáveis qualitativas num modelo de regressão deverá ser feita após a sua transformação em variáveis binárias, ou mudas (dummies, na terminologia inglesa).
Assim, considerem-se as seguintes transformações de variáveis:
Imagem
Variável de omissão: Imagem1
1, se o posto tiver imagem do nível i IMGi =
0, caso contrário i=2, 3, 4, 5
As variáveis seguintes caracterizam os postos segundo características binárias, apenas 2 estados possíveis:
DLoja - Tem loja (1) ou não (0)
DEstServev - Tem estação de serviço (1) ou não (0) DTracoCont - Traço Contínuo (1) ou não (0)
DUrban - Dentro da urbanização (1) ou em estrada aberta (0) DSaida - Saída de cidade (1) ou não (0)
DEntrad - Entrada de cidade (1) ou não (0)
DFullserv – funcionário a atender (1) ou self service (0)
Pretende-se, assim, avaliar o impacto dos vários “estados” na variável explicada, isto é, perceber se as variáveis binárias influenciam a variável VENDAS, através das variáveis explicativas (caso multiplicativo) ou individualmente (caso aditivo), ou as duas simultaneamente.
Nas características relativas à localização do posto, poder-se-á averiguar se terão impacto na variável VENDAS, através da variável TRAFEGO. Para o efeito foram criadas as seguintes novas variáveis: DSAIDA*TRAFEGO; DENTRAD*TRAFEGO, DTRACOCONT*TRAFEGO e DURBAN*TRAFEGO e ainda consideradas as varáveis binárias de forma isolada: DSAIDA; DENTRAD, DTRACOCONT e DURBAN.
As restantes variáveis foram consideradas, apenas, de forma aditiva: DFULLSERV, DESTSERV e DLOJA.
Para a construção do modelo de regressão recorreu-se aos métodos stepwise, backward e forward da regressão, que consiste na inclusão/exclusão de variáveis no/do modelo a partir do seu contributo para o mesmo.
Este método é sensível aos parâmetros definidos à partida relativamente ao grau de aceitação/rejeição de cada variável – F de entrada e F de saída.
Depois de escolhidas as variáveis, foi necessário atribuir valores de F, que servem de critério para a entrada e saída das variáveis na regressão. Isto é, para a selecção das variáveis que entram na regressão, são feitos testes aos coeficientes βj: H0: β1 =β2 =...=βj =0 H1: Algum βj ≠0 (j=1, ..., J) DQMR DQMDR ET = H0 verdadeira ⇒ ET→ FJ,N− J−1 licada não iação licada iação F a Estatístic exp var exp var =
Se a hipótese for verdadeira, a estatística F deverá ser igual a 0, mas para contemplar a possibilidade de, apenas fruto do acaso, na amostra recolhida o modelo poder ter alguma capacidade explicativa, então o valor limite de F é Fcrit.
Quanto mais baixo for o valor de F, mais permissíveis, ou seja, menos rigorosos, se estará a ser na entrada e saída de variáveis mas por outro lado, quanto maior for Fcrit, mais dificilmente é rejeitada a hipótese, transmitindo F a confiança na regressão.
O critério de avaliação da entrada de uma variável para a regressão é dado pelo valor de:
licada não iação adicional licada iação Fentrada exp var exp var =
O resultado foi um conjunto muito restrito de modelos com bom desempenho. O modelo seguinte pertence ao conjunto solução do algoritmo e corresponde igualmente ao modelo construído com as variáveis significativas do modelo
com todas as variáveis mudas incluindo as mudas cruzadas com a variável TRAFEGO.
Regression Summary for Dependent Variable: VENDAS R= ,91753010 R²= ,84186148 Adjusted R²= ,83307601 F(6,108)=95,824 p<0,0000 Std.Error of estimate: 147,07
Beta Std.Err. B Std.Err. t(108) p-level
Intercept -34,699 49,69500 -0,69823 0,486534 AVENDAS 0,521719 0,045566 0,282 0,02461 11,44968 0,000000 TRAFDSAI 0,215162 0,057174 1,663 0,44202 3,76332 0,000273 TRAFEGO 0,733392 0,086731 6,522 0,77126 8,45597 0,000000 DURBAN 0,101461 0,046801 82,812 38,19912 2,16790 0,032362 DENTRADA -0,117057 0,047959 -108,589 44,48951 -2,44078 0,016281 TRAFDTRA -0,459786 0,083727 -3,118 0,56783 -5,49150 0,000000
Todas as variáveis incluídas são significativas, tendo entrado para o modelo TRAFDSAI e TRAFDTRA(o modelo sugere relação crescente entre o tráfego da via e a localização da via numa saída de uma localidade e ainda com a existência de um traço contínuo) e DURBAN e DENTRADA (as vendas sofrem um aumento em relação à média quando o posto se localiza numa zona urbana e um decréscimo se está situado numa entrada).
A forma funcional completa, com as estimativas dos parâmetros é a seguinte:
DENTRADA DURBAN O DTRATRAFEG O DSAITRAFEG TRAFEGO AVENDAS VENDAS 59 , 108 81 , 82 12 , 3 63 , 1 5 , 6 282 , 0 67 , 34 − + − − + + + − = ∧
É possível verificar um outro indicador da qualidade do mesmo: o Erro Médio das Previsões. Para este modelo o indicador é de 18%.
Erro médio 0,18006 115 73 , 20 = = − =
∑
∧ n yi yi yiOnde o numerador do somatório corresponde à diferença entre o valor previsto pelo modelo e o efectivamente observado, para determinados valores das variáveis explicativas. Esta diferenças corresponde à distância à recta, medida na vertical, dos pontos representados no gráfico seguinte:
Predicted vs. Observed Values Dependent variable: VENDAS
0 200 400 600 800 1000 1200 1400 1600 1800 2000 Valores Previstos 0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 V al or es O bs er va do s 95% confidence
VERIFICAÇÃO DAS HIPÓTESES BÁSICAS
Normalidade dos resíduos
Normal Probability Plot of Residuals
-14 -12 -10 -8 -6 -4 -2 0 2 4 6 8 10 12 Residuals -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 E xp ec te d N or m al V al ue
Adequação dos resíduos à recta a vermelho que traduz a normal de média 0 e variância σ2.
Aplicando o teste de Kolmogorov-Smirnov (ajustamento à normal) aos resíduos, calcula-se um D de 0,082 o que, mesmo para uma significância
elevada de 20%, resulta aceitável - pelo que não se rejeita a hipótese dos resíduos serem normalmente distribuídos. D115,20% é aproximadamente 0,09978 (1,07 / SQRT(115)).
Histograma dos resíduos vs Normal (0, 143)
-400 -300 -200 -100 0 100 200 300 400 500 600 Resíduos 0 5 10 15 20 25 30 35 40 N úm er o de o bs er va çõ es Dresíduos = 0,08207 < D 115, 20% = 0,09977
Homocedasticidade
Para a verificação da suspeita levantada no ponto anterior há que testar a constância da variância dos erros.
A análise gráfica dos resíduos não indica heteroscedasticidade acentuada, ou seja, variância inconstante dos erros. A distribuição destes não parece variar significativamente ao longo da linha de previsão:
Valores previstos vs Resíduos Variável dependente: VENDAS
0 200 400 600 800 1000 1200 1400 1600 1800 2000 Valores previstos -400 -300 -200 -100 0 100 200 300 400 500 R es íduos 95% confidence
Deste modo, não se rejeita a hipótese dos erros estarem livres da influência das variáveis usadas na regressão original.
Autocorrelação
O teste de Durbin-Watson permite-nos detectar situações de autocorrelação em processos autoregressivos de 1ª ordem. Sendo que o Statistica nos poupa a parte calculatória, obtém-se, através da análise de resíduos, o valor de d = 1,8825. A literatura1 explica que este valor, próximo de 2, indica não haver autocorrelação entre os resíduos.
1