• Nenhum resultado encontrado

Regress˜ ao linear simples

No documento Estat´ıstica e Ciˆ encia de Dados (páginas 194-200)

PARTE I: AN ´ ALISE EXPLORAT ´ ORIA DEEXPLORAT ´ORIA DE

6.2 Regress˜ ao linear simples

184 6.2 REGRESS ˜AO LINEAR SIMPLES

Para esse modelo, parˆametroαcorresponde `a distˆancia esperada com que um motorista com idadex= 18 anos consegue distinguir o determinado objeto e o parˆametroβ tem a mesma interpreta¸c˜ao apresentada para o modelo (6.1).

O modelo (6.1) ´e chamado de regress˜ao linear simples e o adjetivo linear refere-se ao fato de os parˆametros α e β serem inclu´ıdos de forma linear. Nesse sentido, o modelo

yi=α+ exp(βxi) +ei, i= 1, . . . , n (6.3) seria ummodelo n˜ao linear. Por outro lado, o modelo

yi =α+βxi+γx2i +ei, i= 1, . . . , n, (6.4)

´e tamb´em um modelo linear, pois embora a vari´avel explicativa x esteja elevada ao quadrado, os parˆametros α, βeγ aparecem de forma linear. Mo-delos como esse, que envolvem fun¸c˜oes polinomiais da vari´avel explicativa, s˜ao conhecidos comomodelos de regress˜ao polinomiale ser˜ao analisados na Se¸c˜ao 6.3.

Nosso principal objetivo n˜ao ´e discutir em detalhes o problema da es-tima¸c˜ao dos parˆametros desses modelos, mas considerar m´etodos gr´aficos que permitam avaliar se eles s˜ao ou n˜ao adequados para descrever conjuntos de dados com a estrutura descrita. No entanto, n˜ao poderemos prescindir de apresentar alguns detalhes t´ecnicos. Um tratamento mais aprofundado sobre o ajuste de modelos lineares e n˜ao lineares pode ser encontrado em in´umeros textos, dentre o quais destacamos Kutner et al. (2004) para uma primeira abordagem.

V´arios pacotes computacionais disp˜oem de c´odigos que permitem ajustar esses modelos. Em particular, mencionamos a fun¸c˜ao lm(). Na Se¸c˜ao 6.2, discutiremos, com algum pormenor, o ajuste de modelos da forma (6.1) e depois indicaremos como o caso geral de uma regress˜ao linear m´ultipla (com mais de duas vari´aveis) pode ser abordado.

6. AN ´ALISE DE REGRESS ˜AO 185 rela¸c˜ao a esses parˆametros e obtemos as equa¸c˜oes de estima¸c˜ao igua-lando as express˜oes resultantes a zero. A solu¸c˜ao dessas equa¸c˜oes s˜ao os estimadores de m´ınimos quadrados,

βb= Pn

i=1(xi−x)(yi−y) Pn

i=1(xi−x)2 , (6.6)

e

b

α=y−βx,b (6.7)

em que x = n1Pn

i=1xi e y =n1Pn

i=1yi. Um estimador n˜ao enviesado de σ2 ´e

S2 = 1

n−2Q(α,b β) =b 1 n−2

Xn i=1

b

e2i = 1 n−2

Xn i=1

(yi−αb−βxb i)2, (6.8) em que Q(α,bβ) ´e ab soma dos quadrados dos res´ıduos, abreviadamente, SQRes. Note que no denominador de (6.8) temos n−2, pois perdemos dois graus de liberdade em fun¸c˜ao da estima¸c˜ao de dois parˆametros (αeβ).

Alguns resultados referentes `a inferˆencia baseada nesse tipo de modelos s˜ao apresentados na Nota de Cap´ıtulo 1.

Os valores ajustados, ybi = αb +βxb i, s˜ao utilizados para obten¸c˜ao dos res´ıduos

b

ei=yi−ybi=yi−(αb+βxb i), i= 1, . . . ,n.

Num contexto inferencial, ou seja, em que os dados correspondem a uma amostra de uma popula¸c˜ao (geralmente conceitual), os valores dos parˆametros α,β eσ2 n˜ao podem ser conhecidos, a menos que toda a popula¸c˜ao seja ava-liada. Consequentemente, os erros ei n˜ao s˜ao conhecidos, mas os res´ıduosbei podem ser calculados e correspondem a “estimativas” desses erros.

A proposta de um modelo de regress˜ao linear simples pode ser baseada em argumentos te´oricos, como no caso em que dados s˜ao coletados para a avalia¸c˜ao do espa¸co percorrido num movimento uniforme (s= s0+vt) ou num gr´afico de dispers˜ao entre a vari´avel resposta e a vari´avel explicativa como aquele da Figura 6.1 em que parece razo´avel representar a varia¸c˜ao da distˆancia esperada com a idade por meio de uma reta.

Uma vez ajustado o modelo, conv´em avaliar a qualidade do ajuste e um dos indicadores mais utilizados para essa finalidade ´e ocoeficiente de determina¸c˜aodefinido como

R2= SQT ot−SQRes

SQT ot = SQReg

SQT ot = 1−SQRes SQT ot, em que a soma de quadrados total ´e SQT ot=Pn

i=1(yi −y)2, a soma de quadrados dos res´ıduos ´e SQRes = Pn

i=1(yi −ybi)2 e a soma de quadrados da regress˜ao´eSQReg=Pn

i=1(byi−y)2. Para mais detalhes, ver a Nota de Cap´ıtulo 3. Em essˆencia, esse coeficiente mede a porcentagem da varia¸c˜ao total dos valores da vari´avel resposta (yi) em rela¸c˜ao `a sua m´edia (y) explicada pelo modelo de regress˜ao.

Morettin & Singer - abril/2021

186 6.2 REGRESS ˜AO LINEAR SIMPLES

O coeficiente de determina¸c˜ao deve ser acompanhado de outras ferra-mentas para a avalia¸c˜ao do ajuste, pois n˜ao est´a direcionado para identificar se todas as suposi¸c˜oes do modelo s˜ao compat´ıveis com os dados sob inves-tiga¸c˜ao. Em particular, mencionamos os gr´aficos de res´ıduos, gr´aficos de Cookegr´aficos de influˆencia local. Tratamos dos dois primeiros na sequˆencia e remetemos os ´ultimos para as Notas de Cap´ıtulo 4 e 5.

Resultados do ajuste do modelo de regress˜ao linear simplesdistanciai = α+β(idadei−18) +ei, i = 1, . . . , n aos dados da Tabela 6.1 por meio da fun¸c˜aolm() do pacoteMASS est˜ao apresentados abaixo. Note que a vari´avel preditora est´a especificada comoid=idade- 18.

> lm(formula = distancia ~ id, data = distancia) Residuals:

Min 1Q Median 3Q Max

-26.041 -13.529 2.388 11.478 35.994 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 174.2296 5.5686 31.288 < 2e-16 ***

id -1.0039 0.1416 -7.092 1.03e-07 ***

Residual standard error: 16.6 on 28 degrees of freedom Multiple R-squared: 0.6424,Adjusted R-squared: 0.6296 F-statistic: 50.29 on 1 and 28 DF, p-value: 1.026e-07

As estimativas dos parˆametros α (distˆancia esperada para motoristas com 18 anos) eβ (diminui¸c˜ao da distˆancia esperada para cada ano adicional na idade) com erros padr˜oes entre parˆenteses s˜ao, respectivamente, αb = 174,2 (5,6) e βb=−1,004 (0,14).

A estimativa do desvio padr˜ao dos erros (σ) ´eS = 16,6, com 30−2 = 28 graus de liberdade e o coeficiente de determina¸c˜ao ´e R2 = 0,63. Detalhes sobre o coeficiente de determina¸c˜ao ajustado ser˜ao apresentados na Nota de Cap´ıtulo 3. Se us´assemos o modelo (6.1), a estimativa deαseria 192,3 (7,8) e a deβ seria a mesma.

Uma das ferramentas mais ´uteis para a avalia¸c˜ao da qualidade do ajuste de modelos de regress˜ao ´e o gr´afico de res´ıduos em que os res´ıduos (ebi) s˜ao dispostos no eixo das ordenadas e os correspondentes valores da vari´avel explicativa (xi), no eixo das abscissas.

O gr´afico de res´ıduos correspondente ao modelo ajustado aos dados da Tabela 6.1 est´a apresentado na Figura 6.3.

Morettin & Singer - abril/2021

6. AN ´ALISE DE REGRESS ˜AO 187

20 30 40 50 60 70 80

−200102030

Idade (anos)

Resíduos (m)

Figura 6.3: Gr´afico de res´ıduos para o ajuste do modelo de regress˜ao linear simples aos dados da Tabela 6.1.

Para facilitar a visualiza¸c˜ao em rela¸c˜ao `a dispers˜ao dos res´ıduos e para efeito de compara¸c˜ao entre ajustes de modelos em que as vari´aveis respostas tˆem unidades de medida diferentes, conv´em padroniz´a-los, i.e., dividi-los pelo respectivo desvio padr˜ao para que tenham variˆancia igual a 1. Como os res´ıduos (ao contr´ario dos erros) s˜ao correlacionados, pode-se mostrar que

DP(bei) =σp

1−hii com hii= 1

n+ (xi−x)2 Pn

i=1(xi−x)2,

de forma que os res´ıduos padronizados, tamb´em chamados de res´ıduos estudentizados, s˜ao definidos por

b

ei =ebi/(Sp

1−hii). (6.9)

Os res´ıduos padronizados s˜ao adimensionais e tˆem variˆancia igual a 1, in-dependentemente da variˆancia da vari´avel resposta (σ2). Al´em disso, para erros com distribui¸c˜ao Normal, cerca de 99% dos res´ıduos padronizados tˆem valor entre -3 e +3.

O gr´afico de res´ıduos padronizados correspondente `aquele da Figura 6.3 est´a apresentado na Figura 6.4.

Morettin & Singer - abril/2021

188 6.2 REGRESS ˜AO LINEAR SIMPLES

20 30 40 50 60 70 80

−3−2−10123

Idade (anos)

Resíduos padronizados

Figura 6.4: Gr´afico de res´ıduos padronizados para o ajuste do modelo de regress˜ao linear simples aos dados da Tabela 6.1.

Na Figura 6.4, nota-se que res´ıduos positivos e negativos est˜ao dis-tribu´ıdos sem algum padr˜ao sistem´atico e que sua variabilidade ´e razoa-velmente uniforme ao longo dos diferentes valores da vari´avel explicativa, sugerindo que relativamente `a suposi¸c˜ao dehomocedasticidade(variˆancia constante) o modelo adotado ´e (pelo menos, aproximadamente) adequado.

Exemplo 6.2: Os gr´aficos de dispers˜ao e de res´ıduos padronizados corres-pondentes ao ajuste do modeloCOi=α+β tempoi+ei, i= 1, . . . , n em queCO representa a concentra¸c˜ao atmosf´erica de mon´oxido de carbono no dia (tempo) icontado a partir de 1 de janeiro de 1991 (arquivopoluicao) est˜ao apresentados nas Figuras 6.5 e 6.6. Ambos sugerem uma deficiˆencia no ajuste: no primeiro, observa-se uma curvatura n˜ao compat´ıvel com o ajuste de uma reta; no segundo, nota-se um padr˜ao na distribui¸c˜ao dos res´ıduos, que s˜ao positivos nos primeiros dias, negativos em seguida e espalhados ao final das observa¸c˜oes di´arias. Al´em disso, a dispers˜ao dos res´ıduos varia com o tempo.

O resultado obtido por meio da fun¸c˜ao lm()´e lm(formula = CO ~ tempo, data = dados) Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) 6.264608 0.254847 24.582 < 2e-16 ***

tempo 0.019827 0.003656 5.424 3.15e-07 ***

Residual standard error: 1.387 on 118 degrees of freedom Multiple R-squared: 0.1996,Adjusted R-squared: 0.1928 F-statistic: 29.42 on 1 and 118 DF, p-value: 3.148e-07

O coeficiente de determina¸c˜ao correspondente ´e 0,19, sugerindo que o mo-delo de regress˜ao linear simples explica apenas uma pequena parcela da

Morettin & Singer - abril/2021

6. AN ´ALISE DE REGRESS ˜AO 189 variabilidade dos dados. Um modelo (linear) de regress˜ao polinomial al-ternativo em que termos quadr´atico e c´ubico s˜ao inclu´ıdos, i.e., COi = α+β tempoi +γ tempo2i +δ tempo3i +ei, i = 1, . . . , n tem um melhor ajuste, como se pode notar tanto pelo acr´escimo no coeficiente de deter-mina¸c˜ao, cujo valor ´e 0,35, quanto pelo gr´afico de res´ıduos padronizados disposto na Figura 6.7. Detalhes sobre o ajuste de modelos de regress˜ao polinomial como esse, ser˜ao apresentados na Se¸c˜ao 6.3.

0 20 40 60 80 100 120

681012

Tempo (dias)

Concentração de CO

Figura 6.5: Gr´afico de dispers˜ao para os dados de mon´oxido de carbono.

0 20 40 60 80 100 120

−2−10123

Tempo (dias)

Resíduos padronizados

Figura 6.6: Gr´afico de res´ıduos padronizados para o ajuste do modelo de regress˜ao linear simples aos dados da concentra¸c˜ao de CO.

Ainda assim, esse modelo polinomial n˜ao ´e o mais adequado em virtude

Morettin & Singer - abril/2021

No documento Estat´ıstica e Ciˆ encia de Dados (páginas 194-200)