Correla¸c˜ ao e Regress˜ ao Linear
Anna Regina Corbo
CEFET/RJ - UnED NI
Aula Te´orica 5
Objetivo
Nosso objetivo agora ´e examinar problemas de Estat´ıstica que envolvem duas ou mais vari´aveis quantitativas.
Diagrama de Dispers˜ ao
Suponha que queremos investigar a rela¸c˜ao entre duas vari´aveis de uma mesma popula¸c˜ao que chamaremos de vari´aveisX eY. Ou seja, para cada elemento da amostra, iremos verificar um par ordenado (x,y).
Diagrama de Dispers˜ao apresenta como as duas vari´aveis se correlacionam, isto ´e,qual a tendˆencia de varia¸c˜ao conjunta que apresentam.
Diagrama de Dispers˜ ao
Exemplo: Valores de altura (X) e peso (Y) de dez pessoas.
Pessoa Altura (cm) Peso (kg)
1 174 73
2 161 66
3 170 64
4 180 94
5 182 79
Pessoa Altura (cm) Peso (kg)
6 164 72
7 156 62
8 168 64
9 176 90
10 175 81
Correla¸c˜ ao Linear
(a) Correla¸c˜ao linear positiva (b) Correla¸c˜ao linear negativa
Correla¸c˜ ao Linear
O sinal da correla¸c˜ao indica a tendˆencia da varia¸c˜ao conjunta das duas vari´aveis consideradas;
Devemos tamb´em considerar a intensidade ou o grau da correla¸c˜ao;
A correla¸c˜ao linear ´e muito mais intensa se os pontos apresentam uma tendˆencia mais acentuada de se colocarem segundo uma reta;
Estamos interessados em verificar exatamente o quanto os pontos se aproximam de uma reta - o quanto os pontos est˜ao linearmente correlacionados.
Coeficiente de correla¸c˜ ao linear de Pearson
r =
Pn
i=1(xi −x)(y¯ i−¯y) pPn
i=1(xi −x)¯ 2·Pn
i=1(yi −y)¯ 2 Ou seja,
r = Sxy
pSxx ·Syy
ondeSxx e Syy s˜ao os desvios-padr˜ao das vari´aveisX eY na amostra eSxy ´e a covariˆancia entre as duas vari´aveis definida por:
Sxy =cov(x,y) = Pn
i=1(xi−¯x)(yi −¯y) n−1
Coeficiente de correla¸c˜ ao linear de Pearson
Uma maneira mais “r´apida” de calcular os valores de Sxx,Syy eSxy
´e a representa¸c˜ao abreviada dos somat´orios apresentadas abaixo:
Sxy =Pn
i=1(xi −x)(y¯ i−¯y) =X xiyi −
Pxi·P yi n Sxx =Pn
i=1(xi −¯x)2 =X
xi2−(P xi)2 n Syy =Pn
i=1(yi −y¯)2 =X
yi2−(P yi)2 n
Coeficiente de correla¸c˜ ao linear de Pearson
Este coeficiente de correla¸c˜ao linear ´e adimensional, ou seja, seu valor n˜ao ser afetado pelas unidades adotadas;
O coeficiente de correla¸c˜ao linear varia entre−1 e +1: r =−1 corresponde ao caso de correla¸c˜ao linear negativa perfeita e r = +1 corresponde ao de correla¸c˜ao linear positiva perfeita.
Teste do coeficiente de correla¸c˜ ao
Desejamos saber se um dado valor der, combinado com o respectivo tamanho da amostran, permite concluir, a um dado n´ıvel de significˆancia α, que realmente existe correla¸c˜ao linear entre as vari´aveis.
Teste do coeficiente de correla¸c˜ ao
Testamos, ent˜ao, as hip´oteses
H0 :ρ= 0 H1 :ρ6= 0
Esse teste bilateral pode ser feito atrav´es da estat´ıstica tcalc =r
rn−2 1−r2
que ser´a testada pelo teste de t Student com n−2 graus de liberdade.
Ou seja, se−tα/2,n−2 6tcalc 6tα/2,n−2 ent˜ao n˜ao rejeiteH0.
Coeficiente de Correla¸c˜ ao - Exemplo 1
Suponha que um engenheiro deseja estabelecer a rela¸c˜ao entre a resistˆencia ao puxamento de um fio e o comprimento do fio. Uma amostra aleat´oria de 25 unidades ´e selecionada e testada, sendo a resistˆencia ao puxamento e o comprimento do fio observados para cada unidade. Os dados s˜ao mostrados na tabela abaixo e
considere que a resistˆencia ao puxamento e o comprimento do fio sejam normalmente distribu´ıdos. ´E poss´ıvel afirmar com α= 5%
de significˆancia que existe uma correla¸c˜ao entre os dois fatores observados?
Coeficiente de Correla¸c˜ ao - Exemplo 1
Obs. Res. (y) Comp. (x)
1 9,95 2
2 24,45 8
3 31,75 11
4 35,00 10
5 25,02 8
6 16,86 4
7 14,38 2
8 9,60 2
9 24,35 9
10 27,50 8
11 17,08 4
12 37,00 11
13 41,95 12
Obs. Res. (y) Comp. (x)
14 11,66 2
15 21,65 4
16 17,89 4
17 69,00 20
18 10,30 1
19 34,93 10
20 46,59 15
21 44,88 15
22 54,12 16
23 56,63 17
24 22,13 6
25 21,15 5
Coeficiente de Correla¸c˜ ao - Exemplo 1
Utilizando os dados da tabela, obtemos:
Sxx = 698,5600 Syy = 6105,9447 Sxy = 2027,7132 Logo,
r = Sxy
pSxx·Syy
= 2027,7132
√698,5600·6105,9447 = 0,9818 Note quer2 = (0,9818)2= 0,9640, ou seja, aproximadamente 96,40% da variabilidade na resistˆencia ao puxamento ´e explicado
Coeficiente de Correla¸c˜ ao - Exemplo 1
Para comprovar isto estatisticamente, devemos realizar o teste H0 :ρ= 0
H1 :ρ6= 0 comα = 0,05. A estat´ıstica do teste ser´a:
tcalc =r
rn−2
1−r2 = 0,9818 s
25−2
1−0,9640 = 24,82 uma vez quet0,025;23 = 2,069, ent˜ao tem-se quetcalc >tα, logo rejeiteH0.
Conclus˜ao: existem evidˆencias que atestam que o coeficiente de correla¸c˜ao ´eρ6= 0, isto ´e, existe efetivamente uma rela¸c˜ao linear entre o puxamento e o tamanho do fio.
Regress˜ ao Linear
Muitas vezes a posi¸c˜ao dos pontos experimentais no diagrama de dispers˜ao sugere que existe uma rela¸c˜ao funcional entre as duas vari´aveis. Surge ent˜ao o problema de se determinar uma fun¸c˜ao que exprima esse relacionamento. Este ´e o chamado problema da An´alise da Regress˜ao.
Linha de Regress˜ ao Linear
Figura: Esquematiza¸c˜ao de diagrama de dispers˜ao (em preto) e linha de regress˜ao (em azul).
Modelo de Regress˜ ao Linear
Vamos admitir que a forma da linha de regress˜ao seja uma reta e que h´a uma forte indica¸c˜ao de que os pontos repousam
aleatoriamente dispersos em torno de uma linha reta. Ou seja, o valor esperado paraY ´e dado por:
E[Y|x] =µY|x =β0+β1x
em que a inclina¸c˜ao e a interse¸c˜ao da linha s˜ao chamadas coeficientes de regress˜ao.
Modelo de Regress˜ ao Linear
No entanto, o valor real observado,y, n˜ao cai exatamente na linha reta. A maneira apropriada de generalizar isso para um modelo linear probabil´ıstico ´e considerar que o valor esperado deY seja uma fun¸c˜ao linear de x, mas que, para um valor fixo de x, o valor real deY seja determinado pela fun¸c˜ao do valor m´edio mais um termo de erro aleat´orio,
Y =β0+β1x+ε sendoεo termo de erro aleat´orio.
Regress˜ ao Linear Simples
Considera um ´unico regressor x e uma vari´avel dependente ou vari´avel de respostaY. Suponha que a rela¸c˜ao verdadeira entre Y ex seja uma linha reta. Deste modo, o valor esperado deY para cada valor dex ´e
E[Y|x] =β0+β1x
sendo a interse¸c˜aoβ0 e a inclina¸c˜ao β1 coeficientes desconhecidos da regress˜ao.
Regress˜ ao Linear Simples
Consideremos que cada observa¸c˜ao Y possa ser descrita pelo modelo
Y =β0+β1x+ε
ondeε´e um erro aleat´orio com m´edia zero e variˆancia σ2.
Regress˜ ao Linear Simples
Suponha que tenhamosn pares de observa¸c˜oes (x1,y1), (x2,y2),
· · ·, (xn,yn). As estimativas deβ0 e β1 devem resultar em uma linha que ´e o “melhor ajuste” para os dados.
Regress˜ ao Linear Simples
Uma forma de estimar estes parˆametrosβ0 e β1 ´e minimizar a soma dos quadrados dos desvios verticais. Chamamos este crit´erio para estimar os coeficientes de regress˜ao de m´etodo dos m´ınimos quadrados.
Regress˜ ao Linear Simples
Uma vez que cada observa¸c˜ao Y possa ser descrita pelo modelo Y =β0+β1x+ε, podemos expressar asn observa¸c˜oes na amostra como:
y1 =β0+β1x1+ε1 y2 =β0+β1x2+ε2
...
yn=β0+β1xn+εn.
Regress˜ ao Linear Simples
Uma vez que para cada observa¸c˜ao i, o seu correspondente desvio
´e dado por
εi =yi −β0−β1xi
a soma dos quadrados dos desvios das observa¸c˜oes em rela¸c˜ao `a linha de regress˜ao ´e dada por:
L=ε21+ε21+. . .+ε2n=
n
X
i=1
ε2i =
n
X
i=1
(yi−β0−β1xi)2
Regress˜ ao Linear Simples
Minimizar este funcional ´e o mesmo que obter o ponto, onde as derivadas parciais se anulam, ou seja, obter estimadores ˆβ0 e ˆβ1 de β0 e β1 que satisfazem:
∂L
∂β0
=−2
n
X
i=1
(yi−βˆ0−βˆ1xi) = 0 (1)
∂L
∂β1
=−2
n
X
i=1
(yi −βˆ0−βˆ1xi)·xi = 0 (2)
Regress˜ ao Linear Simples
Podemos simplificar as express˜oes (1) e (2) para:
βˆ0 = ¯y−βˆ1¯x (1)
βˆ1 = Pn
i=1yixi −(Pn
i=1yi) (Pn i=1xi) n
Pn
i=1xi2− (Pn i=1xi)2
n
(2)
Regress˜ ao Linear Simples
As expresso˜oes(1)e (2)s˜ao chamadas de equa¸c˜oes normais dos m´ınimos quadradose podem ser reescritas (e calculadas) como:
βˆ0 = ¯y−βˆ1¯x βˆ1 = Sxy
Sxx
ondeSxx e Sxy s˜ao as representa¸c˜oes abreviadas dos somat´orios apresentados no estudo da correla¸c˜ao.
Regress˜ ao Linear Simples - Exemplo 2
Uma empresa deseja encontrar um modelo de regress˜ao para a pureza do oxigˆenio produzido em um processo qu´ımico de destila¸c˜ao. Para realizar este estudo, foram obtidas 20 amostras listadas na tabela abaixo ondey ´e a pureza ex ´e a percentagem de hidrocarbonetos presentes no condensador principal da unidade de destila¸c˜ao. Qual o modelo de regress˜ao linear que podemos obter com estas observa¸c˜oes? Se for observado 1,70% de
hidrocarbonetos no condensador, qual ser´a o valor estimado para a pureza do oxigˆenio?
Regress˜ ao Linear Simples - Exemplo 2
Obs. N´ıvel de Pureza Hidrocarb. (%) (%)
1 0,99 90,01
2 1,02 89,05
3 1,15 91,43
4 1,29 93,74
5 1,46 96,73
6 1,36 94,45
7 0,87 87,59
8 1,23 91,77
9 1,55 99,42
10 1,40 93,65
Obs. N´ıvel de Pureza Hidrocarb. (%) (%)
11 1,19 93,54
12 1,15 92,52
13 0,98 90,56
14 1,01 89,54
15 1,11 89,85
16 1,20 90,39
17 1,26 93,25
18 1,32 93,41
19 1,43 94,98
20 0,95 87,33
Regress˜ ao Linear Simples - Exemplo 2
Figura: Diagrama de dispers˜ao para os dados do Exemplo 2.
Regress˜ ao Linear Simples - Exemplo 2
As seguintes quantidades podem ser computadas:
n= 20 P20
i=1xi = 23,92 P20
i=1yi = 1843,21
¯
x= 1,20
¯
y= 92,16 P20
i=1xi2= 29,29 P20
i=1yi2 = 170044,53 P20
i=1xiyi = 2214,66
Sxx =
20
X
i=1
xi2−(P20 i=1xi)2
20 = 29,29−23,922
20 = 0,68
Regress˜ ao Linear Simples - Exemplo 2
Logo, as estimativas de m´ınimos quadrados da inclina¸c˜ao e da interse¸c˜ao s˜ao:
βˆ1 = Sxy Sxx
= 10,18
0,68 = 14,97
βˆ0 = ¯y−βˆ1·¯x= 92,16−14,97·1,20 = 74,20 Deste modo, o modelo ajustado da regress˜ao linear simples ´e
ˆ
y = 74,20 + 14,97x
Tomando um valor particular dex, por exemplo, se x= 1,7, ent˜ao y previsto ser´a igual a ˆy = 74,20 + 14,97·1,7 = 99,65%.