Correla¸c˜ao e Regress˜ao Linear

(1)

Correla¸c˜ ao e Regress˜ ao Linear

Anna Regina Corbo

CEFET/RJ - UnED NI

Aula Te´orica 5

(2)

Objetivo

Nosso objetivo agora ´e examinar problemas de Estat´ıstica que envolvem duas ou mais vari´aveis quantitativas.

(3)

Diagrama de Dispers˜ ao

Suponha que queremos investigar a rela¸cão entre duas variáveis de uma mesma popula¸cão que chamaremos de variáveisX eY. Ou seja, para cada elemento da amostra, iremos verificar um par ordenado (x,y).

Diagrama de Dispersão apresenta como as duas variáveis se correlacionam, isto é,qual a tendência de varia¸cão conjunta que apresentam.

(4)

Diagrama de Dispers˜ ao

Exemplo: Valores de altura (X) e peso (Y) de dez pessoas.

Pessoa Altura (cm) Peso (kg)

1 174 73

2 161 66

3 170 64

4 180 94

5 182 79

Pessoa Altura (cm) Peso (kg)

6 164 72

7 156 62

8 168 64

9 176 90

10 175 81

(5)

Correla¸c˜ ao Linear

(a) Correla¸c˜ao linear positiva (b) Correla¸c˜ao linear negativa

(6)

Correla¸c˜ ao Linear

O sinal da correla¸cão indica a tendência da varia¸cão conjunta das duas variáveis consideradas;

Devemos tamb´em considerar a intensidade ou o grau da correla¸c˜ao;

A correla¸cão linear é muito mais intensa se os pontos apresentam uma tendência mais acentuada de se colocarem segundo uma reta;

Estamos interessados em verificar exatamente o quanto os pontos se aproximam de uma reta - o quanto os pontos est˜ao linearmente correlacionados.

(7)

Coeficiente de correla¸c˜ ao linear de Pearson

r =

Pn

i=1(x_i −x)(y¯ _i−¯y) pPn

i=1(xi −x)¯ ²·Pn

i=1(yi −y)¯ ² Ou seja,

r = Sxy

pS_xx ·S_yy

ondeSxx e Syy são os desvios-padrão das variáveisX eY na amostra eS_xy é a covariância entre as duas variáveis definida por:

Sxy =cov(x,y) = Pn

i=1(xi−¯x)(yi −¯y) n−1

(8)

Coeficiente de correla¸c˜ ao linear de Pearson

Uma maneira mais “r´apida” de calcular os valores de Sxx,Syy eSxy

é a representa¸cão abreviada dos somatórios apresentadas abaixo:

Sxy =Pn

i=1(x_i −x)(y¯ _i−¯y) =X x_iy_i −

Px_i·P y_i n S_xx =P_n

i=1(x_i −¯x)² =X

x_i²−(P x_i)² n S_yy =Pn

i=1(y_i −y¯)² =X

y_i²−(P y_i)² n

(9)

Coeficiente de correla¸c˜ ao linear de Pearson

Este coeficiente de correla¸cão linear é adimensional, ou seja, seu valor não ser afetado pelas unidades adotadas;

O coeficiente de correla¸cão linear varia entre−1 e +1: r =−1 corresponde ao caso de correla¸cão linear negativa perfeita e r = +1 corresponde ao de correla¸cão linear positiva perfeita.

(10)

Teste do coeficiente de correla¸c˜ ao

Desejamos saber se um dado valor der, combinado com o respectivo tamanho da amostran, permite concluir, a um dado n´ıvel de significância α, que realmente existe correla¸cão linear entre as variáveis.

(11)

Teste do coeficiente de correla¸c˜ ao

Testamos, ent˜ao, as hip´oteses

H0 :ρ= 0 H₁ :ρ6= 0

Esse teste bilateral pode ser feito atrav´es da estat´ıstica t_calc =r

rn−2 1−r²

que ser´a testada pelo teste de t Student com n−2 graus de liberdade.

Ou seja, se−t_α/2,n−2 6t_calc 6t_α/2,n−2 ent˜ao n˜ao rejeiteH0.

(12)

Coeficiente de Correla¸c˜ ao - Exemplo 1

Suponha que um engenheiro deseja estabelecer a rela¸cão entre a resistência ao puxamento de um fio e o comprimento do fio. Uma amostra aleatória de 25 unidades é selecionada e testada, sendo a resistência ao puxamento e o comprimento do fio observados para cada unidade. Os dados são mostrados na tabela abaixo e

considere que a resistˆencia ao puxamento e o comprimento do fio sejam normalmente distribu´ıdos. ´E poss´ıvel afirmar com α= 5%

de significˆancia que existe uma correla¸c˜ao entre os dois fatores observados?

(13)

Coeficiente de Correla¸c˜ ao - Exemplo 1

Obs. Res. (y) Comp. (x)

1 9,95 2

2 24,45 8

3 31,75 11

4 35,00 10

5 25,02 8

6 16,86 4

7 14,38 2

8 9,60 2

9 24,35 9

10 27,50 8

11 17,08 4

12 37,00 11

13 41,95 12

Obs. Res. (y) Comp. (x)

14 11,66 2

15 21,65 4

16 17,89 4

17 69,00 20

18 10,30 1

19 34,93 10

20 46,59 15

21 44,88 15

22 54,12 16

23 56,63 17

24 22,13 6

25 21,15 5

(14)

Coeficiente de Correla¸c˜ ao - Exemplo 1

Utilizando os dados da tabela, obtemos:

S_xx = 698,5600 S_yy = 6105,9447 Sxy = 2027,7132 Logo,

r = Sxy

pSxx·Syy

= 2027,7132

√698,5600·6105,9447 = 0,9818 Note quer² = (0,9818)²= 0,9640, ou seja, aproximadamente 96,40% da variabilidade na resistˆencia ao puxamento ´e explicado

(15)

Coeficiente de Correla¸c˜ ao - Exemplo 1

Para comprovar isto estatisticamente, devemos realizar o teste H₀ :ρ= 0

H₁ :ρ6= 0 comα = 0,05. A estat´ıstica do teste ser´a:

tcalc =r

rn−2

1−r² = 0,9818 s

25−2

1−0,9640 = 24,82 uma vez quet_0,025;23 = 2,069, ent˜ao tem-se quet_calc >t_α, logo rejeiteH0.

Conclusão: existem evidências que atestam que o coeficiente de correla¸cão éρ6= 0, isto é, existe efetivamente uma rela¸cão linear entre o puxamento e o tamanho do fio.

(16)

Regress˜ ao Linear

Muitas vezes a posi¸cão dos pontos experimentais no diagrama de dispersão sugere que existe uma rela¸cão funcional entre as duas variáveis. Surge então o problema de se determinar uma fun¸cão que exprima esse relacionamento. Este é o chamado problema da Análise da Regressão.

(17)

Linha de Regress˜ ao Linear

Figura: Esquematiza¸cão de diagrama de dispersão (em preto) e linha de regressão (em azul).

(18)

Modelo de Regress˜ ao Linear

Vamos admitir que a forma da linha de regressão seja uma reta e que há uma forte indica¸cão de que os pontos repousam

aleatoriamente dispersos em torno de uma linha reta. Ou seja, o valor esperado paraY ´e dado por:

E[Y|x] =µ_Y_|x =β0+β1x

em que a inclina¸cão e a interse¸cão da linha são chamadas coeficientes de regressão.

(19)

Modelo de Regress˜ ao Linear

No entanto, o valor real observado,y, não cai exatamente na linha reta. A maneira apropriada de generalizar isso para um modelo linear probabil´ıstico é considerar que o valor esperado deY seja uma fun¸cão linear de x, mas que, para um valor fixo de x, o valor real deY seja determinado pela fun¸cão do valor médio mais um termo de erro aleatório,

Y =β0+β1x+ε sendoεo termo de erro aleat´orio.

(20)

Regress˜ ao Linear Simples

Considera um único regressor x e uma variável dependente ou variável de respostaY. Suponha que a rela¸cão verdadeira entre Y ex seja uma linha reta. Deste modo, o valor esperado deY para cada valor dex é

E[Y|x] =β0+β1x

sendo a interse¸cãoβ0 e a inclina¸cão β1 coeficientes desconhecidos da regressão.

(21)

Regress˜ ao Linear Simples

Consideremos que cada observa¸c˜ao Y possa ser descrita pelo modelo

Y =β0+β1x+ε

ondeεé um erro aleatório com média zero e variância σ².

(22)

Regress˜ ao Linear Simples

Suponha que tenhamosn pares de observa¸c˜oes (x1,y1), (x2,y2),

· · ·, (x_n,y_n). As estimativas deβ₀ e β₁ devem resultar em uma linha que ´e o “melhor ajuste” para os dados.

(23)

Regress˜ ao Linear Simples

Uma forma de estimar estes parâmetrosβ0 e β1 é minimizar a soma dos quadrados dos desvios verticais. Chamamos este critério para estimar os coeficientes de regressão de método dos m´ınimos quadrados.

(24)

Regress˜ ao Linear Simples

Uma vez que cada observa¸c˜ao Y possa ser descrita pelo modelo Y =β0+β1x+ε, podemos expressar asn observa¸c˜oes na amostra como:

y₁ =β₀+β₁x₁+ε₁ y₂ =β₀+β₁x₂+ε₂

...

yn=β0+β1xn+εn.

(25)

Regress˜ ao Linear Simples

Uma vez que para cada observa¸c˜ao i, o seu correspondente desvio

´e dado por

ε_i =y_i −β0−β1x_i

a soma dos quadrados dos desvios das observa¸cões em rela¸cão à linha de regressão é dada por:

L=ε²₁+ε²₁+. . .+ε²_n=

n

X

i=1

ε²_i =

n

X

i=1

(yi−β0−β1xi)²

(26)

Regress˜ ao Linear Simples

Minimizar este funcional ´e o mesmo que obter o ponto, onde as derivadas parciais se anulam, ou seja, obter estimadores ˆβ0 e ˆβ1 de β₀ e β₁ que satisfazem:

∂L

∂β0

=−2

n

X

i=1

(yi−βˆ0−βˆ1xi) = 0 (1)

∂L

∂β1

=−2

n

X

i=1

(y_i −βˆ₀−βˆ₁x_i)·x_i = 0 (2)

(27)

Regress˜ ao Linear Simples

Podemos simplificar as express˜oes (1) e (2) para:

βˆ0 = ¯y−βˆ1¯x (1)

βˆ₁ = Pn

i=1yixi −(Pn

i=1yi) (Pn i=1xi) n

Pn

i=1x_i²− (Pn i=1xi)²

n

(2)

(28)

Regress˜ ao Linear Simples

As expressoões(1)e (2)são chamadas de equa¸cões normais dos m´ınimos quadradose podem ser reescritas (e calculadas) como:

βˆ₀ = ¯y−βˆ₁¯x βˆ1 = Sxy

S_xx

ondeS_xx e S_xy são as representa¸cões abreviadas dos somatórios apresentados no estudo da correla¸cão.

(29)

Regress˜ ao Linear Simples - Exemplo 2

Uma empresa deseja encontrar um modelo de regressão para a pureza do oxigênio produzido em um processo qu´ımico de destila¸cão. Para realizar este estudo, foram obtidas 20 amostras listadas na tabela abaixo ondey é a pureza ex é a percentagem de hidrocarbonetos presentes no condensador principal da unidade de destila¸cão. Qual o modelo de regressão linear que podemos obter com estas observa¸cões? Se for observado 1,70% de

hidrocarbonetos no condensador, qual ser´a o valor estimado para a pureza do oxigˆenio?

(30)

Regress˜ ao Linear Simples - Exemplo 2

Obs. N´ıvel de Pureza Hidrocarb. (%) (%)

1 0,99 90,01

2 1,02 89,05

3 1,15 91,43

4 1,29 93,74

5 1,46 96,73

6 1,36 94,45

7 0,87 87,59

8 1,23 91,77

9 1,55 99,42

10 1,40 93,65

Obs. N´ıvel de Pureza Hidrocarb. (%) (%)

11 1,19 93,54

12 1,15 92,52

13 0,98 90,56

14 1,01 89,54

15 1,11 89,85

16 1,20 90,39

17 1,26 93,25

18 1,32 93,41

19 1,43 94,98

20 0,95 87,33

(31)

Regress˜ ao Linear Simples - Exemplo 2

Figura: Diagrama de dispers˜ao para os dados do Exemplo 2.

(32)

Regress˜ ao Linear Simples - Exemplo 2

As seguintes quantidades podem ser computadas:

n= 20 P20

i=1x_i = 23,92 P20

i=1y_i = 1843,21

¯

x= 1,20

¯

y= 92,16 P20

i=1x_i²= 29,29 P20

i=1y_i² = 170044,53 P20

i=1xiyi = 2214,66

Sxx =

20

X

i=1

x_i²−(P20 i=1xi)²

20 = 29,29−23,92²

20 = 0,68

(33)

Regress˜ ao Linear Simples - Exemplo 2

Logo, as estimativas de m´ınimos quadrados da inclina¸cão e da interse¸cão são:

βˆ₁ = S_xy Sxx

= 10,18

0,68 = 14,97

βˆ₀ = ¯y−βˆ₁·¯x= 92,16−14,97·1,20 = 74,20 Deste modo, o modelo ajustado da regress˜ao linear simples ´e

ˆ

y = 74,20 + 14,97x

Tomando um valor particular dex, por exemplo, se x= 1,7, ent˜ao y previsto ser´a igual a ˆy = 74,20 + 14,97·1,7 = 99,65%.