• Nenhum resultado encontrado

Correla¸c˜ao e Regress˜ao Linear

N/A
N/A
Protected

Academic year: 2022

Share "Correla¸c˜ao e Regress˜ao Linear"

Copied!
33
0
0

Texto

(1)

Correla¸c˜ ao e Regress˜ ao Linear

Anna Regina Corbo

CEFET/RJ - UnED NI

Aula Te´orica 5

(2)

Objetivo

Nosso objetivo agora ´e examinar problemas de Estat´ıstica que envolvem duas ou mais vari´aveis quantitativas.

(3)

Diagrama de Dispers˜ ao

Suponha que queremos investigar a rela¸c˜ao entre duas vari´aveis de uma mesma popula¸c˜ao que chamaremos de vari´aveisX eY. Ou seja, para cada elemento da amostra, iremos verificar um par ordenado (x,y).

Diagrama de Dispers˜ao apresenta como as duas vari´aveis se correlacionam, isto ´e,qual a tendˆencia de varia¸c˜ao conjunta que apresentam.

(4)

Diagrama de Dispers˜ ao

Exemplo: Valores de altura (X) e peso (Y) de dez pessoas.

Pessoa Altura (cm) Peso (kg)

1 174 73

2 161 66

3 170 64

4 180 94

5 182 79

Pessoa Altura (cm) Peso (kg)

6 164 72

7 156 62

8 168 64

9 176 90

10 175 81

(5)

Correla¸c˜ ao Linear

(a) Correla¸ao linear positiva (b) Correla¸ao linear negativa

(6)

Correla¸c˜ ao Linear

O sinal da correla¸c˜ao indica a tendˆencia da varia¸c˜ao conjunta das duas vari´aveis consideradas;

Devemos tamb´em considerar a intensidade ou o grau da correla¸c˜ao;

A correla¸c˜ao linear ´e muito mais intensa se os pontos apresentam uma tendˆencia mais acentuada de se colocarem segundo uma reta;

Estamos interessados em verificar exatamente o quanto os pontos se aproximam de uma reta - o quanto os pontos est˜ao linearmente correlacionados.

(7)

Coeficiente de correla¸c˜ ao linear de Pearson

r =

Pn

i=1(xi −x)(y¯ i−¯y) pPn

i=1(xi −x)¯ 2·Pn

i=1(yi −y)¯ 2 Ou seja,

r = Sxy

pSxx ·Syy

ondeSxx e Syy s˜ao os desvios-padr˜ao das vari´aveisX eY na amostra eSxy ´e a covariˆancia entre as duas vari´aveis definida por:

Sxy =cov(x,y) = Pn

i=1(xi−¯x)(yi −¯y) n−1

(8)

Coeficiente de correla¸c˜ ao linear de Pearson

Uma maneira mais “r´apida” de calcular os valores de Sxx,Syy eSxy

´e a representa¸c˜ao abreviada dos somat´orios apresentadas abaixo:

Sxy =Pn

i=1(xi −x)(y¯ i−¯y) =X xiyi

Pxi·P yi n Sxx =Pn

i=1(xi −¯x)2 =X

xi2−(P xi)2 n Syy =Pn

i=1(yi −y¯)2 =X

yi2−(P yi)2 n

(9)

Coeficiente de correla¸c˜ ao linear de Pearson

Este coeficiente de correla¸c˜ao linear ´e adimensional, ou seja, seu valor n˜ao ser afetado pelas unidades adotadas;

O coeficiente de correla¸c˜ao linear varia entre−1 e +1: r =−1 corresponde ao caso de correla¸c˜ao linear negativa perfeita e r = +1 corresponde ao de correla¸c˜ao linear positiva perfeita.

(10)

Teste do coeficiente de correla¸c˜ ao

Desejamos saber se um dado valor der, combinado com o respectivo tamanho da amostran, permite concluir, a um dado n´ıvel de significˆancia α, que realmente existe correla¸c˜ao linear entre as vari´aveis.

(11)

Teste do coeficiente de correla¸c˜ ao

Testamos, ent˜ao, as hip´oteses

H0 :ρ= 0 H1 :ρ6= 0

Esse teste bilateral pode ser feito atrav´es da estat´ıstica tcalc =r

rn−2 1−r2

que ser´a testada pelo teste de t Student com n−2 graus de liberdade.

Ou seja, se−tα/2,n−2 6tcalc 6tα/2,n−2 ent˜ao n˜ao rejeiteH0.

(12)

Coeficiente de Correla¸c˜ ao - Exemplo 1

Suponha que um engenheiro deseja estabelecer a rela¸c˜ao entre a resistˆencia ao puxamento de um fio e o comprimento do fio. Uma amostra aleat´oria de 25 unidades ´e selecionada e testada, sendo a resistˆencia ao puxamento e o comprimento do fio observados para cada unidade. Os dados s˜ao mostrados na tabela abaixo e

considere que a resistˆencia ao puxamento e o comprimento do fio sejam normalmente distribu´ıdos. ´E poss´ıvel afirmar com α= 5%

de significˆancia que existe uma correla¸c˜ao entre os dois fatores observados?

(13)

Coeficiente de Correla¸c˜ ao - Exemplo 1

Obs. Res. (y) Comp. (x)

1 9,95 2

2 24,45 8

3 31,75 11

4 35,00 10

5 25,02 8

6 16,86 4

7 14,38 2

8 9,60 2

9 24,35 9

10 27,50 8

11 17,08 4

12 37,00 11

13 41,95 12

Obs. Res. (y) Comp. (x)

14 11,66 2

15 21,65 4

16 17,89 4

17 69,00 20

18 10,30 1

19 34,93 10

20 46,59 15

21 44,88 15

22 54,12 16

23 56,63 17

24 22,13 6

25 21,15 5

(14)

Coeficiente de Correla¸c˜ ao - Exemplo 1

Utilizando os dados da tabela, obtemos:

Sxx = 698,5600 Syy = 6105,9447 Sxy = 2027,7132 Logo,

r = Sxy

pSxx·Syy

= 2027,7132

√698,5600·6105,9447 = 0,9818 Note quer2 = (0,9818)2= 0,9640, ou seja, aproximadamente 96,40% da variabilidade na resistˆencia ao puxamento ´e explicado

(15)

Coeficiente de Correla¸c˜ ao - Exemplo 1

Para comprovar isto estatisticamente, devemos realizar o teste H0 :ρ= 0

H1 :ρ6= 0 comα = 0,05. A estat´ıstica do teste ser´a:

tcalc =r

rn−2

1−r2 = 0,9818 s

25−2

1−0,9640 = 24,82 uma vez quet0,025;23 = 2,069, ent˜ao tem-se quetcalc >tα, logo rejeiteH0.

Conclus˜ao: existem evidˆencias que atestam que o coeficiente de correla¸c˜ao ´eρ6= 0, isto ´e, existe efetivamente uma rela¸c˜ao linear entre o puxamento e o tamanho do fio.

(16)

Regress˜ ao Linear

Muitas vezes a posi¸c˜ao dos pontos experimentais no diagrama de dispers˜ao sugere que existe uma rela¸c˜ao funcional entre as duas vari´aveis. Surge ent˜ao o problema de se determinar uma fun¸c˜ao que exprima esse relacionamento. Este ´e o chamado problema da An´alise da Regress˜ao.

(17)

Linha de Regress˜ ao Linear

Figura: Esquematiza¸ao de diagrama de dispers˜ao (em preto) e linha de regress˜ao (em azul).

(18)

Modelo de Regress˜ ao Linear

Vamos admitir que a forma da linha de regress˜ao seja uma reta e que h´a uma forte indica¸c˜ao de que os pontos repousam

aleatoriamente dispersos em torno de uma linha reta. Ou seja, o valor esperado paraY ´e dado por:

E[Y|x] =µY|x01x

em que a inclina¸c˜ao e a interse¸c˜ao da linha s˜ao chamadas coeficientes de regress˜ao.

(19)

Modelo de Regress˜ ao Linear

No entanto, o valor real observado,y, n˜ao cai exatamente na linha reta. A maneira apropriada de generalizar isso para um modelo linear probabil´ıstico ´e considerar que o valor esperado deY seja uma fun¸c˜ao linear de x, mas que, para um valor fixo de x, o valor real deY seja determinado pela fun¸c˜ao do valor m´edio mais um termo de erro aleat´orio,

Y =β01x+ε sendoεo termo de erro aleat´orio.

(20)

Regress˜ ao Linear Simples

Considera um ´unico regressor x e uma vari´avel dependente ou vari´avel de respostaY. Suponha que a rela¸c˜ao verdadeira entre Y ex seja uma linha reta. Deste modo, o valor esperado deY para cada valor dex ´e

E[Y|x] =β01x

sendo a interse¸c˜aoβ0 e a inclina¸c˜ao β1 coeficientes desconhecidos da regress˜ao.

(21)

Regress˜ ao Linear Simples

Consideremos que cada observa¸c˜ao Y possa ser descrita pelo modelo

Y =β01x+ε

ondeε´e um erro aleat´orio com m´edia zero e variˆancia σ2.

(22)

Regress˜ ao Linear Simples

Suponha que tenhamosn pares de observa¸c˜oes (x1,y1), (x2,y2),

· · ·, (xn,yn). As estimativas deβ0 e β1 devem resultar em uma linha que ´e o “melhor ajuste” para os dados.

(23)

Regress˜ ao Linear Simples

Uma forma de estimar estes parˆametrosβ0 e β1 ´e minimizar a soma dos quadrados dos desvios verticais. Chamamos este crit´erio para estimar os coeficientes de regress˜ao de m´etodo dos m´ınimos quadrados.

(24)

Regress˜ ao Linear Simples

Uma vez que cada observa¸c˜ao Y possa ser descrita pelo modelo Y =β01x+ε, podemos expressar asn observa¸c˜oes na amostra como:

y101x11 y201x22

...

yn01xnn.

(25)

Regress˜ ao Linear Simples

Uma vez que para cada observa¸c˜ao i, o seu correspondente desvio

´e dado por

εi =yi −β0−β1xi

a soma dos quadrados dos desvios das observa¸c˜oes em rela¸c˜ao `a linha de regress˜ao ´e dada por:

L=ε2121+. . .+ε2n=

n

X

i=1

ε2i =

n

X

i=1

(yi−β0−β1xi)2

(26)

Regress˜ ao Linear Simples

Minimizar este funcional ´e o mesmo que obter o ponto, onde as derivadas parciais se anulam, ou seja, obter estimadores ˆβ0 e ˆβ1 de β0 e β1 que satisfazem:

∂L

∂β0

=−2

n

X

i=1

(yi−βˆ0−βˆ1xi) = 0 (1)

∂L

∂β1

=−2

n

X

i=1

(yi −βˆ0−βˆ1xi)·xi = 0 (2)

(27)

Regress˜ ao Linear Simples

Podemos simplificar as express˜oes (1) e (2) para:

βˆ0 = ¯y−βˆ1¯x (1)

βˆ1 = Pn

i=1yixi −(Pn

i=1yi) (Pn i=1xi) n

Pn

i=1xi2− (Pn i=1xi)2

n

(2)

(28)

Regress˜ ao Linear Simples

As expresso˜oes(1)e (2)s˜ao chamadas de equa¸c˜oes normais dos m´ınimos quadradose podem ser reescritas (e calculadas) como:

βˆ0 = ¯y−βˆ1¯x βˆ1 = Sxy

Sxx

ondeSxx e Sxy s˜ao as representa¸c˜oes abreviadas dos somat´orios apresentados no estudo da correla¸c˜ao.

(29)

Regress˜ ao Linear Simples - Exemplo 2

Uma empresa deseja encontrar um modelo de regress˜ao para a pureza do oxigˆenio produzido em um processo qu´ımico de destila¸c˜ao. Para realizar este estudo, foram obtidas 20 amostras listadas na tabela abaixo ondey ´e a pureza ex ´e a percentagem de hidrocarbonetos presentes no condensador principal da unidade de destila¸c˜ao. Qual o modelo de regress˜ao linear que podemos obter com estas observa¸c˜oes? Se for observado 1,70% de

hidrocarbonetos no condensador, qual ser´a o valor estimado para a pureza do oxigˆenio?

(30)

Regress˜ ao Linear Simples - Exemplo 2

Obs. N´ıvel de Pureza Hidrocarb. (%) (%)

1 0,99 90,01

2 1,02 89,05

3 1,15 91,43

4 1,29 93,74

5 1,46 96,73

6 1,36 94,45

7 0,87 87,59

8 1,23 91,77

9 1,55 99,42

10 1,40 93,65

Obs. N´ıvel de Pureza Hidrocarb. (%) (%)

11 1,19 93,54

12 1,15 92,52

13 0,98 90,56

14 1,01 89,54

15 1,11 89,85

16 1,20 90,39

17 1,26 93,25

18 1,32 93,41

19 1,43 94,98

20 0,95 87,33

(31)

Regress˜ ao Linear Simples - Exemplo 2

Figura: Diagrama de dispers˜ao para os dados do Exemplo 2.

(32)

Regress˜ ao Linear Simples - Exemplo 2

As seguintes quantidades podem ser computadas:

n= 20 P20

i=1xi = 23,92 P20

i=1yi = 1843,21

¯

x= 1,20

¯

y= 92,16 P20

i=1xi2= 29,29 P20

i=1yi2 = 170044,53 P20

i=1xiyi = 2214,66

Sxx =

20

X

i=1

xi2−(P20 i=1xi)2

20 = 29,29−23,922

20 = 0,68

(33)

Regress˜ ao Linear Simples - Exemplo 2

Logo, as estimativas de m´ınimos quadrados da inclina¸c˜ao e da interse¸c˜ao s˜ao:

βˆ1 = Sxy Sxx

= 10,18

0,68 = 14,97

βˆ0 = ¯y−βˆ1·¯x= 92,16−14,97·1,20 = 74,20 Deste modo, o modelo ajustado da regress˜ao linear simples ´e

ˆ

y = 74,20 + 14,97x

Tomando um valor particular dex, por exemplo, se x= 1,7, ent˜ao y previsto ser´a igual a ˆy = 74,20 + 14,97·1,7 = 99,65%.

Referências

Documentos relacionados

Os dados mostrados a seguir fornecem o custo m´ edio por unidade (em centenas de reais) para este produto (y) e o tamanho do lote de produ¸ c˜ ao (x). Qual o modelo de regress˜

Neste diret´ orio est˜ ao, tamb´ em, localizados programas para manipula¸ c˜ ao de arquivos Postscript e L A TEX gerados pelo Scilab. • demos/ - onde est˜ ao localizados os

Para verificar se um conjunto de dados prov´ em de uma distribui¸ c˜ ao especificada, consideramos o gr´ afico em que, no eixo horizontal, colocamos os quantis te´ oricos da

Para evitar isso, vocˆ e pode mover os dois comandos do preˆ ambulo para algum lugar ap´ os o comando \tableofcontents ou definitivamente n˜ ao us´ a-los, porque vocˆ e ver´ a que

Tendo em mente o problema de se obter um integral que satisfizesse um Teorema da Divergˆ encia bem geral, e que adicionalmente dispusesse de uma f´ ormula de mudan¸ca de vari´ aveis

Uma colora¸c˜ ao das arestas de um grafo ´e uma atribui¸c˜ ao de cores ` as suas arestas tal que arestas adjacentes recebem cores diferentes... 2 Colora¸c˜ oes m´ınimas e

rgeom(n, p) distribui¸ c˜ ao Geom´ etrica(p) runif(n, a, b) distribui¸ c˜ ao Uniforme(a,b) rexp(n, lambda) distribui¸ c˜ ao Exponencial(lambda) rnorm(n, mean, sd) distribui¸ c˜

(c) Construa um experimento aleat´ orio e define nele trˆ es vari´ aveis aleat´ orias X, E, Y da ma- neira tal que rela¸c˜ ao entre Y e X seja via fun¸c˜ ao linear anebulada por