Regressão linear

(1)

Regressão linear

Tiago M. Magalhães

XLVII Programa de Verão - IME-USP

São Paulo, 30 de janeiro de 2018

(2)

Roteiro

1 Correlação linear

2 Regressão linear

(3)

Roteiro

2 Regressão linear

(4)

Correlação linear

Correlação

É o relacionamento entre duas variáveis quantitativas. Exemplos:

Idade e altura das crianças;

Tempo de prática de esportes e ritmo cardíaco; Tempo de estudo e nota na prova;

Taxa de desemprego e taxa de criminalidade; Expectativa de vida e taxa de analfabetismo.

(5)

Correlação linear

Correlação

É o relacionamento entre duas variáveis quantitativas.

Exemplos:

(6)

Correlação linear

Correlação

Exemplos:

(7)

Correlação linear

Correlação

Exemplos:

(8)

Correlação linear

Correlação

Exemplos:

Tempo de prática de esportes e ritmo cardíaco;

Tempo de estudo e nota na prova;

(9)

Correlação linear

Correlação

Exemplos:

(10)

Correlação linear

Correlação

Exemplos:

Taxa de desemprego e taxa de criminalidade;

Expectativa de vida e taxa de analfabetismo.

(11)

Correlação linear

Correlação

Exemplos:

(12)

Correlação linear

Correlação

Exemplos:

(13)

Correlação linear

Coeficiente de correlação de Pearson

Quantifica o relacionamento linear entre duas variáveis quantitativas Essa quantificação, denotada por ρ, assume valores entre -1 e 1, se:

ρ= 1, correlação linear perfeita positiva; ρ=−1, correlação linear perfeita negativa; ρ= 0, não existe correlação.

(14)

Correlação linear

Quantifica o relacionamento linear entre duas variáveis quantitativas

Essa quantificação, denotada por ρ, assume valores entre -1 e 1, se: ρ= 1, correlação linear perfeita positiva;

ρ=−1, correlação linear perfeita negativa; ρ= 0, não existe correlação.

(15)

Correlação linear

ρ= 1, correlação linear perfeita positiva; ρ=−1, correlação linear perfeita negativa; ρ= 0, não existe correlação.

(16)

Correlação linear

ρ= 1, correlação linear perfeita positiva;

ρ=−1, correlação linear perfeita negativa; ρ= 0, não existe correlação.

(17)

Correlação linear

ρ=−1, correlação linear perfeita negativa;

ρ= 0, não existe correlação.

(18)

Correlação linear

(19)

Correlação linear

(20)

(21)

(22)

(23)

(24)

Correlação linear

Dado n pares de observações (X1,Y1),(X2,Y2), . . . ,(Xn,Yn), define-se coeficiente de correlação como o coeficiente:

ρ_XY =

Pn

i=1X_iY_i− Pn

i=1XiPn

i=1Yi

n

s Pn

i=1X_i²−(^Pⁿ_i=1^Xi)²

n

Pn

i=1Y_i²−(^Pⁿ_i=1^Yi)²

n

.

Observação: Quando ρXY é calculado na amostra, por convenção, utiliza- se ˆρ_XY our_XY como notação para o coeficiente de correlação.

(25)

Correlação linear

ρ_XY =

Pn

i=1X_iY_i− Pn

i=1XiPn

i=1Yi

n

s Pn

i=1X_i²−(^Pⁿ_i=1^Xi)²

n

Pn

i=1Y_i²−(^Pⁿ_i=1^Yi)²

n

.

(26)

Correlação linear

ρ_XY =

Pn

i=1X_iY_i− Pn

i=1XiPn

i=1Yi

n

s Pn

i=1X_i²−(^Pⁿ_i=1^Xi)²

n

Pn

i=1Y_i²−(^Pⁿ_i=1^Yi)²

n

.

(27)

Correlação linear

ρ_XY =

Pn

i=1X_iY_i− Pn

i=1XiPn

i=1Yi

n

s Pn

i=1X_i²−(^Pⁿ_i=1^Xi)²

n

Pn

i=1Y_i²−(^Pⁿ_i=1^Yi)²

n

.

(28)

Correlação linear

Interpretação

Na literatura, temos a seguinte classificação para ρ: 0,7≤ |ρ|<1,0; indicando uma forte correlação. 0,3≤ |ρ|<0,7; indicando correlação moderada. 0<|ρ|<0,3; indicando fraca correlação.

(29)

Correlação linear

Interpretação

Na literatura, temos a seguinte classificação para ρ:

0,7≤ |ρ|<1,0; indicando uma forte correlação. 0,3≤ |ρ|<0,7; indicando correlação moderada. 0<|ρ|<0,3; indicando fraca correlação.

(30)

Correlação linear

Interpretação

0,7≤ |ρ|<1,0; indicando uma forte correlação.

0,3≤ |ρ|<0,7; indicando correlação moderada. 0<|ρ|<0,3; indicando fraca correlação.

(31)

Correlação linear

Interpretação

0,3≤ |ρ|<0,7; indicando correlação moderada.

0<|ρ|<0,3; indicando fraca correlação.

(32)

Correlação linear

Interpretação

(33)

Correlação linear

Interpretação

(34)

Roteiro

2 Regressão linear

(35)

Regressão linear

Ideia

Investigar a presença ou ausência de relação linear entre duas variáveis quantitativas. A correlação quantifica a força dessa relação. E a explicitação da forma dessa relação é a regressão.

(36)

Regressão linear

Ideia

(37)

Regressão linear

Ideia

(38)

Regressão linear

Modelo

Assumindo a existência de uma relação linear entre as variáveis X e Y, ela descrita da seguinte forma:

Y =α+βX+ε,

em que α é o intercepto, β é a inclinação ou coeficiente angular e ε é o termo aleatório ou erro. Além disso, supomosε∼N(0, σ²).

(39)

Regressão linear

Modelo

Y =α+βX+ε,

(40)

Regressão linear

Modelo

Y =α+βX+ε,

(41)

Regressão linear

Modelo

Y =α+βX+ε,

(42)

(43)

(44)

Regressão linear

Reta ajustada

Os coeficientes estimados ˆα e ˆβ são calculados da seguinte maneira: βˆ =

Pn

i=1X_iY_i −nX¯Y¯ (n−1)S_X² , ˆ

α = Y¯ −βˆX¯.

E a reta ajustada é dada por ˆY = ˆα+ ˆβX. Um interpretação seria: para um aumento de uma unidade em X,Y aumenta, em média, ˆβ unidades.

(45)

Regressão linear

Reta ajustada

Os coeficientes estimados ˆα e ˆβ são calculados da seguinte maneira:

βˆ = Pn

i=1X_iY_i −nX¯Y¯ (n−1)S_X² , ˆ

α = Y¯ −βˆX¯.

(46)

Regressão linear

Reta ajustada

βˆ = Pn

i=1X_iY_i −nX¯Y¯ (n−1)S_X² , ˆ

α = Y¯ −βˆX¯.

(47)

Regressão linear

Reta ajustada

βˆ = Pn

i=1X_iY_i −nX¯Y¯ (n−1)S_X² , ˆ

α = Y¯ −βˆX¯.

(48)

Regressão linear

Como vimos, Y =α+βX+ε, em que ε∼N(0, σ²). Pelas propriedades da distribuição normal, temos que

Y ∼N(µY, σ²),

com µ_Y =α+βX. Isto é, quando ajustamos um reta de regressão linear, estamos estimando a média de uma variável aleatória normal.

(49)

Regressão linear

Y ∼N(µY, σ²), com µ_Y =α+βX.

Isto é, quando ajustamos um reta de regressão linear, estamos estimando a média de uma variável aleatória normal.

(50)

Regressão linear

Y ∼N(µY, σ²),

(51)

Regressão linear

Y ∼N(µY, σ²),

(52)

Regressão linear

Generalizações

SeY ∼N(µ_Y, σ²) eµ_Y =α+β1X1+β2X2+· · ·+βpXp, temos uma regressão linear múltipla;

Se Y ∼ N(µ_Y, σ²), µ_Y = f(α+β₁X₁+β₂X₂ +· · ·+β_pX_p) e f(·) uma função conhecida, temos uma regressão não linear;

SeY ∼família exponencial de distribuições(µY, φ),µY =f(α+β1X1+ β2X2 +· · ·+βpXp) e f(·) uma função conhecida, temos um modelo linear generalizado.

(53)

Regressão linear

Generalizações

Se Y ∼ N(µ_Y, σ²), µ_Y = f(α+β₁X₁+β₂X₂ +· · ·+β_pX_p) e f(·) uma função conhecida, temos uma regressão não linear;

(54)

Regressão linear

Generalizações

Se Y ∼ N(µ_Y, σ²), µ_Y = f(α+β₁X₁ +β₂X₂ +· · ·+β_pX_p) e f(·) uma função conhecida, temos uma regressão não linear;

(55)

Regressão linear

Generalizações

SeY ∼família exponencial de distribuições(µY, φ),µY =f(α+β1X1+ β₂X₂ +· · ·+β_pX_p) e f(·) uma função conhecida, temos um modelo linear generalizado.

(56)

Regressão linear

Generalizações

SeY ∼família exponencial de distribuições(µY, φ),µY =f(α+β1X1+ β₂X₂ +· · ·+β_pX_p) e f(·) uma função conhecida, temos um modelo linear generalizado.

(57)

Obrigado!

Contato: tiagomm@ime.usp.br Sala 136-B