Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

(1)

Regressão

PRE-01 – Probabilidade e Estatística

Prof. Marcelo P. Corrêa

(2)

Regressão – Introdução

• Analisar a relação entre duas variáveis (x,y) através da

equação (equação de regressão) e do gráfico (gráfico de

regressão) que representa tal relação.

• Equação de regressão – Relação entre:

– x: variável independente (preditora, explanatória) – í: variável dependente (resposta)

• Hipóteses:

– Estudos de relações lineares – Cada valor de x:

• y é uma variável aleatória com distribuição normal • todas as distribuições de y têm a mesma variância

• a média da distribuição dos valores de y se localiza sobre a reta de regressão

(3)

Equação de Regressão

x

b

y

b

_o

=

−

₁ 1

(

) ( )( )

₂

)

_{( )}

2

x

n

y

xy

n

b

∑

−

=

o 1

ˆ

y

=

mx

+ ⇒ =

b

y

b

+

b x

intercepto de y inclinação b_o b₁ → estatísticas amostrais β_o β₁ → estatísticas populacionais o 1

y

= β + β

x

(4)

Exemplo

(

) (

)( )

(

)

(

)

1 ₂ 2 2

n

xy

x

y

_{4(77) (14)(19)}

b

1,1666666

4(58) (14)

n

x

−

₋

=

−

∑

∑ ∑

∑

x y x y xy x² y² 2 4 2 4 8 4 16 3 3 3 3 9 9 9 3 4 3 4 12 9 16 6 8 6 8 48 36 64 14 19 77 58 105 Σ o 1 o

b

= −

y b x

⇒

b

=

4, 75 1,166667.3, 5

−

=

0, 667

ˆy

=

0, 667 1,167x

+

Estimativa de_y=β

(5)

Exemplo

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 x y x y 2 4 3 3 3 4 6 8

ˆy

=

0, 667 1,167x

+

(6)

(7)

Utilizando a equação de regressão

• Prevendo y com base em x

– Se existe correlação linear: usar a equação de regressão • Cuidados com a predição! Manter o valor da previsão de acordo

com valores reais (no alcance da amostra). • Usar a equação para a população da amostra.

• Verificar se a previsão é viável (datas, intervalos de valores, etc.)

– Se não existe correlação linear entre x e y: y (previsto) = y

• No 1° exemplo, podemos, portanto, prever qual seria y

para x = 5.

(8)

y = 3,865 + 2,168x

Avaliar a quantidade de hemoglobina para um paciente que apresente 5,5

unidades de medidas de glóbulos vermelhos

y = 3,865 + 2,168(5,5) y = 15,789

A média dos dados amostrais de hemoglobina é de 13,906

(9)

Resumindo, para prever uma variável, temos:

Calcular o valor de r

Testar a hipótese: ρ = 0

Há correlação linear significante ? (ρ = 0 é rejeitada ?) Predição pela Equação de Regressão Predição pela média amostral da variável a ser prevista sim não

(10)

Outras ferramentas para análise

• Mudança marginal (b

₁

) : variação de uma variável em

relação a variação, em uma unidade, da outra variável

emparelhada.

– No exemplo em que b₁ = 2,168, temos que a taxa de

hemoglobina vai aumentar de 2,168 para cada aumento de uma unidade de glóbulos vermelhos.

0.00 0.20 0.40 0.60 0.80 1.00 1.20 1.40 1.60 1.80 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00

• Outliers e pontos influentes:

– Pontos que afetam

fortemente o gráfico da reta de regressão

(11)

• Resíduo: Diferença entre o valor amostral observado (y) e o valor previsto pela equação de regressão (í).

Resíduo = y – í

• Propriedade dos mínimos quadrados: Soma dos quadrados dos rezíduos deve ser mínima

Outras ferramentas para análise

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 x y x y y^ resíduo 2 4 3.0 1.0 3 3 4.2 -1.2 3 4 4.2 -0.2 6 8 7.7 0.3 Σ(res2_{) = 2,5}

(12)

Outras ferramentas para análise

• Desvio total: Distância entre o ponto (x,y) e a reta horizontal que

passa pela média amostral.

• Desvio explicado: Distância entre o valor predito e a reta horizontal que passa pela média amostral.

• Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a reta de regressão.

Desvio total = Desvio explicado + Desvio não-explicado

Variação total = Variação explicada + Variação não-explicada

ˆ

( y

−

y )

=

( y

−

y )

+

( y

−

y )

2 2 2

ˆ

( y

−

y )

=

( y

−

y )

+

( y

−

y )

∑

(13)

Exemplo

• No nosso primeiro exemplo, tínhamos:

– Admitiremos uma correlação linear significativa

– Equação da reta de regressão: í = 1.1667x + 0.6667 – A média dos valores de y é 4,75

– Um dos pares de dados amostrais é (3, 4)

– Substituindo x = 3 na equação, temos o ponto 4,1666... que é um dos pontos sobre a reta de regressão.

Desvio total: (y

y)

4 4, 75

0, 750

ˆ

Desvio explicado: (y

y)

4,1667 4, 75

0, 583

ˆ

Desvio não-explicado: (y

y)

4 4,1667

0,1667

−

= −

=

−

=

−

=

−

= −

=

(14)

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 x y Desvio explicado Desvio não-explicado

(15)

Exemplo

• No nosso primeiro exemplo, tínhamos:

– Admitiremos uma correlação linear significativa

– Equação da reta de regressão: í = 1.1667x + 0.6667 – A média dos valores de y é 4,75

– Um dos pares de dados amostrais é (3, 4)

– Substituindo x = 3 na equação, temos o ponto 4,1666... que é um dos pontos sobre a reta de regressão.

2 2 2

Variação total:

(y

y)

14,8

ˆ

Variação explicada:

(y

y)

12, 3

ˆ

Variação não-explicada:

(y

y)

2, 5

−

=

−

=

−

=

∑

(16)

Continuando nossa análise...

• Coeficiente de determinação (r

2

_{): Quantidade de}

variação em y, explicada pela reta de regressão.

r

2

_{indica a % da variação total em y que pode ser}

explicada pela relação linear (x,y).

No caso do exemplo: r

2

_{= 12,3/14,8 = 0,831.}

83,1% da variação total em y que pode ser explicada pela

relação linear (x,y).

total

Variação

explicada

Variação

)

y

(

)

y

yˆ

(

r

₂ 2 2

₌

−

=

∑

(17)

Continuando nossa análise...

• Erro padrão da estimativa (s

_e

): Medida de como os

pontos amostrais se afastam da reta de regressão.

– s_e maiores: pontos mais afastados da reta de regressão – e vice-versa

No nosso exemplo:

2 n

xy

b

y

b

y

2 n

)

yˆ

y

(

s

o 1 2 2 e

−

=

−

=

∑

e

105 0, 667(19) 1,1667(77)

s

1,1180 1,12

4 2

−

=

−

(18)

E mais...

• Intervalo de predição

No exemplo: Vimos que quando x = 5 a melhor predição para y é 6,50. No entanto, diz-se que ao se usar valores mais precisos de y, bo e b1, obtemos 6,47. Usando um NS de 95% determine o quão preciso é o valor 6,47. Se α = 0,05 Æ t_α/2= 4,303

(

)

(

)

2 o e ₂ 2 2

n(x

x)

1 ˆ

ˆ

y E

y

E com E

t s

1 n

_n

_x

α

−

− < < +

=

+ +

−

∑

n–2 graus de liberdade

( ) ( )

2 2 1 4(6, 5 3, 5) E 4, 303(1,12) 1 4, 303.1,12.1, 5 7, 22904 4 _{4 58} ₁₄ − = + + = = −

(19)

Continuando...

ˆ

y E

y

E

6, 47 7, 22904

y

6, 47 7, 22904

0, 76

y 13, 70

− < < +

−

< <

+

−

< <

Para x = 5, estamos 95% certos de que o valor de y está entre – 0,76 e 13,70. Vejam bem que, como o tamanho amostral é muito pequeno, o intervalo de predição é grande!

(20)

Regressão múltipla

• Relação linear entre uma variável dependente y e duas ou mais variáveis independentes (x₁, x₂,..., x_k)

b₁, b₂,..., b_k Æ estimativas amostrais de β₁, β₂,..., β_k

β₁, β₂,..., β_k Æ coeficientes das variáveis independentes x₁, x₂,..., x_k β_o Æ valor de y quando todas as variáveis são nulas (parâmetro populacional)

b_o Æ estatística amostral e estimativa de β_o

• Extremamente complicado. Exige o uso de pacotes estatísticos!

o 1 1 2 2 k k

(21)

Regressão múltipla

• Coeficiente de determinação múltipla (R2_{): Avalia o ajuste da}

equação de regressão múltipla aos dados amostrais.

• Coeficiente de determinação múltipla ajustado: R2 _{modificado para}

levar em conta o número de variáveis e o tamanho amostral.

k = número de variáveis independentes (x₁, x₂,..., x_k) n = tamanho da amostra

• Valor P: Medida da significância da Eq. Reg. Múltipla

)

R

1 (

)]

1 k

(

n

[

)

1 n

(

1 R

2 2 ajustado

−

+

−

=

(22)

Exemplo: Regressão Múltipla

• Dados

Colesterol522 Idade58 Altura180 Peso76

127 22 168 65 740 32 182 81 49 31 174 79 230 28 172 69 316 46 176 75 590 41 169 61 466 56 171 91 121 20 173 79 578 54 167 63 78 17 160 70 265 73 173 84 250 52 186 86 265 25 172 68 273 29 173 94 272 17 180 107 972 41 156 80 75 52 194 99 138 32 168 75 139 20 177 62 Um estudo mostra os seguintes dados coletados no posto de saúde de um bairro da cidade. É possível predizer o nível de colesterol a partir da idade, altura e peso ?

(23)

Exemplo: Regressão Múltipla

y = 2010,28 + 6,45*idade – 11,67*altura + 1,25*peso

Será que o uso de outras variáveis poderíamos “melhorar” a predição ? Por exemplo, o uso de batimentos cardíacos (pulsação) ou o IMC.