• Nenhum resultado encontrado

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

N/A
N/A
Protected

Academic year: 2021

Share "Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei"

Copied!
23
0
0

Texto

(1)

Regressão

PRE-01 – Probabilidade e Estatística

Prof. Marcelo P. Corrêa

(2)

Regressão – Introdução

• Analisar a relação entre duas variáveis (x,y) através da

equação (equação de regressão) e do gráfico (gráfico de

regressão) que representa tal relação.

• Equação de regressão – Relação entre:

– x: variável independente (preditora, explanatória) – í: variável dependente (resposta)

• Hipóteses:

– Estudos de relações lineares – Cada valor de x:

• y é uma variável aleatória com distribuição normal • todas as distribuições de y têm a mesma variância

• a média da distribuição dos valores de y se localiza sobre a reta de regressão

(3)

Equação de Regressão

x

b

y

b

o

=

1 1

(

(

) ( )( )

2

)

( )

2

x

x

n

y

y

xy

n

b

=

o 1

ˆ

y

=

mx

+ ⇒ =

b

y

b

+

b x

intercepto de y inclinação bo b1 → estatísticas amostrais βo β1 → estatísticas populacionais o 1

y

= β + β

x

(4)

Exemplo

(

) (

)( )

(

)

(

)

1 2 2 2

n

xy

x

y

4(77) (14)(19)

b

1,1666666

4(58) (14)

n

x

x

=

=

=

∑ ∑

x y x y xy x² y² 2 4 2 4 8 4 16 3 3 3 3 9 9 9 3 4 3 4 12 9 16 6 8 6 8 48 36 64 14 19 77 58 105 Σ o 1 o

b

= −

y b x

b

=

4, 75 1,166667.3, 5

=

0, 667

ˆy

=

0, 667 1,167x

+

Estimativa dey=β

(5)

Exemplo

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 x y x y 2 4 3 3 3 4 6 8

ˆy

=

0, 667 1,167x

+

(6)
(7)

Utilizando a equação de regressão

• Prevendo y com base em x

– Se existe correlação linear: usar a equação de regressão • Cuidados com a predição! Manter o valor da previsão de acordo

com valores reais (no alcance da amostra). • Usar a equação para a população da amostra.

• Verificar se a previsão é viável (datas, intervalos de valores, etc.)

– Se não existe correlação linear entre x e y: y (previsto) = y

• No 1° exemplo, podemos, portanto, prever qual seria y

para x = 5.

(8)

y = 3,865 + 2,168x

Avaliar a quantidade de hemoglobina para um paciente que apresente 5,5

unidades de medidas de glóbulos vermelhos

y = 3,865 + 2,168(5,5) y = 15,789

A média dos dados amostrais de hemoglobina é de 13,906

(9)

Resumindo, para prever uma variável, temos:

Calcular o valor de r

Testar a hipótese: ρ = 0

Há correlação linear significante ? (ρ = 0 é rejeitada ?) Predição pela Equação de Regressão Predição pela média amostral da variável a ser prevista sim não

(10)

Outras ferramentas para análise

• Mudança marginal (b

1

) : variação de uma variável em

relação a variação, em uma unidade, da outra variável

emparelhada.

– No exemplo em que b1 = 2,168, temos que a taxa de

hemoglobina vai aumentar de 2,168 para cada aumento de uma unidade de glóbulos vermelhos.

0.00 0.20 0.40 0.60 0.80 1.00 1.20 1.40 1.60 1.80 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00

• Outliers e pontos influentes:

– Pontos que afetam

fortemente o gráfico da reta de regressão

(11)

• Resíduo: Diferença entre o valor amostral observado (y) e o valor previsto pela equação de regressão (í).

Resíduo = y – í

• Propriedade dos mínimos quadrados: Soma dos quadrados dos rezíduos deve ser mínima

Outras ferramentas para análise

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 x y x y y^ resíduo 2 4 3.0 1.0 3 3 4.2 -1.2 3 4 4.2 -0.2 6 8 7.7 0.3 Σ(res2) = 2,5

(12)

Outras ferramentas para análise

• Desvio total: Distância entre o ponto (x,y) e a reta horizontal que

passa pela média amostral.

• Desvio explicado: Distância entre o valor predito e a reta horizontal que passa pela média amostral.

• Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a reta de regressão.

Desvio total = Desvio explicado + Desvio não-explicado

Variação total = Variação explicada + Variação não-explicada

ˆ

ˆ

( y

y )

=

( y

y )

+

( y

y )

2 2 2

ˆ

ˆ

( y

y )

=

( y

y )

+

( y

y )

(13)

Exemplo

• No nosso primeiro exemplo, tínhamos:

– Admitiremos uma correlação linear significativa

– Equação da reta de regressão: í = 1.1667x + 0.6667 – A média dos valores de y é 4,75

– Um dos pares de dados amostrais é (3, 4)

– Substituindo x = 3 na equação, temos o ponto 4,1666... que é um dos pontos sobre a reta de regressão.

Desvio total: (y

y)

4 4, 75

0, 750

ˆ

Desvio explicado: (y

y)

4,1667 4, 75

0, 583

ˆ

Desvio não-explicado: (y

y)

4 4,1667

0,1667

= −

=

=

=

= −

=

(14)

0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 x y Desvio explicado Desvio não-explicado

(15)

Exemplo

• No nosso primeiro exemplo, tínhamos:

– Admitiremos uma correlação linear significativa

– Equação da reta de regressão: í = 1.1667x + 0.6667 – A média dos valores de y é 4,75

– Um dos pares de dados amostrais é (3, 4)

– Substituindo x = 3 na equação, temos o ponto 4,1666... que é um dos pontos sobre a reta de regressão.

2 2 2

Variação total:

(y

y)

14,8

ˆ

Variação explicada:

(y

y)

12, 3

ˆ

Variação não-explicada:

(y

y)

2, 5

=

=

=

(16)

Continuando nossa análise...

• Coeficiente de determinação (r

2

): Quantidade de

variação em y, explicada pela reta de regressão.

r

2

indica a % da variação total em y que pode ser

explicada pela relação linear (x,y).

No caso do exemplo: r

2

= 12,3/14,8 = 0,831.

83,1% da variação total em y que pode ser explicada pela

relação linear (x,y).

total

Variação

explicada

Variação

)

y

y

(

)

y

(

r

2 2 2

=

=

(17)

Continuando nossa análise...

• Erro padrão da estimativa (s

e

): Medida de como os

pontos amostrais se afastam da reta de regressão.

– se maiores: pontos mais afastados da reta de regressão – e vice-versa

No nosso exemplo:

2

n

xy

b

y

b

y

2

n

)

y

(

s

o 1 2 2 e

=

=

e

105 0, 667(19) 1,1667(77)

s

1,1180 1,12

4 2

=

=

=

(18)

E mais...

• Intervalo de predição

No exemplo: Vimos que quando x = 5 a melhor predição para y é 6,50. No entanto, diz-se que ao se usar valores mais precisos de y, bo e b1, obtemos 6,47. Usando um NS de 95% determine o quão preciso é o valor 6,47. Se α = 0,05 Æ tα/2 = 4,303

(

)

(

)

2 o e 2 2 2

n(x

x)

1

ˆ

ˆ

y E

y

y

E com E

t s

1

n

n

x

x

α

− < < +

=

+ +

n–2 graus de liberdade

( ) ( )

2 2 1 4(6, 5 3, 5) E 4, 303(1,12) 1 4, 303.1,12.1, 5 7, 22904 4 4 58 14 − = + + = = −

(19)

Continuando...

ˆ

ˆ

y E

y

y

E

6, 47 7, 22904

y

6, 47 7, 22904

0, 76

y 13, 70

− < < +

< <

+

< <

Para x = 5, estamos 95% certos de que o valor de y está entre – 0,76 e 13,70. Vejam bem que, como o tamanho amostral é muito pequeno, o intervalo de predição é grande!

(20)

Regressão múltipla

• Relação linear entre uma variável dependente y e duas ou mais variáveis independentes (x1, x2,..., xk)

b1, b2,..., bk Æ estimativas amostrais de β1, β2,..., βk

β1, β2,..., βk Æ coeficientes das variáveis independentes x1, x2,..., xk βo Æ valor de y quando todas as variáveis são nulas (parâmetro populacional)

bo Æ estatística amostral e estimativa de βo

• Extremamente complicado. Exige o uso de pacotes estatísticos!

o 1 1 2 2 k k

(21)

Regressão múltipla

• Coeficiente de determinação múltipla (R2): Avalia o ajuste da

equação de regressão múltipla aos dados amostrais.

• Coeficiente de determinação múltipla ajustado: R2 modificado para

levar em conta o número de variáveis e o tamanho amostral.

k = número de variáveis independentes (x1, x2,..., xk) n = tamanho da amostra

• Valor P: Medida da significância da Eq. Reg. Múltipla

)

R

1

(

)]

1

k

(

n

[

)

1

n

(

1

R

2 2 ajustado

+

=

(22)

Exemplo: Regressão Múltipla

• Dados

Colesterol522 Idade58 Altura180 Peso76

127 22 168 65 740 32 182 81 49 31 174 79 230 28 172 69 316 46 176 75 590 41 169 61 466 56 171 91 121 20 173 79 578 54 167 63 78 17 160 70 265 73 173 84 250 52 186 86 265 25 172 68 273 29 173 94 272 17 180 107 972 41 156 80 75 52 194 99 138 32 168 75 139 20 177 62 Um estudo mostra os seguintes dados coletados no posto de saúde de um bairro da cidade. É possível predizer o nível de colesterol a partir da idade, altura e peso ?

(23)

Exemplo: Regressão Múltipla

y = 2010,28 + 6,45*idade – 11,67*altura + 1,25*peso

Será que o uso de outras variáveis poderíamos “melhorar” a predição ? Por exemplo, o uso de batimentos cardíacos (pulsação) ou o IMC.

Referências

Documentos relacionados

Internal sac armature (Fig. 5) consisting of two basal spine-shaped straight sclerites, 2.8 times as long as wide (Fig. 5a) or as in figure 5A; two long, laminar and median

Tautologia – Quando uma proposição sempre é verdadeira, o que acarreta que toda sua coluna na tabela- verdade possui somente valores Verdadeiros. Contradição – Oposto à

No entanto, quando se eliminou o efeito da soja (TABELA 3), foi possível distinguir os efeitos da urease presentes no grão de soja sobre a conversão da uréia em amônia no bagaço

Realizar a manipulação, o armazenamento e o processamento dessa massa enorme de dados utilizando os bancos de dados relacionais se mostrou ineficiente, pois o

2 REVISÂO BIBLIOGRÁFICA 2.1 CONSUMO DE ENERGIA E EMISSÃO DE POLUENTES PARA MATERIAIS DE CONSTRUÇÃO Ao buscar determinar o consumo de energia e a emissão de gases do efeito estufa

Por isso, quando a quantidade de Oxigênio Dissolvido na água diminui, os peixes não conseguem compensar esta.. Diminuição, ficando prejudicados e,

Neste tipo de situações, os valores da propriedade cuisine da classe Restaurant deixam de ser apenas “valores” sem semântica a apresentar (possivelmente) numa caixa

Com relação a quem são os formadores que produzem racionalidades pedagógicas da Música em cursos de Pedagogia, em disciplinas de Música e/ou Arte, apreendi que, a partir