Treinamento em Análise Quantitativa & Planejamento de Capacidade. Virgilio A. F. Almeida

(1)

Treinamento em Análise Quantitativa &

Planejamento de Capacidade

Virgilio A. F. Almeida

DATAPREV – Rio de Janeiro 7 Dezembro de 2009

Módulo #5 Módulo #5

(2)

Fi

lid d d R

ã

Finalidade da Regressão

• A finalidade da regressão é prever o valor de uma variável

resposta a partir de pelo menos uma variável

independente (também chamada preditora ou fator).

• A finalidade da análise de correlação é medir a

intensidade de correlação entre duas variáveis.

– Temos uma série de 30 medidas de volume de transações processadas diariamente no horário de 14:00 as 17:00. Qual seria a estimativa do número de transações para a próxima semana?

(3)

R l ã Li

(4)

S

R l ã

Sem Relação

(5)

R l ã C

ili

N

ti

Relação Curvilinea Negativa

(6)

Regressão Linear Simples

Valor medido Valor estimado Erro y estimado

(7)

M d l

d R

ã Li

Modelos de Regressão Linear

é

• O que é um bom modelo?

• Como estimar os parâmetros do modelo

• Como alocar variações

• Intervalos de Confiança para Regressões

• Inspeção Visual

(8)

O

é

b

d l ?

O que é um bom modelo?

• Para dados correlacionados, um modelo deve

prever uma resposta dado uma entrada

prever uma resposta dado uma entrada.

• Modelo deve ser a equação que “se-adequa”

(“fit-encaixa”) aos dados.

(

)

• Definição padrão de “fits” está diretamente

relacionada aos mínimos quadrados (“least-

q

(

squares”)

– Minimizar o erro ao quadrado

é éd

– Enquanto mantém o erro médio em zero – Minimizar a variância dos erros

(9)

Regressão Linear

i

b

x

y

ˆ

=

₀

+

₁

Onde

• é o valor estimado de para observação

i

yˆ

y

i

• é o valor da observação ti ti

ˆ

i

x

• erro na estimativa para x_i

• são escolhidos para minimizar a Soma dos Erros ao

i i i

y

e

=

−

0

b

₁ p

Quadrado (SSE), sujeito a

(

)

e_i y b b x n i i n 2 0 1 2

∑

=

∑

− −

∑

= 0 n i e 0 1

(

)

e_i y b b x i i i i 1 0 1 1 = =

∑

i=1 i

(10)

Método dos Mínimos Quadrados

• Se

yˆ

=

b

+

b

x

então o erro na estimativa para x • Se então o erro na estimativa para x_i

é

x

b

y

_i

=

₀

+

₁

y

e

=

−

ˆ

• Minimizar a Soma dos Erros ao Quadrado (SSE)

i

y

e

=

• Minimizar a Soma dos Erros ao Quadrado (SSE)

(

)

e

_i

y

b

b x

n i i n 2 0 1 2

∑

e

_i

=

∑

(

y

−

b

−

b x

)

i i i i 1 0 1 1 = =

∑

• Sujeita as restrições

(

)

e

_i

y

b

b x

n i i n

∑

_i

=

∑

(

y

−

₀

−

₁

)

=

0

i i i i = =

∑

1 0 1 1

(11)

E ti

d

P â

t

d M d l

Estimando os Parâmetros do Modelo

• Os melhores parâmetros da regressão são

b

xy

nx y

x

nx

1 2 ₂

= ∑

−

∑

−

b

0

= −

y

b x

1 Onde

x

=

1 ∑

x

y

=

1 ∑

y

x

n

x

i

=

∑

y

n

y

i

=

∑

xy

x y

_i _i

∑

xy

=

∑

x y

_i _i

∑

x

2

=

∑

x

_i2

∑

x

∑

x

_i

(12)

Exemplo Regressão Linear:

Sabe se o no de I/O operations e CPU time para medições ate 10 por Sabe‐se o no. de I/O operations e CPU time para medições ate 10 por

(13)

Exemplo Regressão Linear:

(14)

Estimativa dos parâmetros

p

exemplo

• Tempo de execução de um query para várias palavras:

x

Palavras

3

5

7

9

10

y

Tempo

1.19

1.73

2.53

2.89

3.26

• _x

= 6.8, = 2.32,

y

Σxy = 88.54, Σx2 _{= 264}

( )( )(

)

( )( )

b

₁

88 54

5 6 8 2 32

₂

264 5 6 8

0 29

=

−

=

.

• b₀ = 2.32 − (0.29)(6.8) = 0.35

( )( )

(15)

Gráfico dos Parâmetros de Estimativa

exemplo

3 1 2 Te m p o 0 3 5 7 9 11 3 5 7 9 11 Palavras

(16)

Variantes da Regressão Linear

• Algumas relações não lineares podem ser tratadas

õ

por transformações:

Para y = aebx _{faça o logaritmo de y faça a} – Para y = aebx _{faça o logaritmo de y, faça a}

regressão sobre log(y) = b₀+b₁x, sendo b = b₁,

a

=

e

b0

– Para y = a+b log(x), tome o log de x antes dos â t d “fitti ” j b b b

a

=

e

parâmetros de “fitting”, seja b = b₁, a = b₀

– Para y = axb_{, tire o log de ambos}

x

_{e y, e faça}

b = b₁,

a

=

e

b0

(17)

Quão boa é a regressão, a estimativa?

Q

g

,

Alocando a Variação

• Sem regressão, a melhor estimativa de y é

y

• Valores observados de y diferem de aumentando os

erros (variação)

y

• Regressão provê uma melhor estimativa, mas ainda existem erros

• Nós podemos avaliar a qualidade da regressão pela l ã d f t d

(18)

Gráfico dos Parametros de Estimativa

exemplo: regressão e a média

3

y

1 2 Tem p o

y

0 3 5 7 9 11 3 5 7 9 Palavras

(19)

N t ã

Notação

• SSE – Sum of Squared Errors • SST – Total Sum of SquaresSS o a Su o Squa es

n

⎛

n

⎞

0 )

(

2 1 1 2 2

SS

SSY

y

n

y

SST

i i i i

⎟

−

=

−

⎠

⎞

⎜

⎝

⎛

=

−

=

∑

= =

• SSY – Sum of Squares of q

y

• SS0 – Sum of Squares of

• SSR – Sum of Squares explained by Regression

y

(20)

A S

T

l d

Q

d d

A Soma Total dos Quadrados

• Sem regressão, o erro ao quadrado é

(

)

(

)

SST

=

−

=

−

+

= =

∑

y

_i

y

∑

y

y y

y

i n i i i n 2 1 2 2 1

2 =

⎛

⎝⎜

⎞

⎠⎟

−

⎛

⎝⎜

⎞

⎠⎟

+

= =

∑

y

_i

y

∑

y

ny

i n i i n 2 1 1 2

2 ( )

=

⎛

⎝⎜

⎞

⎠⎟

−

+

=

∑

y

_i

y ny

ny

i n 2 1 2

2 SSY SS

=

⎛

⎝⎜

⎞

⎠⎟

−

=

−

=

∑

y

ny

i i i n 1 2 1 2

₀

= i 1

(21)

A Soma dos Quadrados da

Regressão

• O SSE ( )

=

∑

2

∑ ∑

e

_i2

=

( )

y

_i

−

Y

ˆ

_i 2

SSE

e

_i

• Assim a regressão explica SSR = SST – SSE • SST = SSR + SSE

• SSR: soma dos quadrados explicados pela regressão

• Qualidade da regressão medida pelo coeficiente de

determinação:

R

2

S S R

S S T

−

S S E

R

2

=

S S T

(22)

Avaliação do Coeficiente

de Determinação

• Calcule

SST

=

(

∑ y

2

)

−

n y

2

• Calcule

SST

= ∑ y

(

)

n y

SSE

= ∑

y

2

−

b

∑ − ∑

y

b

xy

• Calcule

_SSE

= ∑

_y

−

_b

₀

_{∑ − ∑}

_y

_b

₁

_xy

• Calcule

2

=

SST

−

SSE

=

₁

−

SSE

R

SST

1 SST

(23)

E

l d C

fi i

d D

i

ã

Exemplo de Coeficiente de Determinação

P

l

t i d

ã

• Para o exemplo anterior de regressão

x

3 5 7 9 10

y

1.19 1.73 2.53 2.89 3.26

Σy = 11 60 Σy2 _{= 29 79 Σxy = 88 54}

( )(

)

ny

2

=

_{5 2 32}

_.

2

=

_{26 9}

_.

Σy = 11.60, Σy = 29.79, Σxy = 88.54,

– SSE = 29.79-(0.35)(11.60)-(0.29)(88.54) = 0.05 – SST = 29.79-26.9 = 2.89

– SSR = 2.89-.05 = 2.84

2

(24)

Exemplo

/

(25)

D

i P d ã d E

Desvio Padrão de Erros

• Variancia de erros é SSE dividido pelos graus de liberdade (DOF):

liberdade (DOF):

– DOF: n−2 porque calculamos 2 parametros de regressão dos dados

dos dados.

– Assim a variância (mean squared error, MSE):

2 −

n

SSE

• Desvio padrão dos erros é a raiz quadrada:

s

n

e

=

−

SSE

2 n

2

(26)

C

l ã d A

t

Correlação da Amostra

• Coeficente de determinação

R

2

=

S S R

=

−

S S T

S S E

S S T

• Correlação da Amostra

n i i i xy

y

x

s

1 2

)

)(

(

−

=

∑

xy xy i

s

R

2 1

amostra

da

Correlação

=

= y x xy

s

ç

(27)

Calculando os graus de liberdade de várias soma de

quadrados

SST n-1 Precisa computar

_y

SSY n Não depende de nenhum outro parâmetro

SS0 1 Precisa computar

_y

SS0 1 Precisa computar

SSE n-2 Precisa computar dois parâmetros da

y

regressão SSR 1 =SST-SSE

S S T

S S Y

S S

S S R

S S E

(

)

=

−

=

+

=

+

0

1

2 n

−

1 =

n

−

1 =

1 +

(

n

−

2 )

n

(28)

E

l d D

i P d ã d E

Exemplo de Desvio Padrão de Erros

• Para o exemplo de regressão, SSE era 0.05,

então MSE é 0 05/3 = 0 017 e s

= 0 13

então MSE é 0.05/3

0.017 e s

_e

0.13 • Observe a alta qualidade da regressão do

• Observe a alta qualidade da regressão do

exemplo:

– R2 _{= 0.98}

– s_e = 0.13

(29)

Intervalos de Confiança para Regressões

• Regressão é calculada de uma única amostra da g população (tamanho n)

Diferentes amostras devem dar resultados – Diferentes amostras devem dar resultados

diferentes.

– Modelo verdadeiro é y = y

β

₀₀ +

β

₁₁x

– Parâmetros b₀ e b₁ são na verdadade médias retiradas das amostras da população.

(30)

Cálculo de Intervalos

para Parâmetros da Regressão

• Desvio Padrão dos Parâmetros: • Desvio Padrão dos Parâmetros:

s

_b

s

1 x

2

=

+

s

n

x

n x

s

b₀

=

e

+

₂ ₂

∑

−

s

x

n x

b e 1

=

2 ₂

∑

−

• Intervalos de confiança são

b

_i

±

s

_bi

• Onde t tem n - 2 graus de liberdade

] 2 , 2 / 1 [ − n−

t

_α

• Onde t tem n 2 graus de liberdade •

s

_e é o desvio padrão dos erros

(31)

E

l d I

l d C

fi

d R

ã

Exemplo do Intervalo de Confiança da Regressão

• Lembre que s_e = 0.13, n = 5, Σx2 _{= 264, = 6.8} • Assim

x

s

_b 0

0 13

1

5 6 8

264 5 6 8

0 16

2 2

=

+

−

=

.

( . )

(

)

.

s

_b 1

5

264 5 6 8

0 13

264 5 6 8

2

0 004

=

( . )

.

(

)

.

• Usando um intervalo de confiança de 90% t_{0 95 3} =

b₁

264 − ( . )

5 6 8

2

• Usando um intervalo de confiança de 90% , t_0.95;3 = 2.353

(32)

E

l d I

l d C

fi

d R

ã

Exemplo do Intervalo de Confiança da Regressão

• Assim, o intervalo b₀

b

é

0.35 ±

2.353(0.16) = (-0.03,0.73)

• b

₁ é

0 29

2 353(0 004)

(0 28 0 30)

0.29 ±

2.353(0.004) = (0.28,0.30)

(33)

Intervalos de Confiança

ç

para Regressões Nonlineares

• Para “fits” nonlineares usando transformações

exponenciais:

– Intervalos de confiança se aplicam aos parâmetros Intervalos de confiança se aplicam aos parâmetros transformados

– Não é valido para a transformação inversa sobre os intervalos

(34)

I

l

d C

fi

P di õ

Intervalos de Confiança para Predições

I l d fi i ã â

• Intervalos de confiança vistos são para os parâmetros – Quão certo podemos estar que os parâmetros estão

corretos?

• Finalidade da regressão é a predição – Quão precisas são as predições

Regressão oferece uma média das respostas – Regressão oferece uma média das respostas

(35)

P di õ

b

d

t

Predições baseadas em m amostras

• Desvio padrão para a média de futuras amostras de m observações em x_p é

b

^ p

(

x

−

x

)

1

2 p p

b

x

y

=

₀

+

₁

(

)

s

m

n

x

n x

y e p m p $

=

+

_∑

₋

1

2 2

S

• Note que o desvio diminui qdo m → ∞Note que o desvio diminui qdo m → • Variância mínima em x =

_x

(36)

Exemplo de Confiança

das Predições

• Usando equações prévias, qual é o tempo previsto para 8 queries?

• Tempo = 0.35 + 0.29(8) = 2.67 • Desvio padrão de erros

s

_e

= 0.13

(

)

s

0 13 1

1 8 6 8

.

0 14

2

=

+ +

−

=

S

90% d i l é ã

s

_y p $

.

( . )

.

1

0 13 1

5 264 5 6 8

0 14

=

+ +

−

=

y_p

S

• 90% do intervalo é então

2 6 7

.

m

2 3 5 3 0 1 4

.

( .

)

=

( .

2 3 4 3 0 0

, .

)