• Nenhum resultado encontrado

Treinamento em Análise Quantitativa & Planejamento de Capacidade. Virgilio A. F. Almeida

N/A
N/A
Protected

Academic year: 2021

Share "Treinamento em Análise Quantitativa & Planejamento de Capacidade. Virgilio A. F. Almeida"

Copied!
36
0
0

Texto

(1)

Treinamento em Análise Quantitativa & 

Planejamento de Capacidade

Virgilio A. F. Almeida

DATAPREV – Rio de Janeiro 7 Dezembro de 2009

Módulo #5 Módulo #5

(2)

Fi

lid d d R

ã

Finalidade  da Regressão

• A finalidade da regressão é prever o valor  de uma variável 

resposta a partir de pelo menos uma variável

resposta a partir de pelo menos uma variável 

independente  (também chamada preditora ou fator).

• A finalidade da análise de correlação é medir a 

intensidade de correlação entre duas variáveis.   

– Temos uma série de 30 medidas de volume de transações  processadas diariamente no horário de 14:00 as 17:00. Qual seria  a estimativa do número de transações para  a próxima semana?

(3)

R l ã Li

(4)

S

R l ã

Sem Relação

(5)

R l ã C

ili

N

ti

Relação Curvilinea Negativa

(6)

Regressão Linear Simples

Regressão Linear Simples 

Valor medido Valor estimado Erro y estimado

(7)

M d l

d R

ã Li

Modelos de Regressão Linear

é

• O que é um bom modelo?

• Como estimar os parâmetros do modelo

• Como alocar variações

• Intervalos de Confiança para Regressões

• Inspeção Visual

(8)

O

é

b

d l ?

O que é um bom modelo?

• Para dados correlacionados, um modelo deve

prever uma resposta dado uma entrada

prever uma resposta dado uma entrada.

• Modelo deve ser a equação que “se-adequa”

(“fit-encaixa”) aos dados.

(

)

• Definição padrão de “fits” está diretamente

relacionada aos mínimos quadrados (“least-

q

(

squares”)

– Minimizar o erro ao quadrado

é éd

– Enquanto mantém o erro médio em zero – Minimizar a variância dos erros

(9)

Regressão Linear

i

i

b

b

x

y

ˆ

=

0

+

1

Onde

• é o valor estimado de para observação

i

y

i

• é o valor da observação ti ti

ˆ

i

i

x

erro na estimativa para xi

• são escolhidos para minimizar a Soma dos Erros ao

i i i

y

y

e

=

0

b

b

1 p

Quadrado (SSE), sujeito a

(

)

ei y b b x n i i n 2 0 1 2

=

− −

= 0 n i e 0 1

(

)

ei y b b x i i i i 1 0 1 1 = =

i=1 i

(10)

Método dos Mínimos Quadrados

Método dos Mínimos Quadrados

• Se

=

b

+

b

x

então o erro na estimativa para x • Se então o erro na estimativa para xi

é

x

b

b

y

i

=

0

+

1

y

y

e

=

ˆ

• Minimizar a Soma dos Erros ao Quadrado (SSE)

i

i

i

y

y

e

=

• Minimizar a Soma dos Erros ao Quadrado (SSE)

(

)

e

i

y

b

b x

n i i n 2 0 1 2

e

i

=

(

y

b

b x

)

i i i i 1 0 1 1 = =

• Sujeita as restrições

(

)

e

i

y

b

b x

n i i n

i

=

(

y

0

1

)

=

0

i i i i = =

1 0 1 1

(11)

E ti

d

P â

t

d M d l

Estimando os Parâmetros do Modelo

• Os melhores parâmetros da regressão são

b

xy

nx y

x

nx

1 2 2

= ∑

b

0

= −

y

b x

1 Onde

x

=

1

x

y

=

1

y

x

n

x

i

=

y

n

y

i

=

xy

x y

i i

xy

=

x y

i i

x

2

=

x

i2

x

x

i

(12)

Exemplo Regressão Linear:

Sabe se o no de I/O operations e CPU time para medições ate 10 por Sabe‐se o no.  de I/O operations e CPU time para medições ate 10 por 

(13)

Exemplo Regressão Linear:

(14)

Estimativa dos parâmetros

p

exemplo

• Tempo de execução de um query para várias palavras:

x

Palavras

3

5

7

9

10

y

Tempo

1.19

1.73

2.53

2.89

3.26

x

= 6.8, = 2.32,

y

Σxy = 88.54, Σx2 = 264

( )( )(

)

( )( )

b

1

88 54

5 6 8 2 32

2

264

5 6 8

0 29

=

=

.

.

.

.

.

• b0 = 2.32 − (0.29)(6.8) = 0.35

( )( )

(15)

Gráfico dos Parâmetros de Estimativa

exemplo

3 1 2 Te m p o 0 3 5 7 9 11 3 5 7 9 11 Palavras

(16)

Variantes da Regressão Linear

Variantes da Regressão Linear

• Algumas relações não lineares podem ser tratadas

õ

por transformações:

Para y = aebx faça o logaritmo de y faça a – Para y = aebx faça o logaritmo de y, faça a

regressão sobre log(y) = b0+b1x, sendo b = b1,

a

=

e

b0

– Para y = a+b log(x), tome o log de x antes dos â t d “fitti ” j b b b

a

=

e

parâmetros de “fitting”, seja b = b1, a = b0

– Para y = axb, tire o log de ambos

x

e y, e faça

b = b1,

a

=

e

b0

(17)

Quão boa é a regressão, a estimativa?

Q

g

,

Alocando a Variação

• Sem regressão, a melhor estimativa de y é

y

• Valores observados de y diferem de aumentando os

erros (variação)

y

• Regressão provê uma melhor estimativa, mas ainda existem erros

• Nós podemos avaliar a qualidade da regressão pela l ã d f t d

(18)

Gráfico dos Parametros de Estimativa

Gráfico dos Parametros de Estimativa

exemplo: regressão e a média

3

y

1 2 Tem p o

y

0 3 5 7 9 11 3 5 7 9 Palavras

(19)

N t ã

Notação

• SSE – Sum of Squared Errors • SST – Total Sum of SquaresSS o a Su o Squa es

n

n

0

)

(

2 1 1 2 2

SS

SSY

y

n

y

y

y

SST

i i i i

=

=

=

= =

• SSY – Sum of Squares of q

y

• SS0 – Sum of Squares of

• SSR – Sum of Squares explained by Regression

y

y

(20)

A S

T

l d

Q

d d

A Soma Total dos Quadrados

• Sem regressão, o erro ao quadrado é

(

)

(

)

SST

=

=

+

= =

y

i

y

y

y y

y

i n i i i n 2 1 2 2 1

2

=

⎝⎜

⎠⎟

⎝⎜

⎠⎟

+

= =

y

i

y

y

ny

i n i i n 2 1 1 2

2

( )

=

⎝⎜

⎠⎟

+

=

y

i

y ny

ny

i n 2 1 2

2

SSY SS

=

⎝⎜

⎠⎟

=

=

y

ny

i i i n 1 2 1 2

0

= i 1

(21)

A Soma dos Quadrados da

Regressão

Regressão

• O SSE ( )

=

2

∑ ∑

e

i2

=

( )

y

i

Y

ˆ

i 2

SSE

e

i

• Assim a regressão explica SSR = SST – SSE • SST = SSR + SSE

• SSR: soma dos quadrados explicados pela regressão

• Qualidade da regressão medida pelo coeficiente de

determinação:

R

2

S S R

S S T

S S E

R

2

=

=

S S T

S S T

(22)

Avaliação do Coeficiente

Avaliação do Coeficiente

de Determinação

• Calcule

SST

=

(

∑ y

2

)

n y

2

• Calcule

• Calcule

SST

= ∑ y

(

)

n y

SSE

= ∑

y

2

b

∑ − ∑

y

b

xy

• Calcule

SSE

= ∑

y

b

0

∑ − ∑

y

b

1

xy

• Calcule

2

=

SST

SSE

=

1

SSE

R

SST

1

SST

(23)

E

l d C

fi i

d D

i

ã

Exemplo de Coeficiente de Determinação

P

l

t i d

ã

• Para o exemplo anterior de regressão

x

3 5 7 9 10

y

1.19 1.73 2.53 2.89 3.26

Σy = 11 60 Σy2 = 29 79 Σxy = 88 54

( )(

)

ny

2

=

5 2 32

.

2

=

26 9

.

Σy = 11.60, Σy = 29.79, Σxy = 88.54,

– SSE = 29.79-(0.35)(11.60)-(0.29)(88.54) = 0.05 – SST = 29.79-26.9 = 2.89

– SSR = 2.89-.05 = 2.84

2

(24)

Exemplo 

/

(25)

D

i P d ã d E

Desvio Padrão de Erros 

• Variancia de erros é SSE dividido pelos graus de liberdade (DOF):

liberdade (DOF):

– DOF: n−2 porque calculamos 2 parametros de regressão dos dados

dos dados.

– Assim a variância (mean squared error, MSE):

2

n

SSE

• Desvio padrão dos erros é a raiz quadrada:

s

n

e

=

SSE

2

n

2

(26)

C

l ã d A

t

Correlação da Amostra

• Coeficente de determinação

R

2

=

S S R

=

S S T

S S T

S S E

S S T

• Correlação da Amostra

n i i i xy

y

y

x

x

s

1 2

)

)(

(

=

xy xy i

s

R

2 1

amostra

da

Correlação

=

=

= y x xy

s

s

ç

(27)

Calculando os graus de liberdade de várias soma de

Calculando os graus de liberdade de várias soma de 

quadrados

SST n-1 Precisa computar

y

SSY n Não depende de nenhum outro parâmetro

SS0 1 Precisa computar

y

SS0 1 Precisa computar

SSE n-2 Precisa computar dois parâmetros da

y

regressão SSR 1 =SST-SSE

S S T

S S Y

S S

S S R

S S E

(

)

=

=

+

=

=

+

0

1

1

1

2

n

1

=

n

1

=

1

+

(

n

2

)

n

n

n

(28)

E

l d D

i P d ã d E

Exemplo de Desvio Padrão de Erros

• Para o exemplo de regressão, SSE era 0.05,

então MSE é 0 05/3 = 0 017 e s

= 0 13

então MSE é 0.05/3

0.017 e s

e

0.13

• Observe a alta qualidade da regressão do

• Observe a alta qualidade da regressão do

exemplo:

– R2 = 0.98

– se = 0.13

(29)

Intervalos de Confiança para Regressões

• Regressão é calculada de uma única amostra da g população (tamanho n)

Diferentes amostras devem dar resultados – Diferentes amostras devem dar resultados

diferentes.

– Modelo verdadeiro é y = y

β

β

00 +

β

β

11x

– Parâmetros b0 e b1 são na verdadade médias retiradas das amostras da população.

(30)

Cálculo de Intervalos

para Parâmetros da Regressão

para Parâmetros da Regressão

• Desvio Padrão dos Parâmetros: • Desvio Padrão dos Parâmetros:

s

b

s

1

x

2

=

+

s

s

n

x

n x

s

b0

=

e

+

2 2

s

s

x

n x

b e 1

=

2 2

• Intervalos de confiança são

b

i

±

s

bi

• Onde t tem n - 2 graus de liberdade

] 2 , 2 / 1 [ − n

t

α

• Onde t tem n 2 graus de liberdade

s

e é o desvio padrão dos erros

(31)

E

l d I

l d C

fi

d R

ã

Exemplo do Intervalo de Confiança da Regressão

• Lembre que se = 0.13, n = 5, Σx2 = 264, = 6.8 • Assim

x

s

b 0

0 13

1

5

6 8

264

5 6 8

0 16

2 2

=

+

=

.

( . )

(

)

.

s

b 1

5

264

5 6 8

0 13

264

5 6 8

2

0 004

=

=

( . )

.

(

)

.

• Usando um intervalo de confiança de 90% t0 95 3 =

b1

264

− ( . )

5 6 8

2

• Usando um intervalo de confiança de 90% , t0.95;3 = 2.353

(32)

E

l d I

l d C

fi

d R

ã

Exemplo do Intervalo de Confiança da Regressão

• Assim, o intervalo b0

b

é

0.35

±

2.353(0.16) = (-0.03,0.73)

• b

1 é

0 29

2 353(0 004)

(0 28 0 30)

0.29

±

2.353(0.004) = (0.28,0.30)

(33)

Intervalos de Confiança

ç

para Regressões Nonlineares

• Para “fits” nonlineares usando transformações

exponenciais:

exponenciais:

– Intervalos de confiança se aplicam aos parâmetros Intervalos de confiança se aplicam aos parâmetros transformados

– Não é valido para a transformação inversa sobre os intervalos

(34)

I

l

d C

fi

P di õ

Intervalos de Confiança para Predições

I l d fi i ã â

• Intervalos de confiança vistos são para os parâmetros – Quão certo podemos estar que os parâmetros estão

corretos?

• Finalidade da regressão é a predição – Quão precisas são as predições

Regressão oferece uma média das respostas – Regressão oferece uma média das respostas

(35)

P di õ

b

d

t

Predições baseadas em m amostras

• Desvio padrão para a média de futuras amostras de m observações em xp é

b

b

^ p

(

x

x

)

1

1

2 p p

b

b

x

y

=

0

+

1

(

)

s

s

m

n

x

x

x

n x

y e p m p $

=

+

+

1

1

2 2

S

• Note que o desvio diminui qdo m → ∞Note que o desvio diminui qdo m → • Variância mínima em x =

x

(36)

Exemplo de Confiança

Exemplo de Confiança

das Predições

• Usando equações prévias, qual é o tempo previsto para 8 queries?

• Tempo = 0.35 + 0.29(8) = 2.67 • Desvio padrão de erros

s

e

= 0.13

(

)

s

0 13 1

1

8 6 8

.

0 14

2

=

+ +

=

S

90% d i l é ã

s

y p $

.

( . )

.

1

0 13 1

5 264 5 6 8

0 14

=

+ +

=

yp

S

• 90% do intervalo é então

2 6 7

.

m

2 3 5 3 0 1 4

.

( .

)

=

( .

2 3 4 3 0 0

, .

)

Referências

Documentos relacionados

Mesmo durante a visualização do menu, a reprodução de imagens e a gravação de imagens, pode carregar no botão do obturador até meio para que a câmara volte instantaneamente

ética e relações interpessoais, fundamentos da administração, comunicação empresarial, matemática financeira, departamento pessoal, marketing estratégico e outros componentes

BRA233 UNIVERSIDADE FEDERAL DO SUL DA BAHIA BRA236 INSTITUTO PAULISTA DE ENSINO E PESQUISA BRA239 INSTITUTO SUMARE DE EDUCAÇÃO SUPERIOR LTDA BRA240 INSTITUTO TECNOLÓGICO

UNIVERSIDAD CAMILO JOSÉ CELA UNIVERSIDAD DE CANTABRIA UNIVERSIDAD CARDENAL HERRERA UNIVERSIDAD CARLOS III DE MADRID UNIVERSIDAD CASTILLA LA MANCHA UNIVERSIDAD CATÓLICA

Problemas de molhabilida de Gradiente de To muito alto Problemas na deposição da pasta Falta de solda Fundente aprisionado na solda Gás aprisionado na solda Buracos

Desde que as medidas da variável resposta são sujeitas à variações randômicas, as replicações de um experimento são usadas para determinar o impacto do erro na variável

Da análise SWOT realizada destacam-se como forças a existência de diversos instrumentos de ordenamento já em vigor, nomeadamente para áreas incluídas na Rede Nacional de

Sendo assim, este estudo tem como objetivo analisar a quantidade de vendas de produtos farmacêuticos no Brasil dos anos de 2003 a 2015 por meio da utilização da regressão