Treinamento em Análise Quantitativa &
Planejamento de Capacidade
Virgilio A. F. Almeida
DATAPREV – Rio de Janeiro 7 Dezembro de 2009
Módulo #5 Módulo #5
Fi
lid d d R
ã
Finalidade da Regressão
• A finalidade da regressão é prever o valor de uma variável
resposta a partir de pelo menos uma variável
resposta a partir de pelo menos uma variável
independente (também chamada preditora ou fator).
• A finalidade da análise de correlação é medir a
intensidade de correlação entre duas variáveis.
– Temos uma série de 30 medidas de volume de transações processadas diariamente no horário de 14:00 as 17:00. Qual seria a estimativa do número de transações para a próxima semana?R l ã Li
S
R l ã
Sem Relação
R l ã C
ili
N
ti
Relação Curvilinea Negativa
Regressão Linear Simples
Regressão Linear Simples
Valor medido Valor estimado Erro y estimadoM d l
d R
ã Li
Modelos de Regressão Linear
é
• O que é um bom modelo?
• Como estimar os parâmetros do modelo
• Como alocar variações
• Intervalos de Confiança para Regressões
• Inspeção Visual
O
é
b
d l ?
O que é um bom modelo?
• Para dados correlacionados, um modelo deve
prever uma resposta dado uma entrada
prever uma resposta dado uma entrada.
• Modelo deve ser a equação que “se-adequa”
(“fit-encaixa”) aos dados.
(
)
• Definição padrão de “fits” está diretamente
relacionada aos mínimos quadrados (“least-
q
(
squares”)
– Minimizar o erro ao quadrado
é éd
– Enquanto mantém o erro médio em zero – Minimizar a variância dos erros
Regressão Linear
i
i
b
b
x
y
ˆ
=
0
+
1
Onde
• é o valor estimado de para observação
i
yˆ
y
i
• é o valor da observação ti tiˆ
i
i
x
• erro na estimativa para xi
• são escolhidos para minimizar a Soma dos Erros ao
i i i
y
y
e
=
−
0b
b
1 pQuadrado (SSE), sujeito a
(
)
ei y b b x n i i n 2 0 1 2∑
=∑
− −∑
= 0 n i e 0 1(
)
ei y b b x i i i i 1 0 1 1 = =∑
∑
∑
i=1 iMétodo dos Mínimos Quadrados
Método dos Mínimos Quadrados
• Se
yˆ
=
b
+
b
x
então o erro na estimativa para x • Se então o erro na estimativa para xié
x
b
b
y
i=
0+
1y
y
e
=
−
ˆ
• Minimizar a Soma dos Erros ao Quadrado (SSE)
i
i
i
y
y
e
=
• Minimizar a Soma dos Erros ao Quadrado (SSE)
(
)
e
iy
b
b x
n i i n 2 0 1 2∑
e
i=
∑
(
y
−
b
−
b x
)
i i i i 1 0 1 1 = =∑
∑
• Sujeita as restrições(
)
e
iy
b
b x
n i i n∑
i=
∑
(
y
−
0−
1)
=
0
i i i i = =∑
∑
1 0 1 1E ti
d
P â
t
d M d l
Estimando os Parâmetros do Modelo
• Os melhores parâmetros da regressão são
b
xy
nx y
x
nx
1 2 2= ∑
−
∑
−
b
0= −
y
b x
1 Ondex
=
1
∑
x
y
=
1
∑
y
x
n
x
i=
∑
y
n
y
i=
∑
xy
x y
i i∑
xy
=
∑
x y
i i∑
x
2=
∑
x
i2∑
∑
∑
x
∑
x
iExemplo Regressão Linear:
Sabe se o no de I/O operations e CPU time para medições ate 10 por Sabe‐se o no. de I/O operations e CPU time para medições ate 10 por
Exemplo Regressão Linear:
Estimativa dos parâmetros
p
exemplo
• Tempo de execução de um query para várias palavras:
x
Palavras
3
5
7
9
10
yTempo
1.19
1.73
2.53
2.89
3.26
•
x
= 6.8, = 2.32,y
Σxy = 88.54, Σx2 = 264( )( )(
)
( )( )
b
188 54
5 6 8 2 32
2264
5 6 8
0 29
=
−
−
=
.
.
.
.
.
• b0 = 2.32 − (0.29)(6.8) = 0.35( )( )
Gráfico dos Parâmetros de Estimativa
exemplo
3 1 2 Te m p o 0 3 5 7 9 11 3 5 7 9 11 PalavrasVariantes da Regressão Linear
Variantes da Regressão Linear
• Algumas relações não lineares podem ser tratadas
õ
por transformações:
Para y = aebx faça o logaritmo de y faça a – Para y = aebx faça o logaritmo de y, faça a
regressão sobre log(y) = b0+b1x, sendo b = b1,
a
=
e
b0– Para y = a+b log(x), tome o log de x antes dos â t d “fitti ” j b b b
a
=
e
parâmetros de “fitting”, seja b = b1, a = b0
– Para y = axb, tire o log de ambos
x
e y, e façab = b1,
a
=
e
b0Quão boa é a regressão, a estimativa?
Q
g
,
Alocando a Variação
• Sem regressão, a melhor estimativa de y é
y
• Valores observados de y diferem de aumentando os
erros (variação)
y
• Regressão provê uma melhor estimativa, mas ainda existem erros
• Nós podemos avaliar a qualidade da regressão pela l ã d f t d
Gráfico dos Parametros de Estimativa
Gráfico dos Parametros de Estimativa
exemplo: regressão e a média
3y
1 2 Tem p oy
0 3 5 7 9 11 3 5 7 9 PalavrasN t ã
Notação
• SSE – Sum of Squared Errors • SST – Total Sum of SquaresSS o a Su o Squa es
n
⎛
n⎞
0
)
(
2 1 1 2 2SS
SSY
y
n
y
y
y
SST
i i i i⎟
−
=
−
⎠
⎞
⎜
⎝
⎛
=
−
=
∑
∑
= =• SSY – Sum of Squares of q
y
• SS0 – Sum of Squares of• SSR – Sum of Squares explained by Regression
y
y
A S
T
l d
Q
d d
A Soma Total dos Quadrados
• Sem regressão, o erro ao quadrado é
(
)
(
)
SST
=
−
=
−
+
= =∑
y
iy
∑
y
y y
y
i n i i i n 2 1 2 2 12
=
⎛
⎝⎜
⎞
⎠⎟
−
⎛
⎝⎜
⎞
⎠⎟
+
= =∑
y
iy
∑
y
ny
i n i i n 2 1 1 22
( )
=
⎛
⎝⎜
⎞
⎠⎟
−
+
=∑
y
iy ny
ny
i n 2 1 22
SSY SS
=
⎛
⎝⎜
⎞
⎠⎟
−
=
−
=∑
y
ny
i i i n 1 2 1 20
= i 1A Soma dos Quadrados da
Regressão
Regressão
• O SSE ( )
=
∑
2∑ ∑
e
i2=
( )
y
i−
Y
ˆ
i 2SSE
e
i• Assim a regressão explica SSR = SST – SSE • SST = SSR + SSE
• SSR: soma dos quadrados explicados pela regressão
• Qualidade da regressão medida pelo coeficiente de
determinação:
R
2S S R
S S T
−
S S E
R
2=
=
S S T
S S T
Avaliação do Coeficiente
Avaliação do Coeficiente
de Determinação
• Calcule
SST
=
(
∑ y
2)
−
n y
2• Calcule
• Calcule
SST
= ∑ y
(
)
n y
SSE
= ∑
y
2−
b
∑ − ∑
y
b
xy
• Calcule
SSE
= ∑
y
−
b
0∑ − ∑
y
b
1xy
• Calcule
2=
SST
−
SSE
=
1
−
SSE
R
SST
1
SST
E
l d C
fi i
d D
i
ã
Exemplo de Coeficiente de Determinação
P
l
t i d
ã
• Para o exemplo anterior de regressão
x
3 5 7 9 10y
1.19 1.73 2.53 2.89 3.26Σy = 11 60 Σy2 = 29 79 Σxy = 88 54
( )(
)
ny
2=
5 2 32
.
2=
26 9
.
Σy = 11.60, Σy = 29.79, Σxy = 88.54,
– SSE = 29.79-(0.35)(11.60)-(0.29)(88.54) = 0.05 – SST = 29.79-26.9 = 2.89
– SSR = 2.89-.05 = 2.84
2
Exemplo
/
D
i P d ã d E
Desvio Padrão de Erros
• Variancia de erros é SSE dividido pelos graus de liberdade (DOF):
liberdade (DOF):
– DOF: n−2 porque calculamos 2 parametros de regressão dos dados
dos dados.
– Assim a variância (mean squared error, MSE):
2
−
n
SSE
• Desvio padrão dos erros é a raiz quadrada:
s
n
e=
−
SSE
2
n
2
C
l ã d A
t
Correlação da Amostra
• Coeficente de determinação
R
2=
S S R
=
−
S S T
S S T
S S E
S S T
• Correlação da Amostra
n i i i xyy
y
x
x
s
1 2)
)(
(
−
−
=
∑
xy xy is
R
2 1amostra
da
Correlação
=
=
= y x xys
s
ç
Calculando os graus de liberdade de várias soma de
Calculando os graus de liberdade de várias soma de
quadrados
SST n-1 Precisa computar
y
SSY n Não depende de nenhum outro parâmetro
SS0 1 Precisa computar
y
SS0 1 Precisa computarSSE n-2 Precisa computar dois parâmetros da
y
regressão SSR 1 =SST-SSES S T
S S Y
S S
S S R
S S E
(
)
=
−
=
+
=
=
+
0
1
1
1
2
n
−
1
=
n
−
1
=
1
+
(
n
−
2
)
n
n
n
E
l d D
i P d ã d E
Exemplo de Desvio Padrão de Erros
• Para o exemplo de regressão, SSE era 0.05,
então MSE é 0 05/3 = 0 017 e s
= 0 13
então MSE é 0.05/3
0.017 e s
e0.13
• Observe a alta qualidade da regressão do
• Observe a alta qualidade da regressão do
exemplo:
– R2 = 0.98
– se = 0.13
Intervalos de Confiança para Regressões
• Regressão é calculada de uma única amostra da g população (tamanho n)
Diferentes amostras devem dar resultados – Diferentes amostras devem dar resultados
diferentes.
– Modelo verdadeiro é y = y
β
β
00 +β
β
11x– Parâmetros b0 e b1 são na verdadade médias retiradas das amostras da população.
Cálculo de Intervalos
para Parâmetros da Regressão
para Parâmetros da Regressão
• Desvio Padrão dos Parâmetros: • Desvio Padrão dos Parâmetros:
s
bs
1
x
2=
+
s
s
n
x
n x
s
b0=
e+
2 2∑
−
s
s
x
n x
b e 1=
2 2∑
−
• Intervalos de confiança são
b
i±
s
bi• Onde t tem n - 2 graus de liberdade
] 2 , 2 / 1 [ − n−
t
α• Onde t tem n 2 graus de liberdade •
s
e é o desvio padrão dos errosE
l d I
l d C
fi
d R
ã
Exemplo do Intervalo de Confiança da Regressão
• Lembre que se = 0.13, n = 5, Σx2 = 264, = 6.8 • Assimx
s
b 00 13
1
5
6 8
264
5 6 8
0 16
2 2=
+
−
=
.
( . )
(
)
.
s
b 15
264
5 6 8
0 13
264
5 6 8
20 004
=
=
( . )
.
(
)
.
• Usando um intervalo de confiança de 90% t0 95 3 =
b1
264
− ( . )
5 6 8
2• Usando um intervalo de confiança de 90% , t0.95;3 = 2.353
E
l d I
l d C
fi
d R
ã
Exemplo do Intervalo de Confiança da Regressão
• Assim, o intervalo b0b
é0.35
±
2.353(0.16) = (-0.03,0.73)
• b
1 é0 29
2 353(0 004)
(0 28 0 30)
0.29
±
2.353(0.004) = (0.28,0.30)
Intervalos de Confiança
ç
para Regressões Nonlineares
• Para “fits” nonlineares usando transformações
exponenciais:
exponenciais:
– Intervalos de confiança se aplicam aos parâmetros Intervalos de confiança se aplicam aos parâmetros transformados
– Não é valido para a transformação inversa sobre os intervalos
I
l
d C
fi
P di õ
Intervalos de Confiança para Predições
I l d fi i ã â
• Intervalos de confiança vistos são para os parâmetros – Quão certo podemos estar que os parâmetros estão
corretos?
• Finalidade da regressão é a predição – Quão precisas são as predições
Regressão oferece uma média das respostas – Regressão oferece uma média das respostas
P di õ
b
d
t
Predições baseadas em m amostras
• Desvio padrão para a média de futuras amostras de m observações em xp é
b
b
^ p(
x
−
x
)
1
1
2 p pb
b
x
y
=
0+
1(
)
s
s
m
n
x
x
x
n x
y e p m p $=
+
+
∑
−
1
1
2 2S
• Note que o desvio diminui qdo m → ∞Note que o desvio diminui qdo m → • Variância mínima em x =
x
Exemplo de Confiança
Exemplo de Confiança
das Predições
• Usando equações prévias, qual é o tempo previsto para 8 queries?
• Tempo = 0.35 + 0.29(8) = 2.67 • Desvio padrão de erros