Pedro Paulo Balestrassi
www.pedro.unifei.edu.br
ppbalestrassi@gmail.com
35-36291161 / 999012304 (cel)
Coeficiente de Correlação
Ex.: Suponha que o nosso desejo
seja o de quantificar a
associabilidade entre duas
variáveis relacionadas a cinco
agentes de uma seguradora.
Assim, temos:
X≡ Anos de experiência do agente.
Y ≡ Número de clientes do agente.
8 7 6 5 4 3 2 70 60 50
Experiência
Anos de
C
lie
nt
es
Agente x
y
A
2 48
B
4 56
C
5 64
D
6 60
E
8 72
(x, y) é um par aleatório
– Dados emparelhados
Diagrama de
Dispersão
y
x
x x
−
y y
−
x x
s
x
z
x
−
=
y
y
z
s
y
y
−
=
r=Correlação de Pearson
Série de dados
originais (x e y)
são valores
quantitativos.
O conjunto de pontos
é deslocado, tendo
agora como centro, os
valores médios.
A escala de x e y é
agora padronizada.
Isso torna os valores
independente da sua
unidade.
∑
=
=
n
x
y
i iz
z
n
Y
X
r
Corr
(
,
)
1
∑
=
=
=
n
i
x
iy
iz
z
n
Y
X
r
1
1
)
,
(
Corr
Quadrantes e Correlação
Agente
x
y
z
x
z
y
z
x
. z
y
A
2
48
-3
-12
-1.5
-1.5
2,25
B
4
56
-1
-4
-0.5
-0.5
0,25
C
5
64
0
4
0
0.5
0
D
6
60
1
0
0.5
0
0
E
8
72
3
12
1.5
1.5
2,25
Total
25 300
0
0
0
0
4,75
x x
−
y y
−
Cálculo simplificado de r
x = 5
S
x
=
2
S
y = 60
y
=
8
r = Correlação
(
X
,
Y
)
=
4
,
5
75
=
0
,
95
=
95
%
r
X Y
n
z z
n
x
x
s
y
y
s
x
y
i
n
i
x
i
y
i
n
i i=
=
=
−
−
=
=
∑
∑
Corr ( , )
1
1
1
1
(
)(
)
r
n
x x y
y
s s
X Y
s s
i
i
x
y
x
y
=
−
−
⋅
=
⋅
∑
1
Covariância ( , )
− ≤ ≤
1
r
1
A correlação apresentada aqui é linear. Existem outros tipos de correlação!
Pvalue p/ Correlação
Agente
x
y
A
2
48
B
4
56
C
5
64
D
6
60
E
8
72
Pearson correlation of Anos Exp and Clientes = 0,950
P-Value = 0,013
Ex.: Cálculo da correlação da tabela ao lado
Faça a análise de Correlação das
variáveis ao lado na planilha
Bidimensional.mtw
Correlação no Minitab
O Coeficiente
de Correlação é
também
chamado de
Coeficiente de
Pearson.
Correlação significa
Causa/Efeito?
A análise de regressão
é uma técnica estatística
usada para modelar e
investigar a relação
entre duas ou mais
variáveis. O modelo é
freqüentemente usado
para
previsões.
Regressão é um
teste
de hipótese
H
a
: O modelo permite
significativamente prever
a resposta.
Análise de Regressão
y
x
Linha de Regressão
A variável X é dita variável
independente (ou exógena), enquanto
Y é dita variável dependente (ou
endógena).
•
Y=f(x) Simples
•
Y=f(x,y,z...) Múltipla
Variáveis Indicativas (para Xs Discretos) x x x xx x x x x x x x x x x Y Xa Xb Xc Curvilínea (Um X) X Y
Linear Simples (Um X)
X Y
Múltipla (Dois ou mais Xs)
Y
X 2 X 1
Logística (Ys Discretos)
1 0 % y es X
Curvilínear (Dois ou mais Xs)
Y
X 1
X 2
x
y
=
α
+
β
y
x
x
1
x
2
x
3
,
ˆ
a
bx
y
=
+
Uma
importante
condição para
o uso de
regressão
simples é que
os resíduos (
e
)
sejam
independentes
de x.
Porque?
Curva de
Resíduos (e)
Resíduos
x
y
75
70
65
60
55
50
8
7
6
5
4
3
2
ei
ei
Σ
i
n
=
1 i
e
2
bx
a
y
ˆ
=
+
(
)
(
)
2
1
2
1
2
1
i
i
n
i
ˆ
i
n
i
i
i
n
i
e
min
y
y
min
y
a
bx
min
Σ
=
=
Σ
=
−
=
Σ
=
−
−
Regressão Linear Simples
i
yˆ
i
2
1 i
n
i
=
e
Σ
y
ˆ
=
a
+
bx
(
)
(
)
2
1
2
1
2
1
i
n
i
i
ˆ
i
i
n
i
i
n
i
e
min
y
y
min
y
a
bx
min
Σ
=
=
Σ
=
−
=
Σ
=
−
−
.
0
e
0
1
2
1
2
=
∑
=
∑
=
=
n
i
i
n
i
d
i
b
d
a
∂
∂
∂
∂
∑
∑
=
=
=
−
−
−
=
−
−
−
n
i
i
i
i
n
i
i
i
bx
a
y
x
bx
a
y
1
1
,
0
)
(
2
,
0
)
(
2
−
=
=
−
−
=
∑
∑
=
=
,
,
)
(
)
(
1
2
1
x
b
y
a
S
S
x
x
y
x
x
b
xx
xy
n
i
i
n
i
i
i
+
=
=
+
=
∑
∑
∑
∑
∑
=
=
=
=
n
i
n
i
n
i
i
i
i
n
i
n
i
i
i
x
b
x
a
y
x
i x
b
na
y
1
1
2
1
1
1
,
Ufa!
Obter a equação da reta (chamada de reta dos mínimos quadrados)
para os seguintes pontos experimentais:
x
1
2
3
4
5
6
7
8
y
0,5
0,6
0,9
0,8
1,2
1,5
1,7
2,0
Traçar a reta no diagrama de dispersão. Calcular o coeficiente de
correlação linear.
Qual o valor previsto para x=9?
.
42
162
204
8
)
36
(
204
,1
,
9
4
,
41
5
,
50
8
2
,
9
36
5
,
50
2
=
−
=
−
=
=
−
=
⋅
−
=
xx
xy
S
S
Regressão: By Hand
.
42
162
204
8
)
36
(
204
,1
,
9
4
,
41
5
,
50
8
2
,
9
36
5
,
50
2
=
−
=
−
=
=
−
=
⋅
−
=
xx
xy
S
S
.
174
,
0
976
,
0
150
,1
8
36
217
,
0
8
2
,
9
,
217
,
0
42
1,
9
=
−
=
⋅
−
≅
−
=
≅
=
=
x
b
y
a
S
S
b
xx
xy
x
y
ˆ
=
0
,
174
+
0
,
217
Regressão: Cálculos
Regressão: Gráfico
x
y
8
7
6
5
4
3
2
1
0
2,00
1,75
1,50
1,25
1,00
0,75
0,50
S 0,121335 R-Sq 95,7% R-Sq(adj) 95,0%Fitted Line Plot
98
,
0
06
,
2
42
1,
9
,
06
,
2
58
,
10
64
,
12
8
)
2
,
9
(
64
,
12
2
≅
⋅
=
=
∴
=
−
=
−
=
yy
xx
xy
yy
S
S
S
r
S
Relembre Correlação!
Regressão: Correlação
Regressão:Teste Hipóteses
Para Teste de Hipóteses, considera-se:
Ho:a=0
,
ˆ
a
bx
y
=
+
Ho:b=0
SE Coef (a)=
SE Coef (b)=
Regressão linear simples no Minitab
Ajuste da Regressão
Linear
R-quadrado é a
porcentagem da variação
explicada pelo seu modelo.
R-quadrado (ajustado) é a
porcentagem da variação
explicada pelo seu modelo,
ajustada para o número de
termos em seu modelo e o
número de pontos de dados.
O “valor-p” para a
regressão é para ver se o
modelo de regressão inteiro
é significativo.
—
H
a: O modelo permite
significativamente
Ajustes
8 6 4 2 0 2,0 1,5 1,0 0,5 S 0,121335 R-Sq 95,7% R-Sq(adj) 95,0% X Y 8 6 4 2 0 2,0 1,5 1,0 0,5 S 0,0980767 R-Sq 97,7% R-Sq(adj) 96,7% X Y 8 6 4 2 0 2,0 1,5 1,0 0,5 S 0,108960 R-Sq 97,7% R-Sq(adj) 96,0% X YFitted Line Plot
Y = 0,1750 + 0,2167 X Y = 0,4071 + 0,07738 XFitted Line Plot
+ 0,01548 X^2
Fitted Line Plot
Y = 0,4571 + 0,0254 X + 0,02911 X^2 - 0,001010 X^3
Intervalos de confiança e de previsão
Uma faixa (ou intervalo) de
confiança é uma medida da
certeza da forma da linha de
regressão ajustada. Em geral,
uma faixa de 95% implica em
uma chance de 95% de que
as linha verdadeira fique
dentro da faixa. [Linhas
vermelhas]
Uma faixa (ou intervalo) de
previsão é uma medida da
certeza da dispersão dos
pontos individuais em torno da
linha de regressão. Em geral,
95% dos pontos individuais
(da população em que a linha
de regressão se baseia)
estarão contidos dentro da
faixa. [Linhas azuis]
Pratique Regressão Linear Simples
Determine a função de transferência entre o Número de Setups
e o Tempo de Ciclo para diversas operações em uma certa
empresa. Use a planilha
cycletime.mtw.
Faça a análise de Resíduos.
Qual a previsão do Tempo de Ciclo para uma operação que
consiste em 10 Setups de equipamento?
30 40 50 -3 -2 -1 0 1 2 3 Pred. Y Residual 0 50 100 -3 -2 -1 0 1 2 3 Pred. Y Residual 0 50 100 -3 -2 -1 0 1 2 3 Time Order Residual 0 50 100 -3 -2 -1 0 1 2 3 Time Order Residual 3 4 5 6 7 8 9 10 11 12 -3 -2 -1 0 1 2 3 X Residual 10 20 30 -3 -2 -1 0 1 2 3 X Residual -3 -2 -1 0 1 2 3 Nscore -3 -2 -1 0 1 2 3 Nscore