1
© UNESP 6 Agosto 2008
Autor: Anibal Tavares de Azevedo
Limeira, 14 de Maio 2016
SIMULAÇÃO DE SISTEMAS
AULA 13
2
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
3
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
Garbage in,Garbage out
Often abbreviated as GIGO, this is a famous computer axiom meaning that if invalid data is entered into a
system
, the resultingoutput will also be invalid. Although originally applied to computer software, the axiom holds true for all systems, including,
for example, decision-making systems.
5
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
6
© UNESP 6 Agosto 2008
Exemplo 1: Identificação Outlier
Q3
Q1
Max NO
Outlier
75%
25%
Mediana
50%
Eliminar
Min NO
7
© UNESP 6 Agosto 2008
Exemplo 2: Análise de correlação
O diagrama de dispersão (scatter plot)
permite a
visualização de que
não existe correlação
dos dados.
COLETA E TRATAMENTO DE DADOS
8
Exemplo 3: Inferência
Para determinar a função de distribuição associada aos
dados é necessário construir um histograma. Para tanto, é
necessário determinar o
número de classes. Uma forma é a
raiz quadrada do número de observações ou regra de
Sturges:
n
K
=
1
+
3
,
3
log
10Número de classes
Número de dados
O tamanho
h
de cada classe é dado por:
9
© UNESP 6 Agosto 2008
Para o caso particular existem 200 chegadas que geraram
199 intervalo de tempo. Desses 199 valores 1 foi considerado
outlier (valor 728) e eliminado, restando, portanto, 198
valores de intervalo de tempo. Assim:
9
6
,
8
30
,
2
*
3
,
3
1
198
log
3
,
3
1
+
10=
+
=
≅
=
K
Número de classes
Número de dados
O tamanho
h
de cada classe é dado por:
78
,
4
9
43
SO
amostra
amplitude
=
=
=
K
h
Maior valor
sem outlier
Exemplo 3: Inferência
COLETA E TRATAMENTO DE DADOS
10
© UNESP 6 Agosto 2008
=sum(H5:H204) 1
2 Total na classe 1
Exemplo 3: Inferência
11
© UNESP 6 Agosto 2008
Intervalo de tempo [h] Número de Chegadas
[0,0 - 4,8) 96 [4,8 - 9,6) 55 [9,6 – 14,3) 25 [14,3 – 19,1) 13 [19,1 – 23,9) 4 [23,9 – 28,7) 5 [28,7 – 33,4) 0 [33,4 – 38,2) 0
>38,2 1
Média intervalo entre as chegadas sem considerar o outlier = 6,83
COLETA E TRATAMENTO DE DADOS
12
R2= 0,5935 R2= 0,7925
Polinômio de grau 2 Polinômio de grau 4
Exemplo 4: Ajuste de curvas
13
© UNESP 6 Agosto 2008
A medida R2 serve para indicar, em percentagem, o
quanto a estimativa realizada pelo modelo proposto ( ) consegue explicar os dados observados (yi).
Assim, um valor de R2 = 0,8576 indica que 85,76% da
variável dependente pode ser explicada pelo modelo.
R2= 0,5935 R2= 0,7925
Polinômio de grau 2 Polinômio de grau 4
i
y
ˆ
EXPLICAÇÃO SOBRE R
214
© UNESP 6 Agosto 2008
ESTIMAÇÃO DE PARÂMETROS
DISTRIBUIÇÃO
PARÂMETROS
ESTIMADOR
SUGERIDO
POISSON
α
EXPONENCIAL
λ
NORMAL
µ, σ
2X
=
α
ˆ
X
1
ˆ
=
λ
2 2
ˆ S X
= =
σ
µ
)
Existem estimadores
para outras
distribuições
Lognormal, Weibull, Gamma e Beta.
15
© UNESP 6 Agosto 2008
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.5 1 1.5 2 2.5 3
O CASO PARTICULAR DA EXPONENCIAL
t
f(t)
16
DADOS DE ENTRADA
Como verificar se os dados de entrada, isto é, os intervalos entre as chegadas e os tempo de serviço, são exponenciais, por exemplo?
Suponha que o intervalo entre as chegadas é dado por t1, t2, ..., tn. Pode ser mostrado que uma estimativa
razoável da taxa de chegada é dada por:
∑
==
ni i
t
n
1
ˆ
17
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
35
1
140
4
50
40
30
20
4
ˆ
1
=
=
+
+
+
=
=
∑
=n i
i
t
n
λ
Por exemplo, sejam t1 = 20, t2 = 30, t3 = 40 e t4 = 50,
então, existem 4 chegadas em um intervalo de 140 unidades de tempo e na média ocorre 1 chegada a cada 35 unidades de tempo. Isto é justificado através da fórmula que fornece a estimativa para a taxa de chegada λ:
A partir da estimativa de λ é possível verificar se é verdadeira ou não a hipótese de que o intervalo entre as chegadas t1, t2, ..., tn é governado pela função de distribuição exponencial dada por:
t
e
t
f
(
)
=
λ
ˆ
−λˆ18
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
TESTES ESTATÍSTICOS
DE AJUSTE DE CURVAS PARA
19
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
A forma mais simples de realizar tal verificação é empregar o teste de aderência Chi-quadrado (existe também o teste de Komolgorov-Smirnov, que será discutido mais adiante).
Passo 1:Quebrar o conjunto das possíveis chegadas em k categorias
.
Passo 2: Assumir que f(t) governa o fenômeno do
tempo entre as chegadas para estimar o número de ti´s
que devem estar em cada categoria i: oi.
Passo 3: Aplicar a fórmula a seguir para calcular a estatística da chi-quadrado χ2(obs) para os dados
observados:
∑
= − = k i i i i e e o obs 1 22 ( )
) (
χ
20
DADOS DE ENTRADA
∑
= − = k i i i i e e o obs 1 22 ( )
) (
χ
O valor de χ2(obs) segue uma distribuição chi-quadrado
com k-2 graus de liberdade. Se χ2(obs) for pequeno,
então, é razoável assumir que os ti´s são amostras de uma variável aleatória com distribuição f(t). Por exemplo, se houver uma aderência perfeita, então, oi = ei para i = 1, 2,..., k, resultando em χ2(obs)com valor
igual a zero. Se χ2(obs) for muito grande, então,
21
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
∑
=
− = k
i i i i
e e o obs
1
2
2 ( )
) (
χ
H0: t1, t2, ..., tn é uma amostra aleatória da variável aleatória com distribuição f(t).
Hα: t1, t2, ..., tn não é uma amostra aleatória da variável aleatória com distribuição f(t).
A hipótese H0 será aceita se χ2(obs) ≤ χ2
k-r-1(α), caso
contrário, Hα será aceita. O valor α corresponde a área à direita de χ2
k-r-1(α). O valor r é o número de
parâmetros que devem ser estimados para especificar a distribuição do intervalo entre as chegadas. Se o intervalo entre as chegadas for exponencial, então, r = 1. Se for uma Erlang, então, r = 2. O valor k é o número de categorias.
22
© UNESP 6 Agosto 2008
ANÁLISE ESTATÍSTICA
α% das observações
⇔ α% da área sob a curva
χ2 r(α)
χ2 é função
de distrib. Chi-quadrado
y
23
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
Chegada Intervalo 1 0,01 2 0,07 3 0,03 4 0,08 5 0,04 6 0,10 7 0,05 8 0,10 9 0,11 10 1,17 Chegada Intervalo 11 1,50 12 0,93 13 0,54 14 0,19 15 0,22 16 0,36 17 0,27 18 0,46 19 0,51 20 0,11 Chegada Intervalo 21 0,56 22 0,72 23 0,29 24 0,04 25 0,73
Exemplo 5: Verificar se as observações são tais que
correspondem a função de distribuição
exponencial.
24
DADOS DE ENTRADA
72
,
2
19
,
9
25
ˆ
1=
=
=
∑
= n i it
n
λ
Observar que:A função de probabilidade exponencial será dada por:
25
© UNESP 6 Agosto 2008
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.5 1 1.5 2 2.5 3
DADOS DE ENTRADA
Função de distribuição Exponencial 2,72e-2,72t
t
f(t)
26
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
Escolhendo 5 categorias tal que a probabilidade de que uma observação A esteja em uma das 5 categorias seja de 0,20. Assim: ei = 25*(0,20) = 5 observações para
cada categoria. Para obter os limites de cada categoria é preciso empregar a função de distribuição acumulada para A:
∫
−=
−
−=
≤
=
t s te
ds
e
t
A
P
t
F
0
72 , 2 72
, 2
1
72
27
© UNESP 6 Agosto 2008
0 0,08 0,19 0,34 0,59 1 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
DADOS DE ENTRADA
Função de distribuição acumulada da Exponencial f(t)
t
F(t)
28
DADOS DE ENTRADA
Os limites de cada categoria serão:
Categoria Intervalo
1 0 ≤ t < m1 minutos
2 m1 ≤ t < m2 minutos
3 m2 ≤ t < m3 minutos
4 m3 ≤ t < m4 minutos
5 m4 ≤ t minutos
Observar que:
29
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
Seja F(t) = 1 – e-2,72t, então, para qualquer número p,
achar o valor t que satisfaz F(t) = p. O valor t pode ser encontrado com:
Aplicando logarítmo na base e dos dois lados de (1):
p
e
t=
−
−2,721
t
e
p
2,721
−
=
− (1)72
,
2
)
1
ln(
−
−
=
p
t
(2) 30© UNESP 6 Agosto 2008
DADOS DE ENTRADA
Aplicando (2) para encontrar m1, m2, m3 e m4:
08
,
0
72
,
2
)
2
,
0
1
ln(
1=
−
−
=
m
19
,
0
72
,
2
)
4
,
0
1
ln(
2=
−
−
=
m
34
,
0
72
,
2
)
6
,
0
1
ln(
3
−
=
−
=
m
59
,
0
72
,
2
)
8
,
0
1
ln(
4
−
=
−
=
m
Categoria Intervalo
1 0 ≤t< 0,08 minutos
2 0,08 ≤t< 0,19 minutos
3 0,19 ≤t< 0,34 minutos
4 0,34 ≤t< 0,59 minutos
31
© UNESP 6 Agosto 2008
0 0,08 0,19 0,34 0,59 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
DADOS DE ENTRADA
Função de distribuição acumulada da Exponencial F(t)
t
F(t)
32
DADOS DE ENTRADA
Após classificar os dados nas 5 categorias, encontra-se: o1 = 6, o2 = 5, o3 = 4, o4 = 5 e o5 = 5. O número de valores esperados em cada categoria é dado por: e1 = e2 = e3 = e4 = e5 = 0,2*(25) = 5. Com isto. Calcula-se o valor de χ2(obs):
∑
= − = k i i i i e e o obs 1 2 2( ) ( )χ 5 ) 5 5 ( 5 ) 5 5 ( 5 ) 5 4 ( 5 ) 5 5 ( 5 ) 5 6 ( ) ( 2 2 2 2 2
2 obs = − + − + − + − + −
33
© UNESP 6 Agosto 2008
Lembrando que a hipótese H0 será aceita se χ2(obs) ≤
χ2
k-r-1(α), caso contrário, Hα será aceita.
Seja α = 0,05 e usando a distribuição exponencial (i.e. r = 1), então:
χ2
5-1-1(α) = χ23(0,05) = 7,81.
Como χ2(obs) = 0,40, então: χ2(obs) ≤ χ2
k-r-1(α) e a
hipótese de que o tempo entre as chegadas segue uma distribuição exponencial com chegada de taxa de média de chegada de λ = 2,72 por minuto pode ser aceita.
No Excell o valor da chi-quadrado pode obtido com:
=CHINV(.05,3) = 7,81.
DADOS DE ENTRADA
H0: t1, t2, ..., tn é uma amostra aleatória da variável aleatória com distribuição f(t).
34
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
Existem duas questões importantes para a aplicação do teste Chi-quadrado:
(i) Número mínimo de valores para aplicar o teste. (ii)Número de classes.
35
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
Tamanho da amostra(n)
Número de classes(k)
20
Não usar o teste
50
5 a 10
100
10 a 20
> 100
De n
1/2até n/5
Recomendações de quando usar o teste χ2 e acerca do
número de categorias (k) de acordo com o tamanho da amostra (n):
Outra recomendação é a de usar categorias com o mesmo número esperado de dados (ei) para distribuições contínuas. Neste caso, deve-se usar também que:
ei = n*pi ≥ 5 → n*(1/k) ≥ 5 → k ≤n/5
36
DADOS DE ENTRADA
Observações adicionais sobre o teste Chi-quadrado:
(i) O teste Chi-quadrado exige que os dados sejam agrupados em k classes e no caso de distribuições contínuas estes agrupamentos são arbitrários.
(ii)A modificação no número de classes e no tamanho dos intervalos pode afetar o valor de χ2(obs) de que para alguns agrupamentos a hipótese H0 pode ser
aceita e em outros rejeitada.
37
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
Teste de Kolmogorov-Smirnov:
Este teste compara a função de distribuição acumulada (FDA) esperada F(x) com a FDA observada SN(x), onde N
é o número de observações da amostra.
Se a amostra fornece valores R1, R2, ..., RN, então, a
FDA empírica de SN(x) será dada por:
N
x
R
R
R
de
no
x
S
N(
)
=
.
{
1,
2,...,
N}
≤
Conforme N torna-se grande, SN(x) deve se tornar uma melhor aproximação para F(x), provendo, portanto, evidências de que a hipótese H0 é verdadeira.
38
© UNESP 6 Agosto 2008
H0: R1, R2, ..., RN é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).
Hα: R1, R2, ..., RN não é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).
Observando que:
DADOS DE ENTRADA
O teste de Kolmogorov-Smirnov usa a maior desvio absoluto entre F(x) e SN(x) no intervalo da variável aleatória e emprega a seguinte fórmula:
D = max |F(x) – SN(X)| (1)
39
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
Para n>40:
40
DADOS DE ENTRADA
Passos do Teste de Kolmogorov-Smirnov:
Passo 1: Ordenar os dados do menor para o maior. Se R(i) corresponder ao i-ésimo menor dado, então:
R(1) ≤ R(2)≤...≤ R(N)
Passo 2: Calcular: e
Passo 3: Calcular: D = max(D+, D-).
Passo 4: Encontrar o ponto crítico Dα nas tabelas anteriores para o nível de significância α e o tamanho
−
=
≤ ≤ +
) ( 1
max
i Ni
N
R
i
D
−
−
=
≤ ≤ −
N
i
R
D
iN i
41
© UNESP 6 Agosto 2008
Exemplo 6: Suponha que cinco números foram
gerados: 0,44, 0,81, 0,14, 0,05 e 0,93. Aplicar
o teste de Kolmogorov-Smirnov com nível de
significância
α
= 0,05 para verificar se os valores
seguem uma função de distribuição de
probabilidade uniforme.
Os passos 1 e 2 são dados pela seguinte tabela:
R(i) 0,05 0,14 0,44 0,81 0,93
i/N 0,20 0,40 0,60 0,80 1,00
i/N – R(i) 0,15 0,26 0,16 - 0,07
R(i)-(i-1)/N 0,05 - 0,04 0,21 0,13
DADOS DE ENTRADA
42
© UNESP 6 Agosto 2008
Passo 3: Calcular: D = max(D+, D-) = max(0,26, 0,21) = 0,26
DADOS DE ENTRADA
Passo 4: Encontrar o ponto crítico Dα nas tabelas anteriores para o nível de significância α = 0,05 e o tamanho N = 5:
43
© UNESP 6 Agosto 2008
DADOS DE ENTRADA
Passo 5: Se D ≤ Dα, então, a hipótese H0 é aceita, caso contrário
é rejeitada. Como D = 0,26 ≤ Dα = 0,563. Lembrando que:
H0: R1, R2, ..., RN é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).
Hα: R1, R2, ..., RN não é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).
Como H0 é aceita, então, isto significa que os dados possuem FDA uniforme de acordo com o teste de Kolmogorov-Smirnov.
44
DADOS DE ENTRADA
AUSÊNCIA DE ANÁLISES
ESTATÍSTICAS ACERCA DOS
45
© UNESP 6 Agosto 2008
DISTRIBUIÇÃO TRIANGULAR
Projeto 1: Em um cabeleireiro 3 tipos de clientes
podem ser atendidos com diferentes tempos de
processamento de acordo com uma função de
distribuição de probabilidade triangular t(7,8,9).
Tipo de cliente
Tempo do corte (minutos)
Criança Mulher Homem
Média
8 12 10
Metade
2 3 2
A probabilidade de chegada de uma criança é de
20%, uma mulher de 50% e um homem de 30%. O
tempo de simulação é de 480 minutos. Quantos
clientes de cada tipo são atendidos? E estão no salão?
46
© UNESP 6 Agosto 2008
DISTRIBUIÇÃO TRIANGULAR
b
a
Tempo processamento2/(b-a)
9
7
Tempo processamento2/(9-7)
x
8
47
© UNESP 6 Agosto 2008
DADOS DO HISTÓRICO
Simulador
Dados do histórico
“Se os dados estão disponíveis e se considera que o sistema não sofrerá grandes alterações de comportamento de um período para outro, é sempre preferível utilizar a série histórica – ou seja, os dados reais – em detrimento de modelos estatísticos (...).”
Só não é recomendado utilizar quando:
- Se preveem grandes alterações no futuro;
- Dados coletados em um período curto.
p.42
48
Dados de Séries Temporais
Experimento inspirado no texto do livro “O andar do bêbado” de Leonard Mlodinow. Tente adivinhar as próximas cores da seguinte sequência:
1 2 3 4 5 6 7 8 9 10 11 12
49
© UNESP 6 Agosto 2008
DADOS DO HISTÓRICO
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
Sequência de coelhos
Sequência realizada
Sequência repetida
1 2 3 4 5 6 7 8 9 10 11 12
75% de acertos
50% de acertos
50
© UNESP 6 Agosto 2008
DADOS DO HISTÓRICO
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
Sequência de coelhos
Sequência realizada
Sequência repetida
1 2 3 4 5 6 7 8 9 10 11 12
51
© UNESP 6 Agosto 2008
“A explicação que ofereci é estatística:
resultados extremos (tanto altos como
baixos) têm maior probabilidade de
serem
encontrados
em
amostras
pequenas do que nas grandes.”
(...)
“Se você é o pesquisador, esse resultado
sai caro para você, porque você gastou
tempo e esforço, e não conseguiu
confirmar uma hipótese que era de fato
verdadeira.
Usar
uma
amostra
suficientemente grande é o único modo
de reduzir o risco.
Pesquisadores que
pegam uma amostra pequena demais se
põem
à
mercê
do
acaso
da
amostragem.”
DADOS DO HISTÓRICO
52