AULA 4 – COLETA E TRATAMENTO DE DADOS DE ENTRADA DOS MODELOS DE FILAS
Autor: Anibal Tavares de Azevedo
SIMULAÇÃO DE SISTEMAS
Problema Descrição LINK
1 Lab 4 – Exercício 1 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdElYbzgtc3lIeHpOR0RBT2pJNjNFbUE&usp
=sharing
2 Lab 4 – Exercício 2 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdDhiTkt5U3J4Z2xzRDUwamZ4YXNCQVE&
usp=sharing
3 Lab 4 – Exercício 3 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdFFBenlKU3NVUnBjYVE2ampScGtlckE&u sp=sharing
4 Lab 4 – Exercício 4 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdFNPMGpLZXZuMTk2d2dfR2dxSzhGaEE
&usp=sharing
COLETA E TRATAMENTO DE DADOS
Os exercícios estão disponíveis nos links dados abaixo:
Problema Descrição LINK
5 Lab 4 – Exercício 5 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdFEzcUpfQVdISG94NHluZWZYR2tRVUE&
usp=sharing
Os exercícios estão disponíveis nos links dados abaixo:
Aula preparada a partir do Capítulo 2 - Modelagem dos Dados de Entrada - do seguinte livro:
COLETA E TRATAMENTO DE DADOS
Em um modelo de filas, os tempos de espera emfilaou nosistema (fila + serviço) sãoparâmetros de desempenhodo sistema.
Estes valores dependem dos fenômenos aleatórios dointervalo de tempoentre aschegadase dotempo de atendimento.
Tempo em fila Supermercado Tempo Serviço
Intervalo entre as chegadas
e
Tempo de atendimento
COLETA E TRATAMENTO DE DADOS
Antes de realizar acoleta de dadosé necessário definir o período no qual a mesma deverá ser realizada, isto é, o período mais crítico do sistema.
12:00 18:00 20:00
Horário Crítico
A coleta de dados visa formar uma amostra da população. Três cuidados devem ser observados na obtenção de uma amostra.
População
Amostra
(1) O tamanho da amostra deve estar entre 100 e 200 observações. Amostras com menos de 100 observações podem comprometer a identificação do modelo probabilístico e acima de 200 não trazem ganhos significativos.
(2) Coletar e anotar as observações na mesma ordem em que o fenômeno ocorre de modo a permitir análise de correlação.
(3) Se existir suspeita de que os dados mudam em função do dia da coleta, então, a mesma deve ser refeita em outros dias.
COLETA E TRATAMENTO DE DADOS
Tempo de ocorrência de cada uma das chegadas (100 primeiros valores)
00:00:11 00:00:59 00:01:59 00:02:52 00:03:31 00:04:40 00:06:01 00:07:23 00:08:08 00:09:06 00:00:12 00:01:18 00:02:01 00:02:57 00:03:49 00:04:43 00:06:28 00:07:27 00:08:15 00:09:06 00:00:17 00:01:20 00:02:10 00:03:08 00:04:01 00:04:49 00:06:29 00:07:27 00:08:17 00:09:06 00:00:19 00:01:30 00:02:22 00:03:08 00:04:03 00:04:52 00:06:30 00:07:44 00:08:24 00:09:09 00:00:20 00:01:30 00:02:27 00:03:13 00:04:03 00:05:10 00:06:36 00:07:48 00:08:41 00:09:09 00:00:28 00:01:36 00:02:32 00:03:14 00:04:15 00:05:12 00:06:38 00:07:48 00:08:54 00:09:16 00:00:35 00:01:40 00:02:35 00:03:16 00:04:20 00:05:26 00:06:39 00:07:51 00:08:59 00:09:25 00:00:37 00:01:42 00:02:37 00:03:19 00:04:22 00:05:39 00:07:07 00:07:52 00:09:00 00:09:30
Exemplo 1: Coleta de dados de chegadas
Tempo de ocorrência de cada uma das chegadas (100 últimos valores)
00:21:51 00:23:38 00:25:26 00:26:27 00:27:46 00:29:25 00:30:48 00:32:02 00:32:35 00:33:51 00:21:58 00:23:58 00:25:30 00:26:55 00:28:06 00:29:37 00:30:58 00:32:06 00:32:38 00:33:53 00:22:09 00:24:02 00:25:38 00:26:56 00:28:09 00:29:39 00:31:04 00:32:07 00:32:50 00:34:05 00:22:09 00:24:05 00:25:50 00:26:57 00:28:21 00:29:42 00:31:13 00:32:11 00:32:59 00:34:09 00:22:31 00:24:32 00:25:54 00:27:12 00:28:28 00:29:45 00:31:31 00:32:14 00:33:01 00:34:17 00:22:43 00:24:40 00:26:03 00:27:22 00:28:31 00:29:48 00:31:36 00:32:19 00:33:21 00:34:20 00:22:50 00:24:56 00:26:07 00:27:27 00:28:43 00:29:49 00:31:38 00:32:27 00:33:29 00:34:31 00:22:50 00:25:03 00:26:08 00:27:30 00:29:07 00:29:55 00:31:56 00:32:31 00:33:42 00:34:36 00:23:09 00:25:22 00:26:18 00:27:39 00:29:13 00:29:56 00:32:01 00:32:34 00:33:46 00:34:39 00:23:19 00:25:25 00:26:26 00:27:42 00:29:24 00:30:39 00:32:01 00:32:34 00:33:50 00:34:47
Exemplo 1: Coleta de dados de chegadas
1 1
COLETA E TRATAMENTO DE DADOS Obtendo intervalo de tempo entre as chegadas
2
Obtendo intervalo de tempo entre as chegadas
3
COLETA E TRATAMENTO DE DADOS Obtendo intervalo de tempo entre as chegadas
Número de segundos em 24 horas
Tempo entre as chegadas (100 primeiros valores)
11 6 8 9 0 2 13 3 3 2
1 19 2 5 18 3 27 4 7 0
5 2 9 11 12 6 1 0 2 0
2 10 12 0 2 3 1 17 7 3
1 0 5 5 0 18 6 4 17 0
8 6 5 1 12 2 2 0 13 7
7 4 3 2 5 14 1 3 5 9
2 2 2 3 2 13 28 1 1 5
15 3 1 9 9 6 8 9 1 728
1 6 5 3 7 3 5 4 3 4
Exemplo 1: Coleta de dados de chegadas
COLETA E TRATAMENTO DE DADOS
Tempo entre as chegadas (100 últimos valores)
9 19 1 1 4 1 9 1 1 1
7 20 4 28 20 12 10 4 3 2
11 4 8 1 3 2 6 1 12 12
0 3 12 1 12 3 9 4 9 4
22 27 4 15 7 3 18 3 2 8
12 8 9 10 3 3 5 5 20 3
7 16 4 5 12 1 2 8 8 11
0 7 1 3 24 6 18 4 13 5
19 19 10 9 6 1 5 3 4 3
10 3 8 3 11 43 0 0 4 8
Exemplo 1: Coleta de dados de chegadas
Exemplo 2: Estatísticas sobre os dados
Q3 Q1
Max NO Outlier
75%
Mediana 50% 25%
Eliminar
Min NO
COLETA E TRATAMENTO DE DADOS Exemplo 2: Estatísticas sobre os dados
=QUARTILE(D6:D205,1)
1 Até 25% dos valores
=median(D5:D204)
2 Até 50% dos valores
=QUARTILE(D6:D205,3)
3 Até 75% dos valores
Q1
Q3
Mediana
Exemplo 2: Estatísticas sobre os dados
=small(D6:D205;COUNTIF(D6:D205;"<"& H13 )+1)
1 Achar o 1º menor
valor não outlier
=large(D6:D205;COUNTIF(D6:D205;">"& H15 )+1)
2 Achar o 1º maiorvalor
não outlier
Max NO Min NO
COLETA E TRATAMENTO DE DADOS Exemplo 2: Estatísticas sobre os dados
=H8-1.5*H14
2 Limite inferiora partir do
qual ocorrem outliers
=H10+1.5*H14
3 Limite superiora partir do
qual ocorrem outliers
= H10 - H8
1 Amplitude Inter-quartil
Q3-Q1
Lim sup Lim inf
1 2
3
Exemplo 2: Estatísticas sobre os dados
COLETA E TRATAMENTO DE DADOS Exemplo 2: Estatísticas sobre os dados
Q3 Q1
Lim inf = Q1 - 1,5(Q3-Q1) Lim Sup = Q3 + 1,5(Q3-Q1) Outlier
Max NO
Min NO
Exemplo 2: Estatísticas sobre os dados
=average(D6:D205)
1 Achar a média dos
valores com outliers
=var(D6:D205)
2 Achar variância dos
valores com outliers
COLETA E TRATAMENTO DE DADOS Exemplo 3: Eliminando os outliers
1 2
3
...
Identificando outliers: 728
Não devem ser considerados no cálculo da média nem para
encontrar a função de distribuição de probabilidade !
Exemplo 3: Eliminando os outliers
Sem outlier !
Com outlier !
COLETA E TRATAMENTO DE DADOS Exemplo 4: Análise de correlação
Removido os outliers é importante verificar se a amostra representa uma sequência de valores independentes e identicamente distribuídos (i.i.d), isto é, se não existe correlação entre os valores. Esta verificação é importante para se poder aplicar os dados no modelos teóricos.
Modelo de Fila M/M/1/GD/∞∞∞/∞∞ ∞∞∞:
Este modelo supõe:
1 2 3 4 5 6
1 Natureza do processo de chegada. Ex.: M – variáveis aleatórias iid como função de distribuição exponencial.
2 Natureza do processo de serviço. Ex.: M – variáveis
Exemplo 4: Análise de correlação
A hipótese de independência não é válida em situações em que existe uma “curva de aprendizado”. Por exemplo, os tempos de atendimentode um caixa de supermercado em treinamento irão, em princípio, apresentar um decréscimo ao longo do tempo até atingir uma estabilidade em torno de uma função de distribuição.
Dia 1 Serviço = 30s
Dia 5 Serviço = 5s
Dia 10 Serviço = 1s
COLETA E TRATAMENTO DE DADOS Exemplo 4: Análise de correlação
Exemplo 4: Análise de correlação
1
2
4
3 Eliminar o valor 728 ! Com outlier
Sem outlier
1
COLETA E TRATAMENTO DE DADOS Exemplo 4: Análise de correlação
1
2
3
Exemplo 4: Análise de correlação
O diagrama de dispersão (scatter plot) permite a visualização de quenão existe correlaçãodos dados.
COLETA E TRATAMENTO DE DADOS Exemplo 4: Análise de correlação
Dados com correlação
linear !
Exemplo 4: Análise de correlação
É possível, ainda, empregar testes estatísticos para verificar a correlação dos dados. Mas, neste caso, é necessário saber, a priori, a função de distribuição com a qual se quer comparar os dados como, por exemplo, exponencial, normal, etc.
) ( ) ( ) ( ) (
) ( ) ( ) (
2 2 2
, 2
Y E Y
E X E X
E
Y E X E XY E
Y
X − −
= − ρ
Medida de correlação linear Esperança ou média
de X*Y
Quadrado da média de X Esperança ou média
de Y
) ( ) ( )
(XY E X E Y
E −
ρ = 0.75
COLETA E TRATAMENTO DE DADOS Exemplo 4: Análise de correlação
Exemplo 4: Análise de correlação
Uma alternativa é uso de testes não-paramétricos que, em geral, não são conclusivos !!
COLETA E TRATAMENTO DE DADOS Exemplo 5: Inferência
Para determinar a função de distribuição associada aos dados é necessário construir um histograma. Para tanto, é necessário determinar o número de classes. Uma forma é a raiz quadrada do número de observações ou regra de Sturges:
n K =1+3,3log10
Número de classes Número de dados
O tamanhohde cada classe é dado por:
h=amplitudeKdaamostra
Exemplo 5: Inferência
Para o caso particular existem 200 chegadas que geraram 199 intervalo de tempo. Desses 199 valores 1 foi considerado outlier (valor 728) e eliminado, restando, portanto, 198 valores de intervalo de tempo. Assim:
9 6 , 8 30 , 2
* 3 , 3 1 198 log 3 , 3
1+ 10 = + = ≅
= K
Número de classes Número de dados
O tamanhohde cada classe é dado por:
78 , 9 4 43 SO amostra
amplitude = =
= K
h Maior valor sem outlier
COLETA E TRATAMENTO DE DADOS Exemplo 5: Inferência
=if(E6<4.8;1;0)
1 2 =if(E6>=9.6;if(E6<14.3;1;0);0) Classe 1: [0,0-4,8] Classe 3: [9,6-14,3]
Exemplo 5: Inferência
=sum(H5:H204) 1
2 Total na classe 1
Intervalo de tempo [h] Número de Chegadas
[0,0 - 4,8) 96
[4,8 - 9,6) 55
[9,6 – 14,3) 25
[14,3 – 19,1) 13
[19,1 – 23,9) 4
[23,9 – 28,7) 5
[28,7 – 33,4) 0
[33,4 – 38,2) 0
>38,2 1
Média intervalo entre as chegadas sem considerar o outlier = 6,83
COLETA E TRATAMENTO DE DADOS
Bimodalidade indica múltiplas influências no fenômeno analisado
Melhor trade-off entre complexidade e R2:
•Polinomio de grau 3: R2= 0,746
•Polinomio de grau 4: R2= 0,791
•Polinomio de grau 5: R2= 0,792
COLETA E TRATAMENTO DE DADOS
A medida R2 serve para indicar, em percentagem, o quanto a estimativa realizada pelo modelo proposto
( ) consegue explicar os dados observados (yi).
Assim, um valor de R2 = 0,8576 indica que 85,76% da variável dependente pode ser explicada pelo modelo.
R2= 0,5935 R2= 0,7925
Polinômio de grau 2 Polinômio de grau 4 yˆi
EXPLICAÇÃO SOBRE O SIGNIFICADO DE R2
Sejam os valores estimados pelo modelo, yi os valores observados que são associados a cada uma das variáveis independentes xi. O valor corresponde à média da observações, isto é, de yi. Três somas dos quadrados das diferenças podem ser calculadas, tal como dado abaixo:
yˆi
2 1
) (y y S
n
i i
tot =
∑
−=
yi
n y y
n
i
∑ i
= =1
2 1
ˆ ) (y y S
n
i i
esp =
∑
−=
2 1
) ˆ
( i
n
i i
res y y
S =
∑
−= Onde:
Quadrado da diferença entre observado e a média
Quadrado da diferença entre estimado e a média
Quadrado da diferença entre observado e o esperado
Ilustração gráfica:
xi
yi Valores observados - yi
EXPLICAÇÃO SOBRE O SIGNIFICADO DE R2
Ilustração gráfica:
yi
Reta – Modelo teórico Valores estimados - yˆi
Ilustração gráfica:
xi yi
Média dos valores observados
Valor médio -y
EXPLICAÇÃO SOBRE O SIGNIFICADO DE R2
Ilustração gráfica:
xi
yi Valores observados - yi
Valores estimados - yˆi
2 1
) ˆ
( i
n
i i
res y y
S =∑ −
=
Ilustração gráfica:
2 1
) ˆ
(y y
S
n
i i
esp =∑ −
=
xi yi
Valores estimados - yˆi
Valor médio -y
EXPLICAÇÃO SOBRE O SIGNIFICADO DE R2
Ilustração gráfica:
yi Valores observados - yi
Valor médio -y
2 1
)
(y y
S
n
i i
tot =∑ −
=
Ilustração gráfica:
Sesp
xi yi
Valores estimados - yˆi
Valor médio -y Valores observados - yi
Sres
Stot
EXPLICAÇÃO SOBRE O SIGNIFICADO DE R2
Dado que:
res esp
tot S S
S = +
tot esp
S R2= S
Então:
tot res tot
res tot
S S S
S R2 =S − =1−
2 1
2 2 1
) (
ˆ ) ( 1
y y
y y
R n
i i
i n
i i
−
−
−
=
∑
∑
=
=
Assim:
n y y
n
i
∑ i
= =1
Onde:
R2mede o quanto a curva teóricaconsegue explicar os
dados fornecidos !
Contribuição do que não pode ser explicado pelo
modelo teórico !
Pode ser provado que ao invés de se realizar um ajuste de curvas, a média da amostra pode ser empregada com uma estimativa dos parâmetros das funções de distribuição de probabilidade. Em particular para a função exponencial isto é provado no seguinte livro (página 353):
∑
== n
i
ti
n
1
λˆ e t
t
f( )=λˆ −λˆ Tempo entre as chegadas !
1/média
0 1 2
λλλλ
µµµµ
3
µµµµ µµµµ
λλλλ λλλλ
e t
t
f( )=λˆ −λˆ
O parâmetroλλλλobtido corresponde ao valor da taxa de chegada assumido pelos modelos téoricos de fila. O mesmo procedimento pode ser aplicada na obtenção da taxa de atendimentoµµµµ.
COLETA E TRATAMENTO DE DADOS
146 , 6,83 0 ˆ 1
1
=
=
=
∑
= n
i
ti
λ n
Observar que sem o outlier, temos:
A função de probabilidade exponencial do intervalo de tempo entre as chegadas será dada por:
e t
t
f( )=0,146 −0,146 1359
168
1
∑
= == n
i
ti Logo:
Os dados podem ser analisados de acordo com testes estatísticos tais como a aplicação do testes Chi- quadrado e Kolmogorov-Smirnov. Para estes testes devem ser observados os seguintes critérios:
(i) Número mínimo de valores para aplicar o teste.
(ii)Número de classes.
COLETA E TRATAMENTO DE DADOS