AULA 4 –COLETA E TRATAMENTO DE DADOS DE ENTRADA DOS MODELOS DE FILAS

(1)

AULA 4 – COLETA E TRATAMENTO DE DADOS DE ENTRADA DOS MODELOS DE FILAS

Autor: Anibal Tavares de Azevedo

SIMULAÇÃO DE SISTEMAS

Problema Descrição LINK

1 Lab 4 – Exercício 1 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdElYbzgtc3lIeHpOR0RBT2pJNjNFbUE&usp

=sharing

2 Lab 4 – Exercício 2 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdDhiTkt5U3J4Z2xzRDUwamZ4YXNCQVE&

usp=sharing

3 Lab 4 – Exercício 3 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdFFBenlKU3NVUnBjYVE2ampScGtlckE&u sp=sharing

4 Lab 4 – Exercício 4 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdFNPMGpLZXZuMTk2d2dfR2dxSzhGaEE

&usp=sharing

COLETA E TRATAMENTO DE DADOS

Os exercícios estão disponíveis nos links dados abaixo:

(2)

Problema Descrição LINK

5 Lab 4 – Exercício 5 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdFEzcUpfQVdISG94NHluZWZYR2tRVUE&

usp=sharing

Os exercícios estão disponíveis nos links dados abaixo:

Aula preparada a partir do Capítulo 2 - Modelagem dos Dados de Entrada - do seguinte livro:

(3)

Em um modelo de filas, os tempos de espera emfilaou nosistema (fila + serviço) sãoparâmetros de desempenhodo sistema.

Estes valores dependem dos fenômenos aleatórios dointervalo de tempoentre aschegadase dotempo de atendimento.

Tempo em fila Supermercado Tempo Serviço

Intervalo entre as chegadas

e

Tempo de atendimento

Antes de realizar acoleta de dadosé necessário definir o período no qual a mesma deverá ser realizada, isto é, o período mais crítico do sistema.

12:00 18:00 20:00

Horário Crítico

(4)

A coleta de dados visa formar uma amostra da população. Três cuidados devem ser observados na obtenção de uma amostra.

População

Amostra

(1) O tamanho da amostra deve estar entre 100 e 200 observações. Amostras com menos de 100 observações podem comprometer a identificação do modelo probabilístico e acima de 200 não trazem ganhos significativos.

(2) Coletar e anotar as observações na mesma ordem em que o fenômeno ocorre de modo a permitir análise de correlação.

(3) Se existir suspeita de que os dados mudam em função do dia da coleta, então, a mesma deve ser refeita em outros dias.

Tempo de ocorrência de cada uma das chegadas (100 primeiros valores)

00:00:11 00:00:59 00:01:59 00:02:52 00:03:31 00:04:40 00:06:01 00:07:23 00:08:08 00:09:06 00:00:12 00:01:18 00:02:01 00:02:57 00:03:49 00:04:43 00:06:28 00:07:27 00:08:15 00:09:06 00:00:17 00:01:20 00:02:10 00:03:08 00:04:01 00:04:49 00:06:29 00:07:27 00:08:17 00:09:06 00:00:19 00:01:30 00:02:22 00:03:08 00:04:03 00:04:52 00:06:30 00:07:44 00:08:24 00:09:09 00:00:20 00:01:30 00:02:27 00:03:13 00:04:03 00:05:10 00:06:36 00:07:48 00:08:41 00:09:09 00:00:28 00:01:36 00:02:32 00:03:14 00:04:15 00:05:12 00:06:38 00:07:48 00:08:54 00:09:16 00:00:35 00:01:40 00:02:35 00:03:16 00:04:20 00:05:26 00:06:39 00:07:51 00:08:59 00:09:25 00:00:37 00:01:42 00:02:37 00:03:19 00:04:22 00:05:39 00:07:07 00:07:52 00:09:00 00:09:30

Exemplo 1: Coleta de dados de chegadas

(5)

Tempo de ocorrência de cada uma das chegadas (100 últimos valores)

00:21:51 00:23:38 00:25:26 00:26:27 00:27:46 00:29:25 00:30:48 00:32:02 00:32:35 00:33:51 00:21:58 00:23:58 00:25:30 00:26:55 00:28:06 00:29:37 00:30:58 00:32:06 00:32:38 00:33:53 00:22:09 00:24:02 00:25:38 00:26:56 00:28:09 00:29:39 00:31:04 00:32:07 00:32:50 00:34:05 00:22:09 00:24:05 00:25:50 00:26:57 00:28:21 00:29:42 00:31:13 00:32:11 00:32:59 00:34:09 00:22:31 00:24:32 00:25:54 00:27:12 00:28:28 00:29:45 00:31:31 00:32:14 00:33:01 00:34:17 00:22:43 00:24:40 00:26:03 00:27:22 00:28:31 00:29:48 00:31:36 00:32:19 00:33:21 00:34:20 00:22:50 00:24:56 00:26:07 00:27:27 00:28:43 00:29:49 00:31:38 00:32:27 00:33:29 00:34:31 00:22:50 00:25:03 00:26:08 00:27:30 00:29:07 00:29:55 00:31:56 00:32:31 00:33:42 00:34:36 00:23:09 00:25:22 00:26:18 00:27:39 00:29:13 00:29:56 00:32:01 00:32:34 00:33:46 00:34:39 00:23:19 00:25:25 00:26:26 00:27:42 00:29:24 00:30:39 00:32:01 00:32:34 00:33:50 00:34:47

1 1

COLETA E TRATAMENTO DE DADOS Obtendo intervalo de tempo entre as chegadas

(6)

2

Obtendo intervalo de tempo entre as chegadas

3

COLETA E TRATAMENTO DE DADOS Obtendo intervalo de tempo entre as chegadas

Número de segundos em 24 horas

(7)

Tempo entre as chegadas (100 primeiros valores)

11 6 8 9 0 2 13 3 3 2

1 19 2 5 18 3 27 4 7 0

5 2 9 11 12 6 1 0 2 0

2 10 12 0 2 3 1 17 7 3

1 0 5 5 0 18 6 4 17 0

8 6 5 1 12 2 2 0 13 7

7 4 3 2 5 14 1 3 5 9

2 2 2 3 2 13 28 1 1 5

15 3 1 9 9 6 8 9 1 728

1 6 5 3 7 3 5 4 3 4

Tempo entre as chegadas (100 últimos valores)

9 19 1 1 4 1 9 1 1 1

7 20 4 28 20 12 10 4 3 2

11 4 8 1 3 2 6 1 12 12

0 3 12 1 12 3 9 4 9 4

22 27 4 15 7 3 18 3 2 8

12 8 9 10 3 3 5 5 20 3

7 16 4 5 12 1 2 8 8 11

0 7 1 3 24 6 18 4 13 5

19 19 10 9 6 1 5 3 4 3

10 3 8 3 11 43 0 0 4 8

(8)

Exemplo 2: Estatísticas sobre os dados

Q3 Q1

Max NO Outlier

75%

Mediana 50% 25%

Eliminar

Min NO

COLETA E TRATAMENTO DE DADOS Exemplo 2: Estatísticas sobre os dados

=QUARTILE(D6:D205,1)

1 Até 25% dos valores

=median(D5:D204)

=QUARTILE(D6:D205,3)

Q1

Q3

Mediana

(9)

=small(D6:D205;COUNTIF(D6:D205;"<"& H13 )+1)

1 Achar o 1º menor

valor não outlier

=large(D6:D205;COUNTIF(D6:D205;">"& H15 )+1)

2 Achar o 1º maiorvalor

não outlier

Max NO Min NO

=H8-1.5*H14

2 Limite inferiora partir do

qual ocorrem outliers

=H10+1.5*H14

3 Limite superiora partir do

qual ocorrem outliers

= H10 - H8

1 Amplitude Inter-quartil

Q3-Q1

Lim sup Lim inf

(10)

1 2

3

Q3 Q1

Lim inf = Q1 - 1,5(Q3-Q1) Lim Sup = Q3 + 1,5(Q3-Q1) Outlier

Max NO

Min NO

(11)

=average(D6:D205)

1 Achar a média dos

valores com outliers

=var(D6:D205)

2 Achar variância dos

valores com outliers

COLETA E TRATAMENTO DE DADOS Exemplo 3: Eliminando os outliers

1 2

3

(12)

...

Identificando outliers: 728

Não devem ser considerados no cálculo da média nem para

encontrar a função de distribuição de probabilidade !

Exemplo 3: Eliminando os outliers

Sem outlier !

Com outlier !

COLETA E TRATAMENTO DE DADOS Exemplo 4: Análise de correlação

Removido os outliers é importante verificar se a amostra representa uma sequência de valores independentes e identicamente distribuídos (i.i.d), isto é, se não existe correlação entre os valores. Esta verificação é importante para se poder aplicar os dados no modelos teóricos.

Modelo de Fila M/M/1/GD/∞∞∞/∞∞ ∞∞∞:

Este modelo supõe:

1 2 3 4 5 6

1 Natureza do processo de chegada. Ex.: M – variáveis aleatórias iid como função de distribuição exponencial.

2 Natureza do processo de serviço. Ex.: M – variáveis

(13)

Exemplo 4: Análise de correlação

A hipótese de independência não é válida em situações em que existe uma “curva de aprendizado”. Por exemplo, os tempos de atendimentode um caixa de supermercado em treinamento irão, em princípio, apresentar um decréscimo ao longo do tempo até atingir uma estabilidade em torno de uma função de distribuição.

Dia 1 Serviço = 30s

(14)

1

2

4

3 Eliminar o valor 728 ! Com outlier

Sem outlier

1

2

3

(15)

O diagrama de dispersão (scatter plot) permite a visualização de quenão existe correlaçãodos dados.

Dados com correlação

linear !

(16)

É possível, ainda, empregar testes estatísticos para verificar a correlação dos dados. Mas, neste caso, é necessário saber, a priori, a função de distribuição com a qual se quer comparar os dados como, por exemplo, exponencial, normal, etc.

) ( ) ( ) ( ) (

) ( ) ( ) (

2 2 2

, 2

Y E Y

E X E X

E

Y E X E XY E

Y

X − −

= − ρ

Medida de correlação linear Esperança ou média

de X*Y

Quadrado da média de X Esperança ou média

de Y

) ( ) ( )

(XY E X E Y

E −

ρ = 0.75

(17)

Uma alternativa é uso de testes não-paramétricos que, em geral, não são conclusivos !!

COLETA E TRATAMENTO DE DADOS Exemplo 5: Inferência

Para determinar a função de distribuição associada aos dados é necessário construir um histograma. Para tanto, é necessário determinar o número de classes. Uma forma é a raiz quadrada do número de observações ou regra de Sturges:

n K =1+3,3log₁₀

Número de classes Número de dados

O tamanhohde cada classe é dado por:

h=amplitudeKdaamostra

(18)

Exemplo 5: Inferência

Para o caso particular existem 200 chegadas que geraram 199 intervalo de tempo. Desses 199 valores 1 foi considerado outlier (valor 728) e eliminado, restando, portanto, 198 valores de intervalo de tempo. Assim:

9 6 , 8 30 , 2

* 3 , 3 1 198 log 3 , 3

1+ ₁₀ = + = ≅

= K

Número de classes Número de dados

O tamanhohde cada classe é dado por:

78 , 9 4 43 SO amostra

amplitude = =

= K

h Maior valor sem outlier

COLETA E TRATAMENTO DE DADOS Exemplo 5: Inferência

=if(E6<4.8;1;0)

1 2 =if(E6>=9.6;if(E6<14.3;1;0);0) Classe 1: [0,0-4,8] Classe 3: [9,6-14,3]

(19)

Exemplo 5: Inferência

=sum(H5:H204) 1

2 Total na classe 1

Intervalo de tempo [h] Número de Chegadas

[0,0 - 4,8) 96

[4,8 - 9,6) 55

[9,6 – 14,3) 25

[14,3 – 19,1) 13

[19,1 – 23,9) 4

[23,9 – 28,7) 5

[28,7 – 33,4) 0

[33,4 – 38,2) 0

>38,2 1

Média intervalo entre as chegadas sem considerar o outlier = 6,83

(20)

Bimodalidade indica múltiplas influências no fenômeno analisado

Melhor trade-off entre complexidade e R²:

•Polinomio de grau 3: R²= 0,746

(21)

A medida R² serve para indicar, em percentagem, o quanto a estimativa realizada pelo modelo proposto

( ) consegue explicar os dados observados (y_i).

Assim, um valor de R² = 0,8576 indica que 85,76% da variável dependente pode ser explicada pelo modelo.

R²= 0,5935 R²= 0,7925

Polinômio de grau 2 Polinômio de grau 4 yˆi

EXPLICAÇÃO SOBRE O SIGNIFICADO DE R²

Sejam os valores estimados pelo modelo, y_i os valores observados que são associados a cada uma das variáveis independentes x_i. O valor corresponde à média da observações, isto é, de y_i. Três somas dos quadrados das diferenças podem ser calculadas, tal como dado abaixo:

yˆi

2 1

) (y y S

n

i i

tot =

∑

−

=

yi

n y y

n

i

∑ i

= =¹

2 1

ˆ ) (y y S

n

i i

esp =

∑

−

=

2 1

) ˆ

( _i

n

i i

res y y

S =

∑

−

= Onde:

Quadrado da diferença entre observado e a média

Quadrado da diferença entre estimado e a média

Quadrado da diferença entre observado e o esperado

(22)

Ilustração gráfica:

x_i

y_i Valores observados - y_i

y_i

Reta – Modelo teórico Valores estimados - yˆ_i

(23)

x_i y_i

Média dos valores observados

Valor médio -y

x_i

Valores estimados - yˆ_i

2 1

) ˆ

( _i

n

i i

res y y

S =∑ −

=

(24)

2 1

) ˆ

(y y

S

n

i i

esp =∑ −

=

x_i y_i

Valor médio -y

2 1

)

(y y

S

n

i i

tot =∑ −

=

(25)

Sesp

x_i y_i

Valor médio -y Valores observados - y_i

Sres

Stot

Dado que:

res esp

tot S S

S = +

tot esp

S R²= S

Então:

tot res tot

res tot

S S S

S R² =S − =1−

2 1

2 2 1

) (

ˆ ) ( 1

y y

R _n

i i

i n

i i

−

=

∑

=

Assim:

n y y

n

i

∑ i

= =¹

Onde:

R²mede o quanto a curva teóricaconsegue explicar os

dados fornecidos !

Contribuição do que não pode ser explicado pelo

modelo teórico !

(26)

Pode ser provado que ao invés de se realizar um ajuste de curvas, a média da amostra pode ser empregada com uma estimativa dos parâmetros das funções de distribuição de probabilidade. Em particular para a função exponencial isto é provado no seguinte livro (página 353):

∑

=

= _n

i

ti

n

1

λˆ e t

t

f⁽ ⁾=λ^ˆ ⁻^λ^ˆ Tempo entre as chegadas !

1/média

0 1 2

λλλλ

µµµµ

3

µµµµ µµµµ

λλλλ λλλλ

e t

t

f⁽ ⁾=λ^ˆ ⁻^λ^ˆ

O parâmetroλλλλobtido corresponde ao valor da taxa de chegada assumido pelos modelos téoricos de fila. O mesmo procedimento pode ser aplicada na obtenção da taxa de atendimentoµµµµ.

(27)

146 , 6,83 0 ˆ 1

1

=

∑

= n

i

ti

λ n

Observar que sem o outlier, temos:

A função de probabilidade exponencial do intervalo de tempo entre as chegadas será dada por:

e t

t

f( )=0,146 ⁻⁰^,¹⁴⁶ 1359

168

1

∑

⁼ =

= n

i

ti Logo:

Os dados podem ser analisados de acordo com testes estatísticos tais como a aplicação do testes Chi- quadrado e Kolmogorov-Smirnov. Para estes testes devem ser observados os seguintes critérios:

(i) Número mínimo de valores para aplicar o teste.

(ii)Número de classes.

(28)

AULA 4 –COLETA E TRATAMENTO DE DADOS DE ENTRADA DOS MODELOS DE FILAS

∑

∑

∑

∑

∑

∑

OBRIGADO !!!