• Nenhum resultado encontrado

AULA 4 –COLETA E TRATAMENTO DE DADOS DE ENTRADA DOS MODELOS DE FILAS

N/A
N/A
Protected

Academic year: 2021

Share "AULA 4 –COLETA E TRATAMENTO DE DADOS DE ENTRADA DOS MODELOS DE FILAS"

Copied!
28
0
0

Texto

(1)

AULA 4 – COLETA E TRATAMENTO DE DADOS DE ENTRADA DOS MODELOS DE FILAS

Autor: Anibal Tavares de Azevedo

SIMULAÇÃO DE SISTEMAS

Problema Descrição LINK

1 Lab 4 – Exercício 1 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdElYbzgtc3lIeHpOR0RBT2pJNjNFbUE&usp

=sharing

2 Lab 4 – Exercício 2 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdDhiTkt5U3J4Z2xzRDUwamZ4YXNCQVE&

usp=sharing

3 Lab 4 – Exercício 3 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdFFBenlKU3NVUnBjYVE2ampScGtlckE&u sp=sharing

4 Lab 4 – Exercício 4 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdFNPMGpLZXZuMTk2d2dfR2dxSzhGaEE

&usp=sharing

COLETA E TRATAMENTO DE DADOS

Os exercícios estão disponíveis nos links dados abaixo:

(2)

Problema Descrição LINK

5 Lab 4 – Exercício 5 https://docs.google.com/spreadsheet/ccc?key=0Aoz UGKjaO9uEdFEzcUpfQVdISG94NHluZWZYR2tRVUE&

usp=sharing

Os exercícios estão disponíveis nos links dados abaixo:

Aula preparada a partir do Capítulo 2 - Modelagem dos Dados de Entrada - do seguinte livro:

COLETA E TRATAMENTO DE DADOS

(3)

Em um modelo de filas, os tempos de espera emfilaou nosistema (fila + serviço) sãoparâmetros de desempenhodo sistema.

Estes valores dependem dos fenômenos aleatórios dointervalo de tempoentre aschegadase dotempo de atendimento.

Tempo em fila Supermercado Tempo Serviço

Intervalo entre as chegadas

e

Tempo de atendimento

COLETA E TRATAMENTO DE DADOS

Antes de realizar acoleta de dadosé necessário definir o período no qual a mesma deverá ser realizada, isto é, o período mais crítico do sistema.

12:00 18:00 20:00

Horário Crítico

(4)

A coleta de dados visa formar uma amostra da população. Três cuidados devem ser observados na obtenção de uma amostra.

População

Amostra

(1) O tamanho da amostra deve estar entre 100 e 200 observações. Amostras com menos de 100 observações podem comprometer a identificação do modelo probabilístico e acima de 200 não trazem ganhos significativos.

(2) Coletar e anotar as observações na mesma ordem em que o fenômeno ocorre de modo a permitir análise de correlação.

(3) Se existir suspeita de que os dados mudam em função do dia da coleta, então, a mesma deve ser refeita em outros dias.

COLETA E TRATAMENTO DE DADOS

Tempo de ocorrência de cada uma das chegadas (100 primeiros valores)

00:00:11 00:00:59 00:01:59 00:02:52 00:03:31 00:04:40 00:06:01 00:07:23 00:08:08 00:09:06 00:00:12 00:01:18 00:02:01 00:02:57 00:03:49 00:04:43 00:06:28 00:07:27 00:08:15 00:09:06 00:00:17 00:01:20 00:02:10 00:03:08 00:04:01 00:04:49 00:06:29 00:07:27 00:08:17 00:09:06 00:00:19 00:01:30 00:02:22 00:03:08 00:04:03 00:04:52 00:06:30 00:07:44 00:08:24 00:09:09 00:00:20 00:01:30 00:02:27 00:03:13 00:04:03 00:05:10 00:06:36 00:07:48 00:08:41 00:09:09 00:00:28 00:01:36 00:02:32 00:03:14 00:04:15 00:05:12 00:06:38 00:07:48 00:08:54 00:09:16 00:00:35 00:01:40 00:02:35 00:03:16 00:04:20 00:05:26 00:06:39 00:07:51 00:08:59 00:09:25 00:00:37 00:01:42 00:02:37 00:03:19 00:04:22 00:05:39 00:07:07 00:07:52 00:09:00 00:09:30

Exemplo 1: Coleta de dados de chegadas

(5)

Tempo de ocorrência de cada uma das chegadas (100 últimos valores)

00:21:51 00:23:38 00:25:26 00:26:27 00:27:46 00:29:25 00:30:48 00:32:02 00:32:35 00:33:51 00:21:58 00:23:58 00:25:30 00:26:55 00:28:06 00:29:37 00:30:58 00:32:06 00:32:38 00:33:53 00:22:09 00:24:02 00:25:38 00:26:56 00:28:09 00:29:39 00:31:04 00:32:07 00:32:50 00:34:05 00:22:09 00:24:05 00:25:50 00:26:57 00:28:21 00:29:42 00:31:13 00:32:11 00:32:59 00:34:09 00:22:31 00:24:32 00:25:54 00:27:12 00:28:28 00:29:45 00:31:31 00:32:14 00:33:01 00:34:17 00:22:43 00:24:40 00:26:03 00:27:22 00:28:31 00:29:48 00:31:36 00:32:19 00:33:21 00:34:20 00:22:50 00:24:56 00:26:07 00:27:27 00:28:43 00:29:49 00:31:38 00:32:27 00:33:29 00:34:31 00:22:50 00:25:03 00:26:08 00:27:30 00:29:07 00:29:55 00:31:56 00:32:31 00:33:42 00:34:36 00:23:09 00:25:22 00:26:18 00:27:39 00:29:13 00:29:56 00:32:01 00:32:34 00:33:46 00:34:39 00:23:19 00:25:25 00:26:26 00:27:42 00:29:24 00:30:39 00:32:01 00:32:34 00:33:50 00:34:47

Exemplo 1: Coleta de dados de chegadas

1 1

COLETA E TRATAMENTO DE DADOS Obtendo intervalo de tempo entre as chegadas

(6)

2

Obtendo intervalo de tempo entre as chegadas

3

COLETA E TRATAMENTO DE DADOS Obtendo intervalo de tempo entre as chegadas

Número de segundos em 24 horas

(7)

Tempo entre as chegadas (100 primeiros valores)

11 6 8 9 0 2 13 3 3 2

1 19 2 5 18 3 27 4 7 0

5 2 9 11 12 6 1 0 2 0

2 10 12 0 2 3 1 17 7 3

1 0 5 5 0 18 6 4 17 0

8 6 5 1 12 2 2 0 13 7

7 4 3 2 5 14 1 3 5 9

2 2 2 3 2 13 28 1 1 5

15 3 1 9 9 6 8 9 1 728

1 6 5 3 7 3 5 4 3 4

Exemplo 1: Coleta de dados de chegadas

COLETA E TRATAMENTO DE DADOS

Tempo entre as chegadas (100 últimos valores)

9 19 1 1 4 1 9 1 1 1

7 20 4 28 20 12 10 4 3 2

11 4 8 1 3 2 6 1 12 12

0 3 12 1 12 3 9 4 9 4

22 27 4 15 7 3 18 3 2 8

12 8 9 10 3 3 5 5 20 3

7 16 4 5 12 1 2 8 8 11

0 7 1 3 24 6 18 4 13 5

19 19 10 9 6 1 5 3 4 3

10 3 8 3 11 43 0 0 4 8

Exemplo 1: Coleta de dados de chegadas

(8)

Exemplo 2: Estatísticas sobre os dados

Q3 Q1

Max NO Outlier

75%

Mediana 50% 25%

Eliminar

Min NO

COLETA E TRATAMENTO DE DADOS Exemplo 2: Estatísticas sobre os dados

=QUARTILE(D6:D205,1)

1 Até 25% dos valores

=median(D5:D204)

2 Até 50% dos valores

=QUARTILE(D6:D205,3)

3 Até 75% dos valores

Q1

Q3

Mediana

(9)

Exemplo 2: Estatísticas sobre os dados

=small(D6:D205;COUNTIF(D6:D205;"<"& H13 )+1)

1 Achar o 1º menor

valor não outlier

=large(D6:D205;COUNTIF(D6:D205;">"& H15 )+1)

2 Achar o 1º maiorvalor

não outlier

Max NO Min NO

COLETA E TRATAMENTO DE DADOS Exemplo 2: Estatísticas sobre os dados

=H8-1.5*H14

2 Limite inferiora partir do

qual ocorrem outliers

=H10+1.5*H14

3 Limite superiora partir do

qual ocorrem outliers

= H10 - H8

1 Amplitude Inter-quartil

Q3-Q1

Lim sup Lim inf

(10)

1 2

3

Exemplo 2: Estatísticas sobre os dados

COLETA E TRATAMENTO DE DADOS Exemplo 2: Estatísticas sobre os dados

Q3 Q1

Lim inf = Q1 - 1,5(Q3-Q1) Lim Sup = Q3 + 1,5(Q3-Q1) Outlier

Max NO

Min NO

(11)

Exemplo 2: Estatísticas sobre os dados

=average(D6:D205)

1 Achar a média dos

valores com outliers

=var(D6:D205)

2 Achar variância dos

valores com outliers

COLETA E TRATAMENTO DE DADOS Exemplo 3: Eliminando os outliers

1 2

3

(12)

...

Identificando outliers: 728

Não devem ser considerados no cálculo da média nem para

encontrar a função de distribuição de probabilidade !

Exemplo 3: Eliminando os outliers

Sem outlier !

Com outlier !

COLETA E TRATAMENTO DE DADOS Exemplo 4: Análise de correlação

Removido os outliers é importante verificar se a amostra representa uma sequência de valores independentes e identicamente distribuídos (i.i.d), isto é, se não existe correlação entre os valores. Esta verificação é importante para se poder aplicar os dados no modelos teóricos.

Modelo de Fila M/M/1/GD/∞∞/∞ ∞:

Este modelo supõe:

1 2 3 4 5 6

1 Natureza do processo de chegada. Ex.: M – variáveis aleatórias iid como função de distribuição exponencial.

2 Natureza do processo de serviço. Ex.: M – variáveis

(13)

Exemplo 4: Análise de correlação

A hipótese de independência não é válida em situações em que existe uma “curva de aprendizado”. Por exemplo, os tempos de atendimentode um caixa de supermercado em treinamento irão, em princípio, apresentar um decréscimo ao longo do tempo até atingir uma estabilidade em torno de uma função de distribuição.

Dia 1 Serviço = 30s

Dia 5 Serviço = 5s

Dia 10 Serviço = 1s

COLETA E TRATAMENTO DE DADOS Exemplo 4: Análise de correlação

(14)

Exemplo 4: Análise de correlação

1

2

4

3 Eliminar o valor 728 ! Com outlier

Sem outlier

1

COLETA E TRATAMENTO DE DADOS Exemplo 4: Análise de correlação

1

2

3

(15)

Exemplo 4: Análise de correlação

O diagrama de dispersão (scatter plot) permite a visualização de quenão existe correlaçãodos dados.

COLETA E TRATAMENTO DE DADOS Exemplo 4: Análise de correlação

Dados com correlação

linear !

(16)

Exemplo 4: Análise de correlação

É possível, ainda, empregar testes estatísticos para verificar a correlação dos dados. Mas, neste caso, é necessário saber, a priori, a função de distribuição com a qual se quer comparar os dados como, por exemplo, exponencial, normal, etc.

) ( ) ( ) ( ) (

) ( ) ( ) (

2 2 2

, 2

Y E Y

E X E X

E

Y E X E XY E

Y

X

= ρ

Medida de correlação linear Esperança ou média

de X*Y

Quadrado da média de X Esperança ou média

de Y

) ( ) ( )

(XY E X E Y

E

ρ = 0.75

COLETA E TRATAMENTO DE DADOS Exemplo 4: Análise de correlação

(17)

Exemplo 4: Análise de correlação

Uma alternativa é uso de testes não-paramétricos que, em geral, não são conclusivos !!

COLETA E TRATAMENTO DE DADOS Exemplo 5: Inferência

Para determinar a função de distribuição associada aos dados é necessário construir um histograma. Para tanto, é necessário determinar o número de classes. Uma forma é a raiz quadrada do número de observações ou regra de Sturges:

n K =1+3,3log10

Número de classes Número de dados

O tamanhohde cada classe é dado por:

h=amplitudeKdaamostra

(18)

Exemplo 5: Inferência

Para o caso particular existem 200 chegadas que geraram 199 intervalo de tempo. Desses 199 valores 1 foi considerado outlier (valor 728) e eliminado, restando, portanto, 198 valores de intervalo de tempo. Assim:

9 6 , 8 30 , 2

* 3 , 3 1 198 log 3 , 3

1+ 10 = + =

= K

Número de classes Número de dados

O tamanhohde cada classe é dado por:

78 , 9 4 43 SO amostra

amplitude = =

= K

h Maior valor sem outlier

COLETA E TRATAMENTO DE DADOS Exemplo 5: Inferência

=if(E6<4.8;1;0)

1 2 =if(E6>=9.6;if(E6<14.3;1;0);0) Classe 1: [0,0-4,8] Classe 3: [9,6-14,3]

(19)

Exemplo 5: Inferência

=sum(H5:H204) 1

2 Total na classe 1

Intervalo de tempo [h] Número de Chegadas

[0,0 - 4,8) 96

[4,8 - 9,6) 55

[9,6 – 14,3) 25

[14,3 – 19,1) 13

[19,1 – 23,9) 4

[23,9 – 28,7) 5

[28,7 – 33,4) 0

[33,4 – 38,2) 0

>38,2 1

Média intervalo entre as chegadas sem considerar o outlier = 6,83

COLETA E TRATAMENTO DE DADOS

(20)

Bimodalidade indica múltiplas influências no fenômeno analisado

Melhor trade-off entre complexidade e R2:

Polinomio de grau 3: R2= 0,746

Polinomio de grau 4: R2= 0,791

Polinomio de grau 5: R2= 0,792

COLETA E TRATAMENTO DE DADOS

(21)

A medida R2 serve para indicar, em percentagem, o quanto a estimativa realizada pelo modelo proposto

( ) consegue explicar os dados observados (yi).

Assim, um valor de R2 = 0,8576 indica que 85,76% da variável dependente pode ser explicada pelo modelo.

R2= 0,5935 R2= 0,7925

Polinômio de grau 2 Polinômio de grau 4 i

EXPLICAÇÃO SOBRE O SIGNIFICADO DE R2

Sejam os valores estimados pelo modelo, yi os valores observados que são associados a cada uma das variáveis independentes xi. O valor corresponde à média da observações, isto é, de yi. Três somas dos quadrados das diferenças podem ser calculadas, tal como dado abaixo:

i

2 1

) (y y S

n

i i

tot =

=

yi

n y y

n

i

i

= =1

2 1

ˆ ) (y y S

n

i i

esp =

=

2 1

) ˆ

( i

n

i i

res y y

S =

= Onde:

Quadrado da diferença entre observado e a média

Quadrado da diferença entre estimado e a média

Quadrado da diferença entre observado e o esperado

(22)

Ilustração gráfica:

xi

yi Valores observados - yi

EXPLICAÇÃO SOBRE O SIGNIFICADO DE R2

Ilustração gráfica:

yi

Reta – Modelo teórico Valores estimados - i

(23)

Ilustração gráfica:

xi yi

Média dos valores observados

Valor médio -y

EXPLICAÇÃO SOBRE O SIGNIFICADO DE R2

Ilustração gráfica:

xi

yi Valores observados - yi

Valores estimados - i

2 1

) ˆ

( i

n

i i

res y y

S =

=

(24)

Ilustração gráfica:

2 1

) ˆ

(y y

S

n

i i

esp =

=

xi yi

Valores estimados - i

Valor médio -y

EXPLICAÇÃO SOBRE O SIGNIFICADO DE R2

Ilustração gráfica:

yi Valores observados - yi

Valor médio -y

2 1

)

(y y

S

n

i i

tot =

=

(25)

Ilustração gráfica:

Sesp

xi yi

Valores estimados - i

Valor médio -y Valores observados - yi

Sres

Stot

EXPLICAÇÃO SOBRE O SIGNIFICADO DE R2

Dado que:

res esp

tot S S

S = +

tot esp

S R2= S

Então:

tot res tot

res tot

S S S

S R2 =S =1

2 1

2 2 1

) (

ˆ ) ( 1

y y

y y

R n

i i

i n

i i

=

=

=

Assim:

n y y

n

i

i

= =1

Onde:

R2mede o quanto a curva teóricaconsegue explicar os

dados fornecidos !

Contribuição do que não pode ser explicado pelo

modelo teórico !

(26)

Pode ser provado que ao invés de se realizar um ajuste de curvas, a média da amostra pode ser empregada com uma estimativa dos parâmetros das funções de distribuição de probabilidade. Em particular para a função exponencial isto é provado no seguinte livro (página 353):

=

= n

i

ti

n

1

λˆ e t

t

f( )=λˆ λˆ Tempo entre as chegadas !

1/média

0 1 2

λλλλ

µµµµ

3

µµµµ µµµµ

λλλλ λλλλ

e t

t

f( )=λˆ λˆ

O parâmetroλλλλobtido corresponde ao valor da taxa de chegada assumido pelos modelos téoricos de fila. O mesmo procedimento pode ser aplicada na obtenção da taxa de atendimentoµµµµ.

COLETA E TRATAMENTO DE DADOS

(27)

146 , 6,83 0 ˆ 1

1

=

=

=

= n

i

ti

λ n

Observar que sem o outlier, temos:

A função de probabilidade exponencial do intervalo de tempo entre as chegadas será dada por:

e t

t

f( )=0,146 0,146 1359

168

1

= =

= n

i

ti Logo:

Os dados podem ser analisados de acordo com testes estatísticos tais como a aplicação do testes Chi- quadrado e Kolmogorov-Smirnov. Para estes testes devem ser observados os seguintes critérios:

(i) Número mínimo de valores para aplicar o teste.

(ii)Número de classes.

COLETA E TRATAMENTO DE DADOS

(28)

OBRIGADO !!!

Referências

Documentos relacionados

hospitalizados, ou de lactantes que queiram solicitar tratamento especial deverão enviar a solicitação pelo Fale Conosco, no site da FACINE , até 72 horas antes da realização

Código Descrição Atributo Saldo Anterior D/C Débito Crédito Saldo Final D/C. Este demonstrativo apresenta os dados consolidados da(s)

No código abaixo, foi atribuída a string “power” à variável do tipo string my_probe, que será usada como sonda para busca na string atribuída à variável my_string.. O

Quando analisamos o peso molecular das bandas de proteínas urinárias verificamos que nas gestantes com manifestação de pré-eclâmpsia, isolada ou superposta à hipertensão

In this study, we describe the fish demersal assemblage along the continental shelf of the northeast Brazilian coast 5°-9°S, specifically the ecological descriptors and the

Table 3 Components of the TβD (Jaccard index) observed and comparison between the mean samples and standard deviation for primary ray-finned fishes in Brazil. JAC:

Uma vez formado o quadro, utilizá-lo ao seu potencial máximo significa atribuir tarefas de acordo com habilidades e competências de cada diretor, investir na