Cap 2 Entrada

(1)

Prof. Afonso C.

Coleta e Modelagem

dos Dados de

Entrada

_{Capítulo 2}

Páginas 24-52

Este material é disponibilizado para uso

exclusivo

de docentes que adotam o

livro

Modelagem e Simulação de

Eventos Discretos

em suas

disciplinas. O material pode (e deve) ser

editado pelo professor.

Pedimos apenas que seja sempre

(2)



Coleta



Tratamento



Inferência

(3)

1. Escolha adequada da

variável de estudo

2. O tamanho da amostra deve estar

entre 100

e 200 observações.

Amostras com menos

de 100 observações podem comprometer a

identificação do melhor modelo probabilístico,

e amostras com mais de 200 observações

não trazem ganhos significativos ao estudo;

(4)

3. Coletar e anotar as observações

na mesma ordem

em

que o fenômeno está ocorrendo, para permitir a análise

de correlação ;

4. Se existe alguma suspeita de que os dados mudam em

função do horário ou do dia da coleta, a

coleta deve

ser refeita

para outros horários e dias. Na modelagem

de dados, vale a regra:

toda suspeita deve ser

comprovada ou descartada estatisticamente.

Coleta dos Dados

(5)

Exemplo 2.1:

Filas nos

Caixas do

Supermercado

Um gerente de supermercado está preocupado com

as filas formadas nos caixas de pagamento durante

um dos turnos de operação. Quais seriam as variáveis

de estudo para coleta de dados? (S) ou (N).

( ) O número de prateleiras no supermercado

( ) Os tempos de atendimento nos caixas

( ) O número de clientes em

fila

( ) O tempo de permanência dos clientes no

supermercado

N

S

N

É resultado!!

(6)

Exemplo 2.1:

Coleta de Dados

Intervalo entre chegadas de pessoas nos caixas do supermercado (100 medidas).

Tempos em minutos:

(7)

Exemplo 2.1:

Medidas

de Posição e

Dispersão

Medidas de posição

Média

10,44

Mediana

5 Moda

3 Mínimo

0 Máximo

728 Medidas de dispersão

Amplitude

728 Desvio padrão

51,42

Variância da amostra

2.643,81

Coeficiente de

Variação

493%

Coeficiente Assimetria

13,80

O 728 é um

outlier?

(8)

Exemplo 2.1:

Outlier

Intervalo entre chegadas de pessoas nos caixas do supermercado (100 medidas).

Tempos em minutos:

(9)

Outliers ou

Valores

Discrepantes



_{Erro na coleta de dados. Este tipo de outlier é o mais}

comum, principalmente quando o levantamento de dados é feito

por meio manual.



_{Eventos Raros. Nada impede que situações totalmente}

atípicas ocorram na nossa coleta de dados. Alguns exemplos:



Um dia de temperatura negativa no verão da cidade do Rio

de Janeiro;



Um tempo de execução de um operador ser muito curto em

relação aos melhores desempenhos obtidos naquela tarefa;



Um tempo de viagem de um caminhão de entregas na cidade

de São Paulo, durante o horário de rush, ser muito menor do

que fora deste horário.

(10)

Exemplo 2.1:

Outlier (valor

discrepante)

Dados

com o

outlier

sem o

Média

10,44

6,83

Mediana

5

5 Variância da

(11)

Identificação de

Outliers:

Box-plot

0 5 10 15 20 A B C _Séries Valores mediana outlier Q1 Q3 Q1-1,5(Q3- Q1) Q3+1,5(Q3- Q1)

(12)

Análise de

Correlação

Diagrama de dispersão dos tempos

de atendimento do exemplo de

supermercado, mostrando que

não há correlação

entre as

observações da amostra.

(13)

Análise de

Correlação

Diagrama de dispersão de um

exemplo hipotético em que

existe correlação

entre os

dados que compõem a amostra.

(14)

Exemplo 2.1:

Construção do

Histograma

1. Definir o número de classes:

K



1 

3 ,

3 log

10 n

n

K



O

histograma

é utilizado para identificar qual a distribuição a

ser ajustada aos dados coletados ou é utilizado diretamente

dentro do modelo de simulação.

2. Definir o

tamanho

do

intervalo:

K

Amplitude

h



(15)

Exemplo 2.1:

(16)

Exemplo 2.1:

Inferência

_{Qual o melhor modelo probabilístico ou}

distribuição estatística que pode representar a

amostra coletada?

x f(x) 1/λ f (x ) f (x) x f(x) µ =1 σ=1 µ=1 σ=0,5

Normal?

Triangular?

Lognormal?

(17)

Testes de

Aderência (não

paramétricos)

Testa a

validade ou não

da hipótese de aderência (ou hipótese

nula) em confronto com a hipótese alternativa:



H

₀

:

o modelo

é adequado

para representar a distribuição da

população.



H

_a

:

o modelo

não é adequado

para representar a distribuição

da população.

Se a um dado nível de significância (100)% rejeitarmos H

₀

, o modelo

testado

não é adequado

para representar a distribuição da população. O

nível de significância  equivale à probabilidade de rejeitarmos a hipótese

nula H

₀

, dado que ela está correta. Testes usuais:

(18)

Teste do

Qui-quadrado

(19)

P-value

Valor

Critério

p-value<0,01

Evidência

_aderência

forte

contra a hipótese de

0,01p-value<0,05

Evidência

_{de aderência}

moderada

contra a hipótese

0,05p-value<0,10

Evidência

_aderência

potencial

contra a hipótese de

0,10p-value

Evidência

_{hipótese de aderência}

fraca ou inexistente

contra a

Parâmetro usual nos softwares de estatística. Para o teste do

qui-quadrado no Excel, utilizar:

(20)

Distribuições

discretas:

Binomial

(21)

Distribuições

(22)

Distribuições

contínuas:

Beta

f (x)

α =2

β =1

α =3

β =2

α =4

β =4

α =2

β =3

α =1,5 β =5

α =6 β =2

α =2

β =1

(23)

Distribuições

contínuas:

Erlang

f (x )

λ=0,5 k=3

λ=0,5

λ=0,2 k=10

(24)

Distribuições

contínuas:

Exponencial

f (x)

(25)

Distribuições

contínuas:

Gama

f (x )

α=0,

α=1

α=2

(26)

Distribuições

contínuas:

Lognormal

f (x)

µ =1 σ=1

(27)

Distribuições

contínuas:

Normal

f (x )

(28)

Distribuições

contínuas:

Uniforme

1/(b-a)

(29)

Distribuições

contínuas:

Triangular

x

f (x)

a

m

b

(30)

Distribuições

contínuas:

Weibull

f (x)

α=0,5 β=1

α=1 β=1

α=2 β=1

α=3 β=1

α=3 β=2

(31)

Modelagem de

dados...

Sem

dados!

Distribuiçã

o Parâmetros Características Aplicabilidade

Exponencial Média _Variância alta_{Cauda para direita}

Grande variabilidade dos valores

Independência entre um valor e outro

_{Muitos valores baixos e poucos valores altos}

Utilizada para representar o tempo entre chegadas

sucessivas e o tempo entre falhas sucessivas Triangular Menor valor, moda e maior

valor

Simétrica ou não

Quando se conhece ou se tem um bom “chute” sobre

a moda (valor que mais ocorre), o menor valor e o maior valor que podem ocorrer

Normal Média e

desvio-padrão

Simétrica

Forma de sino

Variabilidade

controlada pelo desvio-padrão

Quando a probabilidade de ocorrência de valores

acima da média é a mesma que valores abaixo da média

Quando o tempo de um processo pode ser considerado

a soma de diversos tempos de sub-processos

Processos manuais

Uniforme Maior valor e _{menor valor}

Todos os valores no

intervalo são

igualmente prováveis de ocorrer

Quando não se tem nenhuma informação sobre o

processo ou apenas os valores limites (simulação do pior caso)

Valores e

Utilizada para a escolha de parâmetros das entidades