SIMULAÇÃO DE SISTEMAS AULA 9

(1)

1

© UNESP 6 Agosto 2008

Autor: Anibal Tavares de Azevedo

Limeira, 03 de Outubro 2013

SIMULAÇÃO DE SISTEMAS

AULA 9

2

DADOS DE ENTRADA

Garbage in,Garbage out

Often abbreviated as GIGO, this is a famous computer axiom meaning that if invalid data is entered into a

system

, the resulting

output will also be invalid. Although originally applied to computer software, the axiom holds true for all systems, including,

(2)

3

4

(3)

5

Exemplo 1: Identificação Outlier

Q3

Q1

Max NO

Outlier

75%

25%

Mediana

50%

Eliminar

Min NO

COLETA E TRATAMENTO DE DADOS

6

Exemplo 2: Análise de correlação

O diagrama de dispersão (scatter plot)

permite a

visualização de que

não existe correlação

dos dados.

(4)

7

Exemplo 3: Inferência

Para determinar a função de distribuição associada aos

dados é necessário construir um histograma. Para tanto, é

necessário determinar o

número de classes. Uma forma é a

raiz quadrada do número de observações ou regra de

Sturges:

n

K

=

1 +

3 ,

3 log

₁₀

Número de classes

_{Número de dados}

O tamanho

h

de cada classe é dado por:

K

h

=

amplitude

da

amostra

8

Para o caso particular existem 200 chegadas que geraram

199 intervalo de tempo. Desses 199 valores 1 foi considerado

outlier (valor 728) e eliminado, restando, portanto, 198

valores de intervalo de tempo. Assim:

9

6 ,

8

30 ,

2 *

3 ,

3

1

198 log

3 ,

3

1 +

₁₀

=

+

=

≅

=

K

Número de classes

Número de dados

O tamanho

h

de cada classe é dado por:

78 ,

4

9

43 SO

amostra

amplitude

₌

=

K

h

Maior valor

sem outlier

Exemplo 3: Inferência

(5)

9

=sum(H5:H204) 1

2 Total na classe 1

Exemplo 3: Inferência

COLETA E TRATAMENTO DE DADOS

10

Intervalo de tempo [h] Número de Chegadas

[0,0 - 4,8) 96

[4,8 - 9,6) 55

[9,6 – 14,3) 25

[14,3 – 19,1) 13

[19,1 – 23,9) 4

[23,9 – 28,7) 5

[28,7 – 33,4) 0

[33,4 – 38,2) 0

>38,2 1

Média intervalo entre as chegadas sem considerar o outlier = 6,83

(6)

11

R2_{= 0,5935} _R2_{= 0,7925}

Polinômio de grau 2 Polinômio de grau 4

Exemplo 4: Ajuste de curvas

12

A medida R2 _{serve para indicar, em percentagem, o}

quanto a estimativa realizada pelo modelo proposto ( ) consegue explicar os dados observados (yi).

Assim, um valor de R2 _{= 0,8576 indica que 85,76% da}

variável dependente pode ser explicada pelo modelo.

R2_{= 0,5935} _R2_{= 0,7925}

Polinômio de grau 2 Polinômio de grau 4

i

y

ˆ

(7)

13

Sejam os valores estimados pelo modelo, y_i os

valores observados que são associados a cada uma

das variáveis independentes x_i. O valor corresponde à média da observações, isto é, de y_i. Três somas dos quadrados das diferenças podem ser calculadas, tal como dado abaixo:

i

y

ˆ

2

1

)

(

y

S

n

i i tot

=

∑

−

= i y

n

y

n i i

∑

=

1 2 1

)

ˆ

(

y

S

n

i i esp

=

∑

−

= 2 1

)

ˆ

(

_i n i i

res

y

S

=

∑

−

= _Onde:

Quadrado da diferença entre observado e a média

Quadrado da diferença entre estimado e a média

Quadrado da diferença entre observado e o esperado

EXPLICAÇÃO SOBRE R

2

14

ESTIMAÇÃO DE PARÂMETROS

DISTRIBUIÇÃO

PARÂMETROS

ESTIMADOR

SUGERIDO

POISSON

_α

EXPONENCIAL

_λ

NORMAL

_µ

_,

_σ

2

X

=

α

ˆ

X

1 ˆ

₌

λ

2 2 ˆ S X = =

σ

µ

) Existem estimadores para outras distribuições Lognormal, Weibull, Gamma e Beta.

(8)

15

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.5 1 1.5 2 2.5 3

t

f(t)

16

DADOS DE ENTRADA

Como verificar se os dados de entrada, isto é, os intervalos entre as chegadas e os tempo de serviço, são exponenciais, por exemplo?

Suponha que o intervalo entre as chegadas é dado por t1, t2, ..., tn. Pode ser mostrado que uma estimativa

razoável da taxa de chegada é dada por:

∑

=

_n

i i

t

n

1

(9)

17

DADOS DE ENTRADA

35

1

140

4

50

40

30

20

4 ˆ

1

=

+

=

∑

= n i i

t

n

λ

Por exemplo, sejam t1 = 20, t2 = 30, t3 = 40 e t4 = 50,

então, existem 4 chegadas em um intervalo de 140 unidades de tempo e na média ocorre 1 chegada a cada 35 unidades de tempo. Isto é justificado através da fórmula que fornece a estimativa para a taxa de chegada λλλλ:

A partir da estimativa de λλλλ é possível verificar se é verdadeira ou não a hipótese de que o intervalo entre as chegadas t₁, t₂, ..., t_n é governado pela função de

distribuição exponencial dada por:

t

e

t

f

(

)

=

λ

ˆ

−λˆ

18

DADOS DE ENTRADA

A forma mais simples de realizar tal verificação é empregar o teste de aderência chi-quadrado (existe também o teste de Komolgorov-Smirnov, que será discutido mais adiante).

Passo 1:Quebrar o conjunto das possíveis chegadas em k

categorias

.

Passo 2: Assumir que f(t) governa o fenômeno do

tempo entre as chegadas para estimar o número de ti´s

que devem estar em cada categoria i: oi.

Passo 3: Aplicar a fórmula a seguir para calcular a

estatística da chi-quadrado χχχχ2_{(obs) para os dados}

observados:

∑

= − = k i i i i e e o obs 1 2

2 ( )

) (

(10)

19

∑

=

− = k

i i i i

e e o obs

1

2

2 ( )

) (

χ

O valor de χχχχ2_{(obs) segue uma distribuição chi-quadrado}

com k-2 graus de liberdade. Se χχχχ2_{(obs) for pequeno,}

então, é razoável assumir que os t_i´s são amostras de uma variável aleatória com distribuição f(t). Por exemplo, se houver uma aderência perfeita, então, o_i = ei para i = 1, 2,..., k, resultando em χχχχ2(obs)com valor

igual a zero. Se χχχχ2_{(obs) for muito grande, então,}

pode ser assumido que os t_i´s não representam os valores de uma variável aleatória com distribuição f(t). Mais formalmente é necessário realizar um teste de hipóteses como descrito a seguir.

20

DADOS DE ENTRADA

∑

=

− = k

i i i i

e e o obs

1

2

2 ( )

) (

χ

H₀: t1, t2, ..., tn é uma amostra aleatória da variável

aleatória com distribuição f(t).

H_α_αα_α: t1, t2, ..., tn não é uma amostra aleatória da

variável aleatória com distribuição f(t).

A hipótese H₀ será aceita se χχχχ2_(obs) _≤ χχχχ2

k-r-1(αααα), caso

contrário, H_α_αα_α será aceita. O valor αααα corresponde a área à direita de χχχχ2

k-r-1(αααα). O valor r é o número de

(11)

21

ANÁLISE ESTATÍSTICA

α αα

α% das observações

⇔ ⇔⇔ ⇔ α αα

α% da área sob a curva

χχχχ2 r(αααα)

χχχχ2 _{é função}

de distrib. Chi-quadrado

y

χχχχ

2

22

DADOS DE ENTRADA

Chegada Intervalo

1 0,01

2 0,07

3 0,03

4 0,08

5 0,04

6 0,10

7 0,05

8 0,10

9 0,11

10 1,17

11 1,50

12 0,93

13 0,54

14 0,19

15 0,22

16 0,36

17 0,27

18 0,46

19 0,51

20 0,11

21 0,56

22 0,72

23 0,29

24 0,04

25 0,73

Exemplo 4: Verificar se as observações são tais que

correspondem a função de distribuição

(12)

23

72 ,

2

19 ,

9

25 ˆ

1

=

∑

=

n

i i

t

n

λ

Observar que:

A função de probabilidade exponencial será dada por:

t

e

t

f

(

)

=

2 ,

72

−2,72

19 ,

9

25

1

=

∑

=

n

i i

t

Logo:

24

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.5 1 1.5 2 2.5 3

DADOS DE ENTRADA

Função de distribuição Exponencial 2,72e-2,72t

(13)

25

DADOS DE ENTRADA

Escolhendo 5 categorias tal que a probabilidade de que uma observação A esteja em uma das 5 categorias seja de 0,20. Assim: ei = 25*(0,20) = 5 observações para

cada categoria. Para obter os limites de cada categoria é preciso empregar a função de distribuição acumulada para A:

∫

−

₌

₋

−

=

≤

=

t s t

e

ds

e

t

A

P

t

F

0

72 , 2 72

, 2

1

72 ,

2 )

(

)

(

26

0 0,08 0,19 0,34 0,59 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

DADOS DE ENTRADA

Função de distribuição acumulada da Exponencial f(t)

(14)

27

Os limites de cada categoria serão:

Categoria Intervalo

1 0 ≤ t < m₁ minutos 2 m₁≤ t < m₂ minutos

3 m₂≤ t < m₃ minutos 4 m₃≤ t < m₄ minutos

5 m4 ≤ t minutos

Observar que:

F(m1) = 0,20

F(m2) = 0,40

F(m3) = 0,60

F(m4) = 0,80

28

DADOS DE ENTRADA

Seja F(t) = 1 – e-2,72t_{, então, para qualquer número p,}

achar o valor t que satisfaz F(t) = p. O valor t pode ser encontrado com:

Aplicando logarítmo na base e dos dois lados de (1):

p

e

t

=

−

−2,72

1

t

e

p

2,72

1 −

=

− (1)

72 ,

2 )

1 ln(

−

=

p

(15)

29

DADOS DE ENTRADA

Aplicando (2) para encontrar m1, m2, m3 e m4:

08 ,

0

72 ,

2 )

2 ,

0

1 ln(

1

₋

=

−

=

m

19 ,

0

72 ,

2 )

4 ,

0

1 ln(

2

₋

=

−

=

m

34 ,

0

72 ,

2 )

6 ,

0

1 ln(

3

₋

=

−

=

m

59 ,

0

72 ,

2 )

8 ,

0

1 ln(

4

=

−

=

m

Categoria Intervalo

1 0 ≤t< 0,08 minutos 2 0,08 ≤t< 0,19 minutos 3 0,19 ≤t< 0,34 minutos

4 0,34 ≤t< 0,59 minutos 5 0,59 ≤t minutos

30

0 0,08 0,19 0,34 0,59 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

DADOS DE ENTRADA

Função de distribuição acumulada da Exponencial F(t)

(16)

31

Após classificar os dados nas 5 categorias, encontra-se: o1 = 6, o2 = 5, o3 = 4, o4 = 5 e o5 = 5. O número de

valores esperados em cada categoria é dado por: e1 = e2

= e3 = e4 = e5 = 0,2*(25) = 5. Com isto. Calcula-se o

valor de χχχχ2_(obs):

∑

= − = k i i i i e e o obs 1 2

2 ( )

) ( χ 5 ) 5 5 ( 5 ) 5 5 ( 5 ) 5 4 ( 5 ) 5 5 ( 5 ) 5 6 ( ) ( 2 2 2 2 2

2 ₌ − ₊ − ₊ − ₊ − ₊ −

obs χ 40 , 0 0 0 2 , 0 0 2 , 0 ) (

2 ₌ ₊ ₊ ₊ ₊ ₌

obs

χ

32

Lembrando que a hipótese H0 será aceita se χχχχ2(obs) ≤

χχχχ2

k-r-1(αααα), caso contrário, Hαααα será aceita.

Seja αααα = 0,05 e usando a distribuição exponencial (i.e. r = 1), então:

χχχχ2

5-1-1(αααα) = χχχχ23(0,05) = 7,81.

Como χχχχ2(obs) = 0,40, então: χχχχ2(obs) ≤ χχχχ2

k-r-1(αααα) e a

hipótese de que o tempo entre as chegadas segue uma distribuição exponencial com chegada de taxa de média de chegada de λλλλ = 2,72 por minuto pode ser aceita.

No Excell o valor da chi-quadrado pode obtido com:

=CHINV(.05,3) = 7,81.

DADOS DE ENTRADA

H0: t1, t2, ..., tn é uma amostra aleatória da variável

(17)

33

DADOS DE ENTRADA

Existem duas questões importantes para a aplicação do teste Chi-quadrado:

(i) Número mínimo de valores para aplicar o teste. (ii)Número de classes.

A tabela dada a seguir foi extraída de:

34

DADOS DE ENTRADA

Tamanho da amostra(n)

Número de classes(k)

20 Não usar o teste

50 5 a 10

100 10 a 20

> 100

De n

1/2

_{até n/5}

Recomendações de quando usar o teste χχχχ2 _{e acerca do}

número de categorias (k) de acordo com o tamanho da amostra (n):

Outra recomendação é a de usar categorias com o mesmo número esperado de dados (e_i) para distribuições contínuas. Neste caso, deve-se usar também que:

(18)

35

Observações adicionais sobre o teste Chi-quadrado:

(i) O teste Chi-quadrado exige que os dados sejam agrupados em k classes e no caso de distribuições contínuas estes agrupamentos são arbitrários.

(ii)A modificação no número de classes e no tamanho dos intervalos pode afetar o valor de χχχχ2(obs) de que para alguns agrupamentos a hipótese H0 pode ser

aceita e em outros rejeitada.

(iii)Uma alternativa é o teste de Kolmogorov-Smirnov

que é particularmente útil quando as amostras são pequenas (n pequeno) e quando nenhum parâmetro foi estimado acerca dos dados (no Exemplo 2, a taxa média de chegada λλλλ foi estimada em 2,72, p. ex.).

36

DADOS DE ENTRADA

Teste de Kolmogorov-Smirnov:

Este teste compara a função de distribuição acumulada (FDA) esperada F(x) com a FDA observada SN(x), onde N

é o número de observações da amostra.

Se a amostra fornece valores R1, R2, ..., RN, então, a

FDA empírica de SN(x) será dada por:

N

x

R

de

no

x

S

N

≤

=

.

{

,

,...,

}

)

(

1 2

(19)

37

H₀: R₁, R₂, ..., R_N é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).

H_α_αα_α: R₁, R₂, ..., R_N não é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).

Observando que:

DADOS DE ENTRADA

O teste de Kolmogorov-Smirnov usa a maior desvio absoluto entre F(x) e SN(x) no intervalo da variável

aleatória e emprega a seguinte fórmula:

D = max |F(x) – SN(X)| (1)

A distribuição D é conhecida e tabelada como função de

N como dado a seguir.

38

DADOS DE ENTRADA

(20)

39

Passos do Teste de Kolmogorov-Smirnov:

Passo 1: Ordenar os dados do menor para o maior. Se

R(i) corresponder ao i-ésimo menor dado, então:

R₍₁₎ ≤ R₍₂₎≤...≤ R_(N)

Passo 2: Calcular: e

Passo 3: Calcular: D = max(D+_{, D}-_).

Passo 4: Encontrar o ponto crítico Dαααα nas tabelas

anteriores para o nível de significância αααα e o tamanho

N.

Passo 5: Se D ≤ D_αα_α_α, então, a hipótese H₀ é aceita, caso contrário é rejeitada.













−

=

_≤_≤

+

) ( 1

max

i N

i

_N

R

i

D













₋

−

=

_≤_≤

−

N

i

R

D

_i

N i

1 max

() 1

40

Exemplo 5: Suponha que cinco números foram

gerados: 0,44, 0,81, 0,14, 0,05 e 0,93. Aplicar

o teste de Kolmogorov-Smirnov com nível de

significância

αααα

= 0,05 para verificar se os valores

seguem uma função de distribuição de

probabilidade uniforme.

Os passos 1 e 2 são dados pela seguinte tabela:

R(i) 0,05 0,14 0,44 0,81 0,93

i/N 0,20 0,40 0,60 0,80 1,00

i/N – R(i) 0,15 0,26 0,16 - 0,07

R(i)-(i-1)/N 0,05 - 0,04 0,21 0,13

(21)

41

Passo 3: Calcular: D = max(D+_{, D}-_{) = max(0,26, 0,21) = 0,26}

DADOS DE ENTRADA

Passo 4: Encontrar o ponto crítico Dαααα nas tabelas anteriores

para o nível de significância αααα = 0,05 e o tamanho N = 5:

D

_αα_α_α

= 0,563

42

DADOS DE ENTRADA

Passo 5: Se D ≤ Dαααα, então, a hipótese H0 é aceita, caso contrário

é rejeitada. Como D = 0,26 ≤ Dαααα = 0,563. Lembrando que:

H0: R1, R2, ..., RN é uma amostra aleatória da variável

aleatória com distribuição acumulada F(x).

H_α_αα_α: R₁, R₂, ..., R_N não é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).

(22)

43

1 0,01

2 0,07

3 0,03

4 0,08

5 0,04

6 0,10

7 0,05

8 0,10

9 0,11

10 1,17

11 1,50

12 0,93

13 0,54

14 0,19

15 0,22

16 0,36

17 0,27

18 0,46

19 0,51

20 0,11

21 0,56

22 0,72

23 0,29

24 0,04

25 0,73

Exemplo 6: Verificar se as 25 observações em

T min realizadas e são tais que correspondem

aos dados fornecidos nas tabelas a seguir. Verificar

se correspondem a uma f.d. exponencial.

44

ANÁLISE ESTATÍSTICA

Para aplicar o teste de Kolmogorov-Smirnov,

observa-se que os tempos T1, T2, ... se são

exponenciais, então, pode ser provado que os

tempos das chegadas

estão uniformemente

distribuídos em [0,T ] com T =

ΣΣΣΣ

Ti = 9,19.

Os tempos das chegadas são obtidos com:

T1, T1+T2, T1+T2+T3, ..., T1+...+T25.

(23)

45

GERAÇÃO ALEATÓRIA DA EXPONENCIAL

46

COMO GERAR F.D. EXPONENCIAL?







<

≥

=

−

0 ,

0

0 ,

)

(

t

e

t

f

t λ

λ

A função de distribuição de probabilidade da

exponencial é dada por:

A função de distribuição de probabilidade acumulada

(FDA) da exponencial é dada por:

∫

∞ − − − ∞ −      < ≥ − = = = ≤

= t t t

t t t e dt e dt t f t A P t F 0 , 0 0 , 1 ) ( ) ( ) ( λ λ

λ

(24)

47

PASSO 1: Obter a FDA da variável aleatória X. No caso da exponencial:







<

≥

−

=

−

0 ,

0

0 ,

1 )

(

t

e

t

F

t λ

PASSO 2: Seja F(X) = R e como F(X) é FDA, então, F(X) ∈∈∈∈ [0, 1]. Para a exponencial: 1 - e-λλλλt _{= R desde}

que X ≥≥≥≥ 0. Como X é uma variável aleatória, então, 1 - e-λλλλt _{(isto é R) também o é e} _∈_∈_∈_∈ _{[0, 1].}

PASSO 3: Resolver F(X) = R em termos de R.

)

1 ln(

1 R

X

=

−

λ

ln(

)

1 R

X

λ

−

=

(1-R)∈∈∈∈[0,1],

R∈∈∈∈[0,1]

48

(25)

49

SIMULAÇÃO DE SISTEMAS

Tempo entre as chegadas

...

Máquina I

Fila

CENÁRIO 1

Tempo entre as chegadas

...

Máquina I

Fila

CENÁRIO 10

50

Suponha que são realizadas n replicações independentes que empregam a simulação terminal. Se as n simulações começam com a mesma condição inicial e usam diferentes sequências de valores aleatórios, então, cada simulação pode ser tratada com uma replicação independente. Por simplicidade suponha que exista uma medida de

performance representada pela variável X. Então, X_j é o estimador da medida de performance da j-ésima

replicação, tal que a sequência X₁, X₂, ..., X_n será de variáveis aleatórias i.i.d. Para estas variáveis a análise estatística clássica pode ser aplicada para construir um intervalo de confiança de 100*(1-αααα)% para

θ = E(x) usando:

ANÁLISE ESTATÍSTICA

( )

n

S

t

X

_n

2

1 , 2

/ −

(26)

51

α αα

α/2% das observações

⇔ ⇔⇔ ⇔ α

αα

α/2% da área sob a curva

z_α_αα_α/2 = 1,6;

p.ex.

Z é função de distrib.

normal

y

x

**IC de 100*(1-**

αααα

)%

52

0 200 400 600 800 1000 1200

-150 -100 -50 0 50 100 150

Número passos = 1000

1 simulação

Valores médios de todas as simulações

1000 simulações

Parâmetros: z = 0.5, w = 0,

y = 1000 e x = 1000.

(27)

53

ANÁLISE ESTATÍSTICA

Faixas

F

re

qu

ên

ci

a

Histograma associado

Média:

ΣΣΣΣ

x

_i

/n

Moda: + freq.

Mediana: até 50%

54

ANÁLISE ESTATÍSTICA

( )

n

S

t

X

_n

2

1 , 2

/ −

±

α

∑

=

n

i i

n

X

1

(

)

∑

=

−

=

n

i i

n

X

S

1

2 2

Média Variância amostral

Valor da distribuição t-Student com n – 1 graus de liberdade tal que: P(tn-1 ≥≥≥≥ t(αααα,n-1)) = αααα. Esse

valor pode ser encontrado com o Excel usando: =TINV(2*alpha, graus_de_liberdade).

(28)

55

Simulação X_j

1 9,252

2 9,273

3 9,413

4 9,198

5 9,532

6 9,355

7 9,155

8 9,558

9 9,310

10 9,269

Exemplo 7: Sejam os dados do número de terminais em operação obtidos de 10 simulações, de mesmo tamanho

de tempo, como dado na Tabela a seguir.

O número médio de terminais em operação é de 9,331, a variância S2 _{= 0,018 e se}

t(0,25 , 9 ) = 2,26, então:

10 0180

,

0

26 ,

2

331 ,

9 ±

096 ,

0

331 ,

9 ±

E para a amostra de dados é este o intervalo com confiança de 95%

αααα

/2 n-1

56

(29)

57

ANÁLISE ESTATÍSTICA -PROMODEL

58

ANÁLISE ESTATÍSTICA

OBSERVAÇÃO: O tamanho do intervalo de confiança irá

depender da qualidade da nossa amostra. Se o intervalo de confiança for inaceitável, então, para reduzir o seu tamanho é necessário aumentar o número de amostras

ou o tempo de cada simulação. Por exemplo, se o número de amostras aumentar de 10 para 20 ocorrem

duas melhorias:

(1)A média da amostra (passa para 9,359) se

aproxima daquela fornecida pelo estado estacionário (que é 9,362).

(30)

59

( )

n

S

t

X

_n

2

1 , 2

/ −

±

α

∑

=

n

i i

n

X

1

(

)

∑

=

−

=

n

i i

n

X

S

1

2 2

Média Variância amostral

Valor da distribuição t-Student com n – 1 graus de liberdade pode ser substituída por: Z_αα_α_α_/2 Pois t(αααα/2, n-1) ≅≅≅≅ Zαααα/2 para n suficientemente grande.

A vantagem é que Z_α_αα_α_/2 o valor de não depende de n.

Z_αα_α_α_/2 que é o ponto da distribuição normal tal que 100*(1-αααα/2)% abarca dos valores da distribuição.