COLETA DE DADOS E OBTENÇÃO DE ESTATÍSTICAS

(1)

1

© UNESP 6 Agosto 2008

Autor: Anibal Tavares de Azevedo

Limeira, 14 de Maio 2016

SIMULAÇÃO DE SISTEMAS

AULA 13

2

DADOS DE ENTRADA

(2)

3

DADOS DE ENTRADA

Garbage in,Garbage out

Often abbreviated as GIGO, this is a famous computer axiom meaning that if invalid data is entered into a

system

, the resulting

output will also be invalid. Although originally applied to computer software, the axiom holds true for all systems, including,

for example, decision-making systems.

(3)

5

DADOS DE ENTRADA

6

Exemplo 1: Identificação Outlier

Q3

Q1

Max NO

Outlier

75%

25%

Mediana

50%

Eliminar

Min NO

(4)

7

Exemplo 2: Análise de correlação

O diagrama de dispersão (scatter plot)

permite a

visualização de que

não existe correlação

dos dados.

COLETA E TRATAMENTO DE DADOS

8

Exemplo 3: Inferência

Para determinar a função de distribuição associada aos

dados é necessário construir um histograma. Para tanto, é

necessário determinar o

número de classes. Uma forma é a

raiz quadrada do número de observações ou regra de

Sturges:

n

K

=

1 +

3 ,

3 log

₁₀

Número de classes

_{Número de dados}

O tamanho

h

de cada classe é dado por:

(5)

9

Para o caso particular existem 200 chegadas que geraram

199 intervalo de tempo. Desses 199 valores 1 foi considerado

outlier (valor 728) e eliminado, restando, portanto, 198

valores de intervalo de tempo. Assim:

9

6 ,

8

30 ,

2 *

3 ,

3

1

198 log

3 ,

3

1 +

₁₀

=

+

=

≅

=

K

Número de classes

Número de dados

O tamanho

h

de cada classe é dado por:

78 ,

4

9

43 SO

amostra

amplitude

₌

=

K

h

Maior valor

sem outlier

Exemplo 3: Inferência

COLETA E TRATAMENTO DE DADOS

10

=sum(H5:H204) 1

2 Total na classe 1

Exemplo 3: Inferência

(6)

11

Intervalo de tempo [h] Número de Chegadas

[0,0 - 4,8) 96 [4,8 - 9,6) 55 [9,6 – 14,3) 25 [14,3 – 19,1) 13 [19,1 – 23,9) 4 [23,9 – 28,7) 5 [28,7 – 33,4) 0 [33,4 – 38,2) 0

>38,2 1

Média intervalo entre as chegadas sem considerar o outlier = 6,83

COLETA E TRATAMENTO DE DADOS

12

R2_{= 0,5935} _R2_{= 0,7925}

Polinômio de grau 2 Polinômio de grau 4

Exemplo 4: Ajuste de curvas

(7)

13

A medida R2 _{serve para indicar, em percentagem, o}

quanto a estimativa realizada pelo modelo proposto ( ) consegue explicar os dados observados (yi).

Assim, um valor de R2 _{= 0,8576 indica que 85,76% da}

variável dependente pode ser explicada pelo modelo.

R2_{= 0,5935} _R2_{= 0,7925}

Polinômio de grau 2 Polinômio de grau 4

i

y

ˆ

EXPLICAÇÃO SOBRE R

2

14

ESTIMAÇÃO DE PARÂMETROS

DISTRIBUIÇÃO

PARÂMETROS

ESTIMADOR

SUGERIDO

POISSON

_α

EXPONENCIAL

_λ

NORMAL

_{µ, σ}

2

X

=

α

ˆ

X

1 ˆ

₌

λ

2 2

ˆ S X

= =

σ

µ

)

Existem estimadores

para outras

distribuições

Lognormal, Weibull, Gamma e Beta.

(8)

15

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.5 1 1.5 2 2.5 3

O CASO PARTICULAR DA EXPONENCIAL

t

f(t)

16

DADOS DE ENTRADA

Como verificar se os dados de entrada, isto é, os intervalos entre as chegadas e os tempo de serviço, são exponenciais, por exemplo?

Suponha que o intervalo entre as chegadas é dado por t1, t2, ..., tn. Pode ser mostrado que uma estimativa

razoável da taxa de chegada é dada por:

∑

=

_n

i i

t

n

1

ˆ

(9)

17

DADOS DE ENTRADA

35

1

140

4

50

40

30

20

4 ˆ

1

=

+

=

∑

=

n i

i

t

n

λ

Por exemplo, sejam t1 = 20, t2 = 30, t3 = 40 e t4 = 50,

então, existem 4 chegadas em um intervalo de 140 unidades de tempo e na média ocorre 1 chegada a cada 35 unidades de tempo. Isto é justificado através da fórmula que fornece a estimativa para a taxa de chegada λ:

A partir da estimativa de λ é possível verificar se é verdadeira ou não a hipótese de que o intervalo entre as chegadas t₁, t₂, ..., t_n é governado pela função de distribuição exponencial dada por:

t

e

t

f

(

)

=

λ

ˆ

−λˆ

18

DADOS DE ENTRADA

TESTES ESTATÍSTICOS

DE AJUSTE DE CURVAS PARA

(10)

19

DADOS DE ENTRADA

A forma mais simples de realizar tal verificação é empregar o teste de aderência Chi-quadrado (existe também o teste de Komolgorov-Smirnov, que será discutido mais adiante).

Passo 1:Quebrar o conjunto das possíveis chegadas em k categorias

.

Passo 2: Assumir que f(t) governa o fenômeno do

tempo entre as chegadas para estimar o número de ti´s

que devem estar em cada categoria i: oi.

Passo 3: Aplicar a fórmula a seguir para calcular a estatística da chi-quadrado χ2_{(obs) para os dados}

observados:

∑

= − = k i i i i e e o obs 1 2

2 ( )

) (

χ

20

DADOS DE ENTRADA

∑

= − = k i i i i e e o obs 1 2

2 ( )

) (

χ

O valor de χ2_{(obs) segue uma distribuição chi-quadrado}

com k-2 graus de liberdade. Se χ2_{(obs) for pequeno,}

então, é razoável assumir que os t_i´s são amostras de uma variável aleatória com distribuição f(t). Por exemplo, se houver uma aderência perfeita, então, o_i = e_i para i = 1, 2,..., k, resultando em χ2_{(obs)com valor}

igual a zero. Se χ2_{(obs) for muito grande, então,}

(11)

21

DADOS DE ENTRADA

∑

=

− = k

i i i i

e e o obs

1

2

2 ( )

) (

χ

H₀: t1, t2, ..., tn é uma amostra aleatória da variável aleatória com distribuição f(t).

H_α: t1, t2, ..., tn não é uma amostra aleatória da variável aleatória com distribuição f(t).

A hipótese H₀ será aceita se χ2_(obs) _≤ χ2

k-r-1(α), caso

contrário, H_α será aceita. O valor α corresponde a área à direita de χ2

k-r-1(α). O valor r é o número de

parâmetros que devem ser estimados para especificar a distribuição do intervalo entre as chegadas. Se o intervalo entre as chegadas for exponencial, então, r = 1. Se for uma Erlang, então, r = 2. O valor k é o número de categorias.

22

ANÁLISE ESTATÍSTICA

α% das observações

⇔ α% da área sob a curva

χ2 r(α)

χ2 _{é função}

de distrib. Chi-quadrado

y

(12)

23

DADOS DE ENTRADA

Chegada Intervalo 1 0,01 2 0,07 3 0,03 4 0,08 5 0,04 6 0,10 7 0,05 8 0,10 9 0,11 10 1,17 Chegada Intervalo 11 1,50 12 0,93 13 0,54 14 0,19 15 0,22 16 0,36 17 0,27 18 0,46 19 0,51 20 0,11 Chegada Intervalo 21 0,56 22 0,72 23 0,29 24 0,04 25 0,73

Exemplo 5: Verificar se as observações são tais que

correspondem a função de distribuição

exponencial.

24

DADOS DE ENTRADA

72 ,

2

19 ,

9

25 ˆ

1

=

∑

= n i i

t

n

λ

Observar que:

A função de probabilidade exponencial será dada por:

(13)

25

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.5 1 1.5 2 2.5 3

DADOS DE ENTRADA

Função de distribuição Exponencial 2,72e-2,72t

t

f(t)

26

DADOS DE ENTRADA

Escolhendo 5 categorias tal que a probabilidade de que uma observação A esteja em uma das 5 categorias seja de 0,20. Assim: ei = 25*(0,20) = 5 observações para

cada categoria. Para obter os limites de cada categoria é preciso empregar a função de distribuição acumulada para A:

∫

−

₌

₋

−

=

≤

=

t s t

e

ds

e

t

A

P

t

F

0

72 , 2 72

, 2

1

72

(14)

27

0 0,08 0,19 0,34 0,59 1 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

DADOS DE ENTRADA

Função de distribuição acumulada da Exponencial f(t)

t

F(t)

28

DADOS DE ENTRADA

Os limites de cada categoria serão:

Categoria Intervalo

1 0 ≤ t < m₁ minutos

2 m₁≤ t < m₂ minutos

3 m2 ≤ t < m3 minutos

4 m₃≤ t < m₄ minutos

5 m₄≤ t minutos

Observar que:

(15)

29

DADOS DE ENTRADA

Seja F(t) = 1 – e-2,72t_{, então, para qualquer número p,}

achar o valor t que satisfaz F(t) = p. O valor t pode ser encontrado com:

Aplicando logarítmo na base e dos dois lados de (1):

p

e

t

=

−

−2,72

1

t

e

p

2,72

1 −

=

− (1)

72 ,

2 )

1 ln(

−

=

p

t

(2) 30

DADOS DE ENTRADA

Aplicando (2) para encontrar m₁, m₂, m₃ e m₄:

08 ,

0

72 ,

2 )

2 ,

0

1 ln(

1

=

−

=

m

19 ,

0

72 ,

2 )

4 ,

0

1 ln(

2

=

−

=

m

34 ,

0

72 ,

2 )

6 ,

0

1 ln(

3

₋

=

−

=

m

59 ,

0

72 ,

2 )

8 ,

0

1 ln(

4

₋

=

−

=

m

Categoria Intervalo

1 0 ≤t< 0,08 minutos

2 0,08 ≤t< 0,19 minutos

3 0,19 ≤t< 0,34 minutos

4 0,34 ≤t< 0,59 minutos

(16)

31

0 0,08 0,19 0,34 0,59 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

DADOS DE ENTRADA

Função de distribuição acumulada da Exponencial F(t)

t

F(t)

32

DADOS DE ENTRADA

Após classificar os dados nas 5 categorias, encontra-se: o₁ = 6, o₂ = 5, o₃ = 4, o₄ = 5 e o₅ = 5. O número de valores esperados em cada categoria é dado por: e₁ = e₂ = e₃ = e₄ = e₅ = 0,2*(25) = 5. Com isto. Calcula-se o valor de χ2_(obs):

∑

= − = k i i i i e e o obs 1 2 2₍ ₎ ( )

χ 5 ) 5 5 ( 5 ) 5 5 ( 5 ) 5 4 ( 5 ) 5 5 ( 5 ) 5 6 ( ) ( 2 2 2 2 2

2 _obs ₌ − ₊ − ₊ − ₊ − ₊ −

(17)

33

Lembrando que a hipótese H0 será aceita se χ2(obs) ≤

χ2

k-r-1(α), caso contrário, Hα será aceita.

Seja α = 0,05 e usando a distribuição exponencial (i.e. r = 1), então:

χ2

5-1-1(α) = χ23(0,05) = 7,81.

Como χ2(obs) = 0,40, então: χ2(obs) ≤ χ2

k-r-1(α) e a

hipótese de que o tempo entre as chegadas segue uma distribuição exponencial com chegada de taxa de média de chegada de λ = 2,72 por minuto pode ser aceita.

No Excell o valor da chi-quadrado pode obtido com:

=CHINV(.05,3) = 7,81.

DADOS DE ENTRADA

H0: t1, t2, ..., tn é uma amostra aleatória da variável aleatória com distribuição f(t).

34

DADOS DE ENTRADA

Existem duas questões importantes para a aplicação do teste Chi-quadrado:

(i) Número mínimo de valores para aplicar o teste. (ii)Número de classes.

(18)

35

DADOS DE ENTRADA

Tamanho da amostra(n)

Número de classes(k)

20 Não usar o teste

50 5 a 10

100 10 a 20

> 100

De n

1/2

_{até n/5}

Recomendações de quando usar o teste χ2 _{e acerca do}

número de categorias (k) de acordo com o tamanho da amostra (n):

Outra recomendação é a de usar categorias com o mesmo número esperado de dados (e_i) para distribuições contínuas. Neste caso, deve-se usar também que:

e_i = n*p_i ≥ 5 → n*(1/k) ≥ 5 → k ≤n/5

36

DADOS DE ENTRADA

Observações adicionais sobre o teste Chi-quadrado:

(i) O teste Chi-quadrado exige que os dados sejam agrupados em k classes e no caso de distribuições contínuas estes agrupamentos são arbitrários.

(ii)A modificação no número de classes e no tamanho dos intervalos pode afetar o valor de χ2(obs) de que para alguns agrupamentos a hipótese H0 pode ser

aceita e em outros rejeitada.

(19)

37

DADOS DE ENTRADA

Teste de Kolmogorov-Smirnov:

Este teste compara a função de distribuição acumulada (FDA) esperada F(x) com a FDA observada SN(x), onde N

é o número de observações da amostra.

Se a amostra fornece valores R1, R2, ..., RN, então, a

FDA empírica de SN(x) será dada por:

N

x

R

de

no

x

S

_N

(

)

=

.

{

1

,

2

,...,

N

}

≤

Conforme N torna-se grande, S_N(x) deve se tornar uma melhor aproximação para F(x), provendo, portanto, evidências de que a hipótese H₀ é verdadeira.

38

H0: R1, R2, ..., RN é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).

H_α: R1, R2, ..., RN não é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).

Observando que:

DADOS DE ENTRADA

O teste de Kolmogorov-Smirnov usa a maior desvio absoluto entre F(x) e S_N(x) no intervalo da variável aleatória e emprega a seguinte fórmula:

D = max |F(x) – S_N(X)| (1)

(20)

39

DADOS DE ENTRADA

Para n>40:

40

DADOS DE ENTRADA

Passos do Teste de Kolmogorov-Smirnov:

Passo 1: Ordenar os dados do menor para o maior. Se R(i) corresponder ao i-ésimo menor dado, então:

R(1) ≤ R(2)≤...≤ R(N)

Passo 2: Calcular: e

Passo 3: Calcular: D = max(D+_{, D}-_).

Passo 4: Encontrar o ponto crítico Dα nas tabelas anteriores para o nível de significância α e o tamanho













−

=

≤ ≤ +

) ( 1

max

i N

i

_N

R

i

D













−

=

≤ ≤ −

N

i

R

D

i

N i

(21)

41

Exemplo 6: Suponha que cinco números foram

gerados: 0,44, 0,81, 0,14, 0,05 e 0,93. Aplicar

o teste de Kolmogorov-Smirnov com nível de

significância

α

= 0,05 para verificar se os valores

seguem uma função de distribuição de

probabilidade uniforme.

Os passos 1 e 2 são dados pela seguinte tabela:

R(i) 0,05 0,14 0,44 0,81 0,93

i/N 0,20 0,40 0,60 0,80 1,00

i/N – R(i) 0,15 0,26 0,16 - 0,07

R(i)-(i-1)/N 0,05 - 0,04 0,21 0,13

DADOS DE ENTRADA

42

Passo 3: Calcular: D = max(D+_{, D}-_{) = max(0,26, 0,21) = 0,26}

DADOS DE ENTRADA

Passo 4: Encontrar o ponto crítico D_α nas tabelas anteriores para o nível de significância α = 0,05 e o tamanho N = 5:

(22)

43

DADOS DE ENTRADA

Passo 5: Se D ≤ Dα, então, a hipótese H0 é aceita, caso contrário

é rejeitada. Como D = 0,26 ≤ Dα = 0,563. Lembrando que:

H0: R1, R2, ..., RN é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).

H_α: R₁, R₂, ..., R_N não é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).

Como H0 é aceita, então, isto significa que os dados possuem FDA uniforme de acordo com o teste de Kolmogorov-Smirnov.

44

DADOS DE ENTRADA

AUSÊNCIA DE ANÁLISES

ESTATÍSTICAS ACERCA DOS

(23)

45

DISTRIBUIÇÃO TRIANGULAR

Projeto 1: Em um cabeleireiro 3 tipos de clientes

podem ser atendidos com diferentes tempos de

processamento de acordo com uma função de

distribuição de probabilidade triangular t(7,8,9).

Tipo de cliente

Tempo do corte (minutos)

Criança Mulher Homem

Média

8 12 10

Metade

2 3 2

A probabilidade de chegada de uma criança é de

20%, uma mulher de 50% e um homem de 30%. O

tempo de simulação é de 480 minutos. Quantos

clientes de cada tipo são atendidos? E estão no salão?

46

DISTRIBUIÇÃO TRIANGULAR

b

a

Tempo processamento

2/(b-a)

9

7

Tempo processamento

2/(9-7)

x

8

(24)

47

DADOS DO HISTÓRICO

Simulador

Dados do histórico

“Se os dados estão disponíveis e se considera que o sistema não sofrerá grandes alterações de comportamento de um período para outro, é sempre preferível utilizar a série histórica – ou seja, os dados reais – em detrimento de modelos estatísticos (...).”

Só não é recomendado utilizar quando:

- Se preveem grandes alterações no futuro;

- Dados coletados em um período curto.

p.42

48

Dados de Séries Temporais

Experimento inspirado no texto do livro “O andar do bêbado” de Leonard Mlodinow. Tente adivinhar as próximas cores da seguinte sequência:

1 2 3 4 5 6 7 8 9 10 11 12

(25)

49

DADOS DO HISTÓRICO

1 2 3 4 5 6 7 8 9 10 11 12

Sequência de coelhos

Sequência realizada

Sequência repetida

1 2 3 4 5 6 7 8 9 10 11 12

75% de acertos

50% de acertos

50

DADOS DO HISTÓRICO

1 2 3 4 5 6 7 8 9 10 11 12

Sequência de coelhos

Sequência realizada

Sequência repetida

1 2 3 4 5 6 7 8 9 10 11 12

(26)

51

“A explicação que ofereci é estatística:

resultados extremos (tanto altos como

baixos) têm maior probabilidade de

serem

encontrados

em

amostras

pequenas do que nas grandes.”

(...)

“Se você é o pesquisador, esse resultado

sai caro para você, porque você gastou

tempo e esforço, e não conseguiu

confirmar uma hipótese que era de fato

verdadeira.

Usar

uma

amostra

suficientemente grande é o único modo

de reduzir o risco.

Pesquisadores que

pegam uma amostra pequena demais se

põem

à

mercê

do

acaso

da

amostragem.”

DADOS DO HISTÓRICO

52