• Nenhum resultado encontrado

COLETA DE DADOS E OBTENÇÃO DE ESTATÍSTICAS

N/A
N/A
Protected

Academic year: 2019

Share "COLETA DE DADOS E OBTENÇÃO DE ESTATÍSTICAS"

Copied!
26
0
0

Texto

(1)

1

© UNESP 6 Agosto 2008

Autor: Anibal Tavares de Azevedo

Limeira, 14 de Maio 2016

SIMULAÇÃO DE SISTEMAS

AULA 13

2

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

(2)

3

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

Garbage in,Garbage out

Often abbreviated as GIGO, this is a famous computer axiom meaning that if invalid data is entered into a

system

, the resulting

output will also be invalid. Although originally applied to computer software, the axiom holds true for all systems, including,

for example, decision-making systems.

(3)

5

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

6

© UNESP 6 Agosto 2008

Exemplo 1: Identificação Outlier

Q3

Q1

Max NO

Outlier

75%

25%

Mediana

50%

Eliminar

Min NO

(4)

7

© UNESP 6 Agosto 2008

Exemplo 2: Análise de correlação

O diagrama de dispersão (scatter plot)

permite a

visualização de que

não existe correlação

dos dados.

COLETA E TRATAMENTO DE DADOS

8

Exemplo 3: Inferência

Para determinar a função de distribuição associada aos

dados é necessário construir um histograma. Para tanto, é

necessário determinar o

número de classes. Uma forma é a

raiz quadrada do número de observações ou regra de

Sturges:

n

K

=

1

+

3

,

3

log

10

Número de classes

Número de dados

O tamanho

h

de cada classe é dado por:

(5)

9

© UNESP 6 Agosto 2008

Para o caso particular existem 200 chegadas que geraram

199 intervalo de tempo. Desses 199 valores 1 foi considerado

outlier (valor 728) e eliminado, restando, portanto, 198

valores de intervalo de tempo. Assim:

9

6

,

8

30

,

2

*

3

,

3

1

198

log

3

,

3

1

+

10

=

+

=

=

K

Número de classes

Número de dados

O tamanho

h

de cada classe é dado por:

78

,

4

9

43

SO

amostra

amplitude

=

=

=

K

h

Maior valor

sem outlier

Exemplo 3: Inferência

COLETA E TRATAMENTO DE DADOS

10

© UNESP 6 Agosto 2008

=sum(H5:H204) 1

2 Total na classe 1

Exemplo 3: Inferência

(6)

11

© UNESP 6 Agosto 2008

Intervalo de tempo [h] Número de Chegadas

[0,0 - 4,8) 96 [4,8 - 9,6) 55 [9,6 – 14,3) 25 [14,3 – 19,1) 13 [19,1 – 23,9) 4 [23,9 – 28,7) 5 [28,7 – 33,4) 0 [33,4 – 38,2) 0

>38,2 1

Média intervalo entre as chegadas sem considerar o outlier = 6,83

COLETA E TRATAMENTO DE DADOS

12

R2= 0,5935 R2= 0,7925

Polinômio de grau 2 Polinômio de grau 4

Exemplo 4: Ajuste de curvas

(7)

13

© UNESP 6 Agosto 2008

A medida R2 serve para indicar, em percentagem, o

quanto a estimativa realizada pelo modelo proposto ( ) consegue explicar os dados observados (yi).

Assim, um valor de R2 = 0,8576 indica que 85,76% da

variável dependente pode ser explicada pelo modelo.

R2= 0,5935 R2= 0,7925

Polinômio de grau 2 Polinômio de grau 4

i

y

ˆ

EXPLICAÇÃO SOBRE R

2

14

© UNESP 6 Agosto 2008

ESTIMAÇÃO DE PARÂMETROS

DISTRIBUIÇÃO

PARÂMETROS

ESTIMADOR

SUGERIDO

POISSON

α

EXPONENCIAL

λ

NORMAL

µ, σ

2

X

=

α

ˆ

X

1

ˆ

=

λ

2 2

ˆ S X

= =

σ

µ

)

Existem estimadores

para outras

distribuições

Lognormal, Weibull, Gamma e Beta.

(8)

15

© UNESP 6 Agosto 2008

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.5 1 1.5 2 2.5 3

O CASO PARTICULAR DA EXPONENCIAL

t

f(t)

16

DADOS DE ENTRADA

Como verificar se os dados de entrada, isto é, os intervalos entre as chegadas e os tempo de serviço, são exponenciais, por exemplo?

Suponha que o intervalo entre as chegadas é dado por t1, t2, ..., tn. Pode ser mostrado que uma estimativa

razoável da taxa de chegada é dada por:

=

=

n

i i

t

n

1

ˆ

(9)

17

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

35

1

140

4

50

40

30

20

4

ˆ

1

=

=

+

+

+

=

=

=

n i

i

t

n

λ

Por exemplo, sejam t1 = 20, t2 = 30, t3 = 40 e t4 = 50,

então, existem 4 chegadas em um intervalo de 140 unidades de tempo e na média ocorre 1 chegada a cada 35 unidades de tempo. Isto é justificado através da fórmula que fornece a estimativa para a taxa de chegada λ:

A partir da estimativa de λ é possível verificar se é verdadeira ou não a hipótese de que o intervalo entre as chegadas t1, t2, ..., tn é governado pela função de distribuição exponencial dada por:

t

e

t

f

(

)

=

λ

ˆ

−λˆ

18

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

TESTES ESTATÍSTICOS

DE AJUSTE DE CURVAS PARA

(10)

19

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

A forma mais simples de realizar tal verificação é empregar o teste de aderência Chi-quadrado (existe também o teste de Komolgorov-Smirnov, que será discutido mais adiante).

Passo 1:Quebrar o conjunto das possíveis chegadas em k categorias

.

Passo 2: Assumir que f(t) governa o fenômeno do

tempo entre as chegadas para estimar o número de ti´s

que devem estar em cada categoria i: oi.

Passo 3: Aplicar a fórmula a seguir para calcular a estatística da chi-quadrado χ2(obs) para os dados

observados:

= − = k i i i i e e o obs 1 2

2 ( )

) (

χ

20

DADOS DE ENTRADA

= − = k i i i i e e o obs 1 2

2 ( )

) (

χ

O valor de χ2(obs) segue uma distribuição chi-quadrado

com k-2 graus de liberdade. Se χ2(obs) for pequeno,

então, é razoável assumir que os ti´s são amostras de uma variável aleatória com distribuição f(t). Por exemplo, se houver uma aderência perfeita, então, oi = ei para i = 1, 2,..., k, resultando em χ2(obs)com valor

igual a zero. Se χ2(obs) for muito grande, então,

(11)

21

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

=

− = k

i i i i

e e o obs

1

2

2 ( )

) (

χ

H0: t1, t2, ..., tn é uma amostra aleatória da variável aleatória com distribuição f(t).

Hα: t1, t2, ..., tn não é uma amostra aleatória da variável aleatória com distribuição f(t).

A hipótese H0 será aceita se χ2(obs) χ2

k-r-1(α), caso

contrário, Hα será aceita. O valor α corresponde a área à direita de χ2

k-r-1(α). O valor r é o número de

parâmetros que devem ser estimados para especificar a distribuição do intervalo entre as chegadas. Se o intervalo entre as chegadas for exponencial, então, r = 1. Se for uma Erlang, então, r = 2. O valor k é o número de categorias.

22

© UNESP 6 Agosto 2008

ANÁLISE ESTATÍSTICA

α% das observações

⇔ α% da área sob a curva

χ2 r(α)

χ2 é função

de distrib. Chi-quadrado

y

(12)

23

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

Chegada Intervalo 1 0,01 2 0,07 3 0,03 4 0,08 5 0,04 6 0,10 7 0,05 8 0,10 9 0,11 10 1,17 Chegada Intervalo 11 1,50 12 0,93 13 0,54 14 0,19 15 0,22 16 0,36 17 0,27 18 0,46 19 0,51 20 0,11 Chegada Intervalo 21 0,56 22 0,72 23 0,29 24 0,04 25 0,73

Exemplo 5: Verificar se as observações são tais que

correspondem a função de distribuição

exponencial.

24

DADOS DE ENTRADA

72

,

2

19

,

9

25

ˆ

1

=

=

=

= n i i

t

n

λ

Observar que:

A função de probabilidade exponencial será dada por:

(13)

25

© UNESP 6 Agosto 2008

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.5 1 1.5 2 2.5 3

DADOS DE ENTRADA

Função de distribuição Exponencial 2,72e-2,72t

t

f(t)

26

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

Escolhendo 5 categorias tal que a probabilidade de que uma observação A esteja em uma das 5 categorias seja de 0,20. Assim: ei = 25*(0,20) = 5 observações para

cada categoria. Para obter os limites de cada categoria é preciso empregar a função de distribuição acumulada para A:

=

=

=

t s t

e

ds

e

t

A

P

t

F

0

72 , 2 72

, 2

1

72

(14)

27

© UNESP 6 Agosto 2008

0 0,08 0,19 0,34 0,59 1 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

DADOS DE ENTRADA

Função de distribuição acumulada da Exponencial f(t)

t

F(t)

28

DADOS DE ENTRADA

Os limites de cada categoria serão:

Categoria Intervalo

1 0 ≤ t < m1 minutos

2 m1 ≤ t < m2 minutos

3 m2 ≤ t < m3 minutos

4 m3 ≤ t < m4 minutos

5 m4 ≤ t minutos

Observar que:

(15)

29

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

Seja F(t) = 1 – e-2,72t, então, para qualquer número p,

achar o valor t que satisfaz F(t) = p. O valor t pode ser encontrado com:

Aplicando logarítmo na base e dos dois lados de (1):

p

e

t

=

−2,72

1

t

e

p

2,72

1

=

(1)

72

,

2

)

1

ln(

=

p

t

(2) 30

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

Aplicando (2) para encontrar m1, m2, m3 e m4:

08

,

0

72

,

2

)

2

,

0

1

ln(

1

=

=

m

19

,

0

72

,

2

)

4

,

0

1

ln(

2

=

=

m

34

,

0

72

,

2

)

6

,

0

1

ln(

3

=

=

m

59

,

0

72

,

2

)

8

,

0

1

ln(

4

=

=

m

Categoria Intervalo

1 0 ≤t< 0,08 minutos

2 0,08 ≤t< 0,19 minutos

3 0,19 ≤t< 0,34 minutos

4 0,34 ≤t< 0,59 minutos

(16)

31

© UNESP 6 Agosto 2008

0 0,08 0,19 0,34 0,59 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

DADOS DE ENTRADA

Função de distribuição acumulada da Exponencial F(t)

t

F(t)

32

DADOS DE ENTRADA

Após classificar os dados nas 5 categorias, encontra-se: o1 = 6, o2 = 5, o3 = 4, o4 = 5 e o5 = 5. O número de valores esperados em cada categoria é dado por: e1 = e2 = e3 = e4 = e5 = 0,2*(25) = 5. Com isto. Calcula-se o valor de χ2(obs):

= − = k i i i i e e o obs 1 2 2( ) ( )

χ 5 ) 5 5 ( 5 ) 5 5 ( 5 ) 5 4 ( 5 ) 5 5 ( 5 ) 5 6 ( ) ( 2 2 2 2 2

2 obs =++++

(17)

33

© UNESP 6 Agosto 2008

Lembrando que a hipótese H0 será aceita se χ2(obs)

χ2

k-r-1(α), caso contrário, Hα será aceita.

Seja α = 0,05 e usando a distribuição exponencial (i.e. r = 1), então:

χ2

5-1-1(α) = χ23(0,05) = 7,81.

Como χ2(obs) = 0,40, então: χ2(obs) χ2

k-r-1(α) e a

hipótese de que o tempo entre as chegadas segue uma distribuição exponencial com chegada de taxa de média de chegada de λ = 2,72 por minuto pode ser aceita.

No Excell o valor da chi-quadrado pode obtido com:

=CHINV(.05,3) = 7,81.

DADOS DE ENTRADA

H0: t1, t2, ..., tn é uma amostra aleatória da variável aleatória com distribuição f(t).

34

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

Existem duas questões importantes para a aplicação do teste Chi-quadrado:

(i) Número mínimo de valores para aplicar o teste. (ii)Número de classes.

(18)

35

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

Tamanho da amostra(n)

Número de classes(k)

20

Não usar o teste

50

5 a 10

100

10 a 20

> 100

De n

1/2

até n/5

Recomendações de quando usar o teste χ2 e acerca do

número de categorias (k) de acordo com o tamanho da amostra (n):

Outra recomendação é a de usar categorias com o mesmo número esperado de dados (ei) para distribuições contínuas. Neste caso, deve-se usar também que:

ei = n*pi5n*(1/k)5k ≤n/5

36

DADOS DE ENTRADA

Observações adicionais sobre o teste Chi-quadrado:

(i) O teste Chi-quadrado exige que os dados sejam agrupados em k classes e no caso de distribuições contínuas estes agrupamentos são arbitrários.

(ii)A modificação no número de classes e no tamanho dos intervalos pode afetar o valor de χ2(obs) de que para alguns agrupamentos a hipótese H0 pode ser

aceita e em outros rejeitada.

(19)

37

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

Teste de Kolmogorov-Smirnov:

Este teste compara a função de distribuição acumulada (FDA) esperada F(x) com a FDA observada SN(x), onde N

é o número de observações da amostra.

Se a amostra fornece valores R1, R2, ..., RN, então, a

FDA empírica de SN(x) será dada por:

N

x

R

R

R

de

no

x

S

N

(

)

=

.

{

1

,

2

,...,

N

}

Conforme N torna-se grande, SN(x) deve se tornar uma melhor aproximação para F(x), provendo, portanto, evidências de que a hipótese H0 é verdadeira.

38

© UNESP 6 Agosto 2008

H0: R1, R2, ..., RN é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).

Hα: R1, R2, ..., RN não é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).

Observando que:

DADOS DE ENTRADA

O teste de Kolmogorov-Smirnov usa a maior desvio absoluto entre F(x) e SN(x) no intervalo da variável aleatória e emprega a seguinte fórmula:

D = max |F(x) – SN(X)| (1)

(20)

39

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

Para n>40:

40

DADOS DE ENTRADA

Passos do Teste de Kolmogorov-Smirnov:

Passo 1: Ordenar os dados do menor para o maior. Se R(i) corresponder ao i-ésimo menor dado, então:

R(1) R(2)≤...≤ R(N)

Passo 2: Calcular: e

Passo 3: Calcular: D = max(D+, D-).

Passo 4: Encontrar o ponto crítico Dα nas tabelas anteriores para o nível de significância α e o tamanho

=

≤ ≤ +

) ( 1

max

i N

i

N

R

i

D

=

≤ ≤ −

N

i

R

D

i

N i

(21)

41

© UNESP 6 Agosto 2008

Exemplo 6: Suponha que cinco números foram

gerados: 0,44, 0,81, 0,14, 0,05 e 0,93. Aplicar

o teste de Kolmogorov-Smirnov com nível de

significância

α

= 0,05 para verificar se os valores

seguem uma função de distribuição de

probabilidade uniforme.

Os passos 1 e 2 são dados pela seguinte tabela:

R(i) 0,05 0,14 0,44 0,81 0,93

i/N 0,20 0,40 0,60 0,80 1,00

i/N – R(i) 0,15 0,26 0,16 - 0,07

R(i)-(i-1)/N 0,05 - 0,04 0,21 0,13

DADOS DE ENTRADA

42

© UNESP 6 Agosto 2008

Passo 3: Calcular: D = max(D+, D-) = max(0,26, 0,21) = 0,26

DADOS DE ENTRADA

Passo 4: Encontrar o ponto crítico Dα nas tabelas anteriores para o nível de significância α = 0,05 e o tamanho N = 5:

(22)

43

© UNESP 6 Agosto 2008

DADOS DE ENTRADA

Passo 5: Se D ≤ Dα, então, a hipótese H0 é aceita, caso contrário

é rejeitada. Como D = 0,26 ≤ Dα = 0,563. Lembrando que:

H0: R1, R2, ..., RN é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).

Hα: R1, R2, ..., RN não é uma amostra aleatória da variável aleatória com distribuição acumulada F(x).

Como H0 é aceita, então, isto significa que os dados possuem FDA uniforme de acordo com o teste de Kolmogorov-Smirnov.

44

DADOS DE ENTRADA

AUSÊNCIA DE ANÁLISES

ESTATÍSTICAS ACERCA DOS

(23)

45

© UNESP 6 Agosto 2008

DISTRIBUIÇÃO TRIANGULAR

Projeto 1: Em um cabeleireiro 3 tipos de clientes

podem ser atendidos com diferentes tempos de

processamento de acordo com uma função de

distribuição de probabilidade triangular t(7,8,9).

Tipo de cliente

Tempo do corte (minutos)

Criança Mulher Homem

Média

8 12 10

Metade

2 3 2

A probabilidade de chegada de uma criança é de

20%, uma mulher de 50% e um homem de 30%. O

tempo de simulação é de 480 minutos. Quantos

clientes de cada tipo são atendidos? E estão no salão?

46

© UNESP 6 Agosto 2008

DISTRIBUIÇÃO TRIANGULAR

b

a

Tempo processamento

2/(b-a)

9

7

Tempo processamento

2/(9-7)

x

8

(24)

47

© UNESP 6 Agosto 2008

DADOS DO HISTÓRICO

Simulador

Dados do histórico

“Se os dados estão disponíveis e se considera que o sistema não sofrerá grandes alterações de comportamento de um período para outro, é sempre preferível utilizar a série histórica – ou seja, os dados reais – em detrimento de modelos estatísticos (...).”

Só não é recomendado utilizar quando:

- Se preveem grandes alterações no futuro;

- Dados coletados em um período curto.

p.42

48

Dados de Séries Temporais

Experimento inspirado no texto do livro “O andar do bêbado” de Leonard Mlodinow. Tente adivinhar as próximas cores da seguinte sequência:

1 2 3 4 5 6 7 8 9 10 11 12

(25)

49

© UNESP 6 Agosto 2008

DADOS DO HISTÓRICO

1 2 3 4 5 6 7 8 9 10 11 12

1 2 3 4 5 6 7 8 9 10 11 12

Sequência de coelhos

Sequência realizada

Sequência repetida

1 2 3 4 5 6 7 8 9 10 11 12

75% de acertos

50% de acertos

50

© UNESP 6 Agosto 2008

DADOS DO HISTÓRICO

1 2 3 4 5 6 7 8 9 10 11 12

1 2 3 4 5 6 7 8 9 10 11 12

Sequência de coelhos

Sequência realizada

Sequência repetida

1 2 3 4 5 6 7 8 9 10 11 12

(26)

51

© UNESP 6 Agosto 2008

“A explicação que ofereci é estatística:

resultados extremos (tanto altos como

baixos) têm maior probabilidade de

serem

encontrados

em

amostras

pequenas do que nas grandes.”

(...)

“Se você é o pesquisador, esse resultado

sai caro para você, porque você gastou

tempo e esforço, e não conseguiu

confirmar uma hipótese que era de fato

verdadeira.

Usar

uma

amostra

suficientemente grande é o único modo

de reduzir o risco.

Pesquisadores que

pegam uma amostra pequena demais se

põem

à

mercê

do

acaso

da

amostragem.”

DADOS DO HISTÓRICO

52

Referências

Documentos relacionados

Apesar de o mercado acionário brasileiro ter se tornado mais importante para a economia brasileira, sobretudo entre o período de 2002 para 2005 (Tabela 3), sua repre- sentatividade

(14) use um método de escrileitura calcado na vontade lúcida de estruturar o texto e não na intenção (absurda) de formular juízos de valor; ou seja, não organize o

Dentro do contexto da produção siderúrgica nacional (Quadro 6), a produção brasileira de aço bruto, acumulada no 1º semestre de 2013, totalizou 11,7 milhões de toneladas de

Neste tipo de situações, os valores da propriedade cuisine da classe Restaurant deixam de ser apenas “valores” sem semântica a apresentar (possivelmente) numa caixa

Posteriormente, em Junho de 1999, ingressei no grupo Efacec, onde fui responsável pela elaboração de projetos e propostas para a construção de Estações de Tratamento

Marca Vendedor Veículo Ford João Carro Ford João Caminhão Ford Mário Caminhão Fiat Mário Carro Chevrolet Felipe Carro Chevrolet João Carro Chevrolet João

Membro_Faculdade (Matrícula: Inteiro, Nome: string[50], Carga: Inteiro, IniContrato: data, Curso: string[30], professor: booleano, aluno: booleano). Membro

Contudo, não é possível imaginar que essas formas de pensar e agir, tanto a orientada à Sustentabilidade quanto a tradicional cartesiana, se fomentariam nos indivíduos