• Nenhum resultado encontrado

Análise dos Dados e Determinação das Distribuições de Probabilidades

5 METODOLOGIA DE SIMULAÇÃO EM PROJETOS DE MANUFATURA

5.2 Análise do Sistema Via Simulação

5.2.5 Análise dos Dados e Determinação das Distribuições de Probabilidades

um trabalho bastante desgastante e oneroso. Mas é fundamental para um bom estudo de simulação.

Tanto na utilização de dados históricos ou novos dados coletados diretamente nos processos, uma análise de sensibilidade irá possibilitar avaliar a qualidade dos dados coletados. Segundo Kelton et al. (2007), “se você não pode facilmente obter bons dados

sobre algum aspecto do seu sistema, rode o modelo com uma faixa de dados para ver se o desempenho do sistema muda significantemente. Se não se alterar, você não precisará investir na coleta de dados e ainda poderá ter uma boa confiança nas suas conclusões. Se o sistema se alterar, você precisará encontrar uma forma de obter dados confiáveis ou os resultados e recomendações serão grosseiros”.

Uma análise preliminar dos dados poderá ser feita através do gráfico run chart, onde valores que saiam fora dos limites de controle, tendo causas especiais como por exemplo, a falta de energia elétrica do sistema concessionário (se considerado como uma ocorrência raríssima), poderão ser expurgados antes da utilização na simulação. O software Minitab®, comercializado pela Minitab Inc (www.minitab.com) facilita esta análise, conforme apresentado na Figura 5-7.

Figura 5-7 - Exemplo de gráfico de dados.

Muitos softwares de simulação trabalham diretamente com os dados coletados, acessando uma planilha que contenha estes dados. Outra forma de se trabalhar é através da análise da distribuição de probabilidades que melhor se ajusta aos dados coletados. Kelton et al. (2007) declaram que “se você usa dados históricos diretamente, nenhum outro valor além do que estão gravados serão usados na experimentação; mas se você faz a amostragem a partir de uma distribuição de probabilidade ajustada, é possível que se utilize valores que não sejam possíveis (por exemplo, dados da cauda das distribuições) ou perder características importantes (por exemplo, padrões de seqüenciamento dos dados)”. E complementam que “a leitura de muitos dados a partir de um arquivo que contenha os dados é tipicamente mais lento que pela amostragem a partir de uma distribuição de probabilidade”.

Um ferramenta conveniente para se identificar a forma da distribuição dos dados é através de um histograma de distribuição de freqüência. O histograma é construído dividindo os valores dos dados coletados em intervalos e plotando um gráfico onde o

eixo horizontal receberá os intervalos de dados e o eixo vertical o total de ocorrências em cada intervalo. Uma família de distribuição é selecionada com base na que poderia representar o contexto que está sendo investigado, ao longo da forma do histograma (Banks et al., 2005). A Figura 5-8 apresenta um exemplo de um histograma, com a curva de distribuição sobreposta.

O ajuste da distribuição de probabilidade dos dados coletados poderá ser feito com a utilização de softwares como o ExpertFit®, o StatFit® e o BestFit® ou os integrados a softwares de simulação, como o Input Analyser® (do Arena®), que facilitam este processo, provendo uma expressão que poderá ser usada diretamente no modelo computacional. Neste caso, quanto maior o volume (e confiabilidade) dos dados coletados, melhor será o ajuste da distribuição. A Tabela 5-1 e a Figura 5-8 apresentam um exemplo com os dados primários coletados em um processo e os parâmetros da distribuição de probabilidade melhor ajustada no Input Analyser® do Arena.

6,72 6,76 6,65 6,91 6,32 6,77 6,25 5,81 5,12 6,58 6,35 6,11 6,09 5,50 6,16 4,95 5,51 6,26 6,45 6,62 6,71 5,79 6,03 5,93 5,60 7,06 5,64 6,41 5,55 5,84 6,02 6,30 6,33 6,17 6,24 6,71 6,78 5,91 5,41 5,43 6,15 6,70 6,16 5,90 5,28 6,37 6,02 5,84 5,52 6,00 6,69 6,47 6,48 6,27 5,87 6,69 5,86 7,00 6,39 5,82 6,23 6,16 5,09 6,85 6,58 6,41 5,88 6,84 5,71 6,87 6,60 6,01 6,81 6,15 6,87 5,77 6,37 5,08 5,98 6,77 6,16 6,28 6,28 7,27 6,60 5,62 5,82 7,19 6,14 6,31 6,25 5,41 5,90 6,32 6,15 5,56 6,08 6,00 6,31 6,61 N (6,185, 0,493)

Tabela 5-1 - Dados primários coletados em um processo e sua distribuição de probabilidade.

O software ajusta a curva da distribuição de probabilidade ao histograma, escolhendo a que melhor representa a distribuição dos dados. Mas pode-se escolher, com certo erro em relação ao melhor ajuste, outra família de distribuição desejada. O software de análise normalmente é uma ferramenta padrão, desenvolvida especificamente para ajustar uma distribuição de dados observados. Para a utilização, por exemplo, do Input Anayser®, Kelton et al. (2007) sugerem quatro passos para ajustar a distribuição de probabilidade de dados observados, para uso no modelo de simulação:

1. Criar um arquivo .txt (ASCII) contendo os valores dos dados. Os dados devem estar separados por um espaço em branco; o número de dados por linha ou número de linhas não importa.

2. Ajustar uma ou mais distribuições para os dados. 3. Selecionar a que se deseja utilizar.

4. Copiar a expressão gerada, no campo apropriado do modelo de simulação. A Tabela 5-2 apresenta os erros quadráticos do exemplo da Figura 5-8.

Function Sq Error Normal 0.00999 Weibull 0.0104 Beta 0.0106 Triangular 0.0137 Erlang 0.0186 Gamma 0.0187 Lognormal 0.0275 Uniform 0.068 Exponential 0.113

Tabela 5-2 - Square Error do ajuste de distribuições.

Vale lembrar que distribuições contínuas como a exponencial, triangular, Weibull, beta, Erlang, gama, lognormal, uniforme e normal, são usadas para representar durações (tempos) em um modelo de simulação. A distribuição de Poisson (discreta) é usada para descrever o número de eventos que ocorrem em um intervalo de tempo, como por exemplo, o número de pedidos que chegam em uma semana (Kelton et al., 2007). Essas distribuições estão apresentadas no item 3.6.5, Aspectos Estatísticos na Simulação de Eventos Discretos.

Outras medidas de ajuste de distribuição para os dados são apresentadas nos testes estatísticos chi-square e Kolmogorov-Sminov, usados para verificar se a curva de uma distribuição está bem ajustada para dos dados, comparando a curva com o histograma dos dados (ver Figura 5-8). O valor de interesse é o p-value correspondente que sempre estará no intervalo entre 0 e 1. Valores maiores (acima de 0,10) indicam ajustes melhores. Valores abaixo de 0,05 sugerem que a distribuição não apresenta um bom ajuste e dados, quando gerados a partir da expressão da distribuição ajustada, poderão estar inconsistentes em relação aos dados coletados (Kelton et al., 2007). O p-value pode ser visto como uma medida de ajuste, com valores maiores sendo melhor (Banks

et al., 2005). Como exemplo, os dados da Tabela 5-1 e a Figura 5-8, apresentaram um

melhor ajuste para uma distribuição normal e os testes apresentaram os seguintes resultados:

Chi Square Test - Corresponding p-value = 0.0245

Kolmogorov-Smirnov Test - Corresponding p-value > 0.15

Isto sugere que se pode ajustar toda distribuição que for desejada, testar computacionalmente cada ajuste e então escolher aquela que apresentar o maior p-value. Normalmente os pacotes de análise incluem a opção “best-fit” (melhor ajuste), no qual o software recomendará a distribuição que melhor se ajustará, ou seja, quão bem a curva se ajusta ao histograma dos dados coletados. Banks et al. (2005) recomendam selecionar automaticamente a distribuição que será usada e complementar com o método gráfico, conforme apresentado no exemplo da Figura 5-8.

Segundo Banks et al. (2005), “definir as distribuições de probabilidade para os dados de entrada é a maior tarefa que será executada no estudo de simulação, considerando as necessidades de tempo e recursos; falhar na modelagem dos dados de entrada levará a resultados cuja a interpretação poderá levar a recomendações errôneas”. Eles apresentam quatro passos para o desenvolvimento de modelos de dados de entrada que serão realmente úteis e confiáveis:

1. Coletar os dados a partir do sistema real de interesse. Freqüentemente requererá uma substancial quantidade de tempo e de recursos. Quando o tempo para coletar os dados é limitado, ou quando os processos ainda não existem, a opinião de especialistas e o conhecimento do processo devem ser utilizados para fazer suposições mais adequadas.

2. Identificar a distribuição de probabilidade que melhor represente os dados de processo. Envolve normalmente o desenvolvimento de uma distribuição de freqüência ou histograma dos dados. A utilização de distribuições já conhecidas poderá facilitar este trabalho.

3. Escolher os parâmetros que determinam uma ocorrência específica de distribuição de probabilidade. Quando os dados existem, estes parâmetros podem ser obtidos diretamente a partir dos dados, como por exemplo, a média e o desvio padrão. 4. Avaliar a distribuição e parâmetros associados escolhidos que apresentem um

melhor ajuste; poderá ser feito de forma gráfica ou através de testes estatísticos, como os testes chi-square e Kolmogorov-Smirnov. Quando os testes estatísticos não satisfizerem a distribuição escolhida, o analista deve retornar ao segundo passo, escolhendo uma família de distribuição diferente da anteriormente escolhida, repetindo o procedimento.

Após a definição das expressões de distribuição de probabilidade que caracterizam todas as operações que serão utilizadas no modelo de simulação, o próximo passo é complementar o Diagrama de Ciclo de Atividades (DCA, item 5.2.3) com estas informações.