A Simulação e a Geração Aleatória de dados

Neste capítulo o enfoque está na técnica de simulação pelo método de Monte Carlo e na geração aleatória de dados ordinais multivariados com uma determinada estrutura de correlação, utilizando duas metodologias: o método de conversão binária e o mapeamento de médias.

4.1 O Método de Monte Carlo

A simulação é uma técnica de pesquisa operacional que usa experiências numéricas com modelos lógico-matemáticos que envolvem um grande número de cálculos e um grande número de repetições, pelo que necessitam de uso intensivo de recursos computacionais (Saliby, 1989), o que inicialmente foi problemático para os investigadores. Este problema deixou de existir com o aumento da velocidade de processamento e da capacidade de armazenamento dos computadores, associada à evolução das próprias metodologias de simulação (Yoriyaz, 2009).

As práticas de simulação começam a ter alguma visibilidade em 1940, quando os cientistas de Los Alamos (área nuclear), Stanislaw Ulam, John Von Neumann e Nicholas Metropolis desenvolvem o Método de Simulação de Monte Carlo. Através deste método estatístico consegue-se determinar a probabilidade de ocorrência de uma situação experimental através de geração aleatória de amostras. Como se disse anteriormente, estas técnicas de amostragem eram pouco usadas por serem demasiado demoradas, porém com o aparecimento do primeiro computador, desenvolvido durante a segunda guerra mundial, o Electronic Numerical Integrator And Computer (ENIAC), o problema da demora foi ultrapassado e a sua utilização mais efetiva. A apresentação formal, à comunidade científica, foi feita por Nicholas Metropolis e Stanislaw Ulam aquando da publicação do artigo “Monte Carlo Method” no American Statistical Association Journal (Metropolis & Ulam, 1949). Os anos 40 do século passado, foram assim um marco na disseminação deste método em conferências, simpósios e seminários (Hurd, 1985).

O Método de Monte Carlo foi assim denominado em homenagem ao carácter aleatório dos jogos de azar do Casino de Monte Carlo, no Mónaco. As práticas de

simulação com este método permitem determinar a probabilidade de ocorrência de uma situação experimental através de geração aleatória de amostras e mediante um número suficientemente elevado de réplicas. Verificou-se também o interesse pela utilização deste método quer em experiências que tinham subjacente o uso de modelos determinísticos, quer em experiências às quais estavam associados modelos probabilísticos. Os modelos de simulação probabilística tiveram a sua origem no Método de Monte Carlo o qual pode ser descrito como um método estatístico que na simulação utiliza sequencialmente números pseudoaleatórios e que permite avaliar as distribuições de amostragem das estatísticas e estudar o efeito da violação de alguns pressupostos.

A dificuldade na observação direta de problemas relacionados com fenómenos reais e a crescente complexidade desses mesmos problemas fez com que aumentasse a utilização de métodos de simulação na resolução de problemas reais, pois a facilidade com que se trabalham os seus algoritmos e a eficiência com que se obtêm resultados, em condições muito difíceis, têm justificado o seu uso em diversas áreas do conhecimento.

The Monte Carlo method is a statistical sampling technique that over the years has

been applied successfully to a vast number of scientific problems (Eckhardt, 1987, p.

131). Mediante o tipo de distribuição de probabilidade, são obtidas as amostras aleatórias, sendo o processo repetido, o número de vezes determinado pelo investigador e utilizadas as técnicas estatísticas também por ele demarcadas. Halton (1970, p. 1) define o método de Monte Carlo como (…) the solution of a problem as a parameter of

a hypothetical population, and using a random sequence of numbers to construct a sample of the population (…) a partir da qual se podem obter as estimativas do

parâmetro.

Podemos dizer que a metodologia de Monte Carlo tem sido usada ao longo dos anos para analisar distribuições de amostragem de diferentes estatísticas e avaliar em que medida a violação de pressupostos origina alteração na potência dos testes. Um dos exemplos mais comuns de utilização desta metodologia com este propósito é a análise de variância univariada e multivariada (Ramsey & Ramsey, 2013, 2011; Todorov & Filzmoser, 2010; Finch & Davenport, 2009; Bilodeau & Micheaux, 2005; Finch, 2005; Zwick, 1985; Hummel & Sligo, 1971).

4.2 A Geração Aleatória de Variáveis Ordinais

O recurso a computadores para gerar números aleatórios (pseudoaleatórios) é uma prática comum em muitas áreas do conhecimento, embora menos comum com dados ordinais. A simulação envolve componentes como: função densidade de probabilidade, técnicas de amostragem, variáveis aleatórias e geração de números aleatórios. A geração de números aleatórios baseia-se em algoritmos matemáticos, cuja ocorrência obedece a uma certa aleatoriedade semelhante à encontrada na natureza. Assim, se tivermos um conjunto de números definidos no intervalo [0,1], se eles se distribuírem uniformemente nesse intervalo e não estiverem correlacionados, constituem-se como uma sequência de números aleatórios (Yoriyaz, 2009).

O método de Biswas apresenta algoritmos para gerar dado ordinais para algumas estruturas específicas de correlações. O autor considera que o modelo proposto é muito importante para aplicar na resolução de problemas com dados ordinais multivariados.

The immediate applicability of the present model is to the analysis of longitudinal data where covariates are not time dependent and also to the analysis of clustered data

(Biswas, 2004, p. 25). Mas, segundo Demirtas (2006), a exigência de distribuições idênticas e independentes torna o método bastante restritivo. No que diz respeito às variáveis ordinais, Demirtas (2006, p. 1017) refere que: (…) one common approach is

generating latent continuous variables and converting them to the ordinal ones using pre-specified threshold points. Este autor considera esta abordagem inapropriada e

providência métodos específicos para gerar amostras de dados ordinais com determinadas estruturas de correlações. Kaiser, Traeger & Leisch (2011) apresentam algoritmos para gerar dados ordinais correlacionados através de dois métodos: a conversão binária e o mapeamento de médias. Na geração de dados ordinais correlacionados X_i com valores inteiros



1, 2, 3,...,k



,a distribuição correspondente é definida pelo vetor de probabilidades,













1 2 1 2 . i i i X k i p P X p P X p p P X k       _                   _  _{ }  

Quando se geram números pseudoaleatórios de modo a obter variáveis ordinais

1,..., p

X X que tomem valores inteiros



1, 2,...,k



, o utilizador necessita especificar as probabilidades marginais , 1,...,

X i p

p e pré-definir uma matriz de correlações semi- definida positiva:



























 







1 1 1 2 1 2 1 2 2 2 1 2 x , x x , x x , x x , x x , x x , x x , x x , x x , x p p p p p p r r r r r r r r r                  cor

Kaiser, Traeger & Leisch (2011) usaram na geração de dados, a função do

package “rmvord” (Kaiser and Leisch, 2010, R Development Core Team, 2010), que

tem como função principal o retorno de nl observações com determinadas probabilidades marginais e correlações e matriz de correlaçõescor.Os autores basearam o método de conversão binária nos estudos de Demirtas (2006).

The main idea is to draw binary random variables with the correct correlation structure, and conditional on the outcome of the binary variable convert an independent uniform random to an ordinal variable with the desired marginal and correlations (Kaiser, Traeger & Leisch; 2011, p.4).

O tempo de execução do algoritmo do método de conversão binário, função do

package “rmvord_b”, é muito rápido, mesmo que o delineamento do estudo abranja um

número elevado de variáveis ou de pontos da escala, mas não funciona com valores de correlação elevados (Demirtas, 2006). No sentido de ultrapassar esta questão, os autores criaram uma metodologia alternativa, o método de mapeamento de médias. Este método gera números aleatórios ordinais com uma determinada estrutura de correlação, tendo como suporte os estudos de Leisch, Weingressel & Hornik (1998). O método de mapeamento de médias, função do package “rmvord”, é mais estável, aceita valores de correlação mais elevados na matriz de simetria composta que define a estrutura de correlação, mas é computacionalmente muito mais demorado. O tempo de execução deste método depende do número de pontos da escala e do número de variáveis (Kaiser, Traeger & Leisch, 2011).

Ao compararmos os dois métodos, pode dizer-se que ambos apresentam vantagens e desvantagens. Por um lado, o método de conversão binária, apesar de mais rápido, limita o conjunto de matrizes de correlação exequíveis. Por outro lado, o método de mapeamento de médias supera esse problema e tem uma precisão idêntica ao método de conversão binária, mas aumenta drasticamente o tempo de execução das simulações.

4.3 Referências Bibliográficas

Bilodeau, M., & Micheaux, P.L. (2005). A multivariate empirical characteristic function test of independence with normal marginal. Journal of Multivariate Analysis, 95, 345-369.

Biswas, A. (2004). Generating correlated ordinal categorical random samples. Statistics & Ptobability Letters, 70, 25-35.

Demirtas, H. (2006). A method for multivariate ordinal data generation given marginal distributions and correlations. Journal of Statistical Computation and Simulation, 76(11), 1017- 1025.

Eckhart, R. (1987). Stan Ulam, John Von Neumann and the Monte Carlo Method. Los Alamos Science, 15, 131-136.

Finch, W.H. (2005). Comparison of the Performance on Nonparametric and Parametric MANOVA Test Statistics when Assumptions are Violated. Methodology, 1(1), 27-38.

Finch, W.H., & Davenport, T. (2009). Performance of Monte Carlo Permutation and Approximate Tests for Multivariate Means Comparisons with Small Sample Sizes when Parametric Assumptions are Violated. Methodology, 5(2), 60-70.

Halton, J.H. (1970). A retrospective an prospective survey of the Monte Carlo method. SIAM Review (Society for Industrial and Applied Mathematics), 12, 1-63.

Hummel, T.J., & Sligo, J.R. (1971). Empirical comparison of univariate and multivariate analysis. Psychological Bulletin, 76, 49-57.

Hurd, C.C. (1985). A note on early Monte Carlo Computations and Scientific Meetings. Annals of the History of Computing, 7(2), 141-145.

Kaiser, S., Träger, D., & Leisch, F. (2011). Generating Correlated Ordinal Random Values. Technical Report Number, 94, Munich: Department of Statistics, University of Munich.

Kaiser, S., & Leisch, F. (2010). Orddata: Generation of Artificial Ordinal and Binary Data, R package version 0.1.

Metropolis, N., & Ulman, S. (1949). The Monte Carlo Method. Journal of the American Statistical Association, 44(247), 335-341.

Ramsey, P.H., & Ramsey, P.P. (2013). Pairwise testing of group mean vectors in MANOVA with small samples. Journal of Statistical Computation and Simulation, 83(6),1037-1057. Ramsey, P.H., Ramsey, P.P., Hachimine, P., & Andiloro, N. (2011). Robustness, Power and Interpretability of Pairwise Tests of Discriminant Functions in MANOVA. Journal of Modern Applied Statistical Methods, 10(2), 403-417.

R Development Core Team (2010). A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, (http://www.R-project.org).

Saliby, E. (1989). Repensando a Simulação: A Amostragem Descritiva. São Paulo: Atlas, 1989. Todorov, V., & Filzmoser, P. (2010). Robust statistic for the one-way MANOVA. Computational Statistic and Data Analysis, 54, 37-48.

Yoriyaz, H. (2009). Método de Monte Carlo. Princípios e Aplicações em Física Médica. Revista Brasileira de Física Médica, 3(1), 141-149.

Zwick, R. (1985). Nonparametric One-Way Multivariate Analysis of Variance: A Computational Approach Based on the Pillai-Bartlett Trace. Psychological Bulletin, 47(1), 148- 152.

No documento A medida e as escalas de avaliação da saúde das populações neonatais e pediátricas : estudo de simulação de Monte Carlo com variáveis ordinais (páginas 111-116)