• Nenhum resultado encontrado

Análise da eficiência dos métodos dos momentos e da máxima ossimilhança na estimativa de parâmetros da distribuição gama II: uma abordagem probabilística

N/A
N/A
Protected

Academic year: 2018

Share "Análise da eficiência dos métodos dos momentos e da máxima ossimilhança na estimativa de parâmetros da distribuição gama II: uma abordagem probabilística"

Copied!
9
0
0

Texto

(1)

ANÁLISE DA EFICIÊNCIA DOS MÉTODOS DOS MOMENTOS E DA

MÁXIMA VEROSSIMILHANÇA NA ESTIMATIVA DE PARÂMETROS DA

DISTRIBUIÇÃO GAMA II: UMA ABORDAGEM PROBABILÍSTICA

José Nilson B. Campos1; Luiz Sérgio Vasconcelos do Nascimento2 e Ticiana Marinho de Carvalho Studart1

Resumo. Os métodos mais usuais para a estimativa de parâmetros de uma distribuição de probabilidades são os métodos dos momentos e da máxima verossimilhança. Uma vez os métodos citados não produzem, necessariamente, as mesmas estimativas, deve-se analisar em quais situações um ou outro se mostra o mais apropriado. O presente trabalho faz uma análise comparativa entre o desempenho de ambos na estimativa dos parâmetros da distribuição Gama II De um modo geral, observou-se que método da máxima verossimilhança deve ser o método adotado, principalmente quando o coeficiente de variação é alto e o tamanho da amostra, pequeno. Quando os valores de coeficiente de variação são pequenos (CV inferior a 0,3) ou quando o tamanho da amostra é grande, a diferença entre as estimativas feitas pelos dois métodos é insignificante.

Abstract. The two most commonly used methods for estimating the parameters of a probability distribution are the method of moments and the method of maximum likelihood. As the methods prior cited do not always produce the same estimates for the parameters, one must analyze the situations in which one or another is more appropriated. This paper compared the performance of both method in estimating Gama II parameters. Generally speaking, method of maximum likelihood should be preferred over the method of moments, specially when coefficient of variation is high and sample size is small. For low values of coefficient of variation a (CV less than 0.3) and for large sample size the difference between estimates made from both methods is negligible.

Palavras Chave: Método dos Momentos, Método da Máxima Verossimilhança, Estimadores de parâmetros

.1 Professores do Departamento de Engenharia Hidráulica e Ambiental – Universidade Federal do Ceará. Campus do Pici, Centro de Tecnologia, Bl. 713, Fortaleza, Ceará, Brasil, CEP 60.451-970, Fone: (85) 288.9623, Fax: (85) 288.9627 e-mails: ticiana@ufc.br e nilson@ufc.br

2

(2)

1. INTRODUÇÃO

Incerteza é um termo difícil de definir, englobando múltiplas conceituações. A variedade de fontes de incertezas gera, sem dúvida, sérias confusões. Várias têm sido as tentativas de identificar os variados tipos de incertezas no campo da Hidrologia e dos Recursos Hídricos. No caso específico de modelagem matemática de sistemas hidrológicos, VINCENS et al.(1975) propuseram uma metodologia e classificam as incertezas inerentes a estes estudos em três tipos: Incertezas do Tipo I - ocasionadas pelo desconhecimento do verdadeiro modelo que rege o processo natural; Incertezas do Tipo II - geradas na avaliação dos parâmetros dos modelos matemáticos e Incertezas do Tipo III - aquelas inerentes aos processos naturais.

O presente trabalho busca analisar e quantificar as Incertezas do Tipo II, realizando a comparação de dois métodos de estimação de parâmetros: o método dos momentos e o método da máxima verossimilhança. Será utilizada uma distribuição de probabilidades amplamente usada na área de recursos hídricos. Os cenários analisados visam cobrir a maior parte das situações encontradas na prática. Será dada uma abordagem diferente das utilizadas até o momento, comparando os erros cometidos na estimação dos parâmetros com a variação do coeficiente de variação dos dados bem, como a extensão da série..

REFERENCIAL TEÓRICO

A Estatística é dividida basicamente em duas grandes áreas: a Estatística Descritiva, que se preocupa em extrair informações de dados amostrados, e a Estatística Indutiva, cujo papel é analisar e interpretar esse dados, tirando conclusões probabilísticas. Um dos principias problemas da Estatística Indutiva é a estimação de parâmetros de uma distribuição populacional.

Estimando (θ) é o parâmetro a ser estimado. É uma característica numérica da população.

Estimador (T) é a fórmula que descreve o modo de calcular a estimativa de determinado parâmetro.

Já a Estimativa (Ti) é o valor assumido por um estimador T.

Apesar de se possuir vários estimadores para o parâmetro a ser calcular, existem propriedades que caracterizam um bom estimador, devendo, portanto, serem alvo de preocupação.

Propriedades de um bom estimador Justeza

Um estimador T é dito justo (não-tendencioso, não-viciado ou não-viesado), quando sua média (ou valor esperado) for igual ao próprio parâmetro θ a ser estimado, ou seja:

( )

θ

(3)

O fato de um estimador ser justo não garante que o valor individual de T é igual a θ ou próximo deste, simplesmente indica que os valores aleatórios do estimador ocorrerão em torno do parâmetro.

Consistência

Um estimador T é dito consistente se:

0 ) (

limnP T −θ ≥ε = (2) Isto equivale a dizer que quanto maior for a amostra, menor se torna o erro entre o estimador e o parâmetro, ou seja, se ele for justo, sua variância (σ2 ) tende a zero com o aumento da amostra.

Eficiência

Um estimador T é dito o mais eficiente do parâmetro θ se ele for justo e sua variância, para um mesmo tamanho de amostra, for menor que a de qualquer outro estimador.

Suficiência

Um estimador T suficiente para um parâmetro θ se todas as informações relevante a θ estão contidas neste estimador.

Métodos para Estimativa dos Parâmetros

O método dos momentos nada mais é do que supor que os momentos da distribuição populacional coincidem com os da amostra, podendo-se assim, ao igualar-se os momentos de menor ordem, obter-se um sistema de equações que forneça as estimativas desejadas. A função geratriz de momentos de uma função densidade de probabilidades é dada por:

+∞

∞ −

= e f x dx t

MX( ) tx ( ) (3)

em que f(x) é a função densidade de probabilidade.

O método da máxima verossimilhança consiste em adotar o parâmetro que maximize a

função de verossimilhança correspondente ao resultado obtido da amostra, dada por:

= = n

i i x f L

1

) ,

( θ (4)

(4)

pela análise de variância e pelo método da máxima verossimilhança foram os que apresentaram melhores propriedades conjuntamente. Os autores também afirmam que se observa freqüentemente a preferência de pelos mesmos métodos.

ANDERSEN et. al. (1999) avaliaram a eficiência do método dos momentos, utilizando também simulação de Monte Carlo. Segundo os autores, o método dos momentos aproxima-se do método da máxima verossimilhança para grandes amostras de dados.

METODOLOGIA

Para a realização a comparação entre o método dos momentos e o método da máxima verossimilhança na estimação de parâmetros, utilizou-se a distribuição contínua de probabilidade Gama de dois parâmetros ou Gama II..

Se o número de parâmetros de uma distribuição de probabilidade é pequeno, a função se torna pouco flexível ao ajuste dos dados observados, mas se o número de parâmetros cresce, a estimativa destes se torna um tanto trabalhosa. A distribuição Gama de dois e três parâmetros é comumente usada em hidrologia, assim como a distribuição Lognormal. Segundo YEVJEVICH (1972), as distribuições Gama e Lognormal de três parâmetros não possuem vantagens significativas quando comparadas com as respectivas distribuições com dois parâmetros, razão pela qual foi escolhida a função Gama com dois parâmetros.

A função densidade de probabilidade da distribuição Gama II é dada por:

f(x) =

(αα .

β

.e x

α β x 1 α

Γ

, para x 0 ≥

f(x) = 0, para x<0 (5) em que o parâmetro α é um parâmetro de forma e β um parâmetro de escala.

A função gama é dada pela integral:

− −

= Γ

0 1

. )

xα e xdx (6)

esta função converge para valores de α<0.

Para a estimativa dos parâmetros da distribuição pelo método dos momentos, o método resultou nas seguintes equações:

βˆ .

αˆ

X= (7)

2 2 βˆ

.

αˆ

S = (8)

(5)

Para o método da máximo verossimilhança, os parâmetros α e β podem ser obtidos pelas equações: ) X / X ln( .) αˆ Ψ( . αˆ

ln − = G (9)

βˆ .

αˆ

X= (10)

em que X é a média geométrica da amostra e G Ψ(x)=dlnΓlnΓ(x)é a psi-função.

Como as equações da máxima verossimilhança são de difícil resolução, utilizou-se uma aproximação proposta por GREENWOOD e DURAND (1960), dada por:

y 0,054427.y y 0,1648852. 0,5000876 αˆ 2 − + = (11)

se 0≤y≤0,5772,

) y y 11,968477. 8 y.(17,7972 y 0.9775373. 9,05995.y 8,898919 αˆ 2 2 + + + +

= (12)

se 0,5772< y≤17,0 em que, y = lnX−lnX

2 2 βˆ

.

αˆ

S = (13)

Segundo os autores, estas equações apresentam um erro máximo da ordem de 0,001% em relação à solução das equações do método convencional.

Para a geração dos números aleatórios, utilizou-se a biblioteca IMSL STAT/LIBRARY, do Microsoft PowerStation Fortran 4.0, que consiste em uma coleção de rotinas e funções utilizadas para análise estatística. Com esta biblioteca foi possível a geração dos números aleatórios da distribuição Gama II. A rotina utilizada gera números pseudoaleatórios com um parâmetro de forma α e um parâmetro de escala unitário. Para a obtenção de uma amostra com distribuição Gama II, cada valor foi multiplicado pelo fator β de escala.

Foram geradas 500 amostras com tamanhos variando de 10 a 100, com um incremento de 10. Para cada tamanho de amostra, utilizou-se um coeficiente de variação (CV) variando de 0,1 a 1,6, com um incremento de 0,1, obtendo-se, portando, 160 configurações diferentes.

De posse dos números aleatórios, desenvolveu-se programas em linguagem Fortran para o cálculo dos parâmetros de cada distribuição, utilizando-se os métodos dos momentos e da máxima verossimilhança, obtendo-se assim, os parâmetros das amostras.

Uma estatística utilizada para a avaliação da eficiência dos estimadores foi o erro médio modular, que expressa a variabilidade das estimativas individuais em relação ao parâmetro. Para o cálculo dos erros médios modulares, calculou-se inicialmente o erro modular de cada estimativa individual da amostra, definido como:

θθ

(6)

onde: T é o estimador e θ é o parâmetro.

Logo, o Erro Médio Modular (EM) é a média (ou esperança matemática) dos erros individuais.

Outra estatística utilizada para avaliação dos parâmetros da amostra foi o viés, representado pelo Erro Médio Relativo (ER). Este erro consiste na média dos erros individuais relativos, definidos por:

θθ

εi =T − (15)

RESULTADOS

Para realizar a comparação entre os métodos, calculou-se, para cada método e estimação, a diferença apresentada para cada um dos dois tipos de erros. Esta diferença, denominada neste trabalho de Ganho (G), é definida como a diferença entre o módulo dos erros, para o caso do erro relativo, apresentado pelo método da máxima verossimilhança e pelo método dos momentos. Pela forma como foi definido o Ganho, valores positivos do mesmo mostram uma vantagem do método da máxima verossimilhança em relação ao método dos momentos.

Como forma de sintetizar a apresentação dos resultados obtidos, os mesmo serão apresentados em forma de gráficos (figuras ---

Erro Relativo - Alfa

0 0,1 0,2 0,3 0,4 0,5 0,6

0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8

CV

Ga

n

h

o

n = 10 n = 20 n = 30 n = 40 n = 50 n = 60 n = 70 n = 80 n = 90 n = 100

(7)

Erro Relativo - Beta

-0,05 0 0,05 0,1 0,15 0,2 0,25

0,00 0,20 0,40 0,60 0,80 1,00 1,20 1,40 1,60 1,80

CV

Ga

nho

n = 10 n = 20 n = 30 n = 40 n = 50 n = 60 n = 70 n = 80 n = 90 n = 100

Figura 2 - Ganho do Erro Relativo para o Parâmetro Beta

Erro Absoluto - Alfa

-0,1 0 0,1 0,2 0,3 0,4 0,5 0,6

0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8

CV

Ga

n

h

o

n = 10 n = 20 n = 30 n = 40 n = 50 n = 60 n = 70 n = 80 n = 90 n = 100

(8)

Erro Absoluto - Beta

-0,02 0 0,02 0,04 0,06 0,08 0,1

0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8

CV

Ga

nho

n = 10 n = 20 n = 30 n = 40 n = 50 n = 60 n = 70 n = 80 n = 90 n = 100

Figura 4 - Ganho do Erro Absoluto para o Parâmetro Beta

Pelos resultados apresentados, pode-se observar que, praticamente em todas as situações, o

Ganho apresentou-se positivo, indicando que o método da máxima verossimilhança é melhor que o

método dos momentos para as referidas situações.

Para o parâmetro alfa, pode-se ver nitidamente que o Ganho decresce com o tamanho da amostra, o que nos leva a crer que para grandes amostras, é irrelevante o método escolhido para a estimativa dos parâmetros.

Para o parâmetro beta, esta observação não foi constatada no que se refere ao erro absoluto, uma vez o Ganho se apresentou de forma muito irregular, não obedecendo a uma tendência clara.

Para os dois parâmetros, observou-se que o Ganho cresce com o aumento do coeficiente de variação e que, para pequenos valores de CV (abaixo de 0,3), este Ganho não é mais significativo. CONCLUSÕES

Avaliou-se neste trabalho, os métodos mais usuais de estimativas de parâmetros – os métodos da máxima verossimilhança e o dos momentos. O desempenho do primeiro sobre o segundo foi medido segundo um parâmetro definido pelos autores, denominado Ganho; um Ganho positivo

indica uma melhor adequação do método da máxima verossimilhança sobre o dos momentos; já um negativo, indica o inverso.

(9)

Nos casos analisados, foi clara a evidência de que o método da máxima verossimilhança teve melhor desempenho, vez que o ganho se apresenta positivo em quase todas as situações. Mas que, com o crescimento do tamanho da amostra, a escolha do método de estimativa se revela irrelevante, uma vez que os ganhos tendem para valores iguais.

Observou-se ainda que o método da máxima verossimilhança vai se tornando o mais adequado a medida em que o coeficiente de variação cresce; no entanto, para coeficientes de variação abaixo de 0,3, os dois métodos apresentaram erros semelhantes, o que torna a escolha do método de estimativa indiferente.

REFERÊNCIAS BIBLIOGRÁFICAS

ANDERSEN, T.G., CHUNG, H.J. E SORENSEN, B.E. 1999. Efficient method of moments estimation of a stochastic volatility model: A Monte Carlo study, Journal of Econometrics 91. p.61-87.

GREENWOOD, J. A. e DURAND, D. 1960. Aids for Fitting the Gamma Distribution by Maximum Likelihood. Technometrics 2(1):55-65.

HAAN, C.T. 1977. Statistical Methods in Hydrology. Ames: Iowa State University.

KITE, G.W. 1977. Frequency and Risk Analysis in Hydrology. Fort Collins: Water Resources Publications.

MEYER, P.L. 1983. Probabilidade: Aplicações à Estatística; tradução do Prof. Ruy de C. B. Lourenço Filho. Livros Técnicos e Científicos Editora S. A.

NEGRÃO, I. O., AQUINO, L. H. E BEARZOTI, E. 2001. Avaliação de Quatro Métodos de Estimação dos Parâmetros da Distribuição Beta-Binamial pela Simulação de Monte Carlo. Ciência Agrotécnicas, Lavras, v.25, n.6, p. 1310-1381, nov/dez.

STUDART, T.M.C. 2000. Análise de Incertezas na Determinação de Vazões Regularizadas em Climas Semi-Áridos. Fortaleza, Universidade Federal do Ceará. Tese de Doutorado.

TUCCI, C.E.M. 1997. Hidrologia: Ciência e Aplicação. Porto Alegre: Editora da Universidade: ABRH (Coleção ABRH de Recursos Hídricos; v.4).

VINCENS, G.J., I. RODRIGUES-ITURBE E J.C. SHAAKE. 1975. A Bayesian Framework for the use of Regional Information in Hidrology. Res., 11(3). p.405-414. 1975.

Imagem

Figura 1 - Ganho do Erro Relativo para o Parâmetro Alfa
Figura 2 - Ganho do Erro Relativo para o Parâmetro Beta
Figura 4 - Ganho do Erro Absoluto para o Parâmetro Beta

Referências

Documentos relacionados

autor, as manifestações populares carnavalescas como os cordões, ranchos e blocos eram estratégias e artimanhas utilizadas pelos populares como meio de resistência,

Este estágio de 8 semanas foi dividido numa primeira semana de aulas teóricas e teórico-práticas sobre temas cirúrgicos relevantes, do qual fez parte o curso

Realizar a manipulação, o armazenamento e o processamento dessa massa enorme de dados utilizando os bancos de dados relacionais se mostrou ineficiente, pois o

Por meio dos registros realizados no estudo de levantamento e identificação de Felinos em um remanescente de Mata atlântica, uma região de mata secundária

Figure 8 shows the X-ray diffraction pattern of a well-passivated metallic powder and a partially oxidized uranium metallic powder.. Figure 7 - X-ray diffraction pattern of

O setor de energia é muito explorado por Rifkin, que desenvolveu o tema numa obra específica de 2004, denominada The Hydrogen Economy (RIFKIN, 2004). Em nenhuma outra área

Assim, almeja-se que as ações propostas para a reformulação do sistema sejam implementadas na SEDUC/AM e que esse processo seja algo construtivo não apenas para os

Declaro que fiz a correção linguística de Português da dissertação de Romualdo Portella Neto, intitulada A Percepção dos Gestores sobre a Gestão de Resíduos da Suinocultura: