M´ axima verossimilhan¸ ca - M´ etodos de estima¸ c˜ ao

M´ etodos de estima¸ c˜ ao

A.2 M´ axima verossimilhan¸ ca

O método de estima¸cão por máxima verossimilhan¸ca, comumente referido por MLE (Maxi-mum likelihood estimation), determina as estimativas baseado na maximiza¸cão de uma fun¸cão L, denominada fun¸cão de verossimilhan¸ca. Segundo Casella e Berger (2002) [5], sua defini¸cão pode ser compreendida considerando uma amostra X = (X₁, X₂, ..., X_n), dado que X = x é observado, a fun¸cão de verossimilhan¸ca de θ é definida por:

L(θ|x) = f(x|θ),

onde θ, representa os parâmetros e f(x|θ), a fun¸cão de densidade de probabilidade conjunta de X. Se X é um vetor aleatório discreto, tem-se L(θ|x) = P_θ(X = x). Assim, o método MLE atesta que θ = θ₁ é mais plaus´ıvel que θ = θ₂ caso L(θ₁|x) > L(θ₂|x), que é equivalente a comparar as suas probabilidades de ocorrência, ou seja, diante dos poss´ıveis valores θ₁ e θ₂ para θ, dá-se preferência na escolha de θ₁, desde que se verifique a condi¸cão

P_θ₁(X =x)> P_θ₂(X =x).

Para comunicar a ideia central deste método de forma mais concreta, segue um exemplo extra´ıdo do livro de Tsay (2010) [23] onde considera-se uma série temporal dos retornos de um certo ativo financeiro representada por r_t, com n observa¸cões, isto é, r₁, r₂, ..., r_n. Se a

onde f(r₁|θ) é a fun¸cão densidade marginal da primeira observa¸cão. O método MLE calculaθ, de modo que a maximizar a fun¸cãoL(θ|r1, r2, ..., rn). Como o logaritmo é uma fun¸cão crescente, maxL ≡ max lnL, sendo a fun¸cão lnL mais conveniente e fácil de tratar. Desta maneira, o

valor de θ ´e determinado pela maximiza¸c˜ao de:

Alguns algoritmos presentes nos softwares estat´ısticos trocam este procedimento de ma-ximiza¸cão pela minimiza¸cão da fun¸cão logar´ıtmica de verossimilhan¸ca negativa, isto é, θ é determinado para min [−lnf(r₁, r₂, ..., r_n|θ)].

Para a obten¸cão da fun¸cão de máxima verossimilhan¸ca para f(r₁, r₂, ..., r_n|θ) para outra distribui¸cão de probabilidade condicional, procede-se de forma similar, adequando-a à fun¸cão de densidade correspondente.

Os estimadores MLE, que estão denotados por ˆθ_{M L}, são atrativos pelo fato de apresenta-rem algumas propriedades assintóticas, que sob certas condi¸cões de regularidade (algo como a existência das derivadas parciais finitas até a 3â ordem de L). As derivadas parciais de 1â ordem, em rela¸cão a θ, da fun¸cão logar´ıtmica de verossimilhan¸ca lnL(θ|x) define o vetor gradiente g(θ|x), de dimensão q x 1, onde q representa o número de parâmetros de θ, isto é, θ =θ₁, θ₂, ..., θ_q. Assim,

g(θ|x) = ∂lnL(θ|x)

∂θ .

Os poss´ıveis candidatos para MLE são solu¸cão da equa¸cão g(θ|x) = 0, que é uma condi¸cão necessária para a obten¸cão do máximo, mas não uma condi¸cão suficiente. Através das derivadas parciais da fun¸cão logar´ıtmica de verossimilhan¸ca, também em rela¸cão a θ, forem de 2â ordem, obtém-se a matriz hessiana H(θ|x), de dimensãoq x q, definida por:

H(θ|x) = ∂ matriz hessiana tem relevância na classifica¸cão dos pontos cr´ıticos, pois busca-se o máximo global, e também no cálculo da matriz de covariância dos parâmetros. H(θ|x) exerce papel importante nos algoritmos numéricos de otimiza¸cão e pode-se apresentar como uma restri¸cão na execu¸cão do algoritmo, a exemplo dos casos onde não é uma matriz invers´ıvel.

Suas principais propriedades podem ser descritas por:

• Consistˆencia: ˆθ_{M L}´e consistente pois converge em probabilidade paraθ, sen, que representa

a dimens˜ao da amostra, tende a infinito. Assim, tem-se:

n→∞lim P(ˆθ_{M L}) =θ ;

• Normalidade assintótica: Quando n tende a infinito, a distribui¸cão de ˆθ_{M L} aproxima-se da Normal de média θ e variância I(θ|x)⁻¹, isto é,

n→∞lim

θˆ_{M L} ∼N θ, I(θ|x)⁻¹ .

• Eficiência assintótica: Um estimador é eficiente se não é enviesado e tem variância m´ınima para todos os parâmetros. ˆθ_{M L}atinge o limite inferior de Cramér-Rao para os estimadores, que estabelece que V ar(ˆθ)≥I(θ|x)⁻¹ .

• Invariância: MLE é invariante para certas transforma¸cões nos dados.

As fun¸cões de probabilidade costumam ser complicadas e não há a possibilidade de obter a solu¸cão ótima dos estimadores analiticamente. Nestas condi¸cões, recorre-se a algoritmos para maximizar numericamente a fun¸cão de verossimilhan¸ca, que estão incorporados nos softwares estat´ısticossoftwaresestat´ısticos. Para ilustrar a dificuldade em realizar o processo de estima¸cão pelo método MLE em modelos ARCH ou GARCH, que utiliza rela¸cões não lineares, foi extra´ıdo um exemplo do livro de Enders (2015) [8], conforme descrito como continuidade desta se¸cão.

Suponha que os valores da sequência {ε_t}tenha distribui¸cão Normal de média nula e variância constante σ², assim, ε_t ∼N 0, σ²

. A fun¸cão de verossimilhan¸ca para qualquer realiza¸cão de ε_t é definida por:

Como as realiza¸cões de {ε_t} são independentes, a fun¸cão de verossimilhan¸ca das realiza¸cões conjuntas de ε₁, ε₂, ..., ε_n, é definida pelo produto das verossimilhan¸cas individuais, e portanto, descrita por:

que transformada em fun¸cão logar´ıtmica e manejada de forma mais tratável, é escrita por:

lnL=−n

Neste exemplo, suponha que {ε_t} represente os res´ıduos de um modelo de regressão, onde assume-se média nula, variância constante σ² e que as várias realiza¸cões de {ε_t} são

indepen-dentes. Como y_t =βx_t+ε_t, o termo ε_t pode ser isolado e representado por:

ε_t=y_t−βx_t , (A.2)

Substituindo ε_t dado por A.2 na equa¸cão A.1, tem-se a equa¸cão da fun¸cão logar´ıtmica de verossimilhan¸ca, dado uma amostra de n observa¸cões, que é descrita por:

lnL=−n

que precisa ser maximizada para a obten¸cão dos estimadores MLE. A primeira derivada parcial desta fun¸cão (A.3) em rela¸cão a σ² resulta em:

enquanto que, se sua primeira derivada for em rela¸c˜ao a β, o resultado obtido ´e expresso por:

∂lnL comu-mente mencionado pela sua sigla OLS e que produz estimadores consistentes e assintoticacomu-mente eficientes. Estes c´alculos determinam os seguintes resultados:

σb² = 1

A complexidade da estima¸cão MLE aumenta nos modelos ARCH e GARCH pela introdu¸cão de componentes não lineares, cujas solu¸cões dependem da aplica¸cão computacional de métodos numéricos. Ao introduzir um erroARCH(1) v_tao modelo de regressãoA.2, que ainda continua válido, tem-se que ε_t=v_t σ_t ,onde σ_t² é a variância condicional de ε_t e que não é constante, a fun¸cão de verossimilhan¸ca das realiza¸cões conjuntas de ε₁, ε₂, ..., ε_n sofre natural modifica¸cões e é expressa por:

que transformada em fun¸cão logar´ıtmica representa-se por: pode-se substitu´ı-la na equa¸cão A.9, resultando na expressão:

lnL=−n−1

A primeira observa¸cão é perdida pois ε0 não integra a amostra. Realizando a substitui¸cão de ε²_t−1 porε²_t−1 = (y_t−1−βx_t−1)² emA.10, consegue-se maximizar lnLem rela¸cão aos parâmetros ω, α₁ e β somente com a ajuda dos algoritmos computacionais, uma vez que não existem solu¸cões anal´ıticas para as condi¸cões de primeira ordem (a primeira derivada da fun¸cão de verossimilhan¸ca deve ser zero) para determina¸cão de um máximo.

Aplica¸ c˜ ao e Resultados

Este apêndice contém algumas análises complementares, realizado no componente prático do estudo, com menor relevância.

Considerando o “melhor“ modelo ARM A+GARCH conseguido para explicar o retorno da taxa de câmbio EUR/BRL, obteve-se o modelo de ARM A(1,0) + GARCH(1,1) com a distribui¸cão de errost-Student assimétrica e descrito pelas equa¸cões3.5,3.6e3.7. Apropriando-se deste modelo, com todas as suas caracter´ısticas, foram geradas 5000 simula¸cões diferentes para um horizonte de 1000 dias e para cada uma delas, um nova série temporal de tamanho 1000 per´ıodos é gerada, que colocadas em um único gráfico (ver figuraB.1), exibe o padrão mais frequente para o retorno da taxa de câmbio EUR/BRL, observado pelas regiões mais escuras, dado que há vários pontos sobrepostos. As cores em si não expressam nenhum significado adicional à figura e servem exclusivamente para explicitar as diferentes séries temporais.

No documento Uma abordagem para previsão da taxa de câmbio. por meio de modelos de séries temporais. MSc (páginas 104-110)