M´ etodos de estima¸ c˜ ao
A.2 M´ axima verossimilhan¸ ca
O m´etodo de estima¸c˜ao por m´axima verossimilhan¸ca, comumente referido por MLE (Maxi-mum likelihood estimation), determina as estimativas baseado na maximiza¸c˜ao de uma fun¸c˜ao L, denominada fun¸c˜ao de verossimilhan¸ca. Segundo Casella e Berger (2002) [5], sua defini¸c˜ao pode ser compreendida considerando uma amostra X = (X1, X2, ..., Xn), dado que X = x ´e observado, a fun¸c˜ao de verossimilhan¸ca de θ ´e definida por:
L(θ|x) = f(x|θ),
onde θ, representa os parˆametros e f(x|θ), a fun¸c˜ao de densidade de probabilidade conjunta de X. Se X ´e um vetor aleat´orio discreto, tem-se L(θ|x) = Pθ(X = x). Assim, o m´etodo MLE atesta que θ = θ1 ´e mais plaus´ıvel que θ = θ2 caso L(θ1|x) > L(θ2|x), que ´e equivalente a comparar as suas probabilidades de ocorrˆencia, ou seja, diante dos poss´ıveis valores θ1 e θ2 para θ, d´a-se preferˆencia na escolha de θ1, desde que se verifique a condi¸c˜ao
Pθ1(X =x)> Pθ2(X =x).
Para comunicar a ideia central deste m´etodo de forma mais concreta, segue um exemplo extra´ıdo do livro de Tsay (2010) [23] onde considera-se uma s´erie temporal dos retornos de um certo ativo financeiro representada por rt, com n observa¸c˜oes, isto ´e, r1, r2, ..., rn. Se a
onde f(r1|θ) ´e a fun¸c˜ao densidade marginal da primeira observa¸c˜ao. O m´etodo MLE calculaθ, de modo que a maximizar a fun¸c˜aoL(θ|r1, r2, ..., rn). Como o logaritmo ´e uma fun¸c˜ao crescente, maxL ≡ max lnL, sendo a fun¸c˜ao lnL mais conveniente e f´acil de tratar. Desta maneira, o
valor de θ ´e determinado pela maximiza¸c˜ao de:
Alguns algoritmos presentes nos softwares estat´ısticos trocam este procedimento de ma-ximiza¸c˜ao pela minimiza¸c˜ao da fun¸c˜ao logar´ıtmica de verossimilhan¸ca negativa, isto ´e, θ ´e determinado para min [−lnf(r1, r2, ..., rn|θ)].
Para a obten¸c˜ao da fun¸c˜ao de m´axima verossimilhan¸ca para f(r1, r2, ..., rn|θ) para outra distribui¸c˜ao de probabilidade condicional, procede-se de forma similar, adequando-a `a fun¸c˜ao de densidade correspondente.
Os estimadores MLE, que est˜ao denotados por ˆθM L, s˜ao atrativos pelo fato de apresenta-rem algumas propriedades assint´oticas, que sob certas condi¸c˜oes de regularidade (algo como a existˆencia das derivadas parciais finitas at´e a 3a ordem de L). As derivadas parciais de 1a ordem, em rela¸c˜ao a θ, da fun¸c˜ao logar´ıtmica de verossimilhan¸ca lnL(θ|x) define o vetor gradiente g(θ|x), de dimens˜ao q x 1, onde q representa o n´umero de parˆametros de θ, isto ´e, θ =θ1, θ2, ..., θq. Assim,
g(θ|x) = ∂lnL(θ|x)
∂θ .
Os poss´ıveis candidatos para MLE s˜ao solu¸c˜ao da equa¸c˜ao g(θ|x) = 0, que ´e uma condi¸c˜ao necess´aria para a obten¸c˜ao do m´aximo, mas n˜ao uma condi¸c˜ao suficiente. Atrav´es das derivadas parciais da fun¸c˜ao logar´ıtmica de verossimilhan¸ca, tamb´em em rela¸c˜ao a θ, forem de 2a ordem, obt´em-se a matriz hessiana H(θ|x), de dimens˜aoq x q, definida por:
H(θ|x) = ∂ matriz hessiana tem relevˆancia na classifica¸c˜ao dos pontos cr´ıticos, pois busca-se o m´aximo global, e tamb´em no c´alculo da matriz de covariˆancia dos parˆametros. H(θ|x) exerce papel importante nos algoritmos num´ericos de otimiza¸c˜ao e pode-se apresentar como uma restri¸c˜ao na execu¸c˜ao do algoritmo, a exemplo dos casos onde n˜ao ´e uma matriz invers´ıvel.
Suas principais propriedades podem ser descritas por:
• Consistˆencia: ˆθM L´e consistente pois converge em probabilidade paraθ, sen, que representa
a dimens˜ao da amostra, tende a infinito. Assim, tem-se:
n→∞lim P(ˆθM L) =θ ;
• Normalidade assint´otica: Quando n tende a infinito, a distribui¸c˜ao de ˆθM L aproxima-se da Normal de m´edia θ e variˆancia I(θ|x)−1, isto ´e,
n→∞lim
θˆM L ∼N θ, I(θ|x)−1 .
• Eficiˆencia assint´otica: Um estimador ´e eficiente se n˜ao ´e enviesado e tem variˆancia m´ınima para todos os parˆametros. ˆθM Latinge o limite inferior de Cram´er-Rao para os estimadores, que estabelece que V ar(ˆθ)≥I(θ|x)−1 .
• Invariˆancia: MLE ´e invariante para certas transforma¸c˜oes nos dados.
As fun¸c˜oes de probabilidade costumam ser complicadas e n˜ao h´a a possibilidade de obter a solu¸c˜ao ´otima dos estimadores analiticamente. Nestas condi¸c˜oes, recorre-se a algoritmos para maximizar numericamente a fun¸c˜ao de verossimilhan¸ca, que est˜ao incorporados nos softwares estat´ısticossoftwaresestat´ısticos. Para ilustrar a dificuldade em realizar o processo de estima¸c˜ao pelo m´etodo MLE em modelos ARCH ou GARCH, que utiliza rela¸c˜oes n˜ao lineares, foi extra´ıdo um exemplo do livro de Enders (2015) [8], conforme descrito como continuidade desta se¸c˜ao.
Suponha que os valores da sequˆencia {εt}tenha distribui¸c˜ao Normal de m´edia nula e variˆancia constante σ2, assim, εt ∼N 0, σ2
. A fun¸c˜ao de verossimilhan¸ca para qualquer realiza¸c˜ao de εt ´e definida por:
Como as realiza¸c˜oes de {εt} s˜ao independentes, a fun¸c˜ao de verossimilhan¸ca das realiza¸c˜oes conjuntas de ε1, ε2, ..., εn, ´e definida pelo produto das verossimilhan¸cas individuais, e portanto, descrita por:
que transformada em fun¸c˜ao logar´ıtmica e manejada de forma mais trat´avel, ´e escrita por:
lnL=−n
Neste exemplo, suponha que {εt} represente os res´ıduos de um modelo de regress˜ao, onde assume-se m´edia nula, variˆancia constante σ2 e que as v´arias realiza¸c˜oes de {εt} s˜ao
indepen-dentes. Como yt =βxt+εt, o termo εt pode ser isolado e representado por:
εt=yt−βxt , (A.2)
Substituindo εt dado por A.2 na equa¸c˜ao A.1, tem-se a equa¸c˜ao da fun¸c˜ao logar´ıtmica de verossimilhan¸ca, dado uma amostra de n observa¸c˜oes, que ´e descrita por:
lnL=−n
que precisa ser maximizada para a obten¸c˜ao dos estimadores MLE. A primeira derivada parcial desta fun¸c˜ao (A.3) em rela¸c˜ao a σ2 resulta em:
enquanto que, se sua primeira derivada for em rela¸c˜ao a β, o resultado obtido ´e expresso por:
∂lnL comu-mente mencionado pela sua sigla OLS e que produz estimadores consistentes e assintoticacomu-mente eficientes. Estes c´alculos determinam os seguintes resultados:
σb2 = 1
A complexidade da estima¸c˜ao MLE aumenta nos modelos ARCH e GARCH pela introdu¸c˜ao de componentes n˜ao lineares, cujas solu¸c˜oes dependem da aplica¸c˜ao computacional de m´etodos num´ericos. Ao introduzir um erroARCH(1) vtao modelo de regress˜aoA.2, que ainda continua v´alido, tem-se que εt=vt σt ,onde σt2 ´e a variˆancia condicional de εt e que n˜ao ´e constante, a fun¸c˜ao de verossimilhan¸ca das realiza¸c˜oes conjuntas de ε1, ε2, ..., εn sofre natural modifica¸c˜oes e ´e expressa por:
que transformada em fun¸c˜ao logar´ıtmica representa-se por: pode-se substitu´ı-la na equa¸c˜ao A.9, resultando na express˜ao:
lnL=−n−1
A primeira observa¸c˜ao ´e perdida pois ε0 n˜ao integra a amostra. Realizando a substitui¸c˜ao de ε2t−1 porε2t−1 = (yt−1−βxt−1)2 emA.10, consegue-se maximizar lnLem rela¸c˜ao aos parˆametros ω, α1 e β somente com a ajuda dos algoritmos computacionais, uma vez que n˜ao existem solu¸c˜oes anal´ıticas para as condi¸c˜oes de primeira ordem (a primeira derivada da fun¸c˜ao de verossimilhan¸ca deve ser zero) para determina¸c˜ao de um m´aximo.
Aplica¸ c˜ ao e Resultados
Este apˆendice cont´em algumas an´alises complementares, realizado no componente pr´atico do estudo, com menor relevˆancia.
Considerando o “melhor“ modelo ARM A+GARCH conseguido para explicar o retorno da taxa de cˆambio EUR/BRL, obteve-se o modelo de ARM A(1,0) + GARCH(1,1) com a distribui¸c˜ao de errost-Student assim´etrica e descrito pelas equa¸c˜oes3.5,3.6e3.7. Apropriando-se deste modelo, com todas as suas caracter´ısticas, foram geradas 5000 simula¸c˜oes diferentes para um horizonte de 1000 dias e para cada uma delas, um nova s´erie temporal de tamanho 1000 per´ıodos ´e gerada, que colocadas em um ´unico gr´afico (ver figuraB.1), exibe o padr˜ao mais frequente para o retorno da taxa de cˆambio EUR/BRL, observado pelas regi˜oes mais escuras, dado que h´a v´arios pontos sobrepostos. As cores em si n˜ao expressam nenhum significado adicional `a figura e servem exclusivamente para explicitar as diferentes s´eries temporais.
88