• Nenhum resultado encontrado

Método de Máxima Verossimilhança

Na Estatística, a estimação paramétrica é um problema difícil dependendo do caso, principalmente quando se exige propriedades como suficiência, consistência, não-viés e propriedades assintóticas ótimas em relação ao parâmetro da distribuição.

Dentre os vários métodos possíveis para estimação paramétrica – entre eles, e de forma não exaustiva, o método dos momentos, método dos mínimos quadrados, estimadores bayesianos, estimadores minimax – o método de estimação por máxima verossimilhança é de longe o mais popular e o mais utilizado (Joe (2014, p. 225)).

O racional deste tipo de estimação é que ao amostrar uma população des- crita pela função densidade de probabilidade fpx|θq, conhecer θ implica conhecer toda a população (Casella e Berger(2002, p. 371)).

O uso do estimador de máxima verossimilhança pressupõe a validade do princí-

pio da verossimilhança, sob o qual se assume que a amostra observada é representativa

da população. Escolhe-se então, como o estimador, o valor do parâmetro que maximiza a função densidade de probabilidade conjunta (Rohatgi e Saleh (2015, p. 389)).

Seja X1, . . . , Xn uma amostra da variável X com função densidade de probabi- lidade conjunta fpx1, . . . , xn|θq, θ P Θ ou função de probabilidade conjunta (caso se trate

de uma variável aleatória discreta).

Para a aplicação do princípio da verossimilhança, deve-se trabalhar com as

funções de verossimilhança.

Definição 3.1. (Rohatgi e Saleh (2015, Definição 8.7.1)) Seja X1, . . . , Xn uma amostra

θ PΘ, onde Θ é o domínio do parâmetro θ da distribuição Xi, i “1, . . . , n. A função Lpθ|x1, . . . , xnq “ f px1, . . . , xn|θq,

considerada como uma função do parâmetro θ, é denominada função de verossimi-

lhança.

Caso X1, . . . , Xn naDefinição 3.1 seja uma amostra aleatória, a função de veros- similhança reduz-se a Lpθ|x1, . . . , xnq “

n ź

i“1

f pxi|θq, em que fpxi|θq é a função densidade de probabilidade de Xi, i “ 1, . . . , n e θ P Θ.

Conforme discutido em Bickel e Doksum(2015), sob certas condições encontra- se o estimador de máxima verossimilhança pθEM V de θ P Θ através da solução das

equações de verossimilhança

B

BθiLpθ|x1, . . . , xnq “ 0, @i “1, . . . , d.

Em muitas situações, é mais conveniente maximizar o logaritmo da fun- ção de verossimilhança, denominado comumente log-verossimilhança e denotado por

`pθ|x1, . . . , xnq –ln Lpθ|x1, . . . , xnq. Matematicamente não há diferença entre maximizar

a função de verossimilhança e maximizar a log-verossimilhança, já que B

Bθi lntLpθ|x1, . . . , xnqu “ 0, i “ 1, . . . , d

ùñ 1

Lpθ|x1, . . . , xnq

¨ B

BθiLpθ|x1, . . . , xnq “ 0, i “ 1, . . . , d pRegra da Cadeiaq

ðñ B

BθiLpθ|x1, . . . , xnq “ 0, i “ 1, . . . , d ppois Lpθ|x1, . . . , xnq ą 0q. Intuitivamente e levando em conta o caso discreto, o estimador de máxima verossimilhança é o valor de θ, dentre todas as demais possibilidades, para o qual a amostra observada é a mais verossímil, ou seja, mais provável de ocorrer. No geral, o estimador de máxima verossimilhança possui propriedades ótimas como invariância, eficiência, consistência e normalidade assintótica (Casella e Berger (2002, Seções 7.2.3 e 7.3)).

Ainda segundo (Casella e Berger(2002, p. 316)), dado que encontrar o estimador de máxima verossimilhança implica em maximizar funções matemáticas, inevitavelmente, há duas possíveis desvantagens evidentes: (1) encontrar o máximo global e certificar-se de que ele de fato é global e (2) a sensibilidade numérica, ou seja, o quão sensível o estimador, como função de valores observados em uma determinada amostra, é em relação a pequenas modificações nos dados e, portanto, uma amostra ligeiramente distinta pode levar a um estimador muito diferente do parâmetro.

Para encontrar o estimador de máxima verossimilhança do parâmetro de associação θ da cópula é necessário determinar previamente a função densidade da

cópula, proveniente por sua vez dos conceitos de derivadas parciais da função de cópula.

Dadas a cópula Cpu, v|θq, uma amostra pU1, V1q, . . . , pUn, Vnqproveniente de C

e cpu, v|θq a densidade da cópula C então Lpθ|pu1, v1q, . . . , pun, vnqq “

n ź

i“1

cpui, vi|θq. Sendo cópulas bivariadas uma representação de uma função de distribuição conjunta bivariada, a existência de suas derivadas parciais pode ser garantida por meio dos dois teoremas a seguir, enunciados sem demonstração – o termo quase certamente refere-se a um espaço de probabilidade com medida Lebesgue (Nelsen (2007, pp. 13-14)).

Teorema 3.2. Seja C uma cópula. Para todo v P I, a derivada parcial B{BuCpu, vq existe

para quase todo u, e para tais u e v,

0 ď B

BuCpu, vq ď1. (3.1)

Similarmente, para todo u P I, a derivada parcial B{BvCpu, vq existe para quase todo v, e para tais u e v,

0 ď B

BvCpu, vq ď1. (3.2)

Além disso, as funções u ÞÑ BCpu, vq{Bv e v ÞÑ BCpu, vq{Bu são definidas e não decrescentes em quase toda parte em I.

Este teorema é muito útil sempre que for necessário determinar expressões como a esperança condicional EpU|V ą uq “

ż8

´8

ydFU |V ąupyq, que depende da função de

distribuição acumulada FU |V ąupyq da variável aleatória U|V ą u. Estas expressões serão usadas nas aplicações desta dissertação.

Exemplo 3.6 (Determinação da f.d.p. da variável U|V ą u). Neste exemplo as variáveis

aleatórias U e V têm distribuição uniforme no intervalo p0, 1q. FU |V ąupyq “ P pU ď y|V ą uqP pU ď y, V ą uq P pV ą uqP pU ď yq ´ P pU ď y, V ď uq 1 ´ P pV ď uqy ´ Cpy, uq 1 ´ u , (3.3)

o que implica fU |V ąupyq “ d dyFU |V ąupyqd dy „ y ´ Cpy, uq 1 ´ u  “ 1 ´ d dyCpy, uq 1 ´ u (3.4)

Outra aplicação das derivadas parciais é referente às cópulas condicionais, conforme o exemplo a seguir

Exemplo 3.7.

Cupvq “ P pV ď v|U “ uq

“ lim

∆uÑ0P pV ď v|u ď U ď u `∆uq

“ lim ∆uÑ0 P pV ď v, u ď U ď u `∆uq P pu ď U ď u `∆uq “ lim ∆uÑ0

Cpu `∆u, vq ´ Cpu, vq

∆u

“ B

BuCpu, vq,

(3.5)

que é definida como a cópula condicional em u.

Teorema 3.3. Seja C uma cópula. Se BCpu, vq{Bv e B2Cpu, vq{BuBv são contínuas em I2 e BCpu, vq{Bu existe para todo u P p0, 1q quando v “ 0, então BCpu, vq{Bu e B2

Cpu, vq{BvBu existem em p0, 1q2 e B2Cpu, vq{BuBv “ B2Cpu, vq{BvBu.

A importância prática do Teorema 3.3 é que ele nos possibilita encontrar a função densidade da cópula. Como visto no Teorema 1.1, as cópulas são uniformemente contínuas em I2. Diferentemente de funções de distribuições bivariadas em geral, suas

funções de distribuição marginais são absolutamente contínuas.

Definição 3.2. Seja C uma cópula conforme definida no Teorema 3.3. A função den-

sidade da cópula C é definida como

cpu, vq – B

2

BuBvCpu, vq.

Ademais, toda cópula pode ser decomposta em duas partes: uma parte absolu- tamente contínua e uma parte singular, ou seja, Cpu, vq “ ACpu, vq ` SCpu, vq, em que

ACpu, vq “ żu 0 żv 0 B2

BuBvCpt, sq dt ds e SCpu, vq “ Cpu, vq ´ ACpu, vq.

Exemplo 3.8 (Função de verossimilhança da cópula de Joe - Aplicação Desigualdade

de Renda). Como será visto na Seção 4.2, a cópula que melhor se ajusta aos dados é a cópula de Joe, cuja função densidade é encontrada na Tabela 2.5. Desta forma, a função

de verossimilhança para a cópula de Joe, com base nos dados amostrais da aplicação, é dada por Lpθ|pu1, v1q, . . . , pu43, v43q “ 43 ź i“1 ` ¯uθ i `¯v θ i ´¯u θ i¯v θ i ˘´2`1{θ ¯upθ´1q i ¯v pθ´1q i `θ ´1 ` ¯u θ i `¯v θ i ´¯u θ i¯v θ i˘ , sendo ¯ui1 ´ ui, ¯vi1 ´ vi e θ ě 1.

Exemplo 3.9 (Função de verossimilhança da cópula de Frank - Aplicação Mapa da

Desigualdade). Como será visto naSeção 4.4, a cópula que melhor se ajusta aos dados é a cópula de Frank, cuja função densidade é encontrada na Tabela 2.3. Desta forma, a função de verossimilhança para a cópula de Frank, com base nos dados amostrais da aplicação, é dada por Lpθ|pu1, v1q, . . . , pu96, v96q “ 96 ź i“1 θp1 ´ e´θ qe´θpui`viq pe´θ´1 ` pe´θui´1qpe´θvi´1qq2. sendo θ P Rzt0u.

Exemplo 3.10 (Função de verossimilhança das cópulas Gaussiana e de Gumbel-Hougaard

- Aplicação Quebras de barragens). Como será visto na Seção 4.3, as cópulas que melhor se ajustam aos dados são a cópula Gaussiana e a de Gumbel-Hougaard, cujas funções densidades são encontradas na Tabela 2.1 e na Tabela 2.4, respectivamente. Desta forma, a função de verossimilhança para a cópula gaussiana, com base nos dados amostrais da aplicação, é dada por

Lpρ|pu1, v1q, . . . , pu30, v30q “ 30 ź i“1 1 ?1 ´ ρ2 exp ˆ ´1 2 2s2i ` ρ2t2i ´2ρsitiq 1 ´ ρ2 ˙ ,

onde si “Φ´1puiq, ti “Φ´1pviq e ρ P p´1, 1q e a função de verossimilhança para a cópula

de Gumbel-Hougaard, com base nos dados amostrais da aplicação, é dada por Lpθ|pu1, v1q, . . . , pu30, v30q “ 30 ź i“1 puiviq´1pln ui¨ln viqθ´1rw2{θ´2i ` pθ ´1qw 1{θ´2 i sCpui, vi|θq, sendo wi “ p´ln uiqθ` p´ln viqθ e θ ě 1.

Documentos relacionados