Estima¸cão de Máxima Verossimilhan¸ca Utilizando Métodos Iterativos

(1)

Estima¸c˜ ao de M´ axima Verossimilhan¸ ca Utilizando M´ etodos Iterativos

Carlos Montenegro Silva

Instituto de Matem´atica e Estat´ıstica Universidade de S˜ao Paulo

Outubro, 2014

(2)

Motiva¸c˜ ao

Em muitos problemas de estima¸cão de máxima verossimilhan¸ca, pode ser dif´ıcil ou até imposs´ıvel encontrar expressões anal´ıticas de forma fechada para os estimadores.

Exemplos:

Fun¸c˜ao de densidade de probabilidade Cauchy: f(x, θ) = 1

π(1 + (x−θ)²), x∈R, θ∈R Fun¸c˜ao de quant´ıa de probabilidade Poisson truncada:

f(x, θ) = e^−θθ^x

(1−e^−θ)x!, x= 1,2, . . . , θ >0 Nos casos das distribui¸c˜oes Gamma e Weibull (com os dois parˆametros desconhecidos).

Problemas de regressão com Modelos Lineares Generalizados (GLM). Problemas de regressão com Modelos não-lineares (NLM).

(3)

Motiva¸c˜ ao

Exemplos:

Fun¸c˜ao de densidade de probabilidade Cauchy:

f(x, θ) = 1

π(1 + (x−θ)²), x∈R, θ∈R

Fun¸c˜ao de quant´ıa de probabilidade Poisson truncada: f(x, θ) = e^−θθ^x

(4)

Motiva¸c˜ ao

Exemplos:

f(x, θ) = 1

(1−e^−θ)x!, x= 1,2, . . . , θ >0

Nos casos das distribui¸c˜oes Gamma e Weibull (com os dois parˆametros desconhecidos).

(5)

Motiva¸c˜ ao

Exemplos:

f(x, θ) = 1

(6)

Motiva¸c˜ ao

Exemplos:

f(x, θ) = 1

Problemas de regress˜ao com Modelos Lineares Generalizados (GLM).

Problemas de regress˜ao com Modelos n˜ao-lineares (NLM).

(7)

Motiva¸c˜ ao

Exemplos:

f(x, θ) = 1

Problemas de regress˜ao com Modelos Lineares Generalizados (GLM).

Problemas de regress˜ao com Modelos n˜ao-lineares (NLM).

(8)

Algoritmo iterativos

Nestas situa¸cões é necessário calcular as estimativas de máxima verossimilhan¸ca numericamente, usando algoritmos iterativos.

Para esta tarefa existem v´arios tipos de algoritmos.

Alguns destes métodos requerem a avalia¸cão expressa das derivadas parciais da fun¸cão objetivo. Estes algoritmos fazem parte dosmétodos do gradiente (Khuri, 2003). Exemplos:

I Steepest Descent

I Newton-Raphson

I Fisher scoring

I Davidon-Fletcher-Powell

Outras técnicas de otimiza¸cão se baseiam exclusivamente nos valores da fun¸cão objetivo e são chamados demétodos de busca direta(Direct search). Exemplos:

I Nelder-Mead

I Quasi-Newton

I Gradiente conjugado

I Simulated annealing

Outra classe de algoritmos são os da familiaEM(Expectation-Maximization). Estes algoritmos são utilizados para estima¸cão de máxima verossimilhan¸ca em problemas de dados incompletos, truncados, censurados ou com variáveis latentes (McLachlan and Krishnan, 2008).

(9)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

I Nelder-Mead

I Quasi-Newton

(10)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

I Nelder-Mead

I Quasi-Newton

(11)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

I Nelder-Mead

I Quasi-Newton

(12)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

I Nelder-Mead

I Quasi-Newton

(13)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

I Nelder-Mead

I Quasi-Newton

(14)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

I Nelder-Mead

I Quasi-Newton

(15)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

I Nelder-Mead

I Quasi-Newton

(16)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

I Nelder-Mead

I Quasi-Newton

(17)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

Outras técnicas de otimiza¸cão se baseiam exclusivamente nos valores da fun¸cão objetivo e são chamados demétodos de busca direta(Direct search).

Exemplos:

I Nelder-Mead

I Quasi-Newton

(18)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

Exemplos:

I Nelder-Mead

I Quasi-Newton

(19)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

Exemplos:

I Nelder-Mead

I Quasi-Newton

(20)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

Exemplos:

I Nelder-Mead

I Quasi-Newton

(21)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

Exemplos:

I Nelder-Mead

I Quasi-Newton

(22)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

Exemplos:

I Nelder-Mead

I Quasi-Newton

Outra classe de algoritmos s˜ao os da familiaEM(Expectation-Maximization).

Estes algoritmos são utilizados para estima¸cão de máxima verossimilhan¸ca em problemas de dados incompletos, truncados, censurados ou com variáveis latentes (McLachlan and Krishnan, 2008).

(23)

Algoritmo iterativos

I Steepest Descent

I Newton-Raphson

I Fisher scoring

Exemplos:

I Nelder-Mead

I Quasi-Newton

Outra classe de algoritmos s˜ao os da familiaEM(Expectation-Maximization).

Estes algoritmos são utilizados para estima¸cão de máxima verossimilhan¸ca em problemas de dados incompletos, truncados, censurados ou com variáveis latentes (McLachlan and Krishnan, 2008).

(24)

Algoritmo Newton-Raphson

O algoritmo Newton-Raphson (ou m´etodo de Newton) foi desenvolvido por Isaac Newton e Joseph Raphson e tem o objetivo estimar as ra´ızes de uma fun¸c˜ao.

Suponha que queremos encontrar a solu¸cão da equa¸cãog(x0) = 0, ondegé uma fun¸cão diferenciável. Dado um numeroxpróximo dex0, segue da expansão em série de Taylor em torno dexque:

0 =g(x0)≈g(x) +g⁰(x)(x0−x) Resolvendo parax0, conseguimos:

x0≈x− g(x) g⁰(x)

Assim, dado um valor estimadoxk, ent˜ao podemos ter um novo valor estimado xk+1 por

xk+1≈xk− g(xk) g⁰(xk)

Este procedimento ´e iterado parak= 1,2,3...at´e|g(xk)/g⁰(xk)|ser suficientemente pequeno.

(25)

Algoritmo Newton-Raphson

x0≈x− g(x) g⁰(x)

(26)

Algoritmo Newton-Raphson

0 =g(x0)≈g(x) +g⁰(x)(x0−x)

Resolvendo parax0, conseguimos:

x0≈x− g(x) g⁰(x)

(27)

Algoritmo Newton-Raphson

x0≈x− g(x) g⁰(x)

(28)

Algoritmo Newton-Raphson

x0≈x− g(x) g⁰(x)

(29)

Algoritmo Newton-Raphson

x0≈x− g(x) g⁰(x)

(30)

Algoritmo Newton-Raphson

Figura:Interpreta¸c˜ao Geom´etrica do algoritmo Newton-Raphson

Escolhe-se um valor inicial. Após isso, calcula-se a equa¸cão da reta tangente (derivada) da fun¸cão nesse ponto e a interse¸cão dela com o eixo das abcissas, a fim de encontrar uma melhor aproxima¸cão para a raiz.

(31)

Algoritmo Newton-Raphson

Escolhe-se um valor inicial. Após isso, calcula-se a equa¸cão da reta tangente (derivada) da fun¸cão nesse ponto e a interse¸cão dela com o eixo das abcissas, a fim de encontrar uma melhor aproxima¸cão para a raiz.

(32)

Algoritmo Newton-Raphson

Escolhe-se um valor inicial. Ap´os isso, calcula-se a equa¸c˜ao da reta tangente (derivada)

(33)

Algoritmo Newton-Raphson

Podemos utilizar o algor´ıtmo Newton-Raphson para encontrar as estimativas de m´axima verossimilhan¸ca.

SejaX uma variável aleatória definida sob um espa¸co de probabilidade (Ω, σ, P), comX∈Ω e fun¸cão de densidade de probabilidadef(x, θ), ondeθ∈R.

SejaX= (x1, ..., xn) uma amostra aleat´oria de X eL(θ|X) =Qn

i=1f(xi, θ) a fun¸c˜ao de verossimilhan¸ca.

Suponha que a estimativa de m´axima verossimilhan¸ca ˆθsatisfaz ^∂

∂θˆlnL(ˆθ|X) = 0. Seja ˆθ^ka estimativa deθapós a itera¸cãokdo algoritmo, então:

θˆ^(k+1)= ˆθ^(k)+ S(ˆθ^(k)) H(ˆθ^(k)) onde

S(θ) = ∂

∂θlnL(θ|X), H(θ) =−∂²

∂θ²lnL(θ|X)

Se ˆθ⁽⁰⁾´e um estimador deθ suficientemente bom, ent˜ao o estimador: θˆ⁽¹⁾= ˆθ⁽⁰⁾+ S(ˆθ⁽⁰⁾)

H(ˆθ⁽⁰⁾)

tem virtualmente as mesmas propriedades assint´oticas que o EMV (Khuri, 2003).

(34)

Algoritmo Newton-Raphson

S(θ) = ∂

∂θlnL(θ|X), H(θ) =−∂²

∂θ²lnL(θ|X)

H(ˆθ⁽⁰⁾)

(35)

Algoritmo Newton-Raphson

S(θ) = ∂

∂θlnL(θ|X), H(θ) =−∂²

∂θ²lnL(θ|X)

H(ˆθ⁽⁰⁾)

(36)

Algoritmo Newton-Raphson

∂θˆlnL(ˆθ|X) = 0.

Seja ˆθ^ka estimativa deθapós a itera¸cãokdo algoritmo, então: θˆ^(k+1)= ˆθ^(k)+ S(ˆθ^(k))

H(ˆθ^(k)) onde

S(θ) = ∂

∂θlnL(θ|X), H(θ) =−∂²

∂θ²lnL(θ|X)

H(ˆθ⁽⁰⁾)

(37)

Algoritmo Newton-Raphson

Seja ˆθ^ka estimativa deθapós a itera¸cãokdo algoritmo, então:

S(θ) = ∂

∂θlnL(θ|X), H(θ) =−∂²

∂θ²lnL(θ|X)

H(ˆθ⁽⁰⁾)

(38)

Algoritmo Newton-Raphson

θˆ^(k+1)= ˆθ^(k)+ S(ˆθ^(k)) H(ˆθ^(k))

onde

S(θ) = ∂

∂θlnL(θ|X), H(θ) =−∂²

∂θ²lnL(θ|X)

H(ˆθ⁽⁰⁾)

(39)

Algoritmo Newton-Raphson

S(θ) = ∂

∂θlnL(θ|X), H(θ) =−∂²

∂θ²lnL(θ|X)

H(ˆθ⁽⁰⁾)

(40)

Algoritmo Newton-Raphson

S(θ) = ∂

∂θlnL(θ|X), H(θ) =−∂²

∂θ²lnL(θ|X) Se ˆθ⁽⁰⁾´e um estimador deθ suficientemente bom, ent˜ao o estimador:

θˆ⁽¹⁾= ˆθ⁽⁰⁾+ S(ˆθ⁽⁰⁾) H(ˆθ⁽⁰⁾)

(41)

Algoritmo Newton-Raphson

S(θ) = ∂

∂θlnL(θ|X), H(θ) =−∂²

∂θ²lnL(θ|X)

Se ˆθ⁽⁰⁾´e um estimador deθ suficientemente bom, ent˜ao o estimador:

θˆ⁽¹⁾= ˆθ⁽⁰⁾+ S(ˆθ⁽⁰⁾) H(ˆθ⁽⁰⁾)

(42)

Algoritmo Newton-Raphson

S(θ) = ∂

∂θlnL(θ|X), H(θ) =−∂²

∂θ²lnL(θ|X) Se ˆθ⁽⁰⁾´e um estimador deθ suficientemente bom, ent˜ao o estimador:

θˆ⁽¹⁾= ˆθ⁽⁰⁾+ S(ˆθ⁽⁰⁾)

(43)

Exemplo 1: Densidade Cauchy

Fun¸c˜ao de densidade de probabilidade Cauchy: f(x, θ) = 1

π(1 + (x−θ)²) dadox1, ..., xna fun¸c˜ao de log-verossimilhan¸ca ´e:

lnL(θ|X) =−

n

X

i=1

ln[1 + (xi−θ)²]−nln(π) θˆsatisfaz a equa¸c˜ao:

S(ˆθ) =

n

X

i=1

2(xi−θ)ˆ 1 + (xi−θ)ˆ² = 0

ondeS(θ) é a derivada delnL(θ|X) (fun¸cão escore). ComoS(θ) não é monotona emθ, a equa¸cãoS(ˆθ) = 0 pode ter mais de uma solu¸cão para um dadox1, ..., xn.

(44)

Exemplo 1: Densidade Cauchy

f(x, θ) = 1

π(1 + (x−θ)²)

dadox1, ..., xna fun¸c˜ao de log-verossimilhan¸ca ´e: lnL(θ|X) =−

n

X

i=1

S(ˆθ) =

n

X

i=1

2(xi−θ)ˆ 1 + (xi−θ)ˆ² = 0

(45)

Exemplo 1: Densidade Cauchy

f(x, θ) = 1

lnL(θ|X) =−

n

X

i=1

ln[1 + (xi−θ)²]−nln(π)

θˆsatisfaz a equa¸c˜ao:

S(ˆθ) =

n

X

i=1

2(xi−θ)ˆ 1 + (xi−θ)ˆ² = 0

(46)

Exemplo 1: Densidade Cauchy

f(x, θ) = 1

lnL(θ|X) =−

n

X

i=1

S(ˆθ) =

n

X

i=1

2(xi−θ)ˆ 1 + (xi−θ)ˆ² = 0

(47)

Exemplo 1: Densidade Cauchy

f(x, θ) = 1

lnL(θ|X) =−

n

X

i=1

S(ˆθ) =

n

X

i=1

2(xi−θ)ˆ 1 + (xi−θ)ˆ² = 0

(48)

Exemplo 1: Densidade Cauchy

Usando a media amostral (ou a mediana) como estimativa inicial, valores sucessivos de ˆθ^(k)s˜ao definidos por:

H(ˆθ) = 2

n

X

i=1

1−(xi−θ)ˆ² (1 + (xi−θ)ˆ²)² (I. de Fisher observada).

Para ilustrar o algoritmo Newton-Raphson, geramos uma amostra aleat´oria de 100 observa¸c˜oes Cauchy comθ= 10 (no programa R).

k θˆ^(k) lnL(ˆθ^(k)) 0 10.04490 -239.6569 1 10.06934 -239.6433 2 10.06947 -239.6433 3 10.06947 -239.6433

Itera¸c˜oes do algoritmo Newton-Raphson para os dados Cauchy simulados.

(49)

Exemplo 1: Densidade Cauchy

θˆ^(k+1)= ˆθ^(k)+ S(ˆθ^(k)) H(ˆθ^(k))

onde

H(ˆθ) = 2

n

X

i=1

k θˆ^(k) lnL(ˆθ^(k)) 0 10.04490 -239.6569 1 10.06934 -239.6433 2 10.06947 -239.6433 3 10.06947 -239.6433

(50)

Exemplo 1: Densidade Cauchy

H(ˆθ) = 2

n

X

i=1

k θˆ^(k) lnL(ˆθ^(k)) 0 10.04490 -239.6569 1 10.06934 -239.6433 2 10.06947 -239.6433 3 10.06947 -239.6433

(51)

Exemplo 1: Densidade Cauchy

H(ˆθ) = 2

n

X

i=1

k θˆ^(k) lnL(ˆθ^(k)) 0 10.04490 -239.6569 1 10.06934 -239.6433 2 10.06947 -239.6433 3 10.06947 -239.6433

(52)

Exemplo 1: Densidade Cauchy

H(ˆθ) = 2

n

X

i=1

k θˆ^(k) lnL(ˆθ^(k)) 0 10.04490 -239.6569 1 10.06934 -239.6433 2 10.06947 -239.6433 3 10.06947 -239.6433

(53)

Exemplo 1: Densidade Cauchy

H(ˆθ) = 2

n

X

i=1

k θˆ^(k) lnL(ˆθ^(k)) 0 10.04490 -239.6569 1 10.06934 -239.6433 2 10.06947 -239.6433 3 10.06947 -239.6433

(54)

Exemplo 1: Densidade Cauchy

H(ˆθ) = 2

n

X

i=1

k θˆ^(k) lnL(ˆθ^(k)) 0 10.04490 -239.6569 1 10.06934 -239.6433 2 10.06947 -239.6433 3 10.06947 -239.6433

(55)

Exemplo 1: Densidade Cauchy

Figura:Fun¸c˜ao de log-verossimilhan¸ca (log-likelihood) para os dados Cauchy.

(56)

Exemplo 1: Densidade Cauchy

Figura:Fun¸c˜ao de log-verossimilhan¸ca (log-likelihood) para os dados Cauchy.

(57)

Exemplo 1: Densidade Cauchy

Figura:Fun¸c˜ao escore (score) para os dados Cauchy.

(58)

Exemplo 1: Densidade Cauchy

Figura:Fun¸c˜ao escore (score) para os dados Cauchy.

(59)

Exemplo 2: Bolfarine e Sandoval, 2010

Seja X uma v.a. com fun¸c˜ao de densidade de probabilidade:

f(x;θ) =1

2(1 +θx), −1≤x≤1 −1≤θ≤1

Dada uma amostra aleatóriaX=x1, ..., xn de X, a fun¸cão de log-verossimilhan¸ca é: lnL(θ|X) =nln(1/2) +

n

X

i=1

ln[1 + (θxi)] θˆsatisfaz a equa¸c˜ao:

S(ˆθ) =

n

X

i=1

xi

1 + ˆθxi

= 0

Usando a m´edia amostral (ou a mediana) como estimativa inicial, valores sucessivos de ˆθ^(k)s˜ao definidos por:

H(ˆθ) =

n

X

i=1

x²i

(1 + ˆθxi)²

(60)

Exemplo 2: Bolfarine e Sandoval, 2010

f(x;θ) =1

2(1 +θx), −1≤x≤1 −1≤θ≤1

Dada uma amostra aleatóriaX=x1, ..., xn de X, a fun¸cão de log-verossimilhan¸ca é: lnL(θ|X) =nln(1/2) +

n

X

i=1

S(ˆθ) =

n

X

i=1

xi

1 + ˆθxi

= 0

H(ˆθ) =

n

X

i=1

x²i

(1 + ˆθxi)²

(61)

Exemplo 2: Bolfarine e Sandoval, 2010

f(x;θ) =1

2(1 +θx), −1≤x≤1 −1≤θ≤1

Dada uma amostra aleatóriaX=x1, ..., xn de X, a fun¸cão de log-verossimilhan¸ca é:

lnL(θ|X) =nln(1/2) +

n

X

i=1

S(ˆθ) =

n

X

i=1

xi

1 + ˆθxi

= 0

H(ˆθ) =

n

X

i=1

x²i

(1 + ˆθxi)²

(62)

Exemplo 2: Bolfarine e Sandoval, 2010

f(x;θ) =1

2(1 +θx), −1≤x≤1 −1≤θ≤1

n

X

i=1

ln[1 + (θxi)]

S(ˆθ) =

n

X

i=1

xi

1 + ˆθxi

= 0

H(ˆθ) =

n

X

i=1

x²i

(1 + ˆθxi)²

(63)

Exemplo 2: Bolfarine e Sandoval, 2010

f(x;θ) =1

2(1 +θx), −1≤x≤1 −1≤θ≤1

n

X

i=1

ln[1 + (θxi)]

S(ˆθ) =

n

X

i=1

xi

1 + ˆθxi

= 0

H(ˆθ) =

n

X

i=1

x²i

(1 + ˆθxi)²

(64)

Exemplo 2: Bolfarine e Sandoval, 2010

f(x;θ) =1

2(1 +θx), −1≤x≤1 −1≤θ≤1

n

X

i=1

ln[1 + (θxi)]

S(ˆθ) =

n

X

i=1

xi

1 + ˆθxi

= 0

H(ˆθ) =

n

X

i=1

x²i

(1 + ˆθxi)²

(65)

Exemplo 2: Bolfarine e Sandoval, 2010

f(x;θ) =1

2(1 +θx), −1≤x≤1 −1≤θ≤1

n

X

i=1

ln[1 + (θxi)]

S(ˆθ) =

n

X

i=1

xi

1 + ˆθxi

= 0

H(ˆθ) =

n

X

i=1

x²i

(1 + ˆθxi)²

(66)

Exemplo 2: Bolfarine e Sandoval, 2010

f(x;θ) =1

2(1 +θx), −1≤x≤1 −1≤θ≤1

n

X

i=1

ln[1 + (θxi)]

S(ˆθ) =

n

X

i=1

xi

1 + ˆθxi

= 0

θˆ^(k+1)= ˆθ^(k)+ S(ˆθ^(k)) H(ˆθ^(k))

onde

H(ˆθ) =

n

X

i=1

x²i

(1 + ˆθxi)²

(67)

Exemplo 2: Bolfarine e Sandoval, 2010

f(x;θ) =1

2(1 +θx), −1≤x≤1 −1≤θ≤1

n

X

i=1

ln[1 + (θxi)]

S(ˆθ) =

n

X

i=1

xi

1 + ˆθxi

= 0

H(ˆθ) =

n

X

i=1

x²i

(1 + ˆθxi)²

(68)

Exemplo 2: Bolfarine e Sandoval, 2010

f(x;θ) =1

2(1 +θx), −1≤x≤1 −1≤θ≤1

n

X

i=1

ln[1 + (θxi)]

S(ˆθ) =

n

X

i=1

xi

1 + ˆθxi

= 0

n 2