M M é é todo de otimiza todo de otimiza ç ç ão Num ão Num é é rica rica

(1)

1

T T é é cnicas Computacionais em cnicas Computacionais em Probabilidade e Estat

Probabilidade e Estat í í stica I stica I

Aula IX Aula IX

Chang

Chang ChiannChiann

MAE 5704- IME/USP

c1

(2)

Slide 1

c1 chang; 22/4/2008

(3)

M M é é todo de otimiza todo de otimiza ç ç ão Num ão Num é é rica rica

1. Introdução:

Objetivo: apresentar alguns algoritmos utilizados para maximizar uma função f(θ), onde θ é um parâmetro d-dimensional.

θ =(θ₁ , ..., θ_d)’

Algoritmos: Newton-Raphson Método Scoring

Gauss- Newton

(4)

Situação de interesse: f(θ) é a função de verossimilhança ou a função densidade a posteriori.

Todos esses algoritmos são procedimentos iterativos:

Θ⁽ⁱ⁾: valor computado no i-ésimo estágio.

Θ⁽ⁱ⁺¹⁾: valor atualizado no estágio (i+1).

O procedimento é repetido até obter convergência.

(5)

4

O contexto da aplicação desses algoritmos é o de estimação de parâmetros. No caso da função de verossimilhança (fv), busca-se o estimador de máxima verossimilhança (EMV) de θ; no caso de função densidade a posteriori (fdp), a moda dessa função.

Modelos lineares com erros independentes e normais

→ fv quadrática e podemos obter o máximo resolvendo-se um sistema de equações lineares nos parâmetros (forma fechada)

Modelos não lineares →fv não é quadrática nos parâmetros e temos que resolver equações não lineares. Ex: modelos de regressão não linear, etc,

(6)

X=(X₁, ..., X_n)’ dados observados, obtidos da densidade f(x/θ).

L(θ/X): função de verossimilhança (fv) l(θ/X): logaritmo da fv

Se X₁, ..., X_n são iid com densidade f(x/θ), então:

L(θ/X) = ∑l_i(θ/X_i)

Além disso, se as v.a. X_i são gaussianas, a log- verossimilhança será quadrática.

(7)

No enfoque Bayesiano, suponha que tenha densidade a priori p(θ). Então o teorema de bayes dá a densidade a posteriori (condicionada sobre as observações X)

) (

) ( ) / ) (

/

( f x

p x

X f

p θ θ

θ =

∫

= _f _x θ _dθ

x

f ( ) ( , ) ⁼ ∑

θ

θ₎ , ( )

(x f x

f

) /

( )

/

( x p L X

p θ ∝ θ θ

(8)

O EMV de θ é o valor do parâmetro que maximiza L(θ/X) ou l(θ/X). Se a fv for derivável, unimodal e limitada superiormente, então a moda (EMV) θ⁾

é obtida derivando-se L ou l, com respeito às componentes de θ, considerando-se ∂l/∂θ=0 resolvendo as d equações resultantes.

De um modo geral, uma solução analítica em forma fechada das equações de verossimilhança não pode ser encontrada. Recorre-se, então, a algum procedimento de otimização numérica para encontrar ^θ⁾

(9)

Informa

Informa ç ç ões de Fisher (I( ões de Fisher (I( θ θ )) ))

a) Caso unidimensional(d=1)

Função escore → equação de verossimilhança(EV)

0 )

/ ) (

/

( ⇒ =

∂

= ∂l X l X X

l

θ

θ θ

^&

&

Uma solução da EV é um EMV se

[ ] [ ]

²

2 2

) / ( )

/ ( )

(

) 0 /

) ( / (

X l

I

X X l

l

E

^θ ^θ

θ θ θ

θ θ

θ

&

=

−

=

<

∂

=

∂

(10)

I(θ): informação de Fisher sobre θ, contida em X.

E_θ(.): esperança relativa à distribuição de X para o valor do parâmetro igual a θ.

Resultado: sob condições de regularidade bastante gerais sobre a forma da fv, quando o verdadeiro valor do parâmetro é θ₀, a variância assintótica do EMV é

) (

)

(

0

var _θ

₀

^θ ⁼ ^I

⁻1

θ

A ⁾

Como θ₀ é desconhecido, a precisão do EMV é medida de duas maneiras:

(11)

10

b) Caso vetorial, θ=(θ₁, ..., θ_d)

[ ]

⁼

^[ ^][ ^]

^′

−

= ( / ) ( / )

)

(

( / )

^l ^X ^l ^X

I ^θ

E

_θ

^& l ^& θ X E

^θ ^& ^θ ^& ^θ

daqui em diante, utilizaremos a seguinte notação:

∂f(θ)/∂θ=g(θ), dx1, gradiente

∂²f(θ)/∂θ∂θ=G(θ), dxd, hessiano No caso bidimensional, temos

















∂ =

∂











 ∂ ∂

∂ =

∂

2 )

( ) (

2

2 1

2

2 1

2 2

1 2 2

2 1

θ θ θ

θ θ

θ

f f

f

f f

f

(12)

Observação: problema de minimização são reduzidos a de maximização, pois

max_θf(θ)=min_θ(-f(θ))

Resultado: Se g(θ) e G(θ) existirem e forem continuas na vizinhança de θ⁾

0 ˆ)

(

0 ˆ)

(

<

=

θ

G

g

(13)

12

Essas condições não garante que _θ⁾

seja um maximizador global de f(θ).

A maioria dos procedimentos iterativos são métodos gradientes, ou seja, baseados no cálculo de derivadas de f(θ) e são da forma :

θ⁽ⁱ⁺¹⁾ = θ⁽ⁱ⁾ +λs(θ) θ⁽ⁱ⁾: aproximação atual do máximo θ⁽ⁱ⁺¹⁾: estimador revisado

s(θ): vetor de direção, dx1, dependendo do gradiente g(θ)

λ: tamanho do passo para a mudança de θ_i

(14)

Em geral,

s(θ) = V(θ)g(θ),

onde V(θ) depende do método utilizado.

Dizemos que o procedimento convergiu se a) f(θ⁽ⁱ⁺¹⁾) estiver próxima de f(θ⁽ⁱ⁾);

b) θ⁽ⁱ⁺¹⁾ estiver próximo de θ⁽ⁱ⁾

c) g(θ⁽ⁱ⁺¹⁾) estiver próxima de g(θ⁽ⁱ⁾).

Se ε for um escalar pequeno e positivo, então (a) estará

(15)

No caso de (a) e (b) temos que usar algum tipo de norma para medir a proximidade de dois vetores.

Caso univariado:

Se a solução estiver próxima de zero

θ δ

θ

⁽ⁱ⁺¹⁾

⁻

⁽ⁱ⁾

^<

Se a solu

Se a soluçção for um valor grandeão for um valor grande

θ

δ

θ

⁺ ⁻ _<

) (

) ( )

1 (

i

i i

(16)

Problemas de Convergência:

Usualmente relacionados com a escolha de um valor inicial, θ₀. Dependendo da forma de f(θ) e de θ₀, o algoritmo pode convergir para um máximo local e não para um global.

Os procedimentos iterativos podem depender de primeira e segunda derivadas, que devem ser calculadas no valor atual, θ⁽ⁱ⁾. Essas derivadas podem ser calculadas analiticamente, quando possível, ou então, numericamente.

(17)

e_j: vetor(dx1) com coordenadas nulas, com exceção da j-ésima que é igual a 1;

δ_j: é um passo de comprimento suficientemente pequeno;

Derivadas segundas podem ser calculadas numericamente de modo análogo.

Por exemplo

, ,

d f j

f f

j

i j

j i

j

e

⁾ ⁽ ⁾ _, ₁_, _,

( ⁽ ⁾ ⁽ ⁾

= L

−

≅ +

∂

M M é é todo de otimiza todo de otimiza ç ç ão Num ão Num é é rica rica

T T é é cnicas Computacionais em cnicas Computacionais em Probabilidade e Estat

Probabilidade e Estat í í stica I stica I

Aula IX Aula IX

M M é é todo de otimiza todo de otimiza ç ç ão Num ão Num é é rica rica

∫

) /

( )

( )

/

( x p L X

p θ ∝ θ θ

Informa

Informa ç ç ões de Fisher (I( ões de Fisher (I( θ θ )) ))

θ

θ

θ θ

[ ] [ ]

E

E

θ

∂

) (

)

(

var θ

θ = I

θ

A )

[ ]

[ ][ ]

( / )

E

& l & θ X E

θ

θ

θ δ

θ

−

<

θ

θ

θ

, ,

e

∂ δ

θ δ

θ

θ

var _θ

^θ ⁼ ^I

A ⁾

^[ ^][ ^]

^& l ^& θ X E

⁻

^<