• Nenhum resultado encontrado

M M é é todo de otimiza todo de otimiza ç ç ão Num ão Num é é rica rica

N/A
N/A
Protected

Academic year: 2022

Share "M M é é todo de otimiza todo de otimiza ç ç ão Num ão Num é é rica rica"

Copied!
17
0
0

Texto

(1)

1

T T é é cnicas Computacionais em cnicas Computacionais em Probabilidade e Estat

Probabilidade e Estat í í stica I stica I

Aula IX Aula IX

Chang

Chang ChiannChiann

MAE 5704- IME/USP

c1

(2)

Slide 1

c1 chang; 22/4/2008

(3)

M M é é todo de otimiza todo de otimiza ç ç ão Num ão Num é é rica rica

1. Introdução:

Objetivo: apresentar alguns algoritmos utilizados para maximizar uma função f(θ), onde θ é um parâmetro d-dimensional.

θ =(θ1 , ..., θd)’

Algoritmos: Newton-Raphson Método Scoring

Gauss- Newton

(4)

Situação de interesse: f(θ) é a função de verossimilhança ou a função densidade a posteriori.

Todos esses algoritmos são procedimentos iterativos:

Θ(i): valor computado no i-ésimo estágio.

Θ(i+1): valor atualizado no estágio (i+1).

O procedimento é repetido até obter convergência.

(5)

4

O contexto da aplicação desses algoritmos é o de estimação de parâmetros. No caso da função de verossimilhança (fv), busca-se o estimador de máxima verossimilhança (EMV) de θ; no caso de função densidade a posteriori (fdp), a moda dessa função.

Modelos lineares com erros independentes e normais

→ fv quadrática e podemos obter o máximo resolvendo-se um sistema de equações lineares nos parâmetros (forma fechada)

Modelos não lineares →fv não é quadrática nos parâmetros e temos que resolver equações não lineares. Ex: modelos de regressão não linear, etc,

(6)

X=(X1, ..., Xn)’ dados observados, obtidos da densidade f(x/θ).

L(θ/X): função de verossimilhança (fv) l(θ/X): logaritmo da fv

Se X1, ..., Xn são iid com densidade f(x/θ), então:

L(θ/X) = ∑li(θ/Xi)

Além disso, se as v.a. Xi são gaussianas, a log- verossimilhança será quadrática.

(7)

No enfoque Bayesiano, suponha que tenha densidade a priori p(θ). Então o teorema de bayes dá a densidade a posteriori (condicionada sobre as observações X)

) (

) ( ) / ) (

/

( f x

p x

X f

p θ θ

θ =

= f x θ dθ

x

f ( ) ( , ) =

θ

θ) , ( )

(x f x

f

) /

( )

( )

/

( x p L X

p θ ∝ θ θ

(8)

O EMV de θ é o valor do parâmetro que maximiza L(θ/X) ou l(θ/X). Se a fv for derivável, unimodal e limitada superiormente, então a moda (EMV) θ)

é obtida derivando-se L ou l, com respeito às componentes de θ, considerando-se ∂l/∂θ=0 resolvendo as d equações resultantes.

De um modo geral, uma solução analítica em forma fechada das equações de verossimilhança não pode ser encontrada. Recorre-se, então, a algum procedimento de otimização numérica para encontrar θ)

(9)

Informa

Informa ç ç ões de Fisher (I( ões de Fisher (I( θ θ )) ))

a) Caso unidimensional(d=1)

Função escore → equação de verossimilhança(EV)

0 )

/ ) (

/ ) (

/

( ⇒ =

= ∂l X l X X

l

θ

θ

θ θ

&

&

Uma solução da EV é um EMV se

[ ] [ ]

2

2 2

) / ( )

/ ( )

(

) 0 /

) ( / (

X l

X l

I

X X l

l

E

E

θ θ

θ θ θ

θ θ

θ

&

&

&

&

&

=

=

<

=

(10)

I(θ): informação de Fisher sobre θ, contida em X.

Eθ(.): esperança relativa à distribuição de X para o valor do parâmetro igual a θ.

Resultado: sob condições de regularidade bastante gerais sobre a forma da fv, quando o verdadeiro valor do parâmetro é θ0, a variância assintótica do EMV é

) (

)

(

0

var θ

0

θ = I

1

θ

A )

Como θ0 é desconhecido, a precisão do EMV é medida de duas maneiras:

(11)

10

b) Caso vetorial, θ=(θ1, ..., θd)

[ ]

=

[ ][ ]

= ( / ) ( / )

)

(

( / )

l X l X

I θ

E

θ

& l & θ X E

θ & θ & θ

daqui em diante, utilizaremos a seguinte notação:

∂f(θ)/∂θ=g(θ), dx1, gradiente

2f(θ)/∂θ∂θ=G(θ), dxd, hessiano No caso bidimensional, temos

=

=

2 )

( ) (

2

2 1

2

2 1

2 2

1 2 2

2 1

θ θ θ

θ θ θ

θ θ

θ θ

θ θ

θ

f f

f f

f

f f

f

(12)

Observação: problema de minimização são reduzidos a de maximização, pois

maxθf(θ)=minθ(-f(θ))

Resultado: Se g(θ) e G(θ) existirem e forem continuas na vizinhança de θ)

0 ˆ)

(

0 ˆ)

(

<

=

θ

θ

G

g

(13)

12

Essas condições não garante que θ)

seja um maximizador global de f(θ).

A maioria dos procedimentos iterativos são métodos gradientes, ou seja, baseados no cálculo de derivadas de f(θ) e são da forma :

θ(i+1) = θ(i) +λs(θ) θ(i): aproximação atual do máximo θ(i+1): estimador revisado

s(θ): vetor de direção, dx1, dependendo do gradiente g(θ)

λ: tamanho do passo para a mudança de θi

(14)

Em geral,

s(θ) = V(θ)g(θ),

onde V(θ) depende do método utilizado.

Dizemos que o procedimento convergiu se a) f(θ(i+1)) estiver próxima de f(θ(i));

b) θ(i+1) estiver próximo de θ(i)

c) g(θ(i+1)) estiver próxima de g(θ(i)).

Se ε for um escalar pequeno e positivo, então (a) estará

(15)

No caso de (a) e (b) temos que usar algum tipo de norma para medir a proximidade de dois vetores.

Caso univariado:

Se a solução estiver próxima de zero

θ δ

θ

(i+1)

(i)

<

Se a solu

Se a soluçção for um valor grandeão for um valor grande

θ

δ

θ

θ

+ <

) (

) ( )

1 (

i

i i

(16)

Problemas de Convergência:

Usualmente relacionados com a escolha de um valor inicial, θ0. Dependendo da forma de f(θ) e de θ0, o algoritmo pode convergir para um máximo local e não para um global.

Os procedimentos iterativos podem depender de primeira e segunda derivadas, que devem ser calculadas no valor atual, θ(i). Essas derivadas podem ser calculadas analiticamente, quando possível, ou então, numericamente.

(17)

ej: vetor(dx1) com coordenadas nulas, com exceção da j-ésima que é igual a 1;

δj: é um passo de comprimento suficientemente pequeno;

Derivadas segundas podem ser calculadas numericamente de modo análogo.

Por exemplo

, ,

d f j

f f

j

i j

j i

j

e

) ( ) , 1, ,

( ( ) ( )

= L

+

∂ δ

θ δ

θ

θ

Referências

Documentos relacionados

Como você já anota as despesas e as receitas da sua produção, é possível você calcular o seu custo de produção da saca de soja. Procure ajuda de um técnico da cooperativa,

Por isso, o objetivo desta comunicação foi mostrar que a inserção dos dois “caminhos para pensar” num contexto predicativo não só não é legitimada pelo texto, como

A pesquisa procurou identificar como os Garis de Belo Horizonte se percebem, como consideram que são percebidos pela população e se o quadro da invisibilidade social estaria

Artigo 15. Sem prejuízo das regras de cooperação transfronteiriça e de auxílio judiciário mútuo em matéria penal, os Estados- -Membros, a Eurojust, a Procuradoria

Questão 5 - (UFMG - adaptação) O princípio básico de funcionamento de uma fibra óptica consiste em colocar um material X, com índice de refração nx, no interior de outro

Neste contexto, a presente tese tem como objetivo geral obter membranas de transporte facilitado com agentes transportadores estáveis na matriz polimérica e,

Quando se necessita de medula, basta remover a &#34;casca&#34; com um canivete e depois passar os pedaços sobre uma folha de lixa, para dar-lhes melhor aparência.. Usamcs pedaços

Embora o ato seja praticado, aparentemente, de conformidade com os cânones legais, o abuso do Direito traduz-se num ato cuja ilegitimidade decorre do excesso no exercício de