Resumindo e concluindo... O minorante de Cramér-Rao, Parte 1

(1)

TeleTextos de bolso e de trazer por casa, suavemente, suavemente

O minorante de Cramér-Rao

Parte 1

© Sílvio A. Abrantes

Departamento de Engenharia Electrotécnica e de Computadores Faculdade de Engenharia, Universidade do Porto

Porto, Portugal [email protected] Julho de 2010

Conteúdo

1 1.. Introdução ... 1 2 2.. Estimação de parâmetros simples ... 2

2.1.O minorante de Cramér-Rao ... 2

2.2.A informação de Fisher ... 3

2.3.Amostras de sinal em ruído gaussiano branco (AWGN) ... 3

2.3.1. Constante imersa em ruído AWGN ... 4

2.3.2. Sinusóide em ruído AWGN ... 4

3 3.. Estimação conjunta de vários parâmetros ... 6

3.1.Amostras de sinal em ruído gaussiano branco (AWGN) ... 8

3.1.1. Sinusóide em ruído AWGN ... 8

4 4.. Referências ... 10

1

1 .

.

Introdução

Ao falar-se da estimação de parâmetros são habitualmente referidos os critérios da máxima verosimilhança (ML) e da máxima probabilidade a posteriori (MAP)1_{. Supondo que se deseja estimar} o parâmetro  a partir das observações consignadas num vector de amostras r, o critério da máxima verosimilhança assenta na procura do valor ˆ_ML que maximiza a função de verosimilhança p

 

r :

 

ˆ_ML arg maxp



  r .

O critério MAP decide-se pela estimativa ˆ_MAP que maximiza a probabilidade a posteriori

 

p  r :

 

ˆ_MAP arg maxp



  r .

Portanto, consoante o critério de estimação assim se procura o máximo de p

 

r ou de

 

p  r . É sabido que, em certas condições, os dois critérios de estimação são equivalentes. Por

(2)

exemplo, tratando-se da estimação dos símbolos enviados numa comunicação, as escolhas dos dois critérios são as mesmas se os símbolos forem equiprováveis.

A estimativa ˆ é uma variável aleatória. Idealmente o seu valor médio seria igual ao próprio parâmetro estimado e a sua variância seria nula, mas este último desejo não é possível de satisfazer. De facto, o valor médio até poderá ser igual ao parâmetro mas a variância será sempre superior ou igual a uma certa quantidade positiva, um valor mínimo designado por minorante de Cramér-Rao2_.

Este TeleTexto não trata dos estimadores de parâmetros em si (assunto abordado em [1] e [2]); trata, sim, dos minorantes de Cramér-Rao, em particular os associados à estimação dos parâmetros de sinusóides mergulhadas em ruído gaussiano branco; outras diversas situações de interesse, como a recuperação da fase da portadora em modulações digitais, serão tratadas em TeleTexto posterior.

Consideraremos daqui para a frente que se usa o critério da máxima verosimilhança. Em primeiro lugar vamos lidar com a estimação de parâmetros simples, a situação, mais favorável, em que apenas um parâmetro vai ser estimado (porque todos os outros que existam são conhecidos); depois passaremos para a situação mais complicada de desejarmos estimar vários parâmetros desconhecidos ao mesmo tempo.

2

2 .

.

Estimação de parâmetros simples

Deseja-se estimar o parâmetro determinístico  a partir de L amostras ( )r k , k0,1, ,L1. A

estimativa ˆ é uma variável aleatória e o erro de estimação ˆ  também, com valor médio

ˆ ˆ

E_  _E_{ }   e variância igual à variância 2ˆ de ˆ :



2

 

2



2

ˆ

ˆ ˆ ˆ ˆ ˆ

var(  )E _(  )E(  )_ E _E( ) _ _.

Se o valor médio da estimativa for igual ao parâmetro a estimar, E( )ˆ , a estimativa diz-se não-enviesada. Nesse caso a média do erro de estimação é nula, E_ ˆ _0.

2.1. O minorante de Cramér-Rao

Seja p(r) a verosimilhança do vector de amostras r



r(0) r(1) r L( 1)



e ln (pr) a

sua log-verosimilhança. Admitindo que a primeira e a segunda derivada de ln (pr) existem e são

absolutamente integráveis, o valor quadrático médio do erro de estimação de  não pode ser inferior a uma certa quantidade mínima, aqui expressa de duas maneiras equivalentes [3]:

2 2 2 2 2 2 ˆ ˆ ( ) ( ) ˆ ( ) ln ( ) ln ( ) d E d E d d E d d _E _p E p d d                        _ _ _   _ _ _ _   _ _ _              r r .

Se a estimativa for não-enviesada os numeradores valem 1, porque dE( )ˆ 1 d



  , e E( ˆ )2 é

igual à variância da própria estimativa ˆ , porque 2





2 2 ˆ ˆ ˆ ˆ ( ) E_  _E_E _{ } __   . Assim, 2 ˆ  

fica limitada inferiormente pelo minorante de Cramér-Rao, CRB( ) [4]:

(3)

2 ˆ 2 2 2 1 1 ( ) ln ( ) ln ( ) CRB d d _E _p E p d d           _ _     _ _              r r .

Deseja-se, naturalmente, que a variância 2 ˆ 

 seja a menor possível: quanto mais próxima de ( )

CRB estiver, melhor. Se a variância atingir o valor mínimo possível, isto é, se 2ˆ CRB( ) , a

estimativa diz-se eficiente. Sabe-se que, se uma estimativa for eficiente, essa é, de certeza, a estimativa de máxima verosimilhança [3].

2.2. A informação de Fisher

Ao valor médio do quadrado da derivada da log-verosimilhança em ordem a  chama-se informação de Fisher3_: 2 ln ( ) ( ) d p I E d    _ _  _ _    _ _    r . (1)

Alternativamente podemos escrever

2 2 ln ( ) ( ) d p I E d             r . (2)

Logo, com estimadores não-enviesados o minorante de Cramér-Rao é o inverso da informação de Fisher: 1 ( ) ( ) CRB I    . (3)

2.3. Amostras de sinal em ruído gaussiano branco (AWGN)

As situações que envolvem ruído branco gaussiano aditivo (AWGN) são muito comuns. Vamos ver que, nesse contexto, as equações (1) e (2) se simplificam razoavelmente.

Suponhamos que ( )r k s k( )n k( ), em que r(k) representa a k-ésima amostra observada, s(k) é uma amostra de sinal determinístico que contém um parâmetro real não-aleatório desconhecido, , e n(k) é uma amostra de ruído AWGN de média nula e variância

_

2_{. Queremos determinar a}

informação de Fisher e o minorante de Cramér-Rao quando a estimativa de  não é enviesada. Como as amostras de ruído são independentes, a verosimilhança e a log-verosimilhança de r escrevem-se, respectivamente,









1 1 2 2 2 2 ₀ 0 1 1 ( ) ( ( ) ) exp ( ) ( ) 2 2 L L L k k p  p r k  r k s k           _  _ 







r









1 2 2 2 2 ₀ 1 1 ln ( ) ln ( ) ( ) 2 2 L L k p  r k s k      



 r

Partindo da segunda derivada de ln (pr),

(4)





2 2 1 2 2 2 2 0 1 ( ) ( ) ln ( ) ( ) ( ) L k d d s k ds k p r k s k d d   d     _ _     _  _ _ _      



r ,

obtemos o valor médio (em r)









2 2 1 2 1 2 2 2 2 0 0 ( ) 2 2 2 1 1 1 2 2 2 2 0 0 0 0 1 ( ) 1 ( ) ln ( ) ( ) ( ) 1 ( ) 1 ( ) 1 ( ) ( ) L L k k n k L L L k k k d d s k ds k E p E r k s k d d d d s k ds k ds k E n k d d d                           _ _ _ _       _ _ _ _       __ __       _ _   _ _    



r

Tendo em conta (2) e (3) chegamos imediatamente a ( )I  e a CRB( ) :

2 1 2 0 1 ( ) ( ) L k ds k I d         _ _  



(4) 2 2 1 0 ( ) ( ) L k CRB ds k d            



(5)

Esta é uma conclusão interessante: na presença de ruído gaussiano não precisamos de derivar a log-verosimilhança ln (pr), bastando derivar o sinal que contém o parâmetro a estimar.

Seguem-se alguns casos especiais de cálculo da informação de Fisher e do minorante CRB. 2.3.1. Constante imersa em ruído AWGN

Seja ( )s k  A. Como ds k( ) 1 dA  , então 2 ( ) L I A   2 1 ( ) ( ) CRB A I A L    .

2.3.2. Sinusóide em ruído AWGN

Suponhamos que s k( )Acos(2 f k₀ ). Os parâmetros desta sinusóide são a amplitude A, a fase  e a frequência f0. Vamos determinar sucessivamente CRB A , ( ) CRB( ) e CRB f( 0), para o

que precisaremos de ds k( ) dA , ( ) ds k d e ₀ ( ) ds k df , respectivamente. 2.3.2.1. Estimação da amplitude A (frequência e fase conhecidas)

A partir de 0 ( ) cos(2 ) ds k f k dA    (6) obtemos 2 1 1 2 0 0 0 ( ) cos (2 ) L L k k ds k f k dA        _{ } _    



. Como 2 0 0 1 1 cos (2 ) cos(4 2 ) 2 2 f k f k        então

(5)

1 1 1 2

0 0 0

1 1 1

cos (2 ) cos(4 2 ) cos(4 2 )

2 2 2 L L L k k k f k f k L f k                   _   _       _ _



. Mas 1 0 0 cos(4 2 ) L k f k L





  



, se f₀0 ou f₀0,5, (7) e, portanto, 1 2 0 0 cos (2 ) 2 L k L f k





   



e 2 ( ) 2 L I A   (8) 2 2 ( ) CRB A L  

2.3.2.2. Estimação da fase  (amplitude e frequência conhecidas) Agora é 0 ( ) sen(2 ) ds k A f k d     (9) 2 1 1 2 2 0 0 0 ( ) sen (2 ) L L k k ds k A f k d        _{ } _    



. Mas 2 0 0 1 1 sen (2 ) cos(4 2 ) 2 2 f k f k        e 1 1 1 2 0 0 0 0 0 0 1 1 1

sen (2 ) cos(4 2 ) cos(4 2 )

2 2 2 L L L k k k f k f k L f k                   _   _       _ _



,

expressão que, tendo em conta (7), se simplifica em 1 2 0 0 sen (2 ) 2 L k L f k





   



. Sendo assim, 2 2 ( ) 2 LA I   (10) 2 2 2 ( ) CRB LA   

A equação anterior condiz com o senso comum: é natural que a precisão da estimativa seja tanto maior (variância mínima menor) quanto mais amostras tivermos (L), maior for a potência do sinal (_A2 ₂_{) e menor for a potência do ruído AWGN (}

_

2_).

2.3.2.3. Estimação da frequência f0 (amplitude e fase conhecidas)

Começamos com 0 0 ( ) 2 sen(2 ) ds k Ak f k df      (11) 2 1 1 2 2 2 2 0 0 0 0 ( ) 4 sen (2 ) L L k k ds k A k f k df               



.

(6)

Poderíamos escrever já que o minorante CRB f( ₀) vale exactamente 2 2 0 ₂ ₁ 1 ₂ ₂ ₂ ₂ 0 0 0 0 ( ) ( ) ₄ L _{sen (2} ₎ L k k CRB f ds k _A _k _{f k} df              _    



(12)

mas vamos procurar uma aproximação. Fazendo como anteriormente somos levados a

1 1 1 2 2 2 2 0 0 0 0 0 1 1 sen (2 ) cos(4 2 ) 2 2 L L L k k k k



f k



k k



f k



         



.

No segundo membro o segundo somatório é muito menor que o primeiro,

1 1 2 2 0 0 0 cos(4 2 ) L L k k k



f k



k     



, que vale 1 2 0 ( 1)(2 1) 6 L k L L L k     



. Portanto, 1 2 2 0 0 ( 1)(2 1) sen (2 ) 12 L k L L L k



f k



     



e 2 2 0 ₂ ( 1)(2 1) ( ) 3 A L L L I f      (13) 2 0 ₂ ₂ 3 ( ) ( 1)(2 1) CRB f A L L L





   (14)

Na Fig. 1 compara-se o minorante exacto (12) com o minorante aproximado (14), para L = 50, A = 1, 2

1



 e  20º. Excepto nos extremos do gráfico, junto às frequências “proibidas” f0 = 0 e

f0 = 0,5, a aproximação está sempre muito próxima do valor exacto. Porém, aquela é muitíssimo mais fácil de calcular.

0 0.1 0.2 0.3 0.4 0.5 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4x 10 -6 freq C R B (f 0 ) 2 2 2 3 ( 1)(2 1) A L L L     2 2 0 1 ( ) L k ds k df        



CRB(f0) exacto CRB(f0) aproximado

Fig. 1. O minorante CRB(f0) exacto e a sua aproximação.

3

3 .

.

Estimação conjunta de vários parâmetros

Até ao momento lidámos apenas com a estimação de um parâmetro único. Se, pelo contrário, pretendermos estimar vários parâmetros ao mesmo tempo, quais são os minorantes de Cramér-Rao

(7)

associados? O que há a fazer é estender os conceitos apresentados no anterior caso, escalar, à nova situação, vectorial. Assim, na estimação de N parâmetros ₁, ₂, …, _i, …,_N vamos considerar os vectores-coluna de N elementos α _₁ _N_T e ˆ ˆ₁ ˆ T

N

 

 _ _

α e supor que estas estimativas são não-enviesadas. De acordo com [3], a variância do erro de estimação do parâmetro genérico _i, igual à variância da estimativa ˆ_i, nunca é inferior ao minorante de Cramér-Rao

( _i)

CRB . Este é o elemento ii da diagonal principal do inverso da matriz de informação de Fisher:

2 1

ˆ_i CRB( i) Iii ( )



 _  _  _α _.

A matriz de informação de Fisher é uma matriz quadrada N N e o elemento I_ij( )α da linha i e

coluna j é definido assim:

2 ln ( ) ln ( ) ( ) ln ( ) ij i j i j p p I E p E                 _            r α r α α r α

A estimação de parâmetros simples é o caso particular em que a matriz de informação de Fisher se reduz a um escalar.

A partir da matriz ( )I α relativa a α _₁ _N_T podemos obter a matriz associada a um vector com menos parâmetros. Por exemplo, se de α _ ₁ ₂ ₃_T se passar a α 



 ₁ ₂



T

basta eliminar a terceira linha e a terceira coluna da matriz ( )I α , e se se passar a α  _ ₁ ₃_T basta eliminar a segunda linha e a segunda coluna. Depois é só inverter a nova matriz ( )I α 2x2 e  olhar para a diagonal principal dessa inversa para encontrarmos os minorantes desejados. O caso escalar (um único parâmetro) também é abrangido: por exemplo, se quisermos conhecer CRB(_N) quando todos os outros parâmetros são conhecidos pegamos em ( )I α , eliminamos todas as linhas e colunas excepto a última, invertemos o escalar resultante e… pronto, já temos o que procuramos.

E Exxeemmpplloo11 Seja α _ ₁ ₂ ₃_T e 1 0, 2882 0,0441 0,0098 ( ) 0,0441 0, 2220 0,0049 0,0098 0,0049 0,0011 I        _ _     α . Determine CRB(₂) se 1 2 T     _ _ α . R.: Invertemos 1 ( )

I α para “regressarmos” à matriz de informação de Fisher e em seguida

retiramos a terceira linha e terceira coluna. Depois invertemos a matriz 2x2 resultante e encontramos CRB(₂) no segundo elemento da diagonal principal:

5 0 45 ( ) 0 5 22,5 45 22,5 1425 I     _  _      α  ( ) 5 0 0 5 I    _   α  1_{( )} 0, 2 0 0 0, 2 I    _   α

Assim, CRB(₂)0,2. Note-se a diminuição esperada do minorante (de 0,222 para 0,2) dado

(8)

3.1. Amostras de sinal em ruído gaussiano branco (AWGN)

Usando um procedimento idêntico ao da Sec. 2.3 chega-se à conclusão que, na presença de ruído AWGN, 1 2 0 1 ( ) ( ) ( ) L ij i j k s k s k I          



α . (15)

Vamos de novo exemplificar com os parâmetros de uma sinusóide e depois comparar os resultados com os apresentados antes.

3.1.1. Sinusóide em ruído AWGN

Tal como na Sec. 2.3.2, consideremos de novo L amostras reais ( )r k s k( )n k( ), com

0

( ) cos(2 )

s k A f k . Vamos obter os minorantes de Cramér-Rao em dois casos: 1) estimação conjunta da amplitude, fase e frequência da sinusóide; 2) estimação conjunta da amplitude e fase, admitindo que se conhece a frequência. Os vectores de parâmetros são, respectivamente,

0 T A  f  _ _ α e





T A   α .

3.1.1.1. Estimação conjunta da amplitude, da fase e da frequência

A matriz de informação de Fisher tem dimensões 3x3 e os seus elementos são dados pelas expressões seguintes, tendo em conta (6), (9) e (11):

2 1 11 ₂ ₂ 0 1 ( ) ( ) 2 L k ds k L I dA        _ _   



α 1 1 12 21 ₂ ₂ 0 0 0 0 1 0 2 0 1 ( ) ( ) ( ) ( ) cos(2 ) sen(2 ) sen(4 2 ) 0 2 L L k k L k s k s k A I I f k f k A A f k                               



α α 1 1 13 31 ₂ ₂ 0 0 0 0 0 1 0 2 0 1 ( ) ( ) 2 ( ) ( ) cos(2 ) sen(2 ) sen(4 2 ) 0 L L k k L k s k s k A I I k f k f k A f A k f k  _ _ _ _    _ _                      



α α 2 2 1 22 ₂ ₂ 0 1 ( ) ( ) 2 L k ds k LA I d        _ _   



α 2 1 1 2 23 32 ₂ ₂ 0 0 0 0 2 1 2 2 2 0 1 ( ) ( ) 2 ( ) ( ) sen (2 ) ( 1) 2 L L k k L k s k s k A I I k f k f A A L L k  _ _                         



α α 2 ₂ ₂ 1 33 ₂ ₂ 0 0 1 ( ) ( 1)(2 1) ( ) 3 L k ds k A L L L I df               



α

Os elementos I₁₁( )α , I₂₂( )α e I₃₃( )α decorrem imediatamente de (8), (10) e (13) e em I₂₃( )α a soma da progressão aritmética vale 1

0 ( 1) 2 L k L L k    



. Temos então

(9)

2 2 2 2 2 2 1 0 0 ( ) 0 ( 1) 2 2 ( 1)(2 1) 0 ( 1) 3 L I A A L A L L A L                    _      α (16) 2 1 2 2 2 2 2 2 1 0 0 2 2(2 1) 3 ( ) 0 ( 1) ( 1) 3 3 0 ( 1) ( 1) L I L A L A L A L A L             _ _          _     _ _    α (17) Portanto, 2 2 ( ) CRB A L   , 2 2 4 (2 1) ( ) ( 1) L CRB A L L





   e 2 0 ₂ ₂ ₂ 6 ( ) ( 1) CRB f A L L





  . Era de antecipar

que, devido aos termos cruzados fase-frequência não-nulos, os minorantes associados fossem mais elevados do que na estimação de parâmetros simples4_{, como são, de facto.}

3.1.1.2. Estimação conjunta da amplitude e da fase (com frequência conhecida)

Seja então α



A 



T. As matrizes 2x2 que interessam são 2 2 1 0 ( ) 0 2 L I A     _ _     α  1 2 2 1 0 2 ( ) 0 I L A       _ _     α ,

donde se conclui que CRB A( ) 2 2

L   e 2 2 2 ( ) CRB LA 

  , precisamente os valores que tínhamos obtido aquando da estimação de um único parâmetro. Isso acontece quando a estimação do parâmetro _i

não “interfere” na estimação de _j, e vice-versa, e, como tal, o elemento cruzado Iij( )α é nulo. E

Exxeemmpplloo22

Seja s k( )Acos(2f k₀ ), α _A  f₀_T, L100 e A221. Vamos determinar os

minorantes. Substituindo em (17) obtemos

1 4 4 7 0,02 0 0 ( ) 0 0,079 1,9.10 0 1,9.10 6,1.10 I            _      α ,

donde CRB A( )0,02, CRB( ) 0,079 e CRB f( ₀)6,1.107. Viu-se atrás que os minorantes CRB

na estimação de parâmetros simples valem, por sua vez,

2 2 ( ) 0,02 CRB A L    2 2 2 ( ) 0,02 CRB LA     2 7 0 2 2 3 ( ) 1,5.10 ( 1)(2 1) CRB f A L L L        .

(10)

Confirma-se que o limite inferior da variância das estimativas aumenta da estimação de parâmetros simples para a estimação multiparâmetros quando os termos cruzados da matriz de informação de Fisher não são nulos.

E

Exxeemmpplloo33

Dispomos de L amostras r k( )A₁cosw k₀ A₂senw k₀ n k( ). Desejando estimar as amplitudes e a

frequência angular de s(k), quais são os valores mínimos possíveis das variâncias de estimativas não-enviesadas conjuntas? Particularize para L20, A₁A₂1 e 21.

R.: Pretende-se conhecer CRB A( ₁), CRB A( ₂) e CRB w( ₀). Precisamos, primeiro, de determinar a

matriz de informação de Fisher I( ) , em que α _A₁ A₂ w₀_T, pelo que, de acordo com (15),

vamos necessitar das derivadas seguintes:

0 1 ( ) cos ds k w k dA  ₂ 0 ( ) sen ds k w k dA  ₀ 1 0 2 0 ( ) sen cos ds k A k w k A k w k dw    .

Recorrendo às expressões e aproximações adequadas facilmente se chega à matriz I( ) : 2 1 2 2 2 2 1 1 2 ( 1) 1 0 2 ( 1) ( ) 0 1 2 2 ( 1) ( 1) ( )( 1)(2 1) 2 2 3 A L L A L I A L A L A A L L             _  _                 α .

Substituindo os valores dados e invertendo a matriz obtemos

10 0 95 ( ) 0 10 95 95 95 4940 I     _  _      α  1 0,1288 0,0288 0,0030 ( ) 0,0288 0,1288 0,0030 0,0030 0,0030 0,0003 I        _ _     α

Portanto, CRB A( ₁)CRB A( ₂)0,1288 e CRB w( ₀)0,0003. Já era de contar que

1 2

( ) ( )

CRB A CRB A visto as amplitudes serem iguais. Se o não fossem a situação seria outra; por

exemplo, se A₁2 e A₂1 teríamos 10 0 95 ( ) 0 10 190 95 190 12350 I     _  _      α  1 0,1115 0,0230 0,0012 ( ) 0,0230 0,1461 0,0024 0,0012 0,0024 0,0001 I        _ _     α .

4

4 .

.

Referências

[1] Abrantes, S. A., “Os critérios de decisão MAP e ML”, série Resumindo e concluindo, FEUP, Janeiro de 2009.

Disponível online em http://www.fe.up.pt/si/publs_pesquisa.FormView?P_ID=24318.

[2] Abrantes, S. A., “Em busca da fase perdida”, série Resumindo e concluindo, FEUP, Fevereiro de 2009, disponível online em http://www.fe.up.pt/si/publs_pesquisa.FormView?P_ID=17220. [3] Van Trees, H., Detection, Estimation, and Modulation Theory, Part I, Wiley, 1968.