TeleTextos de bolso e de trazer por casa, suavemente, suavemente
O minorante de Cramér-Rao
Parte 1
© Sílvio A. Abrantes
Departamento de Engenharia Electrotécnica e de Computadores Faculdade de Engenharia, Universidade do Porto
Porto, Portugal [email protected] Julho de 2010
Conteúdo
1 1.. Introdução ... 1 2 2.. Estimação de parâmetros simples ... 22.1.O minorante de Cramér-Rao ... 2
2.2.A informação de Fisher ... 3
2.3.Amostras de sinal em ruído gaussiano branco (AWGN) ... 3
2.3.1. Constante imersa em ruído AWGN ... 4
2.3.2. Sinusóide em ruído AWGN ... 4
3 3.. Estimação conjunta de vários parâmetros ... 6
3.1.Amostras de sinal em ruído gaussiano branco (AWGN) ... 8
3.1.1. Sinusóide em ruído AWGN ... 8
4 4.. Referências ... 10
1
1
.
.
Introdução
Ao falar-se da estimação de parâmetros são habitualmente referidos os critérios da máxima verosimilhança (ML) e da máxima probabilidade a posteriori (MAP)1. Supondo que se deseja estimar o parâmetro a partir das observações consignadas num vector de amostras r, o critério da máxima verosimilhança assenta na procura do valor ˆML que maximiza a função de verosimilhança p
r :
ˆML arg maxp
r .
O critério MAP decide-se pela estimativa ˆMAP que maximiza a probabilidade a posteriori
p r :
ˆMAP arg maxp
r .
Portanto, consoante o critério de estimação assim se procura o máximo de p
r ou de
p r . É sabido que, em certas condições, os dois critérios de estimação são equivalentes. Por
exemplo, tratando-se da estimação dos símbolos enviados numa comunicação, as escolhas dos dois critérios são as mesmas se os símbolos forem equiprováveis.
A estimativa ˆ é uma variável aleatória. Idealmente o seu valor médio seria igual ao próprio parâmetro estimado e a sua variância seria nula, mas este último desejo não é possível de satisfazer. De facto, o valor médio até poderá ser igual ao parâmetro mas a variância será sempre superior ou igual a uma certa quantidade positiva, um valor mínimo designado por minorante de Cramér-Rao2.
Este TeleTexto não trata dos estimadores de parâmetros em si (assunto abordado em [1] e [2]); trata, sim, dos minorantes de Cramér-Rao, em particular os associados à estimação dos parâmetros de sinusóides mergulhadas em ruído gaussiano branco; outras diversas situações de interesse, como a recuperação da fase da portadora em modulações digitais, serão tratadas em TeleTexto posterior.
Consideraremos daqui para a frente que se usa o critério da máxima verosimilhança. Em primeiro lugar vamos lidar com a estimação de parâmetros simples, a situação, mais favorável, em que apenas um parâmetro vai ser estimado (porque todos os outros que existam são conhecidos); depois passaremos para a situação mais complicada de desejarmos estimar vários parâmetros desconhecidos ao mesmo tempo.
2
2
.
.
Estimação de parâmetros simples
Deseja-se estimar o parâmetro determinístico a partir de L amostras ( )r k , k0,1, ,L1. A
estimativa ˆ é uma variável aleatória e o erro de estimação ˆ também, com valor médio
ˆ ˆ
E E e variância igual à variância 2ˆ de ˆ :
2
2
2ˆ
ˆ ˆ ˆ ˆ ˆ
var( )E ( )E( ) E E( ) .
Se o valor médio da estimativa for igual ao parâmetro a estimar, E( )ˆ , a estimativa diz-se não-enviesada. Nesse caso a média do erro de estimação é nula, E ˆ 0.
2.1. O minorante de Cramér-Rao
Seja p(r) a verosimilhança do vector de amostras r
r(0) r(1) r L( 1)
e ln (pr) asua log-verosimilhança. Admitindo que a primeira e a segunda derivada de ln (pr) existem e são
absolutamente integráveis, o valor quadrático médio do erro de estimação de não pode ser inferior a uma certa quantidade mínima, aqui expressa de duas maneiras equivalentes [3]:
2 2 2 2 2 2 ˆ ˆ ( ) ( ) ˆ ( ) ln ( ) ln ( ) d E d E d d E d d E p E p d d r r .
Se a estimativa for não-enviesada os numeradores valem 1, porque dE( )ˆ 1 d
, e E( ˆ )2 é
igual à variância da própria estimativa ˆ , porque 2
2 2 ˆ ˆ ˆ ˆ ( ) E EE . Assim, 2 ˆ fica limitada inferiormente pelo minorante de Cramér-Rao, CRB( ) [4]:
2 ˆ 2 2 2 1 1 ( ) ln ( ) ln ( ) CRB d d E p E p d d r r .
Deseja-se, naturalmente, que a variância 2 ˆ
seja a menor possível: quanto mais próxima de ( )
CRB estiver, melhor. Se a variância atingir o valor mínimo possível, isto é, se 2ˆ CRB( ) , a
estimativa diz-se eficiente. Sabe-se que, se uma estimativa for eficiente, essa é, de certeza, a estimativa de máxima verosimilhança [3].
2.2. A informação de Fisher
Ao valor médio do quadrado da derivada da log-verosimilhança em ordem a chama-se informação de Fisher3: 2 ln ( ) ( ) d p I E d r . (1)
Alternativamente podemos escrever
2 2 ln ( ) ( ) d p I E d r . (2)
Logo, com estimadores não-enviesados o minorante de Cramér-Rao é o inverso da informação de Fisher: 1 ( ) ( ) CRB I . (3)
2.3. Amostras de sinal em ruído gaussiano branco (AWGN)
As situações que envolvem ruído branco gaussiano aditivo (AWGN) são muito comuns. Vamos ver que, nesse contexto, as equações (1) e (2) se simplificam razoavelmente.
Suponhamos que ( )r k s k( )n k( ), em que r(k) representa a k-ésima amostra observada, s(k) é uma amostra de sinal determinístico que contém um parâmetro real não-aleatório desconhecido, , e n(k) é uma amostra de ruído AWGN de média nula e variância
2. Queremos determinar ainformação de Fisher e o minorante de Cramér-Rao quando a estimativa de não é enviesada. Como as amostras de ruído são independentes, a verosimilhança e a log-verosimilhança de r escrevem-se, respectivamente,
1 1 2 2 2 2 0 0 1 1 ( ) ( ( ) ) exp ( ) ( ) 2 2 L L L k k p p r k r k s k
r
1 2 2 2 2 0 1 1 ln ( ) ln ( ) ( ) 2 2 L L k p r k s k
rPartindo da segunda derivada de ln (pr),
2 2 1 2 2 2 2 0 1 ( ) ( ) ln ( ) ( ) ( ) L k d d s k ds k p r k s k d d d
r ,obtemos o valor médio (em r)
2 2 1 2 1 2 2 2 2 0 0 ( ) 2 2 2 1 1 1 2 2 2 2 0 0 0 0 1 ( ) 1 ( ) ln ( ) ( ) ( ) 1 ( ) 1 ( ) 1 ( ) ( ) L L k k n k L L L k k k d d s k ds k E p E r k s k d d d d s k ds k ds k E n k d d d
rTendo em conta (2) e (3) chegamos imediatamente a ( )I e a CRB( ) :
2 1 2 0 1 ( ) ( ) L k ds k I d
(4) 2 2 1 0 ( ) ( ) L k CRB ds k d
(5)Esta é uma conclusão interessante: na presença de ruído gaussiano não precisamos de derivar a log-verosimilhança ln (pr), bastando derivar o sinal que contém o parâmetro a estimar.
Seguem-se alguns casos especiais de cálculo da informação de Fisher e do minorante CRB. 2.3.1. Constante imersa em ruído AWGN
Seja ( )s k A. Como ds k( ) 1 dA , então 2 ( ) L I A 2 1 ( ) ( ) CRB A I A L .
2.3.2. Sinusóide em ruído AWGN
Suponhamos que s k( )Acos(2 f k0 ). Os parâmetros desta sinusóide são a amplitude A, a fase e a frequência f0. Vamos determinar sucessivamente CRB A , ( ) CRB( ) e CRB f( 0), para o
que precisaremos de ds k( ) dA , ( ) ds k d e 0 ( ) ds k df , respectivamente. 2.3.2.1. Estimação da amplitude A (frequência e fase conhecidas)
A partir de 0 ( ) cos(2 ) ds k f k dA (6) obtemos 2 1 1 2 0 0 0 ( ) cos (2 ) L L k k ds k f k dA
. Como 2 0 0 1 1 cos (2 ) cos(4 2 ) 2 2 f k f k então1 1 1 2
0 0 0
0 0 0
1 1 1
cos (2 ) cos(4 2 ) cos(4 2 )
2 2 2 L L L k k k f k f k L f k
. Mas 1 0 0 cos(4 2 ) L k f k L
, se f00 ou f00,5, (7) e, portanto, 1 2 0 0 cos (2 ) 2 L k L f k
e 2 ( ) 2 L I A (8) 2 2 ( ) CRB A L 2.3.2.2. Estimação da fase (amplitude e frequência conhecidas) Agora é 0 ( ) sen(2 ) ds k A f k d (9) 2 1 1 2 2 0 0 0 ( ) sen (2 ) L L k k ds k A f k d
. Mas 2 0 0 1 1 sen (2 ) cos(4 2 ) 2 2 f k f k e 1 1 1 2 0 0 0 0 0 0 1 1 1sen (2 ) cos(4 2 ) cos(4 2 )
2 2 2 L L L k k k f k f k L f k
,expressão que, tendo em conta (7), se simplifica em 1 2 0 0 sen (2 ) 2 L k L f k
. Sendo assim, 2 2 ( ) 2 LA I (10) 2 2 2 ( ) CRB LA A equação anterior condiz com o senso comum: é natural que a precisão da estimativa seja tanto maior (variância mínima menor) quanto mais amostras tivermos (L), maior for a potência do sinal (A2 2) e menor for a potência do ruído AWGN (
2).2.3.2.3. Estimação da frequência f0 (amplitude e fase conhecidas)
Começamos com 0 0 ( ) 2 sen(2 ) ds k Ak f k df (11) 2 1 1 2 2 2 2 0 0 0 0 ( ) 4 sen (2 ) L L k k ds k A k f k df
.Poderíamos escrever já que o minorante CRB f( 0) vale exactamente 2 2 0 2 1 1 2 2 2 2 0 0 0 0 ( ) ( ) 4 L sen (2 ) L k k CRB f ds k A k f k df
(12)mas vamos procurar uma aproximação. Fazendo como anteriormente somos levados a
1 1 1 2 2 2 2 0 0 0 0 0 1 1 sen (2 ) cos(4 2 ) 2 2 L L L k k k k
f k
k k
f k
.No segundo membro o segundo somatório é muito menor que o primeiro,
1 1 2 2 0 0 0 cos(4 2 ) L L k k k
f k
k
, que vale 1 2 0 ( 1)(2 1) 6 L k L L L k
. Portanto, 1 2 2 0 0 ( 1)(2 1) sen (2 ) 12 L k L L L k
f k
e 2 2 0 2 ( 1)(2 1) ( ) 3 A L L L I f (13) 2 0 2 2 3 ( ) ( 1)(2 1) CRB f A L L L
(14)Na Fig. 1 compara-se o minorante exacto (12) com o minorante aproximado (14), para L = 50, A = 1, 2
1
e 20º. Excepto nos extremos do gráfico, junto às frequências “proibidas” f0 = 0 ef0 = 0,5, a aproximação está sempre muito próxima do valor exacto. Porém, aquela é muitíssimo mais fácil de calcular.
0 0.1 0.2 0.3 0.4 0.5 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4x 10 -6 freq C R B (f 0 ) 2 2 2 3 ( 1)(2 1) A L L L 2 2 0 1 ( ) L k ds k df
CRB(f0) exacto CRB(f0) aproximadoFig. 1. O minorante CRB(f0) exacto e a sua aproximação.
3
3
.
.
Estimação conjunta de vários parâmetros
Até ao momento lidámos apenas com a estimação de um parâmetro único. Se, pelo contrário, pretendermos estimar vários parâmetros ao mesmo tempo, quais são os minorantes de Cramér-Rao
associados? O que há a fazer é estender os conceitos apresentados no anterior caso, escalar, à nova situação, vectorial. Assim, na estimação de N parâmetros 1, 2, …, i, …,N vamos considerar os vectores-coluna de N elementos α 1 NT e ˆ ˆ1 ˆ T
N
α e supor que estas estimativas são não-enviesadas. De acordo com [3], a variância do erro de estimação do parâmetro genérico i, igual à variância da estimativa ˆi, nunca é inferior ao minorante de Cramér-Rao
( i)
CRB . Este é o elemento ii da diagonal principal do inverso da matriz de informação de Fisher:
2 1
ˆi CRB( i) Iii ( )
α .
A matriz de informação de Fisher é uma matriz quadrada N N e o elemento Iij( )α da linha i e
coluna j é definido assim:
2 ln ( ) ln ( ) ( ) ln ( ) ij i j i j p p I E p E r α r α α r α
A estimação de parâmetros simples é o caso particular em que a matriz de informação de Fisher se reduz a um escalar.
A partir da matriz ( )I α relativa a α 1 NT podemos obter a matriz associada a um vector com menos parâmetros. Por exemplo, se de α 1 2 3T se passar a α
1 2
Tbasta eliminar a terceira linha e a terceira coluna da matriz ( )I α , e se se passar a α 1 3T basta eliminar a segunda linha e a segunda coluna. Depois é só inverter a nova matriz ( )I α 2x2 e olhar para a diagonal principal dessa inversa para encontrarmos os minorantes desejados. O caso escalar (um único parâmetro) também é abrangido: por exemplo, se quisermos conhecer CRB(N) quando todos os outros parâmetros são conhecidos pegamos em ( )I α , eliminamos todas as linhas e colunas excepto a última, invertemos o escalar resultante e… pronto, já temos o que procuramos.
E Exxeemmpplloo11 Seja α 1 2 3T e 1 0, 2882 0,0441 0,0098 ( ) 0,0441 0, 2220 0,0049 0,0098 0,0049 0,0011 I α . Determine CRB(2) se 1 2 T α . R.: Invertemos 1 ( )
I α para “regressarmos” à matriz de informação de Fisher e em seguida
retiramos a terceira linha e terceira coluna. Depois invertemos a matriz 2x2 resultante e encontramos CRB(2) no segundo elemento da diagonal principal:
5 0 45 ( ) 0 5 22,5 45 22,5 1425 I α ( ) 5 0 0 5 I α 1( ) 0, 2 0 0 0, 2 I α
Assim, CRB(2)0,2. Note-se a diminuição esperada do minorante (de 0,222 para 0,2) dado
3.1. Amostras de sinal em ruído gaussiano branco (AWGN)
Usando um procedimento idêntico ao da Sec. 2.3 chega-se à conclusão que, na presença de ruído AWGN, 1 2 0 1 ( ) ( ) ( ) L ij i j k s k s k I
α . (15)Vamos de novo exemplificar com os parâmetros de uma sinusóide e depois comparar os resultados com os apresentados antes.
3.1.1. Sinusóide em ruído AWGN
Tal como na Sec. 2.3.2, consideremos de novo L amostras reais ( )r k s k( )n k( ), com
0
( ) cos(2 )
s k A f k . Vamos obter os minorantes de Cramér-Rao em dois casos: 1) estimação conjunta da amplitude, fase e frequência da sinusóide; 2) estimação conjunta da amplitude e fase, admitindo que se conhece a frequência. Os vectores de parâmetros são, respectivamente,
0 T A f α e
T A α .3.1.1.1. Estimação conjunta da amplitude, da fase e da frequência
A matriz de informação de Fisher tem dimensões 3x3 e os seus elementos são dados pelas expressões seguintes, tendo em conta (6), (9) e (11):
2 1 11 2 2 0 1 ( ) ( ) 2 L k ds k L I dA
α 1 1 12 21 2 2 0 0 0 0 1 0 2 0 1 ( ) ( ) ( ) ( ) cos(2 ) sen(2 ) sen(4 2 ) 0 2 L L k k L k s k s k A I I f k f k A A f k
α α 1 1 13 31 2 2 0 0 0 0 0 1 0 2 0 1 ( ) ( ) 2 ( ) ( ) cos(2 ) sen(2 ) sen(4 2 ) 0 L L k k L k s k s k A I I k f k f k A f A k f k
α α 2 2 1 22 2 2 0 1 ( ) ( ) 2 L k ds k LA I d
α 2 1 1 2 23 32 2 2 0 0 0 0 2 1 2 2 2 0 1 ( ) ( ) 2 ( ) ( ) sen (2 ) ( 1) 2 L L k k L k s k s k A I I k f k f A A L L k
α α 2 2 2 1 33 2 2 0 0 1 ( ) ( 1)(2 1) ( ) 3 L k ds k A L L L I df
αOs elementos I11( )α , I22( )α e I33( )α decorrem imediatamente de (8), (10) e (13) e em I23( )α a soma da progressão aritmética vale 1
0 ( 1) 2 L k L L k
. Temos então2 2 2 2 2 2 1 0 0 ( ) 0 ( 1) 2 2 ( 1)(2 1) 0 ( 1) 3 L I A A L A L L A L α (16) 2 1 2 2 2 2 2 2 1 0 0 2 2(2 1) 3 ( ) 0 ( 1) ( 1) 3 3 0 ( 1) ( 1) L I L A L A L A L A L α (17) Portanto, 2 2 ( ) CRB A L , 2 2 4 (2 1) ( ) ( 1) L CRB A L L
e 2 0 2 2 2 6 ( ) ( 1) CRB f A L L
. Era de anteciparque, devido aos termos cruzados fase-frequência não-nulos, os minorantes associados fossem mais elevados do que na estimação de parâmetros simples4, como são, de facto.
3.1.1.2. Estimação conjunta da amplitude e da fase (com frequência conhecida)
Seja então α
A
T. As matrizes 2x2 que interessam são 2 2 1 0 ( ) 0 2 L I A α 1 2 2 1 0 2 ( ) 0 I L A α ,donde se conclui que CRB A( ) 2 2
L e 2 2 2 ( ) CRB LA
, precisamente os valores que tínhamos obtido aquando da estimação de um único parâmetro. Isso acontece quando a estimação do parâmetro i
não “interfere” na estimação de j, e vice-versa, e, como tal, o elemento cruzado Iij( )α é nulo. E
Exxeemmpplloo22
Seja s k( )Acos(2f k0 ), α A f0T, L100 e A221. Vamos determinar os
minorantes. Substituindo em (17) obtemos
1 4 4 7 0,02 0 0 ( ) 0 0,079 1,9.10 0 1,9.10 6,1.10 I α ,
donde CRB A( )0,02, CRB( ) 0,079 e CRB f( 0)6,1.107. Viu-se atrás que os minorantes CRB
na estimação de parâmetros simples valem, por sua vez,
2 2 ( ) 0,02 CRB A L 2 2 2 ( ) 0,02 CRB LA 2 7 0 2 2 3 ( ) 1,5.10 ( 1)(2 1) CRB f A L L L .
Confirma-se que o limite inferior da variância das estimativas aumenta da estimação de parâmetros simples para a estimação multiparâmetros quando os termos cruzados da matriz de informação de Fisher não são nulos.
E
Exxeemmpplloo33
Dispomos de L amostras r k( )A1cosw k0 A2senw k0 n k( ). Desejando estimar as amplitudes e a
frequência angular de s(k), quais são os valores mínimos possíveis das variâncias de estimativas não-enviesadas conjuntas? Particularize para L20, A1A21 e 21.
R.: Pretende-se conhecer CRB A( 1), CRB A( 2) e CRB w( 0). Precisamos, primeiro, de determinar a
matriz de informação de Fisher I( ) , em que α A1 A2 w0T, pelo que, de acordo com (15),
vamos necessitar das derivadas seguintes:
0 1 ( ) cos ds k w k dA 2 0 ( ) sen ds k w k dA 0 1 0 2 0 ( ) sen cos ds k A k w k A k w k dw .
Recorrendo às expressões e aproximações adequadas facilmente se chega à matriz I( ) : 2 1 2 2 2 2 1 1 2 ( 1) 1 0 2 ( 1) ( ) 0 1 2 2 ( 1) ( 1) ( )( 1)(2 1) 2 2 3 A L L A L I A L A L A A L L α .
Substituindo os valores dados e invertendo a matriz obtemos
10 0 95 ( ) 0 10 95 95 95 4940 I α 1 0,1288 0,0288 0,0030 ( ) 0,0288 0,1288 0,0030 0,0030 0,0030 0,0003 I α
Portanto, CRB A( 1)CRB A( 2)0,1288 e CRB w( 0)0,0003. Já era de contar que
1 2
( ) ( )
CRB A CRB A visto as amplitudes serem iguais. Se o não fossem a situação seria outra; por
exemplo, se A12 e A21 teríamos 10 0 95 ( ) 0 10 190 95 190 12350 I α 1 0,1115 0,0230 0,0012 ( ) 0,0230 0,1461 0,0024 0,0012 0,0024 0,0001 I α .
4
4
.
.
Referências
[1] Abrantes, S. A., “Os critérios de decisão MAP e ML”, série Resumindo e concluindo, FEUP, Janeiro de 2009.
Disponível online em http://www.fe.up.pt/si/publs_pesquisa.FormView?P_ID=24318.
[2] Abrantes, S. A., “Em busca da fase perdida”, série Resumindo e concluindo, FEUP, Fevereiro de 2009, disponível online em http://www.fe.up.pt/si/publs_pesquisa.FormView?P_ID=17220. [3] Van Trees, H., Detection, Estimation, and Modulation Theory, Part I, Wiley, 1968.