Teoria da Informa¸c˜ao
Charles Casimiro Cavalcante
charles@gtel.ufc.br
Grupo de Pesquisa em Telecomunica¸ c˜ oes Sem Fio – GTEL Programa de P´ os-Gradua¸ c˜ ao em Engenharia de Teleinform´ atica
Universidade Federal do Cear´ a – UFC
http://www.gtel.ufc.br/ ∼ charles
“A principal fun¸c˜ ao de um sistema de comunica¸c˜ ao ´e reproduzir, exatamente ou de forma aproximada, uma informa¸c˜ ao proveniente de outro ponto diferente.”
Claude Shannon, 1948
Conte´udo do curso
1
Revis˜ ao de probabilidade
2
Informa¸c˜ ao e Entropia
3
Codifica¸c˜ ao de fontes
4
Codifica¸c˜ ao e capacidade de canal
5
Complexidade de Kolmogorov
6
Fun¸c˜ oes de otimiza¸c˜ ao
7
Independent Component Analysis
Parte II
Informa¸c˜ao e Entropia
O que ´e informa¸c˜ao?
Medida da quantidade de incerteza de um processo que ocorre com alguma probabilidade
Defini¸c˜ ao de Shannon, 1948 Ferramentas probabil´ısticas Contexto
Fonte discreta
Alfabeto finito: A = { a
0, a
1, · · · , a
K−1} Probabilidades: Pr(A = a
k) = p
kem que
K
P
−1 k=0p
k= 1
Defini¸c˜ao
Informa¸c˜ ao
I (a k ) = log α 1
Pr(a k )
= log α 1
p k
= − log α (p k )
(23)
Unidade da informa¸c˜ ao depende da base α, e.g.
1
α = 2 ⇒ informa¸c˜ao em bits
2
α = e ⇒ informa¸c˜ao em nats
O que mede a informa¸c˜ao?
De uma forma mais informal, informa¸c˜ ao ´e a surpresa da ocorrˆencia de um evento
Quanto mais surpresa (incerteza) mais informa¸c˜ ao e, de forma
contr´ aria, quanto menos incerteza menos informa¸c˜ ao
Propriedades da informa¸c˜ao
1
I (a k ) = 0 se p k = 1
2
I (a k ) ≥ 0 para 0 ≤ p k ≤ 1
Nunca h´ a perda de informa¸c˜ ao!
3
I (a k ) > I (a i ) para p k < p i
4
I (a k a i ) = I (a k ) + I (a i ) se a k e a i s˜ ao estatisticamente
independentes
Quantidade de informa¸c˜ao
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 1 2 3 4 5 6 7 8 9 10
Bits Nats
Probabilidade de ocorrˆencia
Q u an ti d ad e d e in fo rm a¸c ˜ao
Informa¸c˜ao pontual e informa¸c˜ao m´edia
Pode-se desejar ent˜ ao calcular a quantidade m´edia de informa¸c˜ ao de uma fonte A
A essa m´edia da informa¸c˜ ao denomina-se entropia H (A) =
K X − 1 k=0
p k · I (a k )
= −
K X − 1 k=0
p k · log α (p k )
(24)
A entropia mede a quantidade de informa¸c˜ ao m´edia por
s´ımbolo da fonte
Propriedades da entropia
0 ≤ H (A) ≤ log α (K) (25)
H (A) = 0 se e somente se a probabilidade de ocorrˆencia p k de um certo evento a k for p k = 1 e todas as demais forem iguais ` a zero. Neste ponto n˜ ao existe nenhuma incerteza e conseq¨ uentemente a entropia ´e m´ınima.
H (A) = log α (K) se e somente se as probabilidades de todos os eventos a k forem iguais, ou seja, os eventos forem
eq¨ uiprov´ aveis p k = K 1
.
Entropia de uma fonte bin´aria
Seja uma fonte bin´ aria com p 0 e p 1 as probabilidades dos s´ımbolos a 0 e a 1 . A entropia ´e dada por:
H (A) = − p 0 log α (p 0 ) − p 1 log α (p 1 )
= − p 0 log α (p 0 ) − (1 − p 0 ) log α (1 − p 0 )
Entropia de uma fonte bin´aria - gr´afico H (p 0 ) × p 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1
Probabilidade de ocorrˆencia (p
0)
E n tr o p ia H ( p
0)
Entropia - observa¸c˜oes
A entropia pode ainda ser representada matematicamente como
H (A) = −
E{ log(p A (a)) } , (26) em que p A (a) ´e a fun¸c˜ ao de densidade de probabilidade de A.
O que a entropia fornece ´e a de quanto de informa¸c˜ ao h´ a, em
m´edia, num determinado s´ımbolo de uma fonte. Isto ser´ a de
grande interesse no projeto de codificadores de fonte.
Entropia conjunta
At´e o momento foi vista a entropia de uma ´ unica vari´ avel aleat´ oria
Estendendo o conceito para duas vari´ aveis tem-se novas defini¸c˜ oes
Entropia conjunta
H (A, B) = − X
a ∈A
X
b ∈B
p(a, b) log[p A,B (a, b)]
= −
E{ log[p A,B (a, b)] }
(27)
Fornece a quantidade de informa¸c˜ ao m´edia na ocorrˆencia de
duas v.a.
Entropia condicional
Entropia condicional H (A | B) = X
b ∈B
p B (b) · H (A | B = b)
= − X
b ∈B
p B (b) X
a ∈A
p A | B (a | b) log[p A | B (a | b)]
= − X
b ∈B
X
a ∈A
p A,B (a, b) log[p A | B (a | b)]
= −
Elog[p A | B (a | b)]
(28)
Medida da quantidade m´edia de informa¸c˜ ao de uma v.a. dada
a ocorrˆencia de outra
Entropia - Rela¸c˜oes importantes
1
Regra da cadeia
H (A, B) = H (A) + H (B | A) (29) A entropia de um par de vari´ aveis ´e igual a entropia de uma mais a entropia condicional.
2
Corol´ ario da regra da cadeia
H (A, B | C) = H (A | C) + H (B | A, C), (30)
Entropia relativa
Entropia relativa: ´e a medida de “distˆ ancia” entre duas distribui¸c˜ oes. Pode ser entendido como uma medida de ineficiˆencia de assumir que uma v.a. tem distribui¸c˜ ao p(x) quando a verdadeira distribui¸c˜ ao ´e g(x).
D(p k g) = X
x ∈X
p(x) · log p(x)
g(x)
=
Ep(x)
log p(x)
g(x)
(31)
A Equa¸c˜ ao (31) ´e tamb´em conhecida como Divergˆ encia de
Kullback-Leibler (KLD) ou ainda entropia cruzada
Entropia relativa
Propriedades
1
´e sempre de valor positivo ou zero; KLD ´e zero para o caso espec´ıfico de p x (x) = g x (x).
2
´e invariante com rela¸c˜ ao ` as seguintes mudan¸cas nos componentes do vetor x;
permuta¸c˜ao de ordem escalonamento de amplitude
transforma¸c˜ao monotˆonica n˜ao-linear
3
n˜ ao ´e uma distˆ ancia no espa¸co euclidiano pois D(p k g) 6 = D(g k p)
4
´e uma distˆ ancia no espa¸co das distribui¸c˜ oes de probabilidade
(espa¸co de Riemann)
Informa¸c˜ao m´utua
Defini¸c˜ ao: para duas vari´aveis aleat´ orias A e B, a
informa¸c˜ ao m´ utua ´e a entropia relativa entre a distribui¸c˜ ao conjunta de A e B e o produto das distribui¸c˜ oes marginais.
I (A, B) = X
a ∈A
X
b ∈B
p A,B (a, b) log
p A,B (a, b) p A (a)p B (b)
= D (p A,B (a, b) k p A (a)p B (b))
=
EA,B
log
p A,B (a, b) p A (a)p B (b)
(32)
Informa¸c˜ao m´utua e entropia - rela¸c˜oes importantes
1
Redu¸c˜ ao da incerteza de A devido ao conhecimento de B I (A, B) = H (A) − H (A | B) (33)
2
Simetria da rela¸c˜ao 1
I (A, B) = H (B) − H (B | A) (34)
3
Soma de entropias
I (A, B) = H (A) + H (B) − H (A, B) (35)
4
Auto-informa¸c˜ ao m´ utua
I (A, A) = H (A) − H (A | A) = H (A) (36)
Informa¸c˜ao m´utua e entropia - rela¸c˜oes importantes
H (A, B)
H (A) H (B) I (A, B)
H (A | B) H (B | A)
Extens˜ao de uma fonte discreta sem mem´oria
Utiliza¸c˜ ao de blocos de dados, cada bloco com n s´ımbolos da fonte
Cada bloco pode ser entendido como sendo produzido por uma fonte estendida
Alfabeto A n com K n blocos distintos, com K o n´ umero de s´ımbolos na fonte original
Considerando que os s´ımbolos da fonte s˜ ao estatisticamente independentes
P (s[A n ]) = Y n i=1
P (s i [A]) (37) Da´ı, podemos escrever ent˜ ao
H (A n ) = n · H (A) (38)
Defini¸c˜oes importantes
Informa¸c˜ ao condicional m´ utua de v.a. X e Y dado Z I (X, Y | Z) = H (X | Z ) − H (X | Y, Z)
=
Ep(x,y,z)
log
p(X, Y | Z ) P (X | Z )p(Y | Z )
(39)
Entropia relativa condicional D (p(y | x) k q(y | x)) = X
x
p(x) X
y
p(y | x) log
p(y | x) q(y | x)
=
EX,Y
log
p(y | x) q(y | x)
(40)
Vari´aveis cont´ınuas
Entropia
H (A) = − Z ∞
−∞
p A (a) log (p A (a)) da (41)
Divergˆencia de Kullback-Leibler D(p k q) =
Z ∞
−∞
p(x) log p(x)
q(x)
dx (42)
Nota: Vamos estudar mais detalhes destas grandezas a seguir!
Entropia diferencial
Embora a entropia definida por Shannon seja aplicada ao caso discreto, podemos expandir o conceito para vari´ aveis cont´ınuas A semelhan¸ca entre os casos discreto e cont´ınuo ´e bastante grande, mas algumas diferen¸cas s˜ ao importantes e o uso de tal conceito merece cuidado
Quando as vari´ aveis s˜ ao cont´ınuas a entropia recebe o nome
de entropia diferencial
Entropia diferencial - cont.
Defini¸c˜ ao
A entropia diferencial H (X) de uma vari´ avel aleat´ oria cont´ınua X com densidade de probabilidade p X (x) ´e definida por
H (X) = − Z
S
p X (x) · log [p X (x)] dx (43) em que S ´e o conjunto suporte da v.a.
Como no caso discreto, a entropia diferencial s´ o depende da densidade de probabilidade, sendo por vezes escrita como H [p X (x)] ao inv´es de H (X)
Lembrete: como em qualquer problema envolvendo integral
ou densidade de probabilidade, n´ os precisamos garantir que
elas existem.
Entropia diferencial - cont.
Exemplo - Distribui¸c˜ ao uniforme
Seja uma v.a. distribu´ıda uniformemente entre 0 e a, ent˜ ao sua densidade ´e 1/a entre 0 a a e 0 caso contr´ ario. Ent˜ ao sua entropia diferencial ´e
H (X) = − Z a 0
1 a · log
1 a
dx = log(a) (44)
Note que, para a < 1, temos log(a) < 0 e a entropia diferencial ´e negativa. Da´ı ao contr´ ario da entropia discreta, a entropia
diferencial pode ser negativa. Entretanto, 2 H (X) = 2 log(a) = a ´e o
volume do conjunto suporte, o qual ´e sempre n˜ ao-negativo, como
esperado.
Entropia diferencial - cont.
Exemplo - Distribui¸c˜ ao normal
Seja X ∼ N (0, σ 2 ) em que denotamos p X (x) = φ(x). Ent˜ ao, calculando a entropia diferencial em nats, temos
H [p X (x)] = − Z
φ(x) ln[φ(x)] dx
= − Z
φ(x)
− x 2
2σ 2 − ln( √ 2πσ 2 )
dx
= E { X 2 } 2σ 2 + 1
2 ln(2πσ 2 )
= 1 2 + 1
2 ln(2πσ 2 )
= 1
2 ln(e) + 1
2 ln(2πσ 2 )
= 1
ln(2πeσ 2 ) nats
(45)
Entropia diferencial - cont.
Entropia diferencial conjunta
Defini¸c˜ ao
Seja um conjunto de N v.a. X 1 , X 2 , . . . , X N com densidade p X (x) = p X (x 1 , x 2 , . . . , x N ), a entropia diferencial ´e definida como
H [p X (x)] = − Z
p X (x) · log [p X (x)] dx
= − Z Z
· · · Z
p X
1,X
2,...,X
N(x 1 , x 2 , . . . , x N ) ·
· log [p X
1,X
2,...,X
N(x 1 , x 2 , . . . , x N )] dx 1 dx 2 . . . dx N
(46)
Entropia diferencial - cont.
Entropia diferencial condicional
Defini¸c˜ ao
Se X, Y tˆem uma fun¸c˜ ao de densidade conjunta p X,Y (x, y), podemos definir a entropia diferencial condicional H (X | Y ) como
H (X | Y ) = − Z Z
p X,Y (x, y) · log
p X | Y (x | y)
dx dy (47) Uma vez que em geral p X | Y (x | y) = p X,Y (x, y)/p Y (y), podemos tamb´em escrever
H (X | Y ) = H (X, Y ) − H (Y ) (48)
Deve-se entretanto garantir que nenhuma das entropias diferenciais
seja infinita.
Regras da cadeia
Entropia
H (A 1 , A 2 , · · · , A n ) = X n i=1
H (A i | A i − 1 , A i − 2 , · · · , A 1 ) (49)
Informa¸c˜ ao m´ utua
I (A 1 , A 2 , · · · , A n ; B ) = X n i=1
I (A i ; B | A i − 1 , A i − 2 , · · · , A 1 ) (50)
Entropia relativa
D (p
A,B(a, b) k q
A,B(a, b)) = D (p
A(a) k q
A(a))+ D p
B|A(b | a) k q
B|A(b | a)
Entropia diferencial - cont.
Propriedades da entropia diferencial, entropia relativa e informa¸c˜ ao m´ utua
1
D(p k g) ≥ 0
2
I (X, Y ) ≥ 0 com igualdade se mantendo se e somente se X e Y s˜ ao independentes
3
H (X | Y ) ≤ H (X), com igualdade se mantendo se e somente se X e Y s˜ ao independentes
4
H (X + c) = H (X) - transla¸c˜ ao n˜ ao altera entropia
5
H (cX) = H (X) + log( | c | )
6
Para vetores e matrizes temos: H ( C X) = H (X) + log( | C | ),
em que | C | ´e o determinante da matrix C
Entropia diferencial - cont.
Decomposi¸c˜ ao Pitag´ orica
Seja um vetor de N amostras aleat´ orias X formado de amostras independentes, ou seja,
p X (x) = Y N i=1
p X
i(x i ) (52) e seja um vetor Y definido em termos de x como Y = A X, em que A ´e uma matriz n˜ ao-diagonal. Seja p e Y
i(y i ) a densidade de probabilidade marginal de cada Y i derivada a partir de p Y (y).
Ent˜ ao, a KLD entre p X (x) e p Y (y) admite a seguinte decomposi¸c˜ ao Pitag´ orica
D(p Y || p X ) = D(p Y ||e p X ) + D( e p Y || p X ) (53)
Entropia diferencial - cont.
Inequa¸c˜ ao de Jensen
Deriva da seguinte f´ ormula de fun¸c˜ ao convexa
f (λx 1 + (1 − λ)x 2 ) ≤ λf(x 1 ) + (1 − λ)f (x 2 ) (54) Exemplo de fun¸c˜ oes convexas: x 2 , | x | , e x , x log(x) para x ≥ 0, etc
Inequa¸c˜ao de Jensen
E
{ f (X) } ≥ f (
E{ X } ) (55)
Entropia diferencial - cont.
Prova do m´ınimo da KLD
Deseja-se provar que D(p k q) ≥ 0, ent˜ ao tem-se
− D(p k q) = − X
x
p(x) · log p(x)
q(x)
= X
x
p(x) · log q(x)
p(x)
Utilizando a inequa¸c˜ ao de Jensen X
x
p(x) · log q(x)
p(x)
≤ log X
x
p(x) · q(x)
p(x)
!
log X
x
p(x) · q(x)
p(x)
!
= log X
x
q(x)
!
= log(1)
Outras defini¸c˜oes de entropia
Entropia de R´enyi
A entropia de R´enyi, uma generaliza¸c˜ ao da entropia de Shannon, ´e uma fam´ılia de funcionais para quantifica¸c˜ ao da diversidade, incerteza ou aleatoriedade de um sistema.
Defini¸c˜ ao
A entropia de R´enyi de ordem α, para α > 0 ´e definida como
H α (X) = 1 1 − α log
N X − 1 i=0
p α i
!
(56) em que p i ´e a probabilidade do evento i.
Uma importante propriedade, ´e que se os eventos forem
equiprov´ aveis, ent˜ ao todas as entropias de R´enyi (para qualquer α)
s˜ ao iguais para a distribui¸c˜ ao com H α (X) = log(N ). Caso
Outras defini¸c˜oes de entropia - cont.
Entropia de R´enyi - cont.
Alguns casos particulares
1
H 0 (X) = log(N ) - ´e tamb´em chamada de entropia de Hartley
2
No limite quando α → 1 temos H 1 (X) = − N P − 1
i=0
p i log(p i ), que ´e a entropia de Shannon
3
Freq¨ uentemente, a entropia de R´enyi ´e dada para α = 2 sendo H 2 (X) = − log
N X − 1 i=0
p 2 i
!
(57)
4
Para α → ∞ tem-se a Min-entropia, que ´e o menor valor de H ∞ (X) dada por
!
Outras defini¸c˜oes de entropia - cont.
Entropia de R´enyi - cont.
Como a entropia de R´enyi define o ganho de informa¸c˜ ao, h´ a tamb´em uma medida para ganhos relativos de informa¸c˜ ao. Desta forma temos uma generaliza¸c˜ ao da Divergˆencia de Kullback-Leibler dada pela Divergˆ encia Generalizada de R´ enyi de ordem α
D α (p || q) = 1 α − 1 log
N X − 1 i=0
p α i q α i − 1
!
(59)
A exemplo da KLD, a divergˆencia generalizada de R´enyi ´e sempre n˜ ao negativa.
Referˆ encia:
A. R´enyi. “On measures of information and entropy”. Proceedings
of the 4th Berkeley Symposium on Mathematics, Statistics and
Outras defini¸c˜oes de entropia - cont.
Entropia de Boltzmann-Gibbs
Entropia usada na termodinˆ amica H = − k B X
α
p α log p α , (60)
em que k B ´e a constante de Boltzmann e p α ´e a probabilidade do
sistema estar no estado α.
Outras defini¸c˜oes de entropia - cont.
Entropia de Tsallis
A entropia de Tsallis ´e uma generaliza¸c˜ ao da entropia de Boltzmann-Gibbs, que ´e a entropia da termodinˆ amica. Assim, a entropia de Tsallis ´e dada por
H q (p) = 1 q − 1
1 −
Z
p q (x) dx
(61) ou, no caso discreto
H q (p) = 1 q − 1
1 − X p q (x)
(62) Neste caso, p denota a densidade de probabilidade de interesse e q
´e um valor real. No limite quando q → 1 obt´em-se a entropia de
Boltzmann-Gibbs
Outras defini¸c˜oes de entropia - cont.
Entropia de von Neumann
A entropia de von Neumann ´e utilizada para medir a informa¸c˜ ao m´edia em densidade de estados quˆ anticos. Um estado quˆ antico representa as possibilidades de existˆencia de uma part´ıcula em diferentes estados, desta forma, representamos um estado quˆ antico para dois estados poss´ıveis, 0 e 1, por exemplo, como uma matriz de dimens˜ ao 2 × 2, ou seja,
ρ =
a b c d
(63) Com isso, define-se a entropia de von Neumann como
H
(ρ) = trace [ρ log(ρ)] (64)
Outras defini¸c˜oes de entropia - cont.
Entropia de von Neumann - cont.
Tamb´em temos a entropia quˆ antica relativa, que generaliza a entropia relativa (divergˆencia de Kullback-Leibler) para estados quˆanticos, a qual ´e definida como
D
(ρ || ̺) = trace [ρ log(ρ) − ρ log(̺)] (65) em que ρ e ̺ s˜ ao matrizes Hermitianas positivas com tra¸co igual a 1.
A id´eia da entropia quˆ antica (relativa ou de von Neumann) ´e a de mensurar a informa¸c˜ ao “espalhada” nos diversos estados quˆ anticos.
Referˆ encia:
T.T. Georgiou, “Relative entropy and the multivariable
multidimensional moment problem”, IEEE Trans. on Information
Outras defini¸c˜oes de entropia - cont.
Entropia espectral
A id´eia da entropia espectral ´e a de analisar a informa¸c˜ ao no espectro do sinal. Utilizando-se da entropia de Shannon,
substitui-se a densidade de probabilidade pela densidade espectral.
Assim, podemos definir como
H sp (P ) = −
f
hX
i=f
lP i log(P i ) (66)
em que a faixa [f l , f h ] define a faixa de freq¨ uˆencia de interesse.
Outras defini¸c˜oes de entropia - cont.
Entropia espectral - cont.
O interesse ´e de medir a quantidade de informa¸c˜ ao m´edia no espectro a partir da informa¸c˜ ao contida em cada uma das componentes de freq¨ uˆencia. Encontra aplica¸c˜ ao em ´ areas de biom´edicas, por exemplo.
Referˆ encia:
R. Ferenets, T. Lipping, A. Anier, V. J¨ antti, S. Melto, and
S.Hovilehto, “Comparison of Entropy and Complexity Measures for
the Assessment of Depth of Sedation”, IEEE Trans. on Biomedical
Engineering, vol. 53, No. 6, pp. 1067-1077, June 2006.
Outras defini¸c˜oes de entropia - cont.
Taxa de informa¸c˜ ao
A taxa de informa¸c˜ ao de uma fonte ´e determinada a partir de suas entropia e taxa de transmiss˜ ao.
Sendo uma fonte de informa¸c˜ ao S que transmite r s´ımbolos a cada segundo, cujos s´ımbolos s˜ ao vari´ aveis aleat´ orias a s pertencentes a um alfabeto A = { a s : 1 ≤ s ≤ S } com entropia H ( A ), define-se a taxa de informa¸c˜ ao R como sendo determinada pela equa¸c˜ ao:
R = r · H ( A ). (67)
Informa¸c˜ao e entropia
Estima¸c˜ ao de H e I
Entropia e informa¸c˜ ao m´ utua s˜ ao importantes caracter´ısticas de processos aleat´ orios com possibilidade de aplica¸c˜ ao em v´ arias ´ areas.
Um problema inerente ao tratamento por teoria da estima¸c˜ ao
´e como estimar tais quantidades uma vez que elas s˜ ao fun¸c˜ oes da densidade de probabilidade, a qual ´e dif´ıcil de estimar a partir dos dados.
Como fazer estimativas dos dados a partir apenas de medidas?
Estimadores!!
Informa¸c˜ao e entropia
Estima¸c˜ ao de H e I - cont.
Baseado na expans˜ ao de Gram-Charlier
Expans˜ao de Gram-Charlier: aproxima¸c˜ ao polinomial da densidade de probabilidade em torno de uma pdf gaussiana
p X (x) = p G (x) 1 + X ∞ k=3
C k · h i (x)
!
, (68)
Os coeficientes C k ser˜ ao fun¸c˜ oes dos momentos/cumulantes
de X e h i ´e o polinˆ omio de Hermite de ordem k
Informa¸c˜ao e entropia
Estima¸c˜ ao de H e I - cont.
Baseado na expans˜ ao de Gram-Charlier - cont.
Sabendo que podemos escrever a entropia como (ser´ a visto em maiores detalhes mais adiante!)
H (p X ) = H (p G ) − N G (p X ) (69) em que N G (p X ) ´e a chamada negentropia.
Pode-se escrever ent˜ ao H (p X ) = H (p G ) −
Z
V
p X (v) log
p X (v) p G (v)
dv (70)
Informa¸c˜ao e entropia
Estima¸c˜ ao de H e I - cont.
Baseado na expans˜ ao de Gram-Charlier - cont.
Ent˜ ao
H (p X ) ≈ H (p G ) − Z
V
p G (v) (1 + Z (v)) log [1 + Z (v)] dv
≈ H (p G ) − Z
V
p G (v)
Z(v) + Z 2 (v) dv
= H (p G ) − 1 12
X d
i=1
κ i,i,i 2
+ 3 X d i,j=1
i 6 =j
κ i,i,j 2
+ 1 6
X d i,j=1
i 6 =j j 6 =k
κ i,j,k 2
(71) em que Z(v) = 1 P
κ i,j,k h ijk (v), h ijk ´e o polinˆ omio de ordem
Informa¸c˜ao e entropia
Estima¸c˜ ao de H e I - cont.
Baseado na expans˜ ao de Gram-Charlier - cont.
E importante mencionar que foi feita uma aproxima¸c˜ ´ ao em s´erie, de segunda ordem, na expans˜ ao de Edgeworth (expans˜ao de Gram-Charlier ordenada pela ordem de importˆ ancia dos seus termos).
Os momentos podem ent˜ao ser estimados a partir das amostras
Os polinˆ omios de Hermite tˆem forma fechada e pode ser calculados a partir dos dados.
Entretanto, as expans˜ oes de Edgeworth e Gram-Charlier s´ o
podem aproxima fun¸c˜ oes que s˜ ao “pr´ oximas” a uma
gaussiana
Informa¸c˜ao e entropia
Estima¸c˜ ao de H e I - cont.
Baseado na estima¸c˜ ao de Parzen
O estimador de Parzen para pdfs aproxima a densidade (qualquer!) por um somat´ orio de fun¸c˜ oes kernel. Dentre as classes de fun¸c˜ oes que podem ser consideradas kernel a fun¸c˜ ao gaussiana ´e a mais conhecida
Assim podemos ter
p X (x) = 1 N
X N i=1
K (x − x i , σI) (72) Sabe-se ainda que, para dois kernels vale
Z
K (x − x i , σ 1 I) K (x − x j , σ 2 I) = K (x i − x j , (σ 1 + σ 2 )I)
Informa¸c˜ao e entropia
Estima¸c˜ ao de H e I - cont.
Baseado na estima¸c˜ ao de Parzen - cont.
Assim, teremos o seguinte aproximador para a entropia de Shannon
H (p X ) = − Z
x
p X (x) · log (p X (x)) dx
= − Z
x
X N i=1
K (x − x i ) · log
" N X
i=1
K (x − x i )
# (74)
Informa¸c˜ao e entropia
Estima¸c˜ ao de H e I - cont.
Baseado na estima¸c˜ ao de Parzen - cont.
Para a entropia de R´enyi temos para o caso de α = 2:
H (p
X) = − log Z
x
p
2X( x ) d x
≈ − log
1 N
2Z
x