Teoria da Informação

(1)

Teoria da Informa¸c˜ao

Charles Casimiro Cavalcante

charles@gtel.ufc.br

Grupo de Pesquisa em Telecomunica¸ c˜ oes Sem Fio – GTEL Programa de P´ os-Gradua¸ c˜ ao em Engenharia de Teleinform´ atica

Universidade Federal do Cear´ a – UFC

http://www.gtel.ufc.br/ ∼ charles

(2)

“A principal fun¸c˜ ao de um sistema de comunica¸c˜ ao ´e reproduzir, exatamente ou de forma aproximada, uma informa¸c˜ ao proveniente de outro ponto diferente.”

Claude Shannon, 1948

(3)

Conte´udo do curso

1

Revis˜ ao de probabilidade

2

Informa¸c˜ ao e Entropia

3

Codifica¸c˜ ao de fontes

4

Codifica¸c˜ ao e capacidade de canal

5

Complexidade de Kolmogorov

6

Fun¸c˜ oes de otimiza¸c˜ ao

7

Independent Component Analysis

(4)

Parte II

Informa¸c˜ao e Entropia

(5)

O que ´e informa¸c˜ao?

Medida da quantidade de incerteza de um processo que ocorre com alguma probabilidade

Defini¸c˜ ao de Shannon, 1948 Ferramentas probabil´ısticas Contexto

Fonte discreta

Alfabeto finito: A = { a

⁰

, a

¹

, · · · , a

_K−¹

} Probabilidades: Pr(A = a

k

) = p

k

em que

K

P

−1 k=0

p

k

= 1

(6)

Defini¸c˜ao

Informa¸c˜ ao

I (a _k ) = log _α 1

Pr(a _k )

= log _α 1

p _k

= − log _α (p _k )

(23)

Unidade da informa¸c˜ ao depende da base α, e.g.

1

α = 2 ⇒ informa¸c˜ao em bits

2

α = e ⇒ informa¸c˜ao em nats

(7)

O que mede a informa¸c˜ao?

De uma forma mais informal, informa¸c˜ ao ´e a surpresa da ocorrˆencia de um evento

Quanto mais surpresa (incerteza) mais informa¸c˜ ao e, de forma

contr´ aria, quanto menos incerteza menos informa¸c˜ ao

(8)

Propriedades da informa¸c˜ao

1

I (a _k ) = 0 se p _k = 1

2

I (a _k ) ≥ 0 para 0 ≤ p _k ≤ 1

Nunca h´ a perda de informa¸c˜ ao!

3

I (a _k ) > I (a _i ) para p _k < p _i

4

I (a _k a i ) = I (a _k ) + I (a i ) se a _k e a i s˜ ao estatisticamente

independentes

(9)

Quantidade de informa¸c˜ao

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 1 2 3 4 5 6 7 8 9 10

Bits Nats

Probabilidade de ocorrˆencia

Q u an ti d ad e d e in fo rm a¸c ˜ao

(10)

Informa¸cão pontual e informa¸cão média

Pode-se desejar ent˜ ao calcular a quantidade m´edia de informa¸c˜ ao de uma fonte A

A essa m´edia da informa¸c˜ ao denomina-se entropia H (A) =

K X − 1 k=0

p _k · I (a _k )

= −

K X − 1 k=0

p _k · log _α (p _k )

(24)

A entropia mede a quantidade de informa¸c˜ ao m´edia por

s´ımbolo da fonte

(11)

Propriedades da entropia

0 ≤ H (A) ≤ log _α (K) (25)

H (A) = 0 se e somente se a probabilidade de ocorrˆencia p _k de um certo evento a _k for p _k = 1 e todas as demais forem iguais ` a zero. Neste ponto n˜ ao existe nenhuma incerteza e conseq¨ uentemente a entropia ´e m´ınima.

H (A) = log _α (K) se e somente se as probabilidades de todos os eventos a _k forem iguais, ou seja, os eventos forem

eq¨ uiprov´ aveis p _k = _K ¹

.

(12)

Entropia de uma fonte bin´aria

Seja uma fonte bin´ aria com p ₀ e p ₁ as probabilidades dos s´ımbolos a 0 e a 1 . A entropia ´e dada por:

H (A) = − p ₀ log _α (p ₀ ) − p ₁ log _α (p ₁ )

= − p 0 log _α (p 0 ) − (1 − p 0 ) log _α (1 − p 0 )

(13)

Entropia de uma fonte bin´aria - gr´afico H (p 0 ) × p ₀

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1

Probabilidade de ocorrˆencia (p

⁰

)

E n tr o p ia H ( p

0

)

(14)

Entropia - observa¸c˜oes

A entropia pode ainda ser representada matematicamente como

H (A) = −

^E

{ log(p _A (a)) } , (26) em que p _A (a) ´e a fun¸c˜ ao de densidade de probabilidade de A.

O que a entropia fornece ´e a de quanto de informa¸c˜ ao h´ a, em

m´edia, num determinado s´ımbolo de uma fonte. Isto ser´ a de

grande interesse no projeto de codificadores de fonte.

(15)

Entropia conjunta

At´e o momento foi vista a entropia de uma ´ unica vari´ avel aleat´ oria

Estendendo o conceito para duas vari´ aveis tem-se novas defini¸c˜ oes

Entropia conjunta

H (A, B) = − X

a ∈A

X

b ∈B

p(a, b) log[p _A,B (a, b)]

= −

^E

{ log[p _A,B (a, b)] }

(27)

Fornece a quantidade de informa¸c˜ ao m´edia na ocorrˆencia de

duas v.a.

(16)

Entropia condicional

Entropia condicional H (A | B) = X

b ∈B

p _B (b) · H (A | B = b)

= − X

b ∈B

p _B (b) X

a ∈A

p _A _| _B (a | b) log[p _A _| _B (a | b)]

= − X

b ∈B

X

a ∈A

p _A,B (a, b) log[p _A _| _B (a | b)]

= −

^E

log[p _A _| _B (a | b)]

(28)

Medida da quantidade m´edia de informa¸c˜ ao de uma v.a. dada

a ocorrˆencia de outra

(17)

Entropia - Rela¸c˜oes importantes

1

Regra da cadeia

H (A, B) = H (A) + H (B | A) (29) A entropia de um par de vari´ aveis ´e igual a entropia de uma mais a entropia condicional.

2

Corol´ ario da regra da cadeia

H (A, B | C) = H (A | C) + H (B | A, C), (30)

(18)

Entropia relativa

Entropia relativa: é a medida de “distˆ ancia” entre duas distribui¸c˜ oes. Pode ser entendido como uma medida de ineficiência de assumir que uma v.a. tem distribui¸c˜ ao p(x) quando a verdadeira distribui¸c˜ ao é g(x).

D(p k g) = X

x ∈X

p(x) · log p(x)

g(x)

=

^E

_p(x)

log p(x)

g(x)

(31)

A Equa¸c˜ ao (31) ´e tamb´em conhecida como Divergˆ encia de

Kullback-Leibler (KLD) ou ainda entropia cruzada

(19)

Entropia relativa

Propriedades

1

´e sempre de valor positivo ou zero; KLD ´e zero para o caso espec´ıfico de p _x (x) = g _x (x).

2

´e invariante com rela¸c˜ ao ` as seguintes mudan¸cas nos componentes do vetor x;

permuta¸c˜ao de ordem escalonamento de amplitude

transforma¸cão monotônica não-linear

3

n˜ ao ´e uma distˆ ancia no espa¸co euclidiano pois D(p k g) 6 = D(g k p)

4

´e uma distˆ ancia no espa¸co das distribui¸c˜ oes de probabilidade

(espa¸co de Riemann)

(20)

Informa¸c˜ao m´utua

Defini¸c˜ ao: para duas vari´aveis aleat´ orias A e B, a

informa¸c˜ ao m´ utua ´e a entropia relativa entre a distribui¸c˜ ao conjunta de A e B e o produto das distribui¸c˜ oes marginais.

I (A, B) = X

a ∈A

X

b ∈B

p _A,B (a, b) log

p A,B (a, b) p _A (a)p _B (b)

= D (p _A,B (a, b) k p _A (a)p _B (b))

=

^E

_A,B

log

p _A,B (a, b) p _A (a)p _B (b)

(32)

(21)

Informa¸cão mútua e entropia - rela¸cões importantes

1

Redu¸c˜ ao da incerteza de A devido ao conhecimento de B I (A, B) = H (A) − H (A | B) (33)

2

Simetria da rela¸c˜ao 1

I (A, B) = H (B) − H (B | A) (34)

3

Soma de entropias

I (A, B) = H (A) + H (B) − H (A, B) (35)

4

Auto-informa¸c˜ ao m´ utua

I (A, A) = H (A) − H (A | A) = H (A) (36)

(22)

Informa¸cão mútua e entropia - rela¸cões importantes

H (A, B)

H (A) H (B) I (A, B)

H (A | B) H (B | A)

(23)

Extens˜ao de uma fonte discreta sem mem´oria

Utiliza¸c˜ ao de blocos de dados, cada bloco com n s´ımbolos da fonte

Cada bloco pode ser entendido como sendo produzido por uma fonte estendida

Alfabeto A ⁿ com K ⁿ blocos distintos, com K o n´ umero de s´ımbolos na fonte original

Considerando que os s´ımbolos da fonte s˜ ao estatisticamente independentes

P (s[A ⁿ ]) = Y n i=1

P (s _i [A]) (37) Da´ı, podemos escrever ent˜ ao

H (A ⁿ ) = n · H (A) (38)

(24)

Defini¸c˜oes importantes

Informa¸c˜ ao condicional m´ utua de v.a. X e Y dado Z I (X, Y | Z) = H (X | Z ) − H (X | Y, Z)

=

^E

_p(x,y,z)

log

p(X, Y | Z ) P (X | Z )p(Y | Z )

(39)

Entropia relativa condicional D (p(y | x) k q(y | x)) = X

x

p(x) X

y

p(y | x) log

p(y | x) q(y | x)

=

^E

X,Y

log

p(y | x) q(y | x)

(40)

(25)

Vari´aveis cont´ınuas

Entropia

H (A) = − Z ∞

−∞

p _A (a) log (p _A (a)) da (41)

Divergˆencia de Kullback-Leibler D(p k q) =

Z ∞

−∞

p(x) log p(x)

q(x)

dx (42)

Nota: Vamos estudar mais detalhes destas grandezas a seguir!

(26)

Entropia diferencial

Embora a entropia definida por Shannon seja aplicada ao caso discreto, podemos expandir o conceito para vari´ aveis cont´ınuas A semelhan¸ca entre os casos discreto e cont´ınuo ´e bastante grande, mas algumas diferen¸cas s˜ ao importantes e o uso de tal conceito merece cuidado

Quando as vari´ aveis s˜ ao cont´ınuas a entropia recebe o nome

de entropia diferencial

(27)

Entropia diferencial - cont.

Defini¸c˜ ao

A entropia diferencial H (X) de uma vari´ avel aleat´ oria cont´ınua X com densidade de probabilidade p _X (x) ´e definida por

H (X) = − Z

S

p _X (x) · log [p _X (x)] dx (43) em que S ´e o conjunto suporte da v.a.

Como no caso discreto, a entropia diferencial s´ o depende da densidade de probabilidade, sendo por vezes escrita como H [p _X (x)] ao inv´es de H (X)

Lembrete: como em qualquer problema envolvendo integral

ou densidade de probabilidade, n´ os precisamos garantir que

elas existem.

(28)

Entropia diferencial - cont.

Exemplo - Distribui¸c˜ ao uniforme

Seja uma v.a. distribu´ıda uniformemente entre 0 e a, ent˜ ao sua densidade ´e 1/a entre 0 a a e 0 caso contr´ ario. Ent˜ ao sua entropia diferencial ´e

H (X) = − Z a 0

1 a · log

1 a

dx = log(a) (44)

Note que, para a < 1, temos log(a) < 0 e a entropia diferencial ´e negativa. Da´ı ao contr´ ario da entropia discreta, a entropia

diferencial pode ser negativa. Entretanto, 2 ^H ^(X) = 2 ^log(a) = a ´e o

volume do conjunto suporte, o qual ´e sempre n˜ ao-negativo, como

esperado.

(29)

Entropia diferencial - cont.

Exemplo - Distribui¸c˜ ao normal

Seja X ∼ N (0, σ ² ) em que denotamos p _X (x) = φ(x). Ent˜ ao, calculando a entropia diferencial em nats, temos

H [p _X (x)] = − Z

φ(x) ln[φ(x)] dx

= − Z

φ(x)

− x ²

2σ ² − ln( √ 2πσ ² )

dx

= E { X ² } 2σ ² + 1

2 ln(2πσ ² )

= 1 2 + 1

2 ln(2πσ ² )

= 1

2 ln(e) + 1

2 ln(2πσ ² )

= 1

ln(2πeσ ² ) nats

(45)

(30)

Entropia diferencial - cont.

Entropia diferencial conjunta

Defini¸c˜ ao

Seja um conjunto de N v.a. X 1 , X 2 , . . . , X N com densidade p ^X (x) = p ^X (x ₁ , x ₂ , . . . , x _N ), a entropia diferencial ´e definida como

H [p _X (x)] = − Z

p X (x) · log [p X (x)] dx

= − Z Z

· · · Z

p _X

₁

_,X

₂

_,...,X

_N

(x ₁ , x ₂ , . . . , x _N ) ·

· log [p _X

₁

_,X

₂

_,...,X

_N

(x ₁ , x ₂ , . . . , x _N )] dx ₁ dx ₂ . . . dx _N

(46)

(31)

Entropia diferencial - cont.

Entropia diferencial condicional

Defini¸c˜ ao

Se X, Y tˆem uma fun¸c˜ ao de densidade conjunta p X,Y (x, y), podemos definir a entropia diferencial condicional H (X | Y ) como

H (X | Y ) = − Z Z

p _X,Y (x, y) · log

p _X _| _Y (x | y)

dx dy (47) Uma vez que em geral p _X _| _Y (x | y) = p _X,Y (x, y)/p _Y (y), podemos tamb´em escrever

H (X | Y ) = H (X, Y ) − H (Y ) (48)

Deve-se entretanto garantir que nenhuma das entropias diferenciais

seja infinita.

(32)

Regras da cadeia

Entropia

H (A ₁ , A ₂ , · · · , A _n ) = X n i=1

H (A _i | A _i ₋ ₁ , A _i ₋ ₂ , · · · , A ₁ ) (49)

Informa¸c˜ ao m´ utua

I (A ₁ , A ₂ , · · · , A _n ; B ) = X n i=1

I (A _i ; B | A _i ₋ ₁ , A _i ₋ ₂ , · · · , A ₁ ) (50)

Entropia relativa

D (p

A,B

(a, b) k q

A,B

(a, b)) = D (p

A

(a) k q

A

(a))+ D p

_B|A

(b | a) k q

_B|A

(b | a)

(33)

Entropia diferencial - cont.

Propriedades da entropia diferencial, entropia relativa e informa¸c˜ ao m´ utua

1

D(p k g) ≥ 0

2

I (X, Y ) ≥ 0 com igualdade se mantendo se e somente se X e Y s˜ ao independentes

3

H (X | Y ) ≤ H (X), com igualdade se mantendo se e somente se X e Y s˜ ao independentes

4

H (X + c) = H (X) - transla¸c˜ ao n˜ ao altera entropia

5

H (cX) = H (X) + log( | c | )

6

Para vetores e matrizes temos: H ( C X) = H (X) + log( | C | ),

em que | C | ´e o determinante da matrix C

(34)

Entropia diferencial - cont.

Decomposi¸c˜ ao Pitag´ orica

Seja um vetor de N amostras aleat´ orias X formado de amostras independentes, ou seja,

p X (x) = Y N i=1

p _X

_i

(x _i ) (52) e seja um vetor Y definido em termos de x como Y = A X, em que A ´e uma matriz n˜ ao-diagonal. Seja p e _Y

_i

(y _i ) a densidade de probabilidade marginal de cada Y _i derivada a partir de p Y (y).

Ent˜ ao, a KLD entre p X (x) e p Y (y) admite a seguinte decomposi¸c˜ ao Pitag´ orica

D(p Y || p X ) = D(p Y ||e p X ) + D( e p Y || p X ) (53)

(35)

Entropia diferencial - cont.

Inequa¸c˜ ao de Jensen

Deriva da seguinte f´ ormula de fun¸c˜ ao convexa

f (λx ₁ + (1 − λ)x ₂ ) ≤ λf(x ₁ ) + (1 − λ)f (x ₂ ) (54) Exemplo de fun¸c˜ oes convexas: x ² , | x | , e ^x , x log(x) para x ≥ 0, etc

Inequa¸c˜ao de Jensen

E

{ f (X) } ≥ f (

^E

{ X } ) (55)

(36)

Entropia diferencial - cont.

Prova do m´ınimo da KLD

Deseja-se provar que D(p k q) ≥ 0, ent˜ ao tem-se

− D(p k q) = − X

x

p(x) · log p(x)

q(x)

= X

x

p(x) · log q(x)

p(x)

Utilizando a inequa¸c˜ ao de Jensen X

x

p(x) · log q(x)

p(x)

≤ log X

x

p(x) · q(x)

p(x)

!

log X

x

p(x) · q(x)

p(x)

!

= log X

x

q(x)

!

= log(1)

(37)

Outras defini¸c˜oes de entropia

Entropia de R´enyi

A entropia de R´enyi, uma generaliza¸c˜ ao da entropia de Shannon, ´e uma fam´ılia de funcionais para quantifica¸c˜ ao da diversidade, incerteza ou aleatoriedade de um sistema.

Defini¸c˜ ao

A entropia de R´enyi de ordem α, para α > 0 ´e definida como

H _α (X) = 1 1 − α log

N X − 1 i=0

p ^α _i

!

(56) em que p _i ´e a probabilidade do evento i.

Uma importante propriedade, ´e que se os eventos forem

equiprov´ aveis, ent˜ ao todas as entropias de R´enyi (para qualquer α)

s˜ ao iguais para a distribui¸c˜ ao com H _α (X) = log(N ). Caso

(38)

Outras defini¸c˜oes de entropia - cont.

Entropia de R´enyi - cont.

Alguns casos particulares

1

H ₀ (X) = log(N ) - ´e tamb´em chamada de entropia de Hartley

2

No limite quando α → 1 temos H ₁ (X) = − ^N P ⁻ ¹

i=0

p i log(p i ), que ´e a entropia de Shannon

3

Freq¨ uentemente, a entropia de R´enyi ´e dada para α = 2 sendo H ₂ (X) = − log

N X − 1 i=0

p ² _i

!

(57)

4

Para α → ∞ tem-se a Min-entropia, que ´e o menor valor de H _∞ (X) dada por

!

(39)

Outras defini¸c˜oes de entropia - cont.

Entropia de R´enyi - cont.

Como a entropia de Rényi define o ganho de informa¸c˜ ao, h´ a também uma medida para ganhos relativos de informa¸c˜ ao. Desta forma temos uma generaliza¸c˜ ao da Divergência de Kullback-Leibler dada pela Divergˆ encia Generalizada de R´ enyi de ordem α

D _α (p || q) = 1 α − 1 log

N X − 1 i=0

p ^α _i q ^α _i ⁻ ¹

!

(59)

A exemplo da KLD, a divergência generalizada de Rényi é sempre n˜ ao negativa.

Referˆ encia:

A. R´enyi. “On measures of information and entropy”. Proceedings

of the 4th Berkeley Symposium on Mathematics, Statistics and

(40)

Outras defini¸c˜oes de entropia - cont.

Entropia de Boltzmann-Gibbs

Entropia usada na termodinˆ amica H = − k _B X

α

p _α log p _α , (60)

em que k _B ´e a constante de Boltzmann e p _α ´e a probabilidade do

sistema estar no estado α.

(41)

Outras defini¸c˜oes de entropia - cont.

Entropia de Tsallis

A entropia de Tsallis é uma generaliza¸c˜ ao da entropia de Boltzmann-Gibbs, que é a entropia da termodinˆ amica. Assim, a entropia de Tsallis é dada por

H _q (p) = 1 q − 1

1 −

Z

p ^q (x) dx

(61) ou, no caso discreto

H _q (p) = 1 q − 1

1 − X p ^q (x)

(62) Neste caso, p denota a densidade de probabilidade de interesse e q

´e um valor real. No limite quando q → 1 obt´em-se a entropia de

Boltzmann-Gibbs

(42)

Outras defini¸c˜oes de entropia - cont.

Entropia de von Neumann

A entropia de von Neumann é utilizada para medir a informa¸c˜ ao média em densidade de estados quˆ anticos. Um estado quˆ antico representa as possibilidades de existência de uma part´ıcula em diferentes estados, desta forma, representamos um estado quˆ antico para dois estados poss´ıveis, 0 e 1, por exemplo, como uma matriz de dimens˜ ao 2 × 2, ou seja,

ρ =

a b c d

(63) Com isso, define-se a entropia de von Neumann como

H

(ρ) = trace [ρ log(ρ)] (64)

(43)

Outras defini¸c˜oes de entropia - cont.

Entropia de von Neumann - cont.

Também temos a entropia quˆ antica relativa, que generaliza a entropia relativa (divergência de Kullback-Leibler) para estados quânticos, a qual é definida como

D

(ρ || ̺) = trace [ρ log(ρ) − ρ log(̺)] (65) em que ρ e ̺ s˜ ao matrizes Hermitianas positivas com tra¸co igual a 1.

A id´eia da entropia quˆ antica (relativa ou de von Neumann) ´e a de mensurar a informa¸c˜ ao “espalhada” nos diversos estados quˆ anticos.

Referˆ encia:

T.T. Georgiou, “Relative entropy and the multivariable

multidimensional moment problem”, IEEE Trans. on Information

(44)

Outras defini¸c˜oes de entropia - cont.

Entropia espectral

A id´eia da entropia espectral ´e a de analisar a informa¸c˜ ao no espectro do sinal. Utilizando-se da entropia de Shannon,

substitui-se a densidade de probabilidade pela densidade espectral.

Assim, podemos definir como

H _sp (P ) = −

f

h

X

i=f

l

P _i log(P _i ) (66)

em que a faixa [f _l , f _h ] define a faixa de freq¨ uˆencia de interesse.

(45)

Outras defini¸c˜oes de entropia - cont.

Entropia espectral - cont.

O interesse é de medir a quantidade de informa¸c˜ ao média no espectro a partir da informa¸c˜ ao contida em cada uma das componentes de freq¨ uência. Encontra aplica¸c˜ ao em ´ areas de biomédicas, por exemplo.

Referˆ encia:

R. Ferenets, T. Lipping, A. Anier, V. J¨ antti, S. Melto, and

S.Hovilehto, “Comparison of Entropy and Complexity Measures for

the Assessment of Depth of Sedation”, IEEE Trans. on Biomedical

Engineering, vol. 53, No. 6, pp. 1067-1077, June 2006.

(46)

Outras defini¸c˜oes de entropia - cont.

Taxa de informa¸c˜ ao

A taxa de informa¸c˜ ao de uma fonte ´e determinada a partir de suas entropia e taxa de transmiss˜ ao.

Sendo uma fonte de informa¸c˜ ao S que transmite r s´ımbolos a cada segundo, cujos s´ımbolos s˜ ao vari´ aveis aleat´ orias a _s pertencentes a um alfabeto A = { a _s : 1 ≤ s ≤ S } com entropia H ( A ), define-se a taxa de informa¸c˜ ao R como sendo determinada pela equa¸c˜ ao:

R = r · H ( A ). (67)

(47)

Informa¸c˜ao e entropia

Estima¸c˜ ao de H e I

Entropia e informa¸c˜ ao m´ utua s˜ ao importantes caracter´ısticas de processos aleat´ orios com possibilidade de aplica¸c˜ ao em v´ arias ´ areas.

Um problema inerente ao tratamento por teoria da estima¸c˜ ao

´e como estimar tais quantidades uma vez que elas s˜ ao fun¸c˜ oes da densidade de probabilidade, a qual ´e dif´ıcil de estimar a partir dos dados.

Como fazer estimativas dos dados a partir apenas de medidas?

Estimadores!!

(48)

Informa¸c˜ao e entropia

Estima¸c˜ ao de H e I - cont.

Baseado na expans˜ ao de Gram-Charlier

Expans˜ao de Gram-Charlier: aproxima¸c˜ ao polinomial da densidade de probabilidade em torno de uma pdf gaussiana

p _X (x) = p _G (x) 1 + X ∞ k=3

C _k · h _i (x)

!

, (68)

Os coeficientes C _k ser˜ ao fun¸c˜ oes dos momentos/cumulantes

de X e h _i ´e o polinˆ omio de Hermite de ordem k

(49)

Informa¸c˜ao e entropia

Estima¸c˜ ao de H e I - cont.

Baseado na expans˜ ao de Gram-Charlier - cont.

Sabendo que podemos escrever a entropia como (ser´ a visto em maiores detalhes mais adiante!)

H (p _X ) = H (p _G ) − N _G (p _X ) (69) em que N _G (p _X ) ´e a chamada negentropia.

Pode-se escrever ent˜ ao H (p _X ) = H (p _G ) −

Z

V

p _X (v) log

p _X (v) p G (v)

dv (70)

(50)

Informa¸c˜ao e entropia

Estima¸c˜ ao de H e I - cont.

Baseado na expans˜ ao de Gram-Charlier - cont.

Ent˜ ao

H (p _X ) ≈ H (p _G ) − Z

V

p _G (v) (1 + Z (v)) log [1 + Z (v)] dv

≈ H (p _G ) − Z

V

p _G (v)

Z(v) + Z ² (v) dv

= H (p _G ) − 1 12



 

 X d

i=1

κ ^i,i,i 2

+ 3 X d i,j=1

i 6 =j

κ ^i,i,j 2

+ 1 6

X d i,j=1

i 6 =j j 6 =k

κ ^i,j,k 2



 

 (71) em que Z(v) = ¹ P

κ ^i,j,k h _ijk (v), h _ijk ´e o polinˆ omio de ordem

(51)

Informa¸c˜ao e entropia

Estima¸c˜ ao de H e I - cont.

Baseado na expans˜ ao de Gram-Charlier - cont.

E importante mencionar que foi feita uma aproxima¸c˜ ´ ao em s´erie, de segunda ordem, na expans˜ ao de Edgeworth (expans˜ao de Gram-Charlier ordenada pela ordem de importˆ ancia dos seus termos).

Os momentos podem ent˜ao ser estimados a partir das amostras

Os polinˆ omios de Hermite tˆem forma fechada e pode ser calculados a partir dos dados.

Entretanto, as expans˜ oes de Edgeworth e Gram-Charlier s´ o

podem aproxima fun¸c˜ oes que s˜ ao “pr´ oximas” a uma

gaussiana

(52)

Informa¸c˜ao e entropia

Estima¸c˜ ao de H e I - cont.

Baseado na estima¸c˜ ao de Parzen

O estimador de Parzen para pdfs aproxima a densidade (qualquer!) por um somat´ orio de fun¸c˜ oes kernel. Dentre as classes de fun¸c˜ oes que podem ser consideradas kernel a fun¸c˜ ao gaussiana ´e a mais conhecida

Assim podemos ter

p _X (x) = 1 N

X N i=1

K (x − x _i , σI) (72) Sabe-se ainda que, para dois kernels vale

Z

K (x − x _i , σ ₁ I) K (x − x _j , σ ₂ I) = K (x _i − x _j , (σ ₁ + σ ₂ )I)

Teoria da Informação

Teoria da Informa¸c˜ao

Charles Casimiro Cavalcante

charles@gtel.ufc.br

Grupo de Pesquisa em Telecomunica¸ c˜ oes Sem Fio – GTEL Programa de P´ os-Gradua¸ c˜ ao em Engenharia de Teleinform´ atica

Universidade Federal do Cear´ a – UFC

http://www.gtel.ufc.br/ ∼ charles

“A principal fun¸c˜ ao de um sistema de comunica¸c˜ ao ´e reproduzir, exatamente ou de forma aproximada, uma informa¸c˜ ao proveniente de outro ponto diferente.”

Claude Shannon, 1948

Conte´udo do curso

Revis˜ ao de probabilidade

Informa¸c˜ ao e Entropia

Codifica¸c˜ ao de fontes

Codifica¸c˜ ao e capacidade de canal

Complexidade de Kolmogorov

Fun¸c˜ oes de otimiza¸c˜ ao

Independent Component Analysis

Parte II

Informa¸c˜ao e Entropia

O que ´e informa¸c˜ao?

Medida da quantidade de incerteza de um processo que ocorre com alguma probabilidade

Defini¸c˜ ao de Shannon, 1948 Ferramentas probabil´ısticas Contexto

Fonte discreta

Alfabeto finito: A = { a

, a

, · · · , a

} Probabilidades: Pr(A = a

) = p

em que

P

p

= 1

Defini¸c˜ao

Informa¸c˜ ao

I (a k ) = log α 1

Pr(a k )

= log α 1

p k

= − log α (p k )

(23)

Unidade da informa¸c˜ ao depende da base α, e.g.

α = 2 ⇒ informa¸c˜ao em bits

α = e ⇒ informa¸c˜ao em nats

O que mede a informa¸c˜ao?

De uma forma mais informal, informa¸c˜ ao ´e a surpresa da ocorrˆencia de um evento

Quanto mais surpresa (incerteza) mais informa¸c˜ ao e, de forma

contr´ aria, quanto menos incerteza menos informa¸c˜ ao

Propriedades da informa¸c˜ao

I (a k ) = 0 se p k = 1

I (a k ) ≥ 0 para 0 ≤ p k ≤ 1

Nunca h´ a perda de informa¸c˜ ao!

I (a k ) > I (a i ) para p k < p i

I (a k a i ) = I (a k ) + I (a i ) se a k e a i s˜ ao estatisticamente

independentes

Quantidade de informa¸c˜ao

Bits Nats

Probabilidade de ocorrˆencia

Q u an ti d ad e d e in fo rm a¸c ˜ao

Informa¸cão pontual e informa¸cão média

Pode-se desejar ent˜ ao calcular a quantidade m´edia de informa¸c˜ ao de uma fonte A

A essa m´edia da informa¸c˜ ao denomina-se entropia H (A) =

K X − 1 k=0

p k · I (a k )

= −

K X − 1 k=0

p k · log α (p k )

(24)

A entropia mede a quantidade de informa¸c˜ ao m´edia por

s´ımbolo da fonte

Propriedades da entropia

0 ≤ H (A) ≤ log α (K) (25)

H (A) = 0 se e somente se a probabilidade de ocorrˆencia p k de um certo evento a k for p k = 1 e todas as demais forem iguais ` a zero. Neste ponto n˜ ao existe nenhuma incerteza e conseq¨ uentemente a entropia ´e m´ınima.

H (A) = log α (K) se e somente se as probabilidades de todos os eventos a k forem iguais, ou seja, os eventos forem

eq¨ uiprov´ aveis p k = K 1

.

Entropia de uma fonte bin´aria

Seja uma fonte bin´ aria com p 0 e p 1 as probabilidades dos s´ımbolos a 0 e a 1 . A entropia ´e dada por:

H (A) = − p 0 log α (p 0 ) − p 1 log α (p 1 )

= − p 0 log α (p 0 ) − (1 − p 0 ) log α (1 − p 0 )

Entropia de uma fonte bin´aria - gr´afico H (p 0 ) × p 0

I (a _k ) = log _α 1

Pr(a _k )

= log _α 1

p _k

= − log _α (p _k )

I (a _k ) = 0 se p _k = 1

I (a _k ) ≥ 0 para 0 ≤ p _k ≤ 1

I (a _k ) > I (a _i ) para p _k < p _i

I (a _k a i ) = I (a _k ) + I (a i ) se a _k e a i s˜ ao estatisticamente

p _k · I (a _k )

p _k · log _α (p _k )

0 ≤ H (A) ≤ log _α (K) (25)

H (A) = 0 se e somente se a probabilidade de ocorrˆencia p _k de um certo evento a _k for p _k = 1 e todas as demais forem iguais ` a zero. Neste ponto n˜ ao existe nenhuma incerteza e conseq¨ uentemente a entropia ´e m´ınima.

H (A) = log _α (K) se e somente se as probabilidades de todos os eventos a _k forem iguais, ou seja, os eventos forem

eq¨ uiprov´ aveis p _k = _K ¹

Seja uma fonte bin´ aria com p ₀ e p ₁ as probabilidades dos s´ımbolos a 0 e a 1 . A entropia ´e dada por:

H (A) = − p ₀ log _α (p ₀ ) − p ₁ log _α (p ₁ )

= − p 0 log _α (p 0 ) − (1 − p 0 ) log _α (1 − p 0 )

Entropia de uma fonte bin´aria - gr´afico H (p 0 ) × p ₀

{ log(p _A (a)) } , (26) em que p _A (a) ´e a fun¸c˜ ao de densidade de probabilidade de A.

p(a, b) log[p _A,B (a, b)]

{ log[p _A,B (a, b)] }

p _B (b) · H (A | B = b)

p _B (b) X

p _A _| _B (a | b) log[p _A _| _B (a | b)]

p _A,B (a, b) log[p _A _| _B (a | b)]

log[p _A _| _B (a | b)]

_p(x)

´e sempre de valor positivo ou zero; KLD ´e zero para o caso espec´ıfico de p _x (x) = g _x (x).