Fundamentos de Teoria da Informa¸c˜ ao
Israel Andrade Esquef
aM´ arcio Portes de Albuquerque
bMarcelo Portes de Albuquerque
ba
Universidade Estadual do Norte Fluminense - UENF
b
Centro Brasileiro de Pesquisas F´ısicas - CBPF
Resumo
A Teoria da Informa¸c˜ao ´e uma ramifica¸c˜ao da teoria de probabilidades introduzida por Claude Shannon com a publica¸c˜ao do artigo “The Mathematical Theory of Communication”[1] em 1948, apresentando um novo modelo matem´atico para o estudo de sistemas de comunica¸c˜ao. Os principais objetivos de Shannon eram descobrir as leis que regulam os sistemas usados para comunicar e manipular a informa¸c˜ao e definir medidas quantitativas para a informa¸c˜ao e para a capacidade de determinados sistemas transmitirem, armazenarem e processarem a informa¸c˜ao. Uma das inova¸c˜oes mais importantes do modelo introduzido por Shannon, foi considerar os componentes de um sistema de comunica¸c˜ao (fontes de informa¸c˜ao, canais de comunica¸c˜ao) como elementos probabil´ısticos. Alguns dos problemas abordados por Shannon est˜ao relacionados com a descoberta de melhores m´etodos para utilizar os sistemas de comunica¸c˜ao existentes e as melhores formas de separar a informa¸c˜ao desejada (sinal) da informa¸c˜ao desprez´ıvel (ru´ıdo). Um outro tema abordado ´e a defini¸c˜ao de limites superiores para as possibilidades do meio de transporte de informa¸c˜ao, tamb´em chamado um canal de comunica¸c˜ao.
Shannon propˆos uma forma de medi¸c˜ao quantitativa da informa¸c˜ao fornecida por um evento proba- bil´ıstico, baseada na tradicional express˜ao de entropia de Boltzmann (1896) presente na termodinˆamica e f´ısica estat´ıstica. Foi Shannon quem primeiro relacionou entropia e informa¸c˜ao. Em seu modelo de comu- nica¸c˜ao (fonte-canal-receptor)[1], a quantidade de informa¸c˜ao transmitida em uma mensagem ´e fun¸c˜ao de previsibilidade da mensagem. A no¸c˜ao de entropia est´a ligada ao grau de desorganiza¸c˜ao existente na fonte de informa¸c˜ao. Quanto maior a desordem, maior o potencial de informa¸c˜ao desta fonte. Uma fonte que responda com uma ´unica e mesma mensagem a toda e qualquer pergunta n˜ao transmite informa¸c˜ao, j´a que n˜ao h´a redu¸c˜ao de incerteza.
1 Informa¸c˜ ao, Incerteza e Entropia
Uma fonte de informa¸c˜ ao ´ e um modelo matem´ atico para um sistema f´ısico que produz uma sucess˜ ao de s´ımbolos de maneira aleat´ oria chamados eventos.
Os s´ımbolos produzidos podem ser n´ umeros reais como valores de voltagens provenientes de um transdutor, n´ umeros bin´ arios de dados computacionais
1, etc. O espa¸co contendo todos os eventos poss´ıveis ´ e usualmente chamado de alfabeto da fonte de informa¸c˜ ao, ao qual ´ e atribu´ıdo um conjunto de probabil- idades de ocorrˆ encia.
1
No caso do sistema f´ısico ser uma imagem digital, pode-se considerar como fonte
de informa¸c˜ ao os valores das voltagens emitidas por um sensor CCD (charge-coupled
device), relativas ` a ocorrˆ encia dos f´ otons incidentes em cada c´ elula.
1.1 Fonte Discreta de Informa¸c˜ ao
Uma fonte discreta de informa¸c˜ ao gera s´ımbolos de um alfabeto
A = { x
i, i = 1, 2, . . . , k } (1)
com probabilidade de ocorrˆ encia p
ital que
k i=1
p
i= 1.
Os s´ımbolos gerados s˜ ao estatisticamente independentes, de modo que a prob- abilidade de ocorrˆ encia de qualquer seq¨ uˆ encia gerada pela fonte ´ e dada pelo produto das probabilidades de ocorrˆ encia dos s´ımbolos que a constituem. Se uma fonte emite uma seq¨ uˆ encia de dois s´ımbolos α e β, com probabilidades p
αe p
β, respectivamente, a probabilidade da seq¨ uˆ encia gerada ´ e definida como sendo
p
α∪β= p
α· p
β(2)
caso os simbolos α e β sejam estatisticamente independentes.
1.2 Medida de Informa¸c˜ ao
Quando se descreve um processo de sele¸c˜ ao de um objeto entre v´ arios exis- tentes, aparece naturalmente as no¸c˜ oes de informa¸c˜ ao e incerteza. Se um sis- tema ´ e capaz de emitir 3 s´ımbolos distintos A, B e C e esperamos a ocorrˆ encia do primeiro evento, mantemos uma incerteza sobre qual s´ımbolo aparecer´ a.
Quando o primeiro s´ımbolo ´ e emitido, a incerteza desaparece e podemos con- siderar que houve um ganho de informa¸c˜ ao.
Se considerarmos a fonte de informa¸c˜ ao definida em 1, o ganho de informa¸c˜ ao associado a ocorrˆ encia de um evento ´ e chamada de informa¸c˜ ao pr´ opria de cada evento x
ie ´ e definida como
I(x
i) = log
1 p
i
, (3)
representando uma forma intuitiva de medi¸c˜ ao quantitativa de informa¸c˜ ao, mesmo sendo informa¸c˜ ao um conceito relativamente subjetivo. Esta forma de medir informa¸c˜ ao apresenta as seguintes caracter´ısticas:
• I(x
i) = 0 se p
i= 1
O ganho de informa¸c˜ ao resultante da ocorrˆ encia do evento ´ unico ´ e nulo.
• I(x
i) ≥ 0
A ocorrˆ encia de qualquer evento produz um ganho de informa¸c˜ ao, exceto no caso de uma fonte que emite um ´ unico s´ımbolo.
• I(x
i) > I (x
j) se p
i< p
jQuanto menor a probabilidade de ocorrˆ encia de um s´ımbolo, maior ´ e o ganho de informa¸c˜ ao.
E se considerarmos a ocorrˆ encia simultˆ anea de dois eventos estatisticamente independentes x
ie x
j, o ganho de informa¸c˜ ao total ´ e definido pela soma das informa¸c˜ oes pr´ oprias de cada um dos eventos
I(x
i, x
j) = − log (p
i· p
j)
= − logp
i− logp
j= I(x
i) + I (x
j) (4)
A base da fun¸c˜ ao logaritmo, presente em 3, determina a unidade de medida de informa¸c˜ ao. A rigor, a base pode ser qualquer n´ umero maior que 1 [1], sendo usual a utiliza¸c˜ ao da base 2 para sistemas digitais de informa¸c˜ ao. O logaritmo de base 2 define a unidade bin´ aria (bit) como a informa¸c˜ ao pr´ opria associada a cada um dos s´ımbolos de uma fonte bin´ aria com eventos equiprov´ aveis:
I(0) = I(1) = − log
21 2
= 1 bit (5)
1.3 Entropia de uma Fonte de Informa¸ c˜ ao
A entropia de uma fonte discreta de informa¸c˜ ao ´ e dada pela esperan¸ca matem´ atica da informa¸c˜ ao pr´ opria dos s´ımbolos da fonte, ou seja, o produto do ganho de informa¸c˜ ao de cada s´ımbolo pela sua probabilidade de ocorrˆ encia. A entropia da fonte ´ e sens´ıvel a quantidade de s´ımbolos que a fonte ´ e capaz de emi- tir. Para uma fonte discreta de informa¸c˜ ao com k s´ımbolos e probabilidade p
i= { p
1, p
2, . . . , p
k} , a entropia ´ e definida como sendo
S = E { I (x
i) } =
k i=1
p
i· log
1 p
i
ou na forma mais utilizada na literatura S = −
ki=1
p
i· log p
i(6)
A entropia de um sistema bin´ ario, que apresenta apenas dois estados poss´ıveis com probabilidades p e q = 1 − p, pode ser representada como uma fun¸c˜ ao de p,
S
2(p) = S
2(p, 1 − p) = − p · log
2(p) − (1 − p) · log
2(1 − p) (7)
e est´ a ilustrada na figura 1, que tamb´ em apresenta a informa¸c˜ ao pr´ opria em bits como fun¸c˜ ao de p. Quanto menos prov´ avel ´ e a ocorrˆ encia de um evento, maior ´ e sua informa¸c˜ ao pr´ opria.
0 0.2 0.4 0.6 0.8 1
0 0.2 0.4 0.6 0.8
1 S2(p)
p
0 0.2 0.4 0.6 0.8 1
0 2 4 6 8 10 I2(p)
p
p I2(p) S2(p) 0.001
0.01 0.1 0.2 0.5
10 6.6 3.3 2.3 1.0
0.011 0.081 0.47 0.72 1.0
Figura 1. Informa¸ c˜ ao Pr´ opria e Entropia da fonte bin´ aria como fun¸ c˜ ao da proba- bilidade.
Observando a figura 1, ´ e interessante notar que:
(1) Quando p = 0 a entropia ´ e nula (S = 0), pois xlog x → 0 quando x → 0 (2) S = 0 quando p = 1 para um ´ unico evento, definido como valor m´ınimo
da entropia.
(3) A entropia atinge o valor m´ aximo S
max= 1 bit/simbolo, quando p = q =
1
2
ou seja, quando os s´ımbolos s˜ ao equiprov´ aveis.
Portanto, os valores para a entropia de uma fonte de informa¸c˜ ao com k s´ımbolos ´ e limitada segundo a desigualdade a seguir
0 ≤ S ≤ log
2k (8)
em que o log
2representa a fun¸c˜ ao logaritmo na base 2.
2 Entropia Relativa
Nesta se¸c˜ ao ser´ a introduzido o conceito de entropia relativa. A entropia relativa
´ e a medida de uma distˆ ancia estat´ıstica entre duas distribui¸c˜ oes definidas sobre
um mesmo alfabeto. Em estat´ıstica, isto significa o valor esperado do logaritmo da rela¸c˜ ao entre as probabilidades. A entropia relativa ´ e definida como sendo
D
KL(p : p
) =
k i=1
p
i· log p
ip
i(9)
e ´ e tamb´ em conhecida como Distˆ ancia Kullback-Leibler, Entropia Kullback- Leibler ou Divergˆ encia I. Na defini¸c˜ ao acima, assumimos por conven¸c˜ ao (baseada em argumentos de continuidade) que 0 · log
p0= 0 e p · log
p0= ∞ .
A entropia relativa ´ e sempre n˜ ao negativa, satisfazendo a desigualdade de Gibbs:
k i=1
p
i· log 1 p
i≤
ki=1
p
i· log 1
p
i(10)
considerando p
iuma distribui¸c˜ ao de probabilidades qualquer e p
iuma outra distribui¸c˜ ao que satisfaz a condi¸c˜ ao a seguir
k i=1
p
i≤ 1 (11)
Apesar da entropia relativa ser chamada de distˆ ancia Kullback-Leibler, esta n˜ ao pode ser considerada uma distˆ ancia verdadeira entre duas distribui¸c˜ oes.
A entropia relativa n˜ ao apresenta simetria,
k i=1
p
i· log p
ip
i=
k i=1
p
i· log p
ip
i(12)
e portanto n˜ ao pode ser considerada uma distˆ ancia m´ etrica. Mesmo assim, ´ e usual pensar na entropia relativa como uma medida de “distˆ ancia” entre duas distribui¸c˜ oes estat´ısticas.
Uma vers˜ ao sim´ etrica de entropia relativa, conhecida como divergˆ encia J , foi introduzida por H. Jeffreys [2] e ´ e definida como a soma das duas divergˆ encias diretas (divergˆ encias I):
D(p : p
) = D
KL(p : p
) + D
KL(p
: p)
=
k i=1
p
i· log p
ip
i+
k i=1
p
i· log p
ip
i(13)
´ e valido notar que a divergˆ encia J ´ e sim´ etrica em rela¸c˜ ao aos argumentos, de
forma que D(p : p
) = D(p
: p).
3 Entropia Generalizada em Sistemas de Informa¸c˜ ao 3.1 Conceitos Fundamentais da Entropia N˜ ao Extensiva
Durante aproximadamente 120 anos, o conceito de entropia tem sido descrito atrav´ es de uma express˜ ao particular, chamada Entropia Boltzmann-Gibbs
S = k log W (14)
onde a entropia (S) ´ e o produto da constante de Boltzmann (k) pelo logaritmo de microestados (W ) do sistema.
O conceito de entropia ´ e de fundamental importˆ ancia na termodinˆ amica, mecˆ anica estat´ıstica e teoria da informa¸c˜ ao. Recentemente, estudos de sis- temas f´ısicos que envolvem a presen¸ca de efeitos n˜ ao extensivos tˆ em despertado um grande interesse, principalmente porque tais sistemas n˜ ao s˜ ao convenien- temente descritos pela mecˆ anica estat´ıstica de Boltzmann-Gibbs. A presen¸ca de caracter´ısticas n˜ ao extensivas ´ e comum em sistemas astrof´ısicos, sistemas magn´ eticos e sistemas que apresentam evolu¸c˜ ao temporal da entropia. De um modo simplificado, podemos afirmar que a n˜ ao extensividade pode ocorrer quando:
(i) as intera¸c˜ oes s˜ ao de curto alcance sendo o sistema de tamanho finito e menor do que o alcance das intera¸c˜ oes ou
(ii) com intera¸c˜ oes de longo alcance sendo o tamanho do sistema qualquer.
Com base neste contexto, acredita-se que a mecˆ anica estat´ıstica atual pos- sui limita¸c˜ oes, existindo a necessidade de uma reformula¸c˜ ao dos conceitos de entropia e extensividade.
Durante os ´ ultimos anos, uma nova express˜ ao para entropia, proposta pelo f´ısico Constantino Tsallis [3], tem sido considerada uma poss´ıvel generaliza¸c˜ ao da entropia de Boltzmann/Gibbs. Este novo formalismo, chamado de Entropia Tsallis ou Estat´ıstica Tsallis, tem sido aplicado a in´ umeros sistemas, em di- versas ´ areas da ciˆ encia, que v˜ ao desde a f´ısica do estado s´ olido at´ e a teoria da informa¸c˜ ao [4] [5] [6] [7] [8] [9] [10]. A entropia Tsallis se adapta as car- acter´ısticas f´ısicas de muitos sistemas f´ısicos e ainda preserva as propriedades fundamentais da entropia na segunda lei da termodinˆ amica, ou seja, que a en- tropia do universo aumenta com o tempo em todos os processos f´ısicos. Este novo formalismo para a termodinˆ amica e f´ısica estat´ıstica est´ a fundamentado na express˜ ao para a entropia sugerida por Tsallis
S
q= k ·
Wi=1
p
qi· (1 − p
1i−q)
q − 1 (15)
ou na forma mais utilizada na literatura,
S
q= k
1 −
Wi=1
p
qiq − 1 (16)
em que k ´ e uma constante positiva (a qual ´ e atribu´ıdo o valor unit´ ario), q ´ e um n´ umero real, W ´ e o n´ umero total de microestados e p
i´ e o conjunto de probabilidades associado aos estados. Pode-se facilmente demonstrar que no limite em que q → 1 a equa¸c˜ ao 16 retorna para a express˜ ao 6, a entropia de Boltzmann/Gibbs/Shannon
2.
S = −
Wi=1
p
i· log p
i(17)
3.2 Entropia de Shannon Generalizada
Nas se¸c˜ oes anteriores deste cap´ıtulo, foram definidos os conceitos fundamen- tais da teoria da informa¸c˜ ao. Foi dada uma ˆ enfase ao conceito de medida de informa¸c˜ ao proposta por Shannon a partir de um auto questionamento: “Pode- mos definir uma quantidade que possa medir, de alguma maneira, quanta in- forma¸c˜ ao ´ e ‘produzida’ em um processo, ou melhor, a que taxa a informa¸c˜ ao
´ e produzida?” A partir da´ı, Shannon define que para uma medida deste tipo ser poss´ıvel, uma fun¸c˜ ao S dependente de probabilidades p
ipara W eventos deveria satisfazer as seguintes propriedades:
(1) S deveria ser cont´ınua em p
i.
(2) Se a probabilidade de todos os eventos forem iguais, ou seja p
i=
W1, ent˜ ao S deveria ser uma fun¸c˜ ao monotˆ onica crescente. Com eventos equiprov´ aveis, h´ a maior poder de escolha, ou maior incerteza, quando existir um n´ umero grande de eventos poss´ıveis.
(3) Para dois subsistemas estatisticamente independentes A e B a fun¸c˜ ao S para o sistema composto A + B deveria apresentar a propriedade aditiva, de forma que: S(A + B) = S
A+ S
B.
Tendo em conta estas propriedades, Shannon enuncia o seguinte teorema:
Teorema 1 − A ´ unica fun¸c˜ ao que satisfaz as trˆ es condi¸c˜ oes anteriores ´ e da forma:
S = − K
i
p
i· log p
i(18)
2
Esta demosntra¸c˜ ao matem´ atica est´ a presente no Apendice A.
em que K ´ e uma constante positiva que, por conveniˆ encia em sistemas de informa¸c˜ ao, ´ e considerada de valor unit´ ario.
Recentemente, Santos [11] generalizou o conhecido teorema de Shannon, que define a equa¸c˜ ao 18 como uma medida quantitativa da informa¸c˜ ao de uma fonte. ´ E conhecido da estat´ıstica Tsallis que S
qdefinido anteriormente na equa¸c˜ ao 16 satisfaz as seguintes condi¸c˜ oes:
(1) S
q´ e cont´ınua em p
i, para 0 < p
i< 1.
(2) Para um conjunto de W de eventos equiprov´ aveis, ou seja, p
i=
W1, ent˜ ao S
q´ e uma fun¸c˜ ao monotˆ onica crescente.
(3) Para dois subsistemas estatisticamente independentes A e B a entropia generalizada S
qdo sistema composto A + B satisfaz a rela¸c˜ ao de pseudo- aditividade
S
q(A + B) = S
q(A) + S
q(B) + (1 − q) · S
q(A) · S
q(B) (19) Tendo em conta as trˆ es condi¸c˜ oes anteriores, Santos define em [11] o seguinte teorema:
Teorema 2 − A ´ unica express˜ ao que satisfaz de forma simultˆ anea todas as condi¸c˜ oes acima ´ e a entropia generalizada Tsallis:
S
q= k
1 −
Wi=1
p
qiq − 1 (20)
Deste forma, fica definido que a entropia Tsallis pode ser utilizada como uma medida de informa¸c˜ ao adequada para a utiliza¸c˜ ao em sistemas de informa¸c˜ ao que apresentam caracter´ısticas n˜ ao extensivas
3.
3.3 Entropia Relativa Generalizada
Inicialmente, torna-se necess´ ario apresentar a deriva¸c˜ ao da express˜ ao da en- tropia relativa pelo caso convencional. Assumindo que um conjunto de eventos W com probabilidades p
i, considerando o ´ındice i para os eventos W , a en- tropia de Shannon ´ e definida como na equa¸c˜ ao 18. Considerando a quantidade I
i= − log p
icomo a informa¸c˜ ao pr´ opria de cada evento, conforme definido na se¸c˜ ao 1.2, e tomando p
ie p
icomo probabilidades para dois conjuntos de eventos, podemos afirmar qua a diferen¸ca de informa¸c˜ ao obtida atrav´ es destas
3
O Apˆ endice A apresenta a demonstra¸c˜ ao do Teorema 1, como definido por Shan-
non. A demonstra¸c˜ ao do Teorema 2 pode ser encontrada em [11]
duas medidas ´ e
∆I
i= − (log p
i− log p
i) (21)
A taxa m´ edia da informa¸c˜ ao modificada pode ser obtida atrav´ es da express˜ ao a seguir
D(p : p
) =
i
p
i· ∆I
i=
i
p
i· log p
ip
i(22)
Esta ´ e a defini¸c˜ ao convencional para o ganho de informa¸c˜ ao Kullback-Leibler, tamb´ em conhecido como entropia relativa.
Em recente trabalho publicado, Lisa Borland [12] generalizou o ganho de informa¸c˜ ao Kullback-Leibler para a estat´ıstica n˜ ao extensiva. Uma medida Kullback-Leibler generalizada se deriva naturalmente da aplica¸c˜ ao do formal- ismo da entropia Tsallis no lugar do convencional de Shannon. A partir da equa¸c˜ ao 15 podemos definir portanto, a informa¸c˜ ao pr´ opria n˜ ao extensiva de cada evento, ou seja, I
iq= −
(p1−qi1−q−1). Considerando novamente p
ie p
icomo as probabilidades para dois conjuntos de eventos medidos, a diferen¸ca de in- forma¸c˜ ao entre as medidas ´ e
∆I
iq=
1 (1 − q)
·
(1 − p
i1−q) − (1 − p
1i−q) (23)
A taxa m´ edia da informa¸c˜ ao modificada pode ser obtida atrav´ es da express˜ ao a seguir
D
q(p : p
) =
i
p
qi1 − q ·
p
1i−q− p
i1−q(24)
que representa a entropia relativa generalizada. Esta express˜ ao pode ser escrita de outra forma, considerando a fun¸c˜ ao q-logar´ıtmica, log
q(p) =
p1−q1−q−1definida em [13], resultando em
D
q(p : p
) =
i