• Nenhum resultado encontrado

1.1 Teoria da Informação

1.1.1 Fontes Discretas

O artigo de Shannon lida com fontes de informação de naturezas discreta e contínua, e ele também estabelece uma divisão entre processos de transmissão com ou sem ruído. Na primeira parte do trabalho, que é dedicado à análise do caso discreto e sem ruído, Shannon apresenta uma medida fundamental 𝐻(·):

𝐻(𝑋) = −𝐾 ∑︁

𝑥∈𝒳

𝑝𝑋(𝑥) log 𝑝𝑋(𝑥), (1.1)

em que 𝑝𝑋(𝑥) é a função massa de probabilidade (PMF, do inglês Probability Mass Function)

da variável aleatória (VA) 𝑋. Considera-se que 0 log 0 = 0.

Após indicar na Equação 1.1 que, sem perda de generalidade, pode-se fazer 𝐾 = 1, Shannon diz que os valores desta medida são relevantes como “medidas de informação, escolha e incerteza” (SHANNON, 1948). Devidamente estabelece-se, assim, uma conexão com a Mecânica Estatística, e a medida 𝐻(·) é batizada de entropia, cuja unidade é o bit se for considerado o logaritmo de base 2. Feynman (1998) relata que a escolha deste nome por Shannon foi uma sugestão de John von Neumann, que supostamente argumentou que o uso do termo “entropia” lhe daria “...uma grande vantagem em debates, porque ninguém sabe o que é entropia, de qualquer maneira.”

A expressão proposta para 𝐻(·) é justificada em termos de uma série de proprieda- des que uma definição de entropia deveria possuir, como continuidade sobre os valores de probabilidade e crescimento monotônico com respeito ao número de eventos no caso uni- forme (SHANNON, 1948). A seguir, apresentamos algumas propriedades importantes de

𝐻(𝑋), que serão úteis para considerações futuras:

1. 𝐻(𝑋) = 0 se e somente se existe um único evento com probabilidade não nula (i.e., unitária). Isto significa que a entropia é nula quando não há incerteza a respeito do resultado de um experimento aleatório.

2. Dado um número 𝑛 de possíveis resultados, a entropia é máxima se todas as probabi- lidades equivalem a 1/𝑛. Isto significa que o caso de maior entropia ocorre com uma distribuição uniforme, o que é satisfatório do ponto de vista intuitivo, dado que as probabilidades não fornecem nenhuma “dica” para alguém que esteja interessado em prever o resultado — a incerteza é máxima.

3. A entropia conjunta de duas variáveis aleatórias, 𝑋 e 𝑌 , é definida por

𝐻(𝑋; 𝑌 ) = − ∑︁

𝑥∈𝒳

∑︁

𝑦∈𝒴

onde 𝑝𝑋𝑌(𝑥, 𝑦) é a PMF conjunta referente a 𝑋 e 𝑌 . Esta definição origina, por sua

vez, uma importante desigualdade:

𝐻(𝑋; 𝑌 ) ≤ 𝐻(𝑋) + 𝐻(𝑌 ), (1.3)

cuja situação de igualdade é possível somente se 𝑋 e 𝑌 são estatisticamente indepen- dentes, i.e., quando

𝑝𝑋𝑌(𝑥, 𝑦) = 𝑝𝑋(𝑥)𝑝𝑌(𝑦). (1.4)

Note que a desigualdade dada pela Equação 1.3 é bastante intuitiva: sempre que existe algum grau de dependência entre variáveis, a incerteza associada ao conhecimento con- junto delas será menor que a soma das incertezas dadas por uma análise separada. Quando as variáveis são independentes, temos que qualquer uma delas é inútil na ta- refa de reduzir a quantidade de incerteza associada à outra: portanto, a igualdade ocorre.

4. A entropia de uma distribuição condicional, chamada de entropia condicional, é dada por: 𝐻(𝑌 |𝑋) = −∑︁ 𝑥∈𝒳 𝑝𝑋(𝑥) ∑︁ 𝑦∈𝒴 𝑝𝑌 |𝑋=𝑥(𝑦) log 𝑝𝑌 |𝑋=𝑥(𝑦). (1.5)

A partir desta definição, pode-se demonstrar que

𝐻(𝑋; 𝑌 ) = 𝐻(𝑋) + 𝐻(𝑌 |𝑋), (1.6)

o que significa que a incerteza conjunta de 𝑋 e 𝑌 pode ser vista como a quantidade de incerteza vinculada a 𝑋 mais a incerteza associada a 𝑌 quando 𝑋 é conhecido (repare que a dependência tem um papel fundamental). A Equação 1.5 também pode ser reescrita em termos de 𝐻(𝑌 ) e 𝐻(𝑋|𝑌 ).

5. A partir da Equação 1.3 e da Equação 1.6, é possível obter a expressão

𝐻(𝑌 ) ≥ 𝐻(𝑌 |𝑋), (1.7)

que revela que a incerteza de uma VA nunca é aumentada pelo conhecimento de uma outra variável. O caso extremo — de independência — leva à igualdade.

Após definir o conceito fundamental de sequência típica, Shannon prova um teorema que estabelece, inexoravelmente, que a entropia da fonte de informação é o limite alcançável de eficiência para qualquer processo de codificação (note que, no caso sem ruído, o objetivo é de que haja compressão sem perdas, i.e., remoção de redundância).

Na sequência, ele analisa o caso de canais discretos com a presença de ruído. O princí- pio básico deste cenário é avaliar a possibilidade de transmitir dados mesmo sabendo que há

a chance de equívocos no processo de reconstrução, no receptor. Naturalmente, descarta-se a transmissão dos dados no formato “cru”, e a estratégia reside em utilizar algum método de codificação, mas determinar qual é o código apropriado é uma tarefa longe de ser trivial (CO- VER; THOMAS, 2006).

Shannon, com o seu estilo lúcido e leve, argumenta que, para um canal com ruído, a “taxa de transmissão real” (SHANNON, 1948) é dada por 𝐻(𝑋) − 𝐻(𝑋|𝑌 ) — sendo 𝑋 relacionado ao transmissor e 𝑌 ao sinal recebido. Esta quantidade é o que denominamos de informação mútua (IM), definida então como

𝐼(𝑋; 𝑌 ) = 𝐻(𝑋) − 𝐻(𝑋|𝑌 ). (1.8)

A sua linha de raciocínio é direta: 𝐻(𝑋) representa a entropia da fonte e 𝐻(𝑋|𝑌 ) é uma medida de equívoco, i.e., a ambiguidade média do sinal recebido. Note que a Equação 1.8 pode ser reescrita de duas formas:

𝐼(𝑋; 𝑌 ) = 𝐻(𝑌 ) − 𝐻(𝑌 |𝑋), (1.9)

e

𝐼(𝑋; 𝑌 ) = 𝐻(𝑋) + 𝐻(𝑌 ) − 𝐻(𝑋; 𝑌 ). (1.10)

Shannon fornece em seu artigo interpretações interessantes de ambas as expressões. A Equação 1.9 indica a quantidade de informação recebida menos aquilo que é devido ao ruído, e a Equação 1.10 é “a soma das duas quantidades (informação transmitida e infor- mação recebida) menos a entropia conjunta e, portanto, é o número de bits por segundo em comum” (SHANNON, 1948).

Podemos escrever 𝐼(𝑋; 𝑌 ) em termos de probabilidades

𝐼(𝑋; 𝑌 ) = ∑︁ 𝑥∈𝒳 ∑︁ 𝑦∈𝒴 𝑝𝑋𝑌(𝑥, 𝑦) log 𝑝𝑋𝑌(𝑥, 𝑦) 𝑝𝑋(𝑥)𝑝𝑌(𝑦) (1.11) e, assim, relacioná-la com a divergência de Kullback-Leibler

𝐷𝐾𝐿(𝑝; 𝑞) =

∑︁

𝑢

𝑝(𝑢) log𝑝(𝑢)

𝑞(𝑢), (1.12)

em que 𝑝 e 𝑞 são duas PMFs e se considera que 0 log00 = 0. Com estas duas expressões, temos a relação:

𝐼(𝑋; 𝑌 ) = 𝐷𝐾𝐿(𝑝𝑋𝑌(𝑥, 𝑦); 𝑝𝑋(𝑥)𝑝𝑌(𝑦)). (1.13)

A divergência de Kullback-Leibler, também chamada de entropia relativa, é uma me- dida de distância entre duas distribuições e, no caso da propriedade apresentada pela Equa- ção 1.13, mostra que a informação mútua também pode ser interpretada como a entropia

relativa entre a distribuição conjunta e a distribuição dada pelo produto das distribuições marginais (COVER; THOMAS, 2006). Veja que a informação mútua se anula no caso em que as variáveis em análise são independentes, o que a credencia como uma medida direta dessa condição estatística.

Retornando ao artigo de Shannon, ele prossegue provando um resultado impressio- nante: se um valor 𝐶 chamado de capacidade do canal não é excedido pela taxa de informação produzida na fonte, existe necessariamente um sistema de codificação capaz de resultar em uma transmissão com uma taxa de erro arbitrariamente pequena. À primeira vista, isto soa quase como inacreditável — um canal com ruído pode ser utilizado para enviar informa- ção com um erro de reconstrução arbitrariamente pequeno sem que a taxa tenda a zero. Não pertence ao escopo desta tese discutir em detalhes o método elegante que foi utilizado para provar este resultado, mas é importante registrar que a capacidade de um dado canal é definida em termos da maximização da informação mútua entre as variáveis vinculadas ao transmissor e ao receptor:

𝐶 = max

𝑝𝑋(𝑥)

𝐼(𝑋, 𝑌 ). (1.14)

Esta maximização é feita com respeito à estrutura de probabilidades da fonte de informação.