Teoria da Informação

(1)

Introdução a Teoria da Informação

Prof. Márcio Lima

E-mail:marcio.lima@upe.poli.br

05.09.2009

Universidade de Pernambuco

(2)

Introdução

“A principal função de um sistema de comunicação é reproduzir,

exatamente ou de forma aproximada, uma informação proveniente

de outro ponto diferente.”

Claude Shannon, 1948

(3)

3

Introdução

Nascido nos Estados Unidos, formou-se em Matemática e Engenharia Elétrica em 1936 pela Universidade de Michigan.

Em 1937 ele estabeleceu uma ligação entre os circuitos elétricos e o formalismo lógico. Ao longo da Segunda Guerra Mundial, seus estudos deram origem a um ramo de estudos conhecido como Teoria da Informação. Shannon mostrou um caminho para projetar máquinas baseadas na lógica algébrica descrita por

George Boole, a qual se baseia em dois valores lógicos: 0 se um valor é falso e 1 se é verdadeiro.

Introdução a Teoria da Informação

(4)

Introdução

Na álgebra de Boole, se operações lógicas forem colocadas juntas, estas passam a formar uma nova operação lógica. Shannon, então, percebeu que essa álgebra poderia descrever o comportamento de circuitos elétrico

chaveados.

Esse foi o ponto de partida para a construção de computadores digitais: a

capacidade de um circuito elétrico realizar operações e armazenar informações. Em 1948 Shannon publicou dois trabalhos que originaram a Teoria da

Informação.

Em 1950 publicou A Chess Playing Machine em que propunha que

computadores digitais poderiam trabalhar simbolicamente com elementos representando palavras e proposições o que originaria, alguns anos depois, a Inteligência Artificial.

(5)

5

Introdução

Antes da transmissão o sinal tem de ser gerado, e.g., TV áudio e vídeo, além dos dados para controle da transmissão e interatividade.

O codificador de fonte transforma o sinal analógico captado em um sinal digital, para permitir o armazenamento em equipamento de memória.

Introdução a Teoria da Informação

(6)

Introdução

• Fonte: é comumente modelada por um sinal estocástico ou por um gerador de dados aleatórios.

• Transmissor: converte a saída da fonte em formas de onda adequadas para transmissão no canal.

• Codificador de Fonte: converso analógico/digital e remover detalhes desnecessários da informação (redundância)

• Codificador de Canal: adiciona redundância controlada à saída para combater os efeitos do canal (ruído), e.g., Reed-Solomon (BCH) e Virtebe (convolucional)

• Modulador: translada a saída do codificador de canal para uma forma de onda e freqüência adequada para a transmissão pelo canal.

(7)

7

Teoria da Informação – Prof. Márcio Lima

Introdução

• Canal: meio físico pelo qual a informação passa antes de alcançar o receptor, e.g., par de fios, fibra óptica, microondas (Serviço de Distribuição Multiponto Multicanal (MMDS)), etc.

• Receptor: processar a saída ruidosa do canal, com a finalidade de determinar a forma de onda transmitida.

• Demodulador: a partir da forma de onda recebida do canal, estima a forma de onda que foi enviada pelo transmissor e entrega uma versão digital correspondente.

• Decodificador de canal: tenta corrigir os possíveis erros e produz sua estimativa dos dígitos de saída do codificador de fonte.

• Decodificador de fonte: processa a saída do decodificador de canal, repondo a redundância que foi removida, reconstruindo a mensagem a ser entregue ao destinatário.

• Destinatário:

(8)

Teoria da Informação

Teoria da informação é o nome da disciplina científica criada por Claude Shannon ao publicar em 1948 um dos mais importantes artigos na história da

engenharia.

Os objetivos principais da teoria da informação são o estabelecimento de limitantes teóricos de desempenho de sistemas de transmissão de informação, de sistemas de armazenamento de informação e de sistemas

criptográficos. Atualmente encontramos aplicações de Teoria da

Informação em áreas bem estabelecidas, como por exemplo matemática, na prova de teoremas.

Introdução a Teoria da Informação

A primeira, etapa em nosso estudo da informação será definir uma medida da informação e investigar as propriedades desta medida.

(9)

9

Teoria da Informação

Informação Codificada

Introdução a Teoria da Informação

Dígitos Decimais Representação Binária 0 0000 1 0001 2 0010 3 0011 4 0100 5 0101 6 0110 7 0111 8 1000 9 1001

Tabela 1-1. Codificação binária dos dígitos decimais

A correspondência de sucessões binárias para dígitos decimais dados na Tabela 1-1 é um exemplo simples de um código. As 10 seqüências binárias da Tabela 1-1 são chamadas palavras-código, e os 10 dígitos decimais são chamados os símbolos da mensagem.

A possibilidade de recuperar as palavras-código binárias para os símbolos da mensagem correspondentes, nem sempre possível.

(10)

Teoria da Informação

Introdução a Teoria da Informação

Por exemplo, considere o código definido da Tabela 1-2.

111001 , (1-1)

poderia ser decodificada em

s₄ s₃ , (1-2) ou em s₄ s₁s₂ . (1-3) Símbolos da massagem Palavra-Código s₁ 0 s₂ 01 s₃ 001 s₄ 111

Tabela 1-2. Um Código Binário

Se determinamos uma sucessão de palavras código deste código, nós podemos não poderemos recuperar o jogo original símbolos da mensagem. A sucessão binária

(11)

11

Teoria da Informação

Introdução a Teoria da Informação

Por outro lado, considere as palavras-código do palavras-código da Tabela 1-3.

Tabela 1-3. Um Código Binário

Pode-se recuperar a seqüência original de símbolos da mensagem. A sucessão binária

0111001

É possível receber a sequência 001111111?

Símbolos da massagem Palavra Código s₁ 0 s₂ 01 s₃ 011 s₄ 0111

(12)

Teoria da Informação

Transmissão de Informação

Introdução a Teoria da Informação

Para simplificar o assunto, é desejado classificar o estado de tempo em São Francisco em quatro possíveis condições – “sunny” (ensolarado), “cloudy” (nublado), “rainy” (chuvoso), ou “foggy” (nebuloso). Pode-se definir probabidades associadas a cada evento desta localidade da forma descrita na Tabela 1.4.

Messagem Probabilidade

Sunny ¼

Cloudy ¼

Rainy ¼

Foggy ¼

Table 1-4. O Estado do Tempo

Um possível método de codificação destas mensagens em uma sucessão de símbolos binários é montar a correspondência seguinte, código chamado Ω,

Sunny………. 00

Cloudy……… 01

Rainy……….. 10

Foggy………. 11

Código Ω

Assim, usando código Ω, “sunny”; “foggy”; “foggy”; “cloudy”, seria codificado como “00111101.”

(13)

13

Teoria da Informação

Introdução a Teoria da Informação

Agora; considere um problema similar apresentado a um engenheiro em quatro possíveis condições – “sunny” (ensolarado), “cloudy” (nublado), “rainy” (chuvoso), ou “smoggy” (neblina (fumaceira)). Pode-se definir probabidades associadas a cada evento desta localidade da forma descrita na Tabela 1.4.

Mensagem Probabilidade

Sunny ¼

Cloudy ⅛

Rainy ⅛

Smoggy ½

Se nós usamos o código Ω para transmitir esta informação, nós faremos a mesma coisa, mas não melhoraremos o sistema de comunicação. Porém, considere a possibilidade de usar o código seguinte, código chamado Ψ, para transmitir a informação:

Sunny………. 10

Cloudy……… 110

Rainy……….. 1110

Foggy………. 0

Código Ψ _{Usando o código Ψ para transmitir a mensagem}

“sunny”; “smoggy”; “smoggy”; “cloudy”, seria codificado como “1000110.”

(14)

Teoria da Informação

Introdução a Teoria da Informação

A duração comum L (em binits) de uma palavra de código usando código pode ser calculado como,

Mensagem Probabilidade

Sunny ¼

Cloudy ⅛

Rainy ⅛

Smoggy ½

Pode-se verificar que se código usado para transmitir o tempo decrito na Tabela 1-4, tem um valor de duração de L=2

½

binits por mensagem.



sunny





cloudy





rainy





smoggy



L  2Pr 3Pr 4Pr 1Pr

 

   

₁

 

1₂ 8 1 4 8 1 3 4 1 2     messagem binits L / 8 7 1 

(15)

15

O que é Teoria da Informação

Introdução a Teoria da Informação

A medida de Hartley

O único trabalho anterior ao de Shannon, do qual se tem notícia, foi desenvolvido por R.V.L. Hartley e intitula-se Transmission of Information, Bell

System Technical Journal.

Talvez o mais importante foi o seu reconhecimento de que a recepção de um determinado símbolo só fornece informação se o mesmo fizer parte de um conjunto de símbolos com pelo menos dois símbolos.

Em outras palavras, o projeto de sistemas de comunicações deveria ser feito levando em conta a transmissão de quantidades informação, ao invés de apenas reproduzir senoides determinísticas.

(16)

O que é Teoria da Informação

Introdução a Teoria da Informação

Por exemplo, numa central telefônica com 10.000 assinantes, cada assinante seria identificado por um número distinto com quatro dígitos decimais, visto que 0000; 0001; 0002; ....; 9999 são os 10.000 números possíveis. Portanto a identificação de qualquer um dos 10.000 telefones desta central requer 4 dígitos decimais de informação.

De forma análoga, precisamos de 8 dígitos binários de endereço para acessar uma determinada posição de memória, numa memória semicondutora com 256 posições. Assim o endereço fornece 8 dígitos binários (bits) de informação.

(17)

17

O que é Teoria da Informação

Introdução a Teoria da Informação

Considere a ocorrência de um símbolo, pertencente a um conjunto com K

símbolos. A informação provida pela ocorrência de n de tais símbolos deveria ser igual a n vezes o valor da informação provida pela ocorrência de um único

símbolo deste conjunto, embora existam Kn_{possíveis maneiras distintas para a}

ocorrência de n símbolos.

Isto sugere que log(Kn) = n logK é a medida apropriada de informação onde a

base selecionada (para o logaritmo) fixa o tamanho da unidade de informação, nas palavras do próprio Hartley.

Pode-se portanto expressar a medida de Hartley da quantidade de informação provida pela observação de uma variável aleatória discreta X como

onde K é o número de possíveis valores de X.

 

X

K

(18)

O que é Teoria da Informação

Introdução a Teoria da Informação

A medida de Shannon

Em 1948, vinte anos após a publicação do artigo de Hartley, Shannon publicou um artigo propondo uma nova medida de informação, a qual deflagrou uma explosão de atividades fazendo uso dos conceitos de Shannon, que perdura até hoje.

Considere um experimento em uma urna, sabendo que quando a urna contêm 7 bolas azuis e uma verde, existe uma chance em oito de escolhermos a bola verde. Desta forma, escolher esta bola é, num certo sentido, equivalente a escolhermos uma dentre oito possibilidades e assim tal escolha deveria fornecer log₂ 8 = 3 bits de informação. Contudo, existem sete chances dentre oito de escolhermos uma bola azul. Desta forma, escolher tal bola é, num certo sentido, equivalente a escolhermos uma dentre 8/7 possibilidades (!) e assim

(19)

19

O que é Teoria da Informação

Introdução a Teoria da Informação

O que fazer agora para compatibilizarmos estes dois resultados tão diferentes? Uma possibilidade (aparente-mente óbvia) é ponderarmos cada resultado pela respectiva probabilidade de ocorrência, obtendo





 



0 ,

1926



0 ,

5435

bits

8

7

3

8

1

7

8 log

8

7

8 log

8

1

2 2





















de informação provida pelo experimento aleatório X. Em geral, se o i-ésimo

valor de X tem probabilidade P_X(x_i), então a informação de Hartley

log(1/P_X(x_i)) = - log P_X(x_i) para este valor deveria ser ponderada por P_X(x_i), fornecendo

 

_X

 

_i K i i X

x

P

x

P







1

log

(20)

O que é Teoria da Informação

Introdução a Teoria da Informação

 

_X

 

_i K i i X

x

P

x

P







1

log

como a quantidade de informação provida por X. Esta é exatamente a

medida de Shannon, que poderia ser considerada como a informação média de Hartley. Shannon chamou esta medida de informação de entropia.

(21)

21

O que é Teoria da Informação

Introdução a Teoria da Informação

Estrutura da Língua

 

_X

 

_i K i i X

x

P

x

P







1

log

Considere o alfabeto da língua Inglesa, dessa forma, tem-se

 

S  log27 H symbol bits 75 . 4 

Symbol Probability Symbol Probability

Space 0.1859 N 0.0574 A 0.0642 O 0.0632 B 0.0127 P 0.0152 C 0.0218 Q 0.0008 D 0.0317 R 0.0484 E 0.1031 S 0.0514 F 0.0208 T 0.0796 G 0.0152 U 0.0228 H 0.0467 V 0.0083 I 0.0575 W 0.0175 J 0.0008 X 0.0013 K 0.049 Y 0.0164 L 0.0321 Z 0.0005 M 0.0198

(22)

Codificador de Fonte

Qualquer informação que precise ser armazenada ou transmitida, necessariamente, deve passar por um processa de quantização e eliminação de redundância.

O processo de codificação de fonte, ou digitalização de sinais, têm como objetivo reduzir a entropia do sinal pela fonte de dados, de forma controlada. A entropia representa a informação média fornecida pelos símbolos da fonte e é definida para um alfabeto de símbolos X, como

em que p(x) representa a probabilidade do símbolo x. A entropia,como medida de informação, é dada em shannon (Sh), mas é comum o uso do bit para designar o conteúdo de informação.

Codificação de Fonte

 

_{ }

x p x p X H X 1 log₂





(23)

23

Codificador de Fonte

Suponha, por exemplo, que um emissor transmita a mensagem "bom dia", letra por letra. Ao emitir as primeiras letras, há uma expectativa da parte do receptor, que vê surgir as letras "b", "o", "m", um espaço, e depois "d" e o "i". O "a" final é quase inútil, pois sua probabilidade de ocorrência é tão grande, para dar sentido à seqüência anterior, que a

quantidade de informação transmitida por essa letra é muito menor que a transmitida

pelas primeiras.

(24)

Codificador de Fonte

Seqüência da fonte de informação possui K diferentes símbolos, em que a

probabilidade de ocorrência do k-ésimo símbolo (a_k) é denominada p_k. A palavra código (binária) associada ao símbolo a_k tem tamanho l_k

Comprimento médio da palavra código: número médio de bits por símbolo da fonte usado na codificação:

Valor mínimo possível de L: L_min

Eficiência de codificação do codificador de fonte

Codificação de Fonte



 





1 0 K k k k

l

p

L

_min





(25)

Teorema:

Dada uma fonte de informação discreta com entropia H(A), o tamanho médio da palavra código L para qualquer codificação de fonte sem distorção é limitado por

25

Codificador de Fonte

Também chamado de Teorema da codificação sem ruído - trata da condição de codificação sem erros.

Responde a questão fundamental da codificação de fonte

Remoção da redundância de informação do sinal a ser transmitido. Processo geralmente chamado de compactação de dados ou compressão sem perdas

Codificação de Fonte

 

A

H

(26)

Amostrador do Sinal

No processo de amostragem, um sinal qualquer continuou no tempo é transformado em um sinal discreto no tempo

Codificação de Fonte

Amostrador Quantizador Codificador

a(t) x(t) y(t) b(t)

(27)

27

Amostrador do Sinal

Codificação de Fonte

Amostrador Quantizador Codificador

a(t) x(t) y(t) b(t)

Modelo genérico para um sistema de codificação de fonte. De acordo com o Teorema de Nyquist, a quantidade

de amostras por unidade de tempo de um sinal, chamada taxa ou freqüência de amostragem, deve

ser maior que o dobro da maior freqüência contida no sinal a ser amostrado, para que possa ser reproduzido integralmente sem erro de aliasing. A

metade da freqüência de amostragem é chamada

freqüência de Nyquist e corresponde ao limite

máximo de freqüência do sinal que pode ser reproduzido.



_A _M



M

A

f

(28)

Amostrador do Sinal

Codificação de Fonte

O processo de amostragem e geração do sinal modulado por amplitude de pulso (PAM) é mostrado na figura.

Aplicações:

•Telefonia: f_A= 8k amostras/s

•Compact Disc: f_A= 22k amostras/s •MPEG-1: f_A = 32, 44.1, 48 k amostras/s

(29)

29

Amostrador do Sinal

(30)

Amostrador do Sinal

Codificação de Fonte

Nos processo de amostragem de vídeo as lentes da câmera projetam sobre a superfície do sensor (Charge Coupled Device – CCD) uma imagem que é segmentada em elementos de imagem (picture elemnets – pixels)

Amostragem do Sinal de Vídeo

O dispositivo analisa o sinal analógico

proveniente da laitura dos pixels e o discretiza,

gerando o sinal no formato digital

(31)

31

Amostrador do Sinal

Codificação de Fonte

Após a digitalização, a imagem é composta por um número determinado de pixels, por exemplo, no formato NTSC DV, esse número é de 720 pixels de largura por 480 pixels de altura, ou seja, 345.600 pixels.

Amostragem do Sinal de Vídeo

Na digitalização DV, a componente de luminânica é amostrada à taxa de 13,5 M amostra/s. As componetes U e V, que representam as diferenças de cor em relação a Y, são amostradas a ua taxa de menor, 3,37 amostras/s (4:1:1).

(32)

Códigos de Fonte

Codificação de Fonte

Um código de bloco é não-singular se todas suas palavras-código forem distintas.

(33)

33

Códigos de Fonte

Codificação de Fonte

(34)

Códigos de Fonte

Codificação de Fonte

(35)

35

Códigos de Fonte

Codificação de Fonte

(36)

Códigos de Fonte

Codificação de Fonte

(37)

37

Códigos de Fonte

Codificação de Fonte

(38)

Códigos de Fonte

Codificação de Fonte

(39)

39

Códigos de Fonte

Codificação de Fonte

(40)