Limites Fundamentais de Desempenho

(1)

Limites Fundamentais de

Desempenho

G. V. Mendon¸ca, E. A. B. da Silva, P. S. R. Diniz gelson,eduardo,diniz@smt.ufrj.br

Laborat´orio de Sinais, Multim´ıdia e Telecomunica¸c˜oes – COPPE/UFRJ

c

(2)

Incerteza, Informa¸

c˜

ao e Entropia

• Uma fonte produz K s´ımbolos independentes uns dos outros

S = {s0, s1, s2, . . . , sK−1}

• Cada s´ımbolo tem uma probabilidade de sa´ıda (aparecimento) igual a pk,

k = 0, . . . , k = K. Quando isso acontece chamamos a fonte de ”fonte discreta

sem mem´oria”.

1.1 - Medida da Informa¸c˜ao

• Informa¸c˜ao e incerteza est˜ao relacionadas. • Exemplo:

– X = ”A lua gira em torno da terra”. Este tipo de informa¸c˜ao n˜ao traz

(3)

• Ent˜ao define-se a quantidade de informa¸c˜ao (I) como sendo:

I(sk) = log₂

1

pk

(bits)

Obs.: A unidade ´e bits porque se usa log na base 2. – base e – Nats

(4)

• Esta medida de informa¸c˜ao satisfaz a:

1. pk = 1 → I(sk) = 0

2. 0 _{≤ p}k ≤ 1 → I(sk) ≥ 0

– Um evento ou traz alguma ou nenhuma informa¸c˜ao, mas n˜ao traz perda

(I < 0) de informa¸c˜ao.

3. Se p_i < p_k ent˜ao I_s_i > I_s_k

4. Se si e sj são independentes então a informa¸cão devida a sisj (si seguida de

(5)

1.2 - Entropia de uma Fonte: H(S)

• É a média de I(si), ou seja, é a informa¸cão média proveniente de uma fonte

sem mem´oria H(S) = E{I(s)} = K−1_# k=0 pk log₂ 1 pk = − K−1_# k=0 pk log₂ pk

• Propriedade: 0 ≤ H(S) ≤ log2 K onde K ´e o n´umero de letras do alfabeto

1. H(S) = 0 se p_i = 1 (um ´unico evento)

2. H(S) = log₂ K se pk = _K1 para k = 0, 1, 2, . . . , K − 1 (s´ımbolos igualmente

(6)

Exemplo: Fonte Bin´aria sem Mem´oria

• Dois s´ımbolos a e b ou 0 e 1 com probabibilidades p e 1 − p

H(S) = p log 1 p + (1 − p) log 1 1 − p 0 H(s) 1 0.5 p

Entropia de Blocos de S´ımbolos de uma Fonte sem Mem´oria

(7)

Exemplo: S = {S₀, S₁, S₂}, p(S₀) = 1 4, p(S1) = 1 4, p(S2) = 1 2 H(s) = 1 4 log2 ! 1 1/4 " + 1 4 log2 ! 1 1/4 " + 1 2 log2 ! 1 1/2 " = 3 2 bits

(8)

• Agora, agrupo os s´ımbolos 2 a 2. • N´umero de grupamentos 2 a 2: AR23 = 32 = 9 ⇒ S = {σ0σ1σ2 · · · σ8} σ0 σ1 σ2 σ3 σ4 σ5 σ6 σ7 σ8 S0S0 S0S1 S0S2 S1S0 S1S1 S1S2 S2S0 S2S1 S2S2 p(σ0) = 1 16 p(σ1) = 1 16 1 8 1 16 1 16 1 8 1 8 1 8 1 4 Ent˜ao, H(S2) = 8 # p(σi) log 1 = 3 bits

(9)

2 - Codifica¸c˜ao da Fonte

• Codifica¸cão eficiente depende de códigos de comprimento variável porque os

pk’s s˜ao diferentes

• Códigos eficientes devem ser unicamente decodificáveis e de preferência, instantâneos

• Comprimento m´edio de c´odigo L =

K−1_#

k=0

l_kp_k bits/s´ımbolo, onde l_k ´e o

comprimento do c´odigo da letra sk

• Eficiˆencia do c´odigo: η = Lmin

(10)

3 - O Primeiro Teorema de Shannon

Lmin = H(S) ou seja L ≥ H(S) ou η =

H(S) L

Códigos não prefixos: Nenhum é prefixo de outro

Exemplo:

S´ımb. da fonte Prob. de ocorrência Cód. I Cód. II Cód. III

s0 0,5 0 0 0

s1 0,25 1 10 01

(11)

• Não unicamente decodificável: Código I • Unicamente decodificáveis: Códigos II e III • Condi¸cão códigos não prefixo: Código II

Código não prefixo _{⇒ ´}Arvores de código

• C´odigo II: 0 1 1 1 0 0 s s s s 0 1 2 3 Estado Inicial

(12)

Um código binário com condi¸cão de código não prefixo satisfaz a desigualdade de Kraft-McMillan:

K−1_#

k=0

2−lk ≤ 1

onde lk s˜ao os comprimentos dos c´odigos de cada letra sk, k = 0, . . . , K − 1.

Uma fonte discreta sem memória com entropia H(S) possui código com condi¸cão

de n˜ao prefixo cujo comprimento m´edio L satisfaz a:

(13)

Para blocos de s´ımbolos sn, tem-se: H(Sn) = nH(S) com comprimento m´edio por

n s´ımbolos dado por Ln. Ent˜ao:

H(Sn) + 1 _{≥ L}n ≥ H(Sn), como H(Sn) = nH(S), tem-se: ⇒ nH(S) + 1 ≥ Ln ≥ nH(S) ⇒ H(S) + 1 n ≥ Ln n ≥ H(S),

´e o comprimento m´edio por s´ımbolo

⇒ lim

n_→∞

Ln

n → H(S)

(14)

M´

etodos de Codifica¸

c˜

ao

M´etodo de Fano

• Arrumam-se as letras em ordem decrescente de probabilidade.

• Divide-se em subgrupos cujas probabilidades estejam pr´oximas de 2−k

(k = 1, 2, . . .)

• Atribui-se a cada subgrupo o d´ıgito 0 e 1. Exemplo:

(15)

1 1 1 1 0 1 0 1 1 1 0 0 0 1 1 1 0 0.10 0.10 0.05 0.30 0.25 0.20 0.25 A D C B E F ⇒ L = 2 · 0.3 + 2 · 0.25 + 2 · 0.20 + 3 · 0.10 +4 _{· 0.10 + 4 · 0.05 = 2.4} H(S) = 5 # k=0 p_k log 1 pk = 2.366 ⇒ H(S) < L

(16)

C´

odigo de Huﬀman para Alfabetos Bin´

arios

(Codifica¸cão Próxima da Ótima)

1. Arrumam-se as letras em ordem decrescente de probabilidade.

2. As letras são encaradas como os nós terminais (folhas) de uma árvore binária.

3. Aos dois últimos nós (de menor probabilidade) são atribu´ıdos os bits 0 e 1.

4. Em seguida, eles s˜ao combinados para formar um novo n´o, cuja probabilidade

´e a soma das duas anteriores.

5. Os n´os restantes (incluindo o novo) s˜ao re-arrumados em ordem decrescente de

(17)

Exemplo: 0.30 0.25 0.20 0.25 0 1 0 1 0 1 0 1 0.10 0.10 0.05 0 1 a 1 a 2 a 3 a 4 a 5 a 6 0.30 0.25 0.20 0.10 0.15 0.30 0.25 0.25 0.20 0.45 0.30 0.25 0.55 0.45 1.0 Ordem de transmissao dos bits

0.30 0.25 0.20 0.10 0.10 0.05

00 01 11 101 1000 1001

(18)

• A idéia por trás do código de Huffman pode ser entendida supondo que se

obteve uma ´arvore qualquer mais ou menos otimizada. Ent˜ao:

– Os dois s´ımbolos menos prov´aveis podem ser agrupados com um ´unico

s´ımbolo (n´o), cuja probabilidade ´e a soma das probabilidades de cada um;

– A distin¸cão entre os dois é feita colocando-se ao final dos códigos de cada

novo s´ımbolo, um “0” em um e um “1” em outro, resultando em dois

c´odigos, um para cada um dos s´ımbolos agrupados.

– Repetindo-se esse procedimento, até que só haja dois s´ımbolos (nós), vai se

chegar a dois ´unicos s´ımbolos que re´unem o agrupamento de diversos outros.

– A distin¸cão entre esses dois únicos s´ımbolos é feita por um “0” e um “1”,

(19)

C´

odigos de Huﬀman com Alfabetos n˜

ao Bin´

arios

• Códigos: compostos de números base D (códigos de Huffman tradicionais,

D = 2).

• Completa-se o alfabeto com s´ımbolos de probabilidade zero at´e que se tenha um alfabeto de tamanho D + m(D − 1) s´ımbolos, onde D = 2 (caso bin´ario) ou

D = 3 (caso ternário), etc., e m é um inteiro qualquer, representando o número

de vezes que se far´a agrupamentos de D em D s´ımbolos.

• Depois procede-se de maneira idêntica ao caso de códigos binários, só que

combinando-se os D nós com menor probabilidade em um único nó.

– Caso isso não seja feito, a árvore de códigos poderá inicialmente conter

menos do que D ramos, tornando-se portanto n˜ao otimizada.

– O que se estaria fazendo, na verdade, seria inicialmente n˜ao agrupar D

(20)

Exemplo: Codificar em código de Huffman ternário, o alfabeto:

a

1

a

2

a

3

a

4

a

5

a

6

0.30

0.25

0.20

0.10

0.05

• N´umero de s´ımbolos do alfabeto a ser codificado = 6 ⇒ Ent˜ao: D + m(D − 1) = 3 + 2m – Se m = 1 _{→ total = 5 < 6 (NOK)} – Se m = 2 _{→ total = 7 ≥ 6 (OK)} 0.30 0.25 0.20 0.25 0.10 0 a₁ a 2 a₃ a₄ 0.30 0.25 0.20 0.15 0.30 0.25 0.45 1.00 0 1 2 0 1 2

(21)

a

1

a

2

a

3

a

4

a

5

a

6

(22)

C´

odigos de Lempel-Ziv (Por Dicion´

ario)

• S˜ao os mais usados nos programas como ZIP, ARJ, COMPRESS, etc.

• Codifico um conjunto de s´ımbolos como um apontador para uma entrada em

um dicion´ario.

• Exemplo:

the_{·brown·fox·jumped·over·the·brown·}

foxy·jumping·frog.

Seria codificado como:

(23)

S˜ao conhecidos como c´odigos de Lempel-Ziv (LZ77, LZ78, LZW, etc.) LZ77

• Cada seqüência de caracteres é codificado como a trinca < o, l, c >, onde

– o indica quantos caracteres para trás da posi¸cão atual do buffer está o

in´ıcio do casamento;

– l indica o tamanho do casamento;

– c indica um caracter de inova¸c˜ao que ´e adicionado depois que acaba o

(24)

• Exemplo 1:

. . . cabracadabrarrarrad . . .

– Supondo que a janela total ´e de 13 caracteres,temos ... c a b r a c a d a b r a r r a r r a d ... c a b r a c a | d a b r a r <0,0,C(d)> a b r a c a d | a b r a r r o=7 <7,4,C(r)> a d a b r a r | r a r r a d l=4 o=3 <3,5,C(d)>

(25)

<0,0,C(d)> <7,4,C(r)> <3,5,C(d)> o=7 l=4 o=3 l=5 c a b r a c a | d c a b r a c a d | a b r a r c a b r a c a d a b r a r | r a r r a d

(26)

• Exemplo 2:

a b c a b c a b c a b c a b c d ...

<0,0,C(a)>,<0,0,C(b)>,<0,0,C(c)>,<3,12,C(d)>,...

• PKZIP, ZIP, LHarc, PNG, gzip e ARJ usam LZ77 + C´odigos de comprimento vari´avel.

(27)

LZ78

• Cada nova frase é codificada como um ´ındice de uma palavra do dicionário + um caracter de inova¸cão.

– Dicion´ario incial: vazio

– Codifico: palavra do dicion´ario + inova¸c˜ao

– Atualizo dicion´ario: ´ultima palavra codificada

a a a b b a b a a b a a a b a b

(0,a) (1,a) (0,b) (3,a) (4,a)

a | a a | b | b a | b a a | b a a a | b a b

(5,a) (4,b)

(28)

0: “ ” 1: a 2: aa 3: b 4: ba 5: baa 6: baaa 7: bab

(29)

" " a a b 0 1 2 3 a a b a 4 5 6 7

(0,a) (1,a) (0,b) (3,a) (4,a)

a | a a | b | b a | b a a | b a a a | b a b

(5,a) (4,b)

• Codifica¸c˜ao:

(30)

– Não havendo casamento, incluo o nó na árvore correspondente ao próximo caracter.

– ´E r´apida.

• Decodifica¸c˜ao:

– Os s´ımbolos recebidos dão o caminho na árvore e a sua constru¸cão.

(31)

LZW

• Cada nova frase é codificada como um ´ındice de uma palavra do dicionário, Não há caracter de inova¸cão.

• Para isto, o dicion´ario inicial cont´em o alfabeto.

– Dicion´ario incial: alfabeto.

– Codifico: palavra do dicion´ario.

– Atualizo dicionário: última palavra codificada + 1o caracter da próxima

palavra.

a a b a b a b a a a

a | a | b | a b | a b a | a a

0 0 1

3

5

2

<EOF> 2 ₃ ₄ 5 ₆ ₇

(32)

Dicion´ario: 0: a 1: b 2: aa 3: ab 4: ba 5: aba 6: abaa 7: aa

(33)

a | a | b | a b | a b a | a a 0 0 1 3 5 2 <EOF> 2 ₃ ₄ 5 ₆ ₇ a a b 2 1 a a 5 6 a b 7 <EOF> 0 3 4

(34)

Codifica¸

c˜

ao Aritm´

etica

• Uma mensagem ´e representada por um intervalo contido em [0, 1) da seguinte forma:

– Para N s´ımbolos o intervalo ´e dividido em N subintervalos tal que o

intervalo correspondente ao s´ımbolo s_i possui largura igual `a sua

probabilidade.

– A medida que a mensagem vai sendo transmitida, o intervalos v˜ao sendo gerados de acordo com a figura (no caso para 2 s´ımbolos):

(35)

b 1 0 0.25 0 0.5 0.5 0.5 0.25 0.25 0.25 0.375 0.375 0.3125 0.3125 0.28125 a b a a

(36)

• Quando o valor de um d´ıgito para de variar (intervalo pequeno o suficiente) eu

j´a posso transmiti-lo.

• É o mais eficiente dos métodos em termos de compressão, mas ainda é

computacionalmente mais “caro” que os códigos de Huffman ou por Dicionário.

(37)

Canais Discretos sem Mem´

oria

Canal

Discreto

sem Memoria

Y

1

Y

0

Y

K-1

X

1

X

0

X

J-1

(38)

• Matriz de probabilidades: P = ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣

p(y0 | x0) p(y1 | x0) · · · p(yk−1 | x0)

p(y0 | x1) p(y1 | x1) · · · p(yk−1 | x1)

..

. ... . .. ...

p(y0 | xj−1) p(y1 | xj−1) · · · p(yk−1 | xj−1)

⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ • O somat´orio nas linhas = 1, ou seja

K−1_#

k=0

(39)

Canal BSC (Binary Symmetric Channel)

(40)

Pode-se calcular a entropia da fonte H(X) e a entropia da sa´ıda H(Y): H(X) = K−1_# k=0 p(xk) log₂ ) 1 p(x_k) * H(Y) = J−1 # j=0 p(yj) log₂ ) 1 p(yj) *

(41)

(42)

• H(X) representa a incerteza m´edia da entrada • H(Y) representa a incerteza m´edia da sa´ıda

• H(X | Y) representa a incerteza m´edia da entrada conhecida a sa´ıda (chamado de equ´ıvoco)

(43)

Informa¸c˜

ao M´

utua I(X; Y)

I(X; Y) = H(X) − H(X | Y) ⇒ I(X; Y) = K−1_# k=0 J−1 # j=0 p(xk)p(yj | xk) % &' ( p(xk,yj) log₂ p(yj | xk) p(yj) % &' ( I(xk,yj) Exemplo: -2 -2 -2 -2 p= p= 3 4 4 1 1-10 a b 10 10 1-10 a b

(44)

H(X) = 3 4 log2 1 3 4 + 1 4 log2 1 1 4 = 0.811 bits/s´ımbolo p(y0 = a) = 3 4(1 − 10 −2_{) +} 1 4 · 10 −2 _{= 0.745} p(y1 = b) = 1 − p(y0) = 0.255 ⇒ H(Y) = 5 8 log2 1 5 8 + 3 8 log2 1 3 8 = 0.81919 bits/s´ımbolo

(45)

• H(Y) > H(X) → mais bits chegando no receptor do que bits enviados, devido aos erros introduzidos pelo canal.

• C´alculo de I(X; Y):

I(a; a) = log₂ 1 − 10 −2 0.745 = 0.41023 bits I(a; b) = log₂ 10 −2 0.255 = −4.67289 bits I(b; a) = log₂ 10 −2 0.745 = −6.21979 bits I(b; b) = log₂ 1 − 10 −2 0.255 = 1.95713 bits I(X; Y) = 1 # k=0 1 # j=0 p(xk)p(yj | xk)I(xk; yj) ⇒ I(X; Y) = 0.73839 bits/s´ımbolo

(46)

• Equ´ıvoco H(X | Y) = H(X) − I(X; Y) = 0, 811 − 0, 73839 = 0, 07261 bits/s´ımbolo • H(X | Y) = 0, 07261 bits/s´ımbolo → em m´edia precisamos de 0.07261 bits para

corrigir o erro que o canal introduz sobre x.

• I(X; Y) = 0, 73839 bits/s´ımbolo → quantidade m´edia (73.839%) de bits de

(47)

Propriedades de I(X; Y)

1. I(X; Y) = I(Y; X)

2. I(X; Y) _{≥ 0}

3. I(X; Y) = H(Y) − H(Y | X) = H(X) − H(X | Y) 4. I(X; Y) = H(X) + H(Y) − H(X, Y) onde H(X, Y) = # k # j p(xk, yj) log₂ 1 p(xk, yj)

(48)

H(X|Y) I(X,Y) _H(Y|X) H(X,Y)

(49)

Capacidade do Canal

• Num canal discreto sem mem´oria, as probabilidades p(yj | xk) s˜ao bem

definidas e dependem s´o do canal. Se variarmos as p(x_k) de entrada, I(X; Y)

variar´a de acordo com essas probabilidades.

• Define-se, ent˜ao, a capacidade C de um canal como sendo o valor m´aximo de

I(X; Y) quando se varia p(xk).

C = max

p(xk)

{I(X; Y)}

– Notar que esta maximiza¸cão está sujeita às restri¸cões

p(xj) ≥ 0, ∀j

J−1

#

j=0

p(xj) = 1

• Quando o canal é simétrico, a capacidade C é obtida fazendo-se

p(x0) = p(x1) = p(x2) = . . ., isto ´e, equiprobabilidade.

(50)

Neste caso: C = 1 + p log₂ p + (1 − p) log₂(1 − p) C = 1 − H(p) 1 x = 1 y₁ = 0 = 0 = 1 0 x 1-p 1-p p p 0 y

(51)

• Capacidade m´axima (duas possibilidades) 0 H(p) 1 0.5 p 0 C 1 0.5 p 1 y 1 y 1 x x₁ 0 y 0 y p=0 p=1 0 x x₀

(52)

t t t t bit 0 bit 1 Conversor D/A Filtro Passa Faixa + Amplificador Amplificador de FI Fonte de Letras A,B,C ... Modulador Digital Conversor A/D Filtro Anti Aliasing Modulador FM Demodulador FM Casado Filtro Lookup Table Decodificador da Fonte Letras Y bit 0 bit 1 de Letras Codificação 01010.... X

seqüência de bits Corretor de Erro Código Sinal Analógico da Fonte Codificação Conversor de Freqüência Externo Ruído Amplificador de Potência Circuito de Decisão Usuário Check de erro + Correção Sinal Binário Estimado Sinal Analógico

Signals, Multimedia and T

elecommunications COPPE /P oli -UFRJ SMT

(53)

Teorema da Codifica¸c˜

ao do Canal (Teorema de Shannon)

• O ru´ıdo causa erros (diferen¸cas) entre a seqüência de transmissão e a de

recep¸cão. Num canal BSC, p = 10−6, significa que em média haverá um bit

com erro em 1.000.000 bits transmitidos.

• Para se diminuir o erro introduzido pelo canal, pode-se codificar os bits que

ser˜ao enviados pelo canal (codifica¸c˜ao de canal).

Codificador de Canal Canal Discreto sem Memoria Destino Fonte sem Memoria Decodificador de Canal RUIDO

• Essa codifica¸c˜ao ´e feita introduzindo-se bits redundantes.

(54)

codifica¸cão com códigos de comprimento variável, aqui, introduz-se bits redundantes de forma controlada.

• Se a fonte produz k bits e o codificador de canal cont´em n bits (n > k); o

número de bits redundantes será n − k. A razão r = _nk é chamada de code rate.

(55)

• Pergunta: Existe algum esquema de codifica¸c˜ao de modo que a probabilidade

(que uma mensagem esteja errada) seja t˜ao pequena quanto se queira?

• Resposta: Sim, desde que satisfa¸ca ao teorema da codifica¸c˜ao do canal. Teorema de Shannon

Suponha que a fonte sem mem´oria tenha uma entropia H(S) bits/s´ımbolo e produza

s´ımbolos a cada Ts segundos. Suponha que o canal sem mem´oria tenha uma

capacidade C bits/s´ımbolo e possa ser usado a cada Tc segundos. Ent˜ao, se

H(S)

Ts

bits/seg _≤ C

Tc

bits/seg

´e poss´ıvel fazer um esquema de codifica¸c˜ao no qual s´ımbolos da fonte podem ser

transmitidos num canal ruidoso e reconstru´ıdos com uma probabilidade de erro arbitrariamente pequena.

(56)

• Caso a rela¸cão acima não seja satisfeita, não existirá nenhum modo de se diminuir essa probabilidade de erro, a menos que se use ”buffers”e algum

protocolo de comunica¸cão que inclua inicializa¸cão e parada de transmissão da

fonte para o canal.

– O ”buffer”será usado no canal, pois ele terá que reter bits já que ele (canal)

(57)

Exemplo: -2 -2 10 10 1-p 0 1 1-p 0 1 p= p=

(58)

Seja o esquema de codifica¸c˜ao seguinte: para cada bit da fonte, repete-se n vezes

esse bit, onde n = 2m + 1, m _{≥ 1. Exemplo: Para n = 3 faz-se:}

0 _{→ 000}

1 _{→ 111}

⎫ ⎬

⎭ →

Regra de codifica¸c˜ao arbitrada, sendo que para cada bit a ser transmitido, transmite-se repetidamente 3 bits iguais

• Regra de Decodifica¸c˜ao: – Se chegar 000 001 010 ⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪

(59)

– Se chegar 011 101 110 111 ⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭

(60)

Este código se baseia no fato de que é mais provável um erro do que dois erros na transmissão binária.

A probabilidade de haver mais do que m erros ser´a ent˜ao:

Pe = n # i=m+1 Ci_npi(1 − p)n−i • com m = 1 e n = 3 tem-se Pe = 3 # i=2 Ci₃(10−2)i(1 − 10−2)3−i • No exemplo temos r = 1₃ = 0.333 e Pe = 2.98 · 10−4 • Para n = 5, tem-se r = 1 5

(61)

Code Rate r = 1/n Prob. m´edia de erro, P_e 1 10−2 1/3 3 _{· 10}−4 1/5 10−6 1/7 4 _{· 10}−7 1/9 10−8 1/11 5 _{· 10}−10

(62)

1e-09 1e-08 1e-07 1e-06 1e-05 1e-04 1e-03 1e-02 1e-01 Pe de r (code rate).

de erro Pe as custas da diminuicao Essa curva mostra o compromisso entre a diminuicao da probabilidade

Capacidade do canal C = 0.9192 bits/simbolo

(63)

Entropia e Informa¸

c˜

ao M´

utua para Vari´

aveis Cont´ınuas

• Como uma variável cont´ınua pode assumir “infinitos” valores diferentes, é razoável supor que a sua entropia tenda a infinito.

• Entretanto, é ingável que algumas variáveis cont´ınuas tenham maior conteúdo

de informa¸c˜ao que outras. Assim, ´e interessante termos uma grandeza que

possa de certa forma medir, ao menos comparativamente, esta quantidade de

informa¸c˜ao.

– Para isto definimos a entropia diferencial. h(X) = -_∞ −∞ f_X(x) log₂ ) 1 fX(x) * dx

• Uma justificativa para a express˜ao acima ´e dada pelo seguinte argumento:

– Dividindo a vari´avel aleat´oria X em valores discretos xk = k∆x, onde

k = 0, _{±1, ±2, . . ., temos que nos aproximaremos da vari´avel cont´ınua se}

(64)

H(X) = lim ∆x_→0 ∞ # k=−∞ f_X(xk)∆x log₂ ! 1 fX(xk)∆x " = lim ∆x_→0 + _∞ # k=−_∞ fX(xk) log₂ ! 1 f_X(xk) " ∆x − log₂(∆x) ∞ # k=−∞ fX(xk)∆x , = -_∞ −∞ fX(xk) log₂ ! 1 f_X(xk) " dx − lim ∆x_→0log2(∆x) -_∞ −∞ f_X(x)dx = h(X) − lim ∆x→0log2(∆x)

(65)

• Além disso, no caso de grandezas relativas, como é o caso da informa¸cão

mútua, o termo infinito é cancelado, a informa¸cão mútua diferencial

correspondendo realmente a uma medida de quatidade de informa¸c˜ao. Ela ´e dada por I(X; Y) = -_∞ −∞ -_∞ −∞ f_X,Y(x, y) log₂ ) f_Y|X(y | x) fY(y) * dx dy

• Como a informa¸cão mútua diferencial é exatamente a informa¸cão mútua da variável discreta que toma infinitos valores e se aproxima de X, então as suas

propriedades são exatamente as mesmas da informa¸cão mútua não diferencial,

isto ´e,

1. I(X; Y) = I(Y; X)

2. I(X; Y) _{≥ 0}

3. I(X; Y) = h(Y) − h(Y | X) = h(X) − h(X | Y) 4. I(X; Y) = h(X) + h(Y) − h(X, Y)

(66)

Exemplos:

• Vari´avel aleat´oria uniforme:

fX(x) = ⎧ ⎨ ⎩ 1 a, 0 < x < a 0, n.d.p. h(X) = -a 0 1

a log2(a)dx = log2(a)

• Vari´avel aleat´oria Gaussiana:

fX(x) = 1 √ 2πσe −(x−µ)2 2σ2 h(X) = − -_∞ −∞ 1 √ 2πσe −(x−µ)2 2σ2 ) log₂ ! 1 √ 2πσ " − (x − µ) 2 2σ2 log2 e * dx = − log₂ ! 1 √ 2πσ " + 1 2 log2 e = 1 2 log2(2πeσ 2₎

(67)

Teorema da Capacidade do Canal

• x(t): sinal transmitido, com: – Potˆencia P;

– Banda passante B.

• y(t) = x(t) + w(t): sinal recebido • w(t) ´e um ru´ıdo branco aditivo com:

– Fun¸c˜ao densidade de probabilidade N(0, σ2);

– Densidade espectral N0

2 ;

– Banda passante B.

• A capacidade C do canal ´e dada por:

C = B log₂ ! 1 + P σ2 " = B log₂ ! 1 + P N₀B " onde: – P

σ2 ´e a rela¸c˜ao sinal/ru´ıdo

(68)

• Expressando a capacidade do canal em bits/uso do canal (isto ´e, bits/s´ımbolo transmitido), temos que

C = 1 2 log2 ! 1 + P N0B "

(69)

• Seja X(t) um processo estacion´ario de m´edia zero limitado em banda a B Hz, e

sejam Xk, k = 1, . . . , K amostras deste processo `a taxa de Nyquist, 2B

amostras/s.

– Se estas amostras s˜ao transmitidas em um canal ruidoso, em T segundos,

que tamb´em possui banda B, ent˜ao

K = 2BT

• Se o canal ´e perturbado por ru´ıdo branco Gaussiano de m´edia zero e densidade

espectral de potˆencia N0

2 e banda B Hz, ent˜ao

Yk = Xk + Nk, k = 1, 2, . . . , K

– A variˆancia de N_k ´e dada por σ2 = N0B.

– Como o transmissor ´e limitado em potˆencia, temos que

(70)

• A capacidade do canal é dada pela máxima informa¸cão mútua entre a entrada

do canal X_k e a sa´ıda do canal Y_k,

C = max

f_Xk(x){I(Xk, Yk) | E[X

2

k] = P}

• Como Xk e Yk s˜ao cont´ınuas, I(Xk, Yk) ´e dada por

(71)

• Sendo Nk independente de Xk, ent˜ao maximizar I(Xk, Yk) ´e equivalente a

maximizar h(Y_k).

⇒ Yk tem que ser Gaussiano.

⇒ Como Nk ´e Gaussiano, ent˜ao Xk tem que ser Gaussiano. Desta forma, o

problema pode ser exprimido como

C = I(Xk, Yk) | Xk ´e Gaussiano e E[X2_k] = P

• Como a variância de Xk é P e a variância de Nk é σ2, então a variância de Yk é

(P + σ2). Desta forma, h(Yk) = 1 2 log2[2πe(P + σ 2_)] h(Nk) = 1 2 log2(2πeσ 2₎ Isto d´a C = 1 2 log2 ! 1 + P N0B " bits/uso do canal

(72)

• Como temos K amostras em T segundos, temos que usamos o canal K_T vezes em um segundo. Como K = 2BT , ent˜ao

C = B log₂

!

1 + P

N0B

(73)

Intrepreta¸c˜ao com empacotamento de esferas (sphere packing)

• Associando os sinais transmitidos, com n amostras, a pontos em um espa¸co n-dimensional, temos que cada forma de onda correspondendo a n amostras ´e um ponto em um espa¸co n-dimensional.

– Se temos K mensagens, temos K pontos no espa¸co.

• Como cada amostra est´a corrompida por ru´ıdo Gaussiano com potˆencia

σ2 = N0B, ent˜ao ´e como se cada vetor correspondente a cada s´ımbolo tivesse

uma incerteza de uma esfera de raio √nσ2_.

• Como a potência média recebida por amostra é P + σ2, então cada vetor

(74)

• ⇒ O n´umero total de vetores que podem ser recebidos sem erro (isto ´e, sem

haver superposi¸cão das esferas menores), é igual à razão entre os volumes

das duas esferas, e como o volume de uma esfera n-dimensional ´e Anrn,

temos que K = An[n(P + σ 2_)]n₂ A_n[n(σ2_)]n₂ = ! 1 + P σ2 "n 2

• Como a taxa por amostra ´e log2 K

n , etn˜ao deduzimos que

C = 1 2 log2 ! 1 + P σ2 "

(75)

(76)

Empacotamento de esferas e constela¸cões ótimas • Normalmente, o que se quer de uma constela¸cão é:

– A menor potência média poss´ıvel ∗ Maior eficiência.

– O maior n´umero de pontos poss´ıvel

∗ Maior taxa de transmiss˜ao poss´ıvel.

– A maior distˆancia m´ınima poss´ıvel entre os pontos da constela¸c˜ao

∗ Menor probabilidade de erro.

• Isto ´e obtido colocando os pontos de uma constela¸c˜ao no melhor empacotamento de esferas.

(77)

(78)

Implica¸c˜oes do Teorema da Capacidade do Canal

• Um sistema ideal ´e aquele que consegue transmitir com Rb = C.

• Se Eb é a energia transmitida por bit, então P = EbC. Isto dá

C B = log2 ! 1 + Eb N₀ C B " ⇒ Eb N₀ = 2CB − 1 C B • Um gr´afico de Rb B versus Eb

(79)

(80)

• Podemos observar o seguinte:

1. Para banda infinita, temos que lim B_→∞ ! E_b N₀ " = ln 2 = 0.693 (−1.6dB)

Este ´e o menor valor poss´ıvel de Eb

N0 que permite transmiss˜ao sem erro. A

capacidade correspondente ´e

C_∞ = lim

B→∞C =

P

N0

log₂ e

2. A fronteira de capacidade (capacity boundary) define o limite entre a

transmiss˜ao sem erro poss´ıvel (R_b < C) e a imposs´ıvel (R_b > C).

3. O diagrama evidencia o compromisso entre Eb

N0 , Rb

B e a probabilidade de

erro.

(81)

Exemplo: PCM M-´ario

• Supondo um sistema PCM com M n´ıveis espa¸cados de kσ, onde σ2 = N0B. Os

n´ıveis s˜ao ent˜ao

±kσ 2 ,± 3kσ 2 , . . . ,± (M − 1)kσ 2

E a potência média é

P = 2 M +! 1 2 "2 + ! 3 2 "2 + _{· · · +} ! M − 1 2 "2, (kσ)2 = k2σ2 ! M2 − 1 12 "

(82)

• Supomos que o PCM M-´ario acima vai ser usado para transmitir um sinal com banda W Hz. Ele ´e amostrado a 2W amostras/s, e quantizado com L n´ıveis

equiprov´aveis.

– A taxa que gastar´ıamos para representar este sinal seria

Rb = 2W log₂ L

• Supondo que para representar estes L n´ıveis precisar´ıamos de n formas de

onda PCM, isto ´e L = Mn, ent˜ao temos que a taxa seria

(83)

• Achando M em fun¸cão da potência média do PCM, temos que M = ! 1 + 12P k2_N 0B "2 Rb = Wn log₂ ! 1 + 12P k2_N 0B "

• Como cada pulso PCM ter´a a dura¸c˜ao de _2nW1 segundos, temos que a sua

banda é B = κnW, onde κ é uma constante entre 1 e 2. O menor poss´ıvel valor de banda é dado para κ = 1, isto é, B = nW. Assim, a equa¸cão acima fica

R_b = B log₂ ! 1 + 12P k2_N 0B "

• Notar a semelhan¸ca com a f´ormula da capacidade do canal.

– Na verdade, esta equa¸c˜ao mostra que, num sistema PCM, a potˆencia

(84)

Exemplo: PSK M-ário e FSK M-ário • Eficiência espectral do PSK M-ário:

Rb

B =

log₂ M

2

• Eficiˆencia espectral do FSK M-´ario:

R_b

B =

2 log₂ M

(85)

(86)

Capacidade de um Canal AWGN com Entrada Bin´

aria

• Temos um canal bin´ario AWGN

– +1 _{→ 1}

– −1 _{→ 0}

– Entrada é variável aleatória X

– Sa´ıda corrompida por ru´ıdo é variável aleatória Y.

– Ru´ıdo possui variˆancia σ2.

– S˜ao usados c´odigos corretores de erro com taxa r = _nk

• Vamos determinar a taxa de erro m´ınima em fun¸c˜ao de Eb

N0.

• Temos que I(X, Y) = h(Y) − h(Y | X).

• Como se X é dado, a única aleatoriedade de Y é devida ao ru´ıdo, temos então que

(87)

– Temos que a densidade de Y ´e uma mistura de duas distribui¸c˜oes Gaussianas, uma dada que X = 1 e outra dada que X = −1.

fY(y) = 1 2 1 1 √ 2πσ ) e−(y+1)22σ2 + e− (y−1)2 2σ2 *2 h(Y) = − -_∞ −_∞

fY(y) log₂[fY(y)]dy

– Do visto até agora, vê-se que a informa¸cão mútua é uma fun¸cão somente de

σ2, isto ´e,

(88)

• Como os s´ımbolos 0 e 1 são equiprováveis, então a informa¸cão mútua neste caso é igual à capacidade do canal. Assim, temos que a taxa do código satisfaz a

r < M(σ2)

(lembrar que no m´aximo, um canal bin´ario vai transmitir 1 bit/uso do canal;

assim, a máxima taxa do código poss´ıvel vai ser igual à capacidade do canal).

• Como P = EbC = Ebr, ent˜ao E_b N0 = P N0r = P 2σ2r σ2 = N0 2Ebr

(89)

(90)

Capacidade de um Canal com Ru´ıdo Colorido

• Agora, vamos estender o Teorema da Capacidade do Canal de Shannon para o caso de um canal com ru´ıdo n˜ao branco, ou colorido.

• Mais espec´ıficamente, dado um modelo de canal H(f), temos que:

1. Determinar qual ´e a entrada, dada pela sua densidade espectral de potˆencia

SX(f), que maximiza a informa¸c˜ao m´utua entre a sa´ıda do canal y(t) e a

entrada x(t), dado que a potˆencia de x(t) ´e fixo e igual a P.

2. A partir do SX(f) acima, determinar a capacidade do canal.

(91)

• Temos que, no caso (b),

SN′(f) =

SN(f)

|H(f)|2

• Usaremos o princ´ıpio de dividir o canal em um n´umero muito grande de canais estreitos e planos.

(92)

(93)

• O subcanal k possui capacidade igual a Ck = 1 2∆flog2 ! 1 + Pk σ2_k " , k = 1, 2, . . . , N onde: Pk = SX(fk)∆f, k = 1, 2, . . . , N σ2_k = SN(fk) |H(f)|2 ∆f, k = 1, 2, . . . , N

– O fator 1₂ vem do fato de que ∆f conta tanto a contribui¸cão das freqüências

(94)

• Temos ent˜ao que maximizar a capacidade total C _≈ N # k=1 Ck = 1 2 N # k=1 ∆flog₂ ! 1 + Pk σ2_k " sujeito a N # k=1 Pk = P = constante

• Usando multiplicadores de Lagrange, temos que maximizar o custo

J(P1, . . . , PN, λ) = 1 2 N # k=1 ∆f log₂ ! 1 + Pk σ2_k " + λ . P − N # k=1 Pk /

• Derivando J em rela¸c˜ao a cada Pk e igualando o resultado a zero, temos que

(95)

onde K independe do canal. A solu¸c˜ao ´e dada por

SX(fk) = K −

S_N(fk)

|H(f)|2 , k = 1, . . . , N

• Chamando de FA a faixa de freqüências em que a expressão acima é positiva.

Ent˜ao temos que (pois S_X(f) _{≥ 0, ∀f):}

SX(f) = ⎧ ⎨ ⎩ K − SN(fk) |H(f)|2 , f ∈ FA 0 n.d.p.

(96)

• Isto dá uma potência média igual a P = -f_∈FA ! K − SN(fk) |H(f)|2 " df

(97)

• A capacidade do canal correspondente ´e C _≈ 1 2 N # k=1 ∆flog₂ ! K|H(fk)| 2 S_N(fk) "

• Quando ∆f → 0, temos que

C = 1 2 -_∞ −∞ log₂ ! K|H(f)| 2 S_N(f) " df