Limites Fundamentais de
Desempenho
G. V. Mendon¸ca, E. A. B. da Silva, P. S. R. Diniz gelson,eduardo,diniz@smt.ufrj.br
Laborat´orio de Sinais, Multim´ıdia e Telecomunica¸c˜oes – COPPE/UFRJ
c
Incerteza, Informa¸
c˜
ao e Entropia
• Uma fonte produz K s´ımbolos independentes uns dos outros
S = {s0, s1, s2, . . . , sK−1}
• Cada s´ımbolo tem uma probabilidade de sa´ıda (aparecimento) igual a pk,
k = 0, . . . , k = K. Quando isso acontece chamamos a fonte de ”fonte discreta
sem mem´oria”.
1.1 - Medida da Informa¸c˜ao
• Informa¸c˜ao e incerteza est˜ao relacionadas. • Exemplo:
– X = ”A lua gira em torno da terra”. Este tipo de informa¸c˜ao n˜ao traz
• Ent˜ao define-se a quantidade de informa¸c˜ao (I) como sendo:
I(sk) = log2
1
pk
(bits)
Obs.: A unidade ´e bits porque se usa log na base 2. – base e – Nats
• Esta medida de informa¸c˜ao satisfaz a:
1. pk = 1 → I(sk) = 0
2. 0 ≤ pk ≤ 1 → I(sk) ≥ 0
– Um evento ou traz alguma ou nenhuma informa¸c˜ao, mas n˜ao traz perda
(I < 0) de informa¸c˜ao.
3. Se pi < pk ent˜ao Isi > Isk
4. Se si e sj s˜ao independentes ent˜ao a informa¸c˜ao devida a sisj (si seguida de
1.2 - Entropia de uma Fonte: H(S)
• ´E a m´edia de I(si), ou seja, ´e a informa¸c˜ao m´edia proveniente de uma fonte
sem mem´oria H(S) = E{I(s)} = K−1# k=0 pk log2 1 pk = − K−1# k=0 pk log2 pk
• Propriedade: 0 ≤ H(S) ≤ log2 K onde K ´e o n´umero de letras do alfabeto
1. H(S) = 0 se pi = 1 (um ´unico evento)
2. H(S) = log2 K se pk = K1 para k = 0, 1, 2, . . . , K − 1 (s´ımbolos igualmente
Exemplo: Fonte Bin´aria sem Mem´oria
• Dois s´ımbolos a e b ou 0 e 1 com probabibilidades p e 1 − p
H(S) = p log 1 p + (1 − p) log 1 1 − p 0 H(s) 1 0.5 p
Entropia de Blocos de S´ımbolos de uma Fonte sem Mem´oria
Exemplo: S = {S0, S1, S2}, p(S0) = 1 4, p(S1) = 1 4, p(S2) = 1 2 H(s) = 1 4 log2 ! 1 1/4 " + 1 4 log2 ! 1 1/4 " + 1 2 log2 ! 1 1/2 " = 3 2 bits
• Agora, agrupo os s´ımbolos 2 a 2. • N´umero de grupamentos 2 a 2: AR23 = 32 = 9 ⇒ S = {σ0σ1σ2 · · · σ8} σ0 σ1 σ2 σ3 σ4 σ5 σ6 σ7 σ8 S0S0 S0S1 S0S2 S1S0 S1S1 S1S2 S2S0 S2S1 S2S2 p(σ0) = 1 16 p(σ1) = 1 16 1 8 1 16 1 16 1 8 1 8 1 8 1 4 Ent˜ao, H(S2) = 8 # p(σi) log 1 = 3 bits
2 - Codifica¸c˜ao da Fonte
• Codifica¸c˜ao eficiente depende de c´odigos de comprimento vari´avel porque os
pk’s s˜ao diferentes
• C´odigos eficientes devem ser unicamente decodific´aveis e de preferˆencia, instantˆaneos
• Comprimento m´edio de c´odigo L =
K−1#
k=0
lkpk bits/s´ımbolo, onde lk ´e o
comprimento do c´odigo da letra sk
• Eficiˆencia do c´odigo: η = Lmin
3 - O Primeiro Teorema de Shannon
Lmin = H(S) ou seja L ≥ H(S) ou η =
H(S) L
C´odigos n˜ao prefixos: Nenhum ´e prefixo de outro
Exemplo:
S´ımb. da fonte Prob. de ocorrˆencia C´od. I C´od. II C´od. III
s0 0,5 0 0 0
s1 0,25 1 10 01
• N˜ao unicamente decodific´avel: C´odigo I • Unicamente decodific´aveis: C´odigos II e III • Condi¸c˜ao c´odigos n˜ao prefixo: C´odigo II
C´odigo n˜ao prefixo ⇒ ´Arvores de c´odigo
• C´odigo II: 0 1 1 1 0 0 s s s s 0 1 2 3 Estado Inicial
Um c´odigo bin´ario com condi¸c˜ao de c´odigo n˜ao prefixo satisfaz a desigualdade de Kraft-McMillan:
K−1#
k=0
2−lk ≤ 1
onde lk s˜ao os comprimentos dos c´odigos de cada letra sk, k = 0, . . . , K − 1.
Uma fonte discreta sem mem´oria com entropia H(S) possui c´odigo com condi¸c˜ao
de n˜ao prefixo cujo comprimento m´edio L satisfaz a:
Para blocos de s´ımbolos sn, tem-se: H(Sn) = nH(S) com comprimento m´edio por
n s´ımbolos dado por Ln. Ent˜ao:
H(Sn) + 1 ≥ Ln ≥ H(Sn), como H(Sn) = nH(S), tem-se: ⇒ nH(S) + 1 ≥ Ln ≥ nH(S) ⇒ H(S) + 1 n ≥ Ln n ≥ H(S),
´e o comprimento m´edio por s´ımbolo
⇒ lim
n→∞
Ln
n → H(S)
M´
etodos de Codifica¸
c˜
ao
M´etodo de Fano
• Arrumam-se as letras em ordem decrescente de probabilidade.
• Divide-se em subgrupos cujas probabilidades estejam pr´oximas de 2−k
(k = 1, 2, . . .)
• Atribui-se a cada subgrupo o d´ıgito 0 e 1. Exemplo:
1 1 1 1 0 1 0 1 1 1 0 0 0 1 1 1 0 0.10 0.10 0.05 0.30 0.25 0.20 0.25 A D C B E F ⇒ L = 2 · 0.3 + 2 · 0.25 + 2 · 0.20 + 3 · 0.10 +4 · 0.10 + 4 · 0.05 = 2.4 H(S) = 5 # k=0 pk log 1 pk = 2.366 ⇒ H(S) < L
C´
odigo de Huffman para Alfabetos Bin´
arios
(Codifica¸c˜ao Pr´oxima da ´Otima)
1. Arrumam-se as letras em ordem decrescente de probabilidade.
2. As letras s˜ao encaradas como os n´os terminais (folhas) de uma ´arvore bin´aria.
3. Aos dois ´ultimos n´os (de menor probabilidade) s˜ao atribu´ıdos os bits 0 e 1.
4. Em seguida, eles s˜ao combinados para formar um novo n´o, cuja probabilidade
´e a soma das duas anteriores.
5. Os n´os restantes (incluindo o novo) s˜ao re-arrumados em ordem decrescente de
Exemplo: 0.30 0.25 0.20 0.25 0 1 0 1 0 1 0 1 0.10 0.10 0.05 0 1 a 1 a 2 a 3 a 4 a 5 a 6 0.30 0.25 0.20 0.10 0.15 0.30 0.25 0.25 0.20 0.45 0.30 0.25 0.55 0.45 1.0 Ordem de transmissao dos bits
0.30 0.25 0.20 0.10 0.10 0.05
00 01 11 101 1000 1001
• A id´eia por tr´as do c´odigo de Huffman pode ser entendida supondo que se
obteve uma ´arvore qualquer mais ou menos otimizada. Ent˜ao:
– Os dois s´ımbolos menos prov´aveis podem ser agrupados com um ´unico
s´ımbolo (n´o), cuja probabilidade ´e a soma das probabilidades de cada um;
– A distin¸c˜ao entre os dois ´e feita colocando-se ao final dos c´odigos de cada
novo s´ımbolo, um “0” em um e um “1” em outro, resultando em dois
c´odigos, um para cada um dos s´ımbolos agrupados.
– Repetindo-se esse procedimento, at´e que s´o haja dois s´ımbolos (n´os), vai se
chegar a dois ´unicos s´ımbolos que re´unem o agrupamento de diversos outros.
– A distin¸c˜ao entre esses dois ´unicos s´ımbolos ´e feita por um “0” e um “1”,
C´
odigos de Huffman com Alfabetos n˜
ao Bin´
arios
• C´odigos: compostos de n´umeros base D (c´odigos de Huffman tradicionais,
D = 2).
• Completa-se o alfabeto com s´ımbolos de probabilidade zero at´e que se tenha um alfabeto de tamanho D + m(D − 1) s´ımbolos, onde D = 2 (caso bin´ario) ou
D = 3 (caso tern´ario), etc., e m ´e um inteiro qualquer, representando o n´umero
de vezes que se far´a agrupamentos de D em D s´ımbolos.
• Depois procede-se de maneira idˆentica ao caso de c´odigos bin´arios, s´o que
combinando-se os D n´os com menor probabilidade em um ´unico n´o.
– Caso isso n˜ao seja feito, a ´arvore de c´odigos poder´a inicialmente conter
menos do que D ramos, tornando-se portanto n˜ao otimizada.
– O que se estaria fazendo, na verdade, seria inicialmente n˜ao agrupar D
Exemplo: Codificar em c´odigo de Huffman tern´ario, o alfabeto:
a
1a
2a
3a
4a
5a
60.30
0.25
0.20
0.10
0.10
0.05
• N´umero de s´ımbolos do alfabeto a ser codificado = 6 ⇒ Ent˜ao: D + m(D − 1) = 3 + 2m – Se m = 1 → total = 5 < 6 (NOK) – Se m = 2 → total = 7 ≥ 6 (OK) 0.30 0.25 0.20 0.25 0.10 0 a1 a 2 a3 a4 0.30 0.25 0.20 0.15 0.30 0.25 0.45 1.00 0 1 2 0 1 2
a
1a
2a
3a
4a
5a
6C´
odigos de Lempel-Ziv (Por Dicion´
ario)
• S˜ao os mais usados nos programas como ZIP, ARJ, COMPRESS, etc.
• Codifico um conjunto de s´ımbolos como um apontador para uma entrada em
um dicion´ario.
• Exemplo:
the·brown·fox·jumped·over·the·brown·
foxy·jumping·frog.
Seria codificado como:
S˜ao conhecidos como c´odigos de Lempel-Ziv (LZ77, LZ78, LZW, etc.) LZ77
• Cada seq¨uˆencia de caracteres ´e codificado como a trinca < o, l, c >, onde
– o indica quantos caracteres para tr´as da posi¸c˜ao atual do buffer est´a o
in´ıcio do casamento;
– l indica o tamanho do casamento;
– c indica um caracter de inova¸c˜ao que ´e adicionado depois que acaba o
• Exemplo 1:
. . . cabracadabrarrarrad . . .
– Supondo que a janela total ´e de 13 caracteres,temos ... c a b r a c a d a b r a r r a r r a d ... c a b r a c a | d a b r a r <0,0,C(d)> a b r a c a d | a b r a r r o=7 <7,4,C(r)> a d a b r a r | r a r r a d l=4 o=3 <3,5,C(d)>
<0,0,C(d)> <7,4,C(r)> <3,5,C(d)> o=7 l=4 o=3 l=5 c a b r a c a | d c a b r a c a d | a b r a r c a b r a c a d a b r a r | r a r r a d
• Exemplo 2:
a b c a b c a b c a b c a b c d ...
<0,0,C(a)>,<0,0,C(b)>,<0,0,C(c)>,<3,12,C(d)>,...
• PKZIP, ZIP, LHarc, PNG, gzip e ARJ usam LZ77 + C´odigos de comprimento vari´avel.
LZ78
• Cada nova frase ´e codificada como um ´ındice de uma palavra do dicion´ario + um caracter de inova¸c˜ao.
– Dicion´ario incial: vazio
– Codifico: palavra do dicion´ario + inova¸c˜ao
– Atualizo dicion´ario: ´ultima palavra codificada
a a a b b a b a a b a a a b a b
(0,a) (1,a) (0,b) (3,a) (4,a)
a | a a | b | b a | b a a | b a a a | b a b
(5,a) (4,b)
0: “ ” 1: a 2: aa 3: b 4: ba 5: baa 6: baaa 7: bab
" " a a b 0 1 2 3 a a b a 4 5 6 7
(0,a) (1,a) (0,b) (3,a) (4,a)
a | a a | b | b a | b a a | b a a a | b a b
(5,a) (4,b)
• Codifica¸c˜ao:
– N˜ao havendo casamento, incluo o n´o na ´arvore correspondente ao pr´oximo caracter.
– ´E r´apida.
• Decodifica¸c˜ao:
– Os s´ımbolos recebidos d˜ao o caminho na ´arvore e a sua constru¸c˜ao.
LZW
• Cada nova frase ´e codificada como um ´ındice de uma palavra do dicion´ario, N˜ao h´a caracter de inova¸c˜ao.
• Para isto, o dicion´ario inicial cont´em o alfabeto.
– Dicion´ario incial: alfabeto.
– Codifico: palavra do dicion´ario.
– Atualizo dicion´ario: ´ultima palavra codificada + 1o caracter da pr´oxima
palavra.
a a b a b a b a a a
a | a | b | a b | a b a | a a
0
0 1
3
5
2
<EOF> 2 3 4 5 6 7Dicion´ario: 0: a 1: b 2: aa 3: ab 4: ba 5: aba 6: abaa 7: aa
a | a | b | a b | a b a | a a 0 0 1 3 5 2 <EOF> 2 3 4 5 6 7 a a b 2 1 a a 5 6 a b 7 <EOF> 0 3 4
Codifica¸
c˜
ao Aritm´
etica
• Uma mensagem ´e representada por um intervalo contido em [0, 1) da seguinte forma:
– Para N s´ımbolos o intervalo ´e dividido em N subintervalos tal que o
intervalo correspondente ao s´ımbolo si possui largura igual `a sua
probabilidade.
– A medida que a mensagem vai sendo transmitida, o intervalos v˜ao sendo gerados de acordo com a figura (no caso para 2 s´ımbolos):
b 1 0 0.25 0 0.5 0.5 0.5 0.25 0.25 0.25 0.375 0.375 0.3125 0.3125 0.28125 a b a a
• Quando o valor de um d´ıgito para de variar (intervalo pequeno o suficiente) eu
j´a posso transmiti-lo.
• ´E o mais eficiente dos m´etodos em termos de compress˜ao, mas ainda ´e
computacionalmente mais “caro” que os c´odigos de Huffman ou por Dicion´ario.
Canais Discretos sem Mem´
oria
Canal
Discreto
sem Memoria
Y
1Y
0Y
K-1X
1X
0X
J-1• Matriz de probabilidades: P = ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣
p(y0 | x0) p(y1 | x0) · · · p(yk−1 | x0)
p(y0 | x1) p(y1 | x1) · · · p(yk−1 | x1)
..
. ... . .. ...
p(y0 | xj−1) p(y1 | xj−1) · · · p(yk−1 | xj−1)
⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ • O somat´orio nas linhas = 1, ou seja
K−1#
k=0
Canal BSC (Binary Symmetric Channel)
Pode-se calcular a entropia da fonte H(X) e a entropia da sa´ıda H(Y): H(X) = K−1# k=0 p(xk) log2 ) 1 p(xk) * H(Y) = J−1 # j=0 p(yj) log2 ) 1 p(yj) *
Pode-se calcular tamb´em: H(Y | xk) = K−1# j=0 p(yj | xk) log2 ) 1 p(yj | xk) * ⇒ H(Y | X) = J−1 # j=0 p(xk) !K−1# j=0 p(yj | xk) log2 ) 1 p(yj | xk) *" Sabe-se que: p(x, y) = p(y)p(x | y) = p(x)p(y | x) ⇒ p(xk | yj) = p(xk)p(yj | xk) p(yj)
Ent˜ao podemos calcular: H(X | yj) = K−1# k=0 p(xk | yj) log2 ) 1 p(xk | yj) * ⇒ H(X | Y) = K−1# j=0 p(yj) !#J−1 k=0 p(xk | yj) log2 ) 1 p(xk | yj) *"
• H(X) representa a incerteza m´edia da entrada • H(Y) representa a incerteza m´edia da sa´ıda
• H(X | Y) representa a incerteza m´edia da entrada conhecida a sa´ıda (chamado de equ´ıvoco)
Informa¸c˜
ao M´
utua I(X; Y)
I(X; Y) = H(X) − H(X | Y) ⇒ I(X; Y) = K−1# k=0 J−1 # j=0 p(xk)p(yj | xk) % &' ( p(xk,yj) log2 p(yj | xk) p(yj) % &' ( I(xk,yj) Exemplo: -2 -2 -2 -2 p= p= 3 4 4 1 1-10 a b 10 10 1-10 a bH(X) = 3 4 log2 1 3 4 + 1 4 log2 1 1 4 = 0.811 bits/s´ımbolo p(y0 = a) = 3 4(1 − 10 −2) + 1 4 · 10 −2 = 0.745 p(y1 = b) = 1 − p(y0) = 0.255 ⇒ H(Y) = 5 8 log2 1 5 8 + 3 8 log2 1 3 8 = 0.81919 bits/s´ımbolo
• H(Y) > H(X) → mais bits chegando no receptor do que bits enviados, devido aos erros introduzidos pelo canal.
• C´alculo de I(X; Y):
I(a; a) = log2 1 − 10 −2 0.745 = 0.41023 bits I(a; b) = log2 10 −2 0.255 = −4.67289 bits I(b; a) = log2 10 −2 0.745 = −6.21979 bits I(b; b) = log2 1 − 10 −2 0.255 = 1.95713 bits I(X; Y) = 1 # k=0 1 # j=0 p(xk)p(yj | xk)I(xk; yj) ⇒ I(X; Y) = 0.73839 bits/s´ımbolo
• Equ´ıvoco H(X | Y) = H(X) − I(X; Y) = 0, 811 − 0, 73839 = 0, 07261 bits/s´ımbolo • H(X | Y) = 0, 07261 bits/s´ımbolo → em m´edia precisamos de 0.07261 bits para
corrigir o erro que o canal introduz sobre x.
• I(X; Y) = 0, 73839 bits/s´ımbolo → quantidade m´edia (73.839%) de bits de
Propriedades de I(X; Y)
1. I(X; Y) = I(Y; X)
2. I(X; Y) ≥ 0
3. I(X; Y) = H(Y) − H(Y | X) = H(X) − H(X | Y) 4. I(X; Y) = H(X) + H(Y) − H(X, Y) onde H(X, Y) = # k # j p(xk, yj) log2 1 p(xk, yj)
H(X|Y) I(X,Y) H(Y|X) H(X,Y)
Capacidade do Canal
• Num canal discreto sem mem´oria, as probabilidades p(yj | xk) s˜ao bem
definidas e dependem s´o do canal. Se variarmos as p(xk) de entrada, I(X; Y)
variar´a de acordo com essas probabilidades.
• Define-se, ent˜ao, a capacidade C de um canal como sendo o valor m´aximo de
I(X; Y) quando se varia p(xk).
C = max
p(xk)
{I(X; Y)}
– Notar que esta maximiza¸c˜ao est´a sujeita `as restri¸c˜oes
p(xj) ≥ 0, ∀j
J−1
#
j=0
p(xj) = 1
• Quando o canal ´e sim´etrico, a capacidade C ´e obtida fazendo-se
p(x0) = p(x1) = p(x2) = . . ., isto ´e, equiprobabilidade.
Neste caso: C = 1 + p log2 p + (1 − p) log2(1 − p) C = 1 − H(p) 1 x = 1 y1 = 0 = 0 = 1 0 x 1-p 1-p p p 0 y
• Capacidade m´axima (duas possibilidades) 0 H(p) 1 0.5 p 0 C 1 0.5 p 1 y 1 y 1 x x1 0 y 0 y p=0 p=1 0 x x0
t t t t bit 0 bit 1 Conversor D/A Filtro Passa Faixa + Amplificador Amplificador de FI Fonte de Letras A,B,C ... Modulador Digital Conversor A/D Filtro Anti Aliasing Modulador FM Demodulador FM Casado Filtro Lookup Table Decodificador da Fonte Letras Y bit 0 bit 1 de Letras Codificação 01010.... X
seqüência de bits Corretor de Erro Código Sinal Analógico da Fonte Codificação Conversor de Freqüência Externo Ruído Amplificador de Potência Circuito de Decisão Usuário Check de erro + Correção Sinal Binário Estimado Sinal Analógico
Signals, Multimedia and T
elecommunications COPPE /P oli -UFRJ SMT
Teorema da Codifica¸c˜
ao do Canal (Teorema de Shannon)
• O ru´ıdo causa erros (diferen¸cas) entre a seq¨uˆencia de transmiss˜ao e a de
recep¸c˜ao. Num canal BSC, p = 10−6, significa que em m´edia haver´a um bit
com erro em 1.000.000 bits transmitidos.
• Para se diminuir o erro introduzido pelo canal, pode-se codificar os bits que
ser˜ao enviados pelo canal (codifica¸c˜ao de canal).
Codificador de Canal Canal Discreto sem Memoria Destino Fonte sem Memoria Decodificador de Canal RUIDO
• Essa codifica¸c˜ao ´e feita introduzindo-se bits redundantes.
codifica¸c˜ao com c´odigos de comprimento vari´avel, aqui, introduz-se bits redundantes de forma controlada.
• Se a fonte produz k bits e o codificador de canal cont´em n bits (n > k); o
n´umero de bits redundantes ser´a n − k. A raz˜ao r = nk ´e chamada de code rate.
• Pergunta: Existe algum esquema de codifica¸c˜ao de modo que a probabilidade
(que uma mensagem esteja errada) seja t˜ao pequena quanto se queira?
• Resposta: Sim, desde que satisfa¸ca ao teorema da codifica¸c˜ao do canal. Teorema de Shannon
Suponha que a fonte sem mem´oria tenha uma entropia H(S) bits/s´ımbolo e produza
s´ımbolos a cada Ts segundos. Suponha que o canal sem mem´oria tenha uma
capacidade C bits/s´ımbolo e possa ser usado a cada Tc segundos. Ent˜ao, se
H(S)
Ts
bits/seg ≤ C
Tc
bits/seg
´e poss´ıvel fazer um esquema de codifica¸c˜ao no qual s´ımbolos da fonte podem ser
transmitidos num canal ruidoso e reconstru´ıdos com uma probabilidade de erro arbitrariamente pequena.
• Caso a rela¸c˜ao acima n˜ao seja satisfeita, n˜ao existir´a nenhum modo de se diminuir essa probabilidade de erro, a menos que se use ”buffers”e algum
protocolo de comunica¸c˜ao que inclua inicializa¸c˜ao e parada de transmiss˜ao da
fonte para o canal.
– O ”buffer”ser´a usado no canal, pois ele ter´a que reter bits j´a que ele (canal)
Exemplo: -2 -2 10 10 1-p 0 1 1-p 0 1 p= p=
Seja o esquema de codifica¸c˜ao seguinte: para cada bit da fonte, repete-se n vezes
esse bit, onde n = 2m + 1, m ≥ 1. Exemplo: Para n = 3 faz-se:
0 → 000
1 → 111
⎫ ⎬
⎭ →
Regra de codifica¸c˜ao arbitrada, sendo que para cada bit a ser transmitido, transmite-se repetidamente 3 bits iguais
• Regra de Decodifica¸c˜ao: – Se chegar 000 001 010 ⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪
– Se chegar 011 101 110 111 ⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭
Este c´odigo se baseia no fato de que ´e mais prov´avel um erro do que dois erros na transmiss˜ao bin´aria.
A probabilidade de haver mais do que m erros ser´a ent˜ao:
Pe = n # i=m+1 Cinpi(1 − p)n−i • com m = 1 e n = 3 tem-se Pe = 3 # i=2 Ci3(10−2)i(1 − 10−2)3−i • No exemplo temos r = 13 = 0.333 e Pe = 2.98 · 10−4 • Para n = 5, tem-se r = 1 5
Code Rate r = 1/n Prob. m´edia de erro, Pe 1 10−2 1/3 3 · 10−4 1/5 10−6 1/7 4 · 10−7 1/9 10−8 1/11 5 · 10−10
1e-09 1e-08 1e-07 1e-06 1e-05 1e-04 1e-03 1e-02 1e-01 Pe de r (code rate).
de erro Pe as custas da diminuicao Essa curva mostra o compromisso entre a diminuicao da probabilidade
Capacidade do canal C = 0.9192 bits/simbolo
Entropia e Informa¸
c˜
ao M´
utua para Vari´
aveis Cont´ınuas
• Como uma vari´avel cont´ınua pode assumir “infinitos” valores diferentes, ´e razo´avel supor que a sua entropia tenda a infinito.
• Entretanto, ´e ing´avel que algumas vari´aveis cont´ınuas tenham maior conte´udo
de informa¸c˜ao que outras. Assim, ´e interessante termos uma grandeza que
possa de certa forma medir, ao menos comparativamente, esta quantidade de
informa¸c˜ao.
– Para isto definimos a entropia diferencial. h(X) = -∞ −∞ fX(x) log2 ) 1 fX(x) * dx
• Uma justificativa para a express˜ao acima ´e dada pelo seguinte argumento:
– Dividindo a vari´avel aleat´oria X em valores discretos xk = k∆x, onde
k = 0, ±1, ±2, . . ., temos que nos aproximaremos da vari´avel cont´ınua se
H(X) = lim ∆x→0 ∞ # k=−∞ fX(xk)∆x log2 ! 1 fX(xk)∆x " = lim ∆x→0 + ∞ # k=−∞ fX(xk) log2 ! 1 fX(xk) " ∆x − log2(∆x) ∞ # k=−∞ fX(xk)∆x , = -∞ −∞ fX(xk) log2 ! 1 fX(xk) " dx − lim ∆x→0log2(∆x) -∞ −∞ fX(x)dx = h(X) − lim ∆x→0log2(∆x)
• Al´em disso, no caso de grandezas relativas, como ´e o caso da informa¸c˜ao
m´utua, o termo infinito ´e cancelado, a informa¸c˜ao m´utua diferencial
correspondendo realmente a uma medida de quatidade de informa¸c˜ao. Ela ´e dada por I(X; Y) = -∞ −∞ -∞ −∞ fX,Y(x, y) log2 ) fY|X(y | x) fY(y) * dx dy
• Como a informa¸c˜ao m´utua diferencial ´e exatamente a informa¸c˜ao m´utua da vari´avel discreta que toma infinitos valores e se aproxima de X, ent˜ao as suas
propriedades s˜ao exatamente as mesmas da informa¸c˜ao m´utua n˜ao diferencial,
isto ´e,
1. I(X; Y) = I(Y; X)
2. I(X; Y) ≥ 0
3. I(X; Y) = h(Y) − h(Y | X) = h(X) − h(X | Y) 4. I(X; Y) = h(X) + h(Y) − h(X, Y)
Exemplos:
• Vari´avel aleat´oria uniforme:
fX(x) = ⎧ ⎨ ⎩ 1 a, 0 < x < a 0, n.d.p. h(X) = -a 0 1
a log2(a)dx = log2(a)
• Vari´avel aleat´oria Gaussiana:
fX(x) = 1 √ 2πσe −(x−µ)2 2σ2 h(X) = − -∞ −∞ 1 √ 2πσe −(x−µ)2 2σ2 ) log2 ! 1 √ 2πσ " − (x − µ) 2 2σ2 log2 e * dx = − log2 ! 1 √ 2πσ " + 1 2 log2 e = 1 2 log2(2πeσ 2)
Teorema da Capacidade do Canal
• x(t): sinal transmitido, com: – Potˆencia P;
– Banda passante B.
• y(t) = x(t) + w(t): sinal recebido • w(t) ´e um ru´ıdo branco aditivo com:
– Fun¸c˜ao densidade de probabilidade N(0, σ2);
– Densidade espectral N0
2 ;
– Banda passante B.
• A capacidade C do canal ´e dada por:
C = B log2 ! 1 + P σ2 " = B log2 ! 1 + P N0B " onde: – P
σ2 ´e a rela¸c˜ao sinal/ru´ıdo
• Expressando a capacidade do canal em bits/uso do canal (isto ´e, bits/s´ımbolo transmitido), temos que
C = 1 2 log2 ! 1 + P N0B "
• Seja X(t) um processo estacion´ario de m´edia zero limitado em banda a B Hz, e
sejam Xk, k = 1, . . . , K amostras deste processo `a taxa de Nyquist, 2B
amostras/s.
– Se estas amostras s˜ao transmitidas em um canal ruidoso, em T segundos,
que tamb´em possui banda B, ent˜ao
K = 2BT
• Se o canal ´e perturbado por ru´ıdo branco Gaussiano de m´edia zero e densidade
espectral de potˆencia N0
2 e banda B Hz, ent˜ao
Yk = Xk + Nk, k = 1, 2, . . . , K
– A variˆancia de Nk ´e dada por σ2 = N0B.
– Como o transmissor ´e limitado em potˆencia, temos que
• A capacidade do canal ´e dada pela m´axima informa¸c˜ao m´utua entre a entrada
do canal Xk e a sa´ıda do canal Yk,
C = max
fXk(x){I(Xk, Yk) | E[X
2
k] = P}
• Como Xk e Yk s˜ao cont´ınuas, I(Xk, Yk) ´e dada por
• Sendo Nk independente de Xk, ent˜ao maximizar I(Xk, Yk) ´e equivalente a
maximizar h(Yk).
⇒ Yk tem que ser Gaussiano.
⇒ Como Nk ´e Gaussiano, ent˜ao Xk tem que ser Gaussiano. Desta forma, o
problema pode ser exprimido como
C = I(Xk, Yk) | Xk ´e Gaussiano e E[X2k] = P
• Como a variˆancia de Xk ´e P e a variˆancia de Nk ´e σ2, ent˜ao a variˆancia de Yk ´e
(P + σ2). Desta forma, h(Yk) = 1 2 log2[2πe(P + σ 2)] h(Nk) = 1 2 log2(2πeσ 2) Isto d´a C = 1 2 log2 ! 1 + P N0B " bits/uso do canal
• Como temos K amostras em T segundos, temos que usamos o canal KT vezes em um segundo. Como K = 2BT , ent˜ao
C = B log2
!
1 + P
N0B
Intrepreta¸c˜ao com empacotamento de esferas (sphere packing)
• Associando os sinais transmitidos, com n amostras, a pontos em um espa¸co n-dimensional, temos que cada forma de onda correspondendo a n amostras ´e um ponto em um espa¸co n-dimensional.
– Se temos K mensagens, temos K pontos no espa¸co.
• Como cada amostra est´a corrompida por ru´ıdo Gaussiano com potˆencia
σ2 = N0B, ent˜ao ´e como se cada vetor correspondente a cada s´ımbolo tivesse
uma incerteza de uma esfera de raio √nσ2.
• Como a potˆencia m´edia recebida por amostra ´e P + σ2, ent˜ao cada vetor
• ⇒ O n´umero total de vetores que podem ser recebidos sem erro (isto ´e, sem
haver superposi¸c˜ao das esferas menores), ´e igual `a raz˜ao entre os volumes
das duas esferas, e como o volume de uma esfera n-dimensional ´e Anrn,
temos que K = An[n(P + σ 2)]n2 An[n(σ2)]n2 = ! 1 + P σ2 "n 2
• Como a taxa por amostra ´e log2 K
n , etn˜ao deduzimos que
C = 1 2 log2 ! 1 + P σ2 "
Empacotamento de esferas e constela¸c˜oes ´otimas • Normalmente, o que se quer de uma constela¸c˜ao ´e:
– A menor potˆencia m´edia poss´ıvel ∗ Maior eficiˆencia.
– O maior n´umero de pontos poss´ıvel
∗ Maior taxa de transmiss˜ao poss´ıvel.
– A maior distˆancia m´ınima poss´ıvel entre os pontos da constela¸c˜ao
∗ Menor probabilidade de erro.
• Isto ´e obtido colocando os pontos de uma constela¸c˜ao no melhor empacotamento de esferas.
Implica¸c˜oes do Teorema da Capacidade do Canal
• Um sistema ideal ´e aquele que consegue transmitir com Rb = C.
• Se Eb ´e a energia transmitida por bit, ent˜ao P = EbC. Isto d´a
C B = log2 ! 1 + Eb N0 C B " ⇒ Eb N0 = 2CB − 1 C B • Um gr´afico de Rb B versus Eb
• Podemos observar o seguinte:
1. Para banda infinita, temos que lim B→∞ ! Eb N0 " = ln 2 = 0.693 (−1.6dB)
Este ´e o menor valor poss´ıvel de Eb
N0 que permite transmiss˜ao sem erro. A
capacidade correspondente ´e
C∞ = lim
B→∞C =
P
N0
log2 e
2. A fronteira de capacidade (capacity boundary) define o limite entre a
transmiss˜ao sem erro poss´ıvel (Rb < C) e a imposs´ıvel (Rb > C).
3. O diagrama evidencia o compromisso entre Eb
N0 , Rb
B e a probabilidade de
erro.
Exemplo: PCM M-´ario
• Supondo um sistema PCM com M n´ıveis espa¸cados de kσ, onde σ2 = N0B. Os
n´ıveis s˜ao ent˜ao
±kσ 2 ,± 3kσ 2 , . . . ,± (M − 1)kσ 2
E a potˆencia m´edia ´e
P = 2 M +! 1 2 "2 + ! 3 2 "2 + · · · + ! M − 1 2 "2, (kσ)2 = k2σ2 ! M2 − 1 12 "
• Supomos que o PCM M-´ario acima vai ser usado para transmitir um sinal com banda W Hz. Ele ´e amostrado a 2W amostras/s, e quantizado com L n´ıveis
equiprov´aveis.
– A taxa que gastar´ıamos para representar este sinal seria
Rb = 2W log2 L
• Supondo que para representar estes L n´ıveis precisar´ıamos de n formas de
onda PCM, isto ´e L = Mn, ent˜ao temos que a taxa seria
• Achando M em fun¸c˜ao da potˆencia m´edia do PCM, temos que M = ! 1 + 12P k2N 0B "2 Rb = Wn log2 ! 1 + 12P k2N 0B "
• Como cada pulso PCM ter´a a dura¸c˜ao de 2nW1 segundos, temos que a sua
banda ´e B = κnW, onde κ ´e uma constante entre 1 e 2. O menor poss´ıvel valor de banda ´e dado para κ = 1, isto ´e, B = nW. Assim, a equa¸c˜ao acima fica
Rb = B log2 ! 1 + 12P k2N 0B "
• Notar a semelhan¸ca com a f´ormula da capacidade do canal.
– Na verdade, esta equa¸c˜ao mostra que, num sistema PCM, a potˆencia
Exemplo: PSK M-´ario e FSK M-´ario • Eficiˆencia espectral do PSK M-´ario:
Rb
B =
log2 M
2
• Eficiˆencia espectral do FSK M-´ario:
Rb
B =
2 log2 M
Capacidade de um Canal AWGN com Entrada Bin´
aria
• Temos um canal bin´ario AWGN
– +1 → 1
– −1 → 0
– Entrada ´e vari´avel aleat´oria X
– Sa´ıda corrompida por ru´ıdo ´e vari´avel aleat´oria Y.
– Ru´ıdo possui variˆancia σ2.
– S˜ao usados c´odigos corretores de erro com taxa r = nk
• Vamos determinar a taxa de erro m´ınima em fun¸c˜ao de Eb
N0.
• Temos que I(X, Y) = h(Y) − h(Y | X).
• Como se X ´e dado, a ´unica aleatoriedade de Y ´e devida ao ru´ıdo, temos ent˜ao que
– Temos que a densidade de Y ´e uma mistura de duas distribui¸c˜oes Gaussianas, uma dada que X = 1 e outra dada que X = −1.
fY(y) = 1 2 1 1 √ 2πσ ) e−(y+1)22σ2 + e− (y−1)2 2σ2 *2 h(Y) = − -∞ −∞
fY(y) log2[fY(y)]dy
– Do visto at´e agora, vˆe-se que a informa¸c˜ao m´utua ´e uma fun¸c˜ao somente de
σ2, isto ´e,
• Como os s´ımbolos 0 e 1 s˜ao equiprov´aveis, ent˜ao a informa¸c˜ao m´utua neste caso ´e igual `a capacidade do canal. Assim, temos que a taxa do c´odigo satisfaz a
r < M(σ2)
(lembrar que no m´aximo, um canal bin´ario vai transmitir 1 bit/uso do canal;
assim, a m´axima taxa do c´odigo poss´ıvel vai ser igual `a capacidade do canal).
• Como P = EbC = Ebr, ent˜ao Eb N0 = P N0r = P 2σ2r σ2 = N0 2Ebr
Capacidade de um Canal com Ru´ıdo Colorido
• Agora, vamos estender o Teorema da Capacidade do Canal de Shannon para o caso de um canal com ru´ıdo n˜ao branco, ou colorido.
• Mais espec´ıficamente, dado um modelo de canal H(f), temos que:
1. Determinar qual ´e a entrada, dada pela sua densidade espectral de potˆencia
SX(f), que maximiza a informa¸c˜ao m´utua entre a sa´ıda do canal y(t) e a
entrada x(t), dado que a potˆencia de x(t) ´e fixo e igual a P.
2. A partir do SX(f) acima, determinar a capacidade do canal.
• Temos que, no caso (b),
SN′(f) =
SN(f)
|H(f)|2
• Usaremos o princ´ıpio de dividir o canal em um n´umero muito grande de canais estreitos e planos.
• O subcanal k possui capacidade igual a Ck = 1 2∆flog2 ! 1 + Pk σ2k " , k = 1, 2, . . . , N onde: Pk = SX(fk)∆f, k = 1, 2, . . . , N σ2k = SN(fk) |H(f)|2 ∆f, k = 1, 2, . . . , N
– O fator 12 vem do fato de que ∆f conta tanto a contribui¸c˜ao das freq¨uˆencias
• Temos ent˜ao que maximizar a capacidade total C ≈ N # k=1 Ck = 1 2 N # k=1 ∆flog2 ! 1 + Pk σ2k " sujeito a N # k=1 Pk = P = constante
• Usando multiplicadores de Lagrange, temos que maximizar o custo
J(P1, . . . , PN, λ) = 1 2 N # k=1 ∆f log2 ! 1 + Pk σ2k " + λ . P − N # k=1 Pk /
• Derivando J em rela¸c˜ao a cada Pk e igualando o resultado a zero, temos que
onde K independe do canal. A solu¸c˜ao ´e dada por
SX(fk) = K −
SN(fk)
|H(f)|2 , k = 1, . . . , N
• Chamando de FA a faixa de freq¨uˆencias em que a express˜ao acima ´e positiva.
Ent˜ao temos que (pois SX(f) ≥ 0, ∀f):
SX(f) = ⎧ ⎨ ⎩ K − SN(fk) |H(f)|2 , f ∈ FA 0 n.d.p.
• Isto d´a uma potˆencia m´edia igual a P = -f∈FA ! K − SN(fk) |H(f)|2 " df
• A capacidade do canal correspondente ´e C ≈ 1 2 N # k=1 ∆flog2 ! K|H(fk)| 2 SN(fk) "
• Quando ∆f → 0, temos que
C = 1 2 -∞ −∞ log2 ! K|H(f)| 2 SN(f) " df