- Sistemas de Comunicações

(1)

- Sistemas de Comunicações

PTC2459

Professor Cristiano Panazio - Sala D3-30

http://www.lcs.poli.usp.br/~cpanazio/PTC2459

(2)

2

Compressão de Áudio, Imagens,

Vídeo e Padrões de TV Digital

(3)

A necessidade da compressão de áudio

A transmissão de áudio digital com "qualidade CD“

• quantização de 16 bits

• taxa de amostragem de 44.1 kHz no mínimo

• taxa de bits é de 2  16  44100 = 1.41 Mb/s

• maior que a reservada para transmissão de vídeo digital no padrão MPEG-1

• consideravelmente elevada em comparação com um fluxo de vídeo MPEG-2 para TV convencional (2 a 6 Mb/s)

TV de Alta Definição (HDTV) digital (som com "Qualidade Cinema“)

• 5 canais independentes + canal de baixa freqüência  taxa de 3.5 Mb/s

• 20% da taxa líquida de transmissão digital proporcionada pelo canal de 6MH

Necessidade de utilização de processos de compressão adequados para o sinal de áudio

• reduzir bastante a taxa de transmissão

• manter a qualidade de som compatível com as especificações de alta fidelidade

(4)

PCM diferencial

A idéia é minimizar a gama de variações de um sinal, de modo que se possa utilizar menos bits para quantizá-lo, mas mantendo a qualidade do PCM tradicional.

•Uma modo simples de reduzir as variações e observar as diferenças entre amostras consecutivas do sinal:

s(n), s_q(n)

e_q(n)

(5)

PCM diferencial

z^-1

+ ©

-

s(n)

e(n) Quantizador

e_q(n)

FIR

^ Filtro preditor

• Pode-se fazer melhor que usar a simples diferença entre amostras consecutivas, pois todas as amostras passadas guardam algum grau de correlação com a amostra atual.

•Podemos usar essa informação da correlação da amostra atual com as passadas para predizer o sinal atual!

• Como obter os coeficientes do filtro FIR?

•Como desejamos minimizar e(n), podemos escolher a seguinte função custo:

T 2

( ) E ( ) ( 1)

J w  s n  w s n 

onde w 



w1 w2  wN



^T ^s⁽ⁿ ^¹⁾ ^



^{s n}⁽ ^¹⁾ ^{s n}⁽ ^²⁾ ^ ^{s n}⁽ ^ ^N⁾



^T

(6)

PCM diferencial

1 ss





w R p

0 1 1

1 0 2

1 2 0

N N ss

N N

  



 

 

 

  

 

 

R



  



1 2

N



 

 

  

 

 

p 

Os coeficientes w minimizam J(w) são dados por:

• Como recuperar s(n) a partir de e(n):

onde

 

E ( ) ( )

k

s n s n k

  

•Transmissor (FIR) •Receptor (IIR)

(7)

PCM diferencial

Mas, na verdade, transmitimos e_q(n). Então, para manter a simetria:

•Transmissor (FIR) •Receptor (IIR)

Como geralmente os sinais não são estacionários, utiliza-se versões adaptativas do

filtro preditor e do quantizador. Dá-se o nome de ADPCM (Adaptive Differential Pulse Coded Modulation)

Com esta técnica, consegue-se a mesma inteligibilidade da voz na telefonia digital, mas com 32 kbps.

(8)

Vocoders (LPC – Linear Predictive Coding)

Na compressão de voz, podemos simular o modo como um sinal de voz é produzido:

• Modelamos a função de transferência do trato vocal através de um filtro além do ganho associado ao sinal;

• Produzimos uma excitação associado ao sinal de voz, que deve levar em conta a duração, o pseudo-período (pitch) e o tipo (vozeado ou não vozeado (ruído) )

O decodificador utiliza tais parâmetros para tentar regenerar o sinal de voz original:

Gerador de ruído branco

Gerador de impulsos

Pseudo- período

Filtro Preditor

Tipo de excitação

Ganho Coeficientes

s(n)^{^}

Logo, o que é transmitido são os parâmetros do vocoder e não o sinal em si.

É normal dos vocoders alcançarem taxas de 1,2 kbps a 2,4 kbps. Contudo, a qualidade é muito baixa.

O bom compromisso é trabalhar realizar um híbrido de ADPCM com LPC (e.g., ACELP – Algebraic Code Excited Linear Prediction)

(9)

Codificação Perceptual:

Resposta em freqüência do ouvido

A resposta em freqüência do ouvido, para vários níveis de Volume Sonoro, foi estudada por Fletcher e Munson em 1933, e posteriormente por Robinson e Dadson

As curvas médias são adotadas como recomendação pelo ISO

Curvas de Igual Volume Sonoro para Tons Senoidais – Rossing-1982

(10)

Codificação Perceptual: Mascaramento

Mascaramento – deslocamento relativo do limiar de audibilidade provocado pela presença de tons de maior intensidade.

Vários experimentos para modelar as características do mascaramento – conclusões

• Tons senoidais com freqüências próximas são mascarados mais do que tons em freqüências distantes entre si

• Um tom senoidal mascara mais fortemente outros tons de freqüências mais altas do que tons de freqüências inferiores

• Quanto maior a amplitude do tom, maior a banda de freqüências mascaradas por ele

• Ruído de banda estreita apresenta características de mascaramento similares às dos tons senoidais

• Ruído branco mascara tons senoidais de todas as freqüências igualmente e de forma linear

• O mascaramento provocado por um tom mais intenso permanece por um tempo de 20 a 30 ms após a interrupção do tom (mascaramento temporal)

• Um tom pode ser mascarado por um outro som de intensidade maior emitido até 10 ms após o primeiro (mascaramento temporal retroativo)

(11)

Cod. Perceptual: Curvas de mascaramento

Esta característica da audição é bastante explorada pelos processos de compressão de áudio Exemplo

a curva correspondente a um tom de volume sonoro igual a 84dB (Phons) indica que um tom de 1 kHz só será percebido se estiver acima de 40 dB

Curvas de Mascaramento (Fletcher & Munson)

(12)

Cod. Perceputal: Subdivisão do espectro em sub-bandas

A maioria dos métodos eficientes de compressão de áudio explora o mascaramento através da subdivisão do espectro em sub-bandas

• decompor o sinal por um banco de filtros passa-banda possivelmente relacionados às bandas críticas de audibilidade, de modo que na saída de cada filtro tenhamos um sinal de banda estreita, com amplitude via de regra menor que a do sinal original

• estimativa de mascaramento, baseada no espectro do sinal original, de modo que para cada sub-banda é determinada a relação Sinal/Ruído necessária para

reproduzir o respectivo sinal filtrado

• o sinal de cada sub-banda é quantizado com um número de bits suficiente, de modo que o ruído de quantização esteja abaixo da relação S/R exigida para aquela banda

1 2

3

4 BANCO DE FILTROS

SOM ORIGINAL

SUB - BANDAS

(13)

Codificador de áudio do padrão MPEG

Diagrama de blocos do codificador de áudio descrito no padrão MPEG; neste caso, o sinal original, por exemplo digitalizado a 48 kHz com 16 bits, é analisado por um banco de 32 filtros com banda de 750 Hz.

BANCO DE FILTROS

1

2

3

4

32

QUANTIZADORES SUB-

AMOSTRADORES

ÁUDIO

AMOSTRADOR PCM

Fa

Fa/32

Q1

Q2

Q3

Q4

Q32

MODELO PSICO- ACÚSTICO

FLUXO DE DADOS CODIFICADOS

FORMATADOR ALOCAÇÃO DE

BITS

As saídas dos filtros são sub- amostradas – 32 grupos de 1500 Hz.

(14)

Som MPEG – modelo de funcionamento

0 5 10 15

Frequencia

A determinação do nível de mascaramento é feita por um

Modelo Psico-acústico, a partir do espectro obtido por uma FFT de 512 ou 1024 pontos

Embora o detalhamento do modelo não esteja especificado no padrão MPEG, sua operação segue o esquema geral da figura

FFT Separador

Tonal

Não- Tonal

Cálculo da Potência por Banda

Cálculo do Limiar Absoluto

Limiar Tonal

Limiar Não-Tonal SPL(n)

SMR(n) Funções de

Mascaramento

mínimo M(n) PCM

(15)

MPEG-1 Níveis I e II

MPEG-1 Nível I

• Codificação feita em Quadros de 12 amostras por sub-banda (384 amostras e 32 sub- bandas)

• para cada quadro permanecem constantes os fatores de escala e alocações de bits por amostra por banda

• aceita taxas de amostragem de 32kHz, 44.1 kHz ou 48 kHz para um ou dois canais independentes ou associados

O padrão MPEG-1 Nível I é usado no DCC (Digital Compact Cassette) com o nome de PASC (Precision Audio Sub-band Coding).

MPEG-1 Nível II (MUSICAM)

• Codificação em Quadros de 3 x 12 amostras por sub-banda (1152 amostras) proporcionando menor "overhead" na transmissão

• a análise de espectro para o modelo psico-acústico é feita com FFT de 1024 pontos;

• admite codificação estatística agrupando 3 amostras consecutivas em um único código

(16)

MPEG-1 Nível III (MP3)

MPEG-1 Nível III (MP3)

• Codificação em Quadros de 3 x 12 amostras por sub-banda (1152 amostras);

• usa um modelo psico-acústico mais elaborado;

• Utiliza transformada de cossenos (DCT) para subdividir as Sub-bandas em 6 ou 18 sub- sub-bandas, proporcionando redução de "Aliasing" entre sub-bandas;

• efetua aplicação de janelas temporais curtas (6 amostras) ou longas (18 amostras) antes da DCT;

• pode usar Quantizador não-linear : Y=Q(X0.75);

• aplica codificação de Huffman nas amostras quantizadas;

• utiliza Memória Elástica ("Buffer") para regularizar a taxa média de bits

(17)

Desempenho dos Processos de Compressão de Áudio Perceptual

45 ms 290 kb/s

3,53 Mb/s 12:1

5.1 Dolby AC-3

384 kb/s 3,53 Mb/s

10:1 5.1

MPEG-2 / III

>80 ms 128 kb/s

1,41 Mb/s 8:1

2 MPEG-1 / III

>40 ms 256 kb/s

1,54 Mb/s 6:1

2 MPEG-1 / II

(MUSICAM)

292 kb/s 1,41 Mb/s

5:1 2

ATRAC

19 ms 384 kb/s

1,41 Mb/s 4:1

2 MPEG-1 / I

Atraso A/D/A Taxa

Comprimida Taxa

Original Taxa Média de

Compressão Canais

Padrão de Compressão

(18)

Compressão de Imagens e Vídeo

(Padrões MPEG-1 e 2)

Processo de compressão de dados

• busca reduzir a redundância presente no sinal da fonte de informação

• codificador com preditor: determina uma estimativa do sinal a ser transmitido, baseando-se nas entradas anteriores y(t-1), y(t-2).... (figura).

• basta transmitir apenas o erro de predição e(t), ou seja, a diferença entre a estimativa e o sinal real y(t).

• Preditor for eficiente  o erro de predição com baixa auto-correlação  valores próximos de zero  redução da quantidade de informação a ser transmitida

 

y tˆ

Preditor Preditor

y(t)

y(t)^ y(t)^

e(t) y(t) +

-

Transmissor Receptor

Canal

S1 S2

 

y tˆ

(19)

Exemplo de preditor

“Frame store“

• explora o fato de que um quadro transmitido é geralmente muito semelhante ao quadro anterior

• consiste de uma memória que armazena o quadro anterior

• são transmitidas apenas as diferenças entre dois quadros consecutivos (pixel a pixel)

• este preditor falha quando há um corte de cenas, ou movimentos rápidos de objetos ou da câmera

Preditor com Compensação de Movimento

• mais eficiente para aplicação em vídeo

• procura compensar os movimentos de objetos em relação ao campo de visão da câmera

• o codificador detecta o deslocamento relativo de partes da imagem entre dois quadros consecutivos, transmitindo essa informação na forma de vetores de movimento

• componentes no sentido horizontal e vertical ---

(20)

Preditor com Compensação de Movimento

• O preditor monta uma estimativa da imagem atual baseada em fragmentos tomados de uma imagem de referência deslocados conforme os vetores de movimento

• Normalmente utiliza apenas translações lineares

• Uma vez que é impraticável determinar quantos objetos com movimentos

independentes existem em uma imagem, cada fotograma pode ser subdividido em blocos regulares, sendo então determinados vetores de movimento para cada bloco.

Anterior (referência) Atual Erro de predição

Vetor de movimento Predição (com compensação) Erro de predição (com compensação)

(21)

Detector de movimento

• unidade funcional que determina os vetores

• para cada bloco da imagem atual

• faz uma varredura sobre a imagem de referência, buscando o ponto de maior semelhança com o bloco a ser analisado

• mede a distorção média absoluta (DMA*)

DMA x y

N f x i y j ref x i dx y j dy

i j

( , ) ( , ) ( , )

,

 ¹



      

• (dx,dy)  deslocamento entre a imagem de referência ref(x,y) e o bloco da imagem de entrada f(x,y)

• O valor de (dx,dy) para o qual a DMA é mínima é adotado como vetor de movimento do bloco de coordenadas (x,y)

• Normalmente a busca é feita dentro de uma área restrita

• Pode utilizar processos hierárquicos uma vez que uma busca exaustiva sobre toda a imagem representa um esforço computacional elevado

(22)

Vetor de deslocamento – algoritmos de busca

Imagem de Referência Imagem atual x

y x

y

Área de Busca

Bloco de Maior Semelhança

Vetor de Movimento

Bloco a ser Estimado

Busca Exaustiva

Varredura de toda a região de busca com resolução de 1/2 pixel

Busca Hierárquica

• Varre a região com resolução decrescente à medida que a correlação aumenta

(23)

Codificação com Perdas

• Compensação de movimento

• reduz bastante a redundância temporal

• Erro de predição resultante submetido a processo de compressão (semelhante ao JPEG)

• Obtem-se a uma forma importante de codificação que

• remove também as redundâncias espaciais

• torna-se adequada para cenas com cortes ou mudanças bruscas de conteúdo

• Compressão sem perdas – taxas de compressão até 3:1

• Compressão com perdas – Combinando compensação de movimento com transformada DCT e quantização

• taxas de 20:1 ou mais

• baixa visibilidade dos erros de reconstrução ---

(24)

Padrões de compressão com perdas

• MPEG-1 (Moving Pictures Experts Group - ISO/IEC 11172a)

• compressão de imagens não-entrelaçadas

• taxas de informação até 1,5 Mb/s (aplicações: vídeo-conferência sobre troncos E1 / T1; multimídia em CD-ROM)

• MPEG-2 (ISO13818)

• destinado à compressão de imagens de TV entrelaçadas

• admite vários níveis de desempenho para taxas de 1,5 a 100 Mb/s (aplicações:

TV convencional digital, HDTV)

• H-261 e H-263 (ITU)

• vídeo-conferência através de ISDN (múltiplos de 64 kb/s)

• H-324 (ITU)

• vídeo-conferência através de Modem Telefônico

(25)

MPEG-2 – Níveis e Perfis

20 ~ 100 Mb/s 1080 Linhas 1920 Pontos (Formato HDTV - Qualidade Estúdio)

Alto (HL)

20 ~ 60 Mb/s 1080 Linhas 1440 Pontos (Formato HDTV)

Alto-1440 (H14L)

4 ~ 6 Mb/s 480 Linhas 720 Pontos ( CCIR-601 - Qualidade Estúdio p/ TV Convencional)

Principal (ML)

~1,5 Mb/s 240 Linhas 360 Pontos ( qualidade VHS)

Baixo (LL)

Taxa de Bits Formato de Vídeo

Nível

Exemplos

• SP@LL corresponde a um codificador com desempenho equivalente ao MPEG-1 para multimídia

• MP@ML é um formato adequado para TV convencional entrelaçada, atualmente usado em sistemas como DirecTV e na codificação de vídeo no DVD (“Digital Versatile Disc”)

Todos os recursos e codificação 4:2:2 (Dobro de amostras de Crominância) Alto (HP)

Codificação Hierárquica com níveis diferentes de prioridade para imagem 4x3 e 16x 9 Escalável Espacial (SSP)

Codificação Hierárquica com níveis diferentes de prioridade para imagem básica e detalhes

Escalável em SNR (SNRP)

Predição bidirecional (Quadros tipo B) Principal (MP)

Nenhum (Sistema Mínimo) Simples (SP)

Recursos Adicionais Perfil

(26)

MPEG-4

• Em 1993 o ITU-T iniciou atividades para um novo padrão, destinado à codificação de informação áudio-visual sobre taxas de bits reduzidas.

• O escopo do que viria a ser o padrão MPEG-4 foi expandido posteriormente, tornando- se um padrão genérico de codificação de eventos multimídia.

• Recursos importante do MPEG-4:

• a segmentação de um objeto áudio-visual em objetos semânticos, representados por contornos e texturas

• Os objetos são codificados dentro de planos independentes (VOP’s - Video Object Planes). O receptor pode manipular separadamente o fluxo de dados proveniente de cada codificador, permitindo assim visualização apenas dos objetos selecionados

• O decodificador admite a carga de ferramentas (algoritmos e processos programáveis), juntamente com o fluxo de dados, tornando-o aberto a futuros desenvolvimentos de técnicas de compressão e transporte de dados

(27)

Padrões de TV Digital

Principais Características

• A TV digital tem amplas vantagens sobre o sistema de TV analógica:

• Robustez a multipercursos (responsável pelos fantasmas) e diversas formas de ruído eletromagnético

• Alta resolução: em geral 1280x720 (HDTV Ready) ou 1920x1080 (Full HD) versus 525 linhas (PAL-M e NTSC) ou 625 linhas (PAL);

• Permite recepção móvel com razoável qualidade e resolução (320x240)

• Múltipla programação (com HDTV Ready ou SDTV, 704×480) e som com múltiplas trilhas (5.1 canais)

• Todos os padrões costumam usar MPEG2 para compressão de vídeo. Novas versões dos padrões estão adotando o H.264/MPEG4-AVC tal como o SBTVD;

(28)

Padrões de TV Digital

•Existem basicamente 3 padrões de TV Digital atualmente:

•ATSC (Advanced Television Systems Committee): padrão desenvolvido nos EUA e adotado na América do Norte. Usa banda de 6MHz e modulação 8-PAM com banda lateral vestigial (8VSB). Adotado na América do Norte. A versão ATSC-M/H prevê recepção em receptores móveis (handhelds).

• DVB-T (Digital Video Broadcast – Terrestrial): padrão europeu adotado na Europa e alguns outros países do mundo. Usa bandas de 5, 6, 7 ou 8MHz Adota transmissão OFDM (Orthogonal Frequency Division Multiplexing) com opção de várias taxas (diferentes códigos corretores de erro e modulçaões). Uma

característica interessante em relação ao ATSC é que ela é mais simples de utilizar no caso de uma rede de broadcast de frequência única (SFN –Single Frequency Network). A versão para receptores móveis é a DVB-H e que pode coexistir com o DVB-T. É importante salientar que o DVB-H exige um canal extra. Assim, é possível que outros provedores de conteúdo, além da

originalmente foi pensado para que os provedores de telefonia sem fio fossem os responsáveis por prover o serviço.

(29)

Padrões de TV Digital

• ISDB-T (Integrated Services Digital Broadcasting – Terrestrial): padrão

desenvolvido no Japão que usa banda de 6MHz. De resto, muito semelhante ao DVB-T, mas apresenta uma maior flexibilidade em alguns parâmetros e,

sobretudo, já incorpora na própria transmissão o canal para recepção móvel, o chamado 1seg.

• O modelo brasileiro: o SBTVD (Sistema Brasileiro de Televisão Digital), a.k.a. ISDB-Tb

•Trata-se de uma variante do modelo japonês. As diferenças residem na transmissão de TV terrestre que já adota o H.264 (enquanto o japonês atualmente usa o MPEG2),

canal móvel a 30 quadros por segundo e codec de áudio HE-AAC v.2, e no sistema de interatividade. Este último exigirá um canal de retorno, que pode ser um sistema

ADSL, cabo, sistema celular (GSM, 3G), WiMAX, i.e., qualquer sistema que permita acesso a Internet.