- Sistemas de Comunicações
PTC2459
Professor Cristiano Panazio - Sala D3-30
http://www.lcs.poli.usp.br/~cpanazio/PTC2459
2
Compressão de Áudio, Imagens,
Vídeo e Padrões de TV Digital
A necessidade da compressão de áudio
A transmissão de áudio digital com "qualidade CD“
• quantização de 16 bits
• taxa de amostragem de 44.1 kHz no mínimo
• taxa de bits é de 2 16 44100 = 1.41 Mb/s
• maior que a reservada para transmissão de vídeo digital no padrão MPEG-1
• consideravelmente elevada em comparação com um fluxo de vídeo MPEG-2 para TV convencional (2 a 6 Mb/s)
TV de Alta Definição (HDTV) digital (som com "Qualidade Cinema“)
• 5 canais independentes + canal de baixa freqüência taxa de 3.5 Mb/s
• 20% da taxa líquida de transmissão digital proporcionada pelo canal de 6MH
Necessidade de utilização de processos de compressão adequados para o sinal de áudio
• reduzir bastante a taxa de transmissão
• manter a qualidade de som compatível com as especificações de alta fidelidade
PCM diferencial
A idéia é minimizar a gama de variações de um sinal, de modo que se possa utilizar menos bits para quantizá-lo, mas mantendo a qualidade do PCM tradicional.
•Uma modo simples de reduzir as variações e observar as diferenças entre amostras consecutivas do sinal:
s(n), sq(n)
eq(n)
PCM diferencial
z-1
+ ©
-
s(n)
s(n)
e(n) Quantizador
eq(n)
FIR
^ Filtro preditor
• Pode-se fazer melhor que usar a simples diferença entre amostras consecutivas, pois todas as amostras passadas guardam algum grau de correlação com a amostra atual.
•Podemos usar essa informação da correlação da amostra atual com as passadas para predizer o sinal atual!
• Como obter os coeficientes do filtro FIR?
•Como desejamos minimizar e(n), podemos escolher a seguinte função custo:
T 2
( ) E ( ) ( 1)
J w s n w s n
onde w
w1 w2 wN
T s(n 1)
s n( 1) s n( 2) s n( N)
TPCM diferencial
1 ss
w R p
0 1 1
1 0 2
1 2 0
N N ss
N N
R
1 2
N
p
Os coeficientes w minimizam J(w) são dados por:
• Como recuperar s(n) a partir de e(n):
onde
E ( ) ( )
k
s n s n k
•Transmissor (FIR) •Receptor (IIR)
PCM diferencial
Mas, na verdade, transmitimos eq(n). Então, para manter a simetria:
•Transmissor (FIR) •Receptor (IIR)
Como geralmente os sinais não são estacionários, utiliza-se versões adaptativas do
filtro preditor e do quantizador. Dá-se o nome de ADPCM (Adaptive Differential Pulse Coded Modulation)
Com esta técnica, consegue-se a mesma inteligibilidade da voz na telefonia digital, mas com 32 kbps.
Vocoders (LPC – Linear Predictive Coding)
Na compressão de voz, podemos simular o modo como um sinal de voz é produzido:
• Modelamos a função de transferência do trato vocal através de um filtro além do ganho associado ao sinal;
• Produzimos uma excitação associado ao sinal de voz, que deve levar em conta a duração, o pseudo-período (pitch) e o tipo (vozeado ou não vozeado (ruído) )
O decodificador utiliza tais parâmetros para tentar regenerar o sinal de voz original:
Gerador de ruído branco
Gerador de impulsos
Pseudo- período
Filtro Preditor
Tipo de excitação
Ganho Coeficientes
s(n)^
Logo, o que é transmitido são os parâmetros do vocoder e não o sinal em si.
É normal dos vocoders alcançarem taxas de 1,2 kbps a 2,4 kbps. Contudo, a qualidade é muito baixa.
O bom compromisso é trabalhar realizar um híbrido de ADPCM com LPC (e.g., ACELP – Algebraic Code Excited Linear Prediction)
Codificação Perceptual:
Resposta em freqüência do ouvido
A resposta em freqüência do ouvido, para vários níveis de Volume Sonoro, foi estudada por Fletcher e Munson em 1933, e posteriormente por Robinson e Dadson
As curvas médias são adotadas como recomendação pelo ISO
Curvas de Igual Volume Sonoro para Tons Senoidais – Rossing-1982
Codificação Perceptual: Mascaramento
Mascaramento – deslocamento relativo do limiar de audibilidade provocado pela presença de tons de maior intensidade.
Vários experimentos para modelar as características do mascaramento – conclusões
• Tons senoidais com freqüências próximas são mascarados mais do que tons em freqüências distantes entre si
• Um tom senoidal mascara mais fortemente outros tons de freqüências mais altas do que tons de freqüências inferiores
• Quanto maior a amplitude do tom, maior a banda de freqüências mascaradas por ele
• Ruído de banda estreita apresenta características de mascaramento similares às dos tons senoidais
• Ruído branco mascara tons senoidais de todas as freqüências igualmente e de forma linear
• O mascaramento provocado por um tom mais intenso permanece por um tempo de 20 a 30 ms após a interrupção do tom (mascaramento temporal)
• Um tom pode ser mascarado por um outro som de intensidade maior emitido até 10 ms após o primeiro (mascaramento temporal retroativo)
Cod. Perceptual: Curvas de mascaramento
Esta característica da audição é bastante explorada pelos processos de compressão de áudio Exemplo
a curva correspondente a um tom de volume sonoro igual a 84dB (Phons) indica que um tom de 1 kHz só será percebido se estiver acima de 40 dB
Curvas de Mascaramento (Fletcher & Munson)
Cod. Perceputal: Subdivisão do espectro em sub-bandas
A maioria dos métodos eficientes de compressão de áudio explora o mascaramento através da subdivisão do espectro em sub-bandas
• decompor o sinal por um banco de filtros passa-banda possivelmente relacionados às bandas críticas de audibilidade, de modo que na saída de cada filtro tenhamos um sinal de banda estreita, com amplitude via de regra menor que a do sinal original
• estimativa de mascaramento, baseada no espectro do sinal original, de modo que para cada sub-banda é determinada a relação Sinal/Ruído necessária para
reproduzir o respectivo sinal filtrado
• o sinal de cada sub-banda é quantizado com um número de bits suficiente, de modo que o ruído de quantização esteja abaixo da relação S/R exigida para aquela banda
1 2
3
4 BANCO DE FILTROS
SOM ORIGINAL
SUB - BANDAS
Codificador de áudio do padrão MPEG
Diagrama de blocos do codificador de áudio descrito no padrão MPEG; neste caso, o sinal original, por exemplo digitalizado a 48 kHz com 16 bits, é analisado por um banco de 32 filtros com banda de 750 Hz.
BANCO DE FILTROS
1
2
3
4
32
QUANTIZADORES SUB-
AMOSTRADORES
ÁUDIO
AMOSTRADOR PCM
Fa
Fa/32
Q1
Q2
Q3
Q4
Q32
MODELO PSICO- ACÚSTICO
FLUXO DE DADOS CODIFICADOS
FORMATADOR ALOCAÇÃO DE
BITS
As saídas dos filtros são sub- amostradas – 32 grupos de 1500 Hz.
Som MPEG – modelo de funcionamento
0 5 10 15
Frequencia
A determinação do nível de mascaramento é feita por um
Modelo Psico-acústico, a partir do espectro obtido por uma FFT de 512 ou 1024 pontos
Embora o detalhamento do modelo não esteja especificado no padrão MPEG, sua operação segue o esquema geral da figura
FFT Separador
Tonal
Não- Tonal
Cálculo da Potência por Banda
Cálculo do Limiar Absoluto
Limiar Tonal
Limiar Não-Tonal SPL(n)
SMR(n) Funções de
Mascaramento
mínimo M(n) PCM
MPEG-1 Níveis I e II
MPEG-1 Nível I
• Codificação feita em Quadros de 12 amostras por sub-banda (384 amostras e 32 sub- bandas)
• para cada quadro permanecem constantes os fatores de escala e alocações de bits por amostra por banda
• aceita taxas de amostragem de 32kHz, 44.1 kHz ou 48 kHz para um ou dois canais independentes ou associados
O padrão MPEG-1 Nível I é usado no DCC (Digital Compact Cassette) com o nome de PASC (Precision Audio Sub-band Coding).
MPEG-1 Nível II (MUSICAM)
• Codificação em Quadros de 3 x 12 amostras por sub-banda (1152 amostras) proporcionando menor "overhead" na transmissão
• a análise de espectro para o modelo psico-acústico é feita com FFT de 1024 pontos;
• admite codificação estatística agrupando 3 amostras consecutivas em um único código
MPEG-1 Nível III (MP3)
MPEG-1 Nível III (MP3)
• Codificação em Quadros de 3 x 12 amostras por sub-banda (1152 amostras);
• usa um modelo psico-acústico mais elaborado;
• Utiliza transformada de cossenos (DCT) para subdividir as Sub-bandas em 6 ou 18 sub- sub-bandas, proporcionando redução de "Aliasing" entre sub-bandas;
• efetua aplicação de janelas temporais curtas (6 amostras) ou longas (18 amostras) antes da DCT;
• pode usar Quantizador não-linear : Y=Q(X0.75);
• aplica codificação de Huffman nas amostras quantizadas;
• utiliza Memória Elástica ("Buffer") para regularizar a taxa média de bits
Desempenho dos Processos de Compressão de Áudio Perceptual
45 ms 290 kb/s
3,53 Mb/s 12:1
5.1 Dolby AC-3
384 kb/s 3,53 Mb/s
10:1 5.1
MPEG-2 / III
>80 ms 128 kb/s
1,41 Mb/s 8:1
2 MPEG-1 / III
>40 ms 256 kb/s
1,54 Mb/s 6:1
2 MPEG-1 / II
(MUSICAM)
292 kb/s 1,41 Mb/s
5:1 2
ATRAC
19 ms 384 kb/s
1,41 Mb/s 4:1
2 MPEG-1 / I
Atraso A/D/A Taxa
Comprimida Taxa
Original Taxa Média de
Compressão Canais
Padrão de Compressão
Compressão de Imagens e Vídeo
(Padrões MPEG-1 e 2)Processo de compressão de dados
• busca reduzir a redundância presente no sinal da fonte de informação
• codificador com preditor: determina uma estimativa do sinal a ser transmitido, baseando-se nas entradas anteriores y(t-1), y(t-2).... (figura).
• basta transmitir apenas o erro de predição e(t), ou seja, a diferença entre a estimativa e o sinal real y(t).
• Preditor for eficiente o erro de predição com baixa auto-correlação valores próximos de zero redução da quantidade de informação a ser transmitida
y tˆ
Preditor Preditor
y(t)
y(t)^ y(t)^
e(t) y(t) +
-
Transmissor Receptor
Canal
S1 S2
y tˆ
Exemplo de preditor
“Frame store“
• explora o fato de que um quadro transmitido é geralmente muito semelhante ao quadro anterior
• consiste de uma memória que armazena o quadro anterior
• são transmitidas apenas as diferenças entre dois quadros consecutivos (pixel a pixel)
• este preditor falha quando há um corte de cenas, ou movimentos rápidos de objetos ou da câmera
Preditor com Compensação de Movimento
• mais eficiente para aplicação em vídeo
• procura compensar os movimentos de objetos em relação ao campo de visão da câmera
• o codificador detecta o deslocamento relativo de partes da imagem entre dois quadros consecutivos, transmitindo essa informação na forma de vetores de movimento
• componentes no sentido horizontal e vertical ---
Preditor com Compensação de Movimento
• O preditor monta uma estimativa da imagem atual baseada em fragmentos tomados de uma imagem de referência deslocados conforme os vetores de movimento
• Normalmente utiliza apenas translações lineares
• Uma vez que é impraticável determinar quantos objetos com movimentos
independentes existem em uma imagem, cada fotograma pode ser subdividido em blocos regulares, sendo então determinados vetores de movimento para cada bloco.
Anterior (referência) Atual Erro de predição
Vetor de movimento Predição (com compensação) Erro de predição (com compensação)
Detector de movimento
• unidade funcional que determina os vetores
• para cada bloco da imagem atual
• faz uma varredura sobre a imagem de referência, buscando o ponto de maior semelhança com o bloco a ser analisado
• mede a distorção média absoluta (DMA*)
DMA x y
N f x i y j ref x i dx y j dy
i j
( , ) ( , ) ( , )
,
1
• (dx,dy) deslocamento entre a imagem de referência ref(x,y) e o bloco da imagem de entrada f(x,y)
• O valor de (dx,dy) para o qual a DMA é mínima é adotado como vetor de movimento do bloco de coordenadas (x,y)
• Normalmente a busca é feita dentro de uma área restrita
• Pode utilizar processos hierárquicos uma vez que uma busca exaustiva sobre toda a imagem representa um esforço computacional elevado
Vetor de deslocamento – algoritmos de busca
Imagem de Referência Imagem atual x
y x
y
Área de Busca
Bloco de Maior Semelhança
Vetor de Movimento
Bloco a ser Estimado
Busca Exaustiva
Varredura de toda a região de busca com resolução de 1/2 pixel
Busca Hierárquica
• Varre a região com resolução decrescente à medida que a correlação aumenta
Codificação com Perdas
• Compensação de movimento
• reduz bastante a redundância temporal
• Erro de predição resultante submetido a processo de compressão (semelhante ao JPEG)
• Obtem-se a uma forma importante de codificação que
• remove também as redundâncias espaciais
• torna-se adequada para cenas com cortes ou mudanças bruscas de conteúdo
• Compressão sem perdas – taxas de compressão até 3:1
• Compressão com perdas – Combinando compensação de movimento com transformada DCT e quantização
• taxas de 20:1 ou mais
• baixa visibilidade dos erros de reconstrução ---
Padrões de compressão com perdas
• MPEG-1 (Moving Pictures Experts Group - ISO/IEC 11172a)
• compressão de imagens não-entrelaçadas
• taxas de informação até 1,5 Mb/s (aplicações: vídeo-conferência sobre troncos E1 / T1; multimídia em CD-ROM)
• MPEG-2 (ISO13818)
• destinado à compressão de imagens de TV entrelaçadas
• admite vários níveis de desempenho para taxas de 1,5 a 100 Mb/s (aplicações:
TV convencional digital, HDTV)
• H-261 e H-263 (ITU)
• vídeo-conferência através de ISDN (múltiplos de 64 kb/s)
• H-324 (ITU)
• vídeo-conferência através de Modem Telefônico
MPEG-2 – Níveis e Perfis
20 ~ 100 Mb/s 1080 Linhas 1920 Pontos (Formato HDTV - Qualidade Estúdio)
Alto (HL)
20 ~ 60 Mb/s 1080 Linhas 1440 Pontos (Formato HDTV)
Alto-1440 (H14L)
4 ~ 6 Mb/s 480 Linhas 720 Pontos ( CCIR-601 - Qualidade Estúdio p/ TV Convencional)
Principal (ML)
~1,5 Mb/s 240 Linhas 360 Pontos ( qualidade VHS)
Baixo (LL)
Taxa de Bits Formato de Vídeo
Nível
Exemplos
• SP@LL corresponde a um codificador com desempenho equivalente ao MPEG-1 para multimídia
• MP@ML é um formato adequado para TV convencional entrelaçada, atualmente usado em sistemas como DirecTV e na codificação de vídeo no DVD (“Digital Versatile Disc”)
Todos os recursos e codificação 4:2:2 (Dobro de amostras de Crominância) Alto (HP)
Codificação Hierárquica com níveis diferentes de prioridade para imagem 4x3 e 16x 9 Escalável Espacial (SSP)
Codificação Hierárquica com níveis diferentes de prioridade para imagem básica e detalhes
Escalável em SNR (SNRP)
Predição bidirecional (Quadros tipo B) Principal (MP)
Nenhum (Sistema Mínimo) Simples (SP)
Recursos Adicionais Perfil
MPEG-4
• Em 1993 o ITU-T iniciou atividades para um novo padrão, destinado à codificação de informação áudio-visual sobre taxas de bits reduzidas.
• O escopo do que viria a ser o padrão MPEG-4 foi expandido posteriormente, tornando- se um padrão genérico de codificação de eventos multimídia.
• Recursos importante do MPEG-4:
• a segmentação de um objeto áudio-visual em objetos semânticos, representados por contornos e texturas
• Os objetos são codificados dentro de planos independentes (VOP’s - Video Object Planes). O receptor pode manipular separadamente o fluxo de dados proveniente de cada codificador, permitindo assim visualização apenas dos objetos selecionados
• O decodificador admite a carga de ferramentas (algoritmos e processos programáveis), juntamente com o fluxo de dados, tornando-o aberto a futuros desenvolvimentos de técnicas de compressão e transporte de dados
Padrões de TV Digital
Principais Características
• A TV digital tem amplas vantagens sobre o sistema de TV analógica:
• Robustez a multipercursos (responsável pelos fantasmas) e diversas formas de ruído eletromagnético
• Alta resolução: em geral 1280x720 (HDTV Ready) ou 1920x1080 (Full HD) versus 525 linhas (PAL-M e NTSC) ou 625 linhas (PAL);
• Permite recepção móvel com razoável qualidade e resolução (320x240)
• Múltipla programação (com HDTV Ready ou SDTV, 704×480) e som com múltiplas trilhas (5.1 canais)
• Todos os padrões costumam usar MPEG2 para compressão de vídeo. Novas versões dos padrões estão adotando o H.264/MPEG4-AVC tal como o SBTVD;
Padrões de TV Digital
•Existem basicamente 3 padrões de TV Digital atualmente:
•ATSC (Advanced Television Systems Committee): padrão desenvolvido nos EUA e adotado na América do Norte. Usa banda de 6MHz e modulação 8-PAM com banda lateral vestigial (8VSB). Adotado na América do Norte. A versão ATSC-M/H prevê recepção em receptores móveis (handhelds).
• DVB-T (Digital Video Broadcast – Terrestrial): padrão europeu adotado na Europa e alguns outros países do mundo. Usa bandas de 5, 6, 7 ou 8MHz Adota transmissão OFDM (Orthogonal Frequency Division Multiplexing) com opção de várias taxas (diferentes códigos corretores de erro e modulçaões). Uma
característica interessante em relação ao ATSC é que ela é mais simples de utilizar no caso de uma rede de broadcast de frequência única (SFN –Single Frequency Network). A versão para receptores móveis é a DVB-H e que pode coexistir com o DVB-T. É importante salientar que o DVB-H exige um canal extra. Assim, é possível que outros provedores de conteúdo, além da
originalmente foi pensado para que os provedores de telefonia sem fio fossem os responsáveis por prover o serviço.
Padrões de TV Digital
• ISDB-T (Integrated Services Digital Broadcasting – Terrestrial): padrão
desenvolvido no Japão que usa banda de 6MHz. De resto, muito semelhante ao DVB-T, mas apresenta uma maior flexibilidade em alguns parâmetros e,
sobretudo, já incorpora na própria transmissão o canal para recepção móvel, o chamado 1seg.
• O modelo brasileiro: o SBTVD (Sistema Brasileiro de Televisão Digital), a.k.a. ISDB-Tb
•Trata-se de uma variante do modelo japonês. As diferenças residem na transmissão de TV terrestre que já adota o H.264 (enquanto o japonês atualmente usa o MPEG2),
canal móvel a 30 quadros por segundo e codec de áudio HE-AAC v.2, e no sistema de interatividade. Este último exigirá um canal de retorno, que pode ser um sistema
ADSL, cabo, sistema celular (GSM, 3G), WiMAX, i.e., qualquer sistema que permita acesso a Internet.