- Tópicos Especiais em Comunicações
PTC2459
Professor Celso de Oliveira - Sala D3-30
http://www.lcs.poli.usp.br/~celso/ celso@lcs.poli.usp.br
Amostragem de uma Imagem em Movimento
Uma imagem pode ser entendida como uma projeção óptica de uma região do espaço sobre um plano. Podemos ainda dizer que a representação de uma imagem em
movimento é um evento contínuo ocorrendo em um espaço tridimensional: u = f (x, y, t)
u = luminância
x = dimensão horizontal y = dimensão vertical t = tempo
No entanto, um sinal elétrico, na forma pela qual pode ser transmitido por um canal de comunicação convencional, é unidimensional (voltagem × tempo).
O processo de varredura é a forma utilizada para reduzir a dimensionalidade daquele evento, criando um sinal análogo unidimensional.
Amostragem em TV
No caso da televisão, consiste de 2 etapas
1. Amostragem temporal: divisão da imagem em fotogramas ou quadros (“frames”)
sucessivos (semelhante ao caso do cinema)
2. Amostragem Espacial (Varredura ou "Raster Scan"): divisão da imagem em linhas
horizontais, ao longo das quais é feita a medida da luminosidade. O sinal temporal resultante é denominado sinal de vídeo
Amostragem em TV – câmara de TV
Este processo ocorre em uma câmara de TV convencional: a imagem é projetada por um sistema de lentes sobre uma superfície foto-sensível, na qual o iluminamento resultante gera uma distribuição de cargas elétricas. Estas cargas são serializadas por um processo adequado (por exemplo, pela leitura através de um feixe de elétrons), produzindo uma corrente elétrica proporcional ao iluminamento em cada ponto dessa superfície.
Resolução Temporal
Na padronização de um sistema de televisão, há 3 critérios importantes que influenciam a escolha da taxa de amostragem temporal:
1. Remanência da visão: a ilusão de movimento contínuo é obtida quando temos
seqüências sucessivas com mais do que 15 a 20 quadros por segundo (O cinema usava inicialmente 12 a 16 fotogramas por segundo; atualmente usa 24);
2. Cintilação: a freqüência acima da qual nossa visão deixa de perceber cintilação na
imagem depende de vários fatores, entre os quais a luminosidade e a extensão visual do objeto pulsante. Para TV seria desejável mais do que 60 imagens / segundo.
3. Batimentos e interferências com a rede de distribuição de energia elétrica
Varredura com entrelaçamento
10 sµ 53,5 sµ
Deflexão Horizontal varredura
Sinal de vídeo
preto branco 53,5 sµ 10 sµ t t Varredura horizontalResolução Espacial
Resolução Espacial de um Sistema de Reprodução de Imagens
Para podermos definir a quantidade de linhas em que devemos subdividir cada quadro, precisamos analisar a relação entre o tamanho aparente da imagem de TV (ou seja, o ângulo subentendido pela imagem, observada a uma distância padrão de visualização) e as características de acuidade visual do observador, necessárias para garantir qualidade aceitável de imagem
Televisão Convencional
Uma vez que o cinema adotava relação de aspecto de 4:3 (largura x altura), a TV estabeleceu a mesma proporção de imagem, garantindo compatibilidade tanto com o material disponível para exibição quanto com equipamentos existentes (especialmente lentes).
TV de Alta Definição
Pesquisas feitas no Japão pela NHK, na década de 70, identificaram a viabilidade de um formato de TV capaz de proporcionar “uma nova experiência visual” ao espectador,
similar à sensação conferida pelo cinema de tela larga. Estas pesquisas culminaram
com a adoção de uma tela com proporções de 16:9, dimensionada para visualização sob um ângulo horizontal de 30 graus, num formato denominado Hi-Vision.
Este formato (atualmente classificado como HDTV ou TV de Alta Definição), além de aproveitar melhor o material cinematográfico disponível, abrangeria ainda parte do campo de visão periférica do observador, o que proporciona um nível mais intenso de ilusão de realidade.
TV (4:3)
HDTV (16:9)
Cinemascope (2.35:1) Cinema (1.85:1)
Banda necessária (NTSC)
O número de linhas horizontais ativas é aproximadamente 480. O tempo requerido para o retraço horizontal corresponde a 45 linhas horizontais, sendo o total 525 linhas.
6 4 0,75 525 525 30 8, 26 10 / 3 pulsos s × × × × = × Fator de Kerr Relação de aspecto
4,13
WB
=
MHz
Radiodifusão de TV Monocromática
A modulação AM de um sinal RS-170 exigiria mais de 8,4 MHz de banda total. Para reduzir a banda ocupada, o sinal modulado sofre uma filtragem vestigial, pela qual a banda lateral inferior é limitada em 750 kHz abaixo da portadora.
Considerando bandas de guarda entre os canais adjacentes, e considerando que o sinal de áudio é transmitido por uma portadora independente (modulada em FM numa freqüência 4,5 MHz acima da portadora de vídeo), a programação de TV pode ser veiculada através de um canal de 6 MHz de banda total.
Portadora
de vídeo Portadorade áudio
Portadora de vídeo (canal superior) Portadora de áudio (canal inferior) 50% 1 MHz 4,2 MHz 6 MHz
Alocação Espectral
A alocação de canais foi feita, historicamente, em bandas não contíguas. Os canais baixos (2 a 6) ocupam freqüências de 54 a 88 MHz (com um espaço adicional de 4 MHz entre os canais 4 e 5).
3
2 4 5 6
54 60 66 72 76 82 88
A seguir, os canais altos (7 a 13) ocupam freqüências de 174 a 216 MHz.
Posteriormente foi alocada uma banda de UHF, para os canais 14 a 83, entre 470 e 890 MHz.
No final da década de 1970, os canais 70 a 83 foram realocados para implantação do serviço de telefonia móvel celular
Padrões de TV
Padrão Países fv
(Hz) linhas de varredura (MHz)Bw (MHz)canal
A Inglaterra (obsoleto) 50 405 3
-M EUA, Brasil, Japão,
Canadá, México, Chile 60 525 4.2 6
N Argentina, Paraguai,
Uruguai 50 625 4.2 6
B Europa, Austrália, Índia 50 625 5 7
D,K,L Rússia, China 50 625 6 8
G,H Europa (UHF) 50 625 5 8
I Inglaterra, Angola, África
do Sul 50 625 5.5 8
E França (obsoleto) 50 819 10 14
Padrões – Vídeo para Computadores
Padrão Resolução
visível h x v Freq. Vert.(Hz) Freq. Hor.(kHz) varredura (MHz)Bw
CGA 320 200 60 15.75 progress. 3.2 VGA 640 480 60 31.5 progr. 13 VESA 640 480 72 37.8 progr. 16 SVGA 800 600 75 46.8 progr. 25 XGA 1024 768 87 35.5 entrelac. 23 SVGA 1280 1024 71 76.0 progr. 63
TV a Cores
A sensação de cor de uma fonte luminosa (ou de um objeto) está associada á forma da distribuição espectral de potência da emitância (ou refletância) dessa fonte.
Distribuições espectrais diferentes podem trazer a mesma sensação de cor.
Em 1669,
Isaac Newton
realizou experimentos com prismas através dos quaisdescobriu que a luz branca era formada pela combinação das cores do arco-íris (ou seja, de componentes monocromáticas compreendendo uma faixa de comprimentos de onda). vermelho amarelo verde azul branco
Através da inserção de anteparos entre dois prismas, ele pôde examinar a percepção de cores, decorrente da combinação de um ou mais estímulos
monocromáticos.
Determinou, por exemplo, que a sensação de luz
branca poderia também ser obtida pela soma de duas componentes monocromáticas adequadas, como azul e amarela. Observou então que as cores
do espectro podiam ser agrupadas em pares
complementares, cuja soma produz a sensação de luz branca (a exceção é o "magenta" , que não é uma cor espectral, e sim a combinação de luz vermelha e
Características da visão colorida
Segundo a teoria tricromática da visão (introduzida por Young e Helmoltz), a retina possui grupos de células receptoras (cones) que são sensíveis em 3 regiões distintas de comprimentos de onda; a percepção visual correspondente à sensação de cor é decorrente da relação entre os estímulos recebidos dentro dessas faixas.
Um modelo proposto para esta percepção explica as características diferenciadas de
vários aspectos da percepção visual, como por exemplo as diferentes resoluções espaciais para estímulos de luminância e tonalidade de cor, além de certas deficiências visuais
relacionadas, como a protanopia (perda de distinção entre verde e vermelho) ou a tritanopia (entre azul e amarelo).
Os valores dos estímulos R, G e B seriam obtidos por: ;
;
Outras representações de luminância e crominância
Para refletir apenas a Cromaticidade de uma cor (ou seja, apenas nos atributos de Tonalidade e Saturação, independentemente do Brilho), podemos normalizar os valores obtidos em relação à soma (luminância total), ou seja
r R R G B g G R G B b B R G B r g = + + = + + = + + = − −1 X R G B Y R G B Z R G B = + + = + + = + + 0 490 0 310 0 200 0177 0 813 0 011 0 000 0 010 0 990 . . . . . . . . . R X Y Z G X Y Z B X Y Z = − − = − + + = − + 2 365 0 897 0 468 0 515 1426 0 089 0 005 0 014 1009 . . . . . . . . .
Os sinais de luminância sofrem a Correção Gama, para compensar a não-linearidade do cinescópio no receptor, produzindo as componentes
, , , ,
R G B→R G B′ ′ ′
Padrão NTSC – o sinal de luminância gerado deve obedecer à expressão 0.299 0,587 0,114
Y′= R′+ G′+ B′
A partir do qual são gerados dois sinais de Crominância, que carregam a informação de cor:
,
Sistema NTSC
(National Television Standards Committee)
(
)
(
)
(
)
(
)
0,74 0, 27 0,60 0, 28 0.32 0, 48 0, 41 0, 21 0,52 0.31 I R Y B Y R G B Q R Y B Y R G B ′= ′− ′ − ′− ′ = ′− ′− ′ ′= ′− ′ + ′− ′ = ′− ′+ ′O primeiro sistema compatível de TV a cores, padronizado em 1953, transmite os sinais de crominância modulados em Q-DSB (duas bandas laterais em quadratura), através de uma sub-portadora na freqüência fsc = 3.579545 MHz. Os sinais e são antes combinados em sinais I' e Q' (em fase e em quadratura) pelas expressões
(
R
′
−
Y
′
)
(
B
′
−
Y
′
)
O sinal I', representando crominância na direção ciano / laranja, é limitado em banda em aproximadamente 1,5 MHz, enquanto Q', representando a direção verde/magenta (na qual o
olho é menos sensível a detalhes), é limitado em 0,5 MHz.
A amplitude máxima do sinal Q' é menor que a do sinal I', de forma a minimizar a amplitude total do sinal de vídeo composto (especialmente para as cores amarelo e azul).
NTSC – Modulador e Espectro
Q' I' 0.5 MHz 1.5 MHz R' G' B' Y' R' - Y' B' - Y' Matriz Matriz Oscilador Sub-portadora Sincronismo Composto 4.2 MHz 90o Croma Video Composto 3.579545 MHz T1 T2 Modulador NTSC 6 MHz 4,5 MHz 3,58 MHz 1,25 MHz Som (FM) Luminância (AM-VSB) Croma (Q-DSB)Ocupação Espectral de um sinal de Radiodifusão NTSC
AMARELO VERMELHO MAGENTA VERDE CIANO AZUL A A A A A FASE 0.30 A 270°
PAL-M
O sistema NTSC sofre problemas de instabilidade de cor, especialmente quando o sinal é sujeito a defasagens não-lineares por intermodulação da luminância (defeito chamado de erro de fase diferencial).
Na tentativa de reduzir estes problemas, foi desenvolvido o sistema PAL (“Phase
Alternation Line”) na Alemanha. Este sistema foi desenvolvido para o padrão europeu (50 Hz, com largura de canal de 8 MHz).
No Brasil, por utilizarmos o padrão M de transmissão monocromática, optamos por
desenvolver uma variante do PAL europeu, denominada PAL-M.
(
)
(
)
0, 493 0,877 U B Y V R Y ′= ′− ′ ′= ′− ′Modulador PAL-M
U' V' 1.5 MHz 1.5 MHz 4.2 MHz R' G' B' Y' R' - Y' B' - Y' Matriz Oscilador Sub-portadora 90o Croma Video Composto Sincronismo Composto 3.575611 MHz 0.493 0.877 fh/2A inversão de fase a cada linha corresponde a uma modulação por um sinal de
freqüência fh/2. Isso faz com que o espectro do sinal de crominância adquira raias nas freqüências múltiplas de fh/2, o que dificulta o intercalamento espectral com o sinal de luminância. Por isso, a sub-portadora do sistema PAL-M é igual a um múltiplo ímpar de um quarto da freqüência horizontal, a saber: fsc = 909/4 fh = 3,575611 MHz.
No receptor, há um circuito de retardo que proporciona ao sinal de crominância um
atraso igual à duração de uma linha. É efetuada então a média da crominância transmitida em linhas consecutivas; desta forma, um erro de fase em uma determinada direção é
Diagrama em Blocos Simplificado de um Sistema de TV a Cores
Matriz Controle de Ganho Filtros Separador Lente Sensores Yr Yg Yb Corretor Gama Codificador R G B R G B G' R' B' Canal de Transmissão G' R' B' Decodificador Matriz Controles de Imagem Cinescópio Rd Gd BdOutros Padrões de Vídeo
• Super-Video
• Este é um padrão de distribuição de vídeo em banda-base, no qual os sinais de
luminância (Y' + Sincronismo composto) e Croma ( I', Q' e “burst” modulados
em 3,58 MHz) trafegam independentemente por cabos separados. A vantagem é que, não havendo necessidade de filtros no receptor para separar luminância e crominância, a resolução de imagem é superior e as modulações cruzadas
praticamente inexistem. O sinal de S-Video pode usar as freqüências próprias do NTSC, PAL-M, etc. É usado em equipamentos semi-profissionais.
• Componentes (YUV)
• Este padrão é bastante usado em estúdios e equipamentos profissionais; nele, os sinais em banda base Y' ,(B' -Y') e (R'-Y') são conduzidos por 3 cabos
individuais. As amplitudes dos sinais são similares a um sinal de vídeo composto (~1 Vpp em 75 Ohms).
Formatos de Vídeo Digital
Vídeo Digital x Analógico
O sinal analógico, de um modo geral, está sujeito a 4 categorias de degradações, sempre que é transportado, processado ou armazenado:
• Ruído: aleatório, cumulativo, inerente aos processos físicos envolvidos na eletrônica; • Distorção não-linear: presente em todos os elementos ativos de circuitos,
amplificadores, processadores, etc.;
• Interferências: ingresso de sinais indesejados, geralmente de origem humana; identificáveis, porém de difícil eliminação;
Codificação Digital – Vantagens
• Há muitas vantagens decorrentes do uso de codificação digital no tratamento e distribuição de sinais de vídeo:
• imunidade às degradações
• funções de processamento de imagem que seriam praticamente impossíveis de executar na forma analógica
• extração de informações visualmente relevantes de uma imagem
(fundamental para a implementação de processos de compressão de dados) • Uma das primeiras aplicações das técnicas de processamento digital, na área de TV,
foi na implementação de corretores de base de tempo (“Time Base Corrector”, ou TBC), que utilizam linhas de retardo variáveis para sincronizar o sinal de vídeo
Aplicações de processamento e efeitos visuais
• À medida que o custo e o desempenho dos circuitos digitais, especialmente dos conversores A/D, foram tornando-se mais vantajosos, foram desenvolvidas aplicações de processamento e efeitos visuais em estúdios, como por exemplo:
• "Frame store": armazenamento digital para permitir congelamento de imagem, câmera lenta e “replay”;
• "Conversores de padrões: transcrição entre sistemas com varreduras de 50 e 60 Hz, implementados através de interpoladores e decimadores espacio-temporais;
• Equipamentos de telecinagem: com conversão de 24 fotogramas para 60 campos por segundo através de interpolação;
• Efeitos de transformações geométricas: onde é feito mapeamento espacial de imagens, em tempo real, com mudança de coordenadas, deformações, perspectivas, etc. ;
• Redutores de ruído: baseados em filtragem temporal entre linhas e quadros consecutivos;
• Gravadores de vídeo digitais: através da aplicação de códigos corretores de erros, evitam degradação cumulativa da relação sinal/ruído, mesmo que o sinal sofra sucessivas gerações (cópias);
• Edição não-linear: ao invés de utilizar dois ou mais gravadores de VT para finalizar a montagem de programas (pós-produçao), utilizam-se meios de armazenamento digital com acesso randômico selecionando quadros individuais, facilitando o processo de edição
Radiodifusão de TV em formato digital
• Atualmente já é viável a radiodifusão de programas de TV em formato digital • técnicas de compressão de dados aplicáveis a imagens em movimento • códigos de correção de erros e processos eficientes de modulação • Hoje existem vários sistemas digitais em operação
• por satélite • por cabo
• Por radiodifusão terrestre
• Vantagens em relação aos canais analógicos
• qualidade de imagem (pela imunidade a ruídos)
Digitalização
• TV analógica
• processo de varredura consiste de amostragem temporal (quadros/campos) e espacial no sentido vertical (linhas)
• TV digital – A digitalização do sinal de vídeo
• mais uma etapa de amostragem – realizada no sentido horizontal +
• quantização das amostras obtidas
• Disto resulta uma decomposição da imagem em elementos de imagem ou pixels (picture elements)
• cada pixel é descrito numericamente pelas amplitudes de suas componentes (R, G, B ou Y, U, V)
Estrutura de amostragem espacial no padrão M
10% Para Retraço Vertical 20% para Retraço Horizontal 480 Linhas Visíveis640 Pixels Visíveis por Linha 525 Linhas Y= 106 U= -15 V= 30 pixel:
Uma vez que a varredura é feita com cerca de 480 linhas
visíveis, para obtermos a mesma
resolução limite na horizontal e na vertical (correspondente a uma relação de aspecto de 1:1, ou pixels quadrados), devemos ter 480×4/3 = 640 pixels por
linha ativa, o que implica em freqüência de amostragem de
~9,2MHz
Em um sistema digital, não é necessário transmitir o sinal de vídeo amostrado durante os Estrutura de amostragem espacial adequada para
Quantização e relacão Sinal/Ruído
O processo de conversão A/D e D/A, necessário para o processamento digital, introduz degradações, especialmente devido ao ruído de quantização. Costuma-se caracterizar o ruído, em sistemas de vídeo, como a relação entre a amplitude pico-a-pico máxima do sinal e a amplitude eficaz do ruído de quantização, medida dentro da banda passante nominal (4,2 MHz para NTSC e PAL-M). Desta forma, o ruído de quantização (não ponderado) em função do número de bits n é expresso por:
) ( 2 log 10 8 . 10 02 . 6 2 log 10 ) 12 log( 10 ) 2 log( 20 ) ( dB F F n Q S ou F F dB Q S V S e V S n e ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⋅ + + ⋅ = ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⋅ + ⋅ + ⋅ =
onde Fs é a freqüência de amostragem e Fv é a banda passante do sinal de vídeo. Na prática, a quantização de um sinal de vídeo deve admitir uma margem de
segurança (“headroom”) para abranger eventuais sinais com excursão excessiva. A relação Sinal/Ruído real, incluindo a margem de segurança, é então dada por
S Q n F F V V V dB e S V T B P = ⋅ + + ⋅ ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ − − ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 6 02 10 8 10 2 20 . . log log ( )
onde VT é a excursão total do quantizador; VB e VP correspondem respectivamente aos níveis de branco e de preto.
Filtro de ponderação
Considerando as características da percepção visual, ao efetuarmos medidas de ruído devemos usar um filtro de ponderação que aproxime a MTF (“modulation transfer
function”) da visão humana, nas condições normais de visualização de uma imagem de TV. Utiliza-se para isso um filtro definido pelo CCIR, cuja resposta em freqüência é dada por ( ) A f f f f f f f dB = +⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥⋅ + ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ +⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ 10 1 1 1 10 1 2 2 2 3 2 log 1 270 f = kHz 2 1,37 f = MHz 3 390 f = kHz
O efeito da ponderação pelo filtro padrão CCIR, sobre um ruído branco gaussiano, é de melhorar a relação sinal/ruído em 6.81 dB.
Exemplo: a relação Sinal/Ruído ponderada, para um quantizador de 8 bits, usando
Interfaces de Vídeo
Para proporcionar uma interface digital consistente, evitando assim a degradação
cumulativa provocada pela concatenação de conversores A/D e D/A em equipamentos
diferentes, foram instituídos alguns formatos padronizados de vídeo digital, compreendendo sistemas de amostragem e interfaces físicas.
Padrão D-1 (CCIR-601)
• também chamado de "Digital Components", ou 4:2:2 (numa referência à proporção entre o número de amostras nas componentes Y, U e V), efetua a amostragem
independente das componentes de luminância (com taxa de amostragem de 13.5 MHz) e de crominância (taxa de amostragem de 6.75 MHz cada uma).
• A quantização é feita com 8 bits, sendo que o nível de preto (0 IRE) corresponde ao nível de quantização 16, e o branco (100 IRE) corresponde a 219, deixando uma margem de segurança para evitar saturação com sinais de amplitudes maiores. Os códigos 0 e 255 são reservados para sincronismo.
O padrão D1
O padrão D-1 proporciona qualidade de imagem excelente, sendo adequado para
aplicações em estúdio. A interface física é paralela, balanceada e síncrona (clock de 27 MHz), utilizando um conector DB-25. Os níveis de tensão correspondem a níveis lógicos ECL ( -0.8 / -1.85 V).
A taxa de amostragem corresponde a 720 pixels de luminância e 360 × 2 pixels de
crominância (total de 1440 amostras) durante a parte ativa de cada linha (53.33µs), sendo que este valor é adequado tanto para sistemas em 60Hz como para 50Hz. No caso de
NTSC e PAL-M (525 linhas), a linha completa corresponde a 858 ciclos de 13,5 MHz, sendo que 138 ciclos correspondem ao retraço horizontal. No caso de sistemas a 50 Hz (PAL europeu, com 625 linhas), a linha horizontal completa corresponde a 864 ciclos, com 144 ciclos reservados para retraço horizontal.
As amostras são intercaladas, na seqüência -UYV-Y-UYV-... onde o grupo UYV corresponde a amostras
Y
U V Y U Y V Y Sequência de Amostras
O padrão D1
O intervalo de retraço
horizontal é substituído por um bloco de dados ("blanking digital") delimitado por
códigos de sincronismo (4 bytes). Estes códigos contêm dados que identificam o
campo (par ou ímpar), o período de retraço vertical, e o início e fim do trecho ativo da linha (SAV - Start of
Active Video / EAV - End of Active Video).
Na figura temos um detalhe da codificação do sinal de vídeo.
Padrão D-2 (Digital Composto)
Formato mais econômico que o D-1
• digitaliza diretamente o sinal de vídeo composto
• Para o NTSC, a taxa de amostragem é de 14.31818 MHz (correspondente a 4 × a freqüência da sub-portadora de cor), e a quantização é de 8 ou 10 bits. A interface física é idêntica à do D-1. A figura mostra os níveis de quantização
correspondentes para um sinal NTSC.
60 4 200 255 Branco Máximo Apagamento Tôpo do Sincronismo Máximo
Padrão D-6 (SMPTE 274M - HDTV Digital)
Para a futura TV de alta definição
1080 linhas ativas com 1920 pixels por linha
baseado no padrão de vídeo analógico HDTV SMPTE 240M,
cujas características estão resumidas abaixo
Número de linhas: 1125 totais (entrelaçadas), 1080 linhas ativas
Freqüência de Amostragem: 74.25 MHz (Luminância); 37.125 MHz (Crominância) Padrão de Amostragem: 4:2:2
Duração da linha: 29.63 µs (2200 amostras totais, 1920 amostras ativas) Resolução: 8 ou 10 bits
Processamento Digital de Imagens
As imagens disponíveis na forma digital podem ser
processadas de forma muito mais ampla e do que na
forma analógica.
Armazenamento sem deterioração
Redução de ruído
Filtros espaciais, temporais e no domínio de freqüência
Congelamento
Mudança de velocidade – interpolação
Câmera lenta, câmera rápida
Transformações geométricas
Transformações geométricas
Forma geral (3D) 0,0 0,1 0,2 0,3 1,0 1,1 1,2 1,3 2,0 2,1 2,2 2,31
0
0
0
1
1
X
a
a
a
a
X
Y
a
a
a
a
Y
Z
a
a
a
a
Z
′
⎡ ⎤ ⎡
⎤ ⎡ ⎤
⎢ ⎥ ⎢
′
⎥ ⎢ ⎥
⎢ ⎥ ⎢
=
⎥ ⎢ ⎥
′
⎢ ⎥ ⎢
⎥ ⎢ ⎥
⎢ ⎥ ⎢
⎥ ⎢ ⎥
⎣ ⎦ ⎣
⎦ ⎣ ⎦
′ =
W
TW
Transformações geométricas
Translação 0 0 01 0 0
0 1 0
0 0 1
1
0 0 0
1
1
X
X
X
Y
Y
Y
Z
Z
Z
′
⎡ ⎤ ⎡
⎤ ⎡ ⎤
⎢ ⎥ ⎢
′
⎥ ⎢ ⎥
⎢ ⎥ ⎢
=
⎥ ⎢ ⎥
′
⎢ ⎥ ⎢
⎥ ⎢ ⎥
⎢ ⎥ ⎢
⎥ ⎢ ⎥
⎣ ⎦ ⎣
⎦ ⎣ ⎦
3D 0 X 0 Y 0 01 0 0
0 1 0
0 0 1
0
0
1
0 0 0
1
1
X
X
X
Y
Y
Y
Z
′
⎡ ⎤ ⎡
⎤ ⎡ ⎤
⎢ ⎥ ⎢
′
⎥ ⎢ ⎥
⎢ ⎥ ⎢
=
⎥ ⎢ ⎥
′
⎢ ⎥ ⎢
⎥ ⎢ ⎥
⎢ ⎥ ⎢
⎥ ⎢ ⎥
⎣ ⎦ ⎣
⎦ ⎣ ⎦
2DTransformações geométricas
Mudança de escala0
0
0
0
0
0
0
0
0
0
0
0
1
x y S zS
S
T
S
⎡
⎤
⎢
⎥
⎢
⎥
=
⎢
⎥
⎢
⎥
⎣
⎦
Transformações geométricas
Rotação (em torno do eixo z)
cos
sin
0 0
sin
cos
0 0
0
0
1 0
0
0
0 1
RT
θ
θ
θ
θ
⎡
⎤
⎢
−
⎥
⎢
⎥
=
⎢
⎥
⎢
⎥
⎣
⎦
Transformações geométricas
Transformações Compostas (Concatenadas)
Basta multiplicar as matrizes na ordem de aplicação de cada transformação individual. Por exemplo, uma translação, seguida de mudança de escala, seguida de rotação, etc.
2 1
...
′ =
× ×
Exercício
Exercício: Considere um campo de imagem 720x486 (padrão D-1) pixels. Considere uma imagem definida por:
0, em caso contrário
G=0,
0...485,
0...719
B=0,
0...485,
0...719
R
linha
coluna
linha
coluna
=
=
=
=
=
200
10...20
10...30
R
linha
coluna
=
=
=
1. Descrever a imagem original (esboçar)
2. Aplicar as seguintes transformações em seqûëncia:
1. Translação de 20 pixels à direita, e 30 pixels para baixo 2. Mudança de escala: horizontal X 1,5, vertical X 1,3 3. Rotação de 30 graus em torno da origem
4. Qual a matriz de transformação? 5. Esboçar a imagem resultante
Compressão de Imagens - Padrão JPEG
JPEG (Joint Photographic Experts Group) – 1985 e 1990 – comitê conjunto da ISO
(International Organization for Standardization) e do CCITT (International telegraph and telephone Consultative Commitee), hoje ITU-T com a finalidade de desenvolver um
padrão de compressão de imagens.
O padrão JPEG, sintetizado na Recomendação JTC1 / 10918-2, especifica vários
processos de compressão para imagens estáticas, incluindo um método de compactação (sem perdas) baseado em DPCM com preditores múltiplos. O processo básico "com perdas" utiliza Transformada Discreta de Cossenos (DCT) para reduzir a correlação espacial entre as amostras, seguida de quantização variável e codificação estatística (Huffman).
diagrama de blocos do processo JPEG
Transfor- Quanti- Codifica- dor
Codifica- dor
JPEG – desempenho
O desempenho do padrão JPEG pode ser avaliado pela qualidade obtida para várias taxas médias de compressão
bits/pixel qualidade da imagem reconstruída 0,083 imagem reconhecível
0,25 imagem usável 0,75 imagem excelente
2,25 indistinguível da original
O JPEG é destinado à compressão de imagens “reais” • tonalidades contínuas
• processos fotográficos – a objetos reais
• não é adequado à compressão de imagens de alto contraste e resolução (textos e desenhos técnicos, etc)
JPEG
Blocos 8X8 e Transformada DCT
Inicialmente uma imagem descrita em componentes R, G, B é mapeada para uma representação em componentes Y, U, V, através das seguintes expressões:
0.3
0.6
0.1
128
Y
=
R
+
G
+
B
−
0.5
2
B Y
U
=
−
+
0.5
1.6
R Y
V
=
−
+
• As componentes U e V são sub-amostradas (reduzir a resolução espacial pela metade)
• A imagem é decomposta em blocos de 8X8 pixels, seja no plano da luminância como nos da crominância
• os blocos são processados independentemente uns dos outros
• O dimensionamento dos blocos (8X8) considera a resposta em freqüência espacial da visão humana
JPEG
Transformada DCT de um bloco de imagem f(x,y)
F u v C u C v f x y x u y v y x ( , )= ( ) ( ) ( , )cos⎡( + ) cos ( ) ⎣⎢ ⎤ ⎦⎥ + ⎡ ⎣⎢ ⎤ ⎦⎥ = =
∑ ∑
2 2 2 1 16 2 1 16 0 7 0 7 π π C k se k C k se k ( ) ( ) = = = > ⎧ ⎨ ⎪ ⎩⎪ 1 2 0 1 0 Anti-transformada DCT 7 7 0 0 1 (2 1) (2 1) ( , ) ( ) ( ) ( , ) cos cos 2 u v 16 16 x u y v f x y C u C v F u v π π = = + + ⎛ ⎞ = ⎜⎝∑∑
⎟⎠DCT – forma matricial
T
=
DCT C× B × C
B é um bloco de 8x8 pixels da imagem original C é a matriz de transformação:
(
)
C i j i i i j, cos = + ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ≤ ≤ ⎧ ⎨ ⎪ ⎪ ⎩ ⎪ ⎪ 1 2 2 0 1 2 2 1 16 0 se = se 7 π .354 .354 .354 .354 .354 .354 .354 .354 .490 .416 .278 .098 -.098 -.278 -.416 -.490 .462 .191 -.191 -.462 -.462 -.191 .191 .462Quantização
Os coeficientes da DCT são quantizados usando tabelas arbitrárias Q(u,v) e arredondados para o inteiro mais próximo
F u v F u v k Q u v k Q( , ) round ( , ) ( , ) = ⋅ ⎡ ⎣ ⎢ ⎤ ⎦
⎥ onde =fator de compressão
• As tabelas – exemplo no padrão JPEG
• coeficientes foram obtidos experimentalmente
• levam em conta a resposta visual em freqüência espacial para detalhes de luminância e crominância
• JPEG admite tabelas de quantização não-padronizadas, definidas pelo usuário, que devem ser anexadas ao arquivo comprimido
16 11 10 16 24 40 51 61 12 12 14 19 26 58 60 55 14 13 16 24 40 57 69 56 17 18 24 47 99 99 99 99 18 21 26 66 99 99 99 99 24 26 56 99 99 99 99 99
Quantização
• Após a quantização – imagens típicas
• possuem a maior parte dos coeficientes próximos de zero
• restam apenas alguns coeficientes de baixa freqüência espacial (concentrados no canto superior esquerdo)
• Os coeficientes quantizados são reordenados por um padrão em zigue-zague, que tende a agrupar os coeficientes de maior importância no início da seqüência
Codificação Entrópica
O coeficiente quantizado F(0,0) é processado separadamente Demais coeficientes
• após a reordenação é feita uma codificação RLE (Run-Length Encoding) • são criados símbolos consistindo do par ordenado:
{ quantidade de zeros / valor do coeficiente }
Quando não há mais coeficientes não-nulos dentro do bloco, a seqüência é terminada por um símbolo especial (EOB - End of Block)
Passo final: codificação Huffman modificada
• traduzir os símbolos gerados pela RLE em padrões binários de comprimento variável
JPEG – exemplo de codificação
Bloco de imagem real Coeficientes da DCT 52 55 61 66 70 61 64 73 63 59 66 90 109 85 69 72 62 59 68 113 144 104 66 73 63 58 71 122 154 106 70 69 67 61 68 104 126 88 68 70 79 65 60 70 77 68 58 75 85 71 64 59 55 61 65 83 87 79 69 68 65 76 78 94 -415 -29 -62 25 55 -20 -1 3 7 -21 -62 9 11 -7 -6 6 -46 8 77 -25 -30 10 7 -5 -50 13 35 -15 -9 6 0 3 11 -8 -13 -2 -1 1 -4 1 -10 1 3 -3 -1 0 2 -1 -4 -1 2 -1 2 -3 1 -2 -1 -1 -1 -2 -1 -1 0 -1 Coeficientes quantizados -26 -3 -6 2 2 0 0 0 1 -2 -4 0 0 0 0 0 -3 1 5 -1 -1 0 0 0 -4 1 2 -1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 [ -26 -3 1 -3 -2 -6 2 -4 1 -4 1 1 5 0 2 0 0 -1 2 0 0 0 0 0 -1 -1 EOB ] reordenação
JPEG – exemplo de codificação
[ -26 -3 1 -3 -2 -6 2 -4 1 -4 1 1 5 0 2 0 0 -1 2
0 0 0 0 0 -1 -1 EOB ]
O primeiro coeficiente (-26) representa a luminosidade média do bloco (valor "DC“) • é codificado por uma tabela própria – diferença entre este coeficiente e o
coeficiente DC do bloco de imagem imediatamente anterior (Codificação Diferencial)
• deve ser transmitido com a melhor precisão possível pois qualquer descontinuidade entre blocos vizinhos torna-se bastante visível
Reconstrução JPEG
58 64 67 64 59 62 70 78 56 55 67 89 98 88 74 69 60 50 70 119 141 116 80 64 69 51 71 128 149 115 77 68 74 53 64 105 115 84 65 72 76 57 56 74 75 57 57 74 83 69 59 60 61 61 67 78 93 81 67 62 69 80 84 84 Imagem reconstruída -6 -9 -6 2 11 -1 -6 -5 7 4 -1 1 11 -3 -5 3 2 9 -2 -6 -3 -12 -14 9 -6 7 0 -4 -5 -9 -7 1 -7 8 4 -1 11 4 3 -2 3 8 4 -4 2 11 1 1 2 2 5 -1 -6 0 -2 5 -6 -2 2 6 -4 -4 -6 10 Erro de reconstruçãoLena - detalhes
Original
Comprimido
Original Comprimido
Categorias
Categoria Categoria p/ coef. DC p/ coef. AC 0 0 N/A –1, 1 1 1 –3, –2, 2, 3 2 2 –7, ..., –4, 4, ..., 7 3 3 –15, ..., –8, 8, ..., 15 4 4 –31, ..., –16, 16, ..., 31 5 5 –63, ..., –32, 32, ..., 63 6 6 –127, ..., –64, 64, ..., 127 7 7 –255, ..., –128, 128, ..., 255 8 8 –511, ..., –256, 256, ..., 511 9 9 –1023, ..., –512, 512, ..., 1023 A A –2047, ..., –1024, 1024, ..., 2047 B N/AFaixa de Valores Categoria Prefixo Comprimento Total Bits na Mantissa 0 10 3 0 1 11 4 1 2 100 5 2 3 0 5 3 4 101 7 4 5 110 8 5 6 1110 10 6 7 11110 12 7 8 111110 14 8 9 1111110 16 9 A 11111110 18 10 B 111111110 20 11
Prefixos para Coeficientes DC Categorias de Codificação de Coeficientes DC
Codificação Entrópica
zeros/ categ. Prefixo comp. total zeros/ categ. Prefixo comp. total zeros/ categ. Prefixo comp. total 0/0 1010 (= EOB) 4 5/4 1111111110100000 20 A/8 1111111111001110 24 0/1 00 3 5/5 1111111110100001 21 A/9 1111111111001111 25 0/2 01 4 5/6 1111111110100010 22 A/A 1111111111010000 26 0/3 100 6 5/7 1111111110100011 23 B/1 111111010 10 0/4 1011 8 5/8 1111111110100100 24 B/2 1111111111010001 18 0/5 11010 10 5/9 1111111110100101 25 B/3 1111111111010010 19 0/6 111000 12 5/A 1111111110100110 26 B/4 1111111111010011 20 0/7 1111000 14 6/1 1111011 8 B/5 1111111111010100 21 0/8 1111110110 18 6/2 11111111000 13 B/6 1111111111010101 22 0/9 1111111110000010 25 6/3 1111111110100111 19 B/7 1111111111010110 23 0/A 1111111110000011 26 6/4 1111111110101000 20 B/8 1111111111010111 24 1/1 1100 5 6/5 1111111110101001 21 B/9 1111111111011000 25 1/2 111001 8 6/6 1111111110101010 22 B/A 1111111111011001 26 1/3 1111001 10 6/7 1111111110101011 23 C/1 1111111010 11 1/4 111110110 13 6/8 1111111110101100 24 C/2 1111111111011010 18 1/5 11111110110 16 6/9 1111111110101101 25 C/3 1111111111011011 19 1/6 1111111110000100 22 6/A 1111111110101110 26 C/4 1111111111011100 20 1/7 1111111110000101 23 7/1 11111001 9 C/5 1111111111011101 21 1/8 1111111110000110 24 7/2 11111111001 13 C/6 1111111111011110 22 1/9 1111111110000111 25 7/3 1111111110101111 19 C/7 1111111111011111 23 1/A 1111111110001000 26 7/4 1111111110110000 20 C/8 1111111111100000 24Codificação Entrópica
2/1 11011 6 7/5 1111111110110001 21 C/9 1111111111100001 25 2/2 11111000 10 7/6 1111111110110010 22 C/A 1111111111100010 26 2/3 1111110111 13 7/7 1111111110110011 23 D/1 11111111010 12 2/4 1111111110001001 20 7/8 1111111110110100 24 D/2 1111111111100011 18 2/5 1111111110001010 2 7/9 1111111110110101 25 D/3 1111111111100100 19 2/6 1111111110001011 22 7/A 1111111110110110 26 D/4 1111111111100101 20 2/7 1111111110001100 23 A/7 1111111111001101 23 D/5 1111111111100110 21 2/8 1111111110001101 24 8/1 11111010 9 D/6 1111111111100111 22 2/9 1111111110001110 25 8/2 111111111000000 17 D/7 1111111111101000 23 2/A 1111111110001111 26 8/3 1111111110110111 19 D/8 1111111111101001 24 3/1 111010 7 8/4 1111111110111000 20 D/9 1111111111101010 25 3/2 111110111 11 8/5 1111111110111001 21 D/A 1111111111101011 26 3/3 11111110111 14 8/6 1111111110111010 22 E/1 111111110110 13 3/4 1111111110010000 20 8/7 1111111110111011 23 E/2 1111111111101100 18 3/5 1111111110010001 21 8/8 1111111110111100 24 E/3 1111111111101101 19 3/6 1111111110010010 22 8/9 1111111110111101 25 E/4 1111111111101110 20 3/7 1111111110010011 23 8/A 1111111110111110 26 E/5 1111111111101111 21 3/8 1111111110010100 24 9/1 111111000 10 E/6 1111111111110000 22 3/9 1111111110010101 25 9/2 1111111110111111 18 E/7 1111111111110001 23Codificação Entrópica
4/1 111011 7 9/4 1111111111000001 20 E/9 1111111111110011 25 4/2 1111111000 12 9/5 1111111111000010 21 E/A 1111111111110100 26 4/3 1111111110010111 19 9/6 1111111111000011 22 F/0 111111110111 (*) 12 4/4 1111111110011000 20 9/7 1111111111000100 23 F/1 1111111111110101 17 4/5 1111111110011001 21 9/8 1111111111000101 24 F/2 1111111111110110 18 4/6 1111111110011010 22 9/9 1111111111000110 25 F/3 1111111111110111 19 4/7 1111111110011011 23 9/A 1111111111000111 26 F/4 1111111111111000 20 4/8 1111111110011100 24 A/1 111111001 10 F/5 1111111111111001 21 4/9 1111111110011101 25 A/2 1111111111001000 18 F/6 1111111111111010 22 4/A 1111111110011110 26 A/3 1111111111001001 19 F/7 1111111111111011 23 5/1 1111010 8 A/4 1111111111001010 20 F/8 1111111111111100 24 5/2 1111111001 12 A/5 1111111111001011 21 F/9 1111111111111101 25 5/3 1111111110011111 19 A/6 1111111111001100 22 F/A 1111111111111110 26Qualidade do áudio
TV Digital ÅÆ "Qualidade CD"
• 2 canais de áudio (som estereofônico) • resposta em freqüência de 20 a 20.000 Hz • relação Sinal/Ruído de 90 dB
TV de Alta Definição ÅÆ "Qualidade Cinema", ou "5.1:
• 5 canais de áudio com resposta de 20 a 20.000 Hz (Direito, Esquerdo, Central, Traseiro Direito e Traseiro Esquerdo)
• 1 canal de efeitos sonoros com resposta de 3 a 150 Hz ("Sub-Woofer", omnidirecional) • Faixa dinâmica de 90 dB
TV analógica – áudio estereofônico
Processo semelhante ao de radiodifusão de FM estéreo (Sistema BTSC, Broadcast Television Systems Commitee)
L R L+R L-R p/ modulador F.M. Compressor 31.468 kHz 15.374 kHz Pilôto DSB (DBX) 13.5 kHz Pré-ênfase 75 us Transmissão analógica • desvio máximo ±25 kHz • sinal/ruído ≤ 70 dB • banda passante = 13 kHz
DBX – equivalente a um controle automático de ganho com compressão de 2:1 SAP – canal secundário
A necessidade da compressão de áudio
A transmissão de áudio digital com "qualidade CD“ • quantização de 16 bits
• taxa de amostragem de 44.1 kHz no mínimo • taxa de bits é de 2 × 16 × 44100 = 1.41 Mb/s
• maior que a reservada para transmissão de vídeo digital no padrão MPEG-1
• consideravelmente elevada em comparação com um fluxo de vídeo MPEG-2 para TV convencional (2 a 6 Mb/s)
TV de Alta Definição (HDTV) digital (som com "Qualidade Cinema“) • 5 canais independentes + canal de baixa freqüência Î taxa de 3.5 Mb/s
• 20% da taxa líquida de transmissão digital proporcionada pelo canal de 6MH
Necessidade de utilização de processos de compressão adequados para o sinal de áudio • reduzir bastante a taxa de transmissão
Sensibilidade da Audição
O projeto de um sistema de compressão de áudio deve partir de um entendimento do processo de audição, principalmente explorando suas limitações, de forma análoga à abordagem utilizada no desenvolvimento de sistemas de compressão de vídeo
Sensibilidade da Audição
• O ouvido apresenta resposta perceptual aproximadamente logarítmica, tanto na distinção de freqüências como na de intensidade sonora.
• O limiar inferior de audibilidade para um ouvido normal
• pressão sonora de 20 µPa r.m.s. (2×10-5 N/m2) na freqüência de 1 kHz (aproximadamente 1 pW/m2)
• Limiar de desconforto é atingido com pressões sonoras 1.000.000 de vezes maiores É conveniente então medir o nível de pressão sonora em escala logarítmica, sendo
Sensibilidade da Audição
dB SPL* dB SPL
Foguete 195 Conversação 65
Avião a jato 155 Restaurante 60
Limiar de dor 140 Residência urbana 40 Limiar de
desconforto 120 = 1 W/m
2 Casa de campo 30
Orquestra fortíssimo 110 Orquestra pianíssimo 30 Rebitadeira 100 Estúdio de gravação 20
Fábrica 78 Folhagens na brisa 10
Tráfego pesado 68 Limiar de audição 0 = 1pW/m2
Escritório ruidoso 65 Ruído térmico do ar -10
Resposta em freqüência do ouvido
A resposta em freqüência do ouvido, para vários níveis de Volume Sonoro, foi estudada por Fletcher e Munson em 1933, e posteriormente por Robinson e Dadson
Resposta em freqüência do ouvido
A sensibilidade é bastante reduzida para baixas freqüências com baixas amplitudes • rejeita sons produzidos pelo próprio corpo humano
• rejeita sons produzidos pela circulação sangüínea no ouvido interno A sensibilidade atinge
• um pico em 4 kHz (freqüência de ressonância do canal auditivo) • um segundo pico em 12 kHz (também devido ao canal auditivo)
• acima de 15 kHz a resposta é variável de indivíduo para indivíduo, e bastante atenuada As curvas indicam que um sistema de reprodução sonora deveria
• responder de 20 a 20.000 Hz
• proporcionar uma faixa dinâmica ou relação sinal/ruído maior que 120 dB
---Faixa dinâmica ideal
música fala pressão sonora (d/cm2) dB frequência Ruído ambiente • Residência – aproximadamente 40 dB SPL• Estúdio de gravação – pelo menos 20 dB SPL
• O nível de 120 dB SPL corresponde ao limiar de desconforto
Experimentalmente determinou-se que as regiões confortáveis para audição de música ou voz abrangem faixas dinâmicas respectivamente de 70 dB e 30 dB
Percepção de direção e do ambiente
Percepção da direção
• Para freqüências até 1 a 2 kHz – a diferença de fase entre as frentes de onda recebidas nos dois ouvidos fornece indicação de direção
• Acima dessa freqüência – a diferença de amplitude nos dois ouvidos, provocada pela sombra acústica projetada pela cabeça fornece indicação de direção
• Movimentos da cabeça permitem resolver ambigüidades entre sons frontais e posteriores
• No sentido vertical é em parte proporcionada pelo pavilhão auricular, cuja estrutura imprime uma “assinatura espectral” ao som recebido, conforme sua elevação
Características do ambiente
• Reflexões múltiplas em paredes, chão e outros elementos de um ambiente trazem ao ouvido pistas que permitem identificar algumas características desse ambiente • o atraso temporal entre o som direto e a primeira reflexão – tamanho do ambiente • tempo de decaimento, a relação entre o decaimento em altas e baixas freqüências –
Mascaramento
Mascaramento – deslocamento relativo do limiar de audibilidade provocado pela presença
de tons de maior intensidade.
Vários experimentos para modelar as características do mascaramento – conclusões • Tons senoidais com freqüências próximas são mascarados mais do que tons em
freqüências distantes entre si
• Um tom senoidal mascara mais fortemente outros tons de freqüências mais altas do que tons de freqüências inferiores
• Quanto maior a amplitude do tom, maior a banda de freqüências mascaradas por ele • Ruído de banda estreita apresenta características de mascaramento similares às dos
tons senoidais
• Ruído branco mascara tons senoidais de todas as freqüências igualmente e de forma linear
Curvas de mascaramento
Exemplo
a curva correspondente a um tom de volume sonoro igual a 84dB (Phons) indica que um tom de 1 kHz só será percebido se estiver acima de 40 dB
Curvas de Mascaramento (Fletcher & Munson)
Subdivisão do espectro em sub-bandas
A maioria dos métodos eficientes de compressão de áudio explora o mascaramento
através da subdivisão do espectro em sub-bandas
• decompor o sinal por um banco de filtros passa-banda possivelmente relacionados às bandas críticas de audibilidade, de modo que na saída de cada filtro tenhamos um sinal de banda estreita, com amplitude via de regra menor que a do sinal original
• estimativa de mascaramento, baseada no espectro do sinal original, de modo que
para cada sub-banda é determinada a relação Sinal/Ruído necessária para
reproduzir o respectivo sinal filtrado
• o sinal de cada sub-banda é quantizado com um número de bits suficiente, de modo que o ruído de quantização esteja abaixo da relação S/R exigida para aquela banda
1 BANCO DE FILTROS
Codificador de áudio do padrão MPEG
Diagrama de blocos do codificador de áudio descrito no padrão MPEG; neste caso, o sinal original, por exemplo digitalizado a 48 kHz com 16 bits, é analisado por um banco de 32 filtros com banda de 750 Hz.
As saídas dos filtros são sub-amostradas – 32 grupos de 1500 Hz. BANCO DE FILTROS 1 2 3 4 32 QUANTIZADORES SUB-AMOSTRADORES ÁUDIO AMOSTRADOR PCM Fa Fa/32 Q1 Q2 Q3 Q4 Q32 MODELO PSICO-ACÚSTICO FLUXO DE DADOS CODIFICADOS FORMATADOR ALOCAÇÃO DE BITS
Som MPEG – modelo de funcionamento
0 5 10 15 Frequencia A determinação do nível de mascaramento é feita por umModelo Psico-acústico, a partir do espectro obtido por uma FFT de 512 ou 1024 pontos
Embora o detalhamento do modelo não esteja especificado no padrão MPEG, sua operação segue o esquema geral da figura
Tonal Cálculo do Limiar Absoluto Limiar Tonal Funções de
Padrões de Compressão de Áudio
Padrões MPEG
O padrão MPEG-1 de compressão de áudio (ISO / IEC 11172 - Parte 3) especifica 3
níveis de desempenho, associados basicamente à complexidade do modelo psico-acústico e dos bancos de filtros.
Já o padrão MPEG-2 (ISO 13818 - Parte 3) estende a codificação para sistemas com 5.1 canais, adequados para "Home Theater" com "Qualidade Cinema".
A maioria dos sistemas trabalha com taxa de bits constante na saída, ao contrário do que ocorre com a compressão de vídeo
MPEG-1 NíveIS I e II
MPEG-1 Nível I
• Codificação feita em Quadros de 12 amostras por banda (384 amostras e 32 sub-bandas)
• para cada quadro permanecem constantes os fatores de escala e alocações de bits por amostra por banda
• aceita taxas de amostragem de 32kHz, 44.1 kHz ou 48 kHz para um ou dois canais independentes ou associados
O padrão MPEG-1 Nível I é usado no DCC (Digital Compact Cassette) com o nome de PASC (Precision Audio Sub-band Coding).
MPEG-1 Nível II (MUSICAM)
MPEG-1 Nível III (MP3)
MPEG-1 Nível III (MP3)
• Codificação em Quadros de 3 x 12 amostras por sub-banda (1152 amostras); • usa um modelo psico-acústico mais elaborado;
• Utiliza transformada de cossenos (DCT) para subdividir as Sub-bandas em 6 ou 18 sub-sub-bandas, proporcionando redução de "Aliasing" entre sub-bandas;
• efetua aplicação de janelas temporais curtas (6 amostras) ou longas (18 amostras) antes da DCT;
• pode usar Quantizador não-linear : Y=Q(X0.75);
• aplica codificação de Huffman nas amostras quantizadas;
Desempenho dos Processos de Compressão de Áudio
Padrão de
Compressão Canais Taxa Média de Compressão OriginalTaxa ComprimidaTaxa Atraso A/D/A
MPEG-1 / I 2 4:1 1,41 Mb/s 384 kb/s 19 ms ATRAC 2 5:1 1,41 Mb/s 292 kb/s MPEG-1 / II (MUSICAM) 2 6:1 1,54 Mb/s 256 kb/s >40 ms MPEG-1 / III 2 8:1 1,41 Mb/s 128 kb/s >80 ms MPEG-2 / III 5.1 10:1 3,53 Mb/s 384 kb/s Dolby AC-3 5.1 12:1 3,53 Mb/s 290 kb/s 45 ms
Compressão de Imagens em Movimento
Padrões MPEG-1 e 2
Processo de compressão de dados
• busca reduzir a redundância presente no sinal da fonte de informação
• codificador com preditor: determina uma estimativa do sinal a ser transmitido, baseando-se nas entradas anteriores y(t-1), y(t-2).... (figura).
• basta transmitir apenas o erro de predição e(t), ou seja, a diferença entre a estimativa e o sinal real y(t).
• Preditor for eficiente Î o erro de predição com baixa auto-correlação Î valores próximos de zero Î redução da quantidade de informação a ser transmitida
( )
ˆy t( )
ˆy t Preditor Preditor y(t) y(t) ^ y(t)^ y(t) e(t) + -Transmissor Receptor Canal S1 S2Exemplo de preditor
“Frame store“
• explora o fato de que um quadro transmitido é geralmente muito semelhante ao quadro anterior
• consiste de uma memória que armazena o quadro anterior
• são transmitidas apenas as diferenças entre dois quadros consecutivos (pixel a pixel)
• este preditor falha quando há um corte de cenas, ou movimentos rápidos de objetos ou da câmera
Preditor com Compensação de Movimento
• mais eficiente para aplicação em vídeo
Preditor com Compensação de Movimento
• O preditor monta uma estimativa da imagem atual baseada em fragmentos tomados de uma imagem de referência deslocados conforme os vetores de movimento
• Normalmente utiliza apenas translações lineares
• Uma vez que é impraticável determinar quantos objetos com movimentos
independentes existem em uma imagem, cada fotograma pode ser subdividido em blocos regulares, sendo então determinados vetores de movimento para cada bloco.
Anterior (referência) Atual Erro de predição
Vetor de movimento Predição (com compensação) Erro de predição (com compensação)
Detector de movimento
• unidade funcional que determina os vetores • para cada bloco da imagem atual
• faz uma varredura sobre a imagem de referência, buscando o ponto de maior semelhança com o bloco a ser analisado
• mede a distorção média absoluta (DMA*)
DMA x y
N i j f x i y j ref x i dx y j dy
( , ) ( , ) ( , )
,
= 1
∑
+ + − + + + +• (dx,dy) ÍÎ deslocamento entre a imagem de referência ref(x,y) e o bloco da imagem de entrada f(x,y)
• O valor de (dx,dy) para o qual a DMA é mínima é adotado como vetor de movimento do bloco de coordenadas (x,y)
Vetor de deslocamento – algoritmos de busca
Imagem de Referência Imagem atual x y x y Área de Busca Bloco de Maior
Semelhança Vetor de Movimento
Bloco a ser Estimado
Busca Exaustiva
Varredura de toda a região de busca com resolução de 1/2 pixel
Busca Hierárquica
• Varre a região com resolução decrescente à medida que a correlação aumenta
Codificação com Perdas
• Compensação de movimento
• reduz bastante a redundância temporal
• Erro de predição resultante submetido a processo de compressão (semelhante ao
JPEG)
• Obtem-se a uma forma importante de codificação que • remove também as redundâncias espaciais
• torna-se adequada para cenas com cortes ou mudanças bruscas de conteúdo • Compressão sem perdas – taxas de compressão até 3:1
• Compressão com perdas – Combinando compensação de movimento com transformada DCT e quantização
Padrões de compressão com perdas
• MPEG-1 (Moving Pictures Experts Group - ISO/IEC 11172a) • compressão de imagens não-entrelaçadas
• taxas de informação até 1,5 Mb/s (aplicações: vídeo-conferência sobre troncos E1 / T1; multimídia em CD-ROM)
• MPEG-2 (ISO13818)
• destinado à compressão de imagens de TV entrelaçadas
• admite vários níveis de desempenho para taxas de 1,5 a 100 Mb/s (aplicações: TV convencional digital, HDTV)
• H-261 e H-263 (ITU)
• vídeo-conferência através de ISDN (múltiplos de 64 kb/s) • H-324 (ITU)
Codificador MPEG
Conversão de Formatos Compactação Truncamento BLOCOS ERRO DE PREDIÇÃO Reconstrução de Movimento Deteção 24 / 30 / 60 Quadros / s Transformação Espacial DCT VETORES DE MOVIMENTO DADOS COEFICIENTES COEFICIENTES QUANTIZADOS QUADRO RECONSTRUIDO Q DCT-1 Preditor Fator de Escala MUX Buffer RLE Huffman SAÍDA1. A imagem é formatada (no caso do MPEG-1, é convertida em quadros não-entrelaçados, com resolução típica de 320x240 pixels de luminância e
160x120 pixels de componentes de crominância);
2. cada plano da imagem (Luminância e componentes de Crominância) é
subdividido em blocos de 8 x 8 pixels 3. Os blocos são agrupados em
macroblocos, para os quais é feita
detecção de movimento, gerando vetores
de movimento que serão transmitidos
MPEG-1 – três tipos de imagem
• Imagens I (Independentes, ou Intra-frame)
• codificadas sem predição de movimento• DCT, quantização e compactação (análogo ao padrão JPEG)
• usadas como imagens de referência para quadros futuros (movimento)
• taxa de compressão média; são necessárias para evitar propagação de erros ou
quando há cortes de cenas
• Imagens P (com predição progressiva de movimento)
• reconstruídas através de predição de movimento, baseando-se em imagens de
referência anteriormente codificadas, que podem ser imagens tipo I ou tipo P.
• Possuem taxa de compressão elevada
• Imagens B (com predição bidirecional)
• baseia-se em duas imagens de referência (anterior e posterior, tipo I ou P) • admitem até dois conjuntos de vetores de movimento (progressivos e
regressivos) para cada bloco, sendo que neste caso a estimativa adotada é a média das estimativas individuais. Apresentam a maior taxa de compressão dentre os 3
MPEG-1
• Uma seqüência de vídeo é subdividida em Grupos de Imagens (GOP's - Groups of
Pictures)
• Um GOP pode conter imagens tipo I, P e/ou B em várias proporções
• Um GOP é fechado se as predições de movimento das suas imagens são efetuadas sem
necessitar de quadros de referência externos ao Grupo
• Seqüências de vídeo podem ser editadas (montadas) tomando-se como pontos de corte os inícios dos GOPs
I B B P B B P B B I
P r e d i ç ã o P r o g r e s s i v a
• GOP numa configuração típica
IBBPBBPBB com M=3, N=9
• a seqüência efetiva de transmissão é diferente da seqüência de exibição das imagens
Macro-blocos
• A estrutura do GOP – parâmetros • M (distância entre imagens tipo I) • N (distância entre imagens P)
• O tamanho do GOP influencia o tempo de aquisição de uma seqüência e, por conseguinte, a latência
• o receptor tem que esperar uma imagem I para poder decodificar as demais Y 8x8 Cb Cr 8x8 8x8 Y Y
• A escolha da proporção de imagens I, B e P é um compromisso entre taxa de bits, a
qualidade da imagem, o tempo de aquisição e recuperação de erros de transmissão (latência) • É comum adotar-se uma imagem I a cada 15 quadros (1/2 segundo)
Y U, V Amostras:
• O elemento básico de predição de movimento é o
macrobloco
• conjunto de 4 blocos de 8x8 amostras de luminância, e 2 blocos de crominância correspondentes
• As componentes de crominância Cb (B-Y) e Cr (R-Y) são sub-amostradas na vertical e na horizontal num padrão conhecido como
"4:2:0“
• os 2 blocos de crominância cobrem a mesma Estrutura de Amostragem "4:2:0"
MPEG-2: Níveis e Perfis de Desempenho
• O padrão MPEG-2
• Definido em 1995/96 conjuntamente pela ITU (H.222 / H.262) e pela ISO/IEC (13818)
• tem como objetivo a codificação de sinais de vídeo para aplicações genéricas • multimídia
• vídeo-conferência
• TV de Alta Definição (HDTV)
• aplicações em radiodifusão ou estúdio
• inclui recursos para codificação eficiente de imagens entrelaçadas
• Define 4 "Perfis" relacionados com os recursos de processamento e complexidade dos codificadores, e 4 "Níveis", relacionados com o formato de vídeo e taxa de bits resultante:
MPEG-2 – Níveis e Perfis
Nível Formato de Vídeo Taxa de Bits Baixo (LL) 240 Linhas 360 Pontos ( qualidade VHS) ~1,5 Mb/s Principal (ML) 480 Linhas 720 Pontos ( CCIR-601 - Qualidade Estúdio p/ TV Convencional) 4 ~ 6 Mb/s Alto-1440 (H14L) 1080 Linhas 1440 Pontos (Formato HDTV) 20 ~ 60 Mb/s Alto (HL) 1080 Linhas 1920 Pontos (Formato HDTV - Qualidade Estúdio) 20 ~ 100 Mb/s Perfil Recursos Adicionais
Simples (SP) Nenhum (Sistema Mínimo)
Principal (MP) Predição bidirecional (Quadros tipo B)
Escalável em SNR (SNRP) Codificação Hierárquica com níveis diferentes de prioridade para imagem básica e detalhes
Escalável Espacial (SSP) Codificação Hierárquica com níveis diferentes de prioridade para imagem 4x3 e 16x 9 Alto (HP) Todos os recursos e codificação 4:2:2 (Dobro de amostras de Crominância)
Exemplos
• SP@LL corresponde a um codificador com desempenho equivalente ao MPEG-1 para multimídia
• MP@ML é um formato adequado para TV convencional entrelaçada, atualmente usado em sistemas como DirecTV e na codificação de vídeo no DVD (“Digital Versatile Disc”)