- Tópicos Especiais em Comunicações

(1)

- Tópicos Especiais em Comunicações

PTC2459

Professor Celso de Oliveira - Sala D3-30

http://www.lcs.poli.usp.br/~celso/ celso@lcs.poli.usp.br

(2)

(3)

Amostragem de uma Imagem em Movimento

Uma imagem pode ser entendida como uma projeção óptica de uma região do espaço sobre um plano. Podemos ainda dizer que a representação de uma imagem em

movimento é um evento contínuo ocorrendo em um espaço tridimensional: u = f (x, y, t)

u = luminância

x = dimensão horizontal y = dimensão vertical t = tempo

No entanto, um sinal elétrico, na forma pela qual pode ser transmitido por um canal de comunicação convencional, é unidimensional (voltagem × tempo).

O processo de varredura é a forma utilizada para reduzir a dimensionalidade daquele evento, criando um sinal análogo unidimensional.

(4)

Amostragem em TV

No caso da televisão, consiste de 2 etapas

1. Amostragem temporal: divisão da imagem em fotogramas ou quadros (“frames”)

sucessivos (semelhante ao caso do cinema)

2. Amostragem Espacial (Varredura ou "Raster Scan"): divisão da imagem em linhas

horizontais, ao longo das quais é feita a medida da luminosidade. O sinal temporal resultante é denominado sinal de vídeo

(5)

Amostragem em TV – câmara de TV

Este processo ocorre em uma câmara de TV convencional: a imagem é projetada por um sistema de lentes sobre uma superfície foto-sensível, na qual o iluminamento resultante gera uma distribuição de cargas elétricas. Estas cargas são serializadas por um processo adequado (por exemplo, pela leitura através de um feixe de elétrons), produzindo uma corrente elétrica proporcional ao iluminamento em cada ponto dessa superfície.

Resolução Temporal

Na padronização de um sistema de televisão, há 3 critérios importantes que influenciam a escolha da taxa de amostragem temporal:

1. Remanência da visão: a ilusão de movimento contínuo é obtida quando temos

seqüências sucessivas com mais do que 15 a 20 quadros por segundo (O cinema usava inicialmente 12 a 16 fotogramas por segundo; atualmente usa 24);

2. Cintilação: a freqüência acima da qual nossa visão deixa de perceber cintilação na

imagem depende de vários fatores, entre os quais a luminosidade e a extensão visual do objeto pulsante. Para TV seria desejável mais do que 60 imagens / segundo.

3. Batimentos e interferências com a rede de distribuição de energia elétrica

(6)

Varredura com entrelaçamento

10 sµ 53,5 sµ

Deflexão Horizontal varredura

(7)

Sinal de vídeo

preto branco 53,5 sµ _{10 s}_µ t t Varredura horizontal

(8)

Resolução Espacial

Resolução Espacial de um Sistema de Reprodução de Imagens

Para podermos definir a quantidade de linhas em que devemos subdividir cada quadro, precisamos analisar a relação entre o tamanho aparente da imagem de TV (ou seja, o ângulo subentendido pela imagem, observada a uma distância padrão de visualização) e as características de acuidade visual do observador, necessárias para garantir qualidade aceitável de imagem

Televisão Convencional

Uma vez que o cinema adotava relação de aspecto de 4:3 (largura x altura), a TV estabeleceu a mesma proporção de imagem, garantindo compatibilidade tanto com o material disponível para exibição quanto com equipamentos existentes (especialmente lentes).

(9)

TV de Alta Definição

Pesquisas feitas no Japão pela NHK, na década de 70, identificaram a viabilidade de um formato de TV capaz de proporcionar “uma nova experiência visual” ao espectador,

similar à sensação conferida pelo cinema de tela larga. Estas pesquisas culminaram

com a adoção de uma tela com proporções de 16:9, dimensionada para visualização sob um ângulo horizontal de 30 graus, num formato denominado Hi-Vision.

Este formato (atualmente classificado como HDTV ou TV de Alta Definição), além de aproveitar melhor o material cinematográfico disponível, abrangeria ainda parte do campo de visão periférica do observador, o que proporciona um nível mais intenso de ilusão de realidade.

TV (4:3)

HDTV (16:9)

Cinemascope (2.35:1) Cinema (1.85:1)

(10)

Banda necessária (NTSC)

O número de linhas horizontais ativas é aproximadamente 480. O tempo requerido para o retraço horizontal corresponde a 45 linhas horizontais, sendo o total 525 linhas.

6 4 0,75 525 525 30 8, 26 10 / 3 pulsos s × × × × = × Fator de Kerr Relação de aspecto

4,13

W

B

=

MHz

(11)

Radiodifusão de TV Monocromática

A modulação AM de um sinal RS-170 exigiria mais de 8,4 MHz de banda total. Para reduzir a banda ocupada, o sinal modulado sofre uma filtragem vestigial, pela qual a banda lateral inferior é limitada em 750 kHz abaixo da portadora.

Considerando bandas de guarda entre os canais adjacentes, e considerando que o sinal de áudio é transmitido por uma portadora independente (modulada em FM numa freqüência 4,5 MHz acima da portadora de vídeo), a programação de TV pode ser veiculada através de um canal de 6 MHz de banda total.

Portadora

de vídeo Portadora_{de áudio}

Portadora de vídeo (canal superior) Portadora de áudio (canal inferior) 50% 1 MHz 4,2 MHz 6 MHz

(12)

Alocação Espectral

A alocação de canais foi feita, historicamente, em bandas não contíguas. Os canais baixos (2 a 6) ocupam freqüências de 54 a 88 MHz (com um espaço adicional de 4 MHz entre os canais 4 e 5).

3

2 4 5 6

54 60 66 72 76 82 88

A seguir, os canais altos (7 a 13) ocupam freqüências de 174 a 216 MHz.

Posteriormente foi alocada uma banda de UHF, para os canais 14 a 83, entre 470 e 890 MHz.

No final da década de 1970, os canais 70 a 83 foram realocados para implantação do serviço de telefonia móvel celular

(13)

Padrões de TV

Padrão Países fv

(Hz) linhas de varredura (MHz)Bw (MHz)canal

A Inglaterra (obsoleto) 50 405 3

-M EUA, Brasil, Japão,

Canadá, México, Chile 60 525 4.2 6

N Argentina, Paraguai,

Uruguai 50 625 4.2 6

B Europa, Austrália, Índia 50 625 5 7

D,K,L Rússia, China 50 625 6 8

G,H Europa (UHF) 50 625 5 8

I Inglaterra, Angola, África

do Sul 50 625 5.5 8

E França (obsoleto) 50 819 10 14

(14)

Padrões – Vídeo para Computadores

Padrão Resolução

visível h x v Freq. Vert.(Hz) Freq. Hor.(kHz) varredura (MHz)Bw

CGA 320 200 60 15.75 progress. 3.2 VGA 640 480 60 31.5 progr. 13 VESA 640 480 72 37.8 progr. 16 SVGA 800 600 75 46.8 progr. 25 XGA 1024 768 87 35.5 entrelac. 23 SVGA 1280 1024 71 76.0 progr. 63

(15)

TV a Cores

A sensação de cor de uma fonte luminosa (ou de um objeto) está associada á forma da distribuição espectral de potência da emitância (ou refletância) dessa fonte.

Distribuições espectrais diferentes podem trazer a mesma sensação de cor.

Em 1669,

Isaac Newton

realizou experimentos com prismas através dos quais

descobriu que a luz branca era formada pela combinação das cores do arco-íris (ou seja, de componentes monocromáticas compreendendo uma faixa de comprimentos de onda). vermelho amarelo verde azul branco

Através da inserção de anteparos entre dois prismas, ele pôde examinar a percepção de cores, decorrente da combinação de um ou mais estímulos

monocromáticos.

Determinou, por exemplo, que a sensação de luz

branca poderia também ser obtida pela soma de duas componentes monocromáticas adequadas, como azul e amarela. Observou então que as cores

do espectro podiam ser agrupadas em pares

complementares, cuja soma produz a sensação de luz branca (a exceção é o "magenta" , que não é uma cor espectral, e sim a combinação de luz vermelha e

(16)

Características da visão colorida

Segundo a teoria tricromática da visão (introduzida por Young e Helmoltz), a retina possui grupos de células receptoras (cones) que são sensíveis em 3 regiões distintas de comprimentos de onda; a percepção visual correspondente à sensação de cor é decorrente da relação entre os estímulos recebidos dentro dessas faixas.

Um modelo proposto para esta percepção explica as características diferenciadas de

vários aspectos da percepção visual, como por exemplo as diferentes resoluções espaciais para estímulos de luminância e tonalidade de cor, além de certas deficiências visuais

relacionadas, como a protanopia (perda de distinção entre verde e vermelho) ou a tritanopia (entre azul e amarelo).

Os valores dos estímulos R, G e B seriam obtidos por: ;

;

(17)

Outras representações de luminância e crominância

Para refletir apenas a Cromaticidade de uma cor (ou seja, apenas nos atributos de Tonalidade e Saturação, independentemente do Brilho), podemos normalizar os valores obtidos em relação à soma (luminância total), ou seja

r R R G B g G R G B b B R G B r g = + + = + + = + + = − −1 X R G B Y R G B Z R G B = + + = + + = + + 0 490 0 310 0 200 0177 0 813 0 011 0 000 0 010 0 990 . . . . . . . . . R X Y Z G X Y Z B X Y Z = − − = − + + = − + 2 365 0 897 0 468 0 515 1426 0 089 0 005 0 014 1009 . . . . . . . . .

Os sinais de luminância sofrem a Correção Gama, para compensar a não-linearidade do cinescópio no receptor, produzindo as componentes

, , , ,

R G B→R G B′ ′ ′

Padrão NTSC – o sinal de luminância gerado deve obedecer à expressão 0.299 0,587 0,114

Y′= R′+ G′+ B′

A partir do qual são gerados dois sinais de Crominância, que carregam a informação de cor:

,

(18)

Sistema NTSC

(National Television Standards Committee)

(

)

(

)

(

)

(

)

0,74 0, 27 0,60 0, 28 0.32 0, 48 0, 41 0, 21 0,52 0.31 I R Y B Y R G B Q R Y B Y R G B ′= ′− ′ − ′− ′ = ′− ′− ′ ′= ′− ′ + ′− ′ = ′− ′+ ′

O primeiro sistema compatível de TV a cores, padronizado em 1953, transmite os sinais de crominância modulados em Q-DSB (duas bandas laterais em quadratura), através de uma sub-portadora na freqüência f_sc = 3.579545 MHz. Os sinais e são antes combinados em sinais I' e Q' (em fase e em quadratura) pelas expressões

(

R

′

−

Y

′

)

(

B

′

−

Y

′

)

O sinal I', representando crominância na direção ciano / laranja, é limitado em banda em aproximadamente 1,5 MHz, enquanto Q', representando a direção verde/magenta (na qual o

olho é menos sensível a detalhes), é limitado em 0,5 MHz.

A amplitude máxima do sinal Q' é menor que a do sinal I', de forma a minimizar a amplitude total do sinal de vídeo composto (especialmente para as cores amarelo e azul).

(19)

NTSC – Modulador e Espectro

Q' I' 0.5 MHz 1.5 MHz R' G' B' Y' R' - Y' B' - Y' Matriz Matriz Oscilador Sub-portadora Sincronismo Composto 4.2 MHz 90o Croma Video Composto 3.579545 MHz T1 T2 Modulador NTSC 6 MHz 4,5 MHz 3,58 MHz 1,25 MHz Som (FM) Luminância (AM-VSB) Croma (Q-DSB)

Ocupação Espectral de um sinal de Radiodifusão NTSC

AMARELO VERMELHO MAGENTA VERDE CIANO AZUL A A A A A FASE 0.30 A 270°

(20)

PAL-M

O sistema NTSC sofre problemas de instabilidade de cor, especialmente quando o sinal é sujeito a defasagens não-lineares por intermodulação da luminância (defeito chamado de erro de fase diferencial).

Na tentativa de reduzir estes problemas, foi desenvolvido o sistema PAL (“Phase

Alternation Line”) na Alemanha. Este sistema foi desenvolvido para o padrão europeu (50 Hz, com largura de canal de 8 MHz).

No Brasil, por utilizarmos o padrão M de transmissão monocromática, optamos por

desenvolver uma variante do PAL europeu, denominada PAL-M.

(

)

(

)

0, 493 0,877 U B Y V R Y ′= ′− ′ ′= ′− ′

(21)

Modulador PAL-M

U' V' 1.5 MHz 1.5 MHz 4.2 MHz R' G' B' Y' R' - Y' B' - Y' Matriz Oscilador Sub-portadora 90o Croma Video Composto Sincronismo Composto 3.575611 MHz 0.493 0.877 fh/2

A inversão de fase a cada linha corresponde a uma modulação por um sinal de

freqüência f_h/2. Isso faz com que o espectro do sinal de crominância adquira raias nas freqüências múltiplas de f_h/2, o que dificulta o intercalamento espectral com o sinal de luminância. Por isso, a sub-portadora do sistema PAL-M é igual a um múltiplo ímpar de um quarto da freqüência horizontal, a saber: fsc = 909/4 fh = 3,575611 MHz.

No receptor, há um circuito de retardo que proporciona ao sinal de crominância um

atraso igual à duração de uma linha. É efetuada então a média da crominância transmitida em linhas consecutivas; desta forma, um erro de fase em uma determinada direção é

(22)

Diagrama em Blocos Simplificado de um Sistema de TV a Cores

Matriz Controle de Ganho Filtros Separador Lente Sensores Yr Yg Yb Corretor Gama Codificador R G B R G B G' R' B' Canal de Transmissão G' R' B' Decodificador Matriz Controles de Imagem Cinescópio Rd Gd Bd

(23)

Outros Padrões de Vídeo

• Super-Video

• Este é um padrão de distribuição de vídeo em banda-base, no qual os sinais de

luminância (Y' + Sincronismo composto) e Croma ( I', Q' e “burst” modulados

em 3,58 MHz) trafegam independentemente por cabos separados. A vantagem é que, não havendo necessidade de filtros no receptor para separar luminância e crominância, a resolução de imagem é superior e as modulações cruzadas

praticamente inexistem. O sinal de S-Video pode usar as freqüências próprias do NTSC, PAL-M, etc. É usado em equipamentos semi-profissionais.

• Componentes (YUV)

• Este padrão é bastante usado em estúdios e equipamentos profissionais; nele, os sinais em banda base Y' ,(B' -Y') e (R'-Y') são conduzidos por 3 cabos

individuais. As amplitudes dos sinais são similares a um sinal de vídeo composto (~1 V_pp em 75 Ohms).

(24)

(25)

Formatos de Vídeo Digital

Vídeo Digital x Analógico

O sinal analógico, de um modo geral, está sujeito a 4 categorias de degradações, sempre que é transportado, processado ou armazenado:

• Ruído: aleatório, cumulativo, inerente aos processos físicos envolvidos na eletrônica; • Distorção não-linear: presente em todos os elementos ativos de circuitos,

amplificadores, processadores, etc.;

• Interferências: ingresso de sinais indesejados, geralmente de origem humana; identificáveis, porém de difícil eliminação;

(26)

Codificação Digital – Vantagens

• Há muitas vantagens decorrentes do uso de codificação digital no tratamento e distribuição de sinais de vídeo:

• imunidade às degradações

• funções de processamento de imagem que seriam praticamente impossíveis de executar na forma analógica

• extração de informações visualmente relevantes de uma imagem

(fundamental para a implementação de processos de compressão de dados) • Uma das primeiras aplicações das técnicas de processamento digital, na área de TV,

foi na implementação de corretores de base de tempo (“Time Base Corrector”, ou TBC), que utilizam linhas de retardo variáveis para sincronizar o sinal de vídeo

(27)

Aplicações de processamento e efeitos visuais

• À medida que o custo e o desempenho dos circuitos digitais, especialmente dos conversores A/D, foram tornando-se mais vantajosos, foram desenvolvidas aplicações de processamento e efeitos visuais em estúdios, como por exemplo:

• "Frame store": armazenamento digital para permitir congelamento de imagem, câmera lenta e “replay”;

• "Conversores de padrões: transcrição entre sistemas com varreduras de 50 e 60 Hz, implementados através de interpoladores e decimadores espacio-temporais;

• Equipamentos de telecinagem: com conversão de 24 fotogramas para 60 campos por segundo através de interpolação;

• Efeitos de transformações geométricas: onde é feito mapeamento espacial de imagens, em tempo real, com mudança de coordenadas, deformações, perspectivas, etc. ;

• Redutores de ruído: baseados em filtragem temporal entre linhas e quadros consecutivos;

• Gravadores de vídeo digitais: através da aplicação de códigos corretores de erros, evitam degradação cumulativa da relação sinal/ruído, mesmo que o sinal sofra sucessivas gerações (cópias);

• Edição não-linear: ao invés de utilizar dois ou mais gravadores de VT para finalizar a montagem de programas (pós-produçao), utilizam-se meios de armazenamento digital com acesso randômico selecionando quadros individuais, facilitando o processo de edição

(28)

Radiodifusão de TV em formato digital

• Atualmente já é viável a radiodifusão de programas de TV em formato digital • técnicas de compressão de dados aplicáveis a imagens em movimento • códigos de correção de erros e processos eficientes de modulação • Hoje existem vários sistemas digitais em operação

• por satélite • por cabo

• Por radiodifusão terrestre

• Vantagens em relação aos canais analógicos

• qualidade de imagem (pela imunidade a ruídos)

(29)

Digitalização

• TV analógica

• processo de varredura consiste de amostragem temporal (quadros/campos) e espacial no sentido vertical (linhas)

• TV digital – A digitalização do sinal de vídeo

• mais uma etapa de amostragem – realizada no sentido horizontal +

• quantização das amostras obtidas

• Disto resulta uma decomposição da imagem em elementos de imagem ou pixels (picture elements)

• cada pixel é descrito numericamente pelas amplitudes de suas componentes (R, G, B ou Y, U, V)

(30)

Estrutura de amostragem espacial no padrão M

10% Para Retraço Vertical 20% para Retraço Horizontal 480 Linhas Visíveis

640 Pixels Visíveis por Linha 525 Linhas Y= 106 U= -15 V= 30 pixel:

Uma vez que a varredura é feita com cerca de 480 linhas

visíveis, para obtermos a mesma

resolução limite na horizontal e na vertical (correspondente a uma relação de aspecto de 1:1, ou pixels quadrados), devemos ter 480×4/3 = 640 pixels por

linha ativa, o que implica em freqüência de amostragem de

~9,2MHz

Em um sistema digital, não é necessário transmitir o sinal de vídeo amostrado durante os Estrutura de amostragem espacial adequada para

(31)

Quantização e relacão Sinal/Ruído

O processo de conversão A/D e D/A, necessário para o processamento digital, introduz degradações, especialmente devido ao ruído de quantização. Costuma-se caracterizar o ruído, em sistemas de vídeo, como a relação entre a amplitude pico-a-pico máxima do sinal e a amplitude eficaz do ruído de quantização, medida dentro da banda passante nominal (4,2 MHz para NTSC e PAL-M). Desta forma, o ruído de quantização (não ponderado) em função do número de bits n é expresso por:

) ( 2 log 10 8 . 10 02 . 6 2 log 10 ) 12 log( 10 ) 2 log( 20 ) ( dB F F n Q S ou F F dB Q S V S e V S n e ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⋅ + + ⋅ = ⎟⎟ ⎠ ⎞ ⎜⎜ ⎝ ⎛ ⋅ + ⋅ + ⋅ =

onde F_s é a freqüência de amostragem e F_v é a banda passante do sinal de vídeo. Na prática, a quantização de um sinal de vídeo deve admitir uma margem de

segurança (“headroom”) para abranger eventuais sinais com excursão excessiva. A relação Sinal/Ruído real, incluindo a margem de segurança, é então dada por

S Q n F F V V V dB e S V T B P = ⋅ + + ⋅ ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ − − ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ 6 02 10 8 10 2 20 . . log log ( )

onde V_T é a excursão total do quantizador; V_B e V_P correspondem respectivamente aos níveis de branco e de preto.

(32)

Filtro de ponderação

Considerando as características da percepção visual, ao efetuarmos medidas de ruído devemos usar um filtro de ponderação que aproxime a MTF (“modulation transfer

function”) da visão humana, nas condições normais de visualização de uma imagem de TV. Utiliza-se para isso um filtro definido pelo CCIR, cuja resposta em freqüência é dada por ( ) A f f f f f f f dB = +⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥⋅ + ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ +⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ⎡ ⎣ ⎢ ⎢ ⎤ ⎦ ⎥ ⎥ 10 1 1 1 10 1 2 2 2 3 2 log 1 270 f = kHz 2 1,37 f = MHz 3 390 f = kHz

O efeito da ponderação pelo filtro padrão CCIR, sobre um ruído branco gaussiano, é de melhorar a relação sinal/ruído em 6.81 dB.

Exemplo: a relação Sinal/Ruído ponderada, para um quantizador de 8 bits, usando

(33)

Interfaces de Vídeo

Para proporcionar uma interface digital consistente, evitando assim a degradação

cumulativa provocada pela concatenação de conversores A/D e D/A em equipamentos

diferentes, foram instituídos alguns formatos padronizados de vídeo digital, compreendendo sistemas de amostragem e interfaces físicas.

Padrão D-1 (CCIR-601)

• também chamado de "Digital Components", ou 4:2:2 (numa referência à proporção entre o número de amostras nas componentes Y, U e V), efetua a amostragem

independente das componentes de luminância (com taxa de amostragem de 13.5 MHz) e de crominância (taxa de amostragem de 6.75 MHz cada uma).

• A quantização é feita com 8 bits, sendo que o nível de preto (0 IRE) corresponde ao nível de quantização 16, e o branco (100 IRE) corresponde a 219, deixando uma margem de segurança para evitar saturação com sinais de amplitudes maiores. Os códigos 0 e 255 são reservados para sincronismo.

(34)

O padrão D1

O padrão D-1 proporciona qualidade de imagem excelente, sendo adequado para

aplicações em estúdio. A interface física é paralela, balanceada e síncrona (clock de 27 MHz), utilizando um conector DB-25. Os níveis de tensão correspondem a níveis lógicos ECL ( -0.8 / -1.85 V).

A taxa de amostragem corresponde a 720 pixels de luminância e 360 × 2 pixels de

crominância (total de 1440 amostras) durante a parte ativa de cada linha (53.33µs), sendo que este valor é adequado tanto para sistemas em 60Hz como para 50Hz. No caso de

NTSC e PAL-M (525 linhas), a linha completa corresponde a 858 ciclos de 13,5 MHz, sendo que 138 ciclos correspondem ao retraço horizontal. No caso de sistemas a 50 Hz (PAL europeu, com 625 linhas), a linha horizontal completa corresponde a 864 ciclos, com 144 ciclos reservados para retraço horizontal.

As amostras são intercaladas, na seqüência -UYV-Y-UYV-... onde o grupo UYV corresponde a amostras

Y

U V Y U Y V Y Sequência de Amostras

(35)

O padrão D1

O intervalo de retraço

horizontal é substituído por um bloco de dados ("blanking digital") delimitado por

códigos de sincronismo (4 bytes). Estes códigos contêm dados que identificam o

campo (par ou ímpar), o período de retraço vertical, e o início e fim do trecho ativo da linha (SAV - Start of

Active Video / EAV - End of Active Video).

Na figura temos um detalhe da codificação do sinal de vídeo.

(36)

(37)

Padrão D-2 (Digital Composto)

Formato mais econômico que o D-1

• digitaliza diretamente o sinal de vídeo composto

• Para o NTSC, a taxa de amostragem é de 14.31818 MHz (correspondente a 4 × a freqüência da sub-portadora de cor), e a quantização é de 8 ou 10 bits. A interface física é idêntica à do D-1. A figura mostra os níveis de quantização

correspondentes para um sinal NTSC.

60 4 200 255 Branco Máximo Apagamento Tôpo do Sincronismo Máximo

(38)

Padrão D-6 (SMPTE 274M - HDTV Digital)

Para a futura TV de alta definição

1080 linhas ativas com 1920 pixels por linha

baseado no padrão de vídeo analógico HDTV SMPTE 240M,

cujas características estão resumidas abaixo

Número de linhas: 1125 totais (entrelaçadas), 1080 linhas ativas

Freqüência de Amostragem: 74.25 MHz (Luminância); 37.125 MHz (Crominância) Padrão de Amostragem: 4:2:2

Duração da linha: 29.63 µs (2200 amostras totais, 1920 amostras ativas) Resolução: 8 ou 10 bits

(39)

Processamento Digital de Imagens

As imagens disponíveis na forma digital podem ser

processadas de forma muito mais ampla e do que na

forma analógica.

Armazenamento sem deterioração

Redução de ruído

Filtros espaciais, temporais e no domínio de freqüência

Congelamento

Mudança de velocidade – interpolação

Câmera lenta, câmera rápida

Transformações geométricas

(40)

Transformações geométricas

Forma geral (3D) 0,0 0,1 0,2 0,3 1,0 1,1 1,2 1,3 2,0 2,1 2,2 2,3

1

0

1

1 X

a

X

Y

a

Y

Z

a

Z

′

⎡ ⎤ ⎡

⎤ ⎡ ⎤

⎢ ⎥ ⎢

_′

⎥ ⎢ ⎥

⎢ ⎥ ⎢

₌

⎥ ⎢ ⎥

′

⎢ ⎥ ⎢

⎥ ⎢ ⎥

⎢ ⎥ ⎢

⎥ ⎢ ⎥

⎣ ⎦ ⎣

⎦ ⎣ ⎦

′ =

W

TW

(41)

Transformações geométricas

Translação 0 0 0

1 0 0

0 1 0

0 0 1

1 0 0 0

1

1 X

X

Y

Z

′

⎡ ⎤ ⎡

⎤ ⎡ ⎤

⎢ ⎥ ⎢

_′

⎥ ⎢ ⎥

⎢ ⎥ ⎢

₌

⎥ ⎢ ⎥

′

⎢ ⎥ ⎢

⎥ ⎢ ⎥

⎢ ⎥ ⎢

⎥ ⎢ ⎥

⎣ ⎦ ⎣

⎦ ⎣ ⎦

3D 0 X 0 Y 0 0

1 0 0

0 1 0

0 0 1

0

1 0 0 0

1

1 X

X

Y

Z

′

⎡ ⎤ ⎡

⎤ ⎡ ⎤

⎢ ⎥ ⎢

_′

⎥ ⎢ ⎥

⎢ ⎥ ⎢

₌

⎥ ⎢ ⎥

′

⎢ ⎥ ⎢

⎥ ⎢ ⎥

⎢ ⎥ ⎢

⎥ ⎢ ⎥

⎣ ⎦ ⎣

⎦ ⎣ ⎦

2D

(42)

Transformações geométricas

Mudança de escala

0

1

x y S z

S

T

S

⎡

⎤

⎢

⎥

⎢

⎥

=

⎢

⎥

⎢

⎥

⎣

⎦

(43)

Transformações geométricas

Rotação (em torno do eixo z)

cos

sin

0 0

sin

cos

0 0

0

0 1 0

0

0 0 1

R

T

θ

⎡

⎤

⎢

₋

⎥

⎢

⎥

=

⎢

⎥

⎢

⎥

⎣

⎦

(44)

Transformações geométricas

Transformações Compostas (Concatenadas)

Basta multiplicar as matrizes na ordem de aplicação de cada transformação individual. Por exemplo, uma translação, seguida de mudança de escala, seguida de rotação, etc.

2 1

...

′ =

× ×

(45)

Exercício

Exercício: Considere um campo de imagem 720x486 (padrão D-1) pixels. Considere uma imagem definida por:

0, em caso contrário

G=0,

0...485,

0...719

B=0,

0...485,

0...719

R

linha

coluna

linha

coluna

=

200 10...20

10...30

R

linha

coluna

=

1. Descrever a imagem original (esboçar)

2. Aplicar as seguintes transformações em seqûëncia:

1. Translação de 20 pixels à direita, e 30 pixels para baixo 2. Mudança de escala: horizontal X 1,5, vertical X 1,3 3. Rotação de 30 graus em torno da origem

4. Qual a matriz de transformação? 5. Esboçar a imagem resultante

(46)

Compressão de Imagens - Padrão JPEG

JPEG (Joint Photographic Experts Group) – 1985 e 1990 – comitê conjunto da ISO

(International Organization for Standardization) e do CCITT (International telegraph and telephone Consultative Commitee), hoje ITU-T com a finalidade de desenvolver um

padrão de compressão de imagens.

O padrão JPEG, sintetizado na Recomendação JTC1 / 10918-2, especifica vários

processos de compressão para imagens estáticas, incluindo um método de compactação (sem perdas) baseado em DPCM com preditores múltiplos. O processo básico "com perdas" utiliza Transformada Discreta de Cossenos (DCT) para reduzir a correlação espacial entre as amostras, seguida de quantização variável e codificação estatística (Huffman).

diagrama de blocos do processo JPEG

Transfor- Quanti- Codifica- dor

Codifica- dor

(47)

JPEG – desempenho

O desempenho do padrão JPEG pode ser avaliado pela qualidade obtida para várias taxas médias de compressão

bits/pixel qualidade da imagem reconstruída 0,083 imagem reconhecível

0,25 imagem usável 0,75 imagem excelente

2,25 indistinguível da original

O JPEG é destinado à compressão de imagens “reais” • tonalidades contínuas

• processos fotográficos – a objetos reais

• não é adequado à compressão de imagens de alto contraste e resolução (textos e desenhos técnicos, etc)

(48)

JPEG

Blocos 8X8 e Transformada DCT

Inicialmente uma imagem descrita em componentes R, G, B é mapeada para uma representação em componentes Y, U, V, através das seguintes expressões:

0.3

0.6

0.1

128 Y

=

R

+

G

+

B

−

0.5

2 B Y

U

=

−

+

0.5

1.6 R Y

V

=

−

+

• As componentes U e V são sub-amostradas (reduzir a resolução espacial pela metade)

• A imagem é decomposta em blocos de 8X8 pixels, seja no plano da luminância como nos da crominância

• os blocos são processados independentemente uns dos outros

• O dimensionamento dos blocos (8X8) considera a resposta em freqüência espacial da visão humana

(49)

JPEG

Transformada DCT de um bloco de imagem f(x,y)

F u v C u C v f x y x u y v y x ( , )= ( ) ( ) ( , )cos⎡( + ) cos ( ) ⎣⎢ ⎤ ⎦⎥ + ⎡ ⎣⎢ ⎤ ⎦⎥ = =

∑ ∑

2 2 2 1 16 2 1 16 0 7 0 7 _π _π C k se k C k se k ( ) ( ) = = = > ⎧ ⎨ ⎪ ⎩⎪ 1 2 0 1 0 Anti-transformada DCT 7 7 0 0 1 (2 1) (2 1) ( , ) ( ) ( ) ( , ) cos cos 2 u v 16 16 x u y v f x y C u C v F u v π π = = + + ⎛ ⎞ = ⎜_⎝

∑∑

⎟_⎠

(50)

DCT – forma matricial

T

=

DCT C× B × C

B é um bloco de 8x8 pixels da imagem original C é a matriz de transformação:

(

)

C i j i i i j, cos = + ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ ≤ ≤ ⎧ ⎨ ⎪ ⎪ ⎩ ⎪ ⎪ 1 2 2 0 1 2 2 1 16 0 se = se 7 π .354 .354 .354 .354 .354 .354 .354 .354 .490 .416 .278 .098 -.098 -.278 -.416 -.490 .462 .191 -.191 -.462 -.462 -.191 .191 .462

(51)

(52)

Quantização

Os coeficientes da DCT são quantizados usando tabelas arbitrárias Q(u,v) e arredondados para o inteiro mais próximo

F u v F u v k Q u v k Q( , ) round ( , ) ( , ) = ⋅ ⎡ ⎣ ⎢ ⎤ ⎦

⎥ onde =fator de compressão

• As tabelas – exemplo no padrão JPEG

• coeficientes foram obtidos experimentalmente

• levam em conta a resposta visual em freqüência espacial para detalhes de luminância e crominância

• JPEG admite tabelas de quantização não-padronizadas, definidas pelo usuário, que devem ser anexadas ao arquivo comprimido

16 11 10 16 24 40 51 61 12 12 14 19 26 58 60 55 14 13 16 24 40 57 69 56 17 18 24 47 99 99 99 99 18 21 26 66 99 99 99 99 24 26 56 99 99 99 99 99

(53)

Quantização

• Após a quantização – imagens típicas

• possuem a maior parte dos coeficientes próximos de zero

• restam apenas alguns coeficientes de baixa freqüência espacial (concentrados no canto superior esquerdo)

• Os coeficientes quantizados são reordenados por um padrão em zigue-zague, que tende a agrupar os coeficientes de maior importância no início da seqüência

(54)

Codificação Entrópica

O coeficiente quantizado F(0,0) é processado separadamente Demais coeficientes

• após a reordenação é feita uma codificação RLE (Run-Length Encoding) • são criados símbolos consistindo do par ordenado:

{ quantidade de zeros / valor do coeficiente }

Quando não há mais coeficientes não-nulos dentro do bloco, a seqüência é terminada por um símbolo especial (EOB - End of Block)

Passo final: codificação Huffman modificada

• traduzir os símbolos gerados pela RLE em padrões binários de comprimento variável

(55)

JPEG – exemplo de codificação

Bloco de imagem real Coeficientes da DCT 52 55 61 66 70 61 64 73 63 59 66 90 109 85 69 72 62 59 68 113 144 104 66 73 63 58 71 122 154 106 70 69 67 61 68 104 126 88 68 70 79 65 60 70 77 68 58 75 85 71 64 59 55 61 65 83 87 79 69 68 65 76 78 94 -415 -29 -62 25 55 -20 -1 3 7 -21 -62 9 11 -7 -6 6 -46 8 77 -25 -30 10 7 -5 -50 13 35 -15 -9 6 0 3 11 -8 -13 -2 -1 1 -4 1 -10 1 3 -3 -1 0 2 -1 -4 -1 2 -1 2 -3 1 -2 -1 -1 -1 -2 -1 -1 0 -1 Coeficientes quantizados -26 -3 -6 2 2 0 0 0 1 -2 -4 0 0 0 0 0 -3 1 5 -1 -1 0 0 0 -4 1 2 -1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 [ -26 -3 1 -3 -2 -6 2 -4 1 -4 1 1 5 0 2 0 0 -1 2 0 0 0 0 0 -1 -1 EOB ] reordenação

(56)

JPEG – exemplo de codificação

[ -26 -3 1 -3 -2 -6 2 -4 1 -4 1 1 5 0 2 0 0 -1 2

0 0 0 0 0 -1 -1 EOB ]

O primeiro coeficiente (-26) representa a luminosidade média do bloco (valor "DC“) • é codificado por uma tabela própria – diferença entre este coeficiente e o

coeficiente DC do bloco de imagem imediatamente anterior (Codificação Diferencial)

• deve ser transmitido com a melhor precisão possível pois qualquer descontinuidade entre blocos vizinhos torna-se bastante visível

(57)

Reconstrução JPEG

58 64 67 64 59 62 70 78 56 55 67 89 98 88 74 69 60 50 70 119 141 116 80 64 69 51 71 128 149 115 77 68 74 53 64 105 115 84 65 72 76 57 56 74 75 57 57 74 83 69 59 60 61 61 67 78 93 81 67 62 69 80 84 84 Imagem reconstruída -6 -9 -6 2 11 -1 -6 -5 7 4 -1 1 11 -3 -5 3 2 9 -2 -6 -3 -12 -14 9 -6 7 0 -4 -5 -9 -7 1 -7 8 4 -1 11 4 3 -2 3 8 4 -4 2 11 1 1 2 2 5 -1 -6 0 -2 5 -6 -2 2 6 -4 -4 -6 10 Erro de reconstrução

(58)

(59)

Lena - detalhes

Original

Comprimido

Original Comprimido

(60)

Categorias

Categoria Categoria p/ coef. DC p/ coef. AC 0 0 N/A –1, 1 1 1 –3, –2, 2, 3 2 2 –7, ..., –4, 4, ..., 7 3 3 –15, ..., –8, 8, ..., 15 4 4 –31, ..., –16, 16, ..., 31 5 5 –63, ..., –32, 32, ..., 63 6 6 –127, ..., –64, 64, ..., 127 7 7 –255, ..., –128, 128, ..., 255 8 8 –511, ..., –256, 256, ..., 511 9 9 –1023, ..., –512, 512, ..., 1023 A A –2047, ..., –1024, 1024, ..., 2047 B N/A

Faixa de Valores Categoria Prefixo Comprimento Total Bits na Mantissa 0 10 3 0 1 11 4 1 2 100 5 2 3 0 5 3 4 101 7 4 5 110 8 5 6 1110 10 6 7 11110 12 7 8 111110 14 8 9 1111110 16 9 A 11111110 18 10 B 111111110 20 11

Prefixos para Coeficientes DC Categorias de Codificação de Coeficientes DC

(61)

Codificação Entrópica

zeros/ categ. Prefixo comp. total zeros/ categ. Prefixo comp. total zeros/ categ. Prefixo comp. total 0/0 1010 (= EOB) 4 5/4 1111111110100000 20 A/8 1111111111001110 24 0/1 00 3 5/5 1111111110100001 21 A/9 1111111111001111 25 0/2 01 4 5/6 1111111110100010 22 A/A 1111111111010000 26 0/3 100 6 5/7 1111111110100011 23 B/1 111111010 10 0/4 1011 8 5/8 1111111110100100 24 B/2 1111111111010001 18 0/5 11010 10 5/9 1111111110100101 25 B/3 1111111111010010 19 0/6 111000 12 5/A 1111111110100110 26 B/4 1111111111010011 20 0/7 1111000 14 6/1 1111011 8 B/5 1111111111010100 21 0/8 1111110110 18 6/2 11111111000 13 B/6 1111111111010101 22 0/9 1111111110000010 25 6/3 1111111110100111 19 B/7 1111111111010110 23 0/A 1111111110000011 26 6/4 1111111110101000 20 B/8 1111111111010111 24 1/1 1100 5 6/5 1111111110101001 21 B/9 1111111111011000 25 1/2 111001 8 6/6 1111111110101010 22 B/A 1111111111011001 26 1/3 1111001 10 6/7 1111111110101011 23 C/1 1111111010 11 1/4 111110110 13 6/8 1111111110101100 24 C/2 1111111111011010 18 1/5 11111110110 16 6/9 1111111110101101 25 C/3 1111111111011011 19 1/6 1111111110000100 22 6/A 1111111110101110 26 C/4 1111111111011100 20 1/7 1111111110000101 23 7/1 11111001 9 C/5 1111111111011101 21 1/8 1111111110000110 24 7/2 11111111001 13 C/6 1111111111011110 22 1/9 1111111110000111 25 7/3 1111111110101111 19 C/7 1111111111011111 23 1/A 1111111110001000 26 7/4 1111111110110000 20 C/8 1111111111100000 24

(62)

Codificação Entrópica

2/1 11011 6 7/5 1111111110110001 21 C/9 1111111111100001 25 2/2 11111000 10 7/6 1111111110110010 22 C/A 1111111111100010 26 2/3 1111110111 13 7/7 1111111110110011 23 D/1 11111111010 12 2/4 1111111110001001 20 7/8 1111111110110100 24 D/2 1111111111100011 18 2/5 1111111110001010 2 7/9 1111111110110101 25 D/3 1111111111100100 19 2/6 1111111110001011 22 7/A 1111111110110110 26 D/4 1111111111100101 20 2/7 1111111110001100 23 A/7 1111111111001101 23 D/5 1111111111100110 21 2/8 1111111110001101 24 8/1 11111010 9 D/6 1111111111100111 22 2/9 1111111110001110 25 8/2 111111111000000 17 D/7 1111111111101000 23 2/A 1111111110001111 26 8/3 1111111110110111 19 D/8 1111111111101001 24 3/1 111010 7 8/4 1111111110111000 20 D/9 1111111111101010 25 3/2 111110111 11 8/5 1111111110111001 21 D/A 1111111111101011 26 3/3 11111110111 14 8/6 1111111110111010 22 E/1 111111110110 13 3/4 1111111110010000 20 8/7 1111111110111011 23 E/2 1111111111101100 18 3/5 1111111110010001 21 8/8 1111111110111100 24 E/3 1111111111101101 19 3/6 1111111110010010 22 8/9 1111111110111101 25 E/4 1111111111101110 20 3/7 1111111110010011 23 8/A 1111111110111110 26 E/5 1111111111101111 21 3/8 1111111110010100 24 9/1 111111000 10 E/6 1111111111110000 22 3/9 1111111110010101 25 9/2 1111111110111111 18 E/7 1111111111110001 23

(63)

Codificação Entrópica

4/1 111011 7 9/4 1111111111000001 20 E/9 1111111111110011 25 4/2 1111111000 12 9/5 1111111111000010 21 E/A 1111111111110100 26 4/3 1111111110010111 19 9/6 1111111111000011 22 F/0 111111110111 (*) 12 4/4 1111111110011000 20 9/7 1111111111000100 23 F/1 1111111111110101 17 4/5 1111111110011001 21 9/8 1111111111000101 24 F/2 1111111111110110 18 4/6 1111111110011010 22 9/9 1111111111000110 25 F/3 1111111111110111 19 4/7 1111111110011011 23 9/A 1111111111000111 26 F/4 1111111111111000 20 4/8 1111111110011100 24 A/1 111111001 10 F/5 1111111111111001 21 4/9 1111111110011101 25 A/2 1111111111001000 18 F/6 1111111111111010 22 4/A 1111111110011110 26 A/3 1111111111001001 19 F/7 1111111111111011 23 5/1 1111010 8 A/4 1111111111001010 20 F/8 1111111111111100 24 5/2 1111111001 12 A/5 1111111111001011 21 F/9 1111111111111101 25 5/3 1111111110011111 19 A/6 1111111111001100 22 F/A 1111111111111110 26

(64)

(65)

Qualidade do áudio

TV Digital ÅÆ "Qualidade CD"

• 2 canais de áudio (som estereofônico) • resposta em freqüência de 20 a 20.000 Hz • relação Sinal/Ruído de 90 dB

TV de Alta Definição ÅÆ "Qualidade Cinema", ou "5.1:

• 5 canais de áudio com resposta de 20 a 20.000 Hz (Direito, Esquerdo, Central, Traseiro Direito e Traseiro Esquerdo)

• 1 canal de efeitos sonoros com resposta de 3 a 150 Hz ("Sub-Woofer", omnidirecional) • Faixa dinâmica de 90 dB

(66)

TV analógica – áudio estereofônico

Processo semelhante ao de radiodifusão de FM estéreo (Sistema BTSC, Broadcast Television Systems Commitee)

L R L+R L-R p/ modulador F.M. Compressor 31.468 kHz 15.374 kHz Pilôto DSB (DBX) 13.5 kHz Pré-ênfase 75 us Transmissão analógica • desvio máximo ±25 kHz • sinal/ruído ≤ 70 dB • banda passante = 13 kHz

DBX – equivalente a um controle automático de ganho com compressão de 2:1 SAP – canal secundário

(67)

A necessidade da compressão de áudio

A transmissão de áudio digital com "qualidade CD“ • quantização de 16 bits

• taxa de amostragem de 44.1 kHz no mínimo • taxa de bits é de 2 × 16 × 44100 = 1.41 Mb/s

• maior que a reservada para transmissão de vídeo digital no padrão MPEG-1

• consideravelmente elevada em comparação com um fluxo de vídeo MPEG-2 para TV convencional (2 a 6 Mb/s)

TV de Alta Definição (HDTV) digital (som com "Qualidade Cinema“) • 5 canais independentes + canal de baixa freqüência Î taxa de 3.5 Mb/s

• 20% da taxa líquida de transmissão digital proporcionada pelo canal de 6MH

Necessidade de utilização de processos de compressão adequados para o sinal de áudio • reduzir bastante a taxa de transmissão

(68)

Sensibilidade da Audição

O projeto de um sistema de compressão de áudio deve partir de um entendimento do processo de audição, principalmente explorando suas limitações, de forma análoga à abordagem utilizada no desenvolvimento de sistemas de compressão de vídeo

Sensibilidade da Audição

• O ouvido apresenta resposta perceptual aproximadamente logarítmica, tanto na distinção de freqüências como na de intensidade sonora.

• O limiar inferior de audibilidade para um ouvido normal

• pressão sonora de 20 µPa r.m.s. (2×10-5 N/m2) na freqüência de 1 kHz (aproximadamente 1 pW/m2)

• Limiar de desconforto é atingido com pressões sonoras 1.000.000 de vezes maiores É conveniente então medir o nível de pressão sonora em escala logarítmica, sendo

(69)

Sensibilidade da Audição

dB SPL* dB SPL

Foguete 195 Conversação 65

Avião a jato 155 Restaurante 60

Limiar de dor 140 Residência urbana 40 Limiar de

desconforto 120 = 1 W/m

2 Casa de campo 30

Orquestra fortíssimo 110 Orquestra pianíssimo 30 Rebitadeira 100 Estúdio de gravação 20

Fábrica 78 Folhagens na brisa 10

Tráfego pesado 68 Limiar de audição 0 = 1pW/m2

Escritório ruidoso 65 Ruído térmico do ar -10

(70)

Resposta em freqüência do ouvido

A resposta em freqüência do ouvido, para vários níveis de Volume Sonoro, foi estudada por Fletcher e Munson em 1933, e posteriormente por Robinson e Dadson

(71)

Resposta em freqüência do ouvido

A sensibilidade é bastante reduzida para baixas freqüências com baixas amplitudes • rejeita sons produzidos pelo próprio corpo humano

• rejeita sons produzidos pela circulação sangüínea no ouvido interno A sensibilidade atinge

• um pico em 4 kHz (freqüência de ressonância do canal auditivo) • um segundo pico em 12 kHz (também devido ao canal auditivo)

• acima de 15 kHz a resposta é variável de indivíduo para indivíduo, e bastante atenuada As curvas indicam que um sistema de reprodução sonora deveria

• responder de 20 a 20.000 Hz

• proporcionar uma faixa dinâmica ou relação sinal/ruído maior que 120 dB

(72)

---Faixa dinâmica ideal

música fala pressão sonora (d/cm2) dB frequência Ruído ambiente • Residência – aproximadamente 40 dB SPL

• Estúdio de gravação – pelo menos 20 dB SPL

• O nível de 120 dB SPL corresponde ao limiar de desconforto

Experimentalmente determinou-se que as regiões confortáveis para audição de música ou voz abrangem faixas dinâmicas respectivamente de 70 dB e 30 dB

(73)

Percepção de direção e do ambiente

Percepção da direção

• Para freqüências até 1 a 2 kHz – a diferença de fase entre as frentes de onda recebidas nos dois ouvidos fornece indicação de direção

• Acima dessa freqüência – a diferença de amplitude nos dois ouvidos, provocada pela sombra acústica projetada pela cabeça fornece indicação de direção

• Movimentos da cabeça permitem resolver ambigüidades entre sons frontais e posteriores

• No sentido vertical é em parte proporcionada pelo pavilhão auricular, cuja estrutura imprime uma “assinatura espectral” ao som recebido, conforme sua elevação

Características do ambiente

• Reflexões múltiplas em paredes, chão e outros elementos de um ambiente trazem ao ouvido pistas que permitem identificar algumas características desse ambiente • o atraso temporal entre o som direto e a primeira reflexão – tamanho do ambiente • tempo de decaimento, a relação entre o decaimento em altas e baixas freqüências –

(74)

Mascaramento

Mascaramento – deslocamento relativo do limiar de audibilidade provocado pela presença

de tons de maior intensidade.

Vários experimentos para modelar as características do mascaramento – conclusões • Tons senoidais com freqüências próximas são mascarados mais do que tons em

freqüências distantes entre si

• Um tom senoidal mascara mais fortemente outros tons de freqüências mais altas do que tons de freqüências inferiores

• Quanto maior a amplitude do tom, maior a banda de freqüências mascaradas por ele • Ruído de banda estreita apresenta características de mascaramento similares às dos

tons senoidais

• Ruído branco mascara tons senoidais de todas as freqüências igualmente e de forma linear

(75)

Curvas de mascaramento

Exemplo

a curva correspondente a um tom de volume sonoro igual a 84dB (Phons) indica que um tom de 1 kHz só será percebido se estiver acima de 40 dB

Curvas de Mascaramento (Fletcher & Munson)

(76)

Subdivisão do espectro em sub-bandas

A maioria dos métodos eficientes de compressão de áudio explora o mascaramento

através da subdivisão do espectro em sub-bandas

• decompor o sinal por um banco de filtros passa-banda possivelmente relacionados às bandas críticas de audibilidade, de modo que na saída de cada filtro tenhamos um sinal de banda estreita, com amplitude via de regra menor que a do sinal original

• estimativa de mascaramento, baseada no espectro do sinal original, de modo que

para cada sub-banda é determinada a relação Sinal/Ruído necessária para

reproduzir o respectivo sinal filtrado

• o sinal de cada sub-banda é quantizado com um número de bits suficiente, de modo que o ruído de quantização esteja abaixo da relação S/R exigida para aquela banda

1 BANCO DE FILTROS

(77)

Codificador de áudio do padrão MPEG

Diagrama de blocos do codificador de áudio descrito no padrão MPEG; neste caso, o sinal original, por exemplo digitalizado a 48 kHz com 16 bits, é analisado por um banco de 32 filtros com banda de 750 Hz.

As saídas dos filtros são sub-amostradas – 32 grupos de 1500 Hz. BANCO DE FILTROS 1 2 3 4 32 QUANTIZADORES SUB-AMOSTRADORES ÁUDIO AMOSTRADOR PCM Fa Fa/32 Q1 Q2 Q3 Q4 Q32 MODELO PSICO-ACÚSTICO FLUXO DE DADOS CODIFICADOS FORMATADOR ALOCAÇÃO DE BITS

(78)

Som MPEG – modelo de funcionamento

0 5 10 15 Frequencia A determinação do nível de mascaramento é feita por um

Modelo Psico-acústico, a partir do espectro obtido por uma FFT de 512 ou 1024 pontos

Embora o detalhamento do modelo não esteja especificado no padrão MPEG, sua operação segue o esquema geral da figura

Tonal Cálculo do Limiar Absoluto Limiar Tonal Funções de

(79)

Padrões de Compressão de Áudio

Padrões MPEG

O padrão MPEG-1 de compressão de áudio (ISO / IEC 11172 - Parte 3) especifica 3

níveis de desempenho, associados basicamente à complexidade do modelo psico-acústico e dos bancos de filtros.

Já o padrão MPEG-2 (ISO 13818 - Parte 3) estende a codificação para sistemas com 5.1 canais, adequados para "Home Theater" com "Qualidade Cinema".

A maioria dos sistemas trabalha com taxa de bits constante na saída, ao contrário do que ocorre com a compressão de vídeo

(80)

MPEG-1 NíveIS I e II

MPEG-1 Nível I

• Codificação feita em Quadros de 12 amostras por banda (384 amostras e 32 sub-bandas)

• para cada quadro permanecem constantes os fatores de escala e alocações de bits por amostra por banda

• aceita taxas de amostragem de 32kHz, 44.1 kHz ou 48 kHz para um ou dois canais independentes ou associados

O padrão MPEG-1 Nível I é usado no DCC (Digital Compact Cassette) com o nome de PASC (Precision Audio Sub-band Coding).

MPEG-1 Nível II (MUSICAM)

(81)

MPEG-1 Nível III (MP3)

MPEG-1 Nível III (MP3)

• Codificação em Quadros de 3 x 12 amostras por sub-banda (1152 amostras); • usa um modelo psico-acústico mais elaborado;

• Utiliza transformada de cossenos (DCT) para subdividir as Sub-bandas em 6 ou 18 sub-sub-bandas, proporcionando redução de "Aliasing" entre sub-bandas;

• efetua aplicação de janelas temporais curtas (6 amostras) ou longas (18 amostras) antes da DCT;

• pode usar Quantizador não-linear : Y=Q(X0.75);

• aplica codificação de Huffman nas amostras quantizadas;

(82)

Desempenho dos Processos de Compressão de Áudio

Padrão de

Compressão Canais Taxa Média de Compressão OriginalTaxa ComprimidaTaxa Atraso A/D/A

MPEG-1 / I 2 4:1 1,41 Mb/s 384 kb/s 19 ms ATRAC 2 5:1 1,41 Mb/s 292 kb/s MPEG-1 / II (MUSICAM) 2 6:1 1,54 Mb/s 256 kb/s >40 ms MPEG-1 / III 2 8:1 1,41 Mb/s 128 kb/s >80 ms MPEG-2 / III 5.1 10:1 3,53 Mb/s 384 kb/s Dolby AC-3 5.1 12:1 3,53 Mb/s 290 kb/s 45 ms

(83)

Compressão de Imagens em Movimento

Padrões MPEG-1 e 2

Processo de compressão de dados

• busca reduzir a redundância presente no sinal da fonte de informação

• codificador com preditor: determina uma estimativa do sinal a ser transmitido, baseando-se nas entradas anteriores y(t-1), y(t-2).... (figura).

• basta transmitir apenas o erro de predição e(t), ou seja, a diferença entre a estimativa e o sinal real y(t).

• Preditor for eficiente Î o erro de predição com baixa auto-correlação Î valores próximos de zero Î redução da quantidade de informação a ser transmitida

( )

ˆy t

( )

ˆy t Preditor Preditor y(t) y(t) ^ _y(t)^ y(t) e(t) + -Transmissor _Receptor Canal S1 S2

(84)

Exemplo de preditor

“Frame store“

• explora o fato de que um quadro transmitido é geralmente muito semelhante ao quadro anterior

• consiste de uma memória que armazena o quadro anterior

• são transmitidas apenas as diferenças entre dois quadros consecutivos (pixel a pixel)

• este preditor falha quando há um corte de cenas, ou movimentos rápidos de objetos ou da câmera

Preditor com Compensação de Movimento

• mais eficiente para aplicação em vídeo

(85)

Preditor com Compensação de Movimento

• O preditor monta uma estimativa da imagem atual baseada em fragmentos tomados de uma imagem de referência deslocados conforme os vetores de movimento

• Normalmente utiliza apenas translações lineares

• Uma vez que é impraticável determinar quantos objetos com movimentos

independentes existem em uma imagem, cada fotograma pode ser subdividido em blocos regulares, sendo então determinados vetores de movimento para cada bloco.

Anterior (referência) Atual Erro de predição

Vetor de movimento Predição (com compensação) _{Erro de predição} (com compensação)

(86)

Detector de movimento

• unidade funcional que determina os vetores • para cada bloco da imagem atual

• faz uma varredura sobre a imagem de referência, buscando o ponto de maior semelhança com o bloco a ser analisado

• mede a distorção média absoluta (DMA*)

DMA x y

N _{i j} f x i y j ref x i dx y j dy

( , ) ( , ) ( , )

,

= 1

∑

+ + − + + + +

• (dx,dy) ÍÎ deslocamento entre a imagem de referência ref(x,y) e o bloco da imagem de entrada f(x,y)

• O valor de (dx,dy) para o qual a DMA é mínima é adotado como vetor de movimento do bloco de coordenadas (x,y)

(87)

Vetor de deslocamento – algoritmos de busca

Imagem de Referência Imagem atual x y x y Área de Busca Bloco de Maior

Semelhança Vetor de Movimento

Bloco a ser Estimado

Busca Exaustiva

Varredura de toda a região de busca com resolução de 1/2 pixel

Busca Hierárquica

• Varre a região com resolução decrescente à medida que a correlação aumenta

(88)

Codificação com Perdas

• Compensação de movimento

• reduz bastante a redundância temporal

• Erro de predição resultante submetido a processo de compressão (semelhante ao

JPEG)

• Obtem-se a uma forma importante de codificação que • remove também as redundâncias espaciais

• torna-se adequada para cenas com cortes ou mudanças bruscas de conteúdo • Compressão sem perdas – taxas de compressão até 3:1

• Compressão com perdas – Combinando compensação de movimento com transformada DCT e quantização

(89)

Padrões de compressão com perdas

• MPEG-1 (Moving Pictures Experts Group - ISO/IEC 11172a) • compressão de imagens não-entrelaçadas

• taxas de informação até 1,5 Mb/s (aplicações: vídeo-conferência sobre troncos E1 / T1; multimídia em CD-ROM)

• MPEG-2 (ISO13818)

• destinado à compressão de imagens de TV entrelaçadas

• admite vários níveis de desempenho para taxas de 1,5 a 100 Mb/s (aplicações: TV convencional digital, HDTV)

• H-261 e H-263 (ITU)

• vídeo-conferência através de ISDN (múltiplos de 64 kb/s) • H-324 (ITU)

(90)

Codificador MPEG

Conversão de Formatos Compactação Truncamento BLOCOS ERRO DE PREDIÇÃO Reconstrução de Movimento Deteção 24 / 30 / 60 Quadros / s Transformação Espacial DCT VETORES DE MOVIMENTO DADOS COEFICIENTES COEFICIENTES QUANTIZADOS QUADRO RECONSTRUIDO Q DCT-1 Preditor Fator de Escala MUX Buffer RLE Huffman SAÍDA

1. A imagem é formatada (no caso do MPEG-1, é convertida em quadros não-entrelaçados, com resolução típica de 320x240 pixels de luminância e

160x120 pixels de componentes de crominância);

2. cada plano da imagem (Luminância e componentes de Crominância) é

subdividido em blocos de 8 x 8 pixels 3. Os blocos são agrupados em

macroblocos, para os quais é feita

detecção de movimento, gerando vetores

de movimento que serão transmitidos

(91)

MPEG-1 – três tipos de imagem

• Imagens I (Independentes, ou Intra-frame)

• codificadas sem predição de movimento

• DCT, quantização e compactação (análogo ao padrão JPEG)

• usadas como imagens de referência para quadros futuros (movimento)

• taxa de compressão média; são necessárias para evitar propagação de erros ou

quando há cortes de cenas

• Imagens P (com predição progressiva de movimento)

• reconstruídas através de predição de movimento, baseando-se em imagens de

referência anteriormente codificadas, que podem ser imagens tipo I ou tipo P.

• Possuem taxa de compressão elevada

• Imagens B (com predição bidirecional)

• baseia-se em duas imagens de referência (anterior e posterior, tipo I ou P) • admitem até dois conjuntos de vetores de movimento (progressivos e

regressivos) para cada bloco, sendo que neste caso a estimativa adotada é a média das estimativas individuais. Apresentam a maior taxa de compressão dentre os 3

(92)

MPEG-1

• Uma seqüência de vídeo é subdividida em Grupos de Imagens (GOP's - Groups of

Pictures)

• Um GOP pode conter imagens tipo I, P e/ou B em várias proporções

• Um GOP é fechado se as predições de movimento das suas imagens são efetuadas sem

necessitar de quadros de referência externos ao Grupo

• Seqüências de vídeo podem ser editadas (montadas) tomando-se como pontos de corte os inícios dos GOPs

I B B P B B P B B I

P r e d i ç ã o P r o g r e s s i v a

• GOP numa configuração típica

IBBPBBPBB com M=3, N=9

• a seqüência efetiva de transmissão é diferente da seqüência de exibição das imagens

(93)

Macro-blocos

• A estrutura do GOP – parâmetros • M (distância entre imagens tipo I) • N (distância entre imagens P)

• O tamanho do GOP influencia o tempo de aquisição de uma seqüência e, por conseguinte, a latência

• o receptor tem que esperar uma imagem I para poder decodificar as demais Y 8x8 Cb Cr 8x8 8x8 Y Y

• A escolha da proporção de imagens I, B e P é um compromisso entre taxa de bits, a

qualidade da imagem, o tempo de aquisição e recuperação de erros de transmissão (latência) • É comum adotar-se uma imagem I a cada 15 quadros (1/2 segundo)

Y U, V Amostras:

• O elemento básico de predição de movimento é o

macrobloco

• conjunto de 4 blocos de 8x8 amostras de luminância, e 2 blocos de crominância correspondentes

• As componentes de crominância Cb (B-Y) e Cr (R-Y) são sub-amostradas na vertical e na horizontal num padrão conhecido como

"4:2:0“

• os 2 blocos de crominância cobrem a mesma Estrutura de Amostragem "4:2:0"

(94)

MPEG-2: Níveis e Perfis de Desempenho

• O padrão MPEG-2

• Definido em 1995/96 conjuntamente pela ITU (H.222 / H.262) e pela ISO/IEC (13818)

• tem como objetivo a codificação de sinais de vídeo para aplicações genéricas • multimídia

• vídeo-conferência

• TV de Alta Definição (HDTV)

• aplicações em radiodifusão ou estúdio

• inclui recursos para codificação eficiente de imagens entrelaçadas

• Define 4 "Perfis" relacionados com os recursos de processamento e complexidade dos codificadores, e 4 "Níveis", relacionados com o formato de vídeo e taxa de bits resultante:

(95)

MPEG-2 – Níveis e Perfis

Nível Formato de Vídeo Taxa de Bits Baixo (LL) 240 Linhas 360 Pontos ( qualidade VHS) ~1,5 Mb/s Principal (ML) 480 Linhas 720 Pontos ( CCIR-601 - Qualidade Estúdio p/ TV Convencional) 4 ~ 6 Mb/s Alto-1440 (H14L) 1080 Linhas 1440 Pontos (Formato HDTV) 20 ~ 60 Mb/s Alto (HL) 1080 Linhas 1920 Pontos (Formato HDTV - Qualidade Estúdio) 20 ~ 100 Mb/s Perfil Recursos Adicionais

Simples (SP) Nenhum (Sistema Mínimo)

Principal (MP) Predição bidirecional (Quadros tipo B)

Escalável em SNR (SNRP) Codificação Hierárquica com níveis diferentes de prioridade para imagem básica e detalhes

Escalável Espacial (SSP) Codificação Hierárquica com níveis diferentes de prioridade para imagem 4x3 e 16x 9 Alto (HP) Todos os recursos e codificação 4:2:2 (Dobro de amostras de Crominância)

Exemplos

• SP@LL corresponde a um codificador com desempenho equivalente ao MPEG-1 para multimídia

• MP@ML é um formato adequado para TV convencional entrelaçada, atualmente usado em sistemas como DirecTV e na codificação de vídeo no DVD (“Digital Versatile Disc”)