Resumo - Tecnologias Multimidia

(1)

Tecnologias Multimídia

(Prof. Francisco J. Fraga)

Anotações de aula:

Rodrigo T. Caropreso

(2)

Sumário

AULA 1: Introdução...3

AULA 2: Conceitos Básicos...5

AULA 3: Imagens...9

AULA 4: Áudio...12

AULA 5: Música...21

AULA 6: Voz...27

(3)

AULA 1: Introdução

Analógico: Grandezas contínuas

Digital: grandezas discretas, codificadas em bits/bytes.

Bit: binary digit, byte=8 bits, soma de bits, etc.

Padrões: ASCII (7 bits), ISO 8859-1, Unicode (UTF, UTF-7 – 7 bits, UTF-8 – 8 bits, UTF-16 – 16 bits).

Digitalizar: conversão da informação analógica em valores binários, através de amostragem (tempo discreto) e quantização (amplitude discreta). A digitalização é útil para processamento e armazenamento dos sinais (que depois podem ser recuperados).

(4)

Evolução da Comunicação Homem Máquina: • Ambientes orientados a texto:

• Linhas de Comando: originados das máquinas de escrever, com linhas de 40 a 80 caracteres (colunas), por exemplo o prompt de comando do Windows;

• Telas: processadores de texto com IDEs e planilhas eletrônicas, com 1000 a 3000 caracteres, permitindo manipulação de textos (mas não gráficos).

• Ambientes orientados a ponto: foco em pixels, com telas gráficas com altas resoluções (milhares, milhões de pontos – 800x600; 1024x768), basicamente o padrão atual;

• Ambientes Multimídia: focados no uso de animação 24 (cinema) ou 30 (TV) quadros por segundo, as vezes menos em função da necessidade de cada caso. Também entra nessa categoria o áudio (radio pela internet ou voz sobre IP, por exemplo).

(5)

AULA 2: Conceitos Básicos

•

Pixel: picture element, é o menor elemento de informação de uma imagem, formado por

pontos (pequenos retângulos)

•

Resolução espacial: quantidade de pixels usados em uma imagem (quanto maior,

melhor). Pode ser expressa como um único numero (7 megapixels) ou um par de resoluções (640 colunas - largura x480 linhas - altura )

Uso errado: o termo megapixel as vezes é usado para identificar os elementos sensores de uma câmera (o correto é “sensels”).

A medida de proximidade entre as linhas faz parte da resolução espacial e é designada por pixels por polegada (ppi). Para alguns dispositivos como scanners, existe a resolução óptica para identificar a resolução real dos pontos por polegada.

Resolução do olho humano: 3000 x 3000 pixels (PC: 1280 x 1024 pixels, para comparar)

Representação de cores: cada pixel carrega uma quantidade de bits, dependendo do sistema de representação de cores.

•

RGB: combinação linear de Vermelho-Verde-Azul (RGB). As cores são os vértices de um

cubo;

• Preto(0, 0, 0); • Azul(0, 0, 1);

• Branco(1, 1, 1); • Amarelo(1,1,0);

• Vermelho(1, 0, 0); • Ciano(0,1,1);

(6)

Como o modelo RGB é aditivo (soma de cores) é adequado em monitores (que possuem canhões de luz, um para cada cor, que se combinam na tela).

•

CMY (Ciano, Magenta, Yellow): outro sistema de cores. As cores CMY são

complementares das cores primarias do RGB (veja na figura acima) e a soma de uma cor com sua complementar é branco. Este sistema é subtrativo, usado em impressões (por exemplo, a cor ciano é resultado da soma de verde e azul, mas também pode ser visto como Branco menos o Vermelho, por isso se diz que o ciano REFLETE o vermelho – ele joga fora o vermelho e sobra o ciano). O Magenta reflete o verde e o Amarelo reflete o azul (isso tudo pode ser visto na figura acima).

(7)

Neste sistema não é possível obter o preto apenas combinando as cores, então utiliza-se um conjunto de pigmentos pretos, formando a representação CMYK.

•

HLS (Hue, Luminance Saturation): os sistemas RGB e CMYK não são muito “intuitivos”

(se baseiam na emissão/absorção de luz). A luz possui as seguintes propriedades:

•

Luminância: intensidade ou amplitude da onda de luz (preto tem luminância zero);

•

Saturação: proporção de quantidade de cor em relação a uma cor cinza média

(saturação zero);

•

Matiz (hue): mede a frequência dominante da onda luminosa (portanto tem relação

com as cores).

•

YCbCr: família de “espaços de cor” usados em representações de cores em sistemas de

vídeo ou fotos digitais. É uma forma de codificação de informações RGB (RGB não é muito eficiente, o YCbCR é uma aproximação mais prática – cabo de vídeo componente).

•

Y': componente de luma (não é luminância), a intensidade da luz é codificada de

forma não linear;

•

Cb: diferença de croma (crominância) azul;

•

Cr: diferença de croma vermelho.

Humanos → mais sensíveis a Luma do que a Croma. Sendo assim, o sinal Y' tem maior resolução (largura de banda) na transmissão do que os outros parâmetros.

Codificação de Cores (Quantização): 8 bits para luminância.

• Sistemas True Color: 256 níveis para cada cor primária ( mais de 16 milhões de cores).

Possui bastante redundância (olho humano distingue centenas de milhares de cores); • VGA: alternativa mais barata, com 6 bits por cor (262.144 cores). O olho humano percebe

menos o azul do que as outras cores, então pode-se usar codificações assimétricas; • Conceito de Paleta: tabela predefinida. O valor do pixel não vai pra tela, vai para a tabela.

• Paleta otimizada (VGA): ao invés do sistema ter uma paleta definida, cada imagem tem

(8)

o quantidade de cores simultâneas (presentes na mesma imagem) é limitada pelo tamanho da paleta.

• Dithering: Para dar a ilusão de “gradação de cores” (uma vez que imagens não são

realistas), usa-se o dithering, alternando as cores entre pixels próximos, enganando a visão.

• Transparência: em sistemas de 16 bits temos 5 bits por cor + 1 para transparência

(transparente ou opaco). Em sistemas de 32 bits temos 8 bits por cor + 8 bits de transparência (canal alfa com 256 níveis de transparência).

(9)

AULA 3: Imagens

Por que comprimir? Porque há muita redundância de dados (ex: RGB True Color com canal alfa de 640 x 480 = 640 * 480 * 4 bytes = 1.228.800 bytes).

Tipos:

• Lossless (sem perdas): qualidade mantida, reversível. Métodos associados:

• Run-Length-Encoding (RLE): usada em formatos PCX, BMP, TIFF, comprime longas sequencias de bits repetidos, muito útil em imagens monocromáticas (onde cada byte codifica alternadamente os tamanhos das sequencias de pixels brancos “1” e pretos “0”, p. Ex: 00 15 21 08 … (0 brancos, 15 pretos, 21 brancos, 08 pretos, …). Para tons de cinza, usa-se o byte 255 indicando repetição (186 187 255 12 188 …) = 1 tom 186, 1 tom 187, 12 tons 188, etc. As imagens coloridas seguem o mesmo padrão para tons de cinza, porém usando codificação RGB;

• Dicionários adaptativos, usado em formatos GIF e TIFF. Algoritmo famoso = LZW (Lempel-Ziv-Welch), aprimoramento do LZ78. De modo geral, são armazenadas em dicionario as sequencias de pixels com as posições codificadas. Necessita de bastante memória e podem ser usadas técnicas como “Congelamento” (após atingir um tamanho máximo o dicionário não aceita novas entradas) ou Esvaziamento (dicionário é esvaziado e a compressão começa de novo);

• Deflação, usado em PNG e TIFF, combina o algoritmo LZ77 (dicionário) e Código de Huffman (entropia). É um tipo de “zip” (pixels repetidos são tratados pelo LZ77 e depois usa Huffman para codificar os símbolos).

Formatos de Imagens:

• Bitmap (BMP): padrão no Windows, pode ser comprimido ou não comprimido, possui as seguintes partes principais:

• Cabeçalho BMP (Header): informações gerais (S.O, tamanho do arquivo);

(10)

e altura em pixels, No de cores e bits por pixel,. Resolução);

• Paleta de Cores: contém definições de cores usadas para indexar os bitmaps; • Dados bitmap: armazena a imagem, pixel a pixel.

• Personal Computer Exchange (PCX): desenvolvido pela Zsoft, nativo do Paintbrush, atualmente substituído pelo GIF e PNG. Ele codifica as linhas da imagem de forma independente do hardware. As paletas variam entre 16 e 256 cores (posteriormente foi estendido para true color 24 bits), utiliza compressão RLE;

• Tagged Image File Format (TIFF): criado pela Aldus (Adobe) para editoração eletrônica. Trata imagens e dados no mesmo arquivo, incluindo no cabeçalho (tamanho, definição e tipo de compressão) a geometria da imagem. Usado em imagens de fax, processamento de textos, OCR, documentos científicos, etc. Usa compressão LZW;

• Graphics Interchange Format ( GIF): baseado em Bitmap, introduzido pela Compuserve e muito usado na Internet. Suporta 8 bits por pixel, com paleta de até 256 cores escolhidas no RGB de 24 bits. Também suporta animações (cabeçalho comum seguido por uma série de quadros de imagem). Não é bom para fotos (devido as limitações de cores), mas é bom para logotipos e gráficos com cores sólidas, usa a compressão LZW.

• PNG: criado para substituir o GIF, suporta sistema de cores em paleta RGB de 24 bits, tons de cinza ou RGBA. Projetado para transferir imagens na internet.

• Compressão com Perdas: princípio básico é remover detalhes que a visão humana não percebe. A taxa de perda é fixada na compressão. Utiliza transformações matemáticas de blocos da imagem (espectro bidimensional, correspondente a uma matriz de distribuição de energia). Os coeficientes da Matriz são então quantizados (truncados), e depois codificados por outro algoritmo sem perda (sem geral os coeficientes nulos são descartados). A transformação mais comum é a DCT.

• Joint Photographic Experts Group (JPEG): comissão formada em 1982 (ISO/IEC JTC1 e ITU-T). Formato mais usado para imagens fotográficas, permite ajuste no grau de compressão. O princípio básico é que informações de “Alta frequência espacial” podem ser descartadas na imagem sem perda perceptível de qualidade

(11)

(as pessoas não percebem esses detalhes). A DCT é aplicada em blocos de 8x8 pixels. Os coeficientes nulos são codificados via RLE em zigue-zague (maximiza a sequencia de pixels). Os coeficientes não nulos são codificados por Huffman. Se a taxa de compressão for muito alta (qualidade baixa) podem aparecer artefatos na imagem (embaçamento e arestas visíveis nos blocos)

• JPEG 2000: melhora o JPEG em alguns aspectos (qualidade em altas taxas de compressão), utiliza blocos de tamanhos variáveis e Transformada Wavelet Discreta (DWT), correspondente a uma imagem em baixa resolução e coeficientes de detalhe que adicionam progressivamente mais detalhes à imagem (que podem ser quantizados e depois comprimidos sem perdas).

(12)

AULA 4: Áudio

Vibração e Percepção das Ondas Sonoras → o som possuiu movimento ondulatório tridimensional e longitudinal. As ondas podem ser:

• Progressivas (o movimento de todas as partículas tem a mesma amplitude);

• Estacionárias: quando a onda bate e volta formando ventres e nós (pontos onde as ondas se anulam).

• Senoidais simples;

• Complexas (combinação de diversas senoides); • Periódicas ou Aperiódicas.

Parâmetros de um sinal de onda:

• Frequência: numero de ciclos por segundo.

• Período: intervalo de tempo para 1 ciclo (portanto, o inverso da frequência) • Frequência angular: radianos/segundo ou 2 π f ;

• Fase inicial: deslocamento em graus, a partir de uma referencia arbitrária;

• Amplitude: medida do deslocamento da partícula em relação a posição de equilíbrio;

• Comprimento de onda: espaço entre 2 pontos que possuem a mesma amplitude, dado por

λ=

v / f

, onde v é a velocidade da onda (o caso, velocidade do som).

Parâmetros qualitativos da onda sonora:

• Altura: permite classificar em graves (menor frequência) ou agudos (maior frequência); • Intensidade: permite classificar em forte ou fraco, tem relação com a amplitude (o volume

do radio). Relaciona-se com a pressão efetiva gerada por ondas planas e ondas esféricas,

dada por:

I =

P

e

2

ρ

₀

c

, onde Pe = pressão efetiva,

ρ

0 =densidade de fluxo e c -= velocidade de fase.

(13)

• Intensidade sonora: quantidade de energia transmitida por segundo em uma área de 1 metro quadrado, dada em W/m2_;

• Pressão Sonora: força exercida pelas moléculas de ar sobre uma superfície na qual incidem, dada por N/m2 .

• Níveis de Audição: é dado através de uma escala logarítmica (porque nosso ouvido é assim). A unidade usada pé o bel, sendo que a escala é dada em decibéis (dB), cuja definição é:

x decibels=10⋅log

G

_ref , onde G e Gref são 2 grandezas quaisquer

Para intensidade temos:

NIS =10 log

_I

I

ref →

NPS=10 log

(

P

e 2

P

_ref

)

=20 log

P

e

P

_ref sendo Pref uma pressão de referencia de

20 μ Pa

.

Para seres humanos, foi criada uma escala em que 0dB corresponde a menor intensidade ou pressão sonora por frequência ouvida pela maioria da população.

Representação digital do som → conversão da forma de onda analógica de um sinal sonoro em um formato digitalizado. Este processo é feito em 3 etapas principais:

• Amostragem: é a captura de “valores” da forma de onda em intervalos de tempo bem

(14)

(FA) e o período de amostragem é dado por: TA=1/ FA . Logo, um sinal amostrado é uma sequencia de valores (um sinal discreto).

• Frequência de Nyquist (1928): é a frequência mínima que um sinal de amostragem deve

possuir a fim de que as informações do sinal original não sejam perdidos durante o processo de discretização do sinal. Esta frequência tem que ser (no mínimo) o dobro da maior frequência do sinal a ser discretizado (se for menor do que FNYQUIST ocorre o efeito de

“aliasing”).

• Série de Fourier: é uma série matemática cujos termos são funções trigonométricas (seno

e coseno). Uma função periódica pode ser aproximada por uma série de somas de senos e cosenos. Isto é usado na construção de sinais digitais.

(15)

Figura 1 - 4 Primeiros Termos da Série de Fourier

• Exemplo : Telefonia → Frequência de amostragem usada é de 8KHz. Portanto, a máxima frequência do sinal que pode ser amostrado é de 4KHz (aí um filtro corta das demais frequências do sinal de voz acima de 4KHz). Por isso que a voz das pessoas no telefone é semelhante e esquisita (as frequências acima de 4KHz foram omitidas).

• Aliasing: a amostragem replica as frequências (no Domínio da Transformada de Fourier) e

(16)

1. Sinal analógico (esquerda). Ao aplicar a Transformada de Fourier (que não é a Série de Fourier, é uma integral), o sinal passa a ser representado no Domínio da Frequência de Fourier (direita).

2. Sinal de amostragem no domínio do Tempo (esquerda) e no Domínio da Transformada de Fourier (direita). É basicamente o mesmo trem de pulsos, porém “afastados” uns dos outros.

(17)

3. Amostragem: a amostragem no domínio do tempo (esquerda) é o processo de “multiplicar” o sinal de amostragem pelo sinal analógico. Isso corresponde a fazer uma “convolução” no domínio de Fourier. A convolução é uma integral muito doida, mas, na prática, isso corresponde a “copiar” o espectro do sinal em torno de cada pulso (é assim, justamente porque um dos sinais é um pulso). Resulta na figura da esquerda.

4. Aliasing: se os pulsos do item 3 não estiverem afastados segundo o critério de Nyquist, as cópias do sinal se “misturam” como na figura acima. É o “aliasing”, porque no momento de recuperar o sinal original, aquele pedaço misturado (azul escuro) não tem mais “conserto”. • Quantização: é a discretização das amplitudes do sinal (o processo de amostragem

(18)

.

• A amostragem pode ser feita sem perdas. A quantização SEMPRE tem perdas. Os quantizadores podem ser uniformes ou não-uniformes (espaçamento entre níveis).

• Codificação: modificar as características do sinal para transmissão ou armazenamento de

dados. Basicamente é a forma de representação do sinal (em áudio temos as amostras quantizadas em bits).

(19)

• O sinal resultante do processo descrito acima, é o PCM (Pulse Code Modulation), uma sequencia de bits. Sinais de áudio do tipo AIFF, WAV ou AU usam este PCM. CD de áudio usa frequência de amostragem de 44,1 kHz e 16 bits por amostra (216_{níveis de}

quantização). Para áudio de baixa qualidade pode-se usar 22,5 ou 11,025 kHz (alguns gravadores de áudio usam taxas múltiplas de 8kHz);

• Para uma taxa de amostragem FA Hz e tamanho de amostra de B bits, cada segundo de

som ocupa 2FAB/8 bytes, considerando som estéreo (2 canais).

• Exemplo: Para qualidade de CD, FA = 44,1 kHz e tamanho de amostra de B=16 bits →

cada segundo ocupa 176.400 bytes, ou seja, 1 hora ocupa 635.040.000 bytes (capacidade de armazenamento de um CD).

• Reconstrução do sinal analógico: usando um filtro “passa-baixas” eliminam-se as frequências replicadas;

(20)

• o filtro passa baixas “cerca” o sinal (por isso que não dá pra desfazer o aliasing, quando ocorre o “overlapping” dos sinais.

• Um conversor D/A “reconstrói” o sinal analogicamente, contendo um erro de quantização que diminui a medida que aumentamos os níveis de quantização.

(21)

AULA 5: Música

A compressão de som sempre apresenta perdas, mas alguns métodos podem gerar perda quase nula:

• codificação RLE pode ser usada para amostras com amplitude abaixo de um limiar que pode ser considerado “silêncio”;

• compansão (utiliza quantização não-linear) é usada em compressão de voz. Em telefonia digital temos “Lei μ “ e “Lei A” para compansão (PCM);

• PCM Adaptativo (ADPCM) → armazena informações de diferença entre o valor real da amostra e um valor previsto. Comprime a cerca de 2:1;

• VOCODERS: algoritmos de codificação eficiente de voz conseguem taxas de compressão eficientes (principalmente quando trabalham com modelos de produção da fala);

• Já esquemas de codificação com perdas baseados em fenômenos psicoacústicos, possuem perdas mas fazem uma compressão perceptualmente sem perdas em sinais de áudio de alta fidelidade;

Características psicoacústicas do sistema auditivo humano:

• bandas críticas: o ouvido possui uma escala não linear de bandas de frequência;

• Mascaramento auditivo: se 2 sinais próximos em frequência, ocorrem simultaneamente, sendo um deles de alta intensidade e outro de baixa intensidade, se o sinal mais fraco estiver abaixo de um limiar (de mascaramento) ele se torna audível ( é mascarado pelo sinal de alta intensidade). O efeito se intensifica se os sinais estiverem dentro da mesma banda crítica;

• ou seja, um tom de nível mais alto mascara tons mais baixos de frequências próximas; • se a amplitude do sinal mais baixo estiver abaixo do limiar, este sinal se torna inaudível.

(22)

(23)

• sinais de áudio real são decompostos em “tons” mascarantes. O Limar de mascaramento global é calculado a partir de todos esses limiares individuais.

• Limiar de mascaramento → representa o ruido inaudível máximo em cada frequência.

(24)

• MP3 (MPEG-1 Audio Layer 3) → formato de codificação digital e compressão patenteado; • efetividade de compressão (em kbps – 128 kbps é a padrão), com redução de 90%

(10:1) a até 320kbps (qualidade máxima com redução de 25% ou 4:1)

• o método de compressão (com perdas) é baseado no mascaramento auditivo. • Codificador MP3 possui os seguintes elementos (o decodificador reverte as

operações):

• Rede de Mapeamento Tempo-Frequencia → decompõe o sinal de áudio em múltiplas sub-bandas. Esse mapeamento é feito em 3 camadas e o algoritmo da camada 3 é o mais refinado (e que dá nome ao MP3);

• Modelo psicoacústico: analisa o conteúdo espectral do sinal para calcular a relação sinal/ruído em cada sub-banda;

• quantizador-codificador: realiza alocação dinâmica de bits para minimizar o ruído de quantização;

• modelagem de quadro: empacotamento das amostras quantizadas no padrão MPEG-1.

• MPEG-2/AUDIO: para TV digital (5 canais de áudio). A camada I tem taxa de compressão

4:1 (384kbps), a camada II tem 8:1 (192kbps) e a camada III (MP3) tem 12:1 (128kbps). A qualidade subjetiva deste padrão é equivalente ao CD (PCM 16 bits);

• AAC (Advanced Audio Coding): compressão de áudio digital com perdas, concebido

para suceder ao MP3. Tem melhor qualidade que este nas mesmas taxas de bits. Foi padronizado pelo IEC e ISO (parte das especificações dos padrões MPEG-2 e MPEG-4).

• É o formato padrão para iPhone, iPod, iTunes, PS3, celulares Nseries, Wii.

• Possui mais frequências de amostragem (8Hz a 96kHz) do que o MP3 (16 a 48 kHz); suporta 48 canais de áudio (MP3 suporta 2 em modo MPEG-1 e 5.1 no modo MPEG-2);

• taxas de bits arbitrárias, frames de comprimento variável, e bancos de filtros mais eficientes (usa MDCT pura);

• tem mais eficiente na codificação de sinais estacionários e mais precisão na codificação de transitórios;

(25)

• o algoritmo AAC é baseado em 2 estratégias para reduzir a quantidade de dados: descartar componentes que são perceptivelmente irrelevantes e eliminação de redundância de sinal;

• O sinal é convertido do domínio do tempo para frequência (MDCT), quantizado e codificado com um modelo psicoacústico similar ao MP3, recebe códigos de correção de erros de bit;

• MPEG-2 Parte 7, publicado 1997, possui 3 perfis: Low Coimplexity (LC), mais amplamente suportado; Perfil Principal (Main), igual ao LC com adição de ferramenta de predição reversa e Scalable Sample rate (SRS); Estes 3 são combinados com uma ferramenta (Perceptual Noise Substitution) e fazem parte do MPEG-4 Audio;

• Em Dezembro de 2003 → Japão inicia transmissão de TV digital (padrão ISDB-T), implementa MPEG-2 e MPEG-2 AAC;

• Abril de 2006 → Japão começa a transmitir ISDB-T móvel (1a_{implementação do}

H.264/AVC vídeo com áudio HE-AAC);

• Dezembro de 2007 → Brasil inicia as transmissões de TV digital terrestre com o padrão ISDB-Tb (com vídeo H.264/AVC e áudio AAC-LC no programa principal e vídeo H.264/AVC com AAC HEv2-áudio no programa móvel);

• OGG-Vorbis: o formato Vorbis é open source, contem especificação de formato e

implementação de software (codec) para compressão de áudio (com perdas). Normalmente é usado com o contêiner Ogg, por isso é comum usar o termo Ogg-Vorbis. É usado em jogos (Halo, Guitar Hero), WebSites (Wikipedia) e outros lugares. A qualidade deste formato é boa (em baixas taxas de bits é melhor que WMA e AAC-LC e igual ao WMA profissional); em medias taxas consegue ser melhor que AAC, HE-AAC, MP3, WMA; e em altas taxas tem pouca diferença também;

• Síntese de som → primeiros sintetizadores eram analógicos. As principais técnicas de

síntese digital:

• Síntese FM: teclados mais antigos e placas de som;

• Síntese PCM: baseada na gravação de formas de onda de instrumentos reais,

(26)

• Sistemas MIDI: General MIDI ou GM (Musical Instrument Digital Interface) é uma especificação para sintetizadores que impõe vários requisitos para além da norma MIDI mais geral. Enquanto que a norma MIDI proporciona um protocolo de comunicações que assegura que diferentes instrumentos (ou componentes) possam interagir a um nível básico (por ex., tocando uma nota num teclado MIDI vai fazer com que um módulo de som reproduza uma nota musical), o General MIDI vai mais além de duas maneiras: ele requer que todos os instrumentos compatíveis com o GM tenham um mínimo de especificações (tais como pelo menos 24 notas de polifonia) e associa certas interpretações a vários parâmetros e mensagens de controlo que não tinham sido especificadas na norma MIDI (como a definição de sons de instrumentos para cada um dos 128 números dos programas).

(27)

AULA 6: Voz

• O trato vocal humano → modelado para levar em conta elementos de vibração (cordas vocais) e ressonância (cavidade nasal, oral, faringe).

• Faixa de frequências da voz → até 10kHz em media. Apresenta trechos quase periódicos e outros quase aleatórios.

Características do sinal de voz:

• Pitch → frequência fundamente ou frequência de vibração das cordas vocais;

• trechos quase periódicos apresentam maior taxa de correlação = redundância, logo pode ser comprimido.

• Trechos altamente aleatórios também podem ser comprimidos.

Amostragem para voz:

• Uso de filtro Passa Baixa (PB), para limitar a largura do sinal (telefonia é em torno de 4kHz);

• Quantização uniforme: pode ser usada, mas sinais de menores amplitudes sofrem mais os efeitos dos erros de quantização;

• Estatísticas mostram que a distribuição das amplitudes do sinal de voz são distribuídas de forma exponencial, com predominância de baixas amplitudes;

• Para os casos acima, recomenda-se o uso de quantização não-uniforme (na forma inversa, ou seja, com menores intervalos de quantização para baixas amplitudes e maiores intervalos para as maiores amplitudes). Isso deixa a relação sinal-ruído aproximadamente constante na faixa dinâmica do quantizador;

• Ou seja, na transmissão os sinais de pequena amplitude são mais amplificados que os de alta amplitude. Na recepção, o processo inverso é realizado.

(28)

(29)

• Leis de compressão:

μ=255

(EUA, Japão), A=87,6 (Europa e Brasil).

PCM → forma mais usada de codificação para sinais de voz (ITU-T G711).

• Sinal amostrado a 8kHz, quantização não-uniforme (com compressão segmentada – que uma “linearização por partes (segmentos)” das curvas de compressão) resultando em 8 bits por amostra;

(30)

Compressão de Voz:

•

Modulação Delta (DM): o sinal é amostrado a uma taxa muito superior a Frequência de

Nyquist (que seria a mínima) para aumentar a correlação entre amostras adjacentes do sinal. A DM é de simples construção (e faz aproximação por degrau do sinal amostrado). No receptor, o sinal é reconstruído com outro sistema simples e depois passa por um FPB com frequência de corte igual a máxima frequência do sinal original.

(31)

• outra melhoria no desempenho pode ser produzida com o uso de “predição linear” (tenta expressar o valor da amostra atual de um sinal através da combinação linear de amostras anteriores – neste caso só codifica e transmite o erro de predição).

• A ideia aqui é justamente aquele aumento de correlação entre amostras adjacentes quando a frequência de amostragem é superior a mínima (aumentando essa correlação, diminui a variância entre amostras adjacentes e isso gera redundância);

• a técnica de predição linear também permite “prever valores futuros” do sinal com base nas amostras passadas. Quando a predição é boa, é possível usar um quantizador com menor número de níveis de quantização (portanto, menos bits por símbolo).

• DPCM (Modulação por Código de Pulso Diferencial): a predição de valores futuros leva

a realização de uma quantização diferencial (a diferença entre o previsto e o real); • O receptor é um decodificador para reconstruir o erro de predição quantizado.

• DM → versão “1 bit” da DPCM e também está sujeita aos erros de sobrecarga de inclinação e quantização granular;

• ADPCM (Modulação por Código de Pulso Diferencial Adaptativa): utiliza quantização

adaptativa e predição adaptativa. Reduz o valor de 8 bits por amostra (PCM padrão) para 4 bits por amostra. Tem excelente desempenho e é regido pelas normas ITU-T G721 e G726;

Para reduzir ainda mais a taxa de bits, tem que usar codificadores como VOCODERS (RELP, SELP, VSELP), que são técnicas que só funcionam para VOZ, porque se baseiam em modelos de produção da fala humana;

(32)

Modelos de Produção da fala → modelos matemáticos complexos (onde é difícil estabelecer as

condições de contorno para realização da solução). Uma simplificação é o modelamento por analogia terminal, que “enxerga” a fala como a saída de um sistema linear. Aí tenta-se encontrar um modelo de sistema linear que produza a mesma saída. O modelo normalmente adotado é o fonte-filtro.

Vocoders comerciais usam modelos simplificados:

NOTA do Caropreso: Em geral, para se assumir que o comportamento seja “linear” deve-se

(33)

Tipos de Excitação de voz:

• Sonora (voiced): movimento periódico das cordas vocais. É matematicamente modelada

como um trem de pulsos;

• Surda (unvoiced): excitação turbulenta, semelhante a ruído (fluxo de ar em alguma

constrição do trato vocal). É matematicamente modelada como um ruído branco (usualmente um gerador de sinal aleatório);

Tipos de VOCODERS (mais comuns):

• LPC (Linear Predictive Coding): primeiro codificador paramétrico desenvolvido usando o

modelo fonte-filtro, a 1a_{versão comercial foi a LPC-10 (base para padrão FS-1015). A ideia}

é obter uma boa estimativa das características do sinal de fala (na forma de coeficientes). Aqui vale ressaltar que é necessário segmentos de tempo curto do sinal devido a característica não estacionaria deste (assim como eu coloquei na nota ali em cima);

• Determina-se os coeficientes de predição linear, valor de ganho e período de pitch para cada segmento → aí pode-se realizar a síntese do sinal de fala;

• com este sistema é possível codificar e transmitir o sinal a uma taxa muito inferior a do PCM (64kbps) ou ADPCM(32kbps).

• CELP (Code Excited Linear Prediction): algoritmo de codificação criação em 1985, com qualidade superior ao LPC. Junto com algumas variantes (ACELP, RCELP, LD-CELP e VSELP) é o mais usado comercialmente. Ele se baseia no modelo fonte-filtro com predição linear. Usa codebooks, um fixo e outro adaptativo (entrada do modelo LP) e aplica quantização vetorial aos sinais de excitação e aos coeficientes do filtro de predição linear.

• O decodificador CELP combina valores do codebook fixo (modela o ruído – excitação surda) e do adaptativo (modela o pitch - a excitação sonora). O codebook fixo é um dicionário de sinais quantizados vetorialmente. O codebook adaptativo consiste em versões com atraso da excitação.

• O codificador CELP trabalha com o princípio analise por síntese, composta dos seguintes processos:

• calcula os LPCs e efetua a quantização;

• busca o melhor codebook adaptativo (pitch) e seu índice é armazenado ou transmitido;

(34)

• busca o melhor codebook fixo (ruído) e seu índice é armazenado ou transmitido.

NOTA do Caropreso: Quantização vetorial (VQ), a não ser que esteja se referindo a um “tipo de

quantizador”, é apenas um método de clusterização. Você pega um grupo de pontos e separa eles em grupinhos e guarda um “vetor” que aponta para o centro de cada grupinho.

NOTA do Caropreso: Na descrição do codificador, quando o algoritmo vai escolher os melhores

codebooks, é bem provável que a “quantização vetorial” seja feita neste momento. Se for isso, ele simplesmente vai medir a “distância euclidiana” entre os índices calculados e vai escolher a mais “próxima”.

Aplicações do CELP: principal uso em GSM. Outro exemplo importante (algoritmo CS-CELP – norma ITU-T G.729) está em softwares de VoIP (Skype).

(35)

AULA 7: Vídeo

• Frame Rate: número de imagens por unidade de tempo (FPS);

• Humanos conseguem captar no máximo 60FPS. • Formato de Vídeo NTSC → 29,97 FPS;

• Formato de Vídeo PAL → 25 FPS;

• Resolução: quantidade de pixels em cada quadro de vídeo, no formato AxBpxR:

• A: número de colunas;

• B: Número de Linhas;

• R: número de quadros por segundo.

• Exemplo: HDTVs exibem 1920x1080p60

• Aspect Ratio: dimensões relativas dos objetos na tela.

• 4:3: TVs comuns;

• 16:9: formato “Wide Screen”;

• Bit Rate: número de bits necessários para representar um pixel do vídeo (somente vídeos

digitais). A unidade é bpp (Bit Per Pixel).

Formatos de vídeo:

• Analógico: forma de onda comum, resulta da varredura sequencial das linhas (quando

registra a intensidade e cor de cada pixel). As principais normas que regem este formato são:

• PAL/SECAM (Phase Alternating Line/Sequentiel Couleur avec Memoire): codifica vídeos de 625 linhas (49 de sincronização e 576 na tela), 25 FPS com aspect ratio de 4:3. As imagens são entrelaçadas (linhas impares e pares) com varredura de 50Hz (Europa – o Brasil adota o PAL-M, com 30FPS e 60Hz).

(36)

utiliza 525 linhas entrelaçadas, com 30FPS e 60Hz. Usa 8% das linhas para sincronismo, resultando numa resolução de 640x480 (usado nos EUA e Japão).

• Vídeo Digital: série de imagens digitais em sucessão a uma taxa constante. Se

popularizou e tem sido cada vez mais usado em função das melhorias nas técnicas de compressão e correção de erros (além do uso do PC e internet de banda larga).

• Vantagens: acesso direto a qualquer ponto do filme; edição de vídeo simplificada;

duplicação simples sem perda de qualidade; suporte a interatividade;

• Codec de Vídeo: dispositivo ou software responsável pela codificação e

decodificação do vídeo. Sua função é diminuir a quantidade de informação para armazenamento ou transmissão de um vídeo (o vídeo capturado por uma câmera não possui compactação). Assim deve-se assumir um compromisso entre

• a qualidade do vídeo;

• a quantidade de dados necessários para transmissão (bit rate); • complexidade dos algoritmos e

• a robustez contra perda de dados.

Princípios de Compressão de Vídeo: utiliza (quase sempre) a técnica da Subamostragem de

Crominância (YCbCr). A crominância é menos sensível ao olho humano, então normalmente a luminância é “preservada” e a crominância é reduzida. O esquema de subamostragem obedece a um padrão J:A:B, onde:

• J → referencia da amostragem horizontal (largura em pixels da região conceitual); • A → numero de amostras de crominância na primeira linha (de J pixels);

• B → numero de amostras de crominância na segunda linha (de J pixels);

A subamostragem de cores pode relacionar componentes de crominância e luminância de várias formas, sendo que os formatos mais comuns são conhecidos como 4:4:4, o 4:2:2 e o 4:2:0. O formato 4:4:4 considera que para cada quatro amostras de luminância, existem quatro amostras de crominância azul e quatro amostras de crominância vermelha. Como as três componentes apresentam a mesma resolução, nesse caso a subamostragem de cores não é empregada e não

(37)

existe perda na qualidade da imagem. Já no formato 4:2:2, para cada quatro amostras de Y, existem apenas duas amostras de Cb e duas amostras de Cr. Sendo assim, o tamanho total do vídeo é reduzido em 25% só pela subamostragem de cores, uma vez que metade das informações de crominância são descartadas. O formato 4:2:0 considera que para cada quatro amostras de Y, existe apenas uma amostra de Cb e uma amostra de Cr. Neste caso, apenas um quarto das amostras de crominância são utilizadas. Dessa forma, o tamanho total do vídeo é reduzido à metade só pela subamostragem de cores quando comparado com um vídeo RGB ou YCbCr no formato 4:4:4. Apesar da nomenclatura 4:2:0 não representar a relação lógica entre os componentes de cor, que seria 4:1:1, esta é utilizada por motivos históricos (AFONSO, 2012).

Formatos de subamostragem de crominância

• Norma CCIR 601 (ITU-R BT 601) define padrão de amostragem de vídeo digital cm 720m amostras de luminância 2 x 360 amostras de diferença de cores por linha (4:2:2).

• as componentes de Luma e Croma são formadas como uma soma ponderada de componentes R'G'B' ao invés de soma linear de componentes RGB:

• assim, Luma e Croma não não independentes uma da outra e há vazamento de informação entre os componentes. O erro é maior para cores com muita saturação (isso é feito porque facilita a implementação do sistema).

• Maioria dos codecs usa compressão espacial (intra-frame) e temporal (inter-frame) combinadas;

(38)

• Formato DV (fitas de vídeo digital) usa somente compressão espacial.

• A compactação temporal calcula a diferença entre os quadros (basicamente ele copia de um frame para o próximo as regiões que não mudaram – bit a bit – e armazena apenas o que muda de um frame para outro). A compressão interframes funciona bem para “assistir” mas não funciona para “editar” (por isso DV não a usa);

•

Formato MPEG-1: definida pela ISO/IEC 11172-2. suporta resolução de 4095x4095 (12

bits) e bitrate de 100Mbit/s;

•

Formato MPEG-2: formato de TV digital, DVDs, definida pela norma ISO/IEC 13818;

•

Formato MPEG-4 AVC: bastante usado para gravação, compressão e distribuição de

vídeos de alta definição. Regido pelas normas ITU-T H.264 e ISO/IEC MPEG-4 AVC ( ISO/IEC 14496-10 – MPEG-4Part 10, Advanced Vídeo Coding). Usado em Blu-Ray Discs.

(39)

REFERENCIAS: