Tecnologias Multimídia
(Prof. Francisco J. Fraga)
Anotações de aula:
Rodrigo T. Caropreso
Sumário
AULA 1: Introdução...3
AULA 2: Conceitos Básicos...5
AULA 3: Imagens...9
AULA 4: Áudio...12
AULA 5: Música...21
AULA 6: Voz...27
AULA 1: Introdução
Analógico: Grandezas contínuas
Digital: grandezas discretas, codificadas em bits/bytes.
Bit: binary digit, byte=8 bits, soma de bits, etc.
Padrões: ASCII (7 bits), ISO 8859-1, Unicode (UTF, UTF-7 – 7 bits, UTF-8 – 8 bits, UTF-16 – 16 bits).
Digitalizar: conversão da informação analógica em valores binários, através de amostragem (tempo discreto) e quantização (amplitude discreta). A digitalização é útil para processamento e armazenamento dos sinais (que depois podem ser recuperados).
Evolução da Comunicação Homem Máquina: • Ambientes orientados a texto:
• Linhas de Comando: originados das máquinas de escrever, com linhas de 40 a 80 caracteres (colunas), por exemplo o prompt de comando do Windows;
• Telas: processadores de texto com IDEs e planilhas eletrônicas, com 1000 a 3000 caracteres, permitindo manipulação de textos (mas não gráficos).
• Ambientes orientados a ponto: foco em pixels, com telas gráficas com altas resoluções (milhares, milhões de pontos – 800x600; 1024x768), basicamente o padrão atual;
• Ambientes Multimídia: focados no uso de animação 24 (cinema) ou 30 (TV) quadros por segundo, as vezes menos em função da necessidade de cada caso. Também entra nessa categoria o áudio (radio pela internet ou voz sobre IP, por exemplo).
AULA 2: Conceitos Básicos
•
Pixel: picture element, é o menor elemento de informação de uma imagem, formado porpontos (pequenos retângulos)
•
Resolução espacial: quantidade de pixels usados em uma imagem (quanto maior,melhor). Pode ser expressa como um único numero (7 megapixels) ou um par de resoluções (640 colunas - largura x480 linhas - altura )
Uso errado: o termo megapixel as vezes é usado para identificar os elementos sensores de uma câmera (o correto é “sensels”).
A medida de proximidade entre as linhas faz parte da resolução espacial e é designada por pixels por polegada (ppi). Para alguns dispositivos como scanners, existe a resolução óptica para identificar a resolução real dos pontos por polegada.
Resolução do olho humano: 3000 x 3000 pixels (PC: 1280 x 1024 pixels, para comparar)
Representação de cores: cada pixel carrega uma quantidade de bits, dependendo do sistema de representação de cores.
•
RGB: combinação linear de Vermelho-Verde-Azul (RGB). As cores são os vértices de umcubo;
• Preto(0, 0, 0); • Azul(0, 0, 1);
• Branco(1, 1, 1); • Amarelo(1,1,0);
• Vermelho(1, 0, 0); • Ciano(0,1,1);
Como o modelo RGB é aditivo (soma de cores) é adequado em monitores (que possuem canhões de luz, um para cada cor, que se combinam na tela).
•
CMY (Ciano, Magenta, Yellow): outro sistema de cores. As cores CMY sãocomplementares das cores primarias do RGB (veja na figura acima) e a soma de uma cor com sua complementar é branco. Este sistema é subtrativo, usado em impressões (por exemplo, a cor ciano é resultado da soma de verde e azul, mas também pode ser visto como Branco menos o Vermelho, por isso se diz que o ciano REFLETE o vermelho – ele joga fora o vermelho e sobra o ciano). O Magenta reflete o verde e o Amarelo reflete o azul (isso tudo pode ser visto na figura acima).
Neste sistema não é possível obter o preto apenas combinando as cores, então utiliza-se um conjunto de pigmentos pretos, formando a representação CMYK.
•
HLS (Hue, Luminance Saturation): os sistemas RGB e CMYK não são muito “intuitivos”(se baseiam na emissão/absorção de luz). A luz possui as seguintes propriedades:
•
Luminância: intensidade ou amplitude da onda de luz (preto tem luminância zero);•
Saturação: proporção de quantidade de cor em relação a uma cor cinza média(saturação zero);
•
Matiz (hue): mede a frequência dominante da onda luminosa (portanto tem relaçãocom as cores).
•
YCbCr: família de “espaços de cor” usados em representações de cores em sistemas devídeo ou fotos digitais. É uma forma de codificação de informações RGB (RGB não é muito eficiente, o YCbCR é uma aproximação mais prática – cabo de vídeo componente).
•
Y': componente de luma (não é luminância), a intensidade da luz é codificada deforma não linear;
•
Cb: diferença de croma (crominância) azul;•
Cr: diferença de croma vermelho.Humanos → mais sensíveis a Luma do que a Croma. Sendo assim, o sinal Y' tem maior resolução (largura de banda) na transmissão do que os outros parâmetros.
Codificação de Cores (Quantização): 8 bits para luminância.
• Sistemas True Color: 256 níveis para cada cor primária ( mais de 16 milhões de cores).
Possui bastante redundância (olho humano distingue centenas de milhares de cores); • VGA: alternativa mais barata, com 6 bits por cor (262.144 cores). O olho humano percebe
menos o azul do que as outras cores, então pode-se usar codificações assimétricas; • Conceito de Paleta: tabela predefinida. O valor do pixel não vai pra tela, vai para a tabela.
• Paleta otimizada (VGA): ao invés do sistema ter uma paleta definida, cada imagem tem
o quantidade de cores simultâneas (presentes na mesma imagem) é limitada pelo tamanho da paleta.
• Dithering: Para dar a ilusão de “gradação de cores” (uma vez que imagens não são
realistas), usa-se o dithering, alternando as cores entre pixels próximos, enganando a visão.
• Transparência: em sistemas de 16 bits temos 5 bits por cor + 1 para transparência
(transparente ou opaco). Em sistemas de 32 bits temos 8 bits por cor + 8 bits de transparência (canal alfa com 256 níveis de transparência).
AULA 3: Imagens
Por que comprimir? Porque há muita redundância de dados (ex: RGB True Color com canal alfa de 640 x 480 = 640 * 480 * 4 bytes = 1.228.800 bytes).
Tipos:
• Lossless (sem perdas): qualidade mantida, reversível. Métodos associados:
• Run-Length-Encoding (RLE): usada em formatos PCX, BMP, TIFF, comprime longas sequencias de bits repetidos, muito útil em imagens monocromáticas (onde cada byte codifica alternadamente os tamanhos das sequencias de pixels brancos “1” e pretos “0”, p. Ex: 00 15 21 08 … (0 brancos, 15 pretos, 21 brancos, 08 pretos, …). Para tons de cinza, usa-se o byte 255 indicando repetição (186 187 255 12 188 …) = 1 tom 186, 1 tom 187, 12 tons 188, etc. As imagens coloridas seguem o mesmo padrão para tons de cinza, porém usando codificação RGB;
• Dicionários adaptativos, usado em formatos GIF e TIFF. Algoritmo famoso = LZW (Lempel-Ziv-Welch), aprimoramento do LZ78. De modo geral, são armazenadas em dicionario as sequencias de pixels com as posições codificadas. Necessita de bastante memória e podem ser usadas técnicas como “Congelamento” (após atingir um tamanho máximo o dicionário não aceita novas entradas) ou Esvaziamento (dicionário é esvaziado e a compressão começa de novo);
• Deflação, usado em PNG e TIFF, combina o algoritmo LZ77 (dicionário) e Código de Huffman (entropia). É um tipo de “zip” (pixels repetidos são tratados pelo LZ77 e depois usa Huffman para codificar os símbolos).
Formatos de Imagens:
• Bitmap (BMP): padrão no Windows, pode ser comprimido ou não comprimido, possui as seguintes partes principais:
• Cabeçalho BMP (Header): informações gerais (S.O, tamanho do arquivo);
e altura em pixels, No de cores e bits por pixel,. Resolução);
• Paleta de Cores: contém definições de cores usadas para indexar os bitmaps; • Dados bitmap: armazena a imagem, pixel a pixel.
• Personal Computer Exchange (PCX): desenvolvido pela Zsoft, nativo do Paintbrush, atualmente substituído pelo GIF e PNG. Ele codifica as linhas da imagem de forma independente do hardware. As paletas variam entre 16 e 256 cores (posteriormente foi estendido para true color 24 bits), utiliza compressão RLE;
• Tagged Image File Format (TIFF): criado pela Aldus (Adobe) para editoração eletrônica. Trata imagens e dados no mesmo arquivo, incluindo no cabeçalho (tamanho, definição e tipo de compressão) a geometria da imagem. Usado em imagens de fax, processamento de textos, OCR, documentos científicos, etc. Usa compressão LZW;
• Graphics Interchange Format ( GIF): baseado em Bitmap, introduzido pela Compuserve e muito usado na Internet. Suporta 8 bits por pixel, com paleta de até 256 cores escolhidas no RGB de 24 bits. Também suporta animações (cabeçalho comum seguido por uma série de quadros de imagem). Não é bom para fotos (devido as limitações de cores), mas é bom para logotipos e gráficos com cores sólidas, usa a compressão LZW.
• PNG: criado para substituir o GIF, suporta sistema de cores em paleta RGB de 24 bits, tons de cinza ou RGBA. Projetado para transferir imagens na internet.
• Compressão com Perdas: princípio básico é remover detalhes que a visão humana não percebe. A taxa de perda é fixada na compressão. Utiliza transformações matemáticas de blocos da imagem (espectro bidimensional, correspondente a uma matriz de distribuição de energia). Os coeficientes da Matriz são então quantizados (truncados), e depois codificados por outro algoritmo sem perda (sem geral os coeficientes nulos são descartados). A transformação mais comum é a DCT.
• Joint Photographic Experts Group (JPEG): comissão formada em 1982 (ISO/IEC JTC1 e ITU-T). Formato mais usado para imagens fotográficas, permite ajuste no grau de compressão. O princípio básico é que informações de “Alta frequência espacial” podem ser descartadas na imagem sem perda perceptível de qualidade
(as pessoas não percebem esses detalhes). A DCT é aplicada em blocos de 8x8 pixels. Os coeficientes nulos são codificados via RLE em zigue-zague (maximiza a sequencia de pixels). Os coeficientes não nulos são codificados por Huffman. Se a taxa de compressão for muito alta (qualidade baixa) podem aparecer artefatos na imagem (embaçamento e arestas visíveis nos blocos)
• JPEG 2000: melhora o JPEG em alguns aspectos (qualidade em altas taxas de compressão), utiliza blocos de tamanhos variáveis e Transformada Wavelet Discreta (DWT), correspondente a uma imagem em baixa resolução e coeficientes de detalhe que adicionam progressivamente mais detalhes à imagem (que podem ser quantizados e depois comprimidos sem perdas).
AULA 4: Áudio
Vibração e Percepção das Ondas Sonoras → o som possuiu movimento ondulatório tridimensional e longitudinal. As ondas podem ser:
• Progressivas (o movimento de todas as partículas tem a mesma amplitude);
• Estacionárias: quando a onda bate e volta formando ventres e nós (pontos onde as ondas se anulam).
• Senoidais simples;
• Complexas (combinação de diversas senoides); • Periódicas ou Aperiódicas.
Parâmetros de um sinal de onda:
• Frequência: numero de ciclos por segundo.
• Período: intervalo de tempo para 1 ciclo (portanto, o inverso da frequência) • Frequência angular: radianos/segundo ou 2 π f ;
• Fase inicial: deslocamento em graus, a partir de uma referencia arbitrária;
• Amplitude: medida do deslocamento da partícula em relação a posição de equilíbrio;
• Comprimento de onda: espaço entre 2 pontos que possuem a mesma amplitude, dado por
λ=
v / f
, onde v é a velocidade da onda (o caso, velocidade do som).Parâmetros qualitativos da onda sonora:
• Altura: permite classificar em graves (menor frequência) ou agudos (maior frequência); • Intensidade: permite classificar em forte ou fraco, tem relação com a amplitude (o volume
do radio). Relaciona-se com a pressão efetiva gerada por ondas planas e ondas esféricas,
dada por:
I =
P
e2
ρ
0c
, onde Pe = pressão efetiva,ρ
0 =densidade de fluxo e c -= velocidade de fase.• Intensidade sonora: quantidade de energia transmitida por segundo em uma área de 1 metro quadrado, dada em W/m2;
• Pressão Sonora: força exercida pelas moléculas de ar sobre uma superfície na qual incidem, dada por N/m2 .
• Níveis de Audição: é dado através de uma escala logarítmica (porque nosso ouvido é assim). A unidade usada pé o bel, sendo que a escala é dada em decibéis (dB), cuja definição é:
x decibels=10⋅log
G
G
ref , onde G e Gref são 2 grandezas quaisquerPara intensidade temos:
NIS =10 log
I
I
ref →NPS=10 log
(
P
e 2P
ref)
=20 log
P
eP
ref sendo Pref uma pressão de referencia de20 μ Pa
.Para seres humanos, foi criada uma escala em que 0dB corresponde a menor intensidade ou pressão sonora por frequência ouvida pela maioria da população.
Representação digital do som → conversão da forma de onda analógica de um sinal sonoro em um formato digitalizado. Este processo é feito em 3 etapas principais:
• Amostragem: é a captura de “valores” da forma de onda em intervalos de tempo bem
(FA) e o período de amostragem é dado por: TA=1/ FA . Logo, um sinal amostrado é uma sequencia de valores (um sinal discreto).
• Frequência de Nyquist (1928): é a frequência mínima que um sinal de amostragem deve
possuir a fim de que as informações do sinal original não sejam perdidos durante o processo de discretização do sinal. Esta frequência tem que ser (no mínimo) o dobro da maior frequência do sinal a ser discretizado (se for menor do que FNYQUIST ocorre o efeito de
“aliasing”).
• Série de Fourier: é uma série matemática cujos termos são funções trigonométricas (seno
e coseno). Uma função periódica pode ser aproximada por uma série de somas de senos e cosenos. Isto é usado na construção de sinais digitais.
Figura 1 - 4 Primeiros Termos da Série de Fourier
• Exemplo : Telefonia → Frequência de amostragem usada é de 8KHz. Portanto, a máxima frequência do sinal que pode ser amostrado é de 4KHz (aí um filtro corta das demais frequências do sinal de voz acima de 4KHz). Por isso que a voz das pessoas no telefone é semelhante e esquisita (as frequências acima de 4KHz foram omitidas).
• Aliasing: a amostragem replica as frequências (no Domínio da Transformada de Fourier) e
1. Sinal analógico (esquerda). Ao aplicar a Transformada de Fourier (que não é a Série de Fourier, é uma integral), o sinal passa a ser representado no Domínio da Frequência de Fourier (direita).
2. Sinal de amostragem no domínio do Tempo (esquerda) e no Domínio da Transformada de Fourier (direita). É basicamente o mesmo trem de pulsos, porém “afastados” uns dos outros.
3. Amostragem: a amostragem no domínio do tempo (esquerda) é o processo de “multiplicar” o sinal de amostragem pelo sinal analógico. Isso corresponde a fazer uma “convolução” no domínio de Fourier. A convolução é uma integral muito doida, mas, na prática, isso corresponde a “copiar” o espectro do sinal em torno de cada pulso (é assim, justamente porque um dos sinais é um pulso). Resulta na figura da esquerda.
4. Aliasing: se os pulsos do item 3 não estiverem afastados segundo o critério de Nyquist, as cópias do sinal se “misturam” como na figura acima. É o “aliasing”, porque no momento de recuperar o sinal original, aquele pedaço misturado (azul escuro) não tem mais “conserto”. • Quantização: é a discretização das amplitudes do sinal (o processo de amostragem
.
• A amostragem pode ser feita sem perdas. A quantização SEMPRE tem perdas. Os quantizadores podem ser uniformes ou não-uniformes (espaçamento entre níveis).
• Codificação: modificar as características do sinal para transmissão ou armazenamento de
dados. Basicamente é a forma de representação do sinal (em áudio temos as amostras quantizadas em bits).
• O sinal resultante do processo descrito acima, é o PCM (Pulse Code Modulation), uma sequencia de bits. Sinais de áudio do tipo AIFF, WAV ou AU usam este PCM. CD de áudio usa frequência de amostragem de 44,1 kHz e 16 bits por amostra (216 níveis de
quantização). Para áudio de baixa qualidade pode-se usar 22,5 ou 11,025 kHz (alguns gravadores de áudio usam taxas múltiplas de 8kHz);
• Para uma taxa de amostragem FA Hz e tamanho de amostra de B bits, cada segundo de
som ocupa 2FAB/8 bytes, considerando som estéreo (2 canais).
• Exemplo: Para qualidade de CD, FA = 44,1 kHz e tamanho de amostra de B=16 bits →
cada segundo ocupa 176.400 bytes, ou seja, 1 hora ocupa 635.040.000 bytes (capacidade de armazenamento de um CD).
• Reconstrução do sinal analógico: usando um filtro “passa-baixas” eliminam-se as frequências replicadas;
• o filtro passa baixas “cerca” o sinal (por isso que não dá pra desfazer o aliasing, quando ocorre o “overlapping” dos sinais.
• Um conversor D/A “reconstrói” o sinal analogicamente, contendo um erro de quantização que diminui a medida que aumentamos os níveis de quantização.
AULA 5: Música
A compressão de som sempre apresenta perdas, mas alguns métodos podem gerar perda quase nula:
• codificação RLE pode ser usada para amostras com amplitude abaixo de um limiar que pode ser considerado “silêncio”;
• compansão (utiliza quantização não-linear) é usada em compressão de voz. Em telefonia digital temos “Lei μ “ e “Lei A” para compansão (PCM);
• PCM Adaptativo (ADPCM) → armazena informações de diferença entre o valor real da amostra e um valor previsto. Comprime a cerca de 2:1;
• VOCODERS: algoritmos de codificação eficiente de voz conseguem taxas de compressão eficientes (principalmente quando trabalham com modelos de produção da fala);
• Já esquemas de codificação com perdas baseados em fenômenos psicoacústicos, possuem perdas mas fazem uma compressão perceptualmente sem perdas em sinais de áudio de alta fidelidade;
Características psicoacústicas do sistema auditivo humano:
• bandas críticas: o ouvido possui uma escala não linear de bandas de frequência;
• Mascaramento auditivo: se 2 sinais próximos em frequência, ocorrem simultaneamente, sendo um deles de alta intensidade e outro de baixa intensidade, se o sinal mais fraco estiver abaixo de um limiar (de mascaramento) ele se torna audível ( é mascarado pelo sinal de alta intensidade). O efeito se intensifica se os sinais estiverem dentro da mesma banda crítica;
• ou seja, um tom de nível mais alto mascara tons mais baixos de frequências próximas; • se a amplitude do sinal mais baixo estiver abaixo do limiar, este sinal se torna inaudível.
• sinais de áudio real são decompostos em “tons” mascarantes. O Limar de mascaramento global é calculado a partir de todos esses limiares individuais.
• Limiar de mascaramento → representa o ruido inaudível máximo em cada frequência.
• MP3 (MPEG-1 Audio Layer 3) → formato de codificação digital e compressão patenteado; • efetividade de compressão (em kbps – 128 kbps é a padrão), com redução de 90%
(10:1) a até 320kbps (qualidade máxima com redução de 25% ou 4:1)
• o método de compressão (com perdas) é baseado no mascaramento auditivo. • Codificador MP3 possui os seguintes elementos (o decodificador reverte as
operações):
• Rede de Mapeamento Tempo-Frequencia → decompõe o sinal de áudio em múltiplas sub-bandas. Esse mapeamento é feito em 3 camadas e o algoritmo da camada 3 é o mais refinado (e que dá nome ao MP3);
• Modelo psicoacústico: analisa o conteúdo espectral do sinal para calcular a relação sinal/ruído em cada sub-banda;
• quantizador-codificador: realiza alocação dinâmica de bits para minimizar o ruído de quantização;
• modelagem de quadro: empacotamento das amostras quantizadas no padrão MPEG-1.
• MPEG-2/AUDIO: para TV digital (5 canais de áudio). A camada I tem taxa de compressão
4:1 (384kbps), a camada II tem 8:1 (192kbps) e a camada III (MP3) tem 12:1 (128kbps). A qualidade subjetiva deste padrão é equivalente ao CD (PCM 16 bits);
• AAC (Advanced Audio Coding): compressão de áudio digital com perdas, concebido
para suceder ao MP3. Tem melhor qualidade que este nas mesmas taxas de bits. Foi padronizado pelo IEC e ISO (parte das especificações dos padrões MPEG-2 e MPEG-4).
• É o formato padrão para iPhone, iPod, iTunes, PS3, celulares Nseries, Wii.
• Possui mais frequências de amostragem (8Hz a 96kHz) do que o MP3 (16 a 48 kHz); suporta 48 canais de áudio (MP3 suporta 2 em modo MPEG-1 e 5.1 no modo MPEG-2);
• taxas de bits arbitrárias, frames de comprimento variável, e bancos de filtros mais eficientes (usa MDCT pura);
• tem mais eficiente na codificação de sinais estacionários e mais precisão na codificação de transitórios;
• o algoritmo AAC é baseado em 2 estratégias para reduzir a quantidade de dados: descartar componentes que são perceptivelmente irrelevantes e eliminação de redundância de sinal;
• O sinal é convertido do domínio do tempo para frequência (MDCT), quantizado e codificado com um modelo psicoacústico similar ao MP3, recebe códigos de correção de erros de bit;
• MPEG-2 Parte 7, publicado 1997, possui 3 perfis: Low Coimplexity (LC), mais amplamente suportado; Perfil Principal (Main), igual ao LC com adição de ferramenta de predição reversa e Scalable Sample rate (SRS); Estes 3 são combinados com uma ferramenta (Perceptual Noise Substitution) e fazem parte do MPEG-4 Audio;
• Em Dezembro de 2003 → Japão inicia transmissão de TV digital (padrão ISDB-T), implementa MPEG-2 e MPEG-2 AAC;
• Abril de 2006 → Japão começa a transmitir ISDB-T móvel (1a implementação do
H.264/AVC vídeo com áudio HE-AAC);
• Dezembro de 2007 → Brasil inicia as transmissões de TV digital terrestre com o padrão ISDB-Tb (com vídeo H.264/AVC e áudio AAC-LC no programa principal e vídeo H.264/AVC com AAC HEv2-áudio no programa móvel);
• OGG-Vorbis: o formato Vorbis é open source, contem especificação de formato e
implementação de software (codec) para compressão de áudio (com perdas). Normalmente é usado com o contêiner Ogg, por isso é comum usar o termo Ogg-Vorbis. É usado em jogos (Halo, Guitar Hero), WebSites (Wikipedia) e outros lugares. A qualidade deste formato é boa (em baixas taxas de bits é melhor que WMA e AAC-LC e igual ao WMA profissional); em medias taxas consegue ser melhor que AAC, HE-AAC, MP3, WMA; e em altas taxas tem pouca diferença também;
• Síntese de som → primeiros sintetizadores eram analógicos. As principais técnicas de
síntese digital:
• Síntese FM: teclados mais antigos e placas de som;
• Síntese PCM: baseada na gravação de formas de onda de instrumentos reais,
• Sistemas MIDI: General MIDI ou GM (Musical Instrument Digital Interface) é uma especificação para sintetizadores que impõe vários requisitos para além da norma MIDI mais geral. Enquanto que a norma MIDI proporciona um protocolo de comunicações que assegura que diferentes instrumentos (ou componentes) possam interagir a um nível básico (por ex., tocando uma nota num teclado MIDI vai fazer com que um módulo de som reproduza uma nota musical), o General MIDI vai mais além de duas maneiras: ele requer que todos os instrumentos compatíveis com o GM tenham um mínimo de especificações (tais como pelo menos 24 notas de polifonia) e associa certas interpretações a vários parâmetros e mensagens de controlo que não tinham sido especificadas na norma MIDI (como a definição de sons de instrumentos para cada um dos 128 números dos programas).
AULA 6: Voz
• O trato vocal humano → modelado para levar em conta elementos de vibração (cordas vocais) e ressonância (cavidade nasal, oral, faringe).
• Faixa de frequências da voz → até 10kHz em media. Apresenta trechos quase periódicos e outros quase aleatórios.
Características do sinal de voz:
• Pitch → frequência fundamente ou frequência de vibração das cordas vocais;
• trechos quase periódicos apresentam maior taxa de correlação = redundância, logo pode ser comprimido.
• Trechos altamente aleatórios também podem ser comprimidos.
Amostragem para voz:
• Uso de filtro Passa Baixa (PB), para limitar a largura do sinal (telefonia é em torno de 4kHz);
• Quantização uniforme: pode ser usada, mas sinais de menores amplitudes sofrem mais os efeitos dos erros de quantização;
• Estatísticas mostram que a distribuição das amplitudes do sinal de voz são distribuídas de forma exponencial, com predominância de baixas amplitudes;
• Para os casos acima, recomenda-se o uso de quantização não-uniforme (na forma inversa, ou seja, com menores intervalos de quantização para baixas amplitudes e maiores intervalos para as maiores amplitudes). Isso deixa a relação sinal-ruído aproximadamente constante na faixa dinâmica do quantizador;
• Ou seja, na transmissão os sinais de pequena amplitude são mais amplificados que os de alta amplitude. Na recepção, o processo inverso é realizado.
• Leis de compressão:
μ=255
(EUA, Japão), A=87,6 (Europa e Brasil).PCM → forma mais usada de codificação para sinais de voz (ITU-T G711).
• Sinal amostrado a 8kHz, quantização não-uniforme (com compressão segmentada – que uma “linearização por partes (segmentos)” das curvas de compressão) resultando em 8 bits por amostra;
Compressão de Voz:
•
Modulação Delta (DM): o sinal é amostrado a uma taxa muito superior a Frequência deNyquist (que seria a mínima) para aumentar a correlação entre amostras adjacentes do sinal. A DM é de simples construção (e faz aproximação por degrau do sinal amostrado). No receptor, o sinal é reconstruído com outro sistema simples e depois passa por um FPB com frequência de corte igual a máxima frequência do sinal original.
• outra melhoria no desempenho pode ser produzida com o uso de “predição linear” (tenta expressar o valor da amostra atual de um sinal através da combinação linear de amostras anteriores – neste caso só codifica e transmite o erro de predição).
• A ideia aqui é justamente aquele aumento de correlação entre amostras adjacentes quando a frequência de amostragem é superior a mínima (aumentando essa correlação, diminui a variância entre amostras adjacentes e isso gera redundância);
• a técnica de predição linear também permite “prever valores futuros” do sinal com base nas amostras passadas. Quando a predição é boa, é possível usar um quantizador com menor número de níveis de quantização (portanto, menos bits por símbolo).
• DPCM (Modulação por Código de Pulso Diferencial): a predição de valores futuros leva
a realização de uma quantização diferencial (a diferença entre o previsto e o real); • O receptor é um decodificador para reconstruir o erro de predição quantizado.
• DM → versão “1 bit” da DPCM e também está sujeita aos erros de sobrecarga de inclinação e quantização granular;
• ADPCM (Modulação por Código de Pulso Diferencial Adaptativa): utiliza quantização
adaptativa e predição adaptativa. Reduz o valor de 8 bits por amostra (PCM padrão) para 4 bits por amostra. Tem excelente desempenho e é regido pelas normas ITU-T G721 e G726;
Para reduzir ainda mais a taxa de bits, tem que usar codificadores como VOCODERS (RELP, SELP, VSELP), que são técnicas que só funcionam para VOZ, porque se baseiam em modelos de produção da fala humana;
Modelos de Produção da fala → modelos matemáticos complexos (onde é difícil estabelecer as
condições de contorno para realização da solução). Uma simplificação é o modelamento por analogia terminal, que “enxerga” a fala como a saída de um sistema linear. Aí tenta-se encontrar um modelo de sistema linear que produza a mesma saída. O modelo normalmente adotado é o fonte-filtro.
Vocoders comerciais usam modelos simplificados:
NOTA do Caropreso: Em geral, para se assumir que o comportamento seja “linear” deve-se
Tipos de Excitação de voz:
• Sonora (voiced): movimento periódico das cordas vocais. É matematicamente modelada
como um trem de pulsos;
• Surda (unvoiced): excitação turbulenta, semelhante a ruído (fluxo de ar em alguma
constrição do trato vocal). É matematicamente modelada como um ruído branco (usualmente um gerador de sinal aleatório);
Tipos de VOCODERS (mais comuns):
• LPC (Linear Predictive Coding): primeiro codificador paramétrico desenvolvido usando o
modelo fonte-filtro, a 1a versão comercial foi a LPC-10 (base para padrão FS-1015). A ideia
é obter uma boa estimativa das características do sinal de fala (na forma de coeficientes). Aqui vale ressaltar que é necessário segmentos de tempo curto do sinal devido a característica não estacionaria deste (assim como eu coloquei na nota ali em cima);
• Determina-se os coeficientes de predição linear, valor de ganho e período de pitch para cada segmento → aí pode-se realizar a síntese do sinal de fala;
• com este sistema é possível codificar e transmitir o sinal a uma taxa muito inferior a do PCM (64kbps) ou ADPCM(32kbps).
• CELP (Code Excited Linear Prediction): algoritmo de codificação criação em 1985, com qualidade superior ao LPC. Junto com algumas variantes (ACELP, RCELP, LD-CELP e VSELP) é o mais usado comercialmente. Ele se baseia no modelo fonte-filtro com predição linear. Usa codebooks, um fixo e outro adaptativo (entrada do modelo LP) e aplica quantização vetorial aos sinais de excitação e aos coeficientes do filtro de predição linear.
• O decodificador CELP combina valores do codebook fixo (modela o ruído – excitação surda) e do adaptativo (modela o pitch - a excitação sonora). O codebook fixo é um dicionário de sinais quantizados vetorialmente. O codebook adaptativo consiste em versões com atraso da excitação.
• O codificador CELP trabalha com o princípio analise por síntese, composta dos seguintes processos:
• calcula os LPCs e efetua a quantização;
• busca o melhor codebook adaptativo (pitch) e seu índice é armazenado ou transmitido;
• busca o melhor codebook fixo (ruído) e seu índice é armazenado ou transmitido.
NOTA do Caropreso: Quantização vetorial (VQ), a não ser que esteja se referindo a um “tipo de
quantizador”, é apenas um método de clusterização. Você pega um grupo de pontos e separa eles em grupinhos e guarda um “vetor” que aponta para o centro de cada grupinho.
NOTA do Caropreso: Na descrição do codificador, quando o algoritmo vai escolher os melhores
codebooks, é bem provável que a “quantização vetorial” seja feita neste momento. Se for isso, ele simplesmente vai medir a “distância euclidiana” entre os índices calculados e vai escolher a mais “próxima”.
Aplicações do CELP: principal uso em GSM. Outro exemplo importante (algoritmo CS-CELP – norma ITU-T G.729) está em softwares de VoIP (Skype).
AULA 7: Vídeo
• Frame Rate: número de imagens por unidade de tempo (FPS);
• Humanos conseguem captar no máximo 60FPS. • Formato de Vídeo NTSC → 29,97 FPS;
• Formato de Vídeo PAL → 25 FPS;
• Resolução: quantidade de pixels em cada quadro de vídeo, no formato AxBpxR:
• A: número de colunas;
• B: Número de Linhas;
• R: número de quadros por segundo.
• Exemplo: HDTVs exibem 1920x1080p60
• Aspect Ratio: dimensões relativas dos objetos na tela.
• 4:3: TVs comuns;
• 16:9: formato “Wide Screen”;
• Bit Rate: número de bits necessários para representar um pixel do vídeo (somente vídeos
digitais). A unidade é bpp (Bit Per Pixel).
Formatos de vídeo:
• Analógico: forma de onda comum, resulta da varredura sequencial das linhas (quando
registra a intensidade e cor de cada pixel). As principais normas que regem este formato são:
• PAL/SECAM (Phase Alternating Line/Sequentiel Couleur avec Memoire): codifica vídeos de 625 linhas (49 de sincronização e 576 na tela), 25 FPS com aspect ratio de 4:3. As imagens são entrelaçadas (linhas impares e pares) com varredura de 50Hz (Europa – o Brasil adota o PAL-M, com 30FPS e 60Hz).
utiliza 525 linhas entrelaçadas, com 30FPS e 60Hz. Usa 8% das linhas para sincronismo, resultando numa resolução de 640x480 (usado nos EUA e Japão).
• Vídeo Digital: série de imagens digitais em sucessão a uma taxa constante. Se
popularizou e tem sido cada vez mais usado em função das melhorias nas técnicas de compressão e correção de erros (além do uso do PC e internet de banda larga).
• Vantagens: acesso direto a qualquer ponto do filme; edição de vídeo simplificada;
duplicação simples sem perda de qualidade; suporte a interatividade;
• Codec de Vídeo: dispositivo ou software responsável pela codificação e
decodificação do vídeo. Sua função é diminuir a quantidade de informação para armazenamento ou transmissão de um vídeo (o vídeo capturado por uma câmera não possui compactação). Assim deve-se assumir um compromisso entre
• a qualidade do vídeo;
• a quantidade de dados necessários para transmissão (bit rate); • complexidade dos algoritmos e
• a robustez contra perda de dados.
Princípios de Compressão de Vídeo: utiliza (quase sempre) a técnica da Subamostragem de
Crominância (YCbCr). A crominância é menos sensível ao olho humano, então normalmente a luminância é “preservada” e a crominância é reduzida. O esquema de subamostragem obedece a um padrão J:A:B, onde:
• J → referencia da amostragem horizontal (largura em pixels da região conceitual); • A → numero de amostras de crominância na primeira linha (de J pixels);
• B → numero de amostras de crominância na segunda linha (de J pixels);
A subamostragem de cores pode relacionar componentes de crominância e luminância de várias formas, sendo que os formatos mais comuns são conhecidos como 4:4:4, o 4:2:2 e o 4:2:0. O formato 4:4:4 considera que para cada quatro amostras de luminância, existem quatro amostras de crominância azul e quatro amostras de crominância vermelha. Como as três componentes apresentam a mesma resolução, nesse caso a subamostragem de cores não é empregada e não
existe perda na qualidade da imagem. Já no formato 4:2:2, para cada quatro amostras de Y, existem apenas duas amostras de Cb e duas amostras de Cr. Sendo assim, o tamanho total do vídeo é reduzido em 25% só pela subamostragem de cores, uma vez que metade das informações de crominância são descartadas. O formato 4:2:0 considera que para cada quatro amostras de Y, existe apenas uma amostra de Cb e uma amostra de Cr. Neste caso, apenas um quarto das amostras de crominância são utilizadas. Dessa forma, o tamanho total do vídeo é reduzido à metade só pela subamostragem de cores quando comparado com um vídeo RGB ou YCbCr no formato 4:4:4. Apesar da nomenclatura 4:2:0 não representar a relação lógica entre os componentes de cor, que seria 4:1:1, esta é utilizada por motivos históricos (AFONSO, 2012).
Formatos de subamostragem de crominância
• Norma CCIR 601 (ITU-R BT 601) define padrão de amostragem de vídeo digital cm 720m amostras de luminância 2 x 360 amostras de diferença de cores por linha (4:2:2).
• as componentes de Luma e Croma são formadas como uma soma ponderada de componentes R'G'B' ao invés de soma linear de componentes RGB:
• assim, Luma e Croma não não independentes uma da outra e há vazamento de informação entre os componentes. O erro é maior para cores com muita saturação (isso é feito porque facilita a implementação do sistema).
• Maioria dos codecs usa compressão espacial (intra-frame) e temporal (inter-frame) combinadas;
• Formato DV (fitas de vídeo digital) usa somente compressão espacial.
• A compactação temporal calcula a diferença entre os quadros (basicamente ele copia de um frame para o próximo as regiões que não mudaram – bit a bit – e armazena apenas o que muda de um frame para outro). A compressão interframes funciona bem para “assistir” mas não funciona para “editar” (por isso DV não a usa);
•
Formato MPEG-1: definida pela ISO/IEC 11172-2. suporta resolução de 4095x4095 (12bits) e bitrate de 100Mbit/s;
•
Formato MPEG-2: formato de TV digital, DVDs, definida pela norma ISO/IEC 13818;•
Formato MPEG-4 AVC: bastante usado para gravação, compressão e distribuição devídeos de alta definição. Regido pelas normas ITU-T H.264 e ISO/IEC MPEG-4 AVC ( ISO/IEC 14496-10 – MPEG-4Part 10, Advanced Vídeo Coding). Usado em Blu-Ray Discs.
REFERENCIAS: