• Nenhum resultado encontrado

Resumo - Tecnologias Multimidia

N/A
N/A
Protected

Academic year: 2021

Share "Resumo - Tecnologias Multimidia"

Copied!
39
0
0

Texto

(1)

Tecnologias Multimídia

(Prof. Francisco J. Fraga)

Anotações de aula:

Rodrigo T. Caropreso

(2)

Sumário

AULA 1: Introdução...3

AULA 2: Conceitos Básicos...5

AULA 3: Imagens...9

AULA 4: Áudio...12

AULA 5: Música...21

AULA 6: Voz...27

(3)

AULA 1: Introdução

Analógico: Grandezas contínuas

Digital: grandezas discretas, codificadas em bits/bytes.

Bit: binary digit, byte=8 bits, soma de bits, etc.

Padrões: ASCII (7 bits), ISO 8859-1, Unicode (UTF, UTF-7 – 7 bits, UTF-8 – 8 bits, UTF-16 – 16 bits).

Digitalizar: conversão da informação analógica em valores binários, através de amostragem (tempo discreto) e quantização (amplitude discreta). A digitalização é útil para processamento e armazenamento dos sinais (que depois podem ser recuperados).

(4)

Evolução da Comunicação Homem Máquina: • Ambientes orientados a texto:

• Linhas de Comando: originados das máquinas de escrever, com linhas de 40 a 80 caracteres (colunas), por exemplo o prompt de comando do Windows;

• Telas: processadores de texto com IDEs e planilhas eletrônicas, com 1000 a 3000 caracteres, permitindo manipulação de textos (mas não gráficos).

• Ambientes orientados a ponto: foco em pixels, com telas gráficas com altas resoluções (milhares, milhões de pontos – 800x600; 1024x768), basicamente o padrão atual;

• Ambientes Multimídia: focados no uso de animação 24 (cinema) ou 30 (TV) quadros por segundo, as vezes menos em função da necessidade de cada caso. Também entra nessa categoria o áudio (radio pela internet ou voz sobre IP, por exemplo).

(5)

AULA 2: Conceitos Básicos

Pixel: picture element, é o menor elemento de informação de uma imagem, formado por

pontos (pequenos retângulos)

Resolução espacial: quantidade de pixels usados em uma imagem (quanto maior,

melhor). Pode ser expressa como um único numero (7 megapixels) ou um par de resoluções (640 colunas - largura x480 linhas - altura )

Uso errado: o termo megapixel as vezes é usado para identificar os elementos sensores de uma câmera (o correto é “sensels”).

A medida de proximidade entre as linhas faz parte da resolução espacial e é designada por pixels por polegada (ppi). Para alguns dispositivos como scanners, existe a resolução óptica para identificar a resolução real dos pontos por polegada.

Resolução do olho humano: 3000 x 3000 pixels (PC: 1280 x 1024 pixels, para comparar)

Representação de cores: cada pixel carrega uma quantidade de bits, dependendo do sistema de representação de cores.

RGB: combinação linear de Vermelho-Verde-Azul (RGB). As cores são os vértices de um

cubo;

• Preto(0, 0, 0); • Azul(0, 0, 1);

• Branco(1, 1, 1); • Amarelo(1,1,0);

• Vermelho(1, 0, 0); • Ciano(0,1,1);

(6)

Como o modelo RGB é aditivo (soma de cores) é adequado em monitores (que possuem canhões de luz, um para cada cor, que se combinam na tela).

CMY (Ciano, Magenta, Yellow): outro sistema de cores. As cores CMY são

complementares das cores primarias do RGB (veja na figura acima) e a soma de uma cor com sua complementar é branco. Este sistema é subtrativo, usado em impressões (por exemplo, a cor ciano é resultado da soma de verde e azul, mas também pode ser visto como Branco menos o Vermelho, por isso se diz que o ciano REFLETE o vermelho – ele joga fora o vermelho e sobra o ciano). O Magenta reflete o verde e o Amarelo reflete o azul (isso tudo pode ser visto na figura acima).

(7)

Neste sistema não é possível obter o preto apenas combinando as cores, então utiliza-se um conjunto de pigmentos pretos, formando a representação CMYK.

HLS (Hue, Luminance Saturation): os sistemas RGB e CMYK não são muito “intuitivos”

(se baseiam na emissão/absorção de luz). A luz possui as seguintes propriedades:

Luminância: intensidade ou amplitude da onda de luz (preto tem luminância zero);

Saturação: proporção de quantidade de cor em relação a uma cor cinza média

(saturação zero);

Matiz (hue): mede a frequência dominante da onda luminosa (portanto tem relação

com as cores).

YCbCr: família de “espaços de cor” usados em representações de cores em sistemas de

vídeo ou fotos digitais. É uma forma de codificação de informações RGB (RGB não é muito eficiente, o YCbCR é uma aproximação mais prática – cabo de vídeo componente).

Y': componente de luma (não é luminância), a intensidade da luz é codificada de

forma não linear;

Cb: diferença de croma (crominância) azul;

Cr: diferença de croma vermelho.

Humanos → mais sensíveis a Luma do que a Croma. Sendo assim, o sinal Y' tem maior resolução (largura de banda) na transmissão do que os outros parâmetros.

Codificação de Cores (Quantização): 8 bits para luminância.

Sistemas True Color: 256 níveis para cada cor primária ( mais de 16 milhões de cores).

Possui bastante redundância (olho humano distingue centenas de milhares de cores); • VGA: alternativa mais barata, com 6 bits por cor (262.144 cores). O olho humano percebe

menos o azul do que as outras cores, então pode-se usar codificações assimétricas; • Conceito de Paleta: tabela predefinida. O valor do pixel não vai pra tela, vai para a tabela.

Paleta otimizada (VGA): ao invés do sistema ter uma paleta definida, cada imagem tem

(8)

o quantidade de cores simultâneas (presentes na mesma imagem) é limitada pelo tamanho da paleta.

Dithering: Para dar a ilusão de “gradação de cores” (uma vez que imagens não são

realistas), usa-se o dithering, alternando as cores entre pixels próximos, enganando a visão.

Transparência: em sistemas de 16 bits temos 5 bits por cor + 1 para transparência

(transparente ou opaco). Em sistemas de 32 bits temos 8 bits por cor + 8 bits de transparência (canal alfa com 256 níveis de transparência).

(9)

AULA 3: Imagens

Por que comprimir? Porque há muita redundância de dados (ex: RGB True Color com canal alfa de 640 x 480 = 640 * 480 * 4 bytes = 1.228.800 bytes).

Tipos:

• Lossless (sem perdas): qualidade mantida, reversível. Métodos associados:

• Run-Length-Encoding (RLE): usada em formatos PCX, BMP, TIFF, comprime longas sequencias de bits repetidos, muito útil em imagens monocromáticas (onde cada byte codifica alternadamente os tamanhos das sequencias de pixels brancos “1” e pretos “0”, p. Ex: 00 15 21 08 … (0 brancos, 15 pretos, 21 brancos, 08 pretos, …). Para tons de cinza, usa-se o byte 255 indicando repetição (186 187 255 12 188 …) = 1 tom 186, 1 tom 187, 12 tons 188, etc. As imagens coloridas seguem o mesmo padrão para tons de cinza, porém usando codificação RGB;

• Dicionários adaptativos, usado em formatos GIF e TIFF. Algoritmo famoso = LZW (Lempel-Ziv-Welch), aprimoramento do LZ78. De modo geral, são armazenadas em dicionario as sequencias de pixels com as posições codificadas. Necessita de bastante memória e podem ser usadas técnicas como “Congelamento” (após atingir um tamanho máximo o dicionário não aceita novas entradas) ou Esvaziamento (dicionário é esvaziado e a compressão começa de novo);

• Deflação, usado em PNG e TIFF, combina o algoritmo LZ77 (dicionário) e Código de Huffman (entropia). É um tipo de “zip” (pixels repetidos são tratados pelo LZ77 e depois usa Huffman para codificar os símbolos).

Formatos de Imagens:

• Bitmap (BMP): padrão no Windows, pode ser comprimido ou não comprimido, possui as seguintes partes principais:

• Cabeçalho BMP (Header): informações gerais (S.O, tamanho do arquivo);

(10)

e altura em pixels, No de cores e bits por pixel,. Resolução);

• Paleta de Cores: contém definições de cores usadas para indexar os bitmaps; • Dados bitmap: armazena a imagem, pixel a pixel.

• Personal Computer Exchange (PCX): desenvolvido pela Zsoft, nativo do Paintbrush, atualmente substituído pelo GIF e PNG. Ele codifica as linhas da imagem de forma independente do hardware. As paletas variam entre 16 e 256 cores (posteriormente foi estendido para true color 24 bits), utiliza compressão RLE;

• Tagged Image File Format (TIFF): criado pela Aldus (Adobe) para editoração eletrônica. Trata imagens e dados no mesmo arquivo, incluindo no cabeçalho (tamanho, definição e tipo de compressão) a geometria da imagem. Usado em imagens de fax, processamento de textos, OCR, documentos científicos, etc. Usa compressão LZW;

• Graphics Interchange Format ( GIF): baseado em Bitmap, introduzido pela Compuserve e muito usado na Internet. Suporta 8 bits por pixel, com paleta de até 256 cores escolhidas no RGB de 24 bits. Também suporta animações (cabeçalho comum seguido por uma série de quadros de imagem). Não é bom para fotos (devido as limitações de cores), mas é bom para logotipos e gráficos com cores sólidas, usa a compressão LZW.

• PNG: criado para substituir o GIF, suporta sistema de cores em paleta RGB de 24 bits, tons de cinza ou RGBA. Projetado para transferir imagens na internet.

• Compressão com Perdas: princípio básico é remover detalhes que a visão humana não percebe. A taxa de perda é fixada na compressão. Utiliza transformações matemáticas de blocos da imagem (espectro bidimensional, correspondente a uma matriz de distribuição de energia). Os coeficientes da Matriz são então quantizados (truncados), e depois codificados por outro algoritmo sem perda (sem geral os coeficientes nulos são descartados). A transformação mais comum é a DCT.

• Joint Photographic Experts Group (JPEG): comissão formada em 1982 (ISO/IEC JTC1 e ITU-T). Formato mais usado para imagens fotográficas, permite ajuste no grau de compressão. O princípio básico é que informações de “Alta frequência espacial” podem ser descartadas na imagem sem perda perceptível de qualidade

(11)

(as pessoas não percebem esses detalhes). A DCT é aplicada em blocos de 8x8 pixels. Os coeficientes nulos são codificados via RLE em zigue-zague (maximiza a sequencia de pixels). Os coeficientes não nulos são codificados por Huffman. Se a taxa de compressão for muito alta (qualidade baixa) podem aparecer artefatos na imagem (embaçamento e arestas visíveis nos blocos)

• JPEG 2000: melhora o JPEG em alguns aspectos (qualidade em altas taxas de compressão), utiliza blocos de tamanhos variáveis e Transformada Wavelet Discreta (DWT), correspondente a uma imagem em baixa resolução e coeficientes de detalhe que adicionam progressivamente mais detalhes à imagem (que podem ser quantizados e depois comprimidos sem perdas).

(12)

AULA 4: Áudio

Vibração e Percepção das Ondas Sonoras → o som possuiu movimento ondulatório tridimensional e longitudinal. As ondas podem ser:

• Progressivas (o movimento de todas as partículas tem a mesma amplitude);

• Estacionárias: quando a onda bate e volta formando ventres e nós (pontos onde as ondas se anulam).

• Senoidais simples;

• Complexas (combinação de diversas senoides); • Periódicas ou Aperiódicas.

Parâmetros de um sinal de onda:

• Frequência: numero de ciclos por segundo.

• Período: intervalo de tempo para 1 ciclo (portanto, o inverso da frequência) • Frequência angular: radianos/segundo ou 2 π f ;

• Fase inicial: deslocamento em graus, a partir de uma referencia arbitrária;

• Amplitude: medida do deslocamento da partícula em relação a posição de equilíbrio;

• Comprimento de onda: espaço entre 2 pontos que possuem a mesma amplitude, dado por

λ=

v / f

, onde v é a velocidade da onda (o caso, velocidade do som).

Parâmetros qualitativos da onda sonora:

• Altura: permite classificar em graves (menor frequência) ou agudos (maior frequência); • Intensidade: permite classificar em forte ou fraco, tem relação com a amplitude (o volume

do radio). Relaciona-se com a pressão efetiva gerada por ondas planas e ondas esféricas,

dada por:

I =

P

e

2

ρ

0

c

, onde Pe = pressão efetiva,

ρ

0 =densidade de fluxo e c -= velocidade de fase.

(13)

• Intensidade sonora: quantidade de energia transmitida por segundo em uma área de 1 metro quadrado, dada em W/m2;

• Pressão Sonora: força exercida pelas moléculas de ar sobre uma superfície na qual incidem, dada por N/m2 .

• Níveis de Audição: é dado através de uma escala logarítmica (porque nosso ouvido é assim). A unidade usada pé o bel, sendo que a escala é dada em decibéis (dB), cuja definição é:

x decibels=10⋅log

G

G

ref , onde G e Gref são 2 grandezas quaisquer

Para intensidade temos:

NIS =10 log

I

I

ref

NPS=10 log

(

P

e 2

P

ref

)

=20 log

P

e

P

ref sendo Pref uma pressão de referencia de

20 μ Pa

.

Para seres humanos, foi criada uma escala em que 0dB corresponde a menor intensidade ou pressão sonora por frequência ouvida pela maioria da população.

Representação digital do som → conversão da forma de onda analógica de um sinal sonoro em um formato digitalizado. Este processo é feito em 3 etapas principais:

Amostragem: é a captura de “valores” da forma de onda em intervalos de tempo bem

(14)

(FA) e o período de amostragem é dado por: TA=1/ FA . Logo, um sinal amostrado é uma sequencia de valores (um sinal discreto).

Frequência de Nyquist (1928): é a frequência mínima que um sinal de amostragem deve

possuir a fim de que as informações do sinal original não sejam perdidos durante o processo de discretização do sinal. Esta frequência tem que ser (no mínimo) o dobro da maior frequência do sinal a ser discretizado (se for menor do que FNYQUIST ocorre o efeito de

“aliasing”).

Série de Fourier: é uma série matemática cujos termos são funções trigonométricas (seno

e coseno). Uma função periódica pode ser aproximada por uma série de somas de senos e cosenos. Isto é usado na construção de sinais digitais.

(15)

Figura 1 - 4 Primeiros Termos da Série de Fourier

• Exemplo : Telefonia → Frequência de amostragem usada é de 8KHz. Portanto, a máxima frequência do sinal que pode ser amostrado é de 4KHz (aí um filtro corta das demais frequências do sinal de voz acima de 4KHz). Por isso que a voz das pessoas no telefone é semelhante e esquisita (as frequências acima de 4KHz foram omitidas).

Aliasing: a amostragem replica as frequências (no Domínio da Transformada de Fourier) e

(16)

1. Sinal analógico (esquerda). Ao aplicar a Transformada de Fourier (que não é a Série de Fourier, é uma integral), o sinal passa a ser representado no Domínio da Frequência de Fourier (direita).

2. Sinal de amostragem no domínio do Tempo (esquerda) e no Domínio da Transformada de Fourier (direita). É basicamente o mesmo trem de pulsos, porém “afastados” uns dos outros.

(17)

3. Amostragem: a amostragem no domínio do tempo (esquerda) é o processo de “multiplicar” o sinal de amostragem pelo sinal analógico. Isso corresponde a fazer uma “convolução” no domínio de Fourier. A convolução é uma integral muito doida, mas, na prática, isso corresponde a “copiar” o espectro do sinal em torno de cada pulso (é assim, justamente porque um dos sinais é um pulso). Resulta na figura da esquerda.

4. Aliasing: se os pulsos do item 3 não estiverem afastados segundo o critério de Nyquist, as cópias do sinal se “misturam” como na figura acima. É o “aliasing”, porque no momento de recuperar o sinal original, aquele pedaço misturado (azul escuro) não tem mais “conserto”. • Quantização: é a discretização das amplitudes do sinal (o processo de amostragem

(18)

.

• A amostragem pode ser feita sem perdas. A quantização SEMPRE tem perdas. Os quantizadores podem ser uniformes ou não-uniformes (espaçamento entre níveis).

Codificação: modificar as características do sinal para transmissão ou armazenamento de

dados. Basicamente é a forma de representação do sinal (em áudio temos as amostras quantizadas em bits).

(19)

• O sinal resultante do processo descrito acima, é o PCM (Pulse Code Modulation), uma sequencia de bits. Sinais de áudio do tipo AIFF, WAV ou AU usam este PCM. CD de áudio usa frequência de amostragem de 44,1 kHz e 16 bits por amostra (216 níveis de

quantização). Para áudio de baixa qualidade pode-se usar 22,5 ou 11,025 kHz (alguns gravadores de áudio usam taxas múltiplas de 8kHz);

• Para uma taxa de amostragem FA Hz e tamanho de amostra de B bits, cada segundo de

som ocupa 2FAB/8 bytes, considerando som estéreo (2 canais).

Exemplo: Para qualidade de CD, FA = 44,1 kHz e tamanho de amostra de B=16 bits →

cada segundo ocupa 176.400 bytes, ou seja, 1 hora ocupa 635.040.000 bytes (capacidade de armazenamento de um CD).

• Reconstrução do sinal analógico: usando um filtro “passa-baixas” eliminam-se as frequências replicadas;

(20)

• o filtro passa baixas “cerca” o sinal (por isso que não dá pra desfazer o aliasing, quando ocorre o “overlapping” dos sinais.

• Um conversor D/A “reconstrói” o sinal analogicamente, contendo um erro de quantização que diminui a medida que aumentamos os níveis de quantização.

(21)

AULA 5: Música

A compressão de som sempre apresenta perdas, mas alguns métodos podem gerar perda quase nula:

• codificação RLE pode ser usada para amostras com amplitude abaixo de um limiar que pode ser considerado “silêncio”;

• compansão (utiliza quantização não-linear) é usada em compressão de voz. Em telefonia digital temos “Lei μ “ e “Lei A” para compansão (PCM);

• PCM Adaptativo (ADPCM) → armazena informações de diferença entre o valor real da amostra e um valor previsto. Comprime a cerca de 2:1;

• VOCODERS: algoritmos de codificação eficiente de voz conseguem taxas de compressão eficientes (principalmente quando trabalham com modelos de produção da fala);

• Já esquemas de codificação com perdas baseados em fenômenos psicoacústicos, possuem perdas mas fazem uma compressão perceptualmente sem perdas em sinais de áudio de alta fidelidade;

Características psicoacústicas do sistema auditivo humano:

• bandas críticas: o ouvido possui uma escala não linear de bandas de frequência;

• Mascaramento auditivo: se 2 sinais próximos em frequência, ocorrem simultaneamente, sendo um deles de alta intensidade e outro de baixa intensidade, se o sinal mais fraco estiver abaixo de um limiar (de mascaramento) ele se torna audível ( é mascarado pelo sinal de alta intensidade). O efeito se intensifica se os sinais estiverem dentro da mesma banda crítica;

• ou seja, um tom de nível mais alto mascara tons mais baixos de frequências próximas; • se a amplitude do sinal mais baixo estiver abaixo do limiar, este sinal se torna inaudível.

(22)
(23)

• sinais de áudio real são decompostos em “tons” mascarantes. O Limar de mascaramento global é calculado a partir de todos esses limiares individuais.

• Limiar de mascaramento → representa o ruido inaudível máximo em cada frequência.

(24)

• MP3 (MPEG-1 Audio Layer 3) → formato de codificação digital e compressão patenteado; • efetividade de compressão (em kbps – 128 kbps é a padrão), com redução de 90%

(10:1) a até 320kbps (qualidade máxima com redução de 25% ou 4:1)

• o método de compressão (com perdas) é baseado no mascaramento auditivo. • Codificador MP3 possui os seguintes elementos (o decodificador reverte as

operações):

• Rede de Mapeamento Tempo-Frequencia → decompõe o sinal de áudio em múltiplas sub-bandas. Esse mapeamento é feito em 3 camadas e o algoritmo da camada 3 é o mais refinado (e que dá nome ao MP3);

• Modelo psicoacústico: analisa o conteúdo espectral do sinal para calcular a relação sinal/ruído em cada sub-banda;

• quantizador-codificador: realiza alocação dinâmica de bits para minimizar o ruído de quantização;

• modelagem de quadro: empacotamento das amostras quantizadas no padrão MPEG-1.

MPEG-2/AUDIO: para TV digital (5 canais de áudio). A camada I tem taxa de compressão

4:1 (384kbps), a camada II tem 8:1 (192kbps) e a camada III (MP3) tem 12:1 (128kbps). A qualidade subjetiva deste padrão é equivalente ao CD (PCM 16 bits);

AAC (Advanced Audio Coding): compressão de áudio digital com perdas, concebido

para suceder ao MP3. Tem melhor qualidade que este nas mesmas taxas de bits. Foi padronizado pelo IEC e ISO (parte das especificações dos padrões MPEG-2 e MPEG-4).

• É o formato padrão para iPhone, iPod, iTunes, PS3, celulares Nseries, Wii.

• Possui mais frequências de amostragem (8Hz a 96kHz) do que o MP3 (16 a 48 kHz); suporta 48 canais de áudio (MP3 suporta 2 em modo MPEG-1 e 5.1 no modo MPEG-2);

• taxas de bits arbitrárias, frames de comprimento variável, e bancos de filtros mais eficientes (usa MDCT pura);

• tem mais eficiente na codificação de sinais estacionários e mais precisão na codificação de transitórios;

(25)

• o algoritmo AAC é baseado em 2 estratégias para reduzir a quantidade de dados: descartar componentes que são perceptivelmente irrelevantes e eliminação de redundância de sinal;

• O sinal é convertido do domínio do tempo para frequência (MDCT), quantizado e codificado com um modelo psicoacústico similar ao MP3, recebe códigos de correção de erros de bit;

• MPEG-2 Parte 7, publicado 1997, possui 3 perfis: Low Coimplexity (LC), mais amplamente suportado; Perfil Principal (Main), igual ao LC com adição de ferramenta de predição reversa e Scalable Sample rate (SRS); Estes 3 são combinados com uma ferramenta (Perceptual Noise Substitution) e fazem parte do MPEG-4 Audio;

• Em Dezembro de 2003 → Japão inicia transmissão de TV digital (padrão ISDB-T), implementa MPEG-2 e MPEG-2 AAC;

• Abril de 2006 → Japão começa a transmitir ISDB-T móvel (1a implementação do

H.264/AVC vídeo com áudio HE-AAC);

• Dezembro de 2007 → Brasil inicia as transmissões de TV digital terrestre com o padrão ISDB-Tb (com vídeo H.264/AVC e áudio AAC-LC no programa principal e vídeo H.264/AVC com AAC HEv2-áudio no programa móvel);

OGG-Vorbis: o formato Vorbis é open source, contem especificação de formato e

implementação de software (codec) para compressão de áudio (com perdas). Normalmente é usado com o contêiner Ogg, por isso é comum usar o termo Ogg-Vorbis. É usado em jogos (Halo, Guitar Hero), WebSites (Wikipedia) e outros lugares. A qualidade deste formato é boa (em baixas taxas de bits é melhor que WMA e AAC-LC e igual ao WMA profissional); em medias taxas consegue ser melhor que AAC, HE-AAC, MP3, WMA; e em altas taxas tem pouca diferença também;

Síntese de som → primeiros sintetizadores eram analógicos. As principais técnicas de

síntese digital:

Síntese FM: teclados mais antigos e placas de som;

Síntese PCM: baseada na gravação de formas de onda de instrumentos reais,

(26)

• Sistemas MIDI: General MIDI ou GM (Musical Instrument Digital Interface) é uma especificação para sintetizadores que impõe vários requisitos para além da norma MIDI mais geral. Enquanto que a norma MIDI proporciona um protocolo de comunicações que assegura que diferentes instrumentos (ou componentes) possam interagir a um nível básico (por ex., tocando uma nota num teclado MIDI vai fazer com que um módulo de som reproduza uma nota musical), o General MIDI vai mais além de duas maneiras: ele requer que todos os instrumentos compatíveis com o GM tenham um mínimo de especificações (tais como pelo menos 24 notas de polifonia) e associa certas interpretações a vários parâmetros e mensagens de controlo que não tinham sido especificadas na norma MIDI (como a definição de sons de instrumentos para cada um dos 128 números dos programas).

(27)

AULA 6: Voz

• O trato vocal humano → modelado para levar em conta elementos de vibração (cordas vocais) e ressonância (cavidade nasal, oral, faringe).

• Faixa de frequências da voz → até 10kHz em media. Apresenta trechos quase periódicos e outros quase aleatórios.

Características do sinal de voz:

• Pitch → frequência fundamente ou frequência de vibração das cordas vocais;

• trechos quase periódicos apresentam maior taxa de correlação = redundância, logo pode ser comprimido.

• Trechos altamente aleatórios também podem ser comprimidos.

Amostragem para voz:

• Uso de filtro Passa Baixa (PB), para limitar a largura do sinal (telefonia é em torno de 4kHz);

• Quantização uniforme: pode ser usada, mas sinais de menores amplitudes sofrem mais os efeitos dos erros de quantização;

• Estatísticas mostram que a distribuição das amplitudes do sinal de voz são distribuídas de forma exponencial, com predominância de baixas amplitudes;

• Para os casos acima, recomenda-se o uso de quantização não-uniforme (na forma inversa, ou seja, com menores intervalos de quantização para baixas amplitudes e maiores intervalos para as maiores amplitudes). Isso deixa a relação sinal-ruído aproximadamente constante na faixa dinâmica do quantizador;

• Ou seja, na transmissão os sinais de pequena amplitude são mais amplificados que os de alta amplitude. Na recepção, o processo inverso é realizado.

(28)
(29)

• Leis de compressão:

μ=255

(EUA, Japão), A=87,6 (Europa e Brasil).

PCM → forma mais usada de codificação para sinais de voz (ITU-T G711).

• Sinal amostrado a 8kHz, quantização não-uniforme (com compressão segmentada – que uma “linearização por partes (segmentos)” das curvas de compressão) resultando em 8 bits por amostra;

(30)

Compressão de Voz:

Modulação Delta (DM): o sinal é amostrado a uma taxa muito superior a Frequência de

Nyquist (que seria a mínima) para aumentar a correlação entre amostras adjacentes do sinal. A DM é de simples construção (e faz aproximação por degrau do sinal amostrado). No receptor, o sinal é reconstruído com outro sistema simples e depois passa por um FPB com frequência de corte igual a máxima frequência do sinal original.

(31)

• outra melhoria no desempenho pode ser produzida com o uso de “predição linear” (tenta expressar o valor da amostra atual de um sinal através da combinação linear de amostras anteriores – neste caso só codifica e transmite o erro de predição).

• A ideia aqui é justamente aquele aumento de correlação entre amostras adjacentes quando a frequência de amostragem é superior a mínima (aumentando essa correlação, diminui a variância entre amostras adjacentes e isso gera redundância);

• a técnica de predição linear também permite “prever valores futuros” do sinal com base nas amostras passadas. Quando a predição é boa, é possível usar um quantizador com menor número de níveis de quantização (portanto, menos bits por símbolo).

DPCM (Modulação por Código de Pulso Diferencial): a predição de valores futuros leva

a realização de uma quantização diferencial (a diferença entre o previsto e o real); • O receptor é um decodificador para reconstruir o erro de predição quantizado.

• DM → versão “1 bit” da DPCM e também está sujeita aos erros de sobrecarga de inclinação e quantização granular;

ADPCM (Modulação por Código de Pulso Diferencial Adaptativa): utiliza quantização

adaptativa e predição adaptativa. Reduz o valor de 8 bits por amostra (PCM padrão) para 4 bits por amostra. Tem excelente desempenho e é regido pelas normas ITU-T G721 e G726;

Para reduzir ainda mais a taxa de bits, tem que usar codificadores como VOCODERS (RELP, SELP, VSELP), que são técnicas que só funcionam para VOZ, porque se baseiam em modelos de produção da fala humana;

(32)

Modelos de Produção da fala → modelos matemáticos complexos (onde é difícil estabelecer as

condições de contorno para realização da solução). Uma simplificação é o modelamento por analogia terminal, que “enxerga” a fala como a saída de um sistema linear. Aí tenta-se encontrar um modelo de sistema linear que produza a mesma saída. O modelo normalmente adotado é o fonte-filtro.

Vocoders comerciais usam modelos simplificados:

NOTA do Caropreso: Em geral, para se assumir que o comportamento seja “linear” deve-se

(33)

Tipos de Excitação de voz:

Sonora (voiced): movimento periódico das cordas vocais. É matematicamente modelada

como um trem de pulsos;

Surda (unvoiced): excitação turbulenta, semelhante a ruído (fluxo de ar em alguma

constrição do trato vocal). É matematicamente modelada como um ruído branco (usualmente um gerador de sinal aleatório);

Tipos de VOCODERS (mais comuns):

LPC (Linear Predictive Coding): primeiro codificador paramétrico desenvolvido usando o

modelo fonte-filtro, a 1a versão comercial foi a LPC-10 (base para padrão FS-1015). A ideia

é obter uma boa estimativa das características do sinal de fala (na forma de coeficientes). Aqui vale ressaltar que é necessário segmentos de tempo curto do sinal devido a característica não estacionaria deste (assim como eu coloquei na nota ali em cima);

• Determina-se os coeficientes de predição linear, valor de ganho e período de pitch para cada segmento → aí pode-se realizar a síntese do sinal de fala;

• com este sistema é possível codificar e transmitir o sinal a uma taxa muito inferior a do PCM (64kbps) ou ADPCM(32kbps).

• CELP (Code Excited Linear Prediction): algoritmo de codificação criação em 1985, com qualidade superior ao LPC. Junto com algumas variantes (ACELP, RCELP, LD-CELP e VSELP) é o mais usado comercialmente. Ele se baseia no modelo fonte-filtro com predição linear. Usa codebooks, um fixo e outro adaptativo (entrada do modelo LP) e aplica quantização vetorial aos sinais de excitação e aos coeficientes do filtro de predição linear.

• O decodificador CELP combina valores do codebook fixo (modela o ruído – excitação surda) e do adaptativo (modela o pitch - a excitação sonora). O codebook fixo é um dicionário de sinais quantizados vetorialmente. O codebook adaptativo consiste em versões com atraso da excitação.

• O codificador CELP trabalha com o princípio analise por síntese, composta dos seguintes processos:

• calcula os LPCs e efetua a quantização;

• busca o melhor codebook adaptativo (pitch) e seu índice é armazenado ou transmitido;

(34)

• busca o melhor codebook fixo (ruído) e seu índice é armazenado ou transmitido.

NOTA do Caropreso: Quantização vetorial (VQ), a não ser que esteja se referindo a um “tipo de

quantizador”, é apenas um método de clusterização. Você pega um grupo de pontos e separa eles em grupinhos e guarda um “vetor” que aponta para o centro de cada grupinho.

NOTA do Caropreso: Na descrição do codificador, quando o algoritmo vai escolher os melhores

codebooks, é bem provável que a “quantização vetorial” seja feita neste momento. Se for isso, ele simplesmente vai medir a “distância euclidiana” entre os índices calculados e vai escolher a mais “próxima”.

Aplicações do CELP: principal uso em GSM. Outro exemplo importante (algoritmo CS-CELP – norma ITU-T G.729) está em softwares de VoIP (Skype).

(35)

AULA 7: Vídeo

Frame Rate: número de imagens por unidade de tempo (FPS);

• Humanos conseguem captar no máximo 60FPS. • Formato de Vídeo NTSC → 29,97 FPS;

• Formato de Vídeo PAL → 25 FPS;

Resolução: quantidade de pixels em cada quadro de vídeo, no formato AxBpxR:

A: número de colunas;

B: Número de Linhas;

R: número de quadros por segundo.

Exemplo: HDTVs exibem 1920x1080p60

Aspect Ratio: dimensões relativas dos objetos na tela.

4:3: TVs comuns;

16:9: formato “Wide Screen”;

Bit Rate: número de bits necessários para representar um pixel do vídeo (somente vídeos

digitais). A unidade é bpp (Bit Per Pixel).

Formatos de vídeo:

Analógico: forma de onda comum, resulta da varredura sequencial das linhas (quando

registra a intensidade e cor de cada pixel). As principais normas que regem este formato são:

• PAL/SECAM (Phase Alternating Line/Sequentiel Couleur avec Memoire): codifica vídeos de 625 linhas (49 de sincronização e 576 na tela), 25 FPS com aspect ratio de 4:3. As imagens são entrelaçadas (linhas impares e pares) com varredura de 50Hz (Europa – o Brasil adota o PAL-M, com 30FPS e 60Hz).

(36)

utiliza 525 linhas entrelaçadas, com 30FPS e 60Hz. Usa 8% das linhas para sincronismo, resultando numa resolução de 640x480 (usado nos EUA e Japão).

Vídeo Digital: série de imagens digitais em sucessão a uma taxa constante. Se

popularizou e tem sido cada vez mais usado em função das melhorias nas técnicas de compressão e correção de erros (além do uso do PC e internet de banda larga).

Vantagens: acesso direto a qualquer ponto do filme; edição de vídeo simplificada;

duplicação simples sem perda de qualidade; suporte a interatividade;

Codec de Vídeo: dispositivo ou software responsável pela codificação e

decodificação do vídeo. Sua função é diminuir a quantidade de informação para armazenamento ou transmissão de um vídeo (o vídeo capturado por uma câmera não possui compactação). Assim deve-se assumir um compromisso entre

• a qualidade do vídeo;

• a quantidade de dados necessários para transmissão (bit rate); • complexidade dos algoritmos e

• a robustez contra perda de dados.

Princípios de Compressão de Vídeo: utiliza (quase sempre) a técnica da Subamostragem de

Crominância (YCbCr). A crominância é menos sensível ao olho humano, então normalmente a luminância é “preservada” e a crominância é reduzida. O esquema de subamostragem obedece a um padrão J:A:B, onde:

• J → referencia da amostragem horizontal (largura em pixels da região conceitual); • A → numero de amostras de crominância na primeira linha (de J pixels);

• B → numero de amostras de crominância na segunda linha (de J pixels);

A subamostragem de cores pode relacionar componentes de crominância e luminância de várias formas, sendo que os formatos mais comuns são conhecidos como 4:4:4, o 4:2:2 e o 4:2:0. O formato 4:4:4 considera que para cada quatro amostras de luminância, existem quatro amostras de crominância azul e quatro amostras de crominância vermelha. Como as três componentes apresentam a mesma resolução, nesse caso a subamostragem de cores não é empregada e não

(37)

existe perda na qualidade da imagem. Já no formato 4:2:2, para cada quatro amostras de Y, existem apenas duas amostras de Cb e duas amostras de Cr. Sendo assim, o tamanho total do vídeo é reduzido em 25% só pela subamostragem de cores, uma vez que metade das informações de crominância são descartadas. O formato 4:2:0 considera que para cada quatro amostras de Y, existe apenas uma amostra de Cb e uma amostra de Cr. Neste caso, apenas um quarto das amostras de crominância são utilizadas. Dessa forma, o tamanho total do vídeo é reduzido à metade só pela subamostragem de cores quando comparado com um vídeo RGB ou YCbCr no formato 4:4:4. Apesar da nomenclatura 4:2:0 não representar a relação lógica entre os componentes de cor, que seria 4:1:1, esta é utilizada por motivos históricos (AFONSO, 2012).

Formatos de subamostragem de crominância

• Norma CCIR 601 (ITU-R BT 601) define padrão de amostragem de vídeo digital cm 720m amostras de luminância 2 x 360 amostras de diferença de cores por linha (4:2:2).

• as componentes de Luma e Croma são formadas como uma soma ponderada de componentes R'G'B' ao invés de soma linear de componentes RGB:

• assim, Luma e Croma não não independentes uma da outra e há vazamento de informação entre os componentes. O erro é maior para cores com muita saturação (isso é feito porque facilita a implementação do sistema).

• Maioria dos codecs usa compressão espacial (intra-frame) e temporal (inter-frame) combinadas;

(38)

• Formato DV (fitas de vídeo digital) usa somente compressão espacial.

• A compactação temporal calcula a diferença entre os quadros (basicamente ele copia de um frame para o próximo as regiões que não mudaram – bit a bit – e armazena apenas o que muda de um frame para outro). A compressão interframes funciona bem para “assistir” mas não funciona para “editar” (por isso DV não a usa);

Formato MPEG-1: definida pela ISO/IEC 11172-2. suporta resolução de 4095x4095 (12

bits) e bitrate de 100Mbit/s;

Formato MPEG-2: formato de TV digital, DVDs, definida pela norma ISO/IEC 13818;

Formato MPEG-4 AVC: bastante usado para gravação, compressão e distribuição de

vídeos de alta definição. Regido pelas normas ITU-T H.264 e ISO/IEC MPEG-4 AVC ( ISO/IEC 14496-10 – MPEG-4Part 10, Advanced Vídeo Coding). Usado em Blu-Ray Discs.

(39)

REFERENCIAS:

Referências

Documentos relacionados

(2009), acerca dos níveis crescentes de volumoso na dieta de ovelhas gestantes, concluíram que o ponto máximo de volumoso na dieta desses animais deve ser de 35%,

Projetar e dimensionar um sistema solar fotovoltaico para satisfazer as necessidades de energia de um sistema de bombeamento de água de pequeno porte para irrigação.. 1.1.2

The mathematical models for Residence Time, Times of Renewal Rates and Water Age hereby presented were implemented and applied to three idealized channel cases and a natural water

O objetivo geral deste projeto é o desenvolvimento em PHP de um sistema de busca que, após o usuário fornecer uma lista de compras, retorne a lista dos mercados cujos

DATA: 17/out PERÍODO: MATUTINO ( ) VESPERTINO ( X ) NOTURNO ( ) LOCAL: Bloco XXIB - sala 11. Horário Nº Trabalho Título do trabalho

(2000), contrariando o pre- sente experimento, relataram taxas de 7,9% a 8,1%, sem diferenças entre os tratamentos, utilizando den- sidades menores (200 e 450 alevinos de

Um tempo em que, compartilhar a vida, brincar e narrar são modos não lineares de viver o tempo na escola e aprender (BARBOSA, 2013). O interessante é que as crianças

Essa contraparte b2, no novo espaço P, é acessada a partir da base por meio de uma descrição para seu gatilho b (tartaruga). Verifica-se, portanto, que uma sentença de