• Nenhum resultado encontrado

TV Digital II: Conceitos e Sistemas

N/A
N/A
Protected

Academic year: 2021

Share "TV Digital II: Conceitos e Sistemas"

Copied!
39
0
0

Texto

(1)

TV Digital II: Conceitos e Sistemas

Esta série de tutoriais tem como objetivo descrever os sistemas de TV Digital ATSC, DVB e ISDB. Será feito o estudo das modulações COFDM e VSB, comparando-as e analisando as vantagens e desvantagens de ambas, dos modos de transmissões, dando ênfase à transmissão por radiodifusão terrestre, e da compressão de sinais de áudio e vídeo, que são baseados nos algoritmos de codificação MPEG. Apesar do Brasil ter escolhido um sistema para ser implementado, esse texto pode servir como base de estudos para futuras discussões sobre as características que cada padrão tem, juntamente com as vantagens e desvantagens das técnicas de modulações, modos de transmissão e compressão de sinais de áudio e vídeo.

Os tutoriais foram preparados a partir do trabalho de conclusão de curso “TV Digital”, elaborada pelo autor, e apresentado ao Curso de Tecnologia em Telecomunicações para obtenção do título acadêmico de Tecnólogo em Telecomunicações. Foi orientador do trabalho o Prof. Me. Antônio Carlos de O. Pedra. Este tutorial parte II apresenta inicialmente os padrões de compressão de vídeo e áudio utilizados nos sistemas de TV Digital. A seguir apresenta uma análise dos modos de transmissão nos sistemas de TV Digital, com ênfase nos tipos de modulação utilizados no modo por radiodifusão terrestre, e uma comparação entre as técnicas de modulação. A seguir finaliza o trabalho apresentando as considerações finais e sugestões para novos trabalhos.

Vinicius Cattaneo Camboim

Tecnólogo em Telecomunicações pela Faculdade de Tecnologia SENAI (2010 - Porto Alegre, RS). Técnico em Eletrônica pela Escola Estadual de 2º Grau Parobé (Porto Alegre, RS).

Atuou como Técnico em Eletrônica na Eletrônica Rogatex, executando atividades de manutenção em aparelhos eletrônicos, e como Ajudante Vem – Varig Engenharia e Manutenção, executando atividades de manutenção de Aeronaves.

Atualmente trabalha como Coordenador Técnico na Eletrônica Rogatex, executando atividades de coordenação do laboratório de eletrônica e manutenção de aparelhos eletrônicos.

(2)

Categoria: TV e Rádio

Nível: Introdutório Enfoque: Técnico

(3)

TV Digital II: Introdução

A televisão é um dos meios de comunicação mais utilizados mundialmente e, com a evolução da tecnologia, tornou-se necessário o aperfeiçoamento da qualidade da transmissão e da recepção da imagem. Para haver essa melhoria foi necessária trocar a transmissão do sinal analógico pelo sinal digital. Essa mudança aumentou a qualidade da imagem e áudio. Também, com o advento da TV Digital, há a possibilidade de interatividade e provisão de diversificados serviços como, por exemplo, a Internet. Outro aspecto de interesse, se difundida nas escolas, será a possibilidade de inclusão digital de novos usuários, pois motivará os alunos pela facilidade de interatividade existente na TV Digital.

Uma mudança como esta poderia gerar algumas consequências, a exemplo de a necessidade técnica de aumentar banda utilizada na transmissão analógica. A respeito teve-se o cuidado de utilizar na transmissão digital as mesmas características de banda do sinal analógico, associado a melhorias na qualidade de imagem e áudio, transmissão de múltiplos programas por uma estação de televisão e mais adequada relação de aspecto de vídeo ao olho humano que a utilizada nos sistema analógico. Tudo isso decorrente da utilização de recursos digitais como a compressão de áudio e vídeo.

Existem três sistemas de TV Digital que servem como parâmetros e são utilizados mundialmente para ser implantados ou para servir de base de estudos para implementação de outros sistemas. O ATSC é chamado de padrão americano, o DVB é o padrão europeu e o ISDB o padrão japonês. Cada um desses sistemas tem suas vantagens e desvantagens.

No Brasil, em novembro de 2003, foi assinado um decreto visando a implantação da TV Digital. A partir daí foram realizados testes com os três sistemas existentes e com um sistema totalmente brasileiro. Os testes foram coordenados pelo SET (Sociedade de Engenharia de Televisão), ABERT (Associação Brasileira de Rádio e Televisão) e o Instituto Mackenzie, seguindo os métodos da ANATEL/CPqD. Em junho de 2006, foi assinado o decreto de adoção no Brasil do sistema baseado no padrão japonês, que está em fase de implantação gradual no território brasileiro. Foi estabelecido o prazo de 10 anos para que toda transmissão terrestre passe a ser digital e que as emissoras, durante esse período, se comprometam simultaneamente a transmitir os sinais analógico e digital.

Tema e Objetivos

Sobre o tema proposto, destina-se este trabalho a descrever os sistemas digitais existentes, destacando as formas como são transmitidos os sinais, as modulações utilizadas e o funcionamento da compressão de vídeo e áudio. Apesar de o Brasil já ter adotado o padrão japonês como referência, o presente trabalho pode servir como base de estudos para descrever as diferenças entre os padrões, suas vantagens e desvantagens. Também pode servir como um documento de base para serem realizadas novas pesquisas e aperfeiçoadas as técnicas de modulações e compressão de sinais de áudio e vídeo.

O tema abordado neste trabalho - TV Digital e sua transmissão - foi escolhido devido ao estágio inicial que o nosso país se encontra com relação à modificação do sistema analógico para o digital, pois ainda serão necessárias diversas pesquisas para aperfeiçoar o sistema.

Os objetivos a serem alcançados são os seguintes: descrever e analisar os sistemas digitais utilizados mundialmente, fazendo um resumo de suas características e particularidades, descrevendo as vantagens e suas limitações. Também serão estudadas com detalhes as modulações que são utilizadas para transmitir os sinais. Serão descritas as técnicas de compressão de sinais de áudio e vídeo.

(4)

Justificativa

Por ser um dos assuntos mais atuais no Brasil, torna-se válida a pesquisa sobre transmissão, modulação e compressão de TV Digital. Apesar de não ser um assunto novo em termos mundiais, aqui no Brasil é tratado como uma inovação já que esta sendo implantado aos poucos em nosso território. Através de parcerias entre instituições de ensino superior e o governo brasileiro estão sendo desenvolvidos diversos estudos e pesquisas sobre este tema.

Para finalizar uma etapa de graduação em Tecnologia em Sistemas de Telecomunicações esse trabalho torna-se relevante, pois trata de assuntos desenvolvidos nas unidades curriculares decorridas do curso sendo tratados com mais detalhes.

Método do Trabalho

A metodologia a ser empregada neste trabalho será a pesquisa bibliográfica baseada em livros, artigos e publicações em mídia eletrônicas. Por ser um assunto novo no Brasil, não haverá facilidade de encontrar livros a respeito deste tema. No entanto, existem diversos endereços virtuais com informações e artigos sobre o assunto, bem como órgãos que regulamentam os sistemas de TV Digital, que podem ser consultados para obtenção de fontes de consulta. Existem também instituições que podem ser consultadas aqui do Rio Grande do Sul que, em parceria com o governo brasileiro, realizam testes e pesquisas desenvolvendo decodificadores para TV Digital. Os laboratórios dessas instituições realizam testes com relação à modulação, transmissão e compressão de TV Digital. Através do contato com uma dessas instituições foram obtidos alguns periódicos e sugerido alguns livros para o começo da pesquisa.

Será feito um cronograma elaborado em parceria com o professor orientador, o qual deverá ser seguido para o desenvolvimento satisfatório do projeto.

Serão realizadas reuniões com o professor orientador para avaliação do andamento do projeto e esclarecimento de dúvidas. Em paralelo as seções serão escritas e corrigidas.

Limitações do T/rabalho

Como o tema desse trabalho é bastante amplo, será limitado apenas na análise da compressão dos sinais de vídeo e áudio, e transmissão e modulação dos sistemas de TV Digital. Não serão descritas a camada de multiplexação e a camada de middleware. Não será exposto nenhum tipo de teste prático com relação à modulação e transmissão, embora tenha sido tentada uma visita nos laboratórios de pesquisa em instituições em Porto Alegre. Não é objetivo desse trabalho destacar o melhor sistema de TV Digital, e sim analisar e resumir as tecnologias empregadas em relação aos subsistemas de transmissão, modulação e compressão de áudio e vídeo.

Certamente enquanto essa pesquisa é redigida surgirão novas tecnologias e sistemas em decorrência das características de países que desejam implantar um desses sistemas que serão descritos ou criar um novo com base nos que são utilizados atualmente.

Estrutura dos Tutoriais

O tutorial parte I apresentou inicialmente o referencial teórico destacando o histórico de transmissão de TV, os sistemas analógicos de televisão, a questão com relação à troca do sistema analógico pelo digital, a necessidade de compressão de sinais, os formatos e resoluções de tela existentes. A seguir apresentou uma descrição dos três sistemas de TV Digital abordados, e do sistema utilizado no Brasil.

(5)

TV Digital II: Compressão – parte 1

Como vimos, sem utilizar o recurso de compressão seria impossível transmitir um sinal de TV digital na largura de banda alocada para um canal analógico. Esse recurso é indispensável para a transmissão dos sistemas de TV digital com a definição de alta resolução em um canal de 6 MHz.

A compressão na TV Digital é utilizada na camada de compressão onde são comprimidos os sinais de vídeo e áudio, e na camada de transporte onde os sinais de vídeo, áudio e dados comprimidos são transmitidos por um padrão de compressão.

Na TV Digital são utilizados os padrões MPEG-2 Vídeo para compressão de vídeo, e para compressão de áudio os padrões DOLBY-AC3, MPEG-2 BC, e MPEG-2 AAC.

Esses padrões são responsáveis pela compressão utilizando algoritmos gerais que são aplicáveis a qualquer tipo de dados explorando a redundância espacial que é a correlação dos pontos vizinhos de uma imagem e a falta de percepção visual em imagens fixas, e a redundância temporal em imagens em movimento. E os métodos de compressão de áudio exploram as particularidades da percepção auditiva humana a fim de reduzir a taxa de bits, eliminando as que não são audíveis.

Princípios Gerais de Compressão de Dados Codificação RLC

Quando uma fonte de informação emite elementos de mensagens sucessivos, proporcionando uma série relativamente longa de elementos idênticos, é vantajoso transmitir o código deste elemento e o número de suas ocorrências sucessivas, ao invés de repetir o código desse elemento, o que dá uma variável de compressão, que depende da série de repetições. Esse tipo de codificação é definido como reversível, e não pode perder nenhuma informação. Esse método de compressão é utilizado em transmissões por computadores e máquinas de fax [3] [5].

Codificação VLC

Este método de redução na taxa de bits baseia-se no fato em que a ocorrência de um elemento gerado por uma fonte e codificado em n bits às vezes não é o mesmo para todos os elementos associados a2n possibilidades diferentes. Para reduzir a taxa de bits necessários para transmitir as sequências geradas pela fonte é vantajoso codificar os elementos mais frequentes com menos n bits e os elementos mais frequentes com mais n bits, isto resulta em uma média que é inferior ao fixado pelo comprimento de n bits [3] [5].

Se isso for feito em tempo real, implica na probabilidade do conhecimento da ocorrência anterior de cada possível elemento gerado pela fonte. Por exemplo, se utilizarmos o caso das letras do alfabeto de uma determinada língua pode ser usado esse método de compressão de texto. Ele pode ser utilizado em imagens de vídeo comprimido por meio de DCT, onde a energia é concentrada em um número relativamente pequena de coeficientes, em oposição a representação temporal do sinal de vídeo onde todos os valores são equiprováveis [5].

Pode-se demonstrar que a quantidade de informações transmitidas Q por um elemento é igual ao logaritmo na base 2 do inverso da probabilidade p de ocorrência [5], conforme a equação (1):

(6)

(1)

A soma da quantidade de informações de todos os elementos gerados por uma fonte multiplicada pela suas probabilidades de ocorrência é chamada de entropia H da fonte, representada por (2) [5]:

(2)

O objetivo da codificação de comprimento variável (VLC) é a entropia da taxa de bits, o que corresponde, a um número médio de bits por elementos tão próximo quanto possível da entropia da fonte. Um dos métodos da codificação de comprimento variável é o algoritmo Huffmann, que pressupõe o conhecimento prévio de cada elemento. Ele funciona da seguinte maneira [5]:

Cada elemento é classificado em ordem decrescente de probabilidade, formando uma tabela de ocorrência como mostra a figura 4.1;

Os dois elementos de menor probabilidade são agrupados em um elemento, e a probabilidade dele é a soma das duas probabilidades. Bit 0 é atribuído ao elemento de menor probabilidade e bit 1 ao outro elemento, reduzindo por um o número de elementos a serem classificados;

O novo elemento é agrupado de mesmo modo com o elemento de probabilidade mais alta. 0 e 1 são atribuídos do mesmo modo que acima, e o processo é continuado até que todos os elementos tenham sido codificados;

A árvore de codificação Huffmann é mostrada na figura 4.1; O código para cada elemento é obtido pelo posicionamento da sequência de bits em movimento ao longo da árvore de Huffmann da esquerda para direita [5].

Figura 1: Árvore de Huffmann Fonte: BENOIT, 2008

Para ilustrar este método assumiu-se uma fonte geradora de oito elementos com as seguintes probabilidades: p(a)= 40%, p(B)=5%, p(C)=20%, p(D)=2%, p(E)=10%,p(F)=3%, p(G)=14%, p(H)=6%.

(7)

O comprimento médio das palavras após a codificação é (somatório dos produtos do número de bits de cada elemento e sua probabilidade) é 2,51 bits, e a entropia H é igual a 2,44 bits, significando apenas 3% a mais que o ideal que dá uma eficiência muito boa para o algoritmo Huffmann. Para este mesmo exemplo utilizando uma codificação pura binária exigiria três bits por elemento, e o fator n obtido com a codificação Huffmann é [5]:

(3)

Esse tipo de codificação é reversível (ela não perde informações) e pode ser aplicado a sinais de vídeo como um complemento a outros métodos que geram elementos de probabilidade não uniforme (DCT seguido de quantização, por exemplo). O ganho pode ser muito mais importante [5].

Compressão Aplicada a Imagens: a Transformada Discreta do Cosseno (DCT)

A transformada discreta do cosseno é um caso particular da transformada de Fourier aplicada a sinais discretos (amostras) que se decompõe um sinal periódico em uma série de seno e cosseno de funções harmônicas. O sinal pode ser representado por uma série de coeficientes de cada uma destas funções [3] [5].

Sem desenvolver os detalhes matemáticos, indicaremos apenas que o DCT decompõe o sinal em apenas uma série de funções cosseno harmônico em fase com o sinal, o que reduz pela metade o número de coeficientes necessários para descrever o sinal em relação a uma transformada de Fourier [5].

No caso de quadros, o sinal original é um sinal de amostra bidimensional e assim também teremos uma DCT bidimensional (sentido vertical e horizontal), que transformará a luminância (ou crominância) em valores discretos de um bloco de NxN pixels em outro bloco (ou matriz) de N x N coeficientes que representa a amplitude de cada uma das funções cosseno harmônica [5].

No bloco transformado, os coeficientes sobre o eixo horizontal representam frequências horizontais crescentes da esquerda para direita, e no eixo vertical representam frequências verticais crescentes de cima para baixo. O primeiro coeficiente no canto superior esquerdo (coordenadas 0:0) representa frequências verticais e horizontais nulas, e por isso é chamado de coeficiente DC, e o coeficiente da parte inferior a direita representa o componente de maior frequência espacial nos dois sentidos [5].

Para reduzir a complexidade dos circuitos e o processamento do tempo necessário, o tamanho do bloco escolhido é geralmente 8x8 pixels, que o DCT transforma em uma matriz de 8x8 coeficientes [5].

Dependendo do número de detalhes contidos no bloco original, os coeficientes de alta frequência serão maiores ou menores, mas geralmente a amplitude diminui rapidamente com bastante frequência, devido à menor energia das altas frequências espaciais na maior parte de imagens naturais. A DCT tem a propriedade de concentrar a energia do bloco em um número relativamente baixo de coeficientes no canto superior esquerdo da matriz. Além disso, esses coeficientes são aliados um dos outros. Essas duas propriedades serão utilizadas com vantagem nas próximas etapas de compressão [5].

Até este ponto, não há nenhuma perda de informação: o processo da transformada DCT é reversível. No entanto, devido às especificações psicofisiológica da visão humana (sensibilidade reduzida para altas frequências espaciais), é possível, sem degradação perceptível da qualidade da imagem, eliminar os valores abaixo da função limiar da frequência. Os valores eliminados são substituídos por 0 (operação conhecida como limiar); esta parte do processo não é reversível, pois alguns dados são eliminados. Os coeficientes restantes são quantificados com uma precisão que diminui com as frequências espaciais

(8)

também o processo não é reversível, mas tem pouco efeito sobre a qualidade da imagem percebida. A limiarização e os parâmetros de quantização podem ser utilizados para regular as taxas de bits necessários para transmitir imagens [5].

Um fluxo contínuo de dados seriais é obtido pelo método de leitura de coeficientes zig-zag. Este método é um dos que permitem uma série relativamente longa de coeficientes nulos obtidos mais rapidamente, para aumentar a eficiência da codificação de comprimento dirigida pelos passos da codificação de comprimento variável [5].

Compressão de Imagens Fixas

As primeiras aplicações destinadas a reduzir a quantidade de informação necessária para codificação de imagens fixas apareceu nos anos de 1980, e tinham como objetivo uma redução significativa do tamanho dos arquivos gráficos e fotografias visando seu armazenamento ou sua transmissão. Em 1990, a ISO (International Standards Organization) criou um grupo internacional chamado JPEG (Joint Photografic Experts Group) com a missão de elaborar um padrão internacional de compressão para imagens fixas de diferentes resoluções em Y, Cr, Cb ou no formato RGB. O resultado internacional deste padrão é chamado de JPEG e foi publicado em 1993 sobre a referência ISO/IEC 10918, e é considerado uma caixa de ferramentas para compressão de imagens fixas. Ele serve de base para o padrão MPEG [5].

Observa-se que a compressão JPEG pode ser com perda ou sem perda (reversível), dependendo da aplicação e do fator de compressão desejado. As aplicações mais comuns utilizam o método com perda, que permite a fatores de compressão de mais de 10 serem realizados sem a degradação na qualidade das imagens perceptíveis, dependendo do conteúdo das imagens. Analisaremos apenas o método de compressão JPEG com perdas, pois a codificação I de imagens em MPEG utiliza o mesmo processo [5]. O método de compressão com perdas é descrito em seis etapas principais:

Decomposição da imagem em blocos. A imagem geralmente no formato Y, Cb, Cr são divididas em blocos elementares de 8x8 pixels, que representa um quadro no formato 4:4:2 do CCIR-601 com um número total de 6480 blocos de luminância (Y) e 3240 blocos para cada componente Cb e Cr. Cada bloco é composto por 64 números nos limites de 0 a 255 (quando digitalizados em 8 bits) para luminância e de -128 a +127 para a crominância Cb e Cr;

Transformada discreta do cosseno. A DCT aplicada a cada bloco Y, Cb, Cr gera para cada um uma matriz 8x8 composta dos coeficientes que aumentam a frequência espacial quando se afastam da origem (canto superior esquerdo) que contém o componente DC a média da luminância ou crominância do bloco. O valor desses coeficientes diminui rapidamente quando se afastam da origem da matriz, e os valores finais são geralmente uma série de pequenos números ou até mesmo zeros. Se o bloco é de luminância uniforme ou crominância apenas o coeficiente DC não é zero, e só este coeficiente é transmitido;

Limiarização e quantização. Esta etapa considera a especificidade da visão humana, em partícula o fato que o olho não distingue detalhes finos abaixo de certo nível de luminosidade. É constituído por zerar os coeficientes abaixo de um pré-determinado limiar, e quantização dos restantes com uma precisão decrescente quando a frequência aumenta. Ao contrário dos outros 63 coeficientes (AC), o coeficiente DC é codificado por DPCM (modulação de código de pulso diferencial) em relação ao coeficiente DC do bloco anterior, que permite uma codificação mais exata com um determinado número de bits. Isso permite que a visibilidade dos blocos sobre a imagem reconstruída seja reduzida, como o olho, embora não seja muito sensível a pequenos detalhes, porém é sensível a pequenas diferenças em zonas de luminância uniforme;

(9)

Varredura zig-zag. Exceto para o coeficiente DC, que é tratado separadamente, os 63 coeficientes AC são lidos usando a varredura zig-zag para transformar a matriz em um fluxo de dados melhor ajustado para as próximas etapas da codificação (VLC/RLC);

Codificação de comprimento dirigida. Para fazer o melhor uso possível da longa série de zeros produzida pela quantização e a varredura zig-zag, o número de ocorrências de zero é codificada, seguido do próximo valor não-zero, que reduz a quantidade de informação para transmitir;

Codificação de comprimento variável (codificação Huffmann). Esta última etapa utiliza uma tabela de conversão, para codificar as ocorrências mais frequentes com valores de curta duração, e as ocorrências menos frequentes com valores mais longos. Estas duas últimas etapas (RLC e VLC) sozinhas garantem um fator de compressão entre 2 e 3 [5].

Quando o tempo de compressão/descompressão não é o fator primordial, que é muitas vezes o caso de imagens fixas, todas as etapas acima podem ser realizadas inteiramente por software. Há, porém um número de processadores que podem acelerar este processo [5].

Compressão de Imagens em Movimento MPEG

Em 1990, a necessidade de armazenar e reproduzir imagens em movimento associado ao formato de áudio digital para aplicações em multimídia em várias plataformas fez com que a ISO formasse um grupo seguindo a mesma linha que o JPEG com membros oriundos dos setores envolvidos (indústrias de computadores, empresas de telecomunicações, eletroeletrônicos, semicondutores, emissoras de TV, universidades, etc.), e a esse grupo denominou-se MPEG [5].

O primeiro resultado desse trabalho foi o Padrão Internacional ISSO/IEC 11172, que ficou conhecido como MPEG-1. O principal objetivo foi permitir o armazenamento em CD-ROM ou CD-I de vídeo e áudio estéreo com uma taxa máxima de 1,5 Mbit/s. Além da redundância espacial intrínseca explorada pelo JPEG com imagens fixas, a codificação em imagens em movimento permite a exploração da redundância temporal entre imagens sucessivas que compõem uma sequência de vídeo [5].

Considerando a taxa de compressão elevada para estas aplicações, a dificuldade é reduzida a partir do início do processo sacrificando a resolução. O formato escolhido para codificar os quadros é o SIF [5]. O algoritmo de compressão de som utilizado para os canais de áudio é conhecido como MUSICAM, e também é utilizado no sistema europeu de rádio digital DAB (Digital Audio Broadcasting) [5].

O padrão MPEG-1 é composto por três partes distintas, publicadas em novembro de 1992: Sistema MPEG-1 ISO / IEC 11172-1, define a estrutura de multiplexação MPEG-1; Vídeo MPEG-1 ISO / IEC 13818-2, define a codificação de vídeo MPEG-2;

Áudio MPEG-1 ISO/IEC 13818-3, define a codificação de áudio MPEG-2 [5].

Entretanto, a qualidade da imagem MPEG-1 não foi apropriada para aplicações de transmissão, pois não levou em consideração a codificação de imagens entrelaçadas ou evolução para HDTV [5].

O grupo MPEG partiu para o desenvolvimento de um padrão flexível para transmissão. Este padrão ficou conhecido como MPEG-2.

(10)

Assim como o MPEG-1, o MPEG-2 é especificado em três partes distintas que foram publicadas em novembro de 1994:

Sistema MPEG-2 (ISO / IEC 13818-1): define os fluxos MPEG-2;

Vídeo MPEG-2 (ISO / IEC 13818-2): define a codificação de vídeo MPEG-2; Áudio MPEG-2 (ISO / IEC 13818-3): define a codificação áudio MPEG-2 [5].

O padrão MPEG-2 é o código-fonte utilizado nos três sistemas de TV Digital.

A especificação MPEG-1 é muito flexível e permite a escolha de diferentes parâmetros em função do compromisso entre a complexidade do codificador, taxa de compressão e qualidade da codificação de vídeo. Utiliza os mesmos princípios do padrão JPEG com perdas, adicionando novas técnicas que formam o MPEG-1 toolbox;ssas técnicas exploram a forte correlação entre imagens sucessivas, com a finalidade de reduzir consideravelmente a quantidade de informações necessárias para transmissão. Essas técnicas são conhecidas como “previsão com compensação de movimento”, que consistem em deduzir a maioria das imagens de uma sequência anterior e imagens posteriores, com o mínimo de informações adicionais representando as diferenças entre as imagens. Isto requer a presença de um estimador de movimento no codificador MPEG [5].

A decodificação é realizada em tempo real, o que significa um nível aceitável e constante do atraso do processamento. Já na codificação, onde a complexidade é maior, pode ser feita em mais de uma passagem para aplicações em tempo real, onde a qualidade da imagem é de importância primordial, mas não é necessário [5].

A realização prática do codificador é umcompromisso entre velocidade, taxa de compressão, complexidade e qualidade da imagem. Além disso, o tempo de sincronização e o tempo de acesso aleatório a uma sequência devem ser mantidos dentro de um limite aceitável (não superior a 0,5 segundos), o que restringe o número máximo de quadros dependente da primeira imagem a um número entre 10 e 12 para um sistema operando a taxa de 25 quadros/s [5].

Diferentes Tipos de Imagens MPEG

O padrão MPEG define três tipos de quadros, que estão dispostos conforme a figura 4.2 [5]:

Quadros intra (tipo I) são codificados sem referência a outros quadros, de uma forma semelhante ao formato JPEG, o que significa que eles contêm todas as informações necessárias para a sua reconstrução pelo decodificador, e por isso, eles são o ponto de partida para acesso a uma sequência de imagens. A taxa de compressão de quadros I é relativamente baixa e é comparável a uma imagem codificada em JPEG;

Quadros preditivos (tipo P) são codificados a partir de precedentes I ou imagens P, utilizando as técnicas de previsão de compensação de movimento. Imagens P podem ser utilizadas como base para as próximas imagens preditas, mas, como a compensação de movimentos não é perfeita, não é possível estender o número de imagens P entre duas imagens I, pois a taxa de compressão de imagens P é significativamente superior à taxa de imagens I;

Quadros bi-direcional (tipo bi-direcional preditiva) são codificados por interpolação bi-direcional entre os quadros I e P, que os precede e segue. Como eles não são utilizados para codificar quadros subsequentes, os quadros B não propagam erros de codificação. Os quadros B oferecem a taxa de compressão mais alta [5].

(11)

Figura 2: Concatenação dos três tipos de quadros de MPEG Fonte: BENOIT, 2008

Dependendo da complexidade do codificador utilizado, é possível codificar os quadros I, I e P, ou I, P e B, com muitos resultados diferentes quanto à taxa de compressão e resolução de acesso aleatório, e também quanto à codificação de tempo e qualidade percebida [5].

Dois parâmetros M e N descrevem a sucessão de quadros I, P e B descritos na figura 4.3: M é a distância em número de imagens entre duas imagens P sucessivas; N é a distância entre duas imagens I sucessivas, definindo um grupo de imagens (GOP) [5].

Figura 3: Exemplo de um grupo de quadros MPEG para M = N = 3 e 12 Fonte: BENOIT, 2008

Os parâmetros utilizados geralmente são M=3 e N= 12, para obter uma qualidade de vídeo satisfatória com um aceitável tempo de acesso aleatório (< 0,5s) com uma taxa de bits de 1,15Mbit/s. Com esses parâmetros a sequência de vídeo é feita da seguinte forma: 1/12 dos quadros são do tipo I (8,33%), 1/4 tipo P (25%) e 2/3 B (66%). A taxa de compressão global é maximizada pelo fato de que as imagens mais frequentes têm maior taxa de compressão [5].

Decomposição de uma Sequência de Vídeo MPEG em Camadas

O padrão MPEG define uma hierarquia de camadas dentro de uma sequência de vídeo como ilustra a figura 4.4. Cada uma dessas camadas tem funções especificas no processo de compressão MPEG. A partir do nível superior as camadas sucessivas são denominadas Sequência, Grupo de imagens (GOP), Quadros, Fatia, Macro bloco e Bloco [5]

(12)

Sequência é a camada mais alta que define o contexto válido para toda a sequência (parâmetros básicos de vídeo, etc.) [5].

Grupo de imagens é a camada de determinação de acesso aleatório da sequência, que sempre começa com uma imagem I [5].

Quadro é a unidade básica de imagem, podendo ser dos três tipos (I, P ou B).

Fatia é a camada de endereçamento interno e re-sincronização da estrutura, por exemplo, para recuperação de erros. É definido como um conjunto de macro blocos contíguos [5].

Macro bloco é a camada utilizada para estimativa de movimento/compensação. Um macro bloco tem tamanho de 16x16 pixels e é composto por quatro blocos de luminância e dois blocos de crominância (Cr e Cb) cobrindo a mesma área [5].

Bloco é a camada onde a imagem é dividida em blocos de 8x8 pixels e é onde ocorre a DCT [3].

Figura 4: Hierarquia em camadas do vídeo MPEG Fonte: BENOIT, 2008

Predição, a Estimativa de Movimento e de Compensação

Como vimos os quadros P e B foram preditos do anterior e/ou dos quadros subsequentes. Em uma sequência de imagens em movimento, mover objetos leva a diferenças entre as zonas correspondentes dos quadros consecutivos, de modo que não há correlação evidente entre essas duas zonas. Estimativa de movimento consiste em definir um vetor de movimento que garanta a correlação entre a zona de chegada na segunda imagem e uma zona de partida na primeira imagem, usando uma técnica conhecida como correspondência de bloco. Isto é feito ao nível do macro bloco (16x16 pixels) movendo um macro bloco do quadro atual dentro de uma janela de pesquisa do quadro anterior, e comparando-o com todos os macros blocos possíveis da janela para encontrar o mais semelhante. A diferença na posição de dois macros blocos correspondentes dá um vetor movimento, que será aplicado aos três componentes do macro bloco (Y, Cb, Cr) [3] [5].

Ao comparar um quadro P e um quadro I, ou dois quadros P, devido à distância temporal entre essas imagens (três quadros no caso de M=3, e N=12), o bloco correspondente não será perfeito e os vetores de movimento podem ter uma amplitude relativamente elevada. É por isso que a diferença (ou predição de erro) entre o bloco atual e o bloco correspondente a ser codificado é calculado e codificado de forma semelhante à dos blocos de quadro I (DCT, quantização, RLC/VLC). Este processo é chamado de compensação de movimento [3] [5].

(13)

TV Digital II: Compressão – parte 2

Controle de Saída da Taxa de Bits

O fluxo de bits gerados pelo codificador de vídeo (áudio) é chamado de fluxo elementar (ES). A fim de cumprir as restrições dos canais (de transmissão ou gravação/reprodução) e do buffer de entrada especificado para o decodificador de referência MPEG, a taxa de bits desta corrente primária deve ser constante. Isto não é garantido pelo processo de codificação descrito acima, pois há uma quantidade extrema de detalhes diferentes e movimentos nas imagens a serem codificadas [5].

A saída do codificador é equipada com um buffer FIFO para controlar a taxa de bits; a quantidade de bits é monitorada e mantida dentro de limites pré-determinados por meio de um gabarito que altera os parâmetros de quantização, que têm uma grande influência sobre a taxa de bits do fluxo de bits codificados. Desta forma é possível obter uma taxa de bits constante, com uma resolução que depende do conteúdo da imagem e da quantidade de movimentos da imagem. Um diagrama em blocos de um codificador MPEG dando apenas uma idéia de sua complexidade real é visto na figura 4.5 [5].

Figura 5: Diagrama esquemático do codificador MPEG Fonte: BENOIT, 2008

O decodificador é mais simples, pois não precisa realizar a estimativa de movimento, e isto foi um dos principais objetivos desse padrão já que haverá muito mais decodificadores que codificadores. O diagrama em blocos de um decodificador é visto na figura 4.6 [5].

(14)

Fonte: BENOIT, 2008 Codificação de Vídeo MPEG-2

O padrão MPEG-2 pode ser descrito como uma caixa de ferramentas de compressão e tem aplicação nas transmissões de radiodifusão. É um padrão mais complexo que o MPEG-1 e utiliza as ferramentas especificadas no MPEG-1 com o acréscimo de novas ferramentas. O padrão MPEG-2 é totalmente compatível com o padrão MPEG-1. Embora o padrão MPEG-1 fosse projetado para codificação de imagens em movimento, ele não permitia tratar de imagens entrelaçadas. A diferença mais importante entre MPEG-1 e MPEG-2 é a introdução de instrumentos de codificação projetados para tratar o entrelaçamento. A probabilidade de erros de dados quando a informação é lida em mídias de armazenamento digital é baixa, mas quando se trata em aplicações de transmissão de TV Digital esses erros tornam-se mais comuns, por isso o padrão MPEG-2 deu uma atenção especial a esse tipo de aplicação [5].

A norma MPEG-2 foi projetada para ser extremamente flexível e pode ser utilizada em várias aplicações como, por exemplo, transmissão por radiodifusão terrestre, satélite ou cabo, vídeos armazenados digitalmente, sistemas de informações e multimídia. Este padrão de codificação de vídeo é utilizado nos sistemas de TV Digital ATSC, DVB e ISDB.

Níveis e Perfis do MPEG-2

A norma MPEG-2 possui quatro níveis que definem a resolução do quadro, desde o padrão SIF até HDTV, e cinco perfis que determinam o conjunto de ferramentas de compressão utilizada, por isso há um compromisso entre a taxa de compressão e custo do decodificador [5].

Os quatro níveis podem ser descritos da seguinte forma:

O nível baixo corresponde à resolução SIF usado na norma MPEG-1 (até 360x288); O nível principal corresponde ao padrão de resolução 4:2:0 (até 720x576);

O nível alto-1440 é destinado a HDTV (resolução até 1440x1152);

O nível alto é otimizado para tela HDTV wide (resolução de até 1920x1152) [5].

Os perfis são:

O perfil simples é definido para simplificar o codificador e o decodificador, a fim de obter uma taxa de bits mais alta, pois não utiliza a predição bi-direcional (quadros B);

O perfil principal é o melhor compromisso entre a compressão, taxa e o custo, pois utiliza os três tipos de imagem (I,P,B), o que o leva ao uso de um codificador e um decodificador mais complexo;

Os perfis escaláveis (codificação de hierarquia) são destinados para utilização futura. Eles permitirão a transmissão de imagem com qualidade base (camada de base) em termos de resolução espacial (perfil escalável espacialmente) ou precisão de quantização (perfil escalável em SNR), e de informação complementar (camada de reforço), permitindo que as características da imagem sejam melhoradas;

O perfil alto é destinado para aplicações de transmissão de HDTV nos formatos 4:2:0 ou 4:2:2 [5].

(15)

É importante ressaltar que há um grau de compatibilidade entre os perfis. Essa compatibilidade é crescente, ou seja, o decodificador de um perfil é capaz de decodificar os perfis de menor complexidade. A hierarquia de camadas de decomposição do MPEG-2 é a mesma do MPEG-1. Há uma pequena diferença na camada fatia, pois não há a necessidade de cobrir toda a imagem, somente as que são constituídos por blocos contíguos na mesma linha horizontal [5].

Se excluirmos os níveis e perfis, a principal característica do padrão MPEG-2 em relação ao MPEG-1 é o processamento de quadros entrelaçados. Para melhores resultados, quadros entrelaçados serão tratados de maneiras diferentes, dependendo da importância dos movimentos entre os dois campos de uma imagem: os casos extremos são, por um lado, as imagens de filmes de cinema, em que os dois campos vêm da mesma imagem de cinema (pelo menos em sistemas de 50 Hz), e por outro lado, imagens de eventos esportivos de TV, onde as diferenças devido ao movimento entre os dois campos de uma imagem são importantes [5].

Modos MPEG-2 Específicos de Predição (Quadros Entrelaçados)

A sequência temporal da posição vertical das linhas pertencentes aos campos sucessivos em um sistema entrelaçado é mostrada na figura 4.7. Para a codificação de imagens intra-entrelaçadas, o padrão MPEG-2 permite escolher entre duas estruturas da imagem, um quadro e um campo [5].

Figura 7: Posição das linhas de campos sucessivos em um sistema entrelaçado Fonte: BENOIT, 2008

A estrutura de quadro (também chamada de progressiva) é mais adequada para casos onde há pouco movimento entre dois campos sucessivos. Macro blocos e blocos são cortados fora do quadro completo como mostra a figura 4.8, e assim a DCT é aplicada aos pontos verticais consecutivos separados entre si por 20ms (duração de um campo em sistemas de 50Hz), o que não é nenhum problema para as partes da imagem com pouco movimento. Neste modo, entretanto, é possível codificar os blocos mais animados em modo intercampo, o que significa o posicionamento dos blocos em apenas um bloco [5].

(16)

Figura 8: Corte de blocos de macro blocos (modo de quadro) Fonte: BENOIT, 2008

A estrutura do campo (também chamada de entrelaçada) é preferível quando há movimentos entre campos sucessivos. Neste caso, para evitar que um conteúdo de frequência vertical elevada reduza a eficiência da compressão na etapa seguinte a DCT, os macro blocos são cortados fora de um campo como o da figura 4.9, que é considerada uma imagem independente. No caso de estimativa de movimento, modos diferentes também são possíveis; um macro bloco pode ser previsto nos modos quadro, campo ou misto [5].

Figura 9: Corte de blocos fora de macro blocos (modo de campo) Fonte: BENOIT, 2008

Padrão de Compressão de Vídeo MPEG-4.1 (H.264/AVC)

Este padrão de compressão de vídeo é um resultado de estudos da Joint Video Team (JVT), contando com a participação dos membros da Video Coding Expert Group (VCEG) do I’IT-T e do Motion Pictures Expert Group (MPEG) da ISSO-IEC; por isso é conhecido com MPEG-4.1 e H.264. O padrão muitas vezes é referenciado como H.264/AVC (Advanced Video Coding) [5].

Esta norma, registrada sob o número ISO-IEC 14496-10, prevê um aumento considerável na eficiência de compressão MPEG-2 com um ganho de pelo menos 50%. Esta eficiência é muito importante no caso da televisão de alta definição (HDTV), que no padrão MPEG-2 requer uma taxa de bits de pelo menos 15 a 18 Mbit/s [5].

Este padrão de compressão de vídeo é utilizado no sistema SBTVD e também pode ser utilizado como alternativa nos outros três sistemas de TV Digital.

A norma H.264/AVC consiste em duas camadas: uma camada de codificação de vídeo, que representa na forma mais compacta possível o conteúdo de vídeo; uma camada de abstração de rede (NAL), que

(17)

formata a representação VCL na forma mais adequada para o seu destino (transporte ou armazenamento) [5].

A camada NAL formata os dados produzidos pelo VCL codificando em unidades NAL, que contém um número inteiro de bytes. Dependendo do destino da corrente gerada (corrente de transporte ou fluxo puro de bit), as unidades NAL são precedidas ou não por um prefixo no começo [5].

A parte VCL representa a codificação H.264 adequada. Tal como os padrões MPEG-1 e MPEG-2, o VLC é um compressor de quadros híbrido, que explora a dependência estatística temporal entre quadros sucessivos e compressão intra quadro. A compressão, por sua vez, explora a dependência espacial por meio de um método de codificação baseado em uma transformada da previsão residual. No modo misto, a previsão é feita por macro blocos pertencentes a dois quadros [5].

Assim como o padrão MPEG-2, o H.264 suporta a codificação de imagens entrelaçadas ou progressivas no formato 4:2:0, mas no caso do MPEG-4, uma sequência pode incluir ambos os tipos de quadros [5]. As últimas extensões do padrão H.264 (FRExt) permitem a codificação de imagens nos formatos 4:2:2 e 4:4:4, com diferentes espaços de cores (YCbCr, RGB, YCgCo) e possibilitam uma precisão superior a 8 bits (10 ou 12) para as amostras de vídeo [5].

A melhor eficiência do padrão H.264 sobre o MPEG-2 não é resultado de um algoritmo revolucionário, mas de um acréscimo de múltiplas melhorias relativamente pequenas, se analisadas separadamente [5]. Este resultado tem sido obtido através da utilização das seguintes características: modos de predição mais sofisticados, podendo variar dentro de um quadro, referindo-se a um número maior de imagens sucessivas; uma transformada inteira, em vez do DCT, utilizando blocos de 4x4 e 8x8; uma codificação de entropia adaptável mais eficiente (CAVLC e CABAC) [5].

A codificação utilizando entropia (quantidade média de informação de uma mensagem) é do tipo adaptável ao contexto e pode usar dois modos, CABAC (Context-Adaptive Binary Arithmetic Coding) e CAVLC (Context-Adaptive Variable-Length Coding). Cabac permite uma redução de aproximadamente 10 a 15% na taxa de bits necessárias de um quadro com qualidade equivalente em relação ao CAVLC, que é significativamente mais eficiente do que o VLC do padrão MPEG-2 [5].

A utilização de novas ferramentas, PicAFF (Adaptive Picture Frame Field) e MBAFF (Adaptive macrobloco Frame Field), permite a otimização do processamento de imagens entrelaçadas [5].

Finalmente, um filtro de desbloqueio permite uma redução na visibilidade dos blocos e macro blocos, um inconveniente comum nos sistemas de compressão de vídeo, fornecendo uma redução de 5 a 10% na taxa de bits em imagens com qualidade subjetivas [5].

Assim como o padrão MPEG-2, a norma H.264 compreende muitos perfis e níveis, que são descritos na tabela 4.1. Os perfis definem a complexidade do conjunto de ferramentas escolhidas [5].

(18)

Tabela 1: Ferramentas de codificação de diferentes perfis do padrão H.264

FERRAMENTAS DE CODIFICAÇÃO BASE PRINCIPAL ESTENDIDO ALTO

Fatia I e P X X X X

CAVLC X X X X

CABAC X X

Fatias B X X X

Imagem entrelaçada (PicAFF, MBAFF) X X X

Erro de ressalto (FMO, ASO, RS) X X

Erro de ressalto enhanced (DP) X

Fatia SP e SI X

Transformada em 8x8 ou 4x4 bloco X

Adaptação de matrizes de quantificação X

Controle QP separado para Cb e Cr X

Formato de vídeo monocromático X

Fonte: BENOIT, 2008

O perfil alto foi o último adicionado ao padrão, que originalmente contava com três perfis. Ele é uma extensão do perfil principal que aumenta a eficiência por meio do Fidelity Range Extensions (FRExt). O perfil alto é composto por quatro subperfis, dos quais apenas o primeiro é mostrado na tabela 4.1, pois é o que se destina a aplicações de transmissões. Com relação aos níveis, eles correspondem à resolução do quadro e escala de 1 (QCIF) a 5 (1Kx2K), com muitos níveis intermediários. A tabela 4.2 detalha os vários níveis [5].

Tabela 2: Níveis do padrão H.264

NÍVEL H.264 TAMANHO DA IMAGEM IMAGENS / SEGUNDOS TAXA DE BITS MÁX (bit/s) REF QUADROS MÁX 1 QCIF 15 64K 4 1.b QCIF 15 128K 4

1.1 CIF ou QCIF 7,5(CIF)/(30QCIF) 192K 2(CIF)/9(QCIF)

1.2 CIF 15 384K 6 1.3 CIF 30 768K 6 2 CIF 30 2M 6 2.1 HHR(480i/576i) 30 ou 25 4M 6 2.2 SD(720∗480i/576i) 15 4M 5 3 SD(720∗480i/576i) 30 ou 25 10M 5 3.1 1280x720p 30 14M 5 3.2 1280x720p 60 20M 4 4 720/1080p 60 ou 50/30 ou 25 20M 4 4.1 720/1080p 60 ou 50/30 ou 25 50M 4 4.2 1920x1080p 60 50M 4 5 2k*1K 72 135M 5 5.1 2K*1K ou4K*2K 120/ 130 240M 5 Fonte: BENOIT, 2008

(19)

Compressão de Sinais de Áudio MPEG

O padrão de áudio MPEG-1 descreve um algoritmo apropriado para a codificação de um sinal de áudio monofônico ou estéreo com uma largura de banda de até 24KHz. O algoritmo é dividido em três níveis de complexidade de codificação, chamado de camadas. O algoritmo da camada I é o mais simples em termos de complexidade computacional e exige a maior taxa de bits para produzir um sinal de áudio com qualidade. Os algoritmos das camadas II e III incluem componentes adicionais que aumentam a complexidade do algoritmo da camada I, mas a taxa de bits necessária para produzir um sinal de áudio com qualidade é menor [5].

A especificação desse padrão ocorreu em 1993 e os algoritmos utilizados nesse padrão são o MUSICAM para camada I e II e o ASPEC para camada III[5].

O padrão de áudio MPEG-2 é uma extensão do algoritmo de codificação do padrão MPEG-1.

O padrão de codificação de áudio MPEG-2 contém dois algoritmos completamente distintos. O primeiro algoritmo foi projetado para ser compatível com o padrão MPEG-1 e é chamado de MPEG-2 BC. Foi referendado como padrão em 1995. O segundo algoritmo é conhecido como MPEG-2 AAC e foi adicionado ao padrão MPEG-2 em 1997 [5].

A norma MPEG-2 BC utiliza os mesmos algoritmos do padrão MPEG-1, mas tem funcionalidades adicionais que permitem a entrada de taxas menores de amostragem para sinais de áudio. Essa norma foi implementada no sistema DVB de TV Digital [5].

O algoritmo MPEG-2 AAC foi implementado para técnicas de compressão mais recentes, mantendo a compatibilidade com as versões anteriores. Essa norma é utilizada no sistema japonês ISDB de TV Digital [5].

Camadas de Áudio MPEG

O padrão MPEG define três camadas de codificação com diferentes taxas de compressão para a qualidade de áudio percebida [5].

A camada I utiliza o algoritmo PASC (Precision Adaptative Sub-Band Coding) que foi desenvolvido pela Philips para a DCC cassete de áudio digital. Utiliza a taxa de bits fixa escolhida entre 14 possíveis que vão de 32 a 448 kbit/s; para uma qualidade hi-fi necessita de 192 Kbit/s por canal de áudio, e, portanto 384 Kbit/s para estéreo. A principal vantagem dessa camada é a simplicidade do codificador e do decodificador [5].

O modelo psicoacústico utilizado é conhecido como modelo 1. A precisão dos coeficientes de quantização de sub-banda é definida para a duração do quadro de 4 bits, que permite uma codificação de 0 a 15 bits de cada sub-banda, e o fator de 6 bits de escala para todo quadro [5].

A camada II utiliza um algoritmo conhecido como MUSICAM que foi desenvolvido para o rádio digital europeu (DAB, Digital Audio Broadcasting). Para uma qualidade de áudio equivalente, a camada II necessita de 30 a 50% de taxa de bits a menos que a camada I, pois é acrescentada uma complexidade nos codificadores e decodificadores. A taxa de bits fixa varia de 32 a 192 Kbit/s por canal e para uma qualidade hi-fi necessita de 128 Kbit/s por canal e para estéreo 256 Kbit/s [5].

O modelo psicoacústico utilizado é o mesmo que para a camada I (modelo 1),mas a duração do quadro é três vezes maior. A fim de reduzir a taxa de bits, a precisão dos coeficientes de quantização de sub-banda diminui com a frequência (quantização definida em 4 bits para bandas baixas, 3 bits de bandas médias e 2

(20)

bits de bandas altas) em vez do formato fixo utilizado na camada I. Além disso, duas ou três amostras consecutivas de sub-banda podem ser agrupadas e codificadas com o mesmo coeficiente [5].

A camada III utiliza o formato MP3, que foi desenvolvido utilizando um modelo diferente de psicoacústica (modelo 2), e a analise do sinal é baseada na codificação Huffmann e na DCT, diferentemente das camadas I e II que utilizam a codificação de sub-banda. Para uma qualidade determinada, a taxa de compressão obtida com a camada III é aproximadamente o dobro da camada II, mas os codificadores e decodificadores são substancialmente mais complexos e a codificação/decodificação no tempo é muito mais longa. A qualidade hi-fi requer apenas 64 kbit/s por canal (128 kbit/s para estéreo) [5].

Formato do Quadro de Áudio MPEG

O quadro de áudio é a unidade elementar de acesso a uma sequência de áudio MPEG. É composto por quatro partes: um cabeçalho de 32 bits, paridade (CRC) sobre 16 bits, dados de áudio de comprimento variável e dados auxiliares de comprimento variável [5].

Formato do Quadro da Camada I

O quadro da camada I do padrão MPEG é mostrado na figura 4.10 e representa 384 amostras PCM do sinal de áudio, contendo 12 amostras sucessivas de sub-banda. Como o número de amostras é independente da frequência de amostragem, a duração do quadro é inversamente proporcional à frequência de amostragem. Esta duração é de 12 ms para 32 KHz, 8,7 ms para 44,1KHz e 8ms para 48 KHz [5].

Figura 10: Representação simplificada de um quadro MPEG de áudio da camada I Fonte: BENOIT, 2008

Formato do Quadro da Camada II

Neste caso, o quadro é formado por 12 subquadros, como mostra a figura 4.11, representando 96 (3x32) amostras PCM do sinal de áudio, totalizando 1152 amostras. A duração é três vezes a duração do quadro da camada I, ou seja, 36 ms para 32 KHz, 26,1 ms para 44,1 KHz, 24 ms para 48 KHz. A parte de áudio do quadro da camada II é diferente da camada I e sua alocação de bits é mais complexa devido às numerosas opções de codificação [5].

(21)

Figura 11: Representação simplificada de um quadro MPEG de áudio da camada II Fonte: BENOIT, 2008

Padrão de Áudio Dolby Digital AC3

Este padrão descreve um algoritmo apropriado para a codificação de áudio com formatos de 5.1 canais, com uma taxa de dados de 32 a 640 Kbit/s. O algoritmo de codificação AC-3 baseia-se no algoritmo de codificação AC-2 desenvolvido em 1989 e permite comprimir os fluxos de áudio com fator de 10 a 12 com uma amostragem de 16 bits a 48 KHz [3].

Em fevereiro de 1992, o ATSC recomendou o uso de um sinal de áudio com 5.1 canais para o serviço de HDTV. O AC3 foi o padrão escolhido para fornecer esse sinal de áudio. Entretanto, as exigências colocadas por um codificador para prover as aplicações de TV Digital são mais diversificadas do que para um codificador destinado às aplicações de cinema digital, que foi onde o AC3 era utilizado. Assim foi feita uma melhoria no algoritmo base do AC3 para prover o serviço de TV Digital. Foram incluídos recursos para prover uma variedade maior de taxa de bits de saída, capacidade de sintetizar os 5.1 canais de saída para menos canais e reproduzir o sinal de saída com uma variedade dinâmica restringida. No final de 1993, o algoritmo de codificação AC3 foi recomendado para o uso no sistema de TV digital ATSC. O padrão foi publicado em 1994 e revisado em 2001 com algumas modificações quanto ao fluxo de bits alternados [3].

O primeiro passo desse padrão é transformar uma sequência de amostras da entrada de áudio em um bloco de coeficientes de frequência. Isto é feito através de uma transformada no domínio do tempo chamada de TDAC. Em seguida, cada bloco do coeficiente de frequência é representado no formato de ponto flutuante como um expoente e uma mantissa. O expoente atua com um fator de escala para a mantissa e indica o número de zeros na representação inteira do coeficiente binário. Os valores do expoente podem variar de 0 a 24. O conjunto dos expoentes é também utilizado como uma aproximação da densidade espectral do sinal e é referido como o envelope espectral do sinal. Este envelope espectral é utilizado no processo de atribuição de bits para determinar o tamanho do quantizador para mantissa de cada coeficiente. O processo de atribuição de bits utiliza um modelo de mascaramento de frequência para determinar a precisão necessária para cada mantissa [3].

Um fluxo de bits AC3 consiste de uma sequência de quadros de sincronização. Cada quadro de sincronização inclui seis blocos de áudio, cada um contendo os dados codificados representando 256 amostras de uma nova entrada. Cada quadro de sincronização começa com um cabeçalho com uma informação de sincronização (SI), contendo informações do cabeçalho necessárias para adquirir e manter a sincronização, e um cabeçalho com informações de fluxo de bits contendo parâmetros que descrevem o serviço de áudio codificado. O quadro de sincronização termina com um campo de verificação de erro que contém um CRC utilizado para detecção de erros, e um campo de dados auxiliar (AUXI) que pode ser incluído após os blocos codificados de áudio [3].

(22)

Resumo

As seções Compressão partes 1 e 2 tratam dos padrões de compressão utilizados em TV Digital. Para isso é feito um estudo sobre os princípios gerais de compressão de dados. Logo em seguida são estudados os padrões de compressão de imagens fixas e seus respectivos algoritmos. Esse estudo se faz necessário para entender o funcionamento dos padrões de compressão de imagens em movimento, pois são derivados dos padrões descritos anteriormente. O padrão MPEG-1 serve de base para os padrões utilizados na compressão de sinais de vídeo. Dentro disso é feito uma analise e explicação detalhada de como é feita a codificação nesse padrão. São explicados os tipos de quadros existentes nesse padrão, os tipos de algoritmos utilizados, e como é feita a decomposição de uma sequência de vídeo MPEG. O padrão MPEG-2 de vídeo é baseado no padrão MPEG-1, ele acrescenta algumas ferramentas ao MPEG-1, e é compatível ao MPEG-1. A grande diferença desses padrões é que o MPEG-2 foi projetado para suprir a carência do MPEG-1 que é tratar da codificação de quadros entrelaçados. Logo após é descrito o padrão de compressão MPEG-4.1 que é utilizado no sistema brasileiro de TV Digital. Esse padrão tem uma eficiência de 50% em relação ao MPEG-2. É um padrão que serve como alternativa para todos os sistemas de TV Digital.

Na seção Compressão – parte 2 são ainda apresentados os padrões de codificação de áudio, dando ênfase ao MPEG-2 e ao Dolby AC-3.

(23)

TV Digital II: Modos de Transmissão e Modulação

Na TV Digital os sinais digitais podem ser irradiados por diferentes meios. Os meios utilizados nos sistemas de TV digital são o meio terrestre, via-satélite e via cabo.

No meio terrestre, os sinais são transmitidos no ar por ondas de radiofrequência. Este é o meio que está em fase de implantação no Brasil devido ao custo econômico mais baixo, necessitando da adaptação por parte das emissoras de televisão e da aquisição dos receptores por parte dos consumidores.

No meio via-satélite, os sinais são transmitidos por um satélite e necessitam de uma antena parabólica específica e um receptor para recepção. Aqui no Brasil há alguns satélites com transmissões digitais abertas e há transmissões por assinaturas de operadoras de TV em que o usuário efetua uma assinatura e recebe o sinal através de uma antena parabólica específica e um receptor.

No meio via-cabo, os sinais são transmitidos através de uma rede de cabos convencionais que vão até a casa dos assinantes, que necessitam de receptor para sua recepção. Esses serviços são oferecidos por operadoras de televisão por assinatura. Atualmente é o meio mais utilizado mundialmente.

Dependendo do meio utilizado (terrestre, satélite, cabo) a largura de banda disponível para transmissão depende de técnicas e considerações de ordem administrativa. As condições técnicas, em especial a relação sinal-ruído, têm uma variação considerável entre os sinais provenientes de um satélite (sinal fraco, mas estável, que provém de transmissor de energia localizado a mais de 36000 km de distância), de uma rede de cabos (onde os sinais são geralmente fortes e estáveis) e de um transmissor terrestre onde as condições variam bastante, especialmente no caso de recepção móvel [5].

Para uma recepção satélite, a relação sinal-ruído pode ser muito pequena (10 dB ou menos), mas o sinal dificilmente sofre o efeito de ecos [5].

Para recepção via cabo, a relação sinal-ruído é muito forte (geralmente 30 dB), mas o sinal pode ser afetado por ecos devido à incompatibilidade de impedância da rede [5].

No caso da recepção terrestre, as condições são mais difíceis, especialmente se a recepção móvel com antenas simples é necessária (ecos variáveis devido à multicaminhos, interferência e importantes variações no nível do sinal) [5].

Por essas razões as técnicas de modulação têm que ser diferente, de modo que possam ser otimizadas para restrições específicas da transmissão do canal e ter compatibilidade com transmissões analógicas existentes [5].

Para o satélite a largura do canal é geralmente de 27 a 36 MHz, porque há necessidade de utilização de frequência modulada (FM) para a transmissão de um programa de TV analógica (largura de banda de 6 a 8 MHz associados com as portadoras de áudio), devido à baixa relação sinal-ruído descrita anteriormente [5].

Para uma rede de cabos ou terrestre, a largura do canal varia de 6 a 8 MHz, devido ao uso de AM com uma faixa lateral vestigial (VSB) para vídeo e uma ou mais portadoras de áudio [5].

As transmissões digitais precisaram se adequar às transmissões analógicas com relação à largura do canal. Modulação de Sinais Digitais

(24)

eficiência espectral da modulação. Entretanto, sem filtragem, o espectro da frequência dos sinais digitais é teoricamente infinito, o que implicaria em uma largura de banda infinita para sua transmissão, o que não é possível. A filtragem será obrigada a limitar a largura de banda necessária, e ela é escolhida de forma a aperfeiçoar o desempenho da cadeia de transmissão global. A limitação da largura de banda de um sinal resulta em um aumento teoricamente infinito da sua resposta temporal, que, sem precauções especiais, resulta em sobreposições entre os símbolos sucessivos, e isto se chama interferência inter-símbolo (ISI) [5].

Para evitar esse problema, a filtragem deve satisfazer o primeiro critério de Nyquist, para que a resposta temporal apresente zeros às vezes que são múltiplas do período T do símbolo. O filtro mais comum utilizado é o filtro de Nyquist. Para aperfeiçoar a largura de banda necessária e a relação sinal-ruído, a filtragem é dividida em partes iguais entre o transmissor e o receptor. Esta filtragem é caracterizada pelo fator de roll-off, α, que define a sua inclinação[5].

Para um sinal com um período T de símbolo, a largura de banda B ocupada após a filtragem de Nyquist com roll-off é dada pela relação [5]:

(3)

Tipos de Modulações Digitais

Para transmitir os sinais digitais são utilizadas técnicas de modulações digitais que são obtidas através da variação de amplitude, frequência e fase.

Modulação por Chaveamento de Amplitude ASK

A modulação ASK (Amplitude Shift Keying) consiste na modificação do nível de amplitude da onda portadora em função do sinal digital de entrada a ser transmitido. O sinal modulante assume um dos dois níveis discretos da fonte de informação (nível lógico 0 ou 1). As principais características dessa modulação são: facilidade de modulação e demodulação, pequena largura de faixa e baixa imunidade a ruídos. Por possuir essas características ela é indicada nas situações em que exista pouco ruído para interferir na recepção do sinal ou quando o custo baixo é essencial. A figura 5.1 mostra o esquema de modulação ASK [13].

Figura 12: Modulação ASK Fonte: UFRGS (2010 A)

(25)

Modulação por Chaveamento de Frequência FSK

A modulação FSK (Frequency Shift Keying) consiste na variação da frequência da onda portadora em função do sinal digital a ser transmitido. A amplitude da onda portadora é constante durante o processo de modulação e a onda resultante varia a sua frequência conforme os níveis lógicos do sinal modulante. A principal característica dessa modulação é a boa imunidade a ruídos, mas necessita de uma maior largura de banda. A figura 5.2 mostra o esquema da modulação FSK [14].

Figura 13: Modulação FSK Fonte: UFRGS (2010 B) Modulação por Chaveamento de Fase PSK

A modulação PSK (Phase Shift Keying) consiste na variação da fase da onda portadora em função do sinal digital a ser transmitido. Quando ocorre uma mudança de nível lógico do sinal a ser transmitido há uma mudança na fase da onda portadora para indicar a mudança do nível lógico do sinal a ser transmitido. Essa modulação é a que apresenta melhor imunidade a ruídos e um significativo aumento da velocidade de transmissão. A figura 5.3 apresenta um esquema da modulação PSK [16].

Figura 14: Modulação PSK Fonte: UFRGS (2010 C)

(26)

Modulações Utilizadas em TV Digital

Os sistemas de Televisão utilizam modulações com base nas descritas acima e elas são escolhidas pelas características dos meios de transmissão dos quais vão ser irradiados.

Modulação de Amplitude em Quadratura QAM

Essa modulação QAM (Quadrature Amplitude Modulation) é uma combinação entre as modulações ASK e PSK. Isso significa que há variação de fase e amplitude na onda portadora de acordo com a informação digital a ser transmitida [5].

A fim de aumentar a eficiência espectral do processo de modulação, diferentes tipos de modulação de amplitude em quadratura são utilizados. Essas modulações foram desenvolvidas inicialmente para transmitir dois sinais analógicos independentes em uma portadora [5].

Para formar o sinal é utilizada uma portadora que recebe um nível de amplitude Q determinado pela informação a ser transmitida;m seguida a portadora é defasada em 90º e recebe outro nível de amplitude I determinado pela informação. A seguir esses níveis são somados pela equação S(t) = Q sen(ωt) + I

cos(ωt) para gerar o sinal QAM. O resultado desse processo pode ser representado por uma constelação

de pontos no espaço Q e I representando os valores que eles podem assumir. A tabela 5.1 apresenta as principais características e a denominação de alguns esquemas de modulação em quadratura em função do número de bits para cada um dos sinais I e Q [5].

Tabela 3: Principais características da modulação em quadratura

I / Q CODIFICAÇÃO (BITS) BITS / SÍMBOLO Nº DE ESTADOS ABREVIAÇÃO

1 2 4 QPSK=4-QAM

2 4 16 16-QAM

3 6 64 64-QAM

4 8 256 256-QAM

Fonte: BENOIT, 2008

A modulação 16-QAM indica que cada símbolo é formado por 4 bits de informação o que resulta em 16 símbolos. A modulação 32-QAM indica que cada símbolo é formado por 5 bits de informação resultando em 32 símbolos. Esses tipos de modulação são utilizados no sistema DVB na transmissão via micro-ondas utilizando frequências abaixo de 10 GHz.

Já a modulação 64-QAM apresenta 6 bits de informação resultando em 64 símbolos. Essa modulação é utilizada nos sistemas ATSC, DVB, e ISDB nos modos de transmissão via cabo, e no sistema europeu na transmissão via micro-ondas utilizando frequências abaixo de 10 GHz.

A figura 5.4 mostra a constelação da modulação 64-QAM. Esses símbolos representam a situação na saída do modulador, onde cada ponto é bem distinto dos seus vizinhos, de modo que não há ambiguidade quanto ao valor simbólico a este nível [5].

(27)

Figura 15: Constelação de um sinal 64-QAM Fonte: BENOIT, 2008

Modulação QPSK

Como vimos à modulação PSK varia a fase da onda portadora em função do sinal digital a ser transmitido. O QPSK é uma modulação que além de variar a fase da portadora varia também a quadratura da onda portadora para transmitir o sinal de informação. A utilização de dois parâmetros permite a transmissão de mais bits por símbolo. Por exemplo, na transmissão de 2 bits por símbolo, teremos 4 tipos de símbolos possíveis, com a portadora assumindo 4 valores diferentes de fase, cada um deles correspondendo a um dibit, como por exemplo, 45º, 135º, 225º, e 315º. Esse tipo de modulação é utilizada nos sistemas ATSC e DVB na transmissão via satélite, e no sistema DVB na transmissão via micro-ondas utilizando frequências acima de 10 GHz. A figura 5.5 ilustra uma constelação QPSK [15].

Figura 16: Constelação QPSK Fonte: BENOIT, 2008

A modulação 8-PSK é a que a onda portadora pode transmitir 3 bits por símbolos, totalizando 8 tipos de símbolos possíveis. É utilizada no sistema DVB na transmissão via satélite.

(28)

Modulação AM-DSB/SC

É uma modulação com variação da amplitude do sinal senoidal em função do sinal modulador. A frequência e a fase da portadora são mantidas constantes. Na modulação AM-DSB/FC (Amplitude Modulation Double Sideband / Full Carrier) além da portadora são transmitidas as bandas laterais que é onde estão contidas as mensagens do sinal. Na modulação AM-DSB/SC (Amplitude Modulation Double Sideband Supressed Carrier) a portadora é suprimida e são enviadas as bandas laterais que contém as mensagens do sinal. A partir daí foram criadas as modulações AM-SSB (Amplitude Modulation Single Side Band) onde apenas uma das bandas laterais é transmitida, e a AM-VSB (Amplitude Modulation- Vestigial Side Band), onde uma das bandas é transmitida quase por inteira e a outra é parcialmente suprimida [11].

Modulações Utilizadas no Modo de Transmissão por Radiodifusão

Os sistemas de TV Digital estudados nesse trabalho utilizam dois tipos de modulações no modo de transmissão por radiodifusão. O sistema ATSC utiliza uma modulação chamada 8-VSB que é chamado de sistema de monoportadora. O sistema DVB utiliza a modulação OFDM que é uma técnica que é chamada de multiportadora. Os sistemas ISDB e SBDTV utilizam também a modulação multiportadora OFDM com o acréscimo da segmentação de banda. Nesses três sistemas é acrescentada ao OFDM a codificação de canal, que é a técnica de correção de erros resultando na técnica chamada COFDM. Essas duas técnicas são utilizadas para transmitir o sinal por radiodifusão serão descritas a seguir.

OFDM (Orthogonal Frequency Division Multiplexing)

O princípio desta modulação envolve a distribuição de um fluxo contínuo de uma alta taxa de dados sobre um elevado número de portadoras ortogonais. Cada uma das portadoras carrega uma baixa taxa de bits. As principais vantagens da utilização do OFDM são: eficiência espectral, imunidade à interferência e ao desvanecimento [6].

A modulação OFDM consiste na modulação, com símbolos de duração Ts (em QPSK ou QAM, dependendo do compromisso entre a taxa de bits e a robustez), de um alto número N de portadoras com espaçamento de 1/ Ts entre duas portadoras consecutivas. Isso determina a condição de ortogonalidade entre as portadoras e o espectro pode ser visto na figura 5.6; para uma frequência central de uma portadora dada, o espectro das portadoras em sua volta apresenta um cruzamento em zero [5].

Referências

Documentos relacionados

17 CORTE IDH. Caso Castañeda Gutman vs.. restrição ao lançamento de uma candidatura a cargo político pode demandar o enfrentamento de temas de ordem histórica, social e política

História Protótipo Casos de Teste Refinamento Planning Build Geração de Massa Testes Homologação Responsável: time de QA Entradas: • Histórias; • Protótipos; • Casos

A Lei de Proteção de Vegetação Nativa (Lei Federal nº12.651/2012), comumente denominada novo Código Florestal, tornou-se o principal marco regulatório da política

The Supreme Court upheld the exemption of small properties (up to four fiscal models) from restoring the Legal Forest Reserve deficits when these areas were deforested prior to

O primeiro bloco tem a função de adicionar um atraso apropriado como mostra a tabela 3, já que o entrelaçador de bits, que tem como função realizar um

Algumas ferramentas de s´ıntese s˜ao capazes de mapear a linguagem de descric¸˜ao de hardware diretamente em determinados circuitos integrados [13], como ´e o caso da ferramenta

Apesar de não ter sido desenvolvido ou implementado algum sistema de melhoria, este trabalho serve como base fundamental para trabalhos futuros, onde seja

A anotação que se faz sobre tais normas é que, da forma como estão sendo elaboradas, privilegiam muito mais a manutenção de um sistema de visitação turística que é elitista e