• Nenhum resultado encontrado

Algoritmos para avaliação da qualidade de vídeo em sistemas de televisão digital

N/A
N/A
Protected

Academic year: 2017

Share "Algoritmos para avaliação da qualidade de vídeo em sistemas de televisão digital"

Copied!
96
0
0

Texto

(1)

ALGORITMOS PARA AVALIAC

¸ ˜

AO DA

QUALIDADE DE V´IDEO EM SISTEMAS DE

TELEVIS ˜

AO DIGITAL

(2)

ALGORITMOS PARA AVALIAC

¸ ˜

AO DA

QUALIDADE DE V´IDEO EM SISTEMAS DE

TELEVIS ˜

AO DIGITAL

Disserta¸c˜ao apresentada `a Escola

Polit´ecnica da Universidade de S˜ao Paulo para obten¸c˜ao do T´ıtulo de Mestre em Engenharia El´etrica.

(3)

ALGORITMOS PARA AVALIAC

¸ ˜

AO DA

QUALIDADE DE V´IDEO EM SISTEMAS DE

TELEVIS ˜

AO DIGITAL

Disserta¸c˜ao apresentada `a Escola

Polit´ecnica da Universidade de S˜ao Paulo para obten¸c˜ao do T´ıtulo de Mestre em Engenharia El´etrica.

´

Area de Concentra¸c˜ao:

3142 - Sistemas Eletrˆonicos

Orientador:

Prof. Dr. Miguel Arjona Ram´ırez

(4)
(5)

A Deus, pela vida.

Ao meu orientador, Prof. Dr. Miguel Arjona Ram´ırez, pela confian¸ca, ori-enta¸c˜ao e incentivo durante todo o trabalho de pesquisa.

Ao Prof. Dr. Hae Yong Kim e Prof. Dr. Fl´avio Cipparrone, pelas grandes contribui¸c˜oes na qualifica¸c˜ao deste trabalho.

A Profa. Dra. Myl`ene Christine Queiroz de Farias, pelas valiosas contri-bui¸c˜oes e incentivo ao longo deste trabalho.

A todos os colegas da DIRECTV e SKY, pelo apoio, confian¸ca e credibilidade em mim depositadas, em especial a toda a equipe da Engenharia, ao Diretor e acima de tudo amigo, Luis Ot´avio Marchezetti, por acreditar e apoiar desde o in´ıcio a realiza¸c˜ao deste trabalho e Alexandre Hotz Moret, pela meticulosa revis˜ao e significativas contribui¸c˜oes.

Aos amigos que tive o privil´egio de conhecer durante o curso, em especial Fernando Moreto e Edmila Montezani, pelo apoio m´utuo em todos os momentos.

A todos os meus familiares e amigos, que de certa forma participaram junto comigo, me apoiando e dando incentivo, principalmente nos momentos finais deste trabalho.

A minha m˜ae Moema Marques Nery da Fonseca, pelo exemplo de coragem e for¸ca de vontade.

Ao meu filho Eduardo, pela compreens˜ao em todos os momentos de ausˆencia e alegria nos momentos de convivˆencia.

(6)

Nesta disserta¸c˜ao ´e abordado o tema da avalia¸c˜ao de qualidade em sinais de v´ıdeo, especificamente da avalia¸c˜ao objetiva completamente referenciada de sinais de v´ıdeo em defini¸c˜ao padr˜ao. A forma mais confi´avel de se medir a di-feren¸ca de qualidade entre duas cenas de v´ıdeo ´e utilizando um painel formado por telespectadores, resultando em uma medida subjetiva da diferen¸ca de quali-dade. Esta metodologia demanda um longo per´ıodo de tempo e um elevado custo operacional, o que a torna pouco pr´atica para utiliza¸c˜ao. Neste trabalho s˜ao apresentados os aspectos relevantes do sistema visual humano, das metodologias para avalia¸c˜ao de v´ıdeo em aplica¸c˜oes de televis˜ao digital em defini¸c˜ao padr˜ao e tamb´em da valida¸c˜ao destas metodologias. O objetivo desta disserta¸c˜ao ´e testar m´etricas de baixo custo computacional como a que avalia a rela¸c˜ao sinal-ru´ıdo de pico (PSNR: Peak Signal-to-Noise Ratio), a que mede similaridade estrutural (SSIM: Structural SIMilarity) e a que mede diferen¸cas em trˆes componentes de cor definidas pela CIE (Commission Internationale de l’Eclairage), representadas por L∗, a∗ e b∗ em uma dada extens˜ao espacial (S-CIELAB: Spatial-CIELAB). Uma metodologia de valida¸c˜ao destas m´etricas ´e apresentada, tendo como base as cenas e resultados dos testes subjetivos efetuados pelo Grupo de Especialistas em Qualidade de V´ıdeo (VQEG: Video Quality Expert Group). A estas m´etricas ´e introduzida uma etapa de prepara¸c˜ao das cenas, na qual s˜ao efetuadas equa-liza¸c˜ao de brilho, suaviza¸c˜ao de detalhes e detec¸c˜ao de contornos. Controlando-se a intensidade destes filtros, um novo conjunto de medidas ´e obtido. Compara¸c˜oes de desempenho s˜ao realizadas entre estes novos conjuntos de medidas e o conjunto de medidas obtido pelo VQEG. Os resultados mostram que para aplica¸c˜oes em televis˜ao digital de defini¸c˜ao padr˜ao, a avalia¸c˜ao utilizando componentes de cor pouco influencia na correla¸c˜ao com as medidas obtidas nos testes subjetivos. Por outro lado, foi verificado que a aplica¸c˜ao adequada de t´ecnicas para suaviza¸c˜ao de imagens, combinadas com m´etricas de f´acil implementa¸c˜ao como a SSIM, ele-vam seu grau de correla¸c˜ao com medidas subjetivas. Tamb´em foi demonstrado que t´ecnicas para extra¸c˜ao de contornos, combinadas com a m´etrica PSNR, po-dem aumentar significativamente seu desempenho em termos de correla¸c˜ao com os testes efetuados pelo VQEG. `A luz destes resultados, foi conclu´ıdo que me-didas objetivas de f´acil implementa¸c˜ao do ponto de vista computacional podem ser usadas para compara¸c˜ao da qualidade de sinais de v´ıdeo SDTV, desde que devidamente combinadas com t´ecnicas para adequa¸c˜ao ao sistema visual humano como a suaviza¸c˜ao e extra¸c˜ao de contornos.

(7)

This research is about the video signal quality comparison issue, focusing at full reference metrics using standard definition television. The most reliable way to predict the differences in terms of quality between two video scenes is using a panel of television viewers, under controlled psychometric experimental conditions, resulting in statistical meaningful Differences in Mean Opinion Score (DMOS). The Subjective assessment is both time consuming and costly, therefore with practical limitations. The ideal substitute are objective quality assessment algorithms, whose scores have been shown to correlate highly with the results of DMOS. The goal for this research is to optimize the performance of simple met-rics combining it with digital image processing. First this work presents many relevant aspects of the human visual system, methodologies for video evaluation in digital television applications using standard definition (SDTV) and also a val-idation methodology of these methods. After that, the main goal is to test three very simple metrics in terms of computational cost: PSNR (Peak Signal-to-Noise Ratio), SSIM (Structural SIMilarity) and S-CIELAB (Spatial-CIELAB). Origi-nal metrics were modified in order to improve their correlations with subjective assessment data. Several experiments combining the advantages of digital image filters for softness and edge extraction have been carried out within this work. The results show that such simple metrics combined with digital image process-ing for edge extraction, for example, do improve their correlations with subjective assessment.

(8)

1 Processo para compara¸c˜ao do desempenho de m´etricas para

ava-lia¸c˜ao da qualidade de v´ıdeo . . . 22

2 Representa¸c˜ao do olho: (a) Esquema ilustrativo de uma retina hu-mana (b) Diagrama mostrando o caminho entre os fotorreceptores, na parte inferior, at´e o nervo ´optico, na parte superior . . . 25

3 Fun¸c˜ao de sensibilidade ao contraste espacial . . . 27

4 Gr´afico de convers˜ao para valores de Y /Yn em L∗ . . . . 29

5 Sensibilidade espectral dos cones S, M e L . . . 30

6 Teoria das cores opostas . . . 30

7 (a) Fun¸c˜ao de ajustamento de cor segundo CIE 1931 e (b) Dia-grama de cromaticidade obtido . . . 32

8 Representa¸c˜ao dogamut de cores dos sistemas NTSC 1953 e NTSC atual no diagrama de cromaticidade CIE 1931 . . . 35

9 Obten¸c˜ao de um sinal de v´ıdeo composto . . . 37

10 Forma de onda de um sinal de v´ıdeo composto . . . 39

11 Representa¸c˜ao vetorial das componentes de cor em um sinal de v´ıdeo composto . . . 40

12 Espa¸cos de cor usados em um sistema de televis˜ao digital . . . 41

(9)

volu¸c˜ao com filtro Laplaciano e (d) Detec¸c˜ao de borda usando a

convolu¸c˜ao com filtro LoG (Laplaciano do Gaussiano) . . . 48

15 Diagrama simplificado para obten¸c˜ao de uma medida objetiva de qualidade do sinal de v´ıdeo completamente referenciada . . . 52

16 Diagrama simplificado para medi¸c˜ao da similaridade estrutural en-tre duas imagens . . . 55

17 Diagrama simplificado para medi¸c˜ao da diferen¸ca de cores entre duas imagens no espa¸co S-CIELAB . . . 59

18 Gr´afico de dispers˜ao obtido usando SCIELAB para avalia¸c˜ao: (a) Imagens est´aticas e (b) Cenas de v´ıdeo . . . 61

19 Diagrama geral para compara¸c˜ao entre avalia¸c˜ao objetiva e subjetiva 62 20 Diagrama geral dos experimentos realizados . . . 65

21 M´odulo da correla¸c˜ao linear de Spearman para cada quadro (a) PSNR e (b) SSIM . . . 74

22 Coeficiente de correla¸c˜ao n˜ao-linear . . . 79

23 Esquema para gera¸c˜ao das cenas degradadas . . . 83

24 Primeiro quadro de cada cena utilizada . . . 84

25 Ordem para apresenta¸c˜ao das seq¨uˆencias . . . 87

(10)

1 Canais para transporte de cores opostas . . . 31

2 Coordenadas x ey no diagrama de cromaticidade CIE1931 . . . . 34

3 Identifica¸c˜ao das cenas utilizadas . . . 63

4 Resultados obtidos pelo VQEG para as cenas padr˜ao M (60Hz). . 71

5 Desempenho das m´etricas PSNR, SSIM e ∆Es (S-CIELAB) . . . 72

6 Contribui¸c˜ao de cada cena para o erro rms total . . . 72

7 Desempenho de cada m´etrica em fun¸c˜ao da quantidade de quadros

usados . . . 75

8 Valores m´ınimo e m´aximo para normaliza¸c˜ao de brilho de cada par

de cenas . . . 76

9 Compara¸c˜ao do desempenho da PSNR ap´os normaliza¸c˜ao . . . 77

10 Compara¸c˜ao do desempenho do algoritmo PSNR sobre as imagens

geradas pela detec¸c˜ao de contornos . . . 77

11 Efeito do filtro de suaviza¸c˜ao no desempenho da medidaDM OSP N SR

comparado com a medida DMOS . . . 78

12 Efeito do filtro de suaviza¸c˜ao no desempenho da medidaDM OSSSIM

comparado com a medida DMOS . . . 78

13 Degrada¸c˜oes inseridas nas cenas . . . 85

14 Quantidade de avaliadores nos laborat´orios para cada conjunto de

(11)

o conjunto de cenas padr˜ao M Low Quality . . . 90

16 Correla¸c˜ao entre os resultados de avalia¸c˜ao dos laborat´orios para

o conjunto de cenas padr˜ao M High Quality . . . 90

(12)

CIE

Commission International de l’Eclairage

CIELAB

CIE 1976 L* a* b*

DM OS

Differences in Mean Opinion Scores

DSCQS

Double-Stimulus Continue Quality Evaluation

F R

Full Reference

HDT V

High Definition Television

IT U

International Telecommunication Union

M OS

Mean Opinion Score

N R

No Reference

N T SC

National Television System Committee

P AL

Phase Alternating Line

P SN R

Peak Signal-to-Noise Ratio

RR

Reduced Reference

SCIELAB

Spatial-CIELAB

SDI

Serial Digital Interface

SDT V

Standard Definition Television

(13)
(14)

1 Introdu¸c˜ao 17

1.1 Objetivos . . . 19

1.2 Metodologia Utilizada . . . 22

1.3 Estrutura da Disserta¸c˜ao . . . 23

2 Fundamentos e Conceitos 24 2.1 Sistema Visual Humano . . . 24

2.1.1 Constru¸c˜ao F´ısica . . . 24

2.1.2 Percep¸c˜ao de Detalhes . . . 26

2.1.3 Persistˆencia da Vis˜ao . . . 27

2.1.4 Percep¸c˜ao do Brilho . . . 28

2.1.5 Percep¸c˜ao de Cores . . . 29

2.2 Modelos de Cor . . . 31

2.3 Sinais de V´ıdeo . . . 34

2.3.1 V´ıdeo Anal´ogico . . . 36

2.3.1.1 S´ıntese . . . 36

2.3.2 V´ıdeo Digital . . . 40

2.4 Processamento Digital de Imagens . . . 43

(15)

2.4.2.1 M´etodos Baseados em Gradientes . . . 45

2.4.2.2 M´etodos Baseados em Laplacianos . . . 47

2.5 Qualidade de V´ıdeo . . . 48

2.6 Avalia¸c˜ao Subjetiva . . . 50

2.7 Avalia¸c˜ao Objetiva . . . 52

2.7.1 Modelos da ITU . . . 53

2.7.2 PSNR . . . 54

2.7.3 SSIM . . . 55

2.7.4 S-CIELAB . . . 58

3 Metodologia 62 3.1 Avalia¸c˜ao Objetiva . . . 64

3.1.1 Ajuste `a Sensibilidade do Sistema Visual Humano . . . 65

3.1.2 Obten¸c˜ao da Medida PSNR . . . 66

3.1.3 Obten¸c˜ao da Medida SSIM . . . 66

3.1.4 Obten¸c˜ao da Medida ∆Es (S-CIELAB) . . . 66

3.2 Testes Sobre a Medida Implementada . . . 67

3.2.1 Acur´acia . . . 67

3.2.2 Grau de Monotonicidade . . . 68

3.2.3 Consistˆencia . . . 68

(16)

4.1 Parte I . . . 70

4.2 Parte II . . . 75

5 Conclus˜ao 80 Apˆendice A -- Cenas Utilizadas 82 Apˆendice B -- Avalia¸c˜ao Subjetiva 86 B.1 DSCQS . . . 86

B.2 Prepara¸c˜ao do Ambiente . . . 88

B.3 Escolha dos Indiv´ıduos . . . 88

B.4 Avalia¸c˜ao . . . 88

(17)

1

INTRODUC

¸ ˜

AO

A transmiss˜ao de sinais de televis˜ao no Brasil teve in´ıcio em 1950, passando

a colorida em 1972. Em 1996, em uma opera¸c˜ao conjunta do Grupo Abril com

Grupo Hughes, uma subsidi´aria da General Motors (GM) nos Estados Unidos

da Am´erica, iniciou-se a transmiss˜ao de sinais de televis˜ao digital via sat´elite no

Brasil. Do final de d´ecada de 60 at´e meados da d´ecada de 80 foram desenvolvidos

v´arios formatos para capta¸c˜ao, armazenamento, processamento e transmiss˜ao de

sinais de televis˜ao em todo o mundo. Isto impulsionou pesquisadores, ind´ustrias

e desenvolvedores a buscar formas de compatibilizar a gera¸c˜ao de programas para

televis˜ao, que eram cada vez mais numerosos.

Mesmo havendo uma maior complexidade na capta¸c˜ao, processamento e

trans-miss˜ao de sinais de televis˜ao em formato digital, certas vantagens como robustez

em rela¸c˜ao aos ru´ıdos e interferˆencias, regenera¸c˜ao eficiente do sinal codificado,

privacidade no tr´afego das informa¸c˜oes e formata¸c˜ao uniforme para diversos

ti-pos de servi¸co (v´ıdeo, ´audio e dados), fizeram com que estes sinais digitais fossem

implementados mundialmente. De forma simplificada, os sistemas de televis˜ao

di-gital podem ser divididos em trˆes grandes blocos, sendo (1) capta¸c˜ao ou gera¸c˜ao

de sinais de televis˜ao, (2) processamento e (3) transmiss˜ao. Os codificadores de

fonte ou compressores de v´ıdeo fazem parte da etapa de processamento e

viabili-zam, por exemplo, a transmiss˜ao simultˆanea de v´arios programas em um mesmo

(18)

A compress˜ao ou codifica¸c˜ao de sinais de v´ıdeo baseada nas limita¸c˜oes do

sistema visual humano ´e um processo que pode causar perdas irrepar´aveis ao

sinal original. Consiste em reduzir significativamente a sua taxa de bits usando

t´ecnicas de convers˜ao de taxa de amostragem, processamento digital de imagens

e elimina¸c˜ao de redundˆancias espacial e temporal atrav´es de transformadas de

dom´ınio. No caso espec´ıfico do sinal de v´ıdeo para televis˜ao, estas perdas s˜ao

percebidas pelos telespectadores como uma degrada¸c˜ao, que pode ser aceit´avel

em raz˜ao das in´umeras vantagens que o sistema como um todo oferece [1].

Com a introdu¸c˜ao da codifica¸c˜ao digital de sinais de televis˜ao, as medidas de

distor¸c˜ao objetivas usadas anteriormente deixaram de ser suficientes para

deter-minar com precis˜ao a qualidade percebida pelo usu´ario final, devido a distor¸c˜oes

n˜ao-lineares introduzidas, principalmente, pelas t´ecnicas usadas para redu¸c˜ao da

taxa ocupada por estes sinais digitais [2][3].

A avalia¸c˜ao objetiva de sinais de v´ıdeo pode ser classificada em trˆes categorias:

(1) completamente referenciada, conhecida como FR ou “Full Reference”, quando

ambos os sinais, original e processado, est˜ao dispon´ıveis para avalia¸c˜ao; (2)

parci-almente referenciada, conhecida como RR ou “Reduced Reference”, quando

ape-nas algumas amostras ou certas caracter´ısticas do sinal original est˜ao dispon´ıveis;

e (3) n˜ao referenciada, tamb´em conhecida como NR ou “No Reference”, quando

apenas o sinal processado est´a dispon´ıvel.

Em 1997, um grupo de especialistas da Uni˜ao Internacional de

Telecomu-nica¸c˜oes (ITU) se reuniu em Turin, na It´alia e formou o VQEG (Grupo de

Espe-cialistas em Qualidade de V´ıdeo). O VQEG possui projetos para aplica¸c˜oes em

televis˜ao e multim´ıdia, nas trˆes categorias anteriormente citadas. Na avalia¸c˜ao

objetiva completamente referenciada (FR) para aplica¸c˜ao em televis˜ao com

de-fini¸c˜ao padr˜ao (SDTV) o VQEG realizou dois trabalhos, sendo um conclu´ıdo em

(19)

respecti-vamente. Estes relat´orios resultaram em uma recomenda¸c˜ao da ITU espec´ıfica

para avalia¸c˜ao de sinais de televis˜ao em defini¸c˜ao padr˜ao, a recomenda¸c˜ao ITU-R

BT.1683, de 2004, na qual foram descritos quatro modelos aprovados para

im-plementa¸c˜ao [6]. O VQEG tamb´em disponibilizou, em 2000, todo o conjunto dos

dados utilizados em sua primeira avalia¸c˜ao, incluindo as cenas de v´ıdeo originais e

processadas, bem como os resultados dos experimentos subjetivos realizados com

estas cenas, permitindo que outros pesquisadores pudessem desenvolver e testar

metodologias alternativas e abordagens inovadoras para este tipo de avalia¸c˜ao,

como no caso dos trabalhos realizados por Gunawan e Gambari, 2008 [7], Ong et

al., 2007 [8], Sheikh e Bovik, 2006 [9], Seshadrinathan e Bovik, 2005 [10] e Guo

et al., 2004 [11].

1.1

Objetivos

Considerando a introdu¸c˜ao de distor¸c˜oes n˜ao-lineares no sinal de v´ıdeo, a

per-cep¸c˜ao n˜ao-linear destas distor¸c˜oes pelos seres humanos e que o conte´udo exerce

uma grande influˆencia na parametriza¸c˜ao destas distor¸c˜oes, a forma mais confi´avel

para se medir o impacto causado pelo est´agio de processamento na qualidade de

um sinal de v´ıdeo ´e a realiza¸c˜ao de experimentos subjetivos. Estes experimentos

envolvem pessoas consideradas de vis˜ao normal em ambientes controlados,

se-guindo regras padr˜oes aceitos internacionalmente, como as recomenda¸c˜oes ITU-R

BT.500-11 [12] e a ITU-T P.910 [13] ambas da Uni˜ao Internacional de

Teleco-munica¸c˜oes. A avalia¸c˜ao subjetiva demanda sofisticados recursos, alto grau de

habilidade e experiˆencia de seus condutores, al´em de um longo per´ıodo de tempo

para sua conclus˜ao. Recentemente v´arios estudos demonstraram perspectivas no

desenvolvimento de algoritmos com capacidade de simular e estimar as medidas

subjetivas com grau de certeza cada vez mais elevado.

(20)

ob-jetiva completamente referenciada (FR) de sinais de v´ıdeo em defini¸c˜ao padr˜ao

(SDTV). Para a valida¸c˜ao deste tipo de avalia¸c˜ao s˜ao necess´arias seis fases

dis-tintas, descritas a seguir:

• Escolha das cenas. Um conjunto de cenas de v´ıdeo de curta dura¸c˜ao ´e

escolhido. Estas cenas n˜ao devem apresentar distor¸c˜oes e devem representar

trechos que caracterizem o contexto que est´a sendo avaliado. Cenas naturais

e artificiais contendo cores fortes, texturas diversas, movimentos de cˆamera

e de objetos em v´arias dire¸c˜oes, contrastes suaves e fortes fazem parte destes

conjuntos de cenas;

• Processamento das cenas. Estas cenas s˜ao ent˜ao submetidas a

processa-mentos que simulam as poss´ıveis degrada¸c˜oes que um sinal de v´ıdeo

po-der´a sofrer ao longo de seu trajeto at´e a visualiza¸c˜ao pelos telespectadores:

capta¸c˜ao, processamento e transmiss˜ao;

• Avalia¸c˜ao subjetiva. Na metodologia DSCQS, cada par de cenas, uma

ori-ginal e uma processada, ´e submetido para julgamento por um painel de

telespectadores, que emitem suas opini˜oes dentro de um contexto

previa-mente estabelecido, espec´ıfico para o experimento que est´a sendo conduzido.

As opini˜oes a respeito das cenas originais e processadas resultam em um

par de notas. A nota m´edia e o desvio padr˜ao ´e calculado para cada nota,

resultando em uma vari´avel denominada nota m´edia na opini˜ao dos

obser-vadores, “Mean Opinion Score” ou M OS. Esta foi a metodologia usada

pelo VQEG em seu trabalho sobre avalia¸c˜ao completamente referenciada

da qualidade de sinais de v´ıdeo em defini¸c˜ao padr˜ao, cujos resultados foram

utilizados nesta disserta¸c˜ao.

• Obten¸c˜ao das diferen¸cas. A diferen¸ca entre a nota atribu´ıdas `as cenas

(21)

Opinion Score”, ou DM OS. Como as opini˜oes emitidas pelos

observado-res s˜ao interpretadas em valoobservado-res de 0 at´e 100, o DM OS pode variar de

-100 at´e 100. Valores pr´oximos de zero significam que pouca diferen¸ca foi

percebida entre as cenas original e processada, ao passo que valores muito

altos significam muita diferen¸ca entre as cenas. Valores negativos s˜ao raros

e significam que a cena processada foi percebida como de melhor qualidade

que a original;

• M´etodo proposto. Estes mesmos pares de cenas s˜ao submetidos ao m´etodo

de avalia¸c˜ao objetiva proposto. O m´etodo deve representar as diferen¸cas

medidas entre as cenas na mesma escala doDM OS, estimando-o por outra

vari´avel representada por DM OSP (predi¸c˜ao do DM OS). Caso a medida

objetiva n˜ao esteja representada no mesmo espa¸co da subjetiva, deve ser

feito um mapeamento de forma a obter uma predi¸c˜ao doDM OSna mesma

escala;

• Valida¸c˜ao do m´etodo. Nesta ´ultima etapa, crit´erios s˜ao estabelecidos para

avaliar o desempenho do m´etodo proposto. Neste trabalho o erro m´edio

quadr´atico (Mean Square Error), o coeficiente de correla¸c˜ao de Pearson

(Pe-arson Correlation Coefficient), o coeficiente de correla¸c˜ao ordinal de

Spe-arman (SpeSpe-arman Rank Order Correlation Coefficient) e o percentual de

pontos destoantes (Outliers Ratio) foram os crit´erios de valida¸c˜ao

adota-das.

Na Figura 1 ´e mostrado um diagrama simplificado deste processo. Dois tipos

distintos de experimentos foram realizados neste trabalho. Em uma primeira

abordagem foram utilizadas as medidas obtidas pela PSNR, SSIM e S-CIELAB

como ponto de partida para confirmar e estender os resultados obtidos pelo VQEG

na primeira fase de seu trabalho [4]. Em uma segunda abordagem estas medidas

(22)

linhas entrela¸cadas (NTSC-M 480i). As principais contribui¸c˜oes desta disserta¸c˜ao

foram: (1) a utiliza¸c˜ao da medida de qualidade de v´ıdeo baseada no espa¸co de

cores S-CIELAB e (2) a otimiza¸c˜ao da medida objetiva PSNR, mantendo-se a sua

baixa complexidade computacional e aumentando a sua correla¸c˜ao com a medida

subjetiva (DMOS coletado atrav´es da realiza¸c˜ao de experimentos subjetivos).

Figura 1: Processo para compara¸c˜ao do desempenho de m´etricas para avalia¸c˜ao da qualidade de v´ıdeo

1.2

Metodologia Utilizada

Nesta disserta¸c˜ao foram utilizados n˜ao somente os dados disponibilizados

no site do VQEG, como tamb´em as cenas de v´ıdeo originais e processadas por

este grupo disponibilizadas na internet [4]. Os m´etodos de avalia¸c˜ao e an´alises

de desempenho foram simulados por algoritmos em ambiente MATLAB r, da

Mathworks Inc.

As simula¸c˜oes foram realizadas em duas etapas, sendo que na primeira

fo-ram contempladas a implementa¸c˜ao e execu¸c˜ao dos algoritmos e na segunda foi

realizada a an´alise de desempenho do algoritmo implementado. Na etapa de

im-plementa¸c˜ao e execu¸c˜ao foram utilizadas todas as cenas de padr˜ao M, ou seja,

(23)

170 arquivos ou 160 pares de cenas, cada par contendo uma vers˜ao original (sem

distor¸c˜oes) e uma vers˜ao degradada da mesma cena.

Na etapa de an´alise foram adotados crit´erios de forma a determinar o grau

de fidelidade, monotonicidade e de consistˆencia das medidas obtidas pela m´etrica

objetiva que est´a sendo avaliada.

1.3

Estrutura da Disserta¸c˜

ao

Neste Cap´ıtulo foi introduzido ao leitor a avalia¸c˜ao de sinais v´ıdeo em sistemas

de televis˜ao digital, delimitando o contexto que ser´a abordado ao longo deste

trabalho.

No Cap´ıtulo 2 ser˜ao apresentados os fundamentos necess´arios para

familiari-zar o leitor com o assunto, envolvendo uma descri¸c˜ao das partes que comp˜oem

o sistema visual humano, suas fun¸c˜oes e rela¸c˜oes com a percep¸c˜ao da qualidade

de v´ıdeo. Ser˜ao mostrados os espa¸cos de cor utilizados por sistemas de capta¸c˜ao,

processamento e representa¸c˜ao de imagens ou v´ıdeos coloridos. Os sinais de v´ıdeo

ser˜ao apresentados, tanto no dom´ınio anal´ogico como no dom´ınio digital. Neste

Cap´ıtulo tamb´em ser˜ao mostradas ao leitor as diversas formas de medi¸c˜ao da

qualidade dos sinais de v´ıdeo, tanto subjetivas quanto objetivas. Os leitores j´a

familiarizados com o assunto poder˜ao dispensar este Cap´ıtulo.

O Cap´ıtulo 3 apresenta a metodologia utilizada para realiza¸c˜ao das simula¸c˜oes

desta disserta¸c˜ao, pormenorizando a origem dos dados, sua caracteriza¸c˜ao, os

passos para a obten¸c˜ao tanto das medidas objetivas quanto das an´alises efetuadas.

O Cap´ıtulo 4 est´a dividido em duas partes, descrevendo em cada uma delas

a simula¸c˜ao realizada e o resultado obtido.

Finalizando, o Cap´ıtulo 5 ´e dedicado `a apresenta¸c˜ao dos resultados e da

(24)

2

FUNDAMENTOS E CONCEITOS

Neste Cap´ıtulo ser˜ao descritos aspectos relevantes do sistema visual humano,

dos espa¸cos usados para representa¸c˜ao de cores, dos tipos de sinal de v´ıdeo

utili-zados em televis˜ao, das t´ecnicas de compress˜ao de sinais de v´ıdeo e tamb´em das

t´ecnicas para avalia¸c˜ao da degrada¸c˜ao destes sinais. Estes conceitos

prelimina-res s˜ao importantes para compreender como cada uma destas etapas contribui

na parametriza¸c˜ao dos algoritmos para avalia¸c˜ao da qualidade de v´ıdeo em um

sistema de televis˜ao digital.

2.1

Sistema Visual Humano

2.1.1

Constru¸c˜

ao F´ısica

Quando se olha um determinado objeto, uma imagem deste objeto atravessa

a c´ornea e chega `a ´ıris, que regula a quantidade de luz recebida por meio de

uma abertura chamada pupila. Quanto maior a pupila, mais luz entra no olho.

Passada a pupila, a imagem chega ao cristalino e ´e focada sobre a retina. Na

retina, mais de cem milh˜oes de c´elulas fotorreceptoras transformam as ondas

luminosas em impulsos eletroqu´ımicos, que s˜ao decodificados pelo c´erebro [14].

Fazendo-se uma analogia com uma m´aquina fotogr´afica, a c´ornea funciona

como a lente da cˆamera, permitindo a entrada de luz no olho e a forma¸c˜ao da

imagem na retina. Localizada na parte interna do olho, a retina seria o filme

(25)

da m´aquina, controlando a quantidade de luz que entra no olho. Ou seja, em

ambientes com muita luz a pupila se fecha e em locais escuros a pupila se dilata,

com o intuito de captar uma quantidade de luz suficiente para formar a imagem.

O formato do olho humano aproxima-se ao de uma esfera com diˆametro m´edio

de 2 cm. ´E envolto por trˆes camadas dispostas concentricamente: (1) a camada

externa, formada pela esclera ou escler´otica e pela c´ornea; (2) a camada m´edia

ou t´unica vascular, constitu´ıda pela cor´oide e pela ´ıris; e (3) a terceira camada

ou a t´unica nervosa, a retina, que se comunica com o c´erebro pelo nervo ´optico.

A Figura 2 foi adaptada de [14] e ilustra a sec¸c˜ao transversal de um olho, onde

pode-se perceber as suas partes funcionais principais.

Figura 2: Representa¸c˜ao do olho: (a) Esquema ilustrativo de uma retina humana (b) Diagrama mostrando o caminho entre os fotorreceptores, na parte inferior, at´e o nervo ´optico, na parte superior

´

E na retina que a imagem se forma e ´e nesta parte onde ficam os sensores

elementares que permitem a tradu¸c˜ao desta imagem ao c´erebro atrav´es do nervo

´optico. ´E poss´ıvel identificar dois diferentes tipos de sensores: (1) os cones e (2)

os bastonetes. Os bastonetes est˜ao distribu´ıdos por toda a retina e s˜ao insens´ıveis

`as cores apesar de possu´ırem alta sensibilidade `a luz. Os cones se concentram na

(26)

luminosidade. Portanto a vis˜ao exata das cores s´o ´e percebida quando a imagem

incide na f´ovea. Os bastonetes vˆeem principalmente movimento e formas sem

cor e menos n´ıtidas. Essa ´e a chamada vis˜ao perif´erica. Um movimento s´ubito

detectado pelos bastonetes nos limites do campo visual faz os olhos girarem em

dire¸c˜ao a imagem de interesse, esta imagem incide na f´ovea e ent˜ao s˜ao percebidos

os detalhes [15]. Na f´ovea existem trˆes diferentes tipos de cones, denominados

de curto (S), m´edio (M) e longo (L), de acordo com a faixa do espectro em que

apresenta maior sensibilidade [16].

2.1.2

Percep¸c˜

ao de Detalhes

Caracterizar a sensibilidade do sistema visual humano `a detec¸c˜ao de detalhes

´e, neste contexto, de fundamental importˆancia para a avalia¸c˜ao subjetiva de

qua-lidade de sinais de v´ıdeo. Estudos mostram que a capacidade de detectar formas

espaciais ´e uma fun¸c˜ao do tamanho, contraste e orienta¸c˜ao espacial destas formas

[17–19]. De forma simplificada, a capacidade de distinguir contraste entre ´areas

adjacentes determina o grau de percep¸c˜ao dos detalhes de uma cena [20].

A modelagem desta caracter´ıstica do sistema visual humano ´e representado

pela Fun¸c˜ao de Sensibilidade ao Contraste espacial (FSC) e tem sido utilizada

para caracterizar a sensibilidade do olho humano em fun¸c˜ao da freq¨uˆencia

espa-cial em v´arias dire¸c˜oes [16, 20, 21]. Esta curva ´e obtida atrav´es de experimentos

psicof´ısicos com indiv´ıduos, que observam padr˜oes com diferentes freq¨uˆencias

an-gulares em diferentes contrates. O contraste ´e definido em fun¸c˜ao da m´axima e

m´ınima luminosidade (Lmax e Lmin) conforme a Equa¸c˜ao:

C = Lmax−Lmin

Lmax+Lmin (2.1)

A Figura 3 mostra uma curva t´ıpica de FSC para indiv´ıduos na faixa dos

(27)

influenciada pela idade, conforme mostrado nos estudos de Schieber [22].

10−1 100 101 102

100 101 102 103

Função de Sensibilidade ao Contraste

Frequencia Espacial (ciclos por grau)

Sensibilidade ao Contrast

Figura 3: Fun¸c˜ao de sensibilidade ao contraste espacial

2.1.3

Persistˆ

encia da Vis˜

ao

Apesar de ter sido percebido por Arist´oteles antes de Cristo e por Leonardo da

Vinci no s´eculo XV, foi em 1829 que um cientista belga chamado Joseph Antoine

Ferdinand Plateau descreveu pela primeira vez o fenˆomeno da persistˆencia visual

humana. Em sua tese, Plateau descreve que existe uma latˆencia para a imagem

se formar ou para desaparecer totalmente da retina (Plateau, 1829 apud Pazeto

[23]). Esta descoberta possibilitou a cria¸c˜ao do cinema, pois uma seq¨uˆencia de

fotografias tomadas e posteriormente apresentadas a uma taxa superior a da

per-sistˆencia visual teria seu conte´udo percebido como movimento. Outros aspectos

foram envolvidos para a concep¸c˜ao do sinal de v´ıdeo, conforme ser´a descrito na

Se¸c˜ao 2.3 deste mesmo Cap´ıtulo.

A modelagem desta caracter´ıstica originou dois importantes aspectos a serem

(28)

des-crito por Pappas, 2000 [24]: a mudan¸ca de cena e a fun¸c˜ao de sensibilidade ao

contraste temporal.

A mudan¸ca de cena ´e quando ocorre uma mudan¸ca brusca de toda a imagem.

Neste caso, uma latˆencia de aproximadamente 100 milissegundos faz com que haja

um mascaramento da percep¸c˜ao humana durante este per´ıodo ap´os a mudan¸ca

de cena, conforme experimentos relatados por Seyler, 1965 [25].

Alguns modelos para a fun¸c˜ao de sensibilidade ao contraste temporal foram

sugeridos em 1970 por Cornsweet [16], em 1979 por Koendrick [26] e em 1996 por

Lambrecht [27].

2.1.4

Percep¸c˜

ao do Brilho

O sistema visual humano, assim como outros sentidos do corpo humano, n˜ao

percebe linearmente varia¸c˜oes de brilho [28]. A resposta da percep¸c˜ao humana

ao brilho ´e referida como luminosidade e ´e representada por L∗ [29]. A defini¸c˜ao

da Comiss˜ao Internacional de l‘Eclairage (CIE) para luminosidade inclui a ra´ız

c´ubica da luminˆancia (Y) relativa a uma dada referˆencia (Yn), como mostrado na

Equa¸c˜ao a seguir:

L∗ = 116·

µ

Y Yn

¶13

−16 onde Y

Yn >0,008856 (2.2)

Para valores muito pr´oximos de preto, ou seja, para Y

Yn <= 0,008856, um

seg-mento linear ´e definido. Em termos pr´aticos, este segseg-mento linear n˜ao ´e utilizado,

sendo definido como L∗ = 0 para Y

Yn ≤0,008856.

L∗ varia entre 0 e 100 e uma unidade sua representa o limiar da percep¸c˜ao

humana para uma dada diferen¸ca luminosidade. Y poderia ter sido proveniente,

por exemplo, de um sistema de convers˜ao de luz em sinal el´etrico com resposta

(29)

mais alto de Y e corresponderia ao branco [29]. A Figura 4 mostra a curva de

transferˆencia caracter´ıstica paraL∗ em fun¸c˜ao de Y segundo as Equa¸c˜oes do CIE

apud Poyton, 1996 [28].

0 0.2 0.4 0.6 0.8 1

0 10 20 30 40 50 60 70 80 90 100

Função de transferência

Brilho normalizado

Luminosidade L*

Figura 4: Gr´afico de convers˜ao para valores deY /Yn em L∗

2.1.5

Percep¸c˜

ao de Cores

Apesar do processo usado pelo ser humano para distinguir cores ainda n˜ao

ser totalmente compreendido, existe duas teorias distintas sobre a percep¸c˜ao de

cores: (1) a teoria tricrom´atica e (2) a teoria das cores opostas (opponent color

theory) [14].

A teoria tricrom´atica mostra que o olho humano possui trˆes tipos diferentes

de cones, sens´ıveis a diferentes comprimentos de onda: (1) Curtos, sens´ıveis `as

luzes azuladas, (2) M´edios, sens´ıveis `as luzes esverdeadas e (3) Longos, sens´ıveis

`as luzes avermelhadas. Estes cones recebem os nomes de S, M e L respectivamente

(Short, Medium, Long). A Figura 5 mostra a sensibilidade espectral dos trˆes tipos

(30)

3000 400 500 600 700 800 900 0.1

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Comprimento de onda, nm

Sensibilidade relativa

Sensibilidade Espectral

S M L

Figura 5: Sensibilidade espectral dos cones S, M e L

em 2000 [30].

A teoria das cores opostas sugere a existˆencia de trˆes canais de cores

mu-tuamente inibit´orios: vermelho-verde, azul-amarelo e branco-preto. A Figura 6

mostra uma simplifica¸c˜ao do processamento realizado no c´erebro humano para

perceber as cores segundo esta teoria.

S

M

L

Az

Vd

Vm IMAGEM

AZUL / AMARELO

BRANCO / PRETO

VERDE / VERMELHO

NERVO ÓPTICO RECEPTORES

(CONES) (CÉLULAS GANGLIONARES, BIPOLARES E HORIZONTAIS)PROCESSAMENTO INTERMEDIÁRIO

Figura 6: Teoria das cores opostas

(31)

Desde ent˜ao, o estudo da sensibilidade crom´atica vem crescendo ao longo dos

anos, com importantes contribui¸c˜oes na medi¸c˜ao objetiva da qualidade de imagens

e de v´ıdeos coloridos [15, 31–33].

Em 1957, Hurvich e Jameson solucionaram uma aparente discrepˆancia que

havia entre a teoria tricrom´atica e a teoria das cores opostas propondo a existˆencia

de um est´agio intermedi´ario de processamento. Segundo Mather, 2006 [15],

Hur-vich e Jameson demonstraram de forma emp´ırica o mecanismo de cores opostas.

Um exemplo disso foi medir a quantidade de verde que seria necess´ario para

can-celar a percep¸c˜ao do “avermelhado” em uma onda de comprimento longo. Hoje

em dia existem evidˆencias eletrofisiol´ogicas que confirmam esta teoria. As c´elulas

ganglionares e as c´elulas bipolares formam os sinais mutuamente inibit´orios a

partir dos cones S, M e L. A Tabela 1 mostra como as informa¸c˜oes de cada canal

s˜ao transportadas [15]. A Figura 2 (b), na Se¸c˜ao 2.1.1, ilustra este caminho da

f´ovea at´e o nervo ´optico.

Tabela 1: Canais para transporte de cores opostas

Canal Cones Meio de transporte Vermelho-Verde Oposto: L-M C´elulas ganglionares

Azul-Amarelo Oposto: S-(L + M) C´elulas ganglionares e bipolares Branco-Preto N˜ao-crom´aticos: L + M C´elulas horizontais e ganglionares

2.2

Modelos de Cor

Segundo Gonzalez e Woods, 2000 [34]: “O prop´osito de um modelo de cores

´e facilitar a especifica¸c˜ao das cores em alguma forma padr˜ao e de aceite geral”.

Este modelo deve especificar um sistema de coordenadas e um subespa¸co deste,

onde cada cor ´e representada de forma ´unica.

(32)

fon-tes prim´arias que emitissem as cores estimulanfon-tes dos trˆes tipos de cone do olho

humano para se reproduzir qualquer cor vis´ıvel. Na pr´atica, como estas fontes

prim´arias n˜ao s˜ao poss´ıveis, fun¸c˜oes de ajuste de peso s˜ao aplicadas `as

componen-tes prim´arias geradas por um dado dispositivo, de forma que possa representar

corretamente as cores vis´ıveis. Para um monitor, por exemplo, estas fun¸c˜oes

apresentam valores negativos em algumas gamas de comprimento de onda. Isto

significa que, com um monitor, n˜ao ´e poss´ıvel reproduzir todos os comprimentos

de onda de luz vis´ıvel.

A incapacidade da obten¸c˜ao de uma mistura de cores prim´arias que pudesse

representar todo o espectro vis´ıvel levou a CIE a criar um modelo que pudesse

representar todas as cores do espectro vis´ıvel.

3000 400 500 600 700 800 900 0.5

1 1.5 2

Comprimento de onda, nm

Sensibilidade relativa Sensibilidade Espectral zγ yγ xγ (a)

0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Diagrama de Cromaticidade

Eixo x

Eixo y

(b)

Figura 7: (a) Fun¸c˜ao de ajustamento de cor segundo CIE 1931 e (b) Diagrama de cromaticidade obtido

As fun¸c˜oes para obten¸c˜ao deste modelo s˜ao representadas porxλ,yλ ezλ e s˜ao

chamadas fun¸c˜oes de ajustamento da cor ou CMF (Colour Matching Functions).

A Figura 7 (a) mostra a fun¸c˜ao que foi obtida experimentalmente em 1931 pela

CIE. Outras fun¸c˜oes de ajustamento de cor est˜ao dispon´ıveis na internet [35]. A

Figura 7 (b) representa o diagrama de cromaticidade obtido por estas fun¸c˜oes

pelo c´alculo de seus coeficiente tricrom´aticos x, y e z. O conjunto das equa¸c˜oes

(33)

de ajustamento de cor. Como conseq¨uˆencia destas Equa¸c˜oes a coordenada z ´e

calculada em fun¸c˜ao de x e de y, j´a que como conseq¨uˆencia da defini¸c˜ao tem-se

que x+y+z = 1.

x= xλ

xλ+yλ+zλ

y = yλ

xλ+yλ+zλ

z = zλ

xλ+yλ+zλ

(2.3)

No diagrama de cromaticidade a linha curva representa as cores puras ao longo

de todo o espectro vis´ıvel de cores. As extremidades s˜ao unidas por uma linha

reta denominada linha p´urpura, que representa as diversas combina¸c˜oes entre

vermelho e azul. A informa¸c˜ao de luminosidade ou intensidade do brilho n˜ao

est´a representada no plano deste diagrama e ´e definida por uma linha ortogonal

a este plano passando pelo ponto acrom´atico. O ponto acrom´atico ou ponto de

branco ´e definido como sendo “a cor capturada ou produzida quando os trˆes sinais

prim´arios s˜ao iguais” [36].

O diagrama de cromaticidade apresentado na Figura 7 ´e usado como

re-ferˆencia para defini¸c˜ao de v´arios modelos de cor, inclusive os que s˜ao utilizados

em aplica¸c˜oes de televis˜ao definidos pela Sociedade dos Engenheiros de Cinema

e Televis˜ao (SMPTE). Para a especifica¸c˜ao de um modelo de cor neste diagrama

basta definir as coordenadas (x, y) de suas cores prim´arias e do ponto acrom´atico.

O documento SMPTE 170M-2004 [37] define as coordenadas das cores prim´arias

e do ponto acrom´atico dos sistemas de televis˜ao em cores anal´ogico. Os sistemas

de televis˜ao em cores digital em defini¸c˜ao padr˜ao utilizam estas mesmas

coordena-das, enquanto que os sistemas de alta defini¸c˜ao (HDTV) utilizam as coordenadas

descritas na recomenda¸c˜ao ITU-R BT 709 [38]. A Tabela 2 mostra as

(34)

para as cores prim´arias.

Tabela 2: Coordenadas x e y no diagrama de cromaticidade CIE1931 Sistema de tv a cores NTSC-M e PAL-M SECAM e PAL exceto M

Ponto do diagrama x y x y

R 0,67 0,33 0,630 0,340

G 0,21 0,71 0,310 0,595

B 0,14 0,08 0,155 0,070

Iluminante CIE padr˜ao C Iluminante CIE padr˜ao D65 W 0,3101 0,3162 0,3127 0,3290

O conjunto de cores poss´ıveis para um determinado dispositivo ou sistema ´e

conhecido comogamut de cores deste dispositivo. No diagrama de cromaticidade,

ao se unir os trˆes pontos definidos pelas prim´arias R, G e B de um sistema de

cores, tem-se uma ´area que corresponde a toda extens˜ao de cores deste sistema.

A Figura 8 ilustra, no diagrama de cromaticidade CIE 1931, as coordenadas das

cores prim´arias R, G e B utilizadas pelos sistemas de reprodu¸c˜ao NTSC 1953

e atual, definidos pelo documento SMPTE 170M-2004 [37]. Este conjunto de

prim´arias definem o espa¸co de cores mRGB, um espa¸co de cores RGB dependente

do dispositivo.

2.3

Sinais de V´ıdeo

Sinais de v´ıdeo s˜ao formas de onda el´etrica que permitem o transporte de

seq¨uˆencias de imagens de um local para outro. Ao se observar uma cena, uma

imagem bidimensional ´e gerada em cada uma das retinas do olho humano. Como

esta imagem varia com o tempo, uma informa¸c˜ao tridimensional ´e obtida. A

combina¸c˜ao das imagens geradas pelas duas retinas cria uma vis˜ao estereosc´opica

[1]. Uma forma de onda el´etrica ´e bidimensional, pois varia uma tens˜ao ao longo

do tempo. Para converter esta informa¸c˜ao bidimensional em uma informa¸c˜ao

(35)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Diagrama de Cromaticidade

Eixo x

Eixoy

Branco CIE C Branco

CIE D65 Branco normalizado

Gamut do sistema NTSC 1953

Gamut do sistema NTSC atual Gamut de cores visíveis

Figura 8: Representa¸c˜ao do gamut de cores dos sistemas NTSC 1953 e NTSC atual no diagrama de cromaticidade CIE 1931

varredura. A utiliza¸c˜ao do recurso de varredura faz com que uma cena de v´ıdeo

seja reproduzida linha a linha, imagem ap´os imagem. Cada imagem ´e varrida da

esquerda para a direita e de cima para baixo, uma linha por vez. Este tipo de

varredura ´e denominado varredura linear horizontal [39].

A taxa de repeti¸c˜ao dos quadros em sistemas de televis˜ao foi derivada de

uma combina¸c˜ao entre a freq¨uˆencia usada nas redes de fornecimento de energia

el´etrica e dos primeiros sistemas de cinema, onde os quadros eram exibidos a

uma taxa de 48 vezes por segundo. Apesar da exibi¸c˜ao de apenas 24 quadros

diferentes por segundo j´a causar aos olhos a sensa¸c˜ao de movimento, a taxa de

exibi¸c˜ao de quadros de cinema foi dobrada com o prop´osito de se evitar o efeito

da cintila¸c˜ao durante a exibi¸c˜ao dos filmes, principalmente em cenas com altos

n´ıveis de ilumina¸c˜ao [39]. Partindo-se da taxa de repeti¸c˜ao dos quadros e da

(36)

vertical usadas como base para o sistema de televis˜ao monocrom´atico, lan¸cado

comercialmente na d´ecada de 40.

2.3.1

V´ıdeo Anal´

ogico

Os sistemas de televis˜ao anal´ogica convencional seguem as recomenda¸c˜oes da

ITU e da SMPTE para defini¸c˜ao de padr˜ao. As recomenda¸c˜oes ITU-R BT470-7

[40] e ITU-R BT1700 [41], ambas de 2005, definem os formatos de v´ıdeo composto

mais utilizados, enquanto o documento SMPTE 170M-2004 [37] caracteriza de

forma detalhada o sinal de v´ıdeo padr˜ao NTSC.

Em sistemas de varredura entrela¸cada, como ´e o caso de todos os sistemas

de v´ıdeo anal´ogico usados em televis˜ao, ´e necess´ario primeiramente que sejam

transmitidas todas as linhas de um campo, para em seguida iniciar-se a

trans-miss˜ao do campo seguinte. A intensidade ao longo de uma linha de varredura ´e

representada por uma tens˜ao el´etrica, sendo que tens˜oes mais baixas representam

´areas escuras e tens˜oes mais altas representam ´areas mais claras.

2.3.1.1 S´ıntese

O sinal de v´ıdeo composto deve conter uma representa¸c˜ao el´etrica do brilho

e da cor de uma dada cena. Este sinal tamb´em deve incluir referˆencias que

permitam sua reconstitui¸c˜ao em uma tela. Estas referˆencias ser˜ao utilizadas para

sincroniza¸c˜ao e n˜ao devem ser vis´ıveis em um sistema bem ajustado. Algumas

partes do sinal composto n˜ao possuem informa¸c˜oes sobre a cena e devem ser

for¸cadas a um n´ıvel ainda mais preto que a referˆencia (pedestal), de forma que

os feixes de varredura dos equipamentos de capta¸c˜ao e reprodu¸c˜ao funcionem

perfeitamente [40].

Um sinal de v´ıdeo ´e composto, fundamentalmente, de duas diferentes

(37)

• Componente de Luma, representada porY′

• Componente de diferen¸ca de cor, representada por Cr eCb ouU eV

A Figura 9 mostra um exemplo de sistema para obten¸c˜ao de um sinal de

v´ıdeo composto NTSC a partir de suas componentes de cor RGB n˜ao-lineares.

Figura 9: Obten¸c˜ao de um sinal de v´ıdeo composto

Neste sistema, os sinais de referˆencia G, B e R devem estar sincronizados

e com igual amplitude para representa¸c˜ao de uma imagem sem informa¸c˜ao de

cor. Estes sinais s˜ao descritos usualmente como corrigidos com o fator gamma,

representados em documentos antigos comoE′

G,EB′ eER′ [37]. A corre¸c˜aogamma

tem uma fun¸c˜ao de transferˆencia semelhante `a mostrada na Figura 4. A defini¸c˜ao

da corre¸c˜ao gamma est´a descrita pela SMPTE no documento SMPTE

170M-2004 [37] e pela Uni˜ao Internacional de Telecomunica¸c˜oes no documento ITU-R

BT709-5 de 2002 [38]. As equa¸c˜oes que definem esta fun¸c˜ao de transferˆencia para

os intervalos 0,018 ≤L≤1 e 0,0812 ≤V ≤1 s˜ao:

V = 1,099·L0,45−0,099 (2.4)

L= ·

V + 0,099 1,099

¸0,145

(2.5)

ondeV representa o sinal el´etrico das componentesG,B eR corrigidas pelo fator

(38)

componentes Vermelha (R), Verde (G) e Azul (B). Fora do intervalo indicado a

rela¸c˜ao ´eV = 4,5·L e L=V /4,5.

Segundo Poyton, 1996 [28], a combina¸c˜ao de dois efeitos, sendo um de

ori-gem f´ısica e outro de oriori-gem perceptiva, foi respons´avel pela concep¸c˜ao do fator

gamma. O efeito de origem f´ısica est´a relacionado com o fato de que os tubos de

raios cat´odicos (CRT) usados em televis˜ao possuem uma curva de transferˆencia

exponencial entre a tens˜ao de entrada e a luminosidade de sa´ıda. O fator de

ori-gem perceptiva ´e que os seres humanos n˜ao percebem de forma linear as varia¸c˜oes

de brilho.

Estes sinais devem ser transformados em duas componentes, sendo uma de

lu-minˆancia (Y) e outras duas de crominˆancia (B-Y e R-Y). O termo crominˆancia ´e

definido como a diferen¸ca entre duas cores com a mesma luminosidade, sendo uma

das cores a de referˆencia [29]. Ap´os filtrados para eliminar as altas freq¨uˆencias, os

sinais de diferen¸ca de cor (B-Y e R-Y) s˜ao entregues a um modulador de

quadra-tura, que ir´a modular os vetores I e Q resultando em uma modula¸c˜ao em fase da

subportadora de cor. Esta subportadora de cor j´a modulada ´e adicionada ao sinal

de luminˆancia, assim como os sinais de sincronismo de luminˆancia, sincronismo

de crominˆancia, apagamento e pedestal.

Uma representa¸c˜ao el´etrica do sinal de v´ıdeo pode ser vista nas Figuras 10 e

11. Na Figura 10 o eixo vertical representa a tens˜ao, convertida para o padr˜ao

IRE e o eixo horizontal representa o tempo, amostrado ao intervalo de uma linha

horizontal. J´a na Figura 11 a representa¸c˜ao ´e polar, onde a magnitude representa

a intensidade da cor e a fase representa seu matiz.

Em termos de componentes espectrais, o sinal de v´ıdeo pode ser descrito pela

soma de um sinal de luma aos dois sinais de diferen¸ca de cor [37]. A equa¸c˜ao a

seguir mostra um sinal de v´ıdeo compostoE′

(39)

Figura 10: Forma de onda de um sinal de v´ıdeo composto

E′

Y(t) U′(t) e V′(t).

E′

M(t) =EY′ (t) +U′(t)·sen(2πfsct) +V′(t)·cos(2πfsct) (2.6)

A sincroniza¸c˜ao destes sinais ´e de fundamental importˆancia para sua

re-produ¸c˜ao. A sincroniza¸c˜ao dos sinais de televis˜ao anal´ogica ´e feita atrav´es dos

pulsos de sincronismo horizontal, pulsos de sincronismo vertical e salva de

sincro-nismo de cor. Estes pulsos de sincrosincro-nismo est˜ao atrelados entre si pela pr´opria

defini¸c˜ao de cada padr˜ao e sistema de cor. Em sistemas NTSC-M, por exemplo,

as freq¨uˆencias de sincroniza¸c˜ao de cor fsc, de sincroniza¸c˜ao horizontal fH e de

sincroniza¸c˜ao vertical fV s˜ao dadas pelas Equa¸c˜oes a seguir [37]:

fsc(M Hz) = 5×

63

88 = 3,57954 (2.7)

fH(Hz) = 2

455 ×fsc = 15.734,265734 (2.8)

fV(Hz) = 2

(40)

Figura 11: Representa¸c˜ao vetorial das componentes de cor em um sinal de v´ıdeo composto

2.3.2

V´ıdeo Digital

Em aplica¸c˜oes para televis˜ao digital em defini¸c˜ao padr˜ao, os sinais utilizados

s˜ao classificados de acordo com o espa¸co de cores utilizado, a freq¨uˆencia de

amos-tragem e a rela¸c˜ao de aspecto. A Figura 12 foi adaptada de [42] e mostra como os

v´arios espa¸cos de cor s˜ao usados em aplica¸c˜oes t´ıpicas de v´ıdeo digital. Na parte

superior desta figura est´a representado o processo de s´ıntese de um sinal de v´ıdeo

t´ıpico e na parte inferior est´a a representa¸c˜ao do processo para sua exibi¸c˜ao.

Embora o espa¸co de cores RGB apresente vantagens quando utilizado para

computa¸c˜ao gr´afica (principalmente pelo fato das telas utilizarem este mesmo

espa¸co para mostrar as cores criadas), sua eficiˆencia em termos de taxa de bits

´e reduzida [36]. Neste espa¸co de cores, cada componente utiliza a mesma taxa,

ou seja, R, G e B s˜ao as componentes da cor de um determinado pixel a ser

mostrado. Se considerarmos que cada uma das trˆes componentes ocupa umbyte,

(41)

Tela ou dispositivo de saída Correção Gamma (2,5) Descodificação em Diferenças de Cor Conversão da taxa de amostragem Captação Correção Gamma (0,45) Conversão da taxa de amostragem Y’ Cb Cr Y’ Cb Cr Codificação em Diferenças de Cor R’ G’ B’ R’ G’ B’ 4:2:2 ou 4:2:0 ou 4:1:1 4:4:4 4:4:4 R G B R G B (b) (a) Y’ Cb Cr Y’ Cb Cr

Figura 12: Espa¸cos de cor usados em um sistema de televis˜ao digital

Como foi mostrado na Se¸c˜ao 2.1, a vis˜ao humana ´e mais sens´ıvel `a percep¸c˜ao

de detalhes do que `a percep¸c˜ao de cores. Este fato motivou a cria¸c˜ao de formatos

que representam a varia¸c˜ao de intensidade luminosa em uma componente e a

varia¸c˜ao de cores em outra. Os espa¸cos de cor YUV, YIQ e YCbCr s˜ao exemplos

deste tipo de abordagem. Para representa¸c˜ao de sinais de v´ıdeo digital ´e muito

comum a utiliza¸c˜ao do espa¸co de cores YCbCr, formado pelas componentes de

luma (Y’) e diferen¸cas de cor (Cb e Cr).

Os est´udios de televis˜ao utilizam sinais digitais em formato Abekas, tamb´em

conhecido como “big YUV”, no qual as amostras de cada linha s˜aobytes seq¨

uen-cialmente dispostos, iniciando por uma amostra de cor, seguido por uma amostra

de luma e assim sucessivamente. A Figura 13 mostra a estrutura utilizada para

transporte de sinais de v´ıdeo digital em formato 4:2:2 sem compress˜ao com rela¸c˜ao

de aspecto 4:3 [43]. O formato Abekas utiliza esta mesma seq¨uˆencia para

armaze-nar os sinais de v´ıdeo digitalbyte porbyte em arquivos bin´arios, sem a necessidade

dos bytes para sincronismo indicados.

Este formato de arquivo para armazenamento de v´ıdeo digital permite o

ar-mazenamento de cenas de v´ıdeo n˜ao comprimidas ocupando 16 bits por pixel.

Cada byte do arquivo representa uma componente de cor ou de luma (n´ıvel de

(42)

718 719 720 721 736 857 0 1 2

359 360 368 0 1

359 360 0 1

ÚLTIMA AMOSTRA DA LINHA AMOSTRA ATUAL PRIMEIRA AMOSTRA DA LINHA COMPONENTE LUMINÂNCIA Y COMPONENTE DE COR Cr

COMPONENTE DE COR Cb

C b 3 5 9 C r 3 5 9 Y 7 1 9 C b 3 6 0 Y 7 2 0 C r 3 6 0 Y 7 1 8 C b 3 6 8 Y 7 3 6 C r 3 6 8 Y 8 5 5 C b 4 2 8 Y 8 5 6 C r 4 2 8 Y 8 5 7 C b 0 Y 0 Cr 0 Y 1 C b 3 5 9 C r 3 5 9 Y 7 1 9 Y 7 1 8 C b 0 Y 0 Cr 0 Y 1 Y 72 1

EAV (FINAL DE

LINHA ATIVA) SAV (INÍCIO DELINHA ATIVA)

SINAIS DE REFERÊNCIA

368

RESERVADO PARA DADOS AUXILIARES

Figura 13: Seq¨uˆencia debytes para aplica¸c˜oes em v´ıdeo digital no formato ITU-R BT601-5

para cada pixel ´e de 2bytes, sendo um para luma e outro para cor (ou Cb ou Cr).

Um quadro de televis˜ao resolu¸c˜ao SDTV com 486 linhas e 720 pixels por linha

ocupa 350kB (720·486·2 = 699.840bytes). Uma cena com 260 quadros ocupa,

portanto, 182MB (720·486·2·260 = 181.958.400bytes).

Nos arquivos disponibilizados pelo VQEG em [4], a corre¸c˜ao de gamma foi

previamente aplicada `as amostras de luminˆancia, sendo este formato de cor

co-nhecido comoY′CbCr. As amostras est˜ao em seq¨uˆencia da esquerda para direita

e de cima para baixo, iniciando pelo campo superior e seguindo nesta seq¨uˆencia

de quadro em quadro, observando-se que este ´e um padr˜ao M de 525 linhas 59,94

(43)

e padronizado pela ITU na recomenda¸c˜ao ITU-R BT601-5 [44] e os protocolos

usados para seu transporte est˜ao descritos nas recomenda¸c˜oes ITU-R BT656-4

[43] e ITU-R BT1302-0 [45].

2.4

Processamento Digital de Imagens

Antes de submeter as cenas de v´ıdeo para compara¸c˜ao ´e introduzida uma

etapa de prepara¸c˜ao, na qual s˜ao efetuadas equaliza¸c˜ao de brilho, suaviza¸c˜ao de

detalhes e detec¸c˜ao de contornos. Controlando-se o raio de a¸c˜ao de filtros, um

novo conjunto de medidas ´e obtido. Compara¸c˜oes de desempenho s˜ao realizadas

entre estes novos conjuntos de medidas e o conjunto de medidas obtido pelo

VQEG. Foi verificado que a aplica¸c˜ao adequada de t´ecnicas para suaviza¸c˜ao de

imagens, combinadas com m´etricas de f´acil implementa¸c˜ao como a SSIM, elevam

seu grau de correla¸c˜ao com medidas subjetivas. Tamb´em foi demonstrado que

t´ecnicas para extra¸c˜ao de contornos, combinadas com a m´etrica PSNR, podem

aumentar significativamente seu desempenho em termos de correla¸c˜ao com os

testes efetuados pelo VQEG. Para um melhor entendimento destas etapas de

prepara¸c˜ao, ser˜ao apresentadas a seguir as t´ecnicas de suaviza¸c˜ao e de extra¸c˜ao

de contornos utilizadas neste trabalho.

2.4.1

Filtragem em Dom´ınio Espacial

A filtragem no dom´ınio espacial consiste na realiza¸c˜ao de opera¸c˜oes

direta-mente nos pixels da imagem [34], representado pela equa¸c˜ao a seguir:

g(x, y) =T[f(x, y)] (2.10)

onde f(x, y) ´e o valor do pixel cuja coordenada espacial ´e (x, y) e T ´e um

(44)

Neste tipo de filtragem o valor de cada pixel da imagem processada, g(x, y),

´e obtido atrav´es de opera¸c˜oes matem´aticas realizadas diretamente sobre os pixels

da imagem f. Para a obten¸c˜ao do valor de cada pixel de g, o operador T pode

ser aplicado a apenas um pixel de f ou a um conjunto de pixels, referido como

janela.

Uma das filtragens mais utilizadas s˜ao aquelas que suavizam as imagens, de

forma a simplificar sua escala, reduzindo a entropia. Neste tipo de filtragem o

operador T utiliza uma janela com v´arios pixels de f para calcular o valor de

cada pixel de g.

g(i, j) =

x+a

X

i=x−a y+a

X

j=y−a

f(i, j)w(i, j) (2.11)

Onde: w(i, j) ´e um operador em janela ea,bs˜ao os limites da janela desejados

Um outro tipo de filtragem bastante comum ´e an´alogo ao de suaviza¸c˜ao,

por´em com efeito exatamente oposto. S˜ao filtros que utilizam derivadas para

real¸car os contornos das imagens. O m´etodo mais comum neste tipo de aplica¸c˜ao

´e utilizando o Gradiente.

A t´ecnica de suaviza¸c˜ao utilizada neste trabalho foi obtida por um filtro passa

baixa, em dom´ınio espacial, cujo operador em janelaw(i, j) possui dimens˜ao 11×

11 e foi obtido por uma fun¸c˜ao Gaussiana amostrada. A seguir ser˜ao apresentadas

as t´ecnicas de detec¸c˜ao de contorno testadas neste trabalho.

2.4.2

Detec¸c˜

ao de Contornos

Um contorno de imagem (do termo em inglˆes edge) ´e definido como sendo a

regi˜ao limite onde ocorre uma mudan¸ca significativa de algum aspecto da imagem,

levando a uma altera¸c˜ao de intensidade, cor ou textura [46]. Neste trabalho foi

(45)

mais utilizados para detec¸c˜ao de contornos ser˜ao aplicados aqui neste trabalho:

o m´etodo baseado em Gradientes e o m´etodo baseado em Laplacianos.

2.4.2.1 M´etodos Baseados em Gradientes

Considerando uma fun¸c˜aof(x, y), o gradiente de f nas coordenadasxe yna

dire¸c˜ao formada pelos vetores unit´arios ˆix e ˆiy pode ser calculado como:

∇f(x, y) = ∂f(x, y)

∂x ˆix+

∂f(x, y)

∂y ˆiy (2.12)

Para a detec¸c˜ao de contornos usando gradientes, a magnitude de ∇f(x, y) ´e

calculada, e ent˜ao este valor ´e comparado com uma referˆencia para determinar

se este ponto ´e um poss´ıvel candidato a contorno. De forma geral os contornos

encontrados em imagens de cenas naturais s˜ao suaves, de forma que na detec¸c˜ao ´e

encontrada uma faixa de contorno, e n˜ao uma linha de contorno. Um processo de

refinamento (do termo em inglˆes thinning) ´e necess´ario para transformar a faixa

de pixels detectados como contorno em uma linha de contorno. Uma abordagem

comum para detec¸c˜ao de bordas ´e verificar se |∇f(x, y)| possui m´aximo local em

alguma dire¸c˜ao.

Em processamento digital de imagens,f(x, y) ´e substitu´ıdo por uma seq¨uˆencia

bidimensional discretaf(n1, n2), e as derivadas parciais ∂f∂x(x,y) e ∂f∂y(x,y) podem ser

substitu´ıdas por uma diferen¸ca, como por exemplo:

∂f(x, y)

∂x ↔[f(n1+ 1, n2+ 1)−f(n1−1, n2+ 1)] + [f(n1 + 1, n2)

−f(n1−1, n2)] + [f(n1+ 1, n2−1)−f(n1−1, n2−1)] (2.13)

Esta diferen¸ca pode ser vista como uma convolu¸c˜ao discreta entref(n1, n2) e

(46)

a resposta impulsiva do filtro ´e dada pelos coeficientes:

hHor(n1, n2) =

     

−1 0 1

−1 0 1

−1 0 1      

Especificamente neste caso, este conjunto de coeficientes especifica o

opera-dor Prewitt para detec¸c˜ao de contornos no sentido horizontal de uma imagem

(Prewitt, 1970 apud Gonzalez e Woods, 2000) [34]. Os contornos no sentido

ver-tical de uma dada imagem podem ser detectados por um outro operador obtido

pela opera¸c˜ao de transposi¸c˜ao hV ert(n1, n2) = hHor(n2, n1). O fato da detec¸c˜ao

de contornos ser dada em uma dire¸c˜ao espec´ıfica, faz com que este operador seja

chamado de operador direcional. Operadores n˜ao-direcionais podem ser

desenvol-vidos pela aproxima¸c˜ao discreta de|∇f(x, y)|. A aproxima¸c˜ao a seguir foi usada

por Duda e Hart, 1973 apud Lim, 1990 [46] para definir dois diferentes pares de

operadores, denominados operadores de Sobel e operadores de Roberts:

|∇f(x, y)| −→

q

fx(n1, n2)2+fy(n1, n2)2 (2.14)

onde: fx(n1, n2) = f(n1, n2)∗hx(n1, n2) e fy(n1, n2) = f(n1, n2)∗hy(n1, n2)

A seguir s˜ao mostrados os operadores de Sobel (3x3) e de Roberts (2x2):

hSobel=      

−1 0 1

−2 0 2

−1 0 1       ou      

1 2 1

0 0 0

−1 −2 −1       hRoberts =    0 1

−1 0   ou    1 0

0 −1 

(47)

2.4.2.2 M´etodos Baseados em Laplacianos

Uma outra forma para se detectar contornos em uma imagem ´e buscar os

cruzamentos por zero das diferen¸cas de segunda ordem. Uma quest˜ao que surge

neste tipo de abordagem ´e que ru´ıdos seriam detectados como contornos, devido

`a sensibilidade da segunda derivada. Uma forma de minimizar esta quest˜ao ´e

aplicando filtros de suaviza¸c˜ao antes de submeter a imagem `a detec¸c˜ao de

contor-nos. A equa¸c˜ao abaixo mostra como calcular o Laplaciano de uma fun¸c˜aof(x, y)

[46]:

∇2f(x, y) = ∇(∇f(x, y)) = ∂

2f(x, y)

∂x2 +

∂2f(x, y)

∂y2 (2.15)

De forma similar ao que foi visto com o Gradiente, a Equa¸c˜ao 2.15 pode ser

aproximada para imagens digitais representadas por f(n1, n2), desta forma:

∇2f(x, y)→ ∇2f(n1, n2) = fxx(n1, n2) +fyy(n1, n2) (2.16)

Onde: fxx(n1, n2) fyy(n1, n2) podem ser aproximados pela diferen¸ca em rela¸c˜ao

aos pixels posterior e anterior, assim:

∇2f(n

1, n2) = f(n1+ 1, n2) +f(n1−1, n2) +f(n1, n2+ 1) +f(n1, n2−1)−

4f(n1, n2)

E tamb´em de forma semelhante ao m´etodo do Gradiente, operadores podem

ser utilizados para aproximar a derivada de segunda ordem a ser utilizada em

uma convolu¸c˜ao discreta. Na aproxima¸c˜ao anterior, por exemplo, o Laplaciano ´e

calculado `a partir de uma convolu¸c˜ao discreta com o operador:

hLap= 

    

0 −1 0

−1 4 −1

0 −1 0 

    

(48)

n˜ao s˜ao muito comuns, devido `a sensibilidade ao ru´ıdo mencionada anteriormente.

Uma abordagem muito comum ´e a utiliza¸c˜ao combinada com filtro de suaviza¸c˜ao

Gaussiano, t´ecnica conhecida como Laplaciano do Gaussiano, ou simplesmente

LoG. A Figura 14 mostra um exemplo usando o campo superior do primeiro

quadro de uma das cenas usadas neste trabalho. Nesta figura ´e apresentada a

imagem original em (a), sua vers˜ao suavizada por um filtro Gaussiano em (b), o

resultado da convolu¸c˜ao com um filtro Laplaciano em (c) e finalmente a extra¸c˜ao

de bordas usando a t´ecnica de passagem por zero ap´os convolu¸c˜ao com o resultado

da convolu¸c˜ao entre as respostas impulsivas dos filtros Laplaciano e Gaussiano.

(a) (b)

(c) (d)

Figura 14: (a) Imagem original, (b) Convolu¸c˜ao com filtro Gaussiano, (c) Con-volu¸c˜ao com filtro Laplaciano e (d) Detec¸c˜ao de borda usando a conCon-volu¸c˜ao com filtro LoG (Laplaciano do Gaussiano)

´

E importante salientar que o Gradiente de uma imagem bidimensional em

tons de cinza ´e um campo vetorial, enquanto que o Laplaciano desta mesma

imagem ´e um campo escalar.

2.5

Qualidade de V´ıdeo

Usualmente um telespectador est´a interessado em assistir a uma representa¸c˜ao

bidimensional do mundo real com a maior fidelidade poss´ıvel. Os sinais de v´ıdeo

(49)

transporte. Nos sinais de v´ıdeo composto usados em televis˜ao anal´ogica s˜ao

inseridas distor¸c˜oes lineares e invariantes no tempo ao longo destas etapas,

per-mitindo a utiliza¸c˜ao de um conjunto de testes muito bem definidos e amplamente

aceitos pela comunidade. Medidas em termos de amplitude, freq¨uˆencia e fase

caracterizam de forma completa este tipo de sinal e suas distor¸c˜oes [47].

A recomenda¸c˜ao ITU-R BT1204, 1995 [48] define as t´ecnicas, sinais de teste

e metodologias usadas para caracterizar estes sinais anal´ogicos. Medidas como

rela¸c˜ao sinal-ru´ıdo (S/N), ganho diferencial (DG), ganho de fase (DP),

carac-ter´ısticas impulsivas (K2T e P/B) e linearidade da componente de luma s˜ao

es-pecificadas nesta recomenda¸c˜ao e s˜ao utilizadas para caracterizar sinais de v´ıdeo

no dom´ınio anal´ogico com muita precis˜ao.

Com a introdu¸c˜ao de novas t´ecnicas digitais para processamento e compress˜ao

de sinais de v´ıdeo, estas medidas deixaram de ser suficientes para caracterizar as

novas formas de distor¸c˜ao inseridas. Segundo Wang et al., 2003 [49]: “Um sinal

de v´ıdeo ou imagem cuja qualidade est´a sendo avaliada pode ser entendido como

a soma entre um sinal de referˆencia perfeito e um sinal de erro”. Tendo isto em

mente, a forma mais intuitiva de se medir a qualidade de sinal de v´ıdeo seria

quantificar o erro que est´a inserido neste sinal. Esta tarefa seria ainda mais

simples no caso da avalia¸c˜ao de v´ıdeo completamente referenciada, j´a que o sinal

de referˆencia est´a dispon´ıvel.

Segundo Jayant e Noll, 1984 [50]: “A avalia¸c˜ao da fidelidade ou do grau de

degrada¸c˜ao que um determinado sistema causa em um sinal de v´ıdeo pode ser feita

de forma objetiva ou de forma subjetiva”. A avalia¸c˜ao subjetiva envolve um certo

n´umero de pessoas em ambiente controlado, seguindo determinada metodologia

e conduzido por especialistas com bastante experiˆencia neste tipo de atividade.

A avalia¸c˜ao objetiva ´e realizada de forma autom´atica e pressup˜oe um algoritmo

(50)

uma medida de qualidade.

2.6

Avalia¸c˜

ao Subjetiva

Neste tipo de avalia¸c˜ao as cenas a serem avaliadas s˜ao apresentadas para

um painel de observadores, que julgam a qualidade das cenas apresentadas sob

determinados aspectos bem definidos, em certas condi¸c˜oes tamb´em definidas

pre-viamente de acordo com a aplica¸c˜ao. A ITU define, atrav´es da recomenda¸c˜ao

ITU-R BT.500-11, cinco metodologias b´asicas para avalia¸c˜ao subjetiva de

quali-dade para televis˜ao de defini¸c˜ao padr˜ao - SDTV:

• Metodologia 1:

– DSIS (Double-Stimulus Impairment Scale) usada principalmente para

medir a robustez de sistemas, ou seja, para caracterizar falhas de

trans-miss˜ao;

• Metodologia 2:

– DSCQS (Double-Stimulus Continuous Quality-Scale) usada

principal-mente para medi¸c˜ao da degrada¸c˜ao causada por sistemas em rela¸c˜ao

a uma referˆencia;

• Metodologias alternativas:

– SS (Single Stimulus);

– SSCQE (Single Stimulus Continous Quality Evaluation) usada quando

se deseja avaliar subjetivamente uma cena sem considerar uma

re-ferˆencia;

– SDSCE (Simultaneous Double-Stimulus for Continuous Evaluation)

(51)

Para aplica¸c˜oes em televis˜ao de alta defini¸c˜ao (HDTV), videoconferˆencia e

aplica¸c˜oes em multim´ıdia, outros grupos da ITU descrevem suas pr´oprias

meto-dologias de avalia¸c˜ao. Pinson e Wolf realizaram em 2003 uma compara¸c˜ao entre

estas metodologias, verificando a sensibilidade de cada uma delas para

determi-nadas aplica¸c˜oes, concluindo que, entre outros aspectos, para avalia¸c˜oes usando

duplo est´ımulo (como a metodologia DSCQS) a dura¸c˜ao de 15 segundos ´e um

fator limitante devido ao efeito de mem´oria dos avaliadores [51].

Para avalia¸c˜ao da qualidade dos sinais de televis˜ao digital completamente

referenciada ´e de particular interesse a metodologia DSCQS, na qual pares de

cenas com curta dura¸c˜ao de tempo, tipicamente 10 segundos, s˜ao apresentadas a

um painel de telespectadores, que atribuem notas a cada cena do par. Usando

t´ecnicas bem definidas para a prepara¸c˜ao do ambiente, escolha dos indiv´ıduos,

execu¸c˜ao dos experimentos e compila¸c˜ao dos resultados, esta metodologia de

ava-lia¸c˜ao apresenta resultados de forma consistente e bem definida. No Apˆendice B

est´a detalhado como foi conduzida a avalia¸c˜ao subjetiva pelo grupo FR-TV do

VQEG, cujos resultados foram utilizados neste trabalho.

Embora a avalia¸c˜ao da qualidade de sinais de v´ıdeo em acordo com a

per-cep¸c˜ao do telespectador esteja definida pela recomenda¸c˜ao ITU-R-BT.500-11,

no-vas formas de avalia¸c˜ao considerando o sinal digital comprimido tˆem sido

desen-volvidas com base nas trˆes principais t´ecnicas de an´alise da qualidade de imagem

para v´ıdeo digital [3]:

• Utilizar sinais de v´ıdeo dinˆamico sint´etico para medi¸c˜ao das distor¸c˜oes

cau-sadas pela compress˜ao do sinal;

• Efetuar medidas de distor¸c˜ao para determinar o quanto o sinal original foi

distorcido;

Imagem

Figura 1: Processo para compara¸c˜ao do desempenho de m´etricas para avalia¸c˜ao da qualidade de v´ıdeo
Figura 2: Representa¸c˜ao do olho: (a) Esquema ilustrativo de uma retina humana (b) Diagrama mostrando o caminho entre os fotorreceptores, na parte inferior, at´e o nervo ´optico, na parte superior
Figura 4: Gr´afico de convers˜ao para valores de Y /Y n em L ∗
Figura 5: Sensibilidade espectral dos cones S, M e L
+7

Referências

Documentos relacionados

Observa-se que a empresa no geral possui uma vida econômica saudável, uma vez que ela consegue saldar suas dívidas tanto a curto como em longo prazo, sendo que a mesma apresentou

resistência à gravidade, para introduzir no exercício da Massa de Pizza, DEART-UFRN (2019). Foto: Thayanne Percilla. A linha de trabalho para os dois grupos inicialmente foi

A perspectiva para a gestão dos resíduos sólidos urbanos aponta em direção às proposições da Agenda 21, a qual elenca os seguintes programas para o equacionamento do gerenciamento

Para as condições impostas ao aço, as temperaturas máximas encontradas apresentam valores máximos superiores e diferenças entre os parâmetros de avanço.. As inclinações

Para disciplinar o processo de desenvolvimento, a Engenharia de Usabilidade, também conceituada e descrita neste capítulo, descreve os métodos estruturados, a

Neste sentido, esse estudo mostra que as famílias das camadas mé- dias cariocas são ao mesmo tempo “relacionais” e “individualistas”, pois na mesma medida em que as trocas

A correlação significativa entre a presença de zona afótica na caverna e de riqueza total e de troglóbios (Tabela 1) pode se dever meramente ao fato de cavernas

The microtensile bond strength of two PMMA acrylic resins used for the complete denture base was evaluated, one pre-polymerized used in CAD/CAM systems and another by