ALGORITMOS PARA AVALIAC
¸ ˜
AO DA
QUALIDADE DE V´IDEO EM SISTEMAS DE
TELEVIS ˜
AO DIGITAL
ALGORITMOS PARA AVALIAC
¸ ˜
AO DA
QUALIDADE DE V´IDEO EM SISTEMAS DE
TELEVIS ˜
AO DIGITAL
Disserta¸c˜ao apresentada `a Escola
Polit´ecnica da Universidade de S˜ao Paulo para obten¸c˜ao do T´ıtulo de Mestre em Engenharia El´etrica.
ALGORITMOS PARA AVALIAC
¸ ˜
AO DA
QUALIDADE DE V´IDEO EM SISTEMAS DE
TELEVIS ˜
AO DIGITAL
Disserta¸c˜ao apresentada `a Escola
Polit´ecnica da Universidade de S˜ao Paulo para obten¸c˜ao do T´ıtulo de Mestre em Engenharia El´etrica.
´
Area de Concentra¸c˜ao:
3142 - Sistemas Eletrˆonicos
Orientador:
Prof. Dr. Miguel Arjona Ram´ırez
A Deus, pela vida.
Ao meu orientador, Prof. Dr. Miguel Arjona Ram´ırez, pela confian¸ca, ori-enta¸c˜ao e incentivo durante todo o trabalho de pesquisa.
Ao Prof. Dr. Hae Yong Kim e Prof. Dr. Fl´avio Cipparrone, pelas grandes contribui¸c˜oes na qualifica¸c˜ao deste trabalho.
A Profa. Dra. Myl`ene Christine Queiroz de Farias, pelas valiosas contri-bui¸c˜oes e incentivo ao longo deste trabalho.
A todos os colegas da DIRECTV e SKY, pelo apoio, confian¸ca e credibilidade em mim depositadas, em especial a toda a equipe da Engenharia, ao Diretor e acima de tudo amigo, Luis Ot´avio Marchezetti, por acreditar e apoiar desde o in´ıcio a realiza¸c˜ao deste trabalho e Alexandre Hotz Moret, pela meticulosa revis˜ao e significativas contribui¸c˜oes.
Aos amigos que tive o privil´egio de conhecer durante o curso, em especial Fernando Moreto e Edmila Montezani, pelo apoio m´utuo em todos os momentos.
A todos os meus familiares e amigos, que de certa forma participaram junto comigo, me apoiando e dando incentivo, principalmente nos momentos finais deste trabalho.
A minha m˜ae Moema Marques Nery da Fonseca, pelo exemplo de coragem e for¸ca de vontade.
Ao meu filho Eduardo, pela compreens˜ao em todos os momentos de ausˆencia e alegria nos momentos de convivˆencia.
Nesta disserta¸c˜ao ´e abordado o tema da avalia¸c˜ao de qualidade em sinais de v´ıdeo, especificamente da avalia¸c˜ao objetiva completamente referenciada de sinais de v´ıdeo em defini¸c˜ao padr˜ao. A forma mais confi´avel de se medir a di-feren¸ca de qualidade entre duas cenas de v´ıdeo ´e utilizando um painel formado por telespectadores, resultando em uma medida subjetiva da diferen¸ca de quali-dade. Esta metodologia demanda um longo per´ıodo de tempo e um elevado custo operacional, o que a torna pouco pr´atica para utiliza¸c˜ao. Neste trabalho s˜ao apresentados os aspectos relevantes do sistema visual humano, das metodologias para avalia¸c˜ao de v´ıdeo em aplica¸c˜oes de televis˜ao digital em defini¸c˜ao padr˜ao e tamb´em da valida¸c˜ao destas metodologias. O objetivo desta disserta¸c˜ao ´e testar m´etricas de baixo custo computacional como a que avalia a rela¸c˜ao sinal-ru´ıdo de pico (PSNR: Peak Signal-to-Noise Ratio), a que mede similaridade estrutural (SSIM: Structural SIMilarity) e a que mede diferen¸cas em trˆes componentes de cor definidas pela CIE (Commission Internationale de l’Eclairage), representadas por L∗, a∗ e b∗ em uma dada extens˜ao espacial (S-CIELAB: Spatial-CIELAB). Uma metodologia de valida¸c˜ao destas m´etricas ´e apresentada, tendo como base as cenas e resultados dos testes subjetivos efetuados pelo Grupo de Especialistas em Qualidade de V´ıdeo (VQEG: Video Quality Expert Group). A estas m´etricas ´e introduzida uma etapa de prepara¸c˜ao das cenas, na qual s˜ao efetuadas equa-liza¸c˜ao de brilho, suaviza¸c˜ao de detalhes e detec¸c˜ao de contornos. Controlando-se a intensidade destes filtros, um novo conjunto de medidas ´e obtido. Compara¸c˜oes de desempenho s˜ao realizadas entre estes novos conjuntos de medidas e o conjunto de medidas obtido pelo VQEG. Os resultados mostram que para aplica¸c˜oes em televis˜ao digital de defini¸c˜ao padr˜ao, a avalia¸c˜ao utilizando componentes de cor pouco influencia na correla¸c˜ao com as medidas obtidas nos testes subjetivos. Por outro lado, foi verificado que a aplica¸c˜ao adequada de t´ecnicas para suaviza¸c˜ao de imagens, combinadas com m´etricas de f´acil implementa¸c˜ao como a SSIM, ele-vam seu grau de correla¸c˜ao com medidas subjetivas. Tamb´em foi demonstrado que t´ecnicas para extra¸c˜ao de contornos, combinadas com a m´etrica PSNR, po-dem aumentar significativamente seu desempenho em termos de correla¸c˜ao com os testes efetuados pelo VQEG. `A luz destes resultados, foi conclu´ıdo que me-didas objetivas de f´acil implementa¸c˜ao do ponto de vista computacional podem ser usadas para compara¸c˜ao da qualidade de sinais de v´ıdeo SDTV, desde que devidamente combinadas com t´ecnicas para adequa¸c˜ao ao sistema visual humano como a suaviza¸c˜ao e extra¸c˜ao de contornos.
This research is about the video signal quality comparison issue, focusing at full reference metrics using standard definition television. The most reliable way to predict the differences in terms of quality between two video scenes is using a panel of television viewers, under controlled psychometric experimental conditions, resulting in statistical meaningful Differences in Mean Opinion Score (DMOS). The Subjective assessment is both time consuming and costly, therefore with practical limitations. The ideal substitute are objective quality assessment algorithms, whose scores have been shown to correlate highly with the results of DMOS. The goal for this research is to optimize the performance of simple met-rics combining it with digital image processing. First this work presents many relevant aspects of the human visual system, methodologies for video evaluation in digital television applications using standard definition (SDTV) and also a val-idation methodology of these methods. After that, the main goal is to test three very simple metrics in terms of computational cost: PSNR (Peak Signal-to-Noise Ratio), SSIM (Structural SIMilarity) and S-CIELAB (Spatial-CIELAB). Origi-nal metrics were modified in order to improve their correlations with subjective assessment data. Several experiments combining the advantages of digital image filters for softness and edge extraction have been carried out within this work. The results show that such simple metrics combined with digital image process-ing for edge extraction, for example, do improve their correlations with subjective assessment.
1 Processo para compara¸c˜ao do desempenho de m´etricas para
ava-lia¸c˜ao da qualidade de v´ıdeo . . . 22
2 Representa¸c˜ao do olho: (a) Esquema ilustrativo de uma retina hu-mana (b) Diagrama mostrando o caminho entre os fotorreceptores, na parte inferior, at´e o nervo ´optico, na parte superior . . . 25
3 Fun¸c˜ao de sensibilidade ao contraste espacial . . . 27
4 Gr´afico de convers˜ao para valores de Y /Yn em L∗ . . . . 29
5 Sensibilidade espectral dos cones S, M e L . . . 30
6 Teoria das cores opostas . . . 30
7 (a) Fun¸c˜ao de ajustamento de cor segundo CIE 1931 e (b) Dia-grama de cromaticidade obtido . . . 32
8 Representa¸c˜ao dogamut de cores dos sistemas NTSC 1953 e NTSC atual no diagrama de cromaticidade CIE 1931 . . . 35
9 Obten¸c˜ao de um sinal de v´ıdeo composto . . . 37
10 Forma de onda de um sinal de v´ıdeo composto . . . 39
11 Representa¸c˜ao vetorial das componentes de cor em um sinal de v´ıdeo composto . . . 40
12 Espa¸cos de cor usados em um sistema de televis˜ao digital . . . 41
volu¸c˜ao com filtro Laplaciano e (d) Detec¸c˜ao de borda usando a
convolu¸c˜ao com filtro LoG (Laplaciano do Gaussiano) . . . 48
15 Diagrama simplificado para obten¸c˜ao de uma medida objetiva de qualidade do sinal de v´ıdeo completamente referenciada . . . 52
16 Diagrama simplificado para medi¸c˜ao da similaridade estrutural en-tre duas imagens . . . 55
17 Diagrama simplificado para medi¸c˜ao da diferen¸ca de cores entre duas imagens no espa¸co S-CIELAB . . . 59
18 Gr´afico de dispers˜ao obtido usando SCIELAB para avalia¸c˜ao: (a) Imagens est´aticas e (b) Cenas de v´ıdeo . . . 61
19 Diagrama geral para compara¸c˜ao entre avalia¸c˜ao objetiva e subjetiva 62 20 Diagrama geral dos experimentos realizados . . . 65
21 M´odulo da correla¸c˜ao linear de Spearman para cada quadro (a) PSNR e (b) SSIM . . . 74
22 Coeficiente de correla¸c˜ao n˜ao-linear . . . 79
23 Esquema para gera¸c˜ao das cenas degradadas . . . 83
24 Primeiro quadro de cada cena utilizada . . . 84
25 Ordem para apresenta¸c˜ao das seq¨uˆencias . . . 87
1 Canais para transporte de cores opostas . . . 31
2 Coordenadas x ey no diagrama de cromaticidade CIE1931 . . . . 34
3 Identifica¸c˜ao das cenas utilizadas . . . 63
4 Resultados obtidos pelo VQEG para as cenas padr˜ao M (60Hz). . 71
5 Desempenho das m´etricas PSNR, SSIM e ∆Es (S-CIELAB) . . . 72
6 Contribui¸c˜ao de cada cena para o erro rms total . . . 72
7 Desempenho de cada m´etrica em fun¸c˜ao da quantidade de quadros
usados . . . 75
8 Valores m´ınimo e m´aximo para normaliza¸c˜ao de brilho de cada par
de cenas . . . 76
9 Compara¸c˜ao do desempenho da PSNR ap´os normaliza¸c˜ao . . . 77
10 Compara¸c˜ao do desempenho do algoritmo PSNR sobre as imagens
geradas pela detec¸c˜ao de contornos . . . 77
11 Efeito do filtro de suaviza¸c˜ao no desempenho da medidaDM OSP N SR
comparado com a medida DMOS . . . 78
12 Efeito do filtro de suaviza¸c˜ao no desempenho da medidaDM OSSSIM
comparado com a medida DMOS . . . 78
13 Degrada¸c˜oes inseridas nas cenas . . . 85
14 Quantidade de avaliadores nos laborat´orios para cada conjunto de
o conjunto de cenas padr˜ao M Low Quality . . . 90
16 Correla¸c˜ao entre os resultados de avalia¸c˜ao dos laborat´orios para
o conjunto de cenas padr˜ao M High Quality . . . 90
CIE
Commission International de l’EclairageCIELAB
CIE 1976 L* a* b*DM OS
Differences in Mean Opinion ScoresDSCQS
Double-Stimulus Continue Quality EvaluationF R
Full ReferenceHDT V
High Definition TelevisionIT U
International Telecommunication UnionM OS
Mean Opinion ScoreN R
No ReferenceN T SC
National Television System CommitteeP AL
Phase Alternating LineP SN R
Peak Signal-to-Noise RatioRR
Reduced ReferenceSCIELAB
Spatial-CIELABSDI
Serial Digital InterfaceSDT V
Standard Definition Television1 Introdu¸c˜ao 17
1.1 Objetivos . . . 19
1.2 Metodologia Utilizada . . . 22
1.3 Estrutura da Disserta¸c˜ao . . . 23
2 Fundamentos e Conceitos 24 2.1 Sistema Visual Humano . . . 24
2.1.1 Constru¸c˜ao F´ısica . . . 24
2.1.2 Percep¸c˜ao de Detalhes . . . 26
2.1.3 Persistˆencia da Vis˜ao . . . 27
2.1.4 Percep¸c˜ao do Brilho . . . 28
2.1.5 Percep¸c˜ao de Cores . . . 29
2.2 Modelos de Cor . . . 31
2.3 Sinais de V´ıdeo . . . 34
2.3.1 V´ıdeo Anal´ogico . . . 36
2.3.1.1 S´ıntese . . . 36
2.3.2 V´ıdeo Digital . . . 40
2.4 Processamento Digital de Imagens . . . 43
2.4.2.1 M´etodos Baseados em Gradientes . . . 45
2.4.2.2 M´etodos Baseados em Laplacianos . . . 47
2.5 Qualidade de V´ıdeo . . . 48
2.6 Avalia¸c˜ao Subjetiva . . . 50
2.7 Avalia¸c˜ao Objetiva . . . 52
2.7.1 Modelos da ITU . . . 53
2.7.2 PSNR . . . 54
2.7.3 SSIM . . . 55
2.7.4 S-CIELAB . . . 58
3 Metodologia 62 3.1 Avalia¸c˜ao Objetiva . . . 64
3.1.1 Ajuste `a Sensibilidade do Sistema Visual Humano . . . 65
3.1.2 Obten¸c˜ao da Medida PSNR . . . 66
3.1.3 Obten¸c˜ao da Medida SSIM . . . 66
3.1.4 Obten¸c˜ao da Medida ∆Es (S-CIELAB) . . . 66
3.2 Testes Sobre a Medida Implementada . . . 67
3.2.1 Acur´acia . . . 67
3.2.2 Grau de Monotonicidade . . . 68
3.2.3 Consistˆencia . . . 68
4.1 Parte I . . . 70
4.2 Parte II . . . 75
5 Conclus˜ao 80 Apˆendice A -- Cenas Utilizadas 82 Apˆendice B -- Avalia¸c˜ao Subjetiva 86 B.1 DSCQS . . . 86
B.2 Prepara¸c˜ao do Ambiente . . . 88
B.3 Escolha dos Indiv´ıduos . . . 88
B.4 Avalia¸c˜ao . . . 88
1
INTRODUC
¸ ˜
AO
A transmiss˜ao de sinais de televis˜ao no Brasil teve in´ıcio em 1950, passando
a colorida em 1972. Em 1996, em uma opera¸c˜ao conjunta do Grupo Abril com
Grupo Hughes, uma subsidi´aria da General Motors (GM) nos Estados Unidos
da Am´erica, iniciou-se a transmiss˜ao de sinais de televis˜ao digital via sat´elite no
Brasil. Do final de d´ecada de 60 at´e meados da d´ecada de 80 foram desenvolvidos
v´arios formatos para capta¸c˜ao, armazenamento, processamento e transmiss˜ao de
sinais de televis˜ao em todo o mundo. Isto impulsionou pesquisadores, ind´ustrias
e desenvolvedores a buscar formas de compatibilizar a gera¸c˜ao de programas para
televis˜ao, que eram cada vez mais numerosos.
Mesmo havendo uma maior complexidade na capta¸c˜ao, processamento e
trans-miss˜ao de sinais de televis˜ao em formato digital, certas vantagens como robustez
em rela¸c˜ao aos ru´ıdos e interferˆencias, regenera¸c˜ao eficiente do sinal codificado,
privacidade no tr´afego das informa¸c˜oes e formata¸c˜ao uniforme para diversos
ti-pos de servi¸co (v´ıdeo, ´audio e dados), fizeram com que estes sinais digitais fossem
implementados mundialmente. De forma simplificada, os sistemas de televis˜ao
di-gital podem ser divididos em trˆes grandes blocos, sendo (1) capta¸c˜ao ou gera¸c˜ao
de sinais de televis˜ao, (2) processamento e (3) transmiss˜ao. Os codificadores de
fonte ou compressores de v´ıdeo fazem parte da etapa de processamento e
viabili-zam, por exemplo, a transmiss˜ao simultˆanea de v´arios programas em um mesmo
A compress˜ao ou codifica¸c˜ao de sinais de v´ıdeo baseada nas limita¸c˜oes do
sistema visual humano ´e um processo que pode causar perdas irrepar´aveis ao
sinal original. Consiste em reduzir significativamente a sua taxa de bits usando
t´ecnicas de convers˜ao de taxa de amostragem, processamento digital de imagens
e elimina¸c˜ao de redundˆancias espacial e temporal atrav´es de transformadas de
dom´ınio. No caso espec´ıfico do sinal de v´ıdeo para televis˜ao, estas perdas s˜ao
percebidas pelos telespectadores como uma degrada¸c˜ao, que pode ser aceit´avel
em raz˜ao das in´umeras vantagens que o sistema como um todo oferece [1].
Com a introdu¸c˜ao da codifica¸c˜ao digital de sinais de televis˜ao, as medidas de
distor¸c˜ao objetivas usadas anteriormente deixaram de ser suficientes para
deter-minar com precis˜ao a qualidade percebida pelo usu´ario final, devido a distor¸c˜oes
n˜ao-lineares introduzidas, principalmente, pelas t´ecnicas usadas para redu¸c˜ao da
taxa ocupada por estes sinais digitais [2][3].
A avalia¸c˜ao objetiva de sinais de v´ıdeo pode ser classificada em trˆes categorias:
(1) completamente referenciada, conhecida como FR ou “Full Reference”, quando
ambos os sinais, original e processado, est˜ao dispon´ıveis para avalia¸c˜ao; (2)
parci-almente referenciada, conhecida como RR ou “Reduced Reference”, quando
ape-nas algumas amostras ou certas caracter´ısticas do sinal original est˜ao dispon´ıveis;
e (3) n˜ao referenciada, tamb´em conhecida como NR ou “No Reference”, quando
apenas o sinal processado est´a dispon´ıvel.
Em 1997, um grupo de especialistas da Uni˜ao Internacional de
Telecomu-nica¸c˜oes (ITU) se reuniu em Turin, na It´alia e formou o VQEG (Grupo de
Espe-cialistas em Qualidade de V´ıdeo). O VQEG possui projetos para aplica¸c˜oes em
televis˜ao e multim´ıdia, nas trˆes categorias anteriormente citadas. Na avalia¸c˜ao
objetiva completamente referenciada (FR) para aplica¸c˜ao em televis˜ao com
de-fini¸c˜ao padr˜ao (SDTV) o VQEG realizou dois trabalhos, sendo um conclu´ıdo em
respecti-vamente. Estes relat´orios resultaram em uma recomenda¸c˜ao da ITU espec´ıfica
para avalia¸c˜ao de sinais de televis˜ao em defini¸c˜ao padr˜ao, a recomenda¸c˜ao ITU-R
BT.1683, de 2004, na qual foram descritos quatro modelos aprovados para
im-plementa¸c˜ao [6]. O VQEG tamb´em disponibilizou, em 2000, todo o conjunto dos
dados utilizados em sua primeira avalia¸c˜ao, incluindo as cenas de v´ıdeo originais e
processadas, bem como os resultados dos experimentos subjetivos realizados com
estas cenas, permitindo que outros pesquisadores pudessem desenvolver e testar
metodologias alternativas e abordagens inovadoras para este tipo de avalia¸c˜ao,
como no caso dos trabalhos realizados por Gunawan e Gambari, 2008 [7], Ong et
al., 2007 [8], Sheikh e Bovik, 2006 [9], Seshadrinathan e Bovik, 2005 [10] e Guo
et al., 2004 [11].
1.1
Objetivos
Considerando a introdu¸c˜ao de distor¸c˜oes n˜ao-lineares no sinal de v´ıdeo, a
per-cep¸c˜ao n˜ao-linear destas distor¸c˜oes pelos seres humanos e que o conte´udo exerce
uma grande influˆencia na parametriza¸c˜ao destas distor¸c˜oes, a forma mais confi´avel
para se medir o impacto causado pelo est´agio de processamento na qualidade de
um sinal de v´ıdeo ´e a realiza¸c˜ao de experimentos subjetivos. Estes experimentos
envolvem pessoas consideradas de vis˜ao normal em ambientes controlados,
se-guindo regras padr˜oes aceitos internacionalmente, como as recomenda¸c˜oes ITU-R
BT.500-11 [12] e a ITU-T P.910 [13] ambas da Uni˜ao Internacional de
Teleco-munica¸c˜oes. A avalia¸c˜ao subjetiva demanda sofisticados recursos, alto grau de
habilidade e experiˆencia de seus condutores, al´em de um longo per´ıodo de tempo
para sua conclus˜ao. Recentemente v´arios estudos demonstraram perspectivas no
desenvolvimento de algoritmos com capacidade de simular e estimar as medidas
subjetivas com grau de certeza cada vez mais elevado.
ob-jetiva completamente referenciada (FR) de sinais de v´ıdeo em defini¸c˜ao padr˜ao
(SDTV). Para a valida¸c˜ao deste tipo de avalia¸c˜ao s˜ao necess´arias seis fases
dis-tintas, descritas a seguir:
• Escolha das cenas. Um conjunto de cenas de v´ıdeo de curta dura¸c˜ao ´e
escolhido. Estas cenas n˜ao devem apresentar distor¸c˜oes e devem representar
trechos que caracterizem o contexto que est´a sendo avaliado. Cenas naturais
e artificiais contendo cores fortes, texturas diversas, movimentos de cˆamera
e de objetos em v´arias dire¸c˜oes, contrastes suaves e fortes fazem parte destes
conjuntos de cenas;
• Processamento das cenas. Estas cenas s˜ao ent˜ao submetidas a
processa-mentos que simulam as poss´ıveis degrada¸c˜oes que um sinal de v´ıdeo
po-der´a sofrer ao longo de seu trajeto at´e a visualiza¸c˜ao pelos telespectadores:
capta¸c˜ao, processamento e transmiss˜ao;
• Avalia¸c˜ao subjetiva. Na metodologia DSCQS, cada par de cenas, uma
ori-ginal e uma processada, ´e submetido para julgamento por um painel de
telespectadores, que emitem suas opini˜oes dentro de um contexto
previa-mente estabelecido, espec´ıfico para o experimento que est´a sendo conduzido.
As opini˜oes a respeito das cenas originais e processadas resultam em um
par de notas. A nota m´edia e o desvio padr˜ao ´e calculado para cada nota,
resultando em uma vari´avel denominada nota m´edia na opini˜ao dos
obser-vadores, “Mean Opinion Score” ou M OS. Esta foi a metodologia usada
pelo VQEG em seu trabalho sobre avalia¸c˜ao completamente referenciada
da qualidade de sinais de v´ıdeo em defini¸c˜ao padr˜ao, cujos resultados foram
utilizados nesta disserta¸c˜ao.
• Obten¸c˜ao das diferen¸cas. A diferen¸ca entre a nota atribu´ıdas `as cenas
Opinion Score”, ou DM OS. Como as opini˜oes emitidas pelos
observado-res s˜ao interpretadas em valoobservado-res de 0 at´e 100, o DM OS pode variar de
-100 at´e 100. Valores pr´oximos de zero significam que pouca diferen¸ca foi
percebida entre as cenas original e processada, ao passo que valores muito
altos significam muita diferen¸ca entre as cenas. Valores negativos s˜ao raros
e significam que a cena processada foi percebida como de melhor qualidade
que a original;
• M´etodo proposto. Estes mesmos pares de cenas s˜ao submetidos ao m´etodo
de avalia¸c˜ao objetiva proposto. O m´etodo deve representar as diferen¸cas
medidas entre as cenas na mesma escala doDM OS, estimando-o por outra
vari´avel representada por DM OSP (predi¸c˜ao do DM OS). Caso a medida
objetiva n˜ao esteja representada no mesmo espa¸co da subjetiva, deve ser
feito um mapeamento de forma a obter uma predi¸c˜ao doDM OSna mesma
escala;
• Valida¸c˜ao do m´etodo. Nesta ´ultima etapa, crit´erios s˜ao estabelecidos para
avaliar o desempenho do m´etodo proposto. Neste trabalho o erro m´edio
quadr´atico (Mean Square Error), o coeficiente de correla¸c˜ao de Pearson
(Pe-arson Correlation Coefficient), o coeficiente de correla¸c˜ao ordinal de
Spe-arman (SpeSpe-arman Rank Order Correlation Coefficient) e o percentual de
pontos destoantes (Outliers Ratio) foram os crit´erios de valida¸c˜ao
adota-das.
Na Figura 1 ´e mostrado um diagrama simplificado deste processo. Dois tipos
distintos de experimentos foram realizados neste trabalho. Em uma primeira
abordagem foram utilizadas as medidas obtidas pela PSNR, SSIM e S-CIELAB
como ponto de partida para confirmar e estender os resultados obtidos pelo VQEG
na primeira fase de seu trabalho [4]. Em uma segunda abordagem estas medidas
linhas entrela¸cadas (NTSC-M 480i). As principais contribui¸c˜oes desta disserta¸c˜ao
foram: (1) a utiliza¸c˜ao da medida de qualidade de v´ıdeo baseada no espa¸co de
cores S-CIELAB e (2) a otimiza¸c˜ao da medida objetiva PSNR, mantendo-se a sua
baixa complexidade computacional e aumentando a sua correla¸c˜ao com a medida
subjetiva (DMOS coletado atrav´es da realiza¸c˜ao de experimentos subjetivos).
Figura 1: Processo para compara¸c˜ao do desempenho de m´etricas para avalia¸c˜ao da qualidade de v´ıdeo
1.2
Metodologia Utilizada
Nesta disserta¸c˜ao foram utilizados n˜ao somente os dados disponibilizados
no site do VQEG, como tamb´em as cenas de v´ıdeo originais e processadas por
este grupo disponibilizadas na internet [4]. Os m´etodos de avalia¸c˜ao e an´alises
de desempenho foram simulados por algoritmos em ambiente MATLAB r, da
Mathworks Inc.
As simula¸c˜oes foram realizadas em duas etapas, sendo que na primeira
fo-ram contempladas a implementa¸c˜ao e execu¸c˜ao dos algoritmos e na segunda foi
realizada a an´alise de desempenho do algoritmo implementado. Na etapa de
im-plementa¸c˜ao e execu¸c˜ao foram utilizadas todas as cenas de padr˜ao M, ou seja,
170 arquivos ou 160 pares de cenas, cada par contendo uma vers˜ao original (sem
distor¸c˜oes) e uma vers˜ao degradada da mesma cena.
Na etapa de an´alise foram adotados crit´erios de forma a determinar o grau
de fidelidade, monotonicidade e de consistˆencia das medidas obtidas pela m´etrica
objetiva que est´a sendo avaliada.
1.3
Estrutura da Disserta¸c˜
ao
Neste Cap´ıtulo foi introduzido ao leitor a avalia¸c˜ao de sinais v´ıdeo em sistemas
de televis˜ao digital, delimitando o contexto que ser´a abordado ao longo deste
trabalho.
No Cap´ıtulo 2 ser˜ao apresentados os fundamentos necess´arios para
familiari-zar o leitor com o assunto, envolvendo uma descri¸c˜ao das partes que comp˜oem
o sistema visual humano, suas fun¸c˜oes e rela¸c˜oes com a percep¸c˜ao da qualidade
de v´ıdeo. Ser˜ao mostrados os espa¸cos de cor utilizados por sistemas de capta¸c˜ao,
processamento e representa¸c˜ao de imagens ou v´ıdeos coloridos. Os sinais de v´ıdeo
ser˜ao apresentados, tanto no dom´ınio anal´ogico como no dom´ınio digital. Neste
Cap´ıtulo tamb´em ser˜ao mostradas ao leitor as diversas formas de medi¸c˜ao da
qualidade dos sinais de v´ıdeo, tanto subjetivas quanto objetivas. Os leitores j´a
familiarizados com o assunto poder˜ao dispensar este Cap´ıtulo.
O Cap´ıtulo 3 apresenta a metodologia utilizada para realiza¸c˜ao das simula¸c˜oes
desta disserta¸c˜ao, pormenorizando a origem dos dados, sua caracteriza¸c˜ao, os
passos para a obten¸c˜ao tanto das medidas objetivas quanto das an´alises efetuadas.
O Cap´ıtulo 4 est´a dividido em duas partes, descrevendo em cada uma delas
a simula¸c˜ao realizada e o resultado obtido.
Finalizando, o Cap´ıtulo 5 ´e dedicado `a apresenta¸c˜ao dos resultados e da
2
FUNDAMENTOS E CONCEITOS
Neste Cap´ıtulo ser˜ao descritos aspectos relevantes do sistema visual humano,
dos espa¸cos usados para representa¸c˜ao de cores, dos tipos de sinal de v´ıdeo
utili-zados em televis˜ao, das t´ecnicas de compress˜ao de sinais de v´ıdeo e tamb´em das
t´ecnicas para avalia¸c˜ao da degrada¸c˜ao destes sinais. Estes conceitos
prelimina-res s˜ao importantes para compreender como cada uma destas etapas contribui
na parametriza¸c˜ao dos algoritmos para avalia¸c˜ao da qualidade de v´ıdeo em um
sistema de televis˜ao digital.
2.1
Sistema Visual Humano
2.1.1
Constru¸c˜
ao F´ısica
Quando se olha um determinado objeto, uma imagem deste objeto atravessa
a c´ornea e chega `a ´ıris, que regula a quantidade de luz recebida por meio de
uma abertura chamada pupila. Quanto maior a pupila, mais luz entra no olho.
Passada a pupila, a imagem chega ao cristalino e ´e focada sobre a retina. Na
retina, mais de cem milh˜oes de c´elulas fotorreceptoras transformam as ondas
luminosas em impulsos eletroqu´ımicos, que s˜ao decodificados pelo c´erebro [14].
Fazendo-se uma analogia com uma m´aquina fotogr´afica, a c´ornea funciona
como a lente da cˆamera, permitindo a entrada de luz no olho e a forma¸c˜ao da
imagem na retina. Localizada na parte interna do olho, a retina seria o filme
da m´aquina, controlando a quantidade de luz que entra no olho. Ou seja, em
ambientes com muita luz a pupila se fecha e em locais escuros a pupila se dilata,
com o intuito de captar uma quantidade de luz suficiente para formar a imagem.
O formato do olho humano aproxima-se ao de uma esfera com diˆametro m´edio
de 2 cm. ´E envolto por trˆes camadas dispostas concentricamente: (1) a camada
externa, formada pela esclera ou escler´otica e pela c´ornea; (2) a camada m´edia
ou t´unica vascular, constitu´ıda pela cor´oide e pela ´ıris; e (3) a terceira camada
ou a t´unica nervosa, a retina, que se comunica com o c´erebro pelo nervo ´optico.
A Figura 2 foi adaptada de [14] e ilustra a sec¸c˜ao transversal de um olho, onde
pode-se perceber as suas partes funcionais principais.
Figura 2: Representa¸c˜ao do olho: (a) Esquema ilustrativo de uma retina humana (b) Diagrama mostrando o caminho entre os fotorreceptores, na parte inferior, at´e o nervo ´optico, na parte superior
´
E na retina que a imagem se forma e ´e nesta parte onde ficam os sensores
elementares que permitem a tradu¸c˜ao desta imagem ao c´erebro atrav´es do nervo
´optico. ´E poss´ıvel identificar dois diferentes tipos de sensores: (1) os cones e (2)
os bastonetes. Os bastonetes est˜ao distribu´ıdos por toda a retina e s˜ao insens´ıveis
`as cores apesar de possu´ırem alta sensibilidade `a luz. Os cones se concentram na
luminosidade. Portanto a vis˜ao exata das cores s´o ´e percebida quando a imagem
incide na f´ovea. Os bastonetes vˆeem principalmente movimento e formas sem
cor e menos n´ıtidas. Essa ´e a chamada vis˜ao perif´erica. Um movimento s´ubito
detectado pelos bastonetes nos limites do campo visual faz os olhos girarem em
dire¸c˜ao a imagem de interesse, esta imagem incide na f´ovea e ent˜ao s˜ao percebidos
os detalhes [15]. Na f´ovea existem trˆes diferentes tipos de cones, denominados
de curto (S), m´edio (M) e longo (L), de acordo com a faixa do espectro em que
apresenta maior sensibilidade [16].
2.1.2
Percep¸c˜
ao de Detalhes
Caracterizar a sensibilidade do sistema visual humano `a detec¸c˜ao de detalhes
´e, neste contexto, de fundamental importˆancia para a avalia¸c˜ao subjetiva de
qua-lidade de sinais de v´ıdeo. Estudos mostram que a capacidade de detectar formas
espaciais ´e uma fun¸c˜ao do tamanho, contraste e orienta¸c˜ao espacial destas formas
[17–19]. De forma simplificada, a capacidade de distinguir contraste entre ´areas
adjacentes determina o grau de percep¸c˜ao dos detalhes de uma cena [20].
A modelagem desta caracter´ıstica do sistema visual humano ´e representado
pela Fun¸c˜ao de Sensibilidade ao Contraste espacial (FSC) e tem sido utilizada
para caracterizar a sensibilidade do olho humano em fun¸c˜ao da freq¨uˆencia
espa-cial em v´arias dire¸c˜oes [16, 20, 21]. Esta curva ´e obtida atrav´es de experimentos
psicof´ısicos com indiv´ıduos, que observam padr˜oes com diferentes freq¨uˆencias
an-gulares em diferentes contrates. O contraste ´e definido em fun¸c˜ao da m´axima e
m´ınima luminosidade (Lmax e Lmin) conforme a Equa¸c˜ao:
C = Lmax−Lmin
Lmax+Lmin (2.1)
A Figura 3 mostra uma curva t´ıpica de FSC para indiv´ıduos na faixa dos
influenciada pela idade, conforme mostrado nos estudos de Schieber [22].
10−1 100 101 102
100 101 102 103
Função de Sensibilidade ao Contraste
Frequencia Espacial (ciclos por grau)
Sensibilidade ao Contrast
Figura 3: Fun¸c˜ao de sensibilidade ao contraste espacial
2.1.3
Persistˆ
encia da Vis˜
ao
Apesar de ter sido percebido por Arist´oteles antes de Cristo e por Leonardo da
Vinci no s´eculo XV, foi em 1829 que um cientista belga chamado Joseph Antoine
Ferdinand Plateau descreveu pela primeira vez o fenˆomeno da persistˆencia visual
humana. Em sua tese, Plateau descreve que existe uma latˆencia para a imagem
se formar ou para desaparecer totalmente da retina (Plateau, 1829 apud Pazeto
[23]). Esta descoberta possibilitou a cria¸c˜ao do cinema, pois uma seq¨uˆencia de
fotografias tomadas e posteriormente apresentadas a uma taxa superior a da
per-sistˆencia visual teria seu conte´udo percebido como movimento. Outros aspectos
foram envolvidos para a concep¸c˜ao do sinal de v´ıdeo, conforme ser´a descrito na
Se¸c˜ao 2.3 deste mesmo Cap´ıtulo.
A modelagem desta caracter´ıstica originou dois importantes aspectos a serem
des-crito por Pappas, 2000 [24]: a mudan¸ca de cena e a fun¸c˜ao de sensibilidade ao
contraste temporal.
A mudan¸ca de cena ´e quando ocorre uma mudan¸ca brusca de toda a imagem.
Neste caso, uma latˆencia de aproximadamente 100 milissegundos faz com que haja
um mascaramento da percep¸c˜ao humana durante este per´ıodo ap´os a mudan¸ca
de cena, conforme experimentos relatados por Seyler, 1965 [25].
Alguns modelos para a fun¸c˜ao de sensibilidade ao contraste temporal foram
sugeridos em 1970 por Cornsweet [16], em 1979 por Koendrick [26] e em 1996 por
Lambrecht [27].
2.1.4
Percep¸c˜
ao do Brilho
O sistema visual humano, assim como outros sentidos do corpo humano, n˜ao
percebe linearmente varia¸c˜oes de brilho [28]. A resposta da percep¸c˜ao humana
ao brilho ´e referida como luminosidade e ´e representada por L∗ [29]. A defini¸c˜ao
da Comiss˜ao Internacional de l‘Eclairage (CIE) para luminosidade inclui a ra´ız
c´ubica da luminˆancia (Y) relativa a uma dada referˆencia (Yn), como mostrado na
Equa¸c˜ao a seguir:
L∗ = 116·
µ
Y Yn
¶13
−16 onde Y
Yn >0,008856 (2.2)
Para valores muito pr´oximos de preto, ou seja, para Y
Yn <= 0,008856, um
seg-mento linear ´e definido. Em termos pr´aticos, este segseg-mento linear n˜ao ´e utilizado,
sendo definido como L∗ = 0 para Y
Yn ≤0,008856.
L∗ varia entre 0 e 100 e uma unidade sua representa o limiar da percep¸c˜ao
humana para uma dada diferen¸ca luminosidade. Y poderia ter sido proveniente,
por exemplo, de um sistema de convers˜ao de luz em sinal el´etrico com resposta
mais alto de Y e corresponderia ao branco [29]. A Figura 4 mostra a curva de
transferˆencia caracter´ıstica paraL∗ em fun¸c˜ao de Y segundo as Equa¸c˜oes do CIE
apud Poyton, 1996 [28].
0 0.2 0.4 0.6 0.8 1
0 10 20 30 40 50 60 70 80 90 100
Função de transferência
Brilho normalizado
Luminosidade L*
Figura 4: Gr´afico de convers˜ao para valores deY /Yn em L∗
2.1.5
Percep¸c˜
ao de Cores
Apesar do processo usado pelo ser humano para distinguir cores ainda n˜ao
ser totalmente compreendido, existe duas teorias distintas sobre a percep¸c˜ao de
cores: (1) a teoria tricrom´atica e (2) a teoria das cores opostas (opponent color
theory) [14].
A teoria tricrom´atica mostra que o olho humano possui trˆes tipos diferentes
de cones, sens´ıveis a diferentes comprimentos de onda: (1) Curtos, sens´ıveis `as
luzes azuladas, (2) M´edios, sens´ıveis `as luzes esverdeadas e (3) Longos, sens´ıveis
`as luzes avermelhadas. Estes cones recebem os nomes de S, M e L respectivamente
(Short, Medium, Long). A Figura 5 mostra a sensibilidade espectral dos trˆes tipos
3000 400 500 600 700 800 900 0.1
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Comprimento de onda, nm
Sensibilidade relativa
Sensibilidade Espectral
S M L
Figura 5: Sensibilidade espectral dos cones S, M e L
em 2000 [30].
A teoria das cores opostas sugere a existˆencia de trˆes canais de cores
mu-tuamente inibit´orios: vermelho-verde, azul-amarelo e branco-preto. A Figura 6
mostra uma simplifica¸c˜ao do processamento realizado no c´erebro humano para
perceber as cores segundo esta teoria.
S
M
L
Az
Vd
Vm IMAGEM
AZUL / AMARELO
BRANCO / PRETO
VERDE / VERMELHO
NERVO ÓPTICO RECEPTORES
(CONES) (CÉLULAS GANGLIONARES, BIPOLARES E HORIZONTAIS)PROCESSAMENTO INTERMEDIÁRIO
Figura 6: Teoria das cores opostas
Desde ent˜ao, o estudo da sensibilidade crom´atica vem crescendo ao longo dos
anos, com importantes contribui¸c˜oes na medi¸c˜ao objetiva da qualidade de imagens
e de v´ıdeos coloridos [15, 31–33].
Em 1957, Hurvich e Jameson solucionaram uma aparente discrepˆancia que
havia entre a teoria tricrom´atica e a teoria das cores opostas propondo a existˆencia
de um est´agio intermedi´ario de processamento. Segundo Mather, 2006 [15],
Hur-vich e Jameson demonstraram de forma emp´ırica o mecanismo de cores opostas.
Um exemplo disso foi medir a quantidade de verde que seria necess´ario para
can-celar a percep¸c˜ao do “avermelhado” em uma onda de comprimento longo. Hoje
em dia existem evidˆencias eletrofisiol´ogicas que confirmam esta teoria. As c´elulas
ganglionares e as c´elulas bipolares formam os sinais mutuamente inibit´orios a
partir dos cones S, M e L. A Tabela 1 mostra como as informa¸c˜oes de cada canal
s˜ao transportadas [15]. A Figura 2 (b), na Se¸c˜ao 2.1.1, ilustra este caminho da
f´ovea at´e o nervo ´optico.
Tabela 1: Canais para transporte de cores opostas
Canal Cones Meio de transporte Vermelho-Verde Oposto: L-M C´elulas ganglionares
Azul-Amarelo Oposto: S-(L + M) C´elulas ganglionares e bipolares Branco-Preto N˜ao-crom´aticos: L + M C´elulas horizontais e ganglionares
2.2
Modelos de Cor
Segundo Gonzalez e Woods, 2000 [34]: “O prop´osito de um modelo de cores
´e facilitar a especifica¸c˜ao das cores em alguma forma padr˜ao e de aceite geral”.
Este modelo deve especificar um sistema de coordenadas e um subespa¸co deste,
onde cada cor ´e representada de forma ´unica.
fon-tes prim´arias que emitissem as cores estimulanfon-tes dos trˆes tipos de cone do olho
humano para se reproduzir qualquer cor vis´ıvel. Na pr´atica, como estas fontes
prim´arias n˜ao s˜ao poss´ıveis, fun¸c˜oes de ajuste de peso s˜ao aplicadas `as
componen-tes prim´arias geradas por um dado dispositivo, de forma que possa representar
corretamente as cores vis´ıveis. Para um monitor, por exemplo, estas fun¸c˜oes
apresentam valores negativos em algumas gamas de comprimento de onda. Isto
significa que, com um monitor, n˜ao ´e poss´ıvel reproduzir todos os comprimentos
de onda de luz vis´ıvel.
A incapacidade da obten¸c˜ao de uma mistura de cores prim´arias que pudesse
representar todo o espectro vis´ıvel levou a CIE a criar um modelo que pudesse
representar todas as cores do espectro vis´ıvel.
3000 400 500 600 700 800 900 0.5
1 1.5 2
Comprimento de onda, nm
Sensibilidade relativa Sensibilidade Espectral zγ yγ xγ (a)
0 0.2 0.4 0.6 0.8 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Diagrama de Cromaticidade
Eixo x
Eixo y
(b)
Figura 7: (a) Fun¸c˜ao de ajustamento de cor segundo CIE 1931 e (b) Diagrama de cromaticidade obtido
As fun¸c˜oes para obten¸c˜ao deste modelo s˜ao representadas porxλ,yλ ezλ e s˜ao
chamadas fun¸c˜oes de ajustamento da cor ou CMF (Colour Matching Functions).
A Figura 7 (a) mostra a fun¸c˜ao que foi obtida experimentalmente em 1931 pela
CIE. Outras fun¸c˜oes de ajustamento de cor est˜ao dispon´ıveis na internet [35]. A
Figura 7 (b) representa o diagrama de cromaticidade obtido por estas fun¸c˜oes
pelo c´alculo de seus coeficiente tricrom´aticos x, y e z. O conjunto das equa¸c˜oes
de ajustamento de cor. Como conseq¨uˆencia destas Equa¸c˜oes a coordenada z ´e
calculada em fun¸c˜ao de x e de y, j´a que como conseq¨uˆencia da defini¸c˜ao tem-se
que x+y+z = 1.
x= xλ
xλ+yλ+zλ
y = yλ
xλ+yλ+zλ
z = zλ
xλ+yλ+zλ
(2.3)
No diagrama de cromaticidade a linha curva representa as cores puras ao longo
de todo o espectro vis´ıvel de cores. As extremidades s˜ao unidas por uma linha
reta denominada linha p´urpura, que representa as diversas combina¸c˜oes entre
vermelho e azul. A informa¸c˜ao de luminosidade ou intensidade do brilho n˜ao
est´a representada no plano deste diagrama e ´e definida por uma linha ortogonal
a este plano passando pelo ponto acrom´atico. O ponto acrom´atico ou ponto de
branco ´e definido como sendo “a cor capturada ou produzida quando os trˆes sinais
prim´arios s˜ao iguais” [36].
O diagrama de cromaticidade apresentado na Figura 7 ´e usado como
re-ferˆencia para defini¸c˜ao de v´arios modelos de cor, inclusive os que s˜ao utilizados
em aplica¸c˜oes de televis˜ao definidos pela Sociedade dos Engenheiros de Cinema
e Televis˜ao (SMPTE). Para a especifica¸c˜ao de um modelo de cor neste diagrama
basta definir as coordenadas (x, y) de suas cores prim´arias e do ponto acrom´atico.
O documento SMPTE 170M-2004 [37] define as coordenadas das cores prim´arias
e do ponto acrom´atico dos sistemas de televis˜ao em cores anal´ogico. Os sistemas
de televis˜ao em cores digital em defini¸c˜ao padr˜ao utilizam estas mesmas
coordena-das, enquanto que os sistemas de alta defini¸c˜ao (HDTV) utilizam as coordenadas
descritas na recomenda¸c˜ao ITU-R BT 709 [38]. A Tabela 2 mostra as
para as cores prim´arias.
Tabela 2: Coordenadas x e y no diagrama de cromaticidade CIE1931 Sistema de tv a cores NTSC-M e PAL-M SECAM e PAL exceto M
Ponto do diagrama x y x y
R 0,67 0,33 0,630 0,340
G 0,21 0,71 0,310 0,595
B 0,14 0,08 0,155 0,070
Iluminante CIE padr˜ao C Iluminante CIE padr˜ao D65 W 0,3101 0,3162 0,3127 0,3290
O conjunto de cores poss´ıveis para um determinado dispositivo ou sistema ´e
conhecido comogamut de cores deste dispositivo. No diagrama de cromaticidade,
ao se unir os trˆes pontos definidos pelas prim´arias R, G e B de um sistema de
cores, tem-se uma ´area que corresponde a toda extens˜ao de cores deste sistema.
A Figura 8 ilustra, no diagrama de cromaticidade CIE 1931, as coordenadas das
cores prim´arias R, G e B utilizadas pelos sistemas de reprodu¸c˜ao NTSC 1953
e atual, definidos pelo documento SMPTE 170M-2004 [37]. Este conjunto de
prim´arias definem o espa¸co de cores mRGB, um espa¸co de cores RGB dependente
do dispositivo.
2.3
Sinais de V´ıdeo
Sinais de v´ıdeo s˜ao formas de onda el´etrica que permitem o transporte de
seq¨uˆencias de imagens de um local para outro. Ao se observar uma cena, uma
imagem bidimensional ´e gerada em cada uma das retinas do olho humano. Como
esta imagem varia com o tempo, uma informa¸c˜ao tridimensional ´e obtida. A
combina¸c˜ao das imagens geradas pelas duas retinas cria uma vis˜ao estereosc´opica
[1]. Uma forma de onda el´etrica ´e bidimensional, pois varia uma tens˜ao ao longo
do tempo. Para converter esta informa¸c˜ao bidimensional em uma informa¸c˜ao
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Diagrama de Cromaticidade
Eixo x
Eixoy
Branco CIE C Branco
CIE D65 Branco normalizado
Gamut do sistema NTSC 1953
Gamut do sistema NTSC atual Gamut de cores visíveis
Figura 8: Representa¸c˜ao do gamut de cores dos sistemas NTSC 1953 e NTSC atual no diagrama de cromaticidade CIE 1931
varredura. A utiliza¸c˜ao do recurso de varredura faz com que uma cena de v´ıdeo
seja reproduzida linha a linha, imagem ap´os imagem. Cada imagem ´e varrida da
esquerda para a direita e de cima para baixo, uma linha por vez. Este tipo de
varredura ´e denominado varredura linear horizontal [39].
A taxa de repeti¸c˜ao dos quadros em sistemas de televis˜ao foi derivada de
uma combina¸c˜ao entre a freq¨uˆencia usada nas redes de fornecimento de energia
el´etrica e dos primeiros sistemas de cinema, onde os quadros eram exibidos a
uma taxa de 48 vezes por segundo. Apesar da exibi¸c˜ao de apenas 24 quadros
diferentes por segundo j´a causar aos olhos a sensa¸c˜ao de movimento, a taxa de
exibi¸c˜ao de quadros de cinema foi dobrada com o prop´osito de se evitar o efeito
da cintila¸c˜ao durante a exibi¸c˜ao dos filmes, principalmente em cenas com altos
n´ıveis de ilumina¸c˜ao [39]. Partindo-se da taxa de repeti¸c˜ao dos quadros e da
vertical usadas como base para o sistema de televis˜ao monocrom´atico, lan¸cado
comercialmente na d´ecada de 40.
2.3.1
V´ıdeo Anal´
ogico
Os sistemas de televis˜ao anal´ogica convencional seguem as recomenda¸c˜oes da
ITU e da SMPTE para defini¸c˜ao de padr˜ao. As recomenda¸c˜oes ITU-R BT470-7
[40] e ITU-R BT1700 [41], ambas de 2005, definem os formatos de v´ıdeo composto
mais utilizados, enquanto o documento SMPTE 170M-2004 [37] caracteriza de
forma detalhada o sinal de v´ıdeo padr˜ao NTSC.
Em sistemas de varredura entrela¸cada, como ´e o caso de todos os sistemas
de v´ıdeo anal´ogico usados em televis˜ao, ´e necess´ario primeiramente que sejam
transmitidas todas as linhas de um campo, para em seguida iniciar-se a
trans-miss˜ao do campo seguinte. A intensidade ao longo de uma linha de varredura ´e
representada por uma tens˜ao el´etrica, sendo que tens˜oes mais baixas representam
´areas escuras e tens˜oes mais altas representam ´areas mais claras.
2.3.1.1 S´ıntese
O sinal de v´ıdeo composto deve conter uma representa¸c˜ao el´etrica do brilho
e da cor de uma dada cena. Este sinal tamb´em deve incluir referˆencias que
permitam sua reconstitui¸c˜ao em uma tela. Estas referˆencias ser˜ao utilizadas para
sincroniza¸c˜ao e n˜ao devem ser vis´ıveis em um sistema bem ajustado. Algumas
partes do sinal composto n˜ao possuem informa¸c˜oes sobre a cena e devem ser
for¸cadas a um n´ıvel ainda mais preto que a referˆencia (pedestal), de forma que
os feixes de varredura dos equipamentos de capta¸c˜ao e reprodu¸c˜ao funcionem
perfeitamente [40].
Um sinal de v´ıdeo ´e composto, fundamentalmente, de duas diferentes
• Componente de Luma, representada porY′
• Componente de diferen¸ca de cor, representada por Cr eCb ouU eV
A Figura 9 mostra um exemplo de sistema para obten¸c˜ao de um sinal de
v´ıdeo composto NTSC a partir de suas componentes de cor RGB n˜ao-lineares.
Figura 9: Obten¸c˜ao de um sinal de v´ıdeo composto
Neste sistema, os sinais de referˆencia G, B e R devem estar sincronizados
e com igual amplitude para representa¸c˜ao de uma imagem sem informa¸c˜ao de
cor. Estes sinais s˜ao descritos usualmente como corrigidos com o fator gamma,
representados em documentos antigos comoE′
G,EB′ eER′ [37]. A corre¸c˜aogamma
tem uma fun¸c˜ao de transferˆencia semelhante `a mostrada na Figura 4. A defini¸c˜ao
da corre¸c˜ao gamma est´a descrita pela SMPTE no documento SMPTE
170M-2004 [37] e pela Uni˜ao Internacional de Telecomunica¸c˜oes no documento ITU-R
BT709-5 de 2002 [38]. As equa¸c˜oes que definem esta fun¸c˜ao de transferˆencia para
os intervalos 0,018 ≤L≤1 e 0,0812 ≤V ≤1 s˜ao:
V = 1,099·L0,45−0,099 (2.4)
L= ·
V + 0,099 1,099
¸0,145
(2.5)
ondeV representa o sinal el´etrico das componentesG,B eR corrigidas pelo fator
componentes Vermelha (R), Verde (G) e Azul (B). Fora do intervalo indicado a
rela¸c˜ao ´eV = 4,5·L e L=V /4,5.
Segundo Poyton, 1996 [28], a combina¸c˜ao de dois efeitos, sendo um de
ori-gem f´ısica e outro de oriori-gem perceptiva, foi respons´avel pela concep¸c˜ao do fator
gamma. O efeito de origem f´ısica est´a relacionado com o fato de que os tubos de
raios cat´odicos (CRT) usados em televis˜ao possuem uma curva de transferˆencia
exponencial entre a tens˜ao de entrada e a luminosidade de sa´ıda. O fator de
ori-gem perceptiva ´e que os seres humanos n˜ao percebem de forma linear as varia¸c˜oes
de brilho.
Estes sinais devem ser transformados em duas componentes, sendo uma de
lu-minˆancia (Y) e outras duas de crominˆancia (B-Y e R-Y). O termo crominˆancia ´e
definido como a diferen¸ca entre duas cores com a mesma luminosidade, sendo uma
das cores a de referˆencia [29]. Ap´os filtrados para eliminar as altas freq¨uˆencias, os
sinais de diferen¸ca de cor (B-Y e R-Y) s˜ao entregues a um modulador de
quadra-tura, que ir´a modular os vetores I e Q resultando em uma modula¸c˜ao em fase da
subportadora de cor. Esta subportadora de cor j´a modulada ´e adicionada ao sinal
de luminˆancia, assim como os sinais de sincronismo de luminˆancia, sincronismo
de crominˆancia, apagamento e pedestal.
Uma representa¸c˜ao el´etrica do sinal de v´ıdeo pode ser vista nas Figuras 10 e
11. Na Figura 10 o eixo vertical representa a tens˜ao, convertida para o padr˜ao
IRE e o eixo horizontal representa o tempo, amostrado ao intervalo de uma linha
horizontal. J´a na Figura 11 a representa¸c˜ao ´e polar, onde a magnitude representa
a intensidade da cor e a fase representa seu matiz.
Em termos de componentes espectrais, o sinal de v´ıdeo pode ser descrito pela
soma de um sinal de luma aos dois sinais de diferen¸ca de cor [37]. A equa¸c˜ao a
seguir mostra um sinal de v´ıdeo compostoE′
Figura 10: Forma de onda de um sinal de v´ıdeo composto
E′
Y(t) U′(t) e V′(t).
E′
M(t) =EY′ (t) +U′(t)·sen(2πfsct) +V′(t)·cos(2πfsct) (2.6)
A sincroniza¸c˜ao destes sinais ´e de fundamental importˆancia para sua
re-produ¸c˜ao. A sincroniza¸c˜ao dos sinais de televis˜ao anal´ogica ´e feita atrav´es dos
pulsos de sincronismo horizontal, pulsos de sincronismo vertical e salva de
sincro-nismo de cor. Estes pulsos de sincrosincro-nismo est˜ao atrelados entre si pela pr´opria
defini¸c˜ao de cada padr˜ao e sistema de cor. Em sistemas NTSC-M, por exemplo,
as freq¨uˆencias de sincroniza¸c˜ao de cor fsc, de sincroniza¸c˜ao horizontal fH e de
sincroniza¸c˜ao vertical fV s˜ao dadas pelas Equa¸c˜oes a seguir [37]:
fsc(M Hz) = 5×
63
88 = 3,57954 (2.7)
fH(Hz) = 2
455 ×fsc = 15.734,265734 (2.8)
fV(Hz) = 2
Figura 11: Representa¸c˜ao vetorial das componentes de cor em um sinal de v´ıdeo composto
2.3.2
V´ıdeo Digital
Em aplica¸c˜oes para televis˜ao digital em defini¸c˜ao padr˜ao, os sinais utilizados
s˜ao classificados de acordo com o espa¸co de cores utilizado, a freq¨uˆencia de
amos-tragem e a rela¸c˜ao de aspecto. A Figura 12 foi adaptada de [42] e mostra como os
v´arios espa¸cos de cor s˜ao usados em aplica¸c˜oes t´ıpicas de v´ıdeo digital. Na parte
superior desta figura est´a representado o processo de s´ıntese de um sinal de v´ıdeo
t´ıpico e na parte inferior est´a a representa¸c˜ao do processo para sua exibi¸c˜ao.
Embora o espa¸co de cores RGB apresente vantagens quando utilizado para
computa¸c˜ao gr´afica (principalmente pelo fato das telas utilizarem este mesmo
espa¸co para mostrar as cores criadas), sua eficiˆencia em termos de taxa de bits
´e reduzida [36]. Neste espa¸co de cores, cada componente utiliza a mesma taxa,
ou seja, R, G e B s˜ao as componentes da cor de um determinado pixel a ser
mostrado. Se considerarmos que cada uma das trˆes componentes ocupa umbyte,
Tela ou dispositivo de saída Correção Gamma (2,5) Descodificação em Diferenças de Cor Conversão da taxa de amostragem Captação Correção Gamma (0,45) Conversão da taxa de amostragem Y’ Cb Cr Y’ Cb Cr Codificação em Diferenças de Cor R’ G’ B’ R’ G’ B’ 4:2:2 ou 4:2:0 ou 4:1:1 4:4:4 4:4:4 R G B R G B (b) (a) Y’ Cb Cr Y’ Cb Cr
Figura 12: Espa¸cos de cor usados em um sistema de televis˜ao digital
Como foi mostrado na Se¸c˜ao 2.1, a vis˜ao humana ´e mais sens´ıvel `a percep¸c˜ao
de detalhes do que `a percep¸c˜ao de cores. Este fato motivou a cria¸c˜ao de formatos
que representam a varia¸c˜ao de intensidade luminosa em uma componente e a
varia¸c˜ao de cores em outra. Os espa¸cos de cor YUV, YIQ e YCbCr s˜ao exemplos
deste tipo de abordagem. Para representa¸c˜ao de sinais de v´ıdeo digital ´e muito
comum a utiliza¸c˜ao do espa¸co de cores YCbCr, formado pelas componentes de
luma (Y’) e diferen¸cas de cor (Cb e Cr).
Os est´udios de televis˜ao utilizam sinais digitais em formato Abekas, tamb´em
conhecido como “big YUV”, no qual as amostras de cada linha s˜aobytes seq¨
uen-cialmente dispostos, iniciando por uma amostra de cor, seguido por uma amostra
de luma e assim sucessivamente. A Figura 13 mostra a estrutura utilizada para
transporte de sinais de v´ıdeo digital em formato 4:2:2 sem compress˜ao com rela¸c˜ao
de aspecto 4:3 [43]. O formato Abekas utiliza esta mesma seq¨uˆencia para
armaze-nar os sinais de v´ıdeo digitalbyte porbyte em arquivos bin´arios, sem a necessidade
dos bytes para sincronismo indicados.
Este formato de arquivo para armazenamento de v´ıdeo digital permite o
ar-mazenamento de cenas de v´ıdeo n˜ao comprimidas ocupando 16 bits por pixel.
Cada byte do arquivo representa uma componente de cor ou de luma (n´ıvel de
718 719 720 721 736 857 0 1 2
359 360 368 0 1
359 360 0 1
ÚLTIMA AMOSTRA DA LINHA AMOSTRA ATUAL PRIMEIRA AMOSTRA DA LINHA COMPONENTE LUMINÂNCIA Y COMPONENTE DE COR Cr
COMPONENTE DE COR Cb
C b 3 5 9 C r 3 5 9 Y 7 1 9 C b 3 6 0 Y 7 2 0 C r 3 6 0 Y 7 1 8 C b 3 6 8 Y 7 3 6 C r 3 6 8 Y 8 5 5 C b 4 2 8 Y 8 5 6 C r 4 2 8 Y 8 5 7 C b 0 Y 0 Cr 0 Y 1 C b 3 5 9 C r 3 5 9 Y 7 1 9 Y 7 1 8 C b 0 Y 0 Cr 0 Y 1 Y 72 1
EAV (FINAL DE
LINHA ATIVA) SAV (INÍCIO DELINHA ATIVA)
SINAIS DE REFERÊNCIA
368
RESERVADO PARA DADOS AUXILIARES
Figura 13: Seq¨uˆencia debytes para aplica¸c˜oes em v´ıdeo digital no formato ITU-R BT601-5
para cada pixel ´e de 2bytes, sendo um para luma e outro para cor (ou Cb ou Cr).
Um quadro de televis˜ao resolu¸c˜ao SDTV com 486 linhas e 720 pixels por linha
ocupa 350kB (720·486·2 = 699.840bytes). Uma cena com 260 quadros ocupa,
portanto, 182MB (720·486·2·260 = 181.958.400bytes).
Nos arquivos disponibilizados pelo VQEG em [4], a corre¸c˜ao de gamma foi
previamente aplicada `as amostras de luminˆancia, sendo este formato de cor
co-nhecido comoY′CbCr. As amostras est˜ao em seq¨uˆencia da esquerda para direita
e de cima para baixo, iniciando pelo campo superior e seguindo nesta seq¨uˆencia
de quadro em quadro, observando-se que este ´e um padr˜ao M de 525 linhas 59,94
e padronizado pela ITU na recomenda¸c˜ao ITU-R BT601-5 [44] e os protocolos
usados para seu transporte est˜ao descritos nas recomenda¸c˜oes ITU-R BT656-4
[43] e ITU-R BT1302-0 [45].
2.4
Processamento Digital de Imagens
Antes de submeter as cenas de v´ıdeo para compara¸c˜ao ´e introduzida uma
etapa de prepara¸c˜ao, na qual s˜ao efetuadas equaliza¸c˜ao de brilho, suaviza¸c˜ao de
detalhes e detec¸c˜ao de contornos. Controlando-se o raio de a¸c˜ao de filtros, um
novo conjunto de medidas ´e obtido. Compara¸c˜oes de desempenho s˜ao realizadas
entre estes novos conjuntos de medidas e o conjunto de medidas obtido pelo
VQEG. Foi verificado que a aplica¸c˜ao adequada de t´ecnicas para suaviza¸c˜ao de
imagens, combinadas com m´etricas de f´acil implementa¸c˜ao como a SSIM, elevam
seu grau de correla¸c˜ao com medidas subjetivas. Tamb´em foi demonstrado que
t´ecnicas para extra¸c˜ao de contornos, combinadas com a m´etrica PSNR, podem
aumentar significativamente seu desempenho em termos de correla¸c˜ao com os
testes efetuados pelo VQEG. Para um melhor entendimento destas etapas de
prepara¸c˜ao, ser˜ao apresentadas a seguir as t´ecnicas de suaviza¸c˜ao e de extra¸c˜ao
de contornos utilizadas neste trabalho.
2.4.1
Filtragem em Dom´ınio Espacial
A filtragem no dom´ınio espacial consiste na realiza¸c˜ao de opera¸c˜oes
direta-mente nos pixels da imagem [34], representado pela equa¸c˜ao a seguir:
g(x, y) =T[f(x, y)] (2.10)
onde f(x, y) ´e o valor do pixel cuja coordenada espacial ´e (x, y) e T ´e um
Neste tipo de filtragem o valor de cada pixel da imagem processada, g(x, y),
´e obtido atrav´es de opera¸c˜oes matem´aticas realizadas diretamente sobre os pixels
da imagem f. Para a obten¸c˜ao do valor de cada pixel de g, o operador T pode
ser aplicado a apenas um pixel de f ou a um conjunto de pixels, referido como
janela.
Uma das filtragens mais utilizadas s˜ao aquelas que suavizam as imagens, de
forma a simplificar sua escala, reduzindo a entropia. Neste tipo de filtragem o
operador T utiliza uma janela com v´arios pixels de f para calcular o valor de
cada pixel de g.
g(i, j) =
x+a
X
i=x−a y+a
X
j=y−a
f(i, j)w(i, j) (2.11)
Onde: w(i, j) ´e um operador em janela ea,bs˜ao os limites da janela desejados
Um outro tipo de filtragem bastante comum ´e an´alogo ao de suaviza¸c˜ao,
por´em com efeito exatamente oposto. S˜ao filtros que utilizam derivadas para
real¸car os contornos das imagens. O m´etodo mais comum neste tipo de aplica¸c˜ao
´e utilizando o Gradiente.
A t´ecnica de suaviza¸c˜ao utilizada neste trabalho foi obtida por um filtro passa
baixa, em dom´ınio espacial, cujo operador em janelaw(i, j) possui dimens˜ao 11×
11 e foi obtido por uma fun¸c˜ao Gaussiana amostrada. A seguir ser˜ao apresentadas
as t´ecnicas de detec¸c˜ao de contorno testadas neste trabalho.
2.4.2
Detec¸c˜
ao de Contornos
Um contorno de imagem (do termo em inglˆes edge) ´e definido como sendo a
regi˜ao limite onde ocorre uma mudan¸ca significativa de algum aspecto da imagem,
levando a uma altera¸c˜ao de intensidade, cor ou textura [46]. Neste trabalho foi
mais utilizados para detec¸c˜ao de contornos ser˜ao aplicados aqui neste trabalho:
o m´etodo baseado em Gradientes e o m´etodo baseado em Laplacianos.
2.4.2.1 M´etodos Baseados em Gradientes
Considerando uma fun¸c˜aof(x, y), o gradiente de f nas coordenadasxe yna
dire¸c˜ao formada pelos vetores unit´arios ˆix e ˆiy pode ser calculado como:
∇f(x, y) = ∂f(x, y)
∂x ˆix+
∂f(x, y)
∂y ˆiy (2.12)
Para a detec¸c˜ao de contornos usando gradientes, a magnitude de ∇f(x, y) ´e
calculada, e ent˜ao este valor ´e comparado com uma referˆencia para determinar
se este ponto ´e um poss´ıvel candidato a contorno. De forma geral os contornos
encontrados em imagens de cenas naturais s˜ao suaves, de forma que na detec¸c˜ao ´e
encontrada uma faixa de contorno, e n˜ao uma linha de contorno. Um processo de
refinamento (do termo em inglˆes thinning) ´e necess´ario para transformar a faixa
de pixels detectados como contorno em uma linha de contorno. Uma abordagem
comum para detec¸c˜ao de bordas ´e verificar se |∇f(x, y)| possui m´aximo local em
alguma dire¸c˜ao.
Em processamento digital de imagens,f(x, y) ´e substitu´ıdo por uma seq¨uˆencia
bidimensional discretaf(n1, n2), e as derivadas parciais ∂f∂x(x,y) e ∂f∂y(x,y) podem ser
substitu´ıdas por uma diferen¸ca, como por exemplo:
∂f(x, y)
∂x ↔[f(n1+ 1, n2+ 1)−f(n1−1, n2+ 1)] + [f(n1 + 1, n2)
−f(n1−1, n2)] + [f(n1+ 1, n2−1)−f(n1−1, n2−1)] (2.13)
Esta diferen¸ca pode ser vista como uma convolu¸c˜ao discreta entref(n1, n2) e
a resposta impulsiva do filtro ´e dada pelos coeficientes:
hHor(n1, n2) =
−1 0 1
−1 0 1
−1 0 1
Especificamente neste caso, este conjunto de coeficientes especifica o
opera-dor Prewitt para detec¸c˜ao de contornos no sentido horizontal de uma imagem
(Prewitt, 1970 apud Gonzalez e Woods, 2000) [34]. Os contornos no sentido
ver-tical de uma dada imagem podem ser detectados por um outro operador obtido
pela opera¸c˜ao de transposi¸c˜ao hV ert(n1, n2) = hHor(n2, n1). O fato da detec¸c˜ao
de contornos ser dada em uma dire¸c˜ao espec´ıfica, faz com que este operador seja
chamado de operador direcional. Operadores n˜ao-direcionais podem ser
desenvol-vidos pela aproxima¸c˜ao discreta de|∇f(x, y)|. A aproxima¸c˜ao a seguir foi usada
por Duda e Hart, 1973 apud Lim, 1990 [46] para definir dois diferentes pares de
operadores, denominados operadores de Sobel e operadores de Roberts:
|∇f(x, y)| −→
q
fx(n1, n2)2+fy(n1, n2)2 (2.14)
onde: fx(n1, n2) = f(n1, n2)∗hx(n1, n2) e fy(n1, n2) = f(n1, n2)∗hy(n1, n2)
A seguir s˜ao mostrados os operadores de Sobel (3x3) e de Roberts (2x2):
hSobel=
−1 0 1
−2 0 2
−1 0 1 ou
1 2 1
0 0 0
−1 −2 −1 hRoberts = 0 1
−1 0 ou 1 0
0 −1
2.4.2.2 M´etodos Baseados em Laplacianos
Uma outra forma para se detectar contornos em uma imagem ´e buscar os
cruzamentos por zero das diferen¸cas de segunda ordem. Uma quest˜ao que surge
neste tipo de abordagem ´e que ru´ıdos seriam detectados como contornos, devido
`a sensibilidade da segunda derivada. Uma forma de minimizar esta quest˜ao ´e
aplicando filtros de suaviza¸c˜ao antes de submeter a imagem `a detec¸c˜ao de
contor-nos. A equa¸c˜ao abaixo mostra como calcular o Laplaciano de uma fun¸c˜aof(x, y)
[46]:
∇2f(x, y) = ∇(∇f(x, y)) = ∂
2f(x, y)
∂x2 +
∂2f(x, y)
∂y2 (2.15)
De forma similar ao que foi visto com o Gradiente, a Equa¸c˜ao 2.15 pode ser
aproximada para imagens digitais representadas por f(n1, n2), desta forma:
∇2f(x, y)→ ∇2f(n1, n2) = fxx(n1, n2) +fyy(n1, n2) (2.16)
Onde: fxx(n1, n2) fyy(n1, n2) podem ser aproximados pela diferen¸ca em rela¸c˜ao
aos pixels posterior e anterior, assim:
∇2f(n
1, n2) = f(n1+ 1, n2) +f(n1−1, n2) +f(n1, n2+ 1) +f(n1, n2−1)−
4f(n1, n2)
E tamb´em de forma semelhante ao m´etodo do Gradiente, operadores podem
ser utilizados para aproximar a derivada de segunda ordem a ser utilizada em
uma convolu¸c˜ao discreta. Na aproxima¸c˜ao anterior, por exemplo, o Laplaciano ´e
calculado `a partir de uma convolu¸c˜ao discreta com o operador:
hLap=
0 −1 0
−1 4 −1
0 −1 0
n˜ao s˜ao muito comuns, devido `a sensibilidade ao ru´ıdo mencionada anteriormente.
Uma abordagem muito comum ´e a utiliza¸c˜ao combinada com filtro de suaviza¸c˜ao
Gaussiano, t´ecnica conhecida como Laplaciano do Gaussiano, ou simplesmente
LoG. A Figura 14 mostra um exemplo usando o campo superior do primeiro
quadro de uma das cenas usadas neste trabalho. Nesta figura ´e apresentada a
imagem original em (a), sua vers˜ao suavizada por um filtro Gaussiano em (b), o
resultado da convolu¸c˜ao com um filtro Laplaciano em (c) e finalmente a extra¸c˜ao
de bordas usando a t´ecnica de passagem por zero ap´os convolu¸c˜ao com o resultado
da convolu¸c˜ao entre as respostas impulsivas dos filtros Laplaciano e Gaussiano.
(a) (b)
(c) (d)
Figura 14: (a) Imagem original, (b) Convolu¸c˜ao com filtro Gaussiano, (c) Con-volu¸c˜ao com filtro Laplaciano e (d) Detec¸c˜ao de borda usando a conCon-volu¸c˜ao com filtro LoG (Laplaciano do Gaussiano)
´
E importante salientar que o Gradiente de uma imagem bidimensional em
tons de cinza ´e um campo vetorial, enquanto que o Laplaciano desta mesma
imagem ´e um campo escalar.
2.5
Qualidade de V´ıdeo
Usualmente um telespectador est´a interessado em assistir a uma representa¸c˜ao
bidimensional do mundo real com a maior fidelidade poss´ıvel. Os sinais de v´ıdeo
transporte. Nos sinais de v´ıdeo composto usados em televis˜ao anal´ogica s˜ao
inseridas distor¸c˜oes lineares e invariantes no tempo ao longo destas etapas,
per-mitindo a utiliza¸c˜ao de um conjunto de testes muito bem definidos e amplamente
aceitos pela comunidade. Medidas em termos de amplitude, freq¨uˆencia e fase
caracterizam de forma completa este tipo de sinal e suas distor¸c˜oes [47].
A recomenda¸c˜ao ITU-R BT1204, 1995 [48] define as t´ecnicas, sinais de teste
e metodologias usadas para caracterizar estes sinais anal´ogicos. Medidas como
rela¸c˜ao sinal-ru´ıdo (S/N), ganho diferencial (DG), ganho de fase (DP),
carac-ter´ısticas impulsivas (K2T e P/B) e linearidade da componente de luma s˜ao
es-pecificadas nesta recomenda¸c˜ao e s˜ao utilizadas para caracterizar sinais de v´ıdeo
no dom´ınio anal´ogico com muita precis˜ao.
Com a introdu¸c˜ao de novas t´ecnicas digitais para processamento e compress˜ao
de sinais de v´ıdeo, estas medidas deixaram de ser suficientes para caracterizar as
novas formas de distor¸c˜ao inseridas. Segundo Wang et al., 2003 [49]: “Um sinal
de v´ıdeo ou imagem cuja qualidade est´a sendo avaliada pode ser entendido como
a soma entre um sinal de referˆencia perfeito e um sinal de erro”. Tendo isto em
mente, a forma mais intuitiva de se medir a qualidade de sinal de v´ıdeo seria
quantificar o erro que est´a inserido neste sinal. Esta tarefa seria ainda mais
simples no caso da avalia¸c˜ao de v´ıdeo completamente referenciada, j´a que o sinal
de referˆencia est´a dispon´ıvel.
Segundo Jayant e Noll, 1984 [50]: “A avalia¸c˜ao da fidelidade ou do grau de
degrada¸c˜ao que um determinado sistema causa em um sinal de v´ıdeo pode ser feita
de forma objetiva ou de forma subjetiva”. A avalia¸c˜ao subjetiva envolve um certo
n´umero de pessoas em ambiente controlado, seguindo determinada metodologia
e conduzido por especialistas com bastante experiˆencia neste tipo de atividade.
A avalia¸c˜ao objetiva ´e realizada de forma autom´atica e pressup˜oe um algoritmo
uma medida de qualidade.
2.6
Avalia¸c˜
ao Subjetiva
Neste tipo de avalia¸c˜ao as cenas a serem avaliadas s˜ao apresentadas para
um painel de observadores, que julgam a qualidade das cenas apresentadas sob
determinados aspectos bem definidos, em certas condi¸c˜oes tamb´em definidas
pre-viamente de acordo com a aplica¸c˜ao. A ITU define, atrav´es da recomenda¸c˜ao
ITU-R BT.500-11, cinco metodologias b´asicas para avalia¸c˜ao subjetiva de
quali-dade para televis˜ao de defini¸c˜ao padr˜ao - SDTV:
• Metodologia 1:
– DSIS (Double-Stimulus Impairment Scale) usada principalmente para
medir a robustez de sistemas, ou seja, para caracterizar falhas de
trans-miss˜ao;
• Metodologia 2:
– DSCQS (Double-Stimulus Continuous Quality-Scale) usada
principal-mente para medi¸c˜ao da degrada¸c˜ao causada por sistemas em rela¸c˜ao
a uma referˆencia;
• Metodologias alternativas:
– SS (Single Stimulus);
– SSCQE (Single Stimulus Continous Quality Evaluation) usada quando
se deseja avaliar subjetivamente uma cena sem considerar uma
re-ferˆencia;
– SDSCE (Simultaneous Double-Stimulus for Continuous Evaluation)
Para aplica¸c˜oes em televis˜ao de alta defini¸c˜ao (HDTV), videoconferˆencia e
aplica¸c˜oes em multim´ıdia, outros grupos da ITU descrevem suas pr´oprias
meto-dologias de avalia¸c˜ao. Pinson e Wolf realizaram em 2003 uma compara¸c˜ao entre
estas metodologias, verificando a sensibilidade de cada uma delas para
determi-nadas aplica¸c˜oes, concluindo que, entre outros aspectos, para avalia¸c˜oes usando
duplo est´ımulo (como a metodologia DSCQS) a dura¸c˜ao de 15 segundos ´e um
fator limitante devido ao efeito de mem´oria dos avaliadores [51].
Para avalia¸c˜ao da qualidade dos sinais de televis˜ao digital completamente
referenciada ´e de particular interesse a metodologia DSCQS, na qual pares de
cenas com curta dura¸c˜ao de tempo, tipicamente 10 segundos, s˜ao apresentadas a
um painel de telespectadores, que atribuem notas a cada cena do par. Usando
t´ecnicas bem definidas para a prepara¸c˜ao do ambiente, escolha dos indiv´ıduos,
execu¸c˜ao dos experimentos e compila¸c˜ao dos resultados, esta metodologia de
ava-lia¸c˜ao apresenta resultados de forma consistente e bem definida. No Apˆendice B
est´a detalhado como foi conduzida a avalia¸c˜ao subjetiva pelo grupo FR-TV do
VQEG, cujos resultados foram utilizados neste trabalho.
Embora a avalia¸c˜ao da qualidade de sinais de v´ıdeo em acordo com a
per-cep¸c˜ao do telespectador esteja definida pela recomenda¸c˜ao ITU-R-BT.500-11,
no-vas formas de avalia¸c˜ao considerando o sinal digital comprimido tˆem sido
desen-volvidas com base nas trˆes principais t´ecnicas de an´alise da qualidade de imagem
para v´ıdeo digital [3]:
• Utilizar sinais de v´ıdeo dinˆamico sint´etico para medi¸c˜ao das distor¸c˜oes
cau-sadas pela compress˜ao do sinal;
• Efetuar medidas de distor¸c˜ao para determinar o quanto o sinal original foi
distorcido;