2.4 Aprendizado de Máquina

O Image Quality Assessment (IQA) e o Video Quality Assessment (VQA) utilizam métricas e métodos que visam medir a qualidade de imagens e vídeos degradados e permitir melhorias na qualidade final da imagem ou vídeo que chega ao utilizador (ZEGARRA RODRÍGUEZ, 2014; REGIS, 2013). O Capítulo 6 apresenta a discussão dos resultados obtidos para a avaliação da qualidade de imagem 3D e para a avaliação da qualidade de vídeo 3D.

Sistema Visual Humano

Construção Física

A Seção 2.5 apresenta o conceito de Árvore de Decisão e também os algoritmos AD que foram utilizados neste trabalho. A Seção 2.6 discute as métricas de avaliação de desempenho de MA e a Seção 2.7 aborda as métricas de erro para técnicas de MA.

Receptores Visuais

Percepção de Imagens

Assim, as métricas de pontuação de qualidade são mais robustas para mudanças na distância de visualização. Essas características estão relacionadas a fatores de percepção de qualidade e são importantes para o desenvolvimento de critérios de avaliação de qualidade de imagem e vídeo.

Informações de Profundidade Estereoscópica

Degradações

Isso é causado pela perda de informações de pixel, geralmente devido ao processo de compactação baseado em blocos (PAN et al., 2004). Dependendo do tamanho do IDP (Group Of Pictures) e do tipo de imagem afetada, um bloco incorreto pode se espalhar por outros quadros (TANJI et al., 2014).

Aprendizado de Máquina

As técnicas supervisionadas analisam o conjunto de dados fornecidos como entrada para “aprender” a classificar novos dados, os algoritmos funcionam de forma que desenvolvam um modelo matemático dos dados que compõem a entrada (dados enviados ao sistema) e o esperado saída. A classificação é o processo de tentar encontrar um conjunto de modelos (funções) que descreva e diferencie classes ou conceitos, com o objetivo de usar o modelo para prever a classe de objetos que ainda não foram classificados (DEVEZA, 2011).

Árvore de Decisão

Algoritmos Baseados em Árvore de Decisão

A partir daí, seleciona a melhor de todas as árvores geradas, que serão consideradas como representativas (KALMEGH, 2015). Além disso, o ForestPA coloca pesos nos atributos que participaram da construção das árvores anteriores para gerar as árvores subsequentes.

Métricas de Avaliação de Desempenho de AM

Acurácia é a taxa de acerto do classificador, ou seja, a taxa de exemplos positivos e negativos corretamente classificados entre todos os exemplos do conjunto de dados, como pode ser visto na Eq.(2). Precisão é a taxa de exemplos corretamente classificados como A+ (Vp) entre todos os exemplos classificados como A+ (Vp e Fp), conforme descrito na Eq.(3).

Medidas de Erro para Técnicas de AM

Dessa forma, a média harmônica entre os dois possibilita mensurar um desempenho mais realista (TAN; STEINBACH; KUMAR, 2016). A Eq.(7) descreve a métrica RMSE, na qual as variáveis da equação são as mesmas do MAE (Eq.(6)).

Considerações Finais do Capítulo

Este capítulo apresenta a Avaliação da Qualidade de Imagem e Vídeo, a Seção 3.1 descreve de forma geral os principais conceitos e características da Avaliação Objetiva da Qualidade de Imagem e Vídeo, que pode ser classificada de acordo com a presença ou ausência de um vídeo de referência. , sendo: Referência Completa, Referência Curta e Sem Referência. Portanto, algumas métricas objetivas de qualidade de imagem e vídeos 2D e 3D são apresentadas nas Seções 3.2 e 3.3, respectivamente.

Avaliação Objetiva de Qualidade de Imagem e Vídeo

Referência Reduzida (RR): A Avaliação de Qualidade de Imagem e Vídeo de Referência Reduzida não suporta a disponibilidade completa do sinal de referência, apenas parte da informação do sinal está disponível, que é disponibilizada através de um canal de dados auxiliar (WANG et al., 2003) . Isso, juntamente com o conhecimento do vídeo de saída, pode fornecer uma indicação da qualidade do sinal. Assim como na técnica que utiliza informações de referência reduzidas, as medidas referem-se a parâmetros que indicam deficiências na imagem, mas não se correlacionam diretamente com a Avaliação Objetiva da Qualidade da Imagem (ITU-T J.143, 2000).

Métricas Objetivas de Avaliação de Qualidade 2D

SAD (Sum of Absolute Differences)
PSNR (Peak Signal-to-Noise Ratio)
Structural Similarity Index Measure (SSIM)
Visual Information Fidelity (VIF)

De acordo com Wang; Lu; Bovik (2004) é um modelo baseado na percepção que considera a degradação da imagem como uma mudança percebida na informação estrutural. A informação estrutural em uma imagem diz respeito aos atributos que refletem a estrutura do objeto da cena, que independe da luminância média e do contraste da imagem (GURAV; PATIL, 2016). A medida da fidelidade da informação visual é a fração da informação da imagem de referência que pode ser extraída do sinal de teste.

Métricas Objetivas de Avaliação de Qualidade 3D

Disparity Temporal Perceptual Weight - SSIM (DTPW-SSIM)

O VIF dado na Eq.(16) é calculado para uma coleção de coeficientes wavelet N ×M de cada subbanda que pode representar uma subbanda inteira de uma imagem ou uma região espacialmente localizada de coeficientes de subbanda. A seguir, este quadro é dividido em blocos de 8X8 pixels e para cada bloco o SIi é calculado conforme a Eq.(19). µi− ∇fj)2)12 (19) Paraµi representa o valor médio do tamanho do gradiente em um bloco e P é o número de pixels no bloco. Para obter algum grau de qualidade percebida, o autor sugere adicionar informações temporais e de disparidade ao índice SSIM.

Stereoscopic Structural Distortion (StSD)

Na equação (28), dL e dR correspondem à distorção estrutural das vistas esquerda e direita, calculadas respectivamente. Medida de desfoque assimétrico: o desfoque é definido como uma perda de tamanho de borda em partes visualmente significativas de uma imagem. O mapeamento logístico dS é definido pela equação (34), onde D representa a distorção estrutural percebida, e os valores das constantes a1, a2 e a3 são determinados pela técnica de regressão logística AM.

Human Visual system based 3D (HV3D)

Dada a equação (42), onde k é o comprimento do bloco na tela, dado em pixels, H é a altura da tela (em [mm]) e a resolução vertical da tela. O termo de variância é calculado para cada bloco de acordo com a equação (43) e normalizado para o valor de variância de todos os blocos. Os valores de SIl e SIr, dados na equação (48), representam o SI da visualização esquerda e direita do vídeo.

Avaliação Subjetiva de Qualidade de Imagem e Vídeo

Finalmente, a média ponderada das visualizações esquerda e direita é calculada para estimar a qualidade do vídeo 3D, conforme a Eq.(54). Na Eq.(56), definida por VQEG, Processed Video Sequences (PVS) é a sequência do vídeo processado e EM OS (REF) é o MOS do vídeo de referência. Também pode ser aplicado sem um vídeo de referência, com o objetivo de avaliar dois.

Métodos Subjetivos de Avaliação de Qualidade de Imagem e Vídeo . 58

Double Stimulus Continuous Quality Scale (DSCQS)
Single Stimulus Continuous Quality Scale (SSCQE)
Simultaneous Double Stimulus for Continuous Evaluation (SDSCE)
Absolute Categorical Rating (ACR)
Absolute Category Rating with Hidden Reference (ACR-HR)
Degradation Category Rating (DCR)

Em relação à escala de avaliação, este método requer a avaliação de duas versões de cada imagem de teste. O tempo de apresentação pode ser encurtado ou estendido de acordo com o conteúdo do material de teste. O tempo de apresentação deve ser em torno de 10s, podendo ser encurtado ou estendido de acordo com o conteúdo do material de prova.

Considerações Finais do Capítulo

A principal relação encontrada nestes trabalhos com esta tese é a utilização de técnicas de AM na utilização do Complete Reference Quality Assessment. Mas eles nos ajudaram a entender o uso das técnicas AM para VQA e IQA. Este capítulo apresenta a metodologia desenvolvida para a realização deste trabalho, que se baseia nas etapas para aplicação de técnicas de aprendizado de máquina, conforme a Figura 18.

Aquisição dos Dados

Base de Dados

As bases de dados disponíveis são: NAMA3DS1-COSPAD1, MMSPG 3D, 3DVCL@FER Video Database e Waterloo IVC 3D Video Quality Database. Waterloo IVC 3D Image Quality Database: O banco de dados de imagens Waterloo IVC 3D tem duas fases, a Fase I (Figura 19), que foi criada a partir de 6 pares. Waterloo IVC 3D Video Quality Database: O Waterloo IVC 3D Video Quality Database foi desenvolvido em duas fases, Fase I e Fase II.

Extração de Características

Média Média das amostras de luminância VU Desvio padrão Desvio padrão das amostras de luminância VU Variância Variação das amostras de luminância VU. SCmédia de (Sc) da métrica StSD RV SCdev desvio padrão de (Sc) da métrica StSD RV.

Pré-processamento

Transformação de dados: Os valores MOS fornecidos pelo banco de dados variam de 1 a 100. Divisão de dados: Os dados foram divididos em dois conjuntos, 80% para treinamento e validação (usando validação cruzada) e 20% para o teste. Suficiência de Dados: Os dados são formatados no formato arff (Attribute Relation File Format), utilizado no software Weka1, ferramenta na qual os modelos são treinados e testados.

Treinamento e Validação

Modelos Treinados com Imagens

O simpleCart é na verdade o parâmetro simpleCartPruningFolds que corresponde ao número de dobras que serão realizadas pelo algoritmo ForesPA. No Cenário 6 (C6), foram testados apenas os atributos e métricas que usam as duas visões, excluindo as métricas que usam as quatro visões como entradas. O Cenário 7 (C7) considerou métricas e atributos usando apenas a visão esquerda, original e degradada, e o Cenário 8 (C8) considerou métricas e atributos usando apenas a visão direita, tanto original quanto degradada.

Modelos Treinados com Vídeos

3 (C3) foram mantidas as características referentes às métricas conhecidas na literatura para imagens e vídeos 2D. Além da definição de hiperparâmetros, diferentes algoritmos e modelos treinados com diferentes cenários, as imagens foram treinadas com diferentes algoritmos e variação no número de classes, considerando 5, 10 e 25 classes. Portanto, para os vídeos são considerados os 4 algoritmos e suas variações, bem como o treinamento desses algoritmos variando o número de aulas.

Teste

Teste com Imagens

Teste com Vídeos

Consideração Finais do Capítulo

Este capítulo apresenta a discussão dos resultados obtidos pelos testes com os modelos treinados, está dividido em duas seções. A avaliação da qualidade da imagem 3D apresenta duas discussões, a primeira discute os valores dos testes com modelos treinados que variam as características das imagens e também diferentes algoritmos de AD conforme já descrito na Seção 5.3.1. A discussão sobre Avaliação da Qualidade de Vídeo aborda inicialmente testes com modelos de treinamento com diferentes classes e a segunda discussão trata de testes com vídeos em modelos treinados com imagens, ambos utilizando todas as características extraídas de imagens e vídeos.

Avaliação de Qualidade de Imagem 3D

Testes dos Modelos Treinados com Imagens Variando os Atributos

A Figura 30 mostra a matriz de confusão do teste com o modelo gerado pelo algoritmo RandomForest para o Cenário 1 (Figura 30(a)) e Cenário 5 (Figura 30(b)). Os índices indicam que o teste com o modelo gerado pelo algoritmo RandomForest obtém a melhor capacidade de predição. Por fim, no Cenário 6, o teste com o modelo gerado pelo algoritmo RandomForest obteve um Accuracy de 0,809, ou seja, classificou corretamente 80% dos casos.

Testes com Imagens de Modelos Treinados com Imagens

M OSpredicted10 =X Após transformar esses dados, os valores de MAE e RMSE foram calculados usando o MOS real e o MOS previsto. No entanto, importa referir que RandomForest apresenta os valores de RMSE mais baixos para as classes 5 e 10, embora para as classes 25 os valores não sejam os melhores. Os valores de MAE mostrados na Tabela 14 geralmente mostram que RandomForest possui os valores mais baixos.

Avaliação de Qualidade de Vídeo 3D

Testes com Vídeos para Modelos Treinados com Vídeos

A Tabela 15 mostra os resultados dos valores de precisão, exatidão, revocação e F1 dos testes com vídeos de modelos que também foram treinados com vídeos. As tabelas 18 e 19 mostram os valores de RMSE e MAE para os valores de teste com modelos treinados com 5, 10 e 25 classes. A Figura 35 permite observar o comportamento de cada algoritmo e classes em termos de valores de RMSE.

Testes com Vídeos de Modelos Treinados com Imagens

De maneira geral, é perceptível que os valores de desempenho são inferiores em comparação aos modelos testados com imagens. Observe que os algoritmos RepTree, ForesPA e RandomForest têm os menores valores de RMSE em 5 classes. Ao final você verá o RandomForest, onde os valores de RMSE aumentam um pouco se a classe também aumentar.

Comparação com Trabalhos Relacionados

O 3D Video Quality Assessment apresenta inicialmente um estudo que permite responder à Q2, uma vez que se baseia em resultados de testes com modelos treinados com vídeos. Além disso, estamos interessados em construir uma Métrica Objetiva para Avaliação da Qualidade de Vídeo 3D, que inclua um único índice. Métodos de não referência baseados em características espaço-temporais para avaliação objetiva da qualidade de vídeo digital.

Condições gerais de ambiente
Resolução do monitor
Contraste do monitor
Fontes de sinal
Faixa de condições e ancoragem
Observadores
Instruções para a avaliação
Sessão de teste
Apresentação dos resultados

No entanto, nem todos os monitores podem atingir um valor de luminância de pico de 200 cd/m2. Para verificar as resoluções máxima e mínima, a ITU sugere o uso de um determinado valor de luminância. Lmin representa a luminância de áreas inativas sob luz ambiente (com os valores indicados: Lmin =Linactivezones×Lreflected = 3.82cd/m2).

Condições de observação
Sistema de processamento e reprodução
Observadores
Instruções aos observadores e sessão de instrução
Análises estatístico e resultados

No segundo caso, deve-se utilizar um VTR (Video Tape Recorder) digital para minimizar a deterioração que pode ocorrer no processo de gravação. Na prática, o número real de um determinado teste deve ser determinado de acordo com a validade exigida e a necessidade de generalizar uma amostra para uma população maior. No que diz respeito à acuidade, nenhum erro deve ser cometido na linha 20/30 em um gráfico de visão normalizada [b-Snellen].