Focagem Cega de Vídeo

(1)

Focagem Cega de Vídeo

Sandro Borin Neto

Dissertação para obtenção do grau de Mestre em

Engenharia Eletrotécnica e de Computadores

Orientadores: Prof. Dr. Mário Alexandre Teles de Figueiredo

Dr.ª. Mariana Sá Correia Leite de Almeida

Júri

Presidente: Prof. Dr. Fernando Duarte Nunes

Orientadora: Dr.ª. Mariana Sá Correia Leite de Almeida

Vogal: Prof. Dr. José Manuel Bioucas Dias

(2)

(3)

iii

“Zeal makes all things possible. Duty makes all things simple.” (Sigismund)

(4)

iv

I. Agradecimentos

Aos meus pais, aos quais dedico este trabalho, pela paciência e pelo suporte ao longo de toda a minha vida. Sem eles, nada do que faço seria possível.

Aos meus amigos Vítor Reis, Diogo Guerreiro e Guilherme Fernandes, por me acompanharem nesta cruzada que foi o IST. Ficaram ao meu lado contra todos os desafios que enfrentei. Obrigado pela amizade, e que esta dure para sempre. Agradeço também a colaboração com Diogo Guerreiro na implementação do método BID e às discussões sobre o mesmo.

Ao meu amigo Filipe Carqueja, o meu primeiro amigo que fiz quando cheguei do Brasil.

Agradeço ao Professor Mário Figueiredo e à Dr. Mariana Almeida pela oportunidade de realizar este trabalho, um desafio que se mostrou considerável.

(5)

v

II. Resumo

A focagem cega de imagens (dita "cega" por se desconhecer, ou conhecer apenas parcialmente, o filtro de desfocagem) é um problema de grande interesse científico e tecnológico, com aplicações nas mais diversas áreas (como em fotografia, biomedicina, vigilância, astronomia, etc.). Neste trabalho, o objetivo é adaptar um método de focagem cega recente, eficiente e com resultados ao nível do estado de arte por forma a ser também aplicável a vídeo, explorando para isso a estrutura tridimensional deste tipo de dados. À semelhança das mais recentes técnicas desenvolvidas para vídeo, o método deve conseguir comportar movimentos de objetos, sem necessitar de recorrer à estimação explícita desses movimentos. O método de focagem cega de imagem implementado neste trabalho foi estendido para um método de focagem cega de vídeo frame a frame e para um método de focagem cega de vídeo em volume. Para o método de focagem cega de imagem, foram realizadas experiências (com e sem ruído) utilizando diferentes filtros de desfocagem. Para os métodos de focagem cega de vídeo, foram realizadas duas experiências com diferentes tipos de desfocagem: desfocagem progressiva e desfocagem 3D.

.

Palavras-Chave:

Focagem Cega de Imagem; Focagem Cega de Vídeo; Alternating Direction Method of Multipliers; Focagem de Vídeo Frame a Frame; Focagem Cega de Vídeo em Volume.

(6)

vi

III. Abstract

Blind image deblurring (referred to as "blind", due to the lack of knowledge, or partial knowledge, about the blurring filter) is a problem of great scientific and technological interest, with diverse applications (such as photography, biomedicine, surveillance, astronomy, etc.). The goal of this work is to extend a recently proposed, efficient method, which achieves state-of-the-art results, to make it applicable to video; for this goal, the three-dimensional structure of the video data is exploited. The method is expected to be able to deal with object motion, without the need for its explicit estimation. The blind image deblurring method implemented in this work was extended to a frame-based blind video deblurring method, and a volume-based blind video deblurring method. Experiments were performed using the blind image deblurring method (with and without noise) for different types of blurring filters. For the video methods, two types of experiments were performed using different types of blurs: progressive and 3D blurring.

Keywords:

Blind Image Deblurring; Blind Video Deblurring; Alternating Direction Method of Multipliers; Frame-based Blind Video Deblurring; Volume-Frame-based Blind Video Deblurring

(7)

vii

IV. Índice

I. Agradecimentos ... iv

II. Resumo ... v

III. Abstract ... vi

IV. Índice ... vii

V. Lista de Figuras ...viii

VI. Lista de Tabelas ... x

VII. Lista de Abreviações ... x

1. Introdução ... 1

1.1. Motivação ... 1

1.2. Enquadramento e Estado da Arte ... 2

1.3. Objetivos

... 4

1.4. Estrutura da dissertação ... 4

2. Focagem Cega de Imagem em [16] [29] ... 5

2.1 Modelo de Degradação

... 5

2.2 Função de Custo ... 7

2.3 Deteção de Contornos

... 7

2.4 Densidade a priori (prior) da Imagem

... 9

2.5 Densidade a priori (prior) do Filtro ... 11

2.6 Algoritmo BID

... 12

2.7 Alternating Direction Method of Multipliers (ADMM) em [16] [29]

... 15

2.7.1 ADMM ... 15

2.7.2 Estimação da Imagem

... 16

2.7.3 Estimação do Filtro

... 19

3. Focagem Cega de Vídeo ... 21

3.1 Focagem Cega Frame a Frame

... 21

3.1.1 Modelo de Degradação ... 21

3.1.2 Função de Custo

... 22

3.1.3 Densidade a priori (prior) das Imagens e dos Filtros

... 22

3.1.4 Algoritmo de Focagem Cega de Vídeo Aplicado Frame a Frame ... 23

3.2 Focagem Cega em Volume

... 25

3.2.1 Modelo de Degradação

... 25

(8)

viii

3.2.3 Deteção de Contornos ... 26

3.2.4 Algoritmo de Focagem Cega de Vídeo Aplicado ao Volume ... 27

4. Resultados Experimentais ... 28

4.1 Método para Focagem Cega de Imagem ... 28

4.2 Método para Focagem Cega de Vídeo

... 32

5. Conclusões ... 39

VIII. Referências Bibliográficas ... 40

V. Lista de Figuras

Figura 1.1 – Processo de focagem cega, baseada em [1]……….. 3

Figura 2.1 – Modelo linear de degradação de uma imagem [2]………. 5

Figura 2.2 – Condições fronteira, assumidas em diferentes literaturas: periódica, reflexiva e zero [3]……….. 6

Figura 2.3 – Filtros de regularização para deteção de contornos: Horizontal, Diagonal Direita, Vertical e Diagonal Esquerda……….. 8

Figura 2.4 – Imagem “Lena” original, com resolução 512x512 e imagem “Lena” desfocada com filtro uniforme 9x9……….. 8

Figura 2.5 – Contornos da imagem “Lena” original e da imagem “Lena” desfocada com filtro uniforme 9x9... 9

Figura 2.6 – Função de regularização para 𝑞 = 0,5……….. 10

Figura 2.7 – Composição da imagem “Lena” em mosaico, após estimação da primeira imagem, para valores altos de regularização. Imagens desfocadas com filtros uniformes de tamanho a) 1x1, b) 3x3, c) 9x9 e d) 21x21……… 10

Figura 2.8 – Progressão da estimação do filtro 𝐡 quadrado 9x9 em diferentes estágios do algoritmo: Início, a meio e final………... 13

Figura 2.9 – Progressão da estimação da imagem “cameraman”, sem ruído, em quatro iterações: a) primeira, b) quarta, c) oitava e d) décima sexta……… 14

Figura 3.1 – Corte do filtro de regularização fundamental para estimação de vídeo em volume: a) frame 1 e b) frame 2………. 26

Figura 4.1 – Representação do algoritmo BID-ADMM para focagem cega de imagem, baseado em [4] [5]……… 28

Figura 4.2 – Filtros de desfocagem utilizados na experiência de focagem cega de imagem: a) filtro quadrado uniforme 9x9, b) filtro circular uniforme 9x9, c) filtro de movimento linear 9x9 e d) filtro de movimento não linear 9x9………. 30

(9)

ix

Figura 4.3 – Imagens da experiência “Filtro Uniforme Quadrado”: a) imagem original, b)

imagem desfocada, c) imagem recuperada (sem ruído) e d) imagem recuperada (com ruido)….. 30 Figura 4.4 – Filtros da experiência “Filtro Uniforme Quadrado”: a) filtro de desfocagem

uniforme, b) filtro estimado (sem ruído) e c) filtro estimado (com ruído)………. 31 Figura 4.5 – Imagens da experiência com desfocagem progressiva relativa à frame 3: a)

imagem original, b) imagem desfocada, c) imagem recuperada com método frame a frame e d) imagem recuperada com método em volume……….. 33 Figura 4.6 – Imagens da experiência com desfocagem progressiva relativa à frame 8: a)

imagem original, b) imagem desfocada, c) imagem recuperada com método frame a frame e d) imagem recuperada com método em volume……….. 34 Figura 4.9 – Estimação dos filtros da experiência com desfocagem progressiva, pelo método

de focagem frame a frame: a) frame 3, b) frame 8, c) frame 13 e d) frame 17……… 34 Figura 4.10 – Estimação do filtro 3D para a experiência de desfocagem progressiva, pelo

método de focagem em volume………. 34

Figura 4.11 – Imagens da experiência com desfocagem 3D relativa à frame 3: a) imagem original, b) imagem desfocada, c) imagem recuperada com método frame a frame e d) imagem

recuperada com método em volume………. 36

Figura 4.15 – Estimação dos filtros da experiência com desfocagem 3D, pelo método de

focagem frame a frame: a) frame 3, b) frame 8, c) frame 13 e d) frame 17……… 37 Figura 4.16 – Estimação do filtro 3D para a experiência de desfocagem 3D, pelo método de

(10)

x

VI. Lista de Tabelas

Tabela 2.1 – Algoritmo BID………. 12 Tabela 2.2 – Algoritmo ADMM genérico………... 15 Tabela 3.1 – Algoritmo BID frame a frame………... 23 Tabela 4.1 – Resultados de experiências em focagem cega de imagem, para diversos filtros,

com e sem ruído……… 31 Tabela 4.2 – Resultados de experiências em focagem cega de vídeo, para desfocagem

progressiva………. 35 Tabela 4.3 – Resultados de experiências em focagem cega de vídeo, para desfocagem 3D…… 38

VII. Lista de Abreviações

ADMM Alternating Direction Method of Multipliers

BID Blind Image Deblurring (Focagem Cega de Imagem) BSNR Blurred Signal to Noise Ratio

BVD Blind Video Deblurring

ID Image Deblurring

ISNR Improved Signal to Noise Ratio

TV Total Variation

JPEG Joint Photographic Experts Group

TIF Tag Image Format

GIF Graphics Interchange Format

PSF Point Spread Function

3D Three dimensional

(11)

1

1. Introdução

1.1. Motivação

Imagens foram sempre indispensáveis para a Humanidade. Desde pinturas rupestres do Paleolítico Superior (40.000 a.C.) até às últimas imagens de Marte, o ser humano teve sempre um desejo para captar e guardar o momento. As imagens são captadas por um sistema (por exemplo, o sistema visual humano, ou uma câmara) e se necessário, guardadas em um meio, como por exemplo, em superfícies rochosas (no caso das primeiras pinturas realizadas), em telas de algodão ou linho (pinturas a óleo) e atualmente, em formato digital (JPEG, JPEG2000, TIF, GIF, entre outros). Em todos estes casos, existe um objeto ou uma cena, ao qual denominamos de “original”, que desejamos captar. No entanto, o processo de captação não é perfeito. Erros podem ocorrer, como por exemplo, uma desfocagem criada por uma lente fora de foco ou introdução de ruído em uma imagem digital por parte de um componente eletrónico. A focagem de imagem tem o objetivo de estimar a imagem original a partir de observações degradadas da mesma, sendo este problema um problema inverso mal colocado, ao qual é necessário uma resolução.

A extensão para vídeo dos métodos de focagem de imagem introduz o tempo como um novo desafio na resolução do problema inverso. Esta componente pode ter um impacto significativo na estimação do vídeo original, como por exemplo, a degradação criada pela movimentação rápida de um objeto ao longo da sequência de vídeo, ou (com impacto inferior) no processo de focagem automática da lente de uma câmara de vídeo que filme uma paisagem. Existe uma variedade de aplicações aos quais métodos de recuperação de vídeo podem ser utilizados, nomeadamente em câmaras de vídeo [6], sensores remotos [7], etc., e é neste contexto que este trabalho pretende se inserir: a extensão para vídeo de um método de focagem cega de imagem, explorando ou não a componente temporal

(12)

2 1.2. Enquadramento e Estado da Arte

Focagem de imagem (Image Deblurring - ID) consiste na resolução de um problema inverso, onde o objetivo é recuperar uma imagem, a qual sofreu uma desfocagem a partir de um modelo de degradação com ruído aditivo, tipicamente branco Gaussiano. Os métodos de focagem de imagem podem ser divididos em dois grupos: focagem não cega, onde o operador de degradação responsável pela desfocagem de uma ou mais imagens é conhecido, e focagem cega, onde o operador de degradação não é conhecido. Este operador é tipicamente mal condicionado, isto é, pequenas perturbações (como o ruído) sobre o modelo originam grandes deviações na solução [8] [9]. Os primeiros algoritmos para este tipo de método surgiram na década de 1970 e tentaram identificar padrões no operador de degradação [10], mas foi durante no final da década de 1990 com o advento de melhores tecnologias de processamento de sinal e de informação que estes métodos foram extensivamente explorados por diversas comunidades, como astronomia [11], tomografia [12], biomedicina [13], etc.

Apesar do leque limitado de aplicação para métodos de focagem não cega, este continua sendo alvo de grande estudo e ainda consiste num desafio considerável. A utilização de priors ou regularizadores de imagem é a forma mais adotada por métodos não cegos de modo a superar este problema, como em [14] [15] [16]. Os regularizadores mais adotados exploram a esparsidade dos contornos da imagem [17] e utilizam regularizadores de Total Variation (TV) [18].

Em focagem cega de imagem (Blind Image Deblurring - BID), o operador de degradação é normalmente mal condicionado e desconhecido, sendo este também estimado para além da imagem. Isto permite uma maior aplicabilidade em comparação com o método de focagem não cego, contudo existe um infinito número de pares de solução “imagem + filtro” que resultam como consequência do problema inverso ser mal colocado. Para a focagem cega, o problema pode ser resumido [1] como a separação de dois sinais convolucionados onde estes são desconhecidos ou parcialmente conhecidos. A abordagem mais adotada para este problema implica o uso de informação parcial como referência para a deconvolução. Esta informação parcial pode englobar as características físicas do sinal (imagem + filtro), como a não negatividade e suporte finito. Aspetos estatísticos, como a entropia ou uma função de densidade de probabilidade, também podem ser utilizados [19]. A informação é incorporada em um critério de otimização, que por sua vez é minimizado de modo a ser possível estimar as variáveis do modelo [1]. De um modo geral, todo este processo pode ser caracterizado pela figura 1.1.

(13)

3

Figura 1.1 – Processo de focagem cega, baseada em [1]

O objetivo de BID é então [4] [19] resolver o problema da inversão do modelo de degradação linear. Em focagem de imagem, o operador de degradação linear pode ser classificado por shift-variant ou shift-invariant. Foram propostos métodos que utilizam operadores shift-variant, por exemplo em [20], porém a maioria dos métodos de desfocagem utilizam modelos shift-invariant [19]. Para além do mal condicionamento do operador de degradação linear, o problema inverso ao qual a focagem cega está sujeita, é mal colocado, não existindo unicidade de solução [21], problema que é reforçado pela presença do ruído. Apesar de existirem infinitas soluções em BID, é possível escolher uma solução apropriada se o algoritmo de estimação for corretamente inicializado ou se se fizerem suposições adicionais sobre as imagens originais [22]. A maioria dos métodos que utilizam BID restringem o tipo de filtros de desfocagem utilizados de modo a permitir resultados razoáveis. Estas restrições podem ser fortes, como a utilização de modelos paramétricos [23], ou fracas, utilizando priors ou regularizadores [24]. Uma solução mais recente [19], a qual este trabalho é baseado, utiliza pouca informação a priori sobre o filtro de desfocagem, contudo consegue atingir uma boa performance, apesar de ser necessário estabelecer critérios de paragem e ajustar parâmetros de regularização, problemas de grande foco em [18] [25].

A presença de ruído no modelo influencia pesadamente a qualidade da estimação da imagem e não pode ser negligenciada [1]. A sua adição no modelo implica que a operação de deconvolução é não exata, pois a informação disponível sobre o ruído é meramente estatística. O ruído pode ser originado de diversas fontes, como por exemplo, o ruído eletrónico devido à movimentação de eletrões nos dispositivos eletrónicos, ruído fotoelétrico originado por sensores na captação de imagens, presença de grânulos na imagem de um vídeo devido ao halogeneto de prata utilizado na captação de imagens (para imagens muito antigas) e ruído de quantização devido ao processo de digitalização de imagens. É habitual [19] [2] assumir que o ruído é branco Gaussiano, de média zero e variância σ2.

A principal diferença entre focagem de imagem e focagem de vídeo é a presença da componente temporal, constituída pelas frames do vídeo. A presença desta componente dá à focagem de vídeo certas características inexistentes na focagem de imagem, como a informação de movimento e consistência temporal. A informação de movimento está associada à desfocagem criada pelo

Ruído n Imagem degradada y Algoritmo BID H

(Modelo de degradação linear)

Imagem estimada

𝐱

Informação parcial sobre a

imagem a estimar Imagem original

(14)

4

movimento presente na sequência de vídeo, que pode ser removida utilizando vários métodos, como o block-matching [26] ou optical flow [27]. Esta remoção também pode ser efetuada a cada imagem individualmente, como em [28]. A consistência temporal está relacionada com a suavização da sequência de vídeo, e pode ser realizada na componente espacial de cada frame, porém esta solução pode não garantir a consistência desejada [29].

O modelo de degradação aplicado a uma imagem pode ser estendido para englobar várias imagens. A esta sequência é possível a aplicação do método de recuperação cega de imagem, onde cada imagem pode ser tratada como um problema BID de forma independente, ou seja, frame a frame. Uma abordagem alternativa envolve considerar que um grupo de imagens formam um volume (conceito introduzido por Jähne [30]) e que a este volume é possível aplicar o mesmo modelo de degradação com ruido aditivo. Isto constitui um problema de Blind Video Deblurring (BVD) onde a componente temporal é explorada, em vez de vários problemas BID independentes onde não é explorada a componente temporal, como no caso frame a frame. Este trabalho explora ambas as abordagens mencionadas.

1.3. Objetivos

Os objetivos deste trabalho são:

 Implementação do método BID em [4] [5] utilizando o método de otimização Alternating Direction Method of Multipliers (ADMM).

 Estender a sua aplicação para um método de focagem cega de vídeo frame a frame e para um método de focagem cega de vídeo em volume.

 Confirmação experimental e análise de resultados obtidos.

1.4. Estrutura da dissertação

Este trabalho está dividido em cinco capítulos, em que o primeiro apresenta uma introdução ao trabalho. O segundo capítulo apresenta toda a componente teórica de focagem cega de imagem incluindo a descrição do método de otimização Alternating Direction Method of Multipliers. O capítulo três apresenta a extensão do capítulo dois para a focagem cega de vídeo, apresentando dois métodos (com processamento frame a frame e outro com processamento em volume). O capítulo quatro apresenta resultados experimentais obtidos com a implementação do método BID em [4] [5] e com a implementação dos dois métodos de focagem cega de vídeo em duas experiências: desfocagem progressiva e desfocagem 3D. Por último, o capítulo cinco faz as conclusões sobre este trabalho e elabora sobre possíveis extensões futuras.

(15)

5 𝐱

𝐧

𝐲

𝐀

2. Focagem Cega de Imagem em [4] [5]

O método apresentado neste capitulo é uma extensão de um método BID proposto em [19] [31]. Em particular, o método descrito utiliza o método de otimização ADMM para estimar a imagem e o filtro permitindo restringir o filtro a um suporte fixo e entradas não negativas.

2.1 Modelo de Degradação

O processo de desfocagem de uma imagem (figura 2.1) pode ser modelado como:

𝐲 = 𝐀𝐱 + 𝐧 ,

(2.1)

Figura 2.1 – Modelo linear de degradação de uma imagem [2]

onde 𝐲, 𝐱 e 𝐧 representam respetivamente, a imagem degradada, a imagem original que queremos recuperar e o ruído aditivo. Estas variáveis são vetoriais e estão organizadas lexicograficamente, onde

𝐲 ∈ ℝ

𝑛

, 𝐱 ∈ ℝ

𝑚 e 𝐧 ∈ ℝ𝑛 [4]. A matriz 𝐀 ∈ ℝ𝑚×𝑛

representa a degradação linear de desfocagem.

Se a degradação for considerada cíclica, ou seja, a imagem é considerada um sinal periódico, então temos

𝑛 = 𝑚

e

𝐀 = 𝐇 ∈ ℝ

𝑛×𝑛 representa uma matriz quadrada, diagonalizada a partir da transformada de Fourier discreta, correspondente ao operador linear de convolução cíclica com um filtro de desfocagem representado lexicograficamente no vetor 𝐡. A equação (2.1) também pode ser escrita em função do filtro 𝐡:

𝐲 = 𝐇𝐱 + 𝐧 = 𝐗𝐡 + 𝐧 ,

(2.2)

em que 𝐀 = 𝐗 ∈ ℝ𝑛×𝑛_{representa a convolução com a imagem presente no vetor 𝐱.} _{De modo a ser}

mais simples e computacionalmente mais viável, a maior parte dos modelos que utilizam deconvolução rápida, assumem periodicidade nas condições fronteira, aproveitando a eficiência da Fast Fourier Transform (FFT) neste cenário. Estes modelos apresentam artefactos nas suas fronteiras, após o processo de estimação [3]. Assumir condições fronteira desconhecidas (ou não observadas) é mais

(16)

6

natural, pois simula o funcionamento de um sistema de captação de imagem, onde a imagem em questão é obtida a partir do centro das lentes, e é adotada neste trabalho.Neste cenário, para originar uma imagem desfocada de dimensões

√𝑛 × √𝑛

, é necessário dispor de

(√𝑛 + 2𝑙 × √𝑛 + 2𝑙)

pixéis da imagem original e um filtro de desfocagem com um suporte de dimensões

(2𝑙 + 1) × (2𝑙 + 1)

pixéis. Neste caso, a degradação de desfocagem será modelada por 𝐀 = 𝐌𝐇 ∈ ℝ𝑛×(√𝑛+2𝑙)2_podendo

ser desassociada em uma convolução cíclica representada pela matriz 𝐇 ∈ ℝ(√𝑛+2𝑙)2×(√𝑛+2𝑙)2

_{e uma}

matriz de máscara 𝐌 ∈ ℝ𝑛2×(√𝑛+2𝑙)2 que exclui todos os pixéis pertencentes à região fronteira da imagem, onde a convolução cíclica é inválida [4]:

𝐲 = 𝐌𝐇𝐱 + 𝐧 = 𝐌𝐗𝐡 + 𝐧

. (2.3)

Os pixéis que se situam perto dos extremos de uma imagem influenciam pesadamente a estimação dos seus vizinhos durante o processo de recuperação da imagem. O tratamento adequado destes pixéis é por vezes ignorado, na maior parte da literatura existente, sendo assumido um dos modelos clássicos [32] (não naturais) para as condições fronteira, sendo os mais comuns, periódico, zero (Dirichlet), reflexivo (Newmann) ou anti reflexivo [3], como ilustrado na figura 2.2.

Figura 2.2 – Condições fronteira, assumidas em diferentes literaturas: periódica, reflexiva e zero (extraído de [3]).

(17)

7

2.2 Função de Custo

Como descrito no Cap. 2.1, o processo de recuperação envolve a estimação da imagem 𝐱 e do filtro

𝐡

responsável pela degradação. De modo a possibilitar essa estimação, o método [5] minimiza a função de custo:

C(𝐱, 𝐡) =

1 2

‖𝐲 − 𝐌𝐇𝐱‖

2 2

_{+ λ ∑ [‖𝐃}

(𝑖)

_𝐱‖

2

]

i 𝑞

+ 𝑖

_𝑆+

(𝐡)

, (2.4)

sendo a função 𝑖𝑆+ definida por:

𝑖

_𝑆+

(𝐡) = {

0, se 𝐡 ∈ 𝑆

+

∞, se 𝐡 ∉ 𝑆

+

.

(2.5)

A função 𝑖_𝑆+ é uma função indicadora do conjunto 𝑆+ (conjunto de vetores com suporte limitado e com entradas não negativas). A primeira parcela da função de custo está diretamente relacionada com os dados do problema consistindo na norma Euclidiana (𝑙2

) do erro do modelo. As suas variáveis 𝐲, 𝐱, 𝐌

e 𝐇 foram introduzidas no cap. 2.1, na descrição do modelo de desfocagem com condições fronteira desconhecidas. A segunda parcela está relacionada com o regularizador, utilizado na estimação da imagem recuperada. A sua função é favorecer soluções com contornos esparsos, utilizando filtros de regularização direcionais incorporados da matriz 𝐃(𝑖)_{(detalhes no cap. 2.3). A terceira parcela restringe}

o filtro que minimiza a função de custo (2.4) a pertencer a 𝑆+

. O expoente 𝑞 ϵ [0,1] é responsável pelo

controlo da esparsidade do regularizador, denominado assim por parâmetro de esparsidade. O peso da regularização no processo de estimação da imagem é controlado pelo parâmetro λ, denominado por parâmetro de regularização [4].

2.3 Deteção de Contornos

O método BID [33] assume que os contornos de uma imagem natural são esparsos. Contornos esparsos contém muitos elementos com valores próximos de zero e poucos elementos com valores significativos. A deteção dos contornos da imagem é efetuada por meio de filtros de regularização direcionais, dispostos no espaço com uma determinada orientação e configuração (ver figura 2.3).

(18)

8

Figura 2.3 – Filtros de regularização para deteção de contornos: Horizontal, Diagonal Direita, Vertical e Diagonal Esquerda.

Em particular, estes filtros de regularização direcionais são construídos a partir da rotação espacial de um filtro base (primeiro filtro da figura 2.3) que deteta contornos horizontais. Este filtro é responsável pela deteção de todos os contornos horizontais presentes em uma determinada imagem. Todos os outros são então, responsáveis pela deteção de contornos nas suas respetivas direções. Para cada pixel 𝑖, a saída dos filtros direcionais é dada por [33]:

𝑙

_𝑖

(𝐱) = ‖𝐃

(𝑖)

_𝐱‖

2, (2.6)

em que

𝐃

(𝑖)

∈ ℝ

4×𝑚 é a matriz que corresponde aos quatro filtros de regularização direcionais correspondentes ao pixel 𝑖. A figura 2.5 representa a deteção de contornos sobre as imagens presentes na figura 2.4, “Lena” original e desfocada com um filtro uniforme de tamanho 9x9. Os contornos da imagem “Lena” original são bem definidos (mais esparsos) e ocupam uma menor área, em contraste com os contornos presentes na imagem desfocada (menos esparsos) onde estes ocupam uma maior área.

Figura 2.4 – Imagem “Lena” original, com resolução 512x512 e imagem “Lena” desfocada com filtro uniforme 9x9.

(19)

9

Figura 2.5 – Contornos da imagem “Lena” original e da imagem “Lena” desfocada com filtro uniforme 9x9.

2.4 Densidade a priori (prior) da Imagem

A intensidade dos contornos 𝑙𝑖

(𝐱) é assumida como independente entre pixéis, tendo uma densidade

de probabilidade a priori (prior), para cada pixel

𝑖,

dada por [33]:

𝑝[𝑙

_𝑖

(𝐱)] ∝ 𝑒

−k[𝑙𝑖(𝐱)]𝑞

,

_(2.7)

onde a variável

k

é um fator de escala da intensidade do pixel

𝑖

e a variável

𝑞 ϵ [0,1]

controla a esparsidade de

𝑝[𝑙

_𝑖

(𝐱)]

. Assumindo que o ruído é branco Gaussiano com média zero e variância

σ

2, a probabilidade da imagem e do filtro dada a imagem desfocada é dada por [33]:

𝑝(𝐱, 𝐡|𝐲) ∝ 𝑒

− 1 2σ2‖𝐲−𝐇𝐱‖2 2

∏ 𝑒

−k[𝑙𝑖(𝐱)]𝑞 𝑖 . (2.8)

Aplicando uma operação logarítmica na equação (2.8) tem-se :

𝐿(𝐱, 𝐡|𝐲) ∝ −

1

2σ2

‖𝐲 − 𝐇𝐱‖

2

_{− k ∑ [𝑙}

𝑖

(𝐱)]

𝑞

𝑖 , (2.9)

a qual representa a log-verossimilhança de

𝐱 e 𝐡

dado

𝐲

[19]. Maximizar a log-verossimilhança equivale a uma minimização da função de custo do subcapítulo 2.2 (menos o termo de restrição do filtro 𝐡 ):

(20)

10 C(𝐱, 𝐡) =

1 2

‖𝐲 − 𝐇𝐱‖

2 2

_{+ λ ∑ [‖𝐃}

(𝑖)

_𝐱‖

2

]

𝑖 𝑞 . (2.10)

Para

λ = kσ

2 é possível identificar as duas parcelas que constituem a função de custo: a primeira parcela é relativamente à fidelidade do modelo aos dados e a segunda parcela responsável pela regularização. A figura 2.6 representa a função do termo de regularização para

𝑞 = 0,5:

Figura 2.6 – Função de regularização para

𝑞 = 0,5.

O prior utilizado favorece contornos bem definidos e esparsos que favorecem a estimação de imagens constantes por troços, semelhante a um “mosaico” [34]. A disposição em “mosaico” da imagem pode ser evidenciada para valores de λ altos, como mostra a figura 2.7:

Figura 2.7 – Composição da imagem “Lena” em mosaico, após estimação da primeira imagem, para valores altos de regularização. Imagens desfocadas com filtros uniformes de tamanho a) 1x1, b) 3x3,

c) 9x9 e d) 21x21.

𝑅(|

𝑙

_𝑖

(

𝐱

)|)

𝑙

_𝑖

(𝐱)

a) b)

(21)

11

O tamanho do filtro de desfocagem dificulta a distinção de áreas na imagem. Todas estas imagens foram obtidas após a primeira estimação do método, para

λ = 0,5

e para filtros de desfocagem quadrados de diferentes tamanhos: 1x1, 3x3, 9x9 e 21x21. Este efeito é praticamente impercetível para valores de

λ

mais baixos (se o nível de ruído presente na imagem é baixo) quando o efeito da regularização é mais fraco. Se o nível de ruído da imagem a ser recuperada for elevado, é necessário que o valor de

λ

não seja muito baixo, pois originaria uma imagem recuperada que conteria ainda ruído [19].

2.5 Densidade a priori (prior) do Filtro

A função indicadora 𝑖𝑆+

(𝐡) usada na função de custo (2.4) restringe o filtro de desfocagem 𝐡 a tomar

valores em 𝑆+ (i.e. a ter entradas positivas dentro de um suporte limitado). Em termos probabilísticos esta restrição corresponde a assumir uma densidade de probabilidade para 𝐡 constante dentro de 𝑆+ e nula fora de 𝑆+

:

𝑃(𝒉) = 𝛼1

_𝑆+

= {

0,

𝐡

∉ 𝑆

+

𝛼,

𝐡

∈ 𝑆

+

,

(2.11)

onde 𝛼 é uma constate cujo valor deve fazer com que o integral de

𝑃(𝒉) em todo o seu domínio seja

igual a um. Embora (2.11) não restrinja necessariamente a aplicabilidade do método representa uma forte restrição matemática [4].

Outro tipo de restrições podem ser incluídas neste método. Se for necessário introduzir restrições mais leves, estas podem ser incluídas como um termo de regularização adicional [33] na função de custo:

C(𝐱, 𝐡) =

1 2

‖𝐲 − 𝐗𝐡‖

2 2

_{+ λ ∑ [‖𝐃}

(𝑖)

_𝐱‖

2

]

𝑖 𝑞

+ λ

_𝐡

R

_𝐡

[𝐡] + 𝑖

_𝑆+

(𝐡)

, (2.12)

a qual corresponde assumir uma densidade a priori (prior) do filtro de desfocagem com a forma:

𝑝[𝐡] ∝ 𝑒

−k𝐡R𝐡[𝐡]

_,

_(2.13)

onde

λ

_𝐡e

R

_𝐡

[𝐡]

são respetivamente o parâmetro de regularização e o termo de regularização

.

O termo de regularização pode ser composto por filtros de regularização do tipo Total Variation (TV) [35] [26] (modelando filtros suaves por troços), ou uma regularização esparsa (modelando uma desfocagem de movimento).

(22)

12

2.6 Algoritmo BID

Como mencionado no subcapítulo 2.1, o método BID envolve a minimização em relação à imagem 𝐱 e ao filtro 𝐡, da função de custo [26] [36]:

C(𝐱, 𝐡) =

1 2

‖𝐲 − 𝐇𝐱‖

2 2

_{+ λ ∑ [‖𝐃}

(𝑖)

_𝐱‖

2

]

𝑖 𝑞

+ 𝑖

_𝑆+

(𝐡)

,

(2.14) onde

∑ [‖𝐃

𝑖 (𝑖)

𝐱‖

₂

]

𝑞

é o termo de regularização que favorece, como mencionado no capítulo 2.3, soluções para contornos esparsos e

λ

o parâmetro de regularização. O algoritmo BID pode ser descrito pelo algoritmo representado na tabela 2.1 [19].

Tabela 2.1: Algoritmo BID

No final do ciclo de otimização, obter-se-á então todas as estimativas de

𝐱

e

𝐡

para cada

λ.

O critério de paragem utilizado neste trabalho é um número máximo de iterações, apresentado no capítulo 4, porém outros podem ser utilizados como, por exemplo [25] e [37].

O algoritmo BID começa com um valor de

λ

alto, diminuindo progressivamente em cada ciclo de otimização. O mínimo atingindo pela função de custo para um dado

λ

é um mínimo local, e origina uma solução para a recuperação da imagem

𝐱

e do filtro

𝐡.

A progressão dos valores para o parâmetro de regularização é geométrica:

λ

_𝑘+1

=

λ𝑘

𝑟 .

(2.15)

Inicialização:

1. Colocar

𝐡

igual ao operador identidade.

2. Colocar

𝐱

igual a

𝐲

ou seja, à imagem desfocada.

3. Colocar

𝑞

e

λ

igual aos seus respetivos valores de inicialização, tendo em conta que

𝑞 ϵ [0,1].

Ciclo de otimização:

1.

𝐱 ⟵ arg min

_𝐱

C(𝐱, 𝐡

̂ ).

2.

𝐡

̂ ⟵ arg min

_𝐡

C(𝐱 , 𝐡).

3.

λ

_𝑘+1

=

λ𝑘

𝑟

.

4. Retornar ao passo 1 do ciclo de otimização até satisfazer um critério de paragem.

(23)

13

No passo 2 do ciclo de otimização, pode-se incluir restrições na estimação do filtro

𝐡

, como as referidas no subcapítulo 2.5. A figura 2.8 representa um exemplo da progressão de estimação do filtro 𝐡9x9 quadrado uniforme, em diferentes estágios do algoritmo:

Figura 2.8 – Progressão da estimação do filtro

𝐡

quadrado 9x9 em diferentes estágios do algoritmo: Início, a meio e final.

Durante as iterações iniciais do algoritmo, o valor de λ é alto e ambas as estimações da imagem e do filtro são fracas, sendo a imagem altamente regularizada como evidenciado na figura 2.13. Esta forte regularização é necessária para a deteção dos contornos principais da imagem e para eliminar componentes de alta frequência errados que poderiam aparecer na estimação da imagem, com um filtro errado [19]. É a partir destes contornos iniciais que as futuras estimações do filtro irão se basear, melhorando-as gradualmente de iteração a iteração. No final de um ciclo de otimização, valor de λ é atualizado segundo a progressão geométrica apresentada na equação (2.15) e um novo processo de estimação é iniciado, baseado nas estimações anteriores da imagem e do filtro. A figura 2.9 mostra a progressão da estimação da imagem “cameraman” na primeira, quarta, oitava e décima sexta iteração.

(24)

14

Figura 2.9 – Progressão da estimação da imagem “cameraman”, sem ruído, em quatro iterações: a) primeira, b) quarta, c) oitava e d) décima sexta.

a)

b)

(25)

15

2.7 Alternating Direction Method of Multipliers (ADMM) em [4] [5]

2.7.1 ADMM

O algoritmo ADMM é utilizado como uma ferramenta de otimização eficiente, que tem mostrado resultados ao nível do estado da arte em vários problemas de otimização, nomeadamente em problemas de focagem de imagem e focagem cega de imagem [38] [39]. Este algoritmo tem como objetivo a minimização do problema apresentado na equação (2.16) [4] [5]:

min

𝐳∈ℝ𝑛

∑

𝐽𝑗=1

𝑔

(𝑗)

(𝐆

(𝑗)

𝐳)

,

(2.16)

onde

𝐳 ∈ ℝ

𝑑 é o vetor a ser otimizado,

𝐆

(𝑗)

∈ ℝ

𝑝𝑗×𝑑 _{matrizes arbitrárias e}

_𝑔

(𝑗)

_{∶ ℝ}

𝑝𝑗

_{→ ℝ}

_{. A}

minimização envolve a separação em variáveis auxiliares (de splitting), dando origem a um problema equivalente, apresentado na equação (2.17):

min

_𝐮𝜖ℝ𝒏

∑

𝐽_𝑗=1

g

(𝑗)

(𝐮

(𝑗)

),

(2.17)

s.t.

𝐮

(𝑗)

= 𝐆

(𝑗)

𝐳, para 𝑗 = 1, … , 𝐽

,

sendo 𝐮(𝑗)

_{= 𝐆}

(𝑗)

_{𝐳 a variável de splitting. Neste trabalho, utiliza-se duas variáveis de splitting [40]. O}

algoritmo é apresentado na tabela 2.2, onde 𝑘 identifica a iteração [4] [5]:

Tabela 2.2: Algoritmo ADMM genérico.

Inicialização:

1. Inicializar

𝑘 = 0,

escolher

𝜇

(𝑗)

> 0, 𝐮

₀(𝑗)

e 𝐝

₀(𝑗)

,

para 𝑗 = 1, … . 𝐽.

Ciclo de Recuperação:

2.

𝜓

_𝑘+1

← ∑

𝐽_𝑗=1

𝜇

(𝑗)

(𝐆

(𝑗)

)

T

(𝐮

(𝑗)_𝑘

+ 𝐝

_𝑘(𝑗)

)

.

3.

𝐳

_𝑘+1

← [∑

𝐽_𝑗=1

𝜇

(𝑗)

(𝐆

(𝑗)

)

T

𝐆

(𝑗)

]

−1

𝜓

_𝑘+1

.

4.

𝐮

_𝑘+1(𝑗)

← prox

_g(𝑗) μ(𝑗) ⁄

(𝐆

(𝑗)

_𝐳

𝑘+1

− 𝐝

𝑘 (𝑗)

).

5.

𝐝

_𝑘+1(𝑗)

← 𝐝

_𝑘(𝑗)

− (𝐆

(𝑗)

𝐳

_𝑘+1

− 𝐮

_𝑘+1(𝑗)

).

6.

𝑘 ← 𝑘 + 1.

(26)

16

O operador de proximidade presente no passo 4 é definido por :

prox(𝑦)

_𝑓(𝑥)

= arg min

_𝑥∈ℝ21

2

‖𝐲 − 𝐱‖

2

_{+ 𝑓(𝑥) ,}

_(2.18)

sendo o passo 4 dado então por:

prox

_g(𝑗) μ(𝑗) ⁄

(𝐆

(𝑗)

_𝐳

𝑘+1

− 𝐝

𝑘 (𝑗)

) = arg min

𝐮 1 2

‖𝐮

𝑘+1 (𝑗)

− 𝐆

(𝑗)

𝐳

𝑘+1

− 𝐝

𝑘 (𝑗)

‖

2 2

+

g

(𝑗)

⁄

_μ

_(𝑗)

.

(2.19) A prova de convergência deste algoritmo pode ser verificada em [41] [42] para certas condições e para valores de 𝜇(𝑗)

_{> 0.}

2.7.2 Estimação da Imagem

Para a estimação da imagem, o passo 1 do ciclo de otimização do algoritmo BID pode ser escrito como [4] [5]:

min

_𝐱∈ℝ𝑚 1 2

‖𝐲 − 𝐌𝐮

(1)

_‖

2 2

+ λ [∑ ‖𝐮

(𝟐) 𝑖

‖

₂ 𝑖

]

𝑞

,

(2.20)

s. t. 𝐮

(1)

= 𝐆

(1)

𝐳 = 𝐇𝐱, 𝐮

(2)

= 𝐆

(2)

𝐳 = 𝐃𝐱

,

em que 𝐮(1)

∈ ℝ

𝑚 e 𝐮(2)

∈ ℝ

4𝑚

são variáveis de splitting. Para cada pixel 𝑖 tem-se:

𝐮

(𝟐)

𝑖

= [𝑢

4𝑖 (2)

, 𝑢

_4𝑖−1(2)

, 𝑢

_4𝑖−2(2)

, 𝑢

_4𝑖−3(2)

].

(2.21)

A matriz 𝐃 ∈ ℝ4𝑚×𝑚

representa o empilhamento em linha de 𝐃

(𝑖) definida no subcapítulo 2.3.A matriz

𝐇 representa o operador linear de convolução circular com o filtro 𝐡. A matriz 𝐌

representa uma máscara de pixéis, apresentada no modelo de degradação, sendo a sua função excluir pixéis aos quais a convolução não é válida. A função

g

(1)

(𝐮

(1)

) está diretamente relacionada com os dados do modelo

de degradação:

g

(1)

(𝐮

(1)

) =

1 2

‖𝐲 − 𝐌𝐮

(1)

_‖

2 2 , (2.22)

(27)

17 g

(2)

(𝐮

(2)

) = λ (∑ ‖𝐮

_𝑖(𝟐)

‖

2 𝑖

)

𝑞 . (2.23)

Os passos 3 e 4 do algoritmo ADMM (tabela 2.2) apresentam soluções em forma fechada rápidas [39] [40] [43] [44] [45]:

𝐳

𝑘+1

= 𝐱

𝑘+1

= (μ

(1)

𝐇

T

𝐇 + μ

(2)

𝐃

𝐓

𝐃)

−1

𝜓

𝑘+1

,

(2.24) em que:

𝜓

_𝑘+1

= [μ

(1)

_𝐇

T

_(𝐮

𝑘 (1)

+ 𝐝

_𝑘(1)

) + μ

(2)

_𝐃

𝐓

_(𝐮

(2) 𝑘

+ 𝐝

𝑘 (2)

)]

. (2.25)

As operações 𝐇T_{e 𝐃}T_{são calculadas a partir do conjugado da transformada de Fourier rápida (FFT)}

do filtro de desfocagem e dos filtros de regularização respetivamente. A operação de inversão é realizada no domínio da transformada de Fourier, na qual é diagonal.

O passo 4 do ADMM consiste na atualização das variáveis de splitting 𝐮_𝑘+1(j) , neste caso, para

𝐮

_𝑘+1(1) e

𝐮

_𝑘+1(2) . A atualização da primeira variável de splitting 𝐮_𝑘+1(1) é dada por:

𝐮

_𝑘+1(1)

= min

𝐮

g

(1)

(𝐮

(1)

) +

μ(1) 2

‖𝐆

(1)

_{𝐱 − 𝐮}

(1)

_{− 𝐝}

(1)

_‖

2 2

=

(2.27)

= min

𝐮 1 2

‖𝐲 − 𝐌𝐮

(1)

_‖

2 2

+

μ(1) 2

‖𝐇𝐱 − 𝐮

(1)

_{− 𝐝}

(1)

_‖

2 2

=

(2.28)

= min

_𝐮 1 2

‖𝐲 − 𝐌𝐮

(1)

_‖

2 2

+

μ(1) 2

‖𝐮

(1)

_{− 𝐒}

(1)

_‖

2 2

.

(2.29)

em que 𝐒(1)

= 𝐮

(1)

− 𝐝

(1)

.

Aplicando a primeira derivada a (2.29) e igualando-a a zero permite obter a fórmula de minimização explícita para a variável 𝐮_𝑘+1(1) [4].:

(𝐲 − 𝐌𝐮

(1)

) + μ

(1)

(𝐇𝐱 − 𝐮

(1)

− 𝐝

(1)

) = 0 ↔

(2.30)

𝐮

_𝑘+1(1)

= ( 𝐌

𝐓

_{𝐌 + μ}

(1)

₎

−1

_[𝐌

𝐓

_{𝐲 + μ}

(1)

_(𝐇𝐱

𝑘+1

− 𝐝

𝑘 (1)

) ] .

(2.31)

Na equação (2.30), 𝐌𝐓

_{𝐌 é uma matriz binária que coloca a zero todos os pixéis que não devem ser}

observados, a operação 𝐌𝐓

𝐲 a uma versão estendida da matriz 𝐲, com pixéis extra na região fronteira

também iguais a zero [4], sendo ambas realizadas no domínio espacial, tal como a inversão presente na equação (2.31). A operação 𝐇𝐱𝑘+1 é finalmente realizada no domínio da transformada de Fourier.

(28)

18

Para a segunda variável de splitting, procede-se de forma semelhante à primeira variável [4]:

𝐮

_𝑘+1(2)

= min

𝐮

g

(2)

(𝐮

(2)

) +

μ(2) 2

‖𝐇

(2)

_{𝐱 − 𝐮}

(2)

_{− 𝐝}

(2)

_‖

2 2

=

(2.32)

= min

𝐮𝑖 λ(∑ ‖𝐮_𝑖(𝟐)‖ 2 𝑖 ) 𝑞 μ(2)

+

1 2

‖𝐃𝐱 − 𝐮

(2)

_{− 𝐝}

(2)

_‖

2 2

.

(2.33)

A equação (2.33) é separável para cada conjunto de 4 elementos (pixéis) indexados por 𝑖 :

min

_𝐮_𝑖λ(‖𝐮𝑖 (𝟐) ‖ 2) 𝑞 μ(2)

+

1 2

‖(𝐃𝐱 − 𝐮

(2)

_{− 𝐝}

(2)

₎

𝑖

‖

₂ 2

.

(2.34)

A solução de (2.33) pode ser expressa a partir de uma função vectshrink [4] [5]:

prox

_g(2) μ(2) 𝑖 ⁄

𝐒

(2) 𝑖

= 𝑣𝑒𝑐𝑡𝑠ℎ𝑟𝑖𝑛𝑘 (𝐒

(2)𝑖

,

λ μ(2)

, 𝑞)

, (2.35)

em que 𝐒(2)𝑖

∈ ℝ

4

é o vetor obtido a partir dos elementos de (𝐃𝐱 − 𝐝

(2)

)

_𝑖

∈ ℝ

4 correspondente ao

pixel 𝑖.

A função vectshrink é definida a partir de uma função de shrinkage [4]:

𝑣𝑒𝑐𝑡𝑠ℎ𝑟𝑖𝑛𝑘 (𝐒

(2)_𝑖

,

λ μ(2)

, 𝑞) = 𝑠ℎ𝑟𝑖𝑛𝑘 (𝐒

(2) 𝑖

,

λ ‖𝐒(2) 𝑖‖₂ 𝑞−2

, 𝑞)

, (2.36)

a qual é dada por:

𝑠ℎ𝑟𝑖𝑛𝑘(𝐒

(2)_𝑖

, λ, 𝑞) = prox

_λ|t|𝑞

(𝐒

(2)_𝑖

) = min

_t1 2

‖𝐒

(2) 𝑖

− t‖

₂ 2

+ λ|t|

𝑞 (2.37) Para 𝑞 =1

2, a equação 2.37 tem forma fechada [46] e a sua solução pode ser calculada a partir das

raízes de um polinómio de terceiro grau, onde a raiz que minimiza (2.37) é a escolhida [4]:

𝐮

_𝑘+1(2)

= 𝑠𝑖𝑔𝑛(𝐒

(2)

𝑖

) × 𝑤

, (2.38)

em que 𝑤 é dado por:

w + 𝑞 𝜆w

(𝑞−1)

− 𝑎𝑏𝑠(𝐒

(2)

𝑖

) = 0 ⇔

(2.39)

w + 𝑞 𝜆w

−

1

(29)

19 w

32

+ 𝑞 𝜆 − 𝑎𝑏𝑠(𝐒

(2)_𝑖

)𝑤

1

2

= 0

_. _(2.41)

Efetuando a mudança de variável 𝑐 = 𝑤(12)_{, a equação (2.41) adquire a forma de um polinómio de}

terceiro grau, com 𝑐 > 0, 𝑤 > 0:

c

3

− 𝑎𝑏𝑠(𝐒

(2)𝑖

)𝑐 + 𝑞 𝜆 = 0

. (2.42)

Finalmente, o passo 5 do algoritmo ADMM representa a atualização das variáveis

𝐝

_𝑘(𝑗) [4] [5]:

𝐝

_𝑘+1(1)

= 𝐝

_𝑘(1)

− ( 𝐇𝐱

_𝑘+1

− 𝐮

_𝑘+1(1)

)

, (2.43)

𝐝

_𝑘+1(2)

= 𝐝

_𝑘(2)

− (𝐃𝐱

𝑘+1

− 𝐮

𝑘+1 (2)

)

, (2.44)

sendo as operações 𝐇𝐱𝑘+1 e 𝐃𝐱𝑘+1 realizadas no domínio da transformada de Fourier.

2.7.3 Estimação do Filtro

A estimação do filtro a partir do algoritmo ADMM (tabela 2.2) é efetuada de forma semelhante à estimação da imagem. O passo 2 do algoritmo BID é dado por [4] [5]:

min

𝐡∈ℝ𝑚 1 2

‖𝐲 − 𝐌𝐮

(1)

_‖

2 2

+ 𝑖

_𝑆+

(𝐮

(2)

)

, (2.45)

s. t. 𝐮

(1)

= 𝐆

(1)

𝐳 = 𝐗𝐡, 𝐮

(2)

= 𝐆

(2)

𝐳 = 𝐈𝐡

em que variável 𝐲 representa a imagem degradada e a matriz

𝐌

exclui os pixéis para os quais a convolução não é válida. O vetor 𝐡 ∈ ℝ𝑚 contém o filtro de desfocagem lexicograficamente ordenado e a matriz

𝐗 ∈ ℝ

𝑚×𝑚 é uma matriz quadrada que contém um operador linear de convolução cíclica com a imagem contida no vetor

𝐱 ∈ ℝ

𝑚. A matriz 𝐈 ∈ ℝ𝑚×𝑚_{é uma matriz identidade. As funções}

g

(1)

(𝐮

(1)

)

e

g

(2)

(𝐮

(2)

)

são definidas por:

g

(1)

(𝐮

(1)

) =

1 2

‖𝐲 − 𝐌𝐮

(1)

_‖

2 2 , (2.46)

g

(2)

(𝐮

(2)

) = 𝑖

_𝑆+

(𝐮

(2)

)

. (2.47)

(30)

20

Os passos 2 e 3 do algoritmo ADMM tem solução em forma fechada, sendo a sua dedução semelhante ao apresentado no subcapítulo anterior [4]:

𝐳

𝑘+1

= 𝐡

𝑘+1

= (μ

(1)

𝐗

T

𝐗 + μ

(2)

𝐈)

−1

𝜓

𝑘+1

,

(2.48)

𝜓

𝑘+1

= [μ

(1)

𝐗

T

(𝐮

𝑘 (1)

+ 𝐝

_𝑘(1)

) + μ

(2)

𝐈(𝐮

_𝑘(2)

+ 𝐝

_𝑘(2)

)]

. (2.49)

A matriz 𝐗T_{é obtida a partir do conjugado da FFT da imagem e a operação de inversão em (2.48)}

realizada no domínio da transformada.

A atualização da primeira variável de splitting 𝐮(1)no passo 4 pode ser escrita na forma (2.50) [4] [5], e a sua dedução é semelhante também ao apresentado no subcapítulo anterior:

𝐮

_𝑘+1(1)

= (

𝐌

𝐓

_𝐌

_{+ μ}

(1)

₎

−1

_[𝐌

𝐓

_{𝐲 + μ}

(1)

_(𝐗𝐡

𝑘+1

−

𝐝

𝑘 (1)

)

]

. (2.50)

A segunda variável de splitting 𝐮(2) é atualizada de forma diferente em comparação à estimação da imagem. No caso da estimação do filtro, esta variável está relacionada com o seu suporte [4]:

𝐮

_𝑘+1(2)

= 𝑃

_𝑆+

(

𝐡

_𝑘+1

−

𝐝

_𝑘(2)

)

, (2.51)

sendo 𝑃𝑆+

(𝒘) a projeção dos pixéis 𝒘 no domínio 𝑆

+

.

Finalmente, a atualização as variáveis 𝐝_𝑘+1(𝑗) é efetuada como:

𝐝

_𝑘+1(1)

= 𝐝

_𝑘(1)

− ( 𝐗𝐡

_𝑘+1

− 𝐮

_𝑘+1(1)

) ,

(2.52)

𝐝

_𝑘+1(2)

= 𝐝

_𝑘(2)

− ( 𝐡

_𝑘+1

− 𝐮

_𝑘+1(2)

) ,

(2.53)

(31)

21

3. Focagem Cega de Vídeo

Neste capítulo são apresentados dois métodos de focagem cega de vídeo: frame a frame e em volume. A base teórica apresentada no capítulo 2 é aplicável para este tipo de focagem, porém quaisquer diferenças existentes irão ser expostas nos seus respetivos subcapítulos consoante o tipo de focagem em questão.

3.1 Focagem Cega Frame a Frame

3.1.1 Modelo de Degradação

O modelo de degradação apresentado no subcapítulo 2.1 pode ser estendido a múltiplas frames, onde a degradação é aplicada de forma independente a cada uma:

𝐲

_𝑓

= 𝐌𝐇

_𝑓

𝐱

_𝑓

+ 𝐧

_𝑓

,

(3.1)

onde o índice 𝑓 identifica o número da frame pertencente a um vídeo com 𝐹 frames. As variáveis vetoriais lexicograficamente ordenadas 𝐲𝑓

∈ ℝ

𝑛, 𝐱𝑓

∈ ℝ

𝑚e 𝐧𝑓

∈ ℝ

𝑛 são respetivamente o conjunto

de imagens degradadas, as imagens a serem recuperadas e o ruído aditivo branco Gaussiano de média zero e variância

σ

2.

𝐇

𝑓

∈ ℝ

𝑛×𝑛

representa uma matriz quadrada, diagonalizada a partir da

transformada de Fourier discreta, correspondente ao operador linear de convolução cíclica com um filtro de desfocagem representado lexicograficamente no vetor 𝐡𝑓. A equação (3.1) também pode ser

escrita em função do filtro 𝐡𝑓:

𝐲

_𝑓

= 𝐌𝐗

_𝑓

𝐡

_𝑓

+ 𝐧

_𝑓

,

(3.2)

em que

𝐗

𝑓

∈ ℝ

𝑛×𝑛 representa a convolução com a imagem presente no vetor

𝐱

𝑓. Tal como

apresentado em 2.1, vamos considerar que as condições fronteira são desconhecidas e que a matriz

𝐌

𝑓

∈ ℝ

𝑛

2_{×(√𝑛+2𝑙)}2

é uma máscara espacial que exclui todos os pixéis pertencentes à região fronteira da imagem, onde a convolução cíclica é inválida.

(32)

22 3.1.2 Função de Custo

A função de custo para este método é uma extensão direta do método de imagem, aplicado a um vídeo

𝐱 composto por

𝐹

imagens, onde estas são indexadas por

𝑓

. Para este método, o problema de focagem cega do vídeo 𝐱 é divido em 𝐹 problemas BID, independentes:

C(𝐱, 𝐡) =

1 2

∑ (‖𝐲

𝑓

− 𝐇

𝑓

𝐱

𝑓

‖

2 2

+ λ

_𝑓

∑ [‖𝐃

(i)

_𝐱

𝑓

‖

₂

]

i 𝑞

+ 𝑖

_𝑆+

(𝐡

_𝑓

))

𝐹 𝑓

.

(3.3)

Para cada frame, função de custo a ser minimizada é igual à usada no capítulo 2, composta por uma parcela relativa aos dados (imagens, filtros e ruído), uma parcela relativa à regularização controlada pelo parâmetro λ𝑓 (parâmetro de regularização responsável pelo peso da regularização no processo

de recuperação) e pelo parâmetro 𝑞 ϵ [0,1](parâmetro de esparsidade, controla a esparsidade do regularizador). A função 𝑖𝑆+ é uma função indicadora para o espaço dos vetores em

𝑆

+

,

os quais tem

entradas positivas e suporte limitado.

3.1.3 Densidade a priori (prior) das Imagens e dos Filtros

O prior utilizado por cada frame é igual ao apresentado nos subcapítulos 2.4 e 2.5:

𝑝[𝑓

𝑖

(𝐱

𝑓

)] ∝ 𝑒

−k[𝑙𝑖(𝐱𝑓)] 𝑞 , (3.4)

𝑝[𝐡

𝑓

] ∝ 𝑒

−k_𝐡𝒇R_𝐡𝒇[𝐡𝒇] . (3.5)

As funções de custo (3.6) e (3.7) correspondem assumir um prior sobre cada frame e independente entre pixéis, de forma análoga à apresentada nos subcapítulos 2.4 e 2.5:

C(𝐱, 𝐡) =

1 2

∑ (‖𝐲

𝑓

− 𝐇

𝑓

𝐱

𝑓

‖

2 2

+ λ

_𝑓

∑ [‖𝐃

(i)

_𝐱

𝑓

‖

₂

]

i 𝑞

)

𝐹 𝑓 , (3.6)

C(𝐱, 𝐡) =

1 2

∑ (‖𝐲

𝑓

− 𝐇

𝑓

𝐱

𝑓

‖

2 2

+ λ

_𝑓

R[𝐱

_𝑓

] + λ

_𝐡_𝑓

R

_𝐡_𝑓

[𝐡

_𝑓

] + 𝑖

_𝑆+

(𝐡

_𝑓

))

𝐹 𝑓 . (3.7)

(33)

23 3.1.4 Algoritmo de Focagem Cega de Vídeo Aplicado Frame a Frame

Para este método de focagem, o algoritmo BID é aplicado sequencialmente, a cada frame do vídeo de dimensão 𝐹. A tabela 3.1 representa o algoritmo BID frame a frame, onde a principal diferença é a introdução de um ciclo externo que controla o tratamento de uma frame 𝑓, sendo esta independente, ou seja, não é explorada a componente temporal do vídeo na sua estimação. A cada frame 𝐱𝑓 está

associado um filtro 𝐡𝑓

e um valor de λ

𝑓 (porém pode ser fixado para ser igual para todas as frames).

Para cada frame 𝑓 do vídeo de tamanho 𝐹:

Inicialização:

1. Colocar 𝐡𝑓 igual ao operador identidade.

2. Colocar 𝐱𝑓 igual a 𝐲𝑓

,

ou seja, à imagem desfocada.

3. Colocar

𝑞

e

λ

𝑓 igual aos seus respetivos valores de

inicialização, tendo em conta que 𝑞 ϵ [0,1]. Ciclo de otimização:

1.

𝐱

̂ ⟵ arg min

_𝑓 _𝐱

C(𝐱

_𝑓

, 𝐡

̂

_𝑓

).

2.

𝐡

̂ ⟵ arg min

_𝑓 _𝐡

C(𝐱

̂, 𝐡

_𝑓 _𝑓

).

3.

λ

_𝑘+1𝑓

=

λ𝑘𝑓

𝑟 .

4. Retornar ao passo 1 do ciclo de otimização até satisfazer um critério de paragem.

Tabela 3.1: Algoritmo BID frame a frame.

Os passos 1, 2 e 3 do ciclo de otimização neste algoritmo são iguais ao descrito no subcapítulo 2.7. A aplicação do algoritmo ADMM neste método de focagem é também feita sequencialmente a cada frame

𝑓. Consequentemente, para a estimação da imagem, as equações são:

𝐳

_𝑘+1𝑓

= 𝐱

_𝑘+1𝑓

= (μ

(1)

𝐇

T𝑓

𝐇

𝑓

+ μ

(2)

𝐃

T

𝐃)

−1

𝜓

𝑘+1

,

(3.8)

𝜓

𝑘+1

= [μ

(1)

𝐇

T𝑓

(𝐮

𝑘 (1) 𝑓

+ 𝐝

𝑘 (1) 𝑓

) + μ

(2)

_𝐃

T

_(𝐮

𝑘 (2) 𝑓

+ 𝐝

𝑘 (2) 𝑓

)],

(3.9)

𝐮

_𝑘+1(1) 𝑓

= (

𝐌

𝐓 𝑓

𝐌

𝑓

+ μ

(1)

)

−1

[𝐌

𝐓_𝑓

𝐲

_𝑓

+ μ

(1)

(𝐇

𝑓

𝐱

_𝑘+1𝑓

−

𝐝

_𝑘(1)_𝑓

)

] ,

(3.10)

𝐮

_𝑘+1(2) 𝑓

= 𝑠𝑖𝑔𝑛 (𝐒

(2) 𝑖𝑓

) × 𝑤 .

(3.11)

(34)

24

A resolução da equação (3.11) envolve o cálculo de uma raiz cúbica a partir de uma mudança de variável. Esta resolução encontra-se no subcapítulo 2.7.2, escolhendo o menor valor de

𝑤

para solução.

Finalmente, a atualização das variáveis 𝐝_𝑘+1(𝑗) _𝑓 é feita por:

𝐝

_(𝑘+1)(1) 𝑓

= 𝐝

𝑘 (1) 𝑓

− ( 𝐇

𝑓

𝐱

𝑓

− 𝐮

(1) 𝑓

) ,

(3.12)

𝐝

_(𝑘+1)(2) 𝑓

= 𝐝

𝑘 (2) 𝑓

− (𝐃

(𝑖)

_𝐱

𝑓

− 𝐮

(2)𝑓

) .

(3.13)

Para a estimação do filtro:

𝐳

_𝑘+1𝑓

= 𝐡

_𝑘+1𝑓

= (μ

(1)

_𝐗

T 𝑓

𝐗

𝑓

+ μ

(2)

𝐈)

−1

𝜓

_𝑘+1

,

(3.14)

𝜓

𝑘+1

= [μ

(1)

𝐗

T𝑓

(𝐮

𝑘 (1) 𝑓

+ 𝐝

𝑘 (1) 𝑓

) + μ

(2)

_{𝐈 (𝐮}

𝑘 (2) 𝑓

+ 𝐝

𝑘 (2) 𝑓

)] ,

(3.15)

𝐮

_𝑘+1(1) 𝑓

= (

𝐌

𝐓 𝑓

𝐌

𝑓

+ μ

(1)

)

−1

[𝐌

𝐓_𝑓

𝐲

_𝑓

+ μ

(1)

(𝐗

𝑓

𝐡

_𝑘+1𝑓

−

𝐝

𝑘 (1) 𝑓

)

] ,

(3.16)

𝐮

_𝑘+1(2) 𝑓

= 𝑃

𝑆+

(

𝐡

𝑘+1𝑓

−

𝐝

𝑘 (2) 𝑓

) ,

(3.17)

𝐝

_𝑘+1(1) _𝑓

= 𝐝

_𝑘(1)_𝑓

− ( 𝐗

𝑓

𝐡

_𝑘+1𝑓

− 𝐮

𝑘+1 (1) 𝑓

) ,

(3.18)

𝐝

_𝑘+1(2) 𝑓

= 𝐝

𝑘 (2) 𝑓

− ( 𝐡

𝑘+1𝑓

− 𝐮

𝑘+1 (2) 𝑓

) .

(3.19)

(35)

25

3.2 Focagem Cega em Volume

3.2.1 Modelo de Degradação

O modelo de degradação apresentado na figura 2.1 é aplicável a este método de focagem, porém a principal diferença está na natureza das variáveis envolvidas. Este modelo de degradação é aplicado não a uma imagem, mas a um conjunto de imagens que constituem um volume 𝑉, sendo este um vídeo, que é degradado como um todo por um operador de degradação mais ruído aditivo. A equação (2.1) define o modelo de degradação para uma imagem, mas também pode definir o modelo de degradação de um vídeo volume 𝑉 . Neste caso, as variáveis 𝐲 , 𝐱 e 𝐧 representam respetivamente, o vídeo degradado, o vídeo original que queremos recuperar e o ruído aditivo. Estas variáveis são vetoriais e estão organizadas lexicograficamente, onde

𝐲 ∈ ℝ

𝑛 ,

𝐱 ∈ ℝ

𝑚

e

𝐧 ∈ ℝ

𝑛 . A matriz

𝐀 ∈

ℝ

𝑚×𝑛

_{representa a degradação linear de desfocagem. Se degradação for considerada cíclica então}

temos

𝑛 = 𝑚 e

𝐀 = 𝐇 ∈ ℝ

𝑛×𝑛 representa uma matriz quadrada, diagonalizada a partir da transformada de Fourier discreta tridimensional, correspondente ao operador linear de convolução cíclica tridimensional com um filtro de desfocagem 3D representado lexicograficamente no vetor 𝐡.

Tal como apresentado no subcapítulo 2.1, vamos considerar que as condições fronteira são desconhecidas. Neste caso, a degradação de desfocagem será modelada por 𝐀 = 𝐌𝐇 ∈ ℝ𝑛×(√𝑛+2𝑙)2 podendo ser desassociada em uma convolução cíclica representada pela matriz

𝐇 ∈

ℝ

(√𝑛+2𝑙)2×(√𝑛+2𝑙)2_{e uma matriz de máscara tridimensional}

_{𝐌 ∈ ℝ}

𝑛2_{×(√𝑛+2𝑙)}2

que exclui todos os pixéis pertencentes à região fronteira do vídeo , onde a convolução cíclica 3D é inválida:

𝐲 = 𝐌𝐇𝐱 + 𝐧 = 𝐌𝐗𝐡 + 𝐧

. (3.20)

3.2.2 Função de Custo

A função de custo para este método é equivalente à apresentada na equação 2.3, porém no domínio tridimensional:

C(𝐱, 𝐡) =

1 2

‖𝐲 − 𝐌𝐇𝐱‖

2 2

_{+ λ ∑ [‖𝐃}

(𝑖)

_𝐱‖

2

]

i 𝑞

+ 𝑖

_𝑆+

(𝐡)

, (3.21)

sendo a função 𝑖𝑆+ definida por:

𝑖

_𝑆+

(𝐡) = f(x) = {

0, se 𝐡 ∈ 𝑆

+

_,

(36)

26

Mais uma vez, primeira parcela da função de custo está diretamente relacionada com o modelo e os dados do problema. A segunda parcela está relacionada com o regularizador, sendo a sua função favorecer soluções com contornos esparsos, utilizando catorze filtros de regularização

𝐃

(i)_{, em}

contraste com quatro, utilizados na recuperação de imagem e recuperação de vídeo frame a frame. O expoente 𝑞 ϵ [0,1] é responsável pelo controlo da esparsidade do regularizador, denominado assim por parâmetro de esparsidade. O peso da regularização no processo de estimação da imagem é controlado pelo parâmetro λ, denominado por parâmetro de regularização.

3.2.3 Deteção de Contornos

A deteção de contornos é realizada de forma semelhante ao apresentado no subcapítulo 2.3. Os catorze filtros de regularização utilizados neste método de recuperação resultam de rotações 3D de um filtro fundamental apresentado na figura 3.1:

Figura 3.1 – Corte do filtro de regularização fundamental para estimação de vídeo em volume: a) frame 1 e b) frame 2.

O filtro de regularização fundamental é um volume composto por dez cortes. Cada corte tem dimensão 10x10 pixéis, suficientes para acomodar a rotação no espaço deste filtro nos seus eixos de modo a ser possível criar os restantes treze. Na figura 3.1 estão presentes dois cortes ao centro do filtro fundamental, onde o primeiro corte está colocado à esquerda (de dimensão 10x10) e o segundo à direita (com a mesma dimensão). Estes filtros de regularização permitem a deteção de planos em todas as direções do volume do vídeo a ser recuperado, explorando a componente temporal, em contraste com a deteção de linhas no método frame a frame.

(37)

27 3.2.4 Algoritmo de Focagem Cega de Vídeo Aplicado ao Volume

A aplicação do algoritmo BID para este método de recuperação é idêntica à focagem cega de imagem, sendo o algoritmo apresentado na tabela 2.1 e a sua função de custo apresentada na equação (3.21). A principal diferença entre este método de recuperação, para o método frame a frame na aplicação do método BID utilizando o algoritmo de otimização ADMM, é na exploração da componente temporal do vídeo de volume 𝑉. Todas as variáveis presentes neste método de focagem são 3D, sendo o parâmetro de regularização λ comum ao vídeo todo, em contraste com o método frame a frame, onde cada frame tem o seu próprio λ.