Detector Fast-Hessian - Metodologia do SURF

4.2 Metodologia do SURF

4.2.2 Detector Fast-Hessian

Fast-Hessian

O detector SURF é baseado no determinante da matriz Hessiana. Para a utiliza¸cão de Hessian é considerada uma fun¸cão cont´ınua de duas variáveis, na qual o valor da fun¸cão em (x, y) é dada por f (x, y). A matriz Hessiana, H, é a matriz das derivadas parciais da fun¸cão mencionada no ponto 3.3.2 desta disserta¸cão.

Para a aplica¸cão da matriz Hessiana a imagens, em vez de a fun¸cões cont´ınuas, primeiramente substituem-se os valores da fun¸cão f (x, y) pela intensidade do p´ıxel I(x, y). De seguida, é necessário um método para calcular as segundas derivadas da imagem. O cálculo das derivadas pode efectuar-se com base na convolu¸cão com uma máscara apropriada. No caso do SURF, a escala de segunda ordem normali- zada de Gaussian é o filtro escolhido que permite a análise em diferentes escalas e espa¸co. É poss´ıvel construir máscaras para as derivadas Gaussianas, em x e y, e combinar a direçcão xy de forma a se calcular as quatro entradas da matriz Hessi- ana. A utiliza¸cão de Gaussian permite variar a quantidade de suaviza¸cão durante a convolu¸cão, de modo a que o determinante seja calculado em escalas diferentes. Uma vez que o Gaussian é uma fun¸cão isotrópica (isto é, circularmente simétrico) a convolu¸cão com a máscara permite invariância à rota¸cão. Pode calcular-se a matriz Hessiana, H, como fun¸cão de ambos os espa¸cos x = (x, y) e escala σ (Evans, 2009):

H(f (x, y)) =   Lxx(x, σ) Lxy(x, σ) Lxy(x, σ) Lyy(x, σ)  

onde Lxx(x, σ) se refere `a convolu¸c˜ao da derivada Gaussiana de segunda ordem δ2_δxg(σ)2

s˜ao conhecidas como Laplaciano da Gaussiana.

De seguida, procede-se ao cálculo do determinante de Hessian para cada pixel da imagem, usando o valor deste para encontrar pontos de interesse. Esta varia¸cão do detector Hessiano é semelhante ao proposto por Beaudet (1978).

Lowe (2004) propôs uma melhoria no desempenho quando se aproxima o Laplaci- ano de Gaussiana pela diferen¸ca Gaussiana, ver seçcão 3.3.2. De modo semelhante, Herbert Bay (2008) propôs uma aproxima¸cão para o Laplaciano de Gaussian, utilizando box filter representations, das respectivas máscaras. A figura 4.2 ilustra a semelhan¸ca entre os núcleos discretizados e cortados e os filtros equivalentes. Uti- lizando estes filtros em conjunto com a imagem integral, obtém-se um aumento de desempenho considerável. Para quantificar a diferen¸ca, considera-se o número de acessos à matriz e opera¸cões necessárias na convolu¸cão. Deste modo para um filtro de 9_{× 9 seriam necessários 81 acessos à matriz e opera¸cões para o valor real do filtro} original, e apenas 8 para a box filter representations. Assim à medida que se aumenta o tamanho do filtro, o custo computacional aumenta significativamente para o Laplaciano original, enquanto que o mesmo custo para os box filters é invariante ao tamanho.

Na figura 4.2 o valor aplicado a cada uma das seçcões do filtro é mantido simples, sendo que para o filtro Dxy as regiões a negro têm o valor de 1, as regiões brancas o valor de -1 e as restantes regiões não possuem valor algum. Os filtros Dxx e Dyy são valorados de forma semelhante, mas com as regiões brancas a corresponder ao valor -1 e as negras ao valor 2. Uma valora¸cão simples permite o cálculo rápido das regiões, mas para a utiliza¸cão destes valores é necessário compensar os valores originados pela diferen¸ca entre o original e a aproima¸cão das máscaras. Herbert Bay (2008) propõe a seguinte expressão, como uma aproxima¸cão precisa para o determinante Hessiano, utilizando a aproxima¸cão Gaussiana (Evans, 2009):

Figura 4.2 – Filtros Laplacianos (em cima) e Box Filter (em baixo), da esquerda para a direita os filtros Dxx, Dyy e Dxy (Evans, 2009).

Em (Herbert Bay, 2008), os dois filtros são comparados em pormenor, e os resultados apontam para que a box filter representations apresente uma perda desprez´ıvel de precisão, a qual é largamente compensada pelo aumento considerável em eficiência e rapidez. O determinante aqui é referido como resposta ao agrupamento na localiza¸cão de x = (x, y, σ). A procura dos máximos locais desta fun¸cão sobre o espa¸co e a escala, produz os pontos de interesse da imagem. O método exacto para a extraçcão dos pontos de interesse é abordado na seçcão seguinte.

Constru¸c˜ao do Scale-Space

Para detectar pontos de interesse, utilizando o determinante Hessiano, é necessário introduzir a no¸cão de scale-space. Um scale-space é uma fun¸cão cont´ınua que pode ser utilizada para encontrar extremos em todas as escalas poss´ıveis Witkin (1983).

Na visão por computador, um scale-space é geralmente implementado como uma pirâmide de imagens, onde a imagem de entrada é várias vezes convolvida com a máscara Gaussiana, e repetitivamente subdividida, reduzindo o seu tamanho. Este método é utilizado no SIFT (Lowe, 2004), mas uma vez que cada camada depende da anterior, e as imagens precisam para ser redimensionadas, não é computacional- mente eficiente. Como o tempo de processamento das máscaras utilizadas no SURF, é invariante ao tamanho das mesmas, os scale-spaces podem ser criados aplicando

máscaras de maior tamanho à imagem original, permitindo que múltiplas camadas

do scale-space possam ser processadas simultaneamente, eliminando assim a neces- sidade da imagem da camada anterior, proporcionando, deste modo, um aumento do desempenho.

A figura 4.3 ilustra a diferen¸ca entre a estrutura tradicional de scale-space e a utilizada no SURF.

Figura 4.3 – Constru¸cão tradicional (à esquerda) e constru¸cão utilizada no SURF (à direita) (Evans, 2009).

O scale-space ´e dividido num n´umero de octavos, onde um octavo se refere a uma

série de mapas de resposta que envolve uma duplica¸cão de escala. No SURF o n´ıvel mais baixo do scale-space é obtido a partir do resultado das máscaras 9×9, ilustradas na figura 4.2. Estas máscaras correspondem a valores reais Gaussianos com σ = 1, 2. As camadas seguintes são obtidas pelo aumento em escala das máscaras, mantendo

as propor¸cões e disposi¸cões das mesmas. À medida que o tamanho da máscara

as propor¸c˜oes permanecem constantes, pode calcular-se esta escala pela seguinte express˜ao (Evans, 2009):

σapprox = CurrentF ilterSize·

BaseF ilterScale BaseF ilterSize = CurrentF ilterSize_· 1.2

Ao construir m´ascaras maiores, existe um n´umero de factores que se deve ter em

considera¸cão. O aumento do tamanho é limitado pela dimensão das seçcões positiva e negativa, subjacentes à derivada Gaussiana, de segunda ordem. Nas máscaras, o tamanho das regiões é definida como um ter¸co do tamanho do lado da máscara, o qual se refere ao lado mais curto das regiões ponderadas, a preto e branco. Uma vez que é necessária a presen¸ca de um pixel central, as dimensões devem ser aumen- tadas igualmente em torno desta localiza¸cão, portanto o tamanho das seçcões pode aumentar num m´ınimo de 2 unidades. Uma vez que existem três regiões em cada máscara, as quais devem ter o mesmo tamanho, a propor¸cão de altera¸cão entre dois filtros consecutivos é de 6 unidades. Para os filtros Dxx e Dyy o comprimento do lado mais longo das regiões ponderadas, aumenta por 2 unidades, em cada lado, de forma a preservar a estrutura. A figura 4.4 ilustra a estrutura das máscaras, uma vez que aumentam de tamanho.

Localizar Pontos de Interesse

O processo de localiza¸cão de pontos de interesse invariantes à escala e à rota¸cão numa imagem, pode ser dividida em três etapas. Na primeira, as respostas são limitadas, de modo a que todos os valores abaixo do limite predeterminado sejam removidos. O aumento do limite diminui o número de pontos de interesse detectados, deixando apenas os mais fortes, enquanto a diminui¸cão do limite permite que sejam detectados muitos mais pontos de interesse. Consequentemente, o limite pode ser adaptado consoante a aplica¸cão e o n´ıvel de deteçcão necessário.

Depois de limitar o número de pontos de interesse, uma supressão não-máxima

é realizada para encontrar um conjunto de pontos candidatos. Para o efeito, cada pixel no scale-space é comparado com os seus 26 vizinhos, compostos por 8 pontos na escala nativa e 9 pontos em cada uma das escalas acima e abaixo, respectivamente. A figura 4.5 ilustra o passo da supressão não-máxima. Nesta fase, tem-se um conjunto de pontos de interesse com resistência m´ınima, determinada pelo valor de limite, os quais correspondem também a máximos ou m´ınimos locais no scale-space.

Figura 4.5 – Supressão não-máxima (Evans, 2009).

O passo final na localiza¸cão dos pontos de interesse, envolve a interpola¸cão dos dados mais próximos do ponto de interesse, de forma encontrar a localiza¸cão precisa na

escala e espa¸co do sub-pixel. Este procedimento efectua-se encaixando um quadrado 3D (CUBO), como proposto por Matthew Brown (2002). Para tal, recorre-se ao determinante da fun¸cão Hessiana, H(x, y, σ), como uma expansão de Taylor, capaz de criar termos quadráticos centrados na localiza¸cão detectada, expresso como (Evans, 2009): H(x) = H + δH T δx x + 1 2x Tδ2H δx2 x

A localiza¸cão interpolada do extremo, ˆx = (x, y, σ), é encontrada tomando a derivada desta fun¸cão e definindo-a em zero, tal que (Evans, 2009):

ˆ x =−δ 2_H−1 δx2 δH δx

As derivadas aqui são aproximadas por diferen¸cas finitas de pixels vizinhos. Se ˆx é maior do que 0,5 nas direçcões X ou Y , ajusta-se a localiza¸cão e realiza-se a interpola¸cão novamente. Este procedimento é repetido até ˆx ser inferior a 0,5 em todas as direçcões ou até que o número predeterminado de interpola¸cões tenha sido excedido. Esses pontos não convergentes são exclu´ıdos do conjunto de pontos de interesse, deixando apenas os mais estáveis e repet´ıveis.

No documento Seguimento online de objectos em sequências de vídeo de UAV (páginas 42-48)