Seguimento online de objectos em sequências de vídeo de UAV

(1)

Seguimento online de objectos

em sequências de vídeo

de UAV

DISSERTAÇÃO DE MESTRADO

EM ENGENHARIA INFORMÁTICA

TELMO RUI DIAS BENTO

Orientador: Professor Doutor Pedro Alexandre Mogadouro do Couto Co-orientador: Professor Doutor Pedro Melo-Pinto

(2)

(3)

de UAV

Por

Telmo Rui Dias Bento

Orienta¸c˜

ao:

Prof. Doutor Pedro Alexandre Mogadouro do Couto

Prof. Doutor Pedro Melo-Pinto

Disserta¸c˜ao submetida `a

UNIVERSIDADE DE TR ´AS-OS-MONTES E ALTO DOURO para obten¸c˜ao do grau de

MESTRE

em Engenharia Inform´atica, de acordo com o disposto no DR – I s´erie–A, Decreto-Lei n.o _{74/2006 de 24 de Mar¸co e no}

Regulamento de Estudos Pós-Graduados da UTAD DR, 2.a _{série – Delibera¸cão n.}o _2391/2007

(4)

(5)

Prof. Doutor Pedro Alexandre Mogadouro do Couto

Professor Auxiliar do Departamento de Engenharias Escola de Ciˆencias e Tecnologia Universidade de Tr´as-os-Montes e Alto Douro

Prof. Doutor Pedro Melo-Pinto

Professor Catedrático do Departamento de Engenharias Escola de Ciências e Tecnologia Universidade de Trás-os-Montes e Alto Douro

(6)

(7)

de UAV

Telmo Rui Dias Bento

Submetido à Universidade de Trás-os-Montes e Alto Douro para o preenchimento dos requisitos parciais para obten¸cão do grau de

Mestre em Engenharia Inform´atica

Resumo — A análise de v´ıdeo é ,actualmente, usada em diversas aplica¸cões como, o seguimento de objectos e pessoas, a deteçcão de actividade suspeita, a contagem de ve´ıculos, a inspeçcão industrial, o controlo de qualidade, o reconhecimento au-tomático de matr´ıculas e faces, etc. Neste contexto, os UAV (Unmanned Aerial Vehicles) adicionam grandes potencialidades e uma vasta área de aplica¸cão à visão por computador.

Este trabalho apresenta uma proposta de um algoritmo de deteçcão de pontos de interesse,o qual permite o reconhecimento de elementos comuns entre duas imagens. Assim, será poss´ıvel a deteçcão de objectos, e consequentemente a possibilidade de seguimento dos mesmos. As tarefas são efectuadas por um UAV, de forma a possibilitar a navega¸cão e o seguimento de objectos.

Esta disserta¸c˜ao consiste no estudo do algoritmo SURF e a sua aplicabilidade nos UAV, apresentando poss´ıveis melhorias a efectuar na utiliza¸c˜ao do algoritmo, com o pressuposto de optimizar todo o processo computacional.

Palavras Chave: Deteçcão de Objectos, Visão por Computador, SURF, UAV.

(8)

(9)

Telmo Rui Dias Bento

Submitted to the University of Tr´as-os-Montes and Alto Douro in partial fulfillment of the requirements for the degree of

Master of Science in Computer Engineering

Abstract — The video analysis is currently used for several applications, such as tracking objects and people, detection of suspicious activity, count of vehicles, industrial inspection, quality control, automatic recognition of registration plates and faces... In this context, UAVs (Unmanned Aerial Vehicles) add great potential and a wide application area of computer vision.

This work presents a proposal of an algorithm of detection of interest points, which allows the recognition of common elements between two images. Thus, it will be possible to detect objects and, therefore, the possibility of tracking them. The tasks are performed by a UAV in order to facilitate navigation and tracking of objects by the same.

The work described in this dissertation is the study of the SURF algorithm and its applicability in UAVs.

This dissertation is the study of the SURF algorithm and its applicability in UAVs, also presenting possible improvements to be made using the algorithm, with the assumption of optimizing the entire computational process.

Keywords: Object Detection, Computer Vision, SURF, UAV.

(10)

(11)

Ao Professor Doutor Pedro Couto e ao Professor Doutor Pedro Melo-Pinto, por todo o apoio no desenvolvimento deste projecto.

Aos meus pais, irmãs, cunhados, sobrinhos e à minha namorada por nunca deixarem de acreditar em mim e tornarem poss´ıvel o alcance de mais uma meta na minha realiza¸cão pessoal.

(12)

(13)

Resumo vii

Abstract ix

Agradecimentos xi

´Indice de tabelas xv

´Indice de figuras xvii

1 Introdu¸c˜ao 1

2 Unmanned Aerial Vehicles (UAV) 5

2.1 Unidade de Controlo de Voo . . . 6

2.2 Interface de Comunica¸c˜ao . . . 6

2.3 Unidade de Aquisi¸c˜ao de Imagens . . . 7

3 Processamento Digital de Imagem 9 3.1 Imagem Digital . . . 9

3.2 Rela¸c˜oes b´asicas entre pixels . . . 10

3.2.1 Vizinhan¸ca . . . 10

3.2.2 Adjacˆencia, Conectividade, Regi˜oes, Arestas . . . 11

3.2.3 Distˆancia Euclidiana . . . 12

3.3 Filtragem Espacial . . . 12

3.3.1 Suaviza¸c˜ao . . . 13 xiii

(14)

4.2 Metodologia do SURF . . . 24

4.2.1 Imagens Integrais . . . 25

4.2.2 Detector Fast-Hessian . . . 26

4.2.3 Descritor de Pontos de Interesse . . . 34

5 Trabalho Desenvolvido e Resultados 41 5.1 Introdu¸c˜ao . . . 41

5.2 Desenvolvimento . . . 43

5.2.1 Interface . . . 43

5.2.2 Compara¸c˜ao de Pontos de Interesse . . . 45

5.2.3 ROI (Region of Interest Points) . . . 48

5.2.4 Fun¸c˜ao sub e mult . . . 51

5.3 Resultados Obtidos . . . 53

5.3.1 Varia¸c˜ao de Tamanho de Imagem . . . 53

5.3.2 Rota¸c˜ao . . . 54

5.3.3 Varia¸c˜ao de Brilho . . . 57

5.3.4 Varia¸c˜ao de Escala . . . 58

6 Conclus˜oes e Trabalho Futuro 61 6.1 Conclus˜oes . . . 61

6.2 Trabalho Futuro . . . 62

Referˆencias bibliogr´aficas 65

A Anexos 69

(15)

4.1 Compara¸c˜ao SIFT, PCA-SIFT e SURF (Juan and Gwon, 2009). . . . 24

5.1 Compara¸c˜ao entre SURF e o ROI-SURF. . . 51

5.2 Compara¸c˜ao entre diferentes tamanhos de imagem. . . 53

5.3 Resultados da varia¸c˜ao da rota¸c˜ao com o SURF. . . 55

5.4 Resultados da varia¸cão da rota¸cão com o U-SURF, rota¸cões em

in-tervalos de 5o_{. . . 56}

5.5 Resultados da varia¸cão da rota¸cão com o U-SURF, rota¸cões em

in-tervalos de 2o_{. . . 56}

5.6 Resultados da varia¸c˜ao de brilho . . . 57 5.7 Resultados da varia¸c˜ao de escala . . . 58

(16)

(17)

2.1 COLIBRI I (em cima) e COLIBRI III (em baixo) (Iv´an Mondrag´on

and Mejias, 2010). . . 7

3.1 Funcionamento da filtragem espacial (Gonzalez and Woods, 2002). . . 13

3.2 Filtro Mediana (Filipe, 2009). . . 15

3.3 Filtro Gaussiano 2D. . . 16

3.4 Operadores de Roberts (Filipe, 2009). . . 18

3.5 Operadores de Sobel (Filipe, 2009) . . . 18

3.6 Operadores de Prewit (Filipe, 2009) . . . 18

3.7 M´ascara de Laplace (Filipe, 2009). . . 20

4.1 C´alculo de Subimagem com Imagens Integrais (Evans, 2009). . . 26

4.2 Filtros Laplacianos (em cima) e Box Filter (em baixo), da esquerda para a direita os filtros Dxx, Dyy e Dxy (Evans, 2009). . . 29

4.3 Constru¸cão tradicional (à esquerda) e constru¸cão utilizada no SURF (à direita) (Evans, 2009). . . 31

4.4 Aumento de tamanho das m´ascaras (Evans, 2009). . . 32

4.5 Supressão não-máxima (Evans, 2009). . . 33

4.6 Haar Wavelet (Evans, 2009). . . 35 xvii

(18)

5.1 Interface. . . 44 5.2 MessageBox. . . 45

(19)

1

Introdu¸c˜ao

O processamento visual de um ser humano permite-lhe desempenhar simultanea-mente diferentes tarefas, de modo simplificado, e muitas vezes inconscientesimultanea-mente. O ser humano utiliza a sua capacidade de ver e de processar o que visualiza, durante toda a sua existência, de modo a prevenir danos, tirar ila¸cões, deslocar-se, reconhe-cer objectos e pessoas. Todo o ser humano com capacidade motora e visual utiliza a sua visão para deslocar-se sem colidir com os diferentes obstáculos que se atraves-sam, efectuar a simples leitura de um texto, interpretar imagens ou até mesmo para interpretar o movimento de algum objecto e conseguir prever qual a posi¸cão que este ocupará nos instantes seguintes. Todas estas tarefas, são efectuadas consciente e inconscientemente, com base nas imagens captadas pelos olhos do ser humano, e interpretadas pelo cérebro, de modo a serem retiradas milhares de informa¸cões num espa¸co de tempo muito reduzido.

Com o avan¸co da tecnologia, tanto ao n´ıvel de dispositivos de capta¸cão de imagem, bem como ao n´ıvel de processamento, tem-se vindo a trabalhar para que seja poss´ıvel efectuar uma visão computacional semelhante à do ser humano. Para tal é necessário saber o modo como o ser humano processa as imagens e como pode traduzir-se esse processamento para um modo computacional.

(20)

Com base no conhecimento do modo como o ser humano processa imagens e apli-cando esses métodos computacionalmente, será poss´ıvel a realiza¸cão de tarefas com-putacionais autónomas com base na visão por computador, como por exemplo, efectuar video vigilância com reconhecimento automático de riscos, contagem de objectos, identifica¸cão automática de produtos, navega¸cão autónoma, entre outros, tarefas que desempenhadas por um ser humano são extremamente simples.

Na visão por computador, são utilizados diferentes métodos para a aquisi¸cão e pro-cessamento de imagens. Sendo variável o objectivo da aplica¸cão da visão por com-putador, serão também variáveis os métodos utilizados. Assim, quando se pretende contar automaticamente objectos de uma imagem, deve utilizar-se um método de contagem de objectos. Caso se pretenda seguir ou contar objectos, numa sequência de imagens, é necessário identificá-los, para que estes sejam identificados, posterior-mente, e reconhecida a sua desloca¸cão, evitando, deste modo, que o mesmo objecto seja contado várias vezes. De forma a complementar este processo, pode aplicar-se um método que preveja a próxima posi¸cão do objecto, com base no deslocamento anterior. Para além da informa¸cão que se pretende extrair de uma imagem, é im-portante o tempo despendido na extraçcão da informa¸cão. Computacionalmente a quantidade de informa¸cão está directamente relacionada com o tempo, implicando aten¸cão à aplicabilidade da visão por computador, pois para reaçcões em tempo real, o processamento tem de ser efectuado com uma rapidez superior face à exigida numa interpreta¸cão de uma simples imagem.

Quando se menciona reaçcões em tempo real, estão em causa sequências de imagens, através das quais é poss´ıvel efectuar a navega¸cão e a previsão do deslocamento de determinado objecto. Uma área onde se utiliza visão por computador e utilizada a sequência de imagem para navega¸cão, é nos UAV (Unmanned Aerial Vehicles). Os UAV são aeronaves não tripuladas que, a partir das imagens captadas, por dispo-sitivos de capta¸cão de imagem instalados nos mesmos, possibilitarão a navega¸cão autónoma com base em objectivos, como por exemplo, seguir um determinado ob-jecto e até mesmo, deslocar-se ente dois pontos, sem colidir com os obstáculos. De modo a possibilitar as tarefas a serem realizadas pelo UAV é de extrema importância

(21)

o reconhecimento de objectos. Para este reconhecimento ser efectuado nas imagens pressupõe-se a existência de um método que indique os pontos de interesse de uma imagem, os quais são áreas de grande varia¸cão de cor ou arestas e áreas de grande concentra¸cão da mesma cor. Os métodos que identificam os pontos de interesse de uma imagem são conhecidos por detectores. Quando se considera um ponto de interesse, este não é obtido por nada mais do que uma coordenada X e Y que cor-responde á posi¸cão do ponto na imagem. É então pertinente nesta fase saber o que rodeia o ponto, de modo a que este possa ser identificado numa imagem a seguir, permitido o reconhecimento de um objecto. Deste modo é necessário interpretar a vizinhan¸ca do ponto de interesse, a qual irá descrever o ponto de interesse, facto que permitirá que este possa ser encontrado numa outra imagem. Os métodos que identificam os pontos de interesse são conhecidos como descritores. Como detectores é poss´ıvel reconhecer o Fast Hessian, o Diferen¸ca Gaussiana, o Harris-Laplace e o Hessian-Laplace; no que toca a descritores existem o SIFT, o PCA-SIFT e GLOH;

por ´ultimo uma men¸c˜ao ao SURF, que se apresenta como um detector e descritor.

Juan and Gwon (2009) compararam vários algoritmos, testando algumas altera¸cões de imagem. Tomando em considera¸cão os resultados obtidos, aliados à necessidade de um algoritmo rápido e robusto, que possibilite a deteçcão e descri¸cão de pontos de interesse em tempo real, o algoritmo SURF surge como a escolha mais indicada. O trabalho descrito nesta disserta¸cão consiste no estudo do algoritmo SURF e a sua aplicabilidade nos UAV. Pretende estudar-se se este algoritmo é ao mesmo tempo robusto e rápido, de forma a ser poss´ıvel efectuar o seguimento de objectos com um UAV. Para o efeito serão realizados testes de robustez e rapidez, bem como o estudo e implementa¸cão de solu¸cões para melhorar o desempenho do mesmo.

De modo a reconhecer a aplicabilidade e qual o melhor método de processamento de imagem num UAV, é necessário conhecimento do funcionamento e da utiliza¸cão do mesmo, informa¸cão esta descrita no Cap´ıtulo 2.

Admite-se maior relevo, no âmbito desta disserta¸cão, para as técnicas de processa-mento digital de imagem. A aplica¸cão destas técnicas implica conhecer o contexto

(22)

em que estas s˜ao aplicadas, em que consiste uma imagem e o seu processamento, bem como conhecer os m´etodos e seu funcionamento, pontos estes abordados ao longo do Cap´ıtulo 3.

O algoritmo SURF, é descrito no Cap´ıtulo 4, com o intuito de se conhecer todos os processos para a deteçcão e descri¸cão de pontos de interesse.

Todo o trabalho desenvolvido bem como os resultados obtidos pelos diferentes teste efectuados, encontram-se descritos no Cap´ıtulo 5. O cap´ıtulo 6 trata das conclus˜oes retiradas com o desenvolvimento deste trabalho, referenciando ainda algumas su-gest˜oes para trabalho futuro.

O trabalho referido foi realizado na linguagem de programa¸cão Visual C� e na fra-mework .NET 3.5, compilados e executados num MacBook Pro, de processador 2.66 GHz Intel Core 2 Duo, memória 4GB 1067 MHz DDR3 e placa gráfica NVIDIA GeForce 9600M GT.

(23)

2

(UAV)

Designado por Unmanned Aerial Vehicle ou UAV, este compreende todas as aerona-ves que não necessitam de pilotos a bordo para serem manobradas. Estas aeronaaerona-ves são controladas à distância por meios electrónicos e computacionais, os quais podem ser controlados por um utilizador, ou com recurso a meios de Controladores Lógicos Programáveis.

Inicialmente os UAV eram destinados a fins militares, sendo ainda hoje este o seu maior contexto de utiliza¸cão. Neste âmbito são utilizados em missões que represen-tam risco elevado para os ser humano, em missões de apoio aéreo às tropas, controle de m´ısseis, reconhecimento, entre outras.

Ao longo dos anos foi estudado o recurso dos UAV para fins não militares, como por exemplo, a utiliza¸cão destes ve´ıculos para patrulha de vastas áreas, seguimento de objectos, sistemas de video vigilância, acesso a áreas de dif´ıcil acesso humano, entre outras. Estas aeronaves estão equipadas com computadores, de forma a ser efectuado o controlo de voo e o processamento de imagem.

Ao longo desta disserta¸cão ter-se-á em considera¸cão os UAV, com base na identi-fica¸cão e seguimento de objectos.

(24)

2.1 Unidade de Controlo de Voo

O controlo de voo de uma aeronave é dependente do estado do tempo, sendo o principal obstáculo para o controlo de voo o vento, uma vez que este pode apresentar -se instável, suscept´ıvel de provocar turbulência e desloca¸cões indesejadas ao UAV, as quais devem ser corrigidas pela unidade de controlo de voo.

A utiliza¸cão de sensores que permitam medir as for¸cas grav´ıticas, a velocidade e a altura do UAV, permitem o voo do mesmo, conseguindo a partir dos valores retornados pelos sensores, controlar o UAV de modo a que este se estabilize no ar. Para ser efectuada a navega¸cão do UAV são utilizados sensores GPS e câmaras, sendo que os sensores de GPS fornecem as coordenadas do UAV, não permitindo no entanto a localiza¸cão de objectos móveis próximos do mesmo, de modo a ser poss´ıvel evitá-los ou segui-los. Assim, a partir dos sensores GPS é poss´ıvel localizar o UAV, bem como indicar uma posi¸cão de meta, mas não é poss´ıvel conduzir o UAV, devido à falta de informa¸cão dos objectos que o rodeiam. A condu¸cão do UAV é efectuada a partir da informa¸cão obtida pelas câmaras, a partir de software de visão por computador, podendo, deste modo, detectar objectos, a fim de os evitar ou seguir.

Os UAV também têm uma unidade de rádio controlo, a qual é manipulada por um utilizador que fica responsável pela manipula¸cão do UAV.

2.2 Interface de Comunica¸c˜

ao

Durante a utiliza¸cão do UAV, todas as informa¸cões do mesmo devem ser enviadas para a base, onde o utilizador deve conseguir manipular as a¸cões do mesmo, como identificar o objecto desejado a seguir, indicar o destino do UAV e mesmo retirar informa¸cões do que está a ser registado.

(25)

UAV, é necessário uma interface de comunica¸cão. Dependendo da utiliza¸cão do UAV também deverá alterar a tecnologia utilizada na interface de comunica¸cão. Deste modo em áreas limitadas este deve incorporar um modem wireless que permitirá a comunica¸cão com a base como utilizado pelo UAV COLIBRI (Iván Mondragón and Mejias, 2010), que efectua a comunica¸cão pela troca de mensagens TCP/UDP, juntamente com uma arquitectura cliente/servidor. Para uma utiliza¸cão em áreas maiores, o UAV deverá conter um modem que permita uma maior cobertura de rede, como por exemplo um modem UMTS.

Figura 2.1 – COLIBRI I (em cima) e COLIBRI III (em baixo) (Iv´an Mondrag´on and Mejias, 2010).

2.3 Unidade de Aquisi¸c˜

ao de Imagens

O modo mais eficaz para navegar numa determinada área consiste na observa¸cão do que rodeia o UAV. Para tal são utilizadas câmaras no UAV, de modo a que seja poss´ıvel captar imagens do ambiente circundante, imagens estas que contêm informa¸cões essenciais, que permitem a navega¸cão autónoma do UAV.

As câmaras utilizadas nos UAV podem ser monoscópicas, estereoscópicas ou uma combina¸cão entre ambos os tipos de câmaras. As câmaras estereoscópicas têm como

(26)

vantagem a melhor deteçcão de obstáculos, devido a uma melhor percep¸cão da distância dos objectos, no entanto, como estas utilizam duas câmeras em simultâneo, o processamento é mais lento, visto que se processam duas imagens em simultâneo. Como tal a utiliza¸cão de câmaras monoscópicas é mais frequente, pois para na-vega¸cão é necessário um processamento rápido para se poder controlar o UAV. O processamento de imagem, trata as imagens captadas pela câmara, de modo a extrair das imagens a informa¸cão necessária para controlar o UAV. A partir do pro-cessamento de imagem devem ser detectados os objectos e a proximidade destes, de forma a que quando reconhecidos os objectos, seja poss´ıvel seguir ou evitar os ob-jectos, consoante a utiliza¸cão pretendida, possibilitando a navega¸cão do UAV. Para efectuar a navega¸cão a partir das imagens captadas é necessário aplicar diferentes algoritmos à imagem, de forma a extrair informa¸cões.

(27)

3

Imagem

3.1 Imagem Digital

A cor de cada objecto é o resultado da reflexão da luz de determinada cor do espectro vis´ıvel, que está compreendido entre os 400 e os 700 nm. Esta luz reflectida é a captada pelos olhos, de forma a dar cor aos objectos, diferenciando-os. A obten¸cão de imagens digitais é feita normalmente através de câmaras de v´ıdeo que captam, por intermédio de sensores, amostras da intensidade da luz que é reflectida pelos objectos da cena, ou seja, uma imagem é uma fun¸cão bidimensional da intensidade luminosa [Niblack, 1986]. Quando obtemos uma imagem digital, estamos a tratar uma fun¸cão F (x, y) onde F é o valor de intensidade da imagem nas coordenadas (x, y). Estando a tratar de uma fun¸cão bidimensional, então o resultado obtido é uma matriz de valores que representam a intensidade luminosa, sendo que estes valores correspondem aos pixels da imagem digital. Uma imagem digital pode ser definida como imagem em escala de cinzentos, ou seja, cada pixel está definido com valores de 0 a 255, onde 0 corresponde à ausência de luz, logo à cor preta, e 255 corresponde à satura¸cão de luz, ou seja à cor branca, entre estes valores obtém-se diferentes tons de cinzentos. A imagem digital pode também obtém-ser policromática. Estas representam as imagens a cores, nas quais a cada pixel vão corresponder 3

(28)

valores de intensidade de luz, implicando que se considerem 3 matrizes, onde cada uma corresponde a diferentes intensidades de luz reflectida de uma cor no esquema de cor RGB (Red, Green, Blue). Então cada matriz contém o valor da intensidade de luz vermelha, verde, e azul, para cada pixel da imagem. Os valores correspondentes às matrizes são os mesmos dos da imagem em escala de cinzentos, mas neste caso 0 corresponde à ausência de luz vermelha, verde ou azul, e 1 corresponde à satura¸cão de luz vermelha, verde ou azul. Relativamente à resolu¸cão da imagem, ou seja, ao

n´umero de pixels de uma imagem, esta encontra-se dependente do dispositivo de

capta¸cão que se utiliza, e deste modo, quanto maior for a resolu¸cão, mais detalhe de uma imagem se obterá, no entanto o seu processamento será mais lento, visto que o número de pixels a processar é maior. Como tal, quanto menor for a resolu¸cão, mais rápido é o processamento, mas o n´ıvel de detalhe é inferior, o que pode causar perda de informa¸cão útil. Encontrar um equil´ıbrio entre a resolu¸cão e a velocidade de processamento é essencial e variável consoante a aplicabilidade desejada. Conhecida a constitui¸cão de uma imagem digital, estão reunidas as condi¸cões de forma a avan¸car para o processamento da imagem digital verificando algumas transforma¸cões que podem aplica-se às imagens, de modo a ser poss´ıvel a leitura computacional.

3.2 Rela¸c˜

oes b´

asicas entre pixels

A imagem digital, tal como mencionado no ponto anterior, é definida por uma fun¸cão bidimencional F (x, y), ou seja, uma matriz onde a cada valor corresponde a cor de cada pixel, e cada um destes é rodeado por outros pixels, e é analisando estes que se pode retirar informa¸cões de uma imagem, podendo a partir desta análise, detectar arestas, cantos e áreas de pixels semelhantes.

3.2.1 Vizinhan¸ca

Designam-se por vizinhan¸ca os pixels que rodeiam um determinado pixel. Tendo em considera¸c˜ao um pixel, definido no ponto p nas coordenadas (x, y) de uma imagem

(29)

digital, a este correspondem quatro vizinhos horizontais e verticais, cujas coordena-das s˜ao dacoordena-das por (Gonzalez and Woods, 2002):

(x_{− 1, y), (x + 1, y), (x, y − 1), (x, y + 1)}

este conjunto de pixels é designado como quatro vizinhos de p, sendo que cada pixel vizinho está a uma unidade de distância de (x, y). Caso o ponto p se encontre nas margens da imagem, então haverão vizinhos não definidos, por pertencerem a posi¸cões fora da matriz.

Além dos 4 pixels horizontais e verticais, ao ponto p correspondem também 4 pixels vizinhos na diagonal, cujas coordenadas são dadas por (Gonzalez and Woods, 2002):

(x_{− 1, y − 1), (x − 1, y + 1), (x − 1, y − 1), (x − 1, y + 1)}

este conjunto de pixels é designado como vizinhos diagonais de p, e em conjunto com os 4 vizinhos horizontais e verticais, obtêm-se os 8 vizinhos de p. Tal como foi referido anteriormente, caso o ponto p se encontre nas margens da imagem, haverão vizinhos não definidos, por pertencerem a posi¸cões fora da matriz.

3.2.2 Adjacˆ

encia, Conectividade, Regi˜

oes, Arestas

A conexão entre dois pixels é uma informa¸cão fundamental para o processamento digital de imagem. Dois pixels podem ser vizinhos, mas podem não ser conexos. Para estes serem conexos têm de possuir a mesma intensidade, ou a intensidade entre eles não poderá distanciar-se mais do que uma margem previamente definida, a qual pode corresponder a um conjunto de valores que lhes confere conectividade. Definidos os valores de adjacência, é poss´ıvel distinguir três tipos de adjacência: uma adjacência definida pelos 4 vizinhos verticais e horizontais, uma adjacência definida pelos 8 pixels vizinhos, e uma adjacência combinada entre os 4 vizinhos verticais e horizontais e os 4 vizinhos diagonais.

Designam-se dois pixels de conexos caso entre estes exista uma liga¸c˜ao, na qual os valores dos pixels pertencem aos valores definidos pela adjacˆencia. Caso exista uma

(30)

área de pixels onde estes estejam todos conexos, designa-se, o conjunto de pixels, por região. Caso exista uma área de pixels onde exista um conjunto de pixels conexos, ou seja uma região, e nesta área existam pixels que não pertencem à região e sejam vizinhos da região, então estes são designados por contorno ou aresta.

3.2.3 Distˆ

ancia Euclidiana

O conhecimento da distância entre dois pontos pode ser utilizado para se calcular áreas de regiões, sendo poss´ıvel identificar a mesma posteriormente, ou efectuando mesmo o reconhecimento de um determinado objecto. Para se conhecer a distância D entre os pontos p de coordenadas (x1, y1) e q de coordenadas (x2, y2), numa matriz, calcula-se a distância euclidiana, que se baseia no teorema de pitágoras, e é definida pela seguinte expressão (Gonzalez and Woods, 2002):

D(p, q) =�(x1_{− x2)}2 _{+ (y1}_{− y2)}2

A distˆancia euclidiana retorna valor no espa¸co, onde a unidade corresponde ao p´ıxel.

3.3 Filtragem Espacial

Algumas opera¸cões utilizam os pixels da vizinhan¸ca para diferentes objectivos, esta vizinhan¸ca pode ser designada de mascara ou kernel. A filtragem de uma imagem consiste em percorrer a máscara pelos pixels da imagem, redefinindo o valor do pixel seleccionado, pela opera¸cão desejada, opera¸cão esta que consiste nos valores dos pixels vizinhos e no valor próprio do pixel, por exemplo, para uma máscara 3_×3, o ponto central será o pixel seleccionado, o qual será redefinido consoante os seus 8 vizinhos. A filtragem é realizada percorrendo a máscara em todos os pixels, como pode ser demonstrado pela figura 3.1

(31)

Figura 3.1 – Funcionamento da filtragem espacial (Gonzalez and Woods, 2002).

O tamanho da m´ascara pode ser definido de M × N, sendo M e N dois valores

inteiros, no entanto a utiliza¸cão de uma máscara de N × N é mais comum. Como

a máscara define opera¸cões que envolvem os pixels vizinhos, então não fará sentido

a utiliza¸cão de uma máscara 1_{× 1, uma vez que esta só selecciona um pixel. A}

utiliza¸cão de máscaras de tamanho elevado também não é apropriado, pois estas devem percorrer a imagem, e caso a máscara possua grande dimensão, os pixels a percorrer serão inferiores, pois esta terá de ser aplicada dentro da imagem. O ponto

central da m´ascara tem de encontrar-se a (n_{− 1)/2 pixels da margem da imagem,}

caso se pretenda efectuar a filtragem utilizando os valores mais próximos da margem, é necessário utilizar uma máscara parcial, para que esta utilize os valores da margem.

(32)

3.3.1 Suaviza¸c˜

ao

A suaviza¸cão da imagem é utilizada para remover o ru´ıdo e esbater uma imagem. O ru´ıdo de uma imagem corresponde aos pixels, ou a pequenos agrupamentos de pixels, isolados com grande varia¸cão de intensidade, relativamente aos seus vizinhos. Com a suaviza¸cão o ru´ıdo tende a desaparecer consoante a máscara e o filtro utilizados. A suaviza¸cão esbate a imagem, o que resulta na perda de pequenos detalhes da imagem, e pode facilitar o reconhecimento de objectos.

Filtro de M´edia

O filtro de média efectua a suaviza¸cão atribuindo a cada pixel, a média dos valores dos seus vizinhos e do seu próprio valor. O cálculo da média é dado por (Filipe, 2009): Iout(i, j) = 1 Nv � m,n∈V Iin(m, n)

sendo Iout a imagem filtrada, Iin a imagem original, N v o n´umero de vizinhos, i e j

as coordenadas do pixel e m e n o tamanho da m´ascara.

Dependendo do tamanho da máscara, o n´ıvel de esbatimento será diferente, assim quanto maior a máscara, mais esbatida a imagem irá ficar, sendo atenuada a varia¸cão de intensidade do pixel central para os seus vizinhos.

Filtro Mediana

O filtro mediana não retorna um valor que seja uma combina¸cão linear entre os valores da vizinhan¸ca, mas sim, o valor central do vector de valores ordenados da máscara, como é demonstrado na figura 3.2. Este filtro é especialmente eficaz na remo¸cão dos pixels isolados, os quais constituem o ru´ıdo de uma imagem. Deste modo, não se obtém um esbatimento tão acentuado como no caso da média, preser-vando desta forma as arestas e os contornos da imagem.

(33)

Figura 3.2 – Filtro Mediana (Filipe, 2009).

Filtro Gaussiano

O filtro Gaussiano é um filtro linear, onde os seus coeficientes são determinados pela fun¸cão gaussiana com um desvio padrão σ. O filtro gaussiano aplicado a uma imagem, ou seja numa matriz 2D possui a seguinte representa¸cão (Filipe, 2009):

g(x, y) = 1

2πσ2e −x2+y2_2σ2

Figura 3.3 – Filtro Gaussiano 2D.

Este filtro atribui um maior peso aos pixels mais próximos do pixel central, preser-vando as arestas da imagem. Dependendo do desvio padrão atribu´ıdo, irá variar o

(34)

n´ıvel de suaviza¸cão, sendo que quanto maior o desvio padrão maior a suaviza¸cão.

3.3.2 Detec¸c˜

ao de Arestas

Define-se por aresta, uma área da imagem onde ocorrem grandes varia¸cões de in-tensidades dos pixels, como por exemplo, numa imagem com objectos sobrepostos quando se vê um objecto e no decorrer da imagem se come¸ca a visualizar outro objecto, verificando-se uma maior altera¸cão das intensidades dos pixels.

A deteçcão de arestas permite localizar as margens de um objecto na imagem, podendo facilitar a identifica¸cão do mesmo. Com o conhecimento das arestas há também a possibilidade de, medindo as mesmas, obter informa¸cões relativamente ao tamanho dos objectos de uma imagem.

Existem diferentes opera¸cões que possibilitam a deteçcão de arestas, algumas destas encontram-se explicadas nos pontos seguintes desta disserta¸cão.

Gradiente

No caso de vectores, quando se verifica uma mudan¸ca acentuada de valores, esta altera¸cão pode ser localizada, calculando os máximos locais da primeira derivada. Como trabalhando com imagens, se tem em considera¸cão matrizes bidimensionais, é então necessário calcular a primeira derivada da matriz, isto é, onde se encontram as arestas.

O gradiente corresponde à primeira derivada de uma matriz. Os máximos deste gradiente vão definir as arestas, e para ser poss´ıvel obter uma aresta e não um ponto isolado, ao invés de se definir por aresta, só ao valor máximo, é necessário definir uma margem de valores, os quais representarão a aresta.

(35)

Operador de Roberts, Sobel e Prewitt

Os operadores de Roberts, Sobel e Prewit não são orientados nos eixos dos x e y, uma vez que estes operadores utilizam máscaras que retornam os valores em pontos interpolados. No caso dos operadores de Roberts, demonstrados na figura 3.4, o ponto central da máscara encontra se em [x + 1/2, y + 1/2], onde x e y são as coordenadas de um pixel, devido ao facto de se tratar de uma máscara com um número de elementos par.

Figura 3.4 – Operadores de Roberts (Filipe, 2009).

De modo a obter-se uma máscara centrada num pixel, é necessário que este apresente um número de elementos impar. É usual utilizar duas máscaras, uma para detectar as arestas horizontais e outra para detectar as arestas verticais, sendo que estas máscaras devem ser simétricas em rela¸cão ao ponto (x, y). As máscaras utilizadas por Sobel e Prewitt são ilustradas na figura 3.5 e na figura 3.6.

Figura 3.5 – Operadores de Sobel (Filipe, 2009)

Figura 3.6 – Operadores de Prewit (Filipe, 2009)

(36)

Operador Laplaciano

Quando se trabalha com a primeira derivada, é preciso definir um conjunto de pi-xels, aproximados do valor máximo de modo a que seja poss´ıvel identificar uma aresta. Desta forma, obtém-se um número elevado de pixels definidos como aresta. Para contrariar este efeito, recorre-se à segunda derivada. Uma vez encontrados os máximos locais do gradiente, provenientes da primeira derivada, são procurados quais destes pontos correspondem ao cruzamento com zero, na segunda derivada. Quando os pontos da segunda derivada cruzarem zero, estes são definidos como uma aresta.

O Laplaciano corresponde à segunda derivada de uma matriz bidimensional, e é definido pela expressão (Filipe, 2009):

∇2I = δ

2_I

δx2 +

δ2_I

δy2

Com o objectivo de calcular as derivadas segundo x e y, é preciso aproximá-las, usando as equa¸cões das diferen¸cas demonstrada na equa¸cão (Filipe, 2009):

δ2_I δx2 = δ∇x δx = δ(I[i + 1, j]− I[i, j]) δx = δI[i + 1, j] δx − δI[i, j] δx ≈ (I[i + 2, j] − I[i + 1, j]) − (I[i, j + 1] − I[i, j])

= I[i + 2, j]_{− 2I[i + 1, j] + I[i, j]}

A equa¸cão anterior está centrada no pixel [i + 1, j], para se obter a máscara centrada no ponto [i, j], terá de substituir-se i por i_{−1. Com a combina¸cão das duas equa¸cões,} a equa¸cão do eixo dos x e a equa¸cão do eixo dos y, obtém-se a máscara ilustrada na figura 3.7.

(37)

Figura 3.7 – M´ascara de Laplace (Filipe, 2009).

Operador LoG

A segunda derivada de uma matriz de intensidades é muito sens´ıvel ao ru´ıdo. De forma a colmatar este problema é necessário efectuar-se a suaviza¸cão da imagem e seguidamente, efectuar-se a deteçcão de arestas.

O operador LoG aplica o gaussiano antes de efectuar a deteçcão de arestas a partir do operador laplaciano, deste modo num primeiro passo é retirado o ru´ıdo à imagem, resolvendo os problemas com o ru´ıdo da segunda derivada. Quando retirado o ru´ıdo é aplicado o operador laplaciano e detectadas as arestas. A equa¸cão que define o operador LoG é descrita por (Filipe, 2009):

Iout(x, y) =∇2[Gσ(x, y)× Iin(x, y)] = [∇2_G σ(x, y)]× Iin(x, y) = � 1 √ 2πσ2 x2_{+ y}2_{− 2σ}2 σ4 e −x2+y2_2σ2 � × Iin(x, y) Operador Hessiano

O operador Hessiano é um operador utilizado para a deteçcão dos máximos e m´ınimos locais, recorrendo à matriz Hessiana. Tendo em conta a matriz de in-tensidades definida através de uma fun¸cão f (x, y), a matriz Hessiana, H, é a matriz das derivadas parciais da fun¸cão f , como demonstrado por (Evans, 2009):

(38)

H(f (x, y)) =   δ2_f δx2 δ2_f δxδy δ2_f δxδy δ2_f δy2  

O determinante desta matriz, definido como discriminante, ´e calculado por (Evans, 2009): det(H) = δ 2_f δx2 δ2_f δy2 − � δ2_f δxδy �2

O valor do discriminante é utilizado para classificar os máximos e m´ınimos da fun¸cão, através da segunda derivada. Tendo em conta que o determinante corresponde ao produto dos valores próprios de Hessian, podem então classificar-se os pontos com base no sinal. Deste modo, se o determinante for negativo, os valores próprios têm sinais diferentes, então não é um extremo local, mas se o sinal for positivo, ambos os valores próprios são positivos ou negativos, sendo que, nestes dois casos, o ponto é um extremo local. Os extremos locais, definem as aresta da imagem.

(39)

4

(SURF)

4.1 Introdu¸c˜

ao

O objectivo principal consiste no estudo da aplicabilidade do SURF em UAV para se efectuar o reconhecimento de objectos. Existem, no entanto, outros algoritmos

com as mesmas funcionalidades do SURF, mas com diferentes caracter´ısticas. ´E o

caso do SIFT, proposto por Lowe Lowe (2004) e o PCA-SIFT, proposto por Yan Ke (2004). De entre estes trˆes algoritmos existem algumas diferen¸cas relativamente `a sua robustez e tempo de processamento.

Luo Juan comparou os três algoritmos, concluindo que, relativamente a altera¸cões de imagem, como por exemplo, ao n´ıvel da rota¸cão, da escala e das altera¸cões de ilumina¸cão, existem algumas varia¸cões de deteçcão entre os algoritmos, sendo que se demonstrou que o SIFT apresenta uma superior robustez na rota¸cão, enquanto que o SURF revela uma maior robustez nas mudan¸cas de ilumina¸cão, por fim o PCA-SIFT é um algoritmo cujos valores nunca superam o SIFT ou o SURF. Quando se fazem compara¸cões entre algoritmos, obtêm-se informa¸cões sobre os mes-mos, as quais constituem um aux´ılio, quando é necessário escolher o algoritmo a utilizar em determinada aplica¸cão. Para o caso concreto estudado no âmbito desta

(40)

disserta¸cão, a utiliza¸cão destes algoritmos em UAV, é necessário ter em conta o tempo de processamento. Nos UAV é necessário um processamento rápido, para possibilitar a deteçcão em tempo real. Luo Juan comparou também os algoritmos consoante o tempo, e concluindo que o algoritmo SURF é o mais rápido sem perder robustez na deteçcão de pontos de interesse, como ilustrado pela tabela 4.1.

Itens SIFT PCA-SIFT SURF

Correspondˆencias 271 18 186

Tempo Total (ms) 2.15378e+007 2.13969e+007 3362.86

Tabela 4.1 – Compara¸c˜ao SIFT, PCA-SIFT e SURF (Juan and Gwon, 2009).

O algoritmo SURF de Herbert Bay (2008), é reconhecido por ser robusto e rápido na deteçcão de pontos de interesse, em conformidade com os resultados obtidos por Juan and Gwon (2009), surge como a escolha indicada. Para além da implementa¸cão do SURF por Hebert Bay, existem implementa¸cões, como a implementa¸cão do Open-Surf, por Evans (2009), esta última permite acesso total à implementa¸cão, o estudo e altera¸cão de toda a implementa¸cão. Devido à implementa¸cão de Herbert Bay (2008) não ser de livre acesso e a implementa¸cão de Evans (2009) manter a mesma robustez e rapidez da original, como comprovado por David Gossow and Paulus (2010), a implementa¸cão OpenSurf será a implementa¸cão estudada ao longo desta disserta¸cão.

4.2 Metodologia do SURF

A metodologia utilizada pelo SURF subdivide-se, principalmente, em três pontos distintos: a cria¸cão da imagem integral, a deteçcão dos pontos de interesse na ima-gem integral, previamente criada, e a cria¸cão do descritor dos pontos de interesse. Nas seçcões que se seguem, abordar-se-ão estes três pontos, respectivamente.

(41)

4.2.1 Imagens Integrais

Parte do rápido processamento do SURF é atribu´ıdo à utiliza¸cão de uma repre-senta¸cão da imagem, conhecida por Imagem Integral. A imagem integral é criada a partir de uma imagem original e utilizada para acelerar o cálculo de qualquer área rectangular da imagem. A partir de uma imagem I e um ponto (x, y), a imagem integral (I�_{) é calculada pela soma dos valores entre o ponto e a origem, definida}

pela seguinte express˜ao (Evans, 2009):

I�_{(x, y) =} i≤x � i=0 j≤y � j=0 I(x, y)

Utilizando imagens integrais, o cálculo do somatório das intensidades dos pixels de uma região rectangular é reduzido a quatro opera¸cões. Se considerarmos um rectângulo definido pelos vértices A, B, C e D, como na figura 4.1, a soma da intensidade dos p´ıxeis é calculada por (Evans, 2009):

�

= A + D_{− (C + B)}

Figura 4.1 – C´alculo de Subimagem com Imagens Integrais (Evans, 2009).

Sendo o tempo de processamento invariante ao tamanho da imagem, este m´etodo ´e ´

(42)

esta propriedade para efectuar rápidas convolu¸cões de filtros de tamanho variável, num tempo quase constante.

4.2.2 Detector Fast-Hessian

Fast-Hessian

O detector SURF é baseado no determinante da matriz Hessiana. Para a utiliza¸cão de Hessian é considerada uma fun¸cão cont´ınua de duas variáveis, na qual o valor da fun¸cão em (x, y) é dada por f (x, y). A matriz Hessiana, H, é a matriz das derivadas parciais da fun¸cão mencionada no ponto 3.3.2 desta disserta¸cão.

Para a aplica¸cão da matriz Hessiana a imagens, em vez de a fun¸cões cont´ınuas, primeiramente substituem-se os valores da fun¸cão f (x, y) pela intensidade do p´ıxel I(x, y). De seguida, é necessário um método para calcular as segundas derivadas da imagem. O cálculo das derivadas pode efectuar-se com base na convolu¸cão com uma máscara apropriada. No caso do SURF, a escala de segunda ordem normali-zada de Gaussian é o filtro escolhido que permite a análise em diferentes escalas e espa¸co. É poss´ıvel construir máscaras para as derivadas Gaussianas, em x e y, e combinar a direçcão xy de forma a se calcular as quatro entradas da matriz Hessi-ana. A utiliza¸cão de Gaussian permite variar a quantidade de suaviza¸cão durante a convolu¸cão, de modo a que o determinante seja calculado em escalas diferentes. Uma vez que o Gaussian é uma fun¸cão isotrópica (isto é, circularmente simétrico) a convolu¸cão com a máscara permite invariância à rota¸cão. Pode calcular-se a matriz Hessiana, H, como fun¸cão de ambos os espa¸cos x = (x, y) e escala σ (Evans, 2009):

H(f (x, y)) =   Lxx(x, σ) Lxy(x, σ) Lxy(x, σ) Lyy(x, σ)  

onde Lxx(x, σ) se refere `a convolu¸c˜ao da derivada Gaussiana de segunda ordem δ2_δxg(σ)2

(43)

s˜ao conhecidas como Laplaciano da Gaussiana.

De seguida, procede-se ao cálculo do determinante de Hessian para cada pixel da imagem, usando o valor deste para encontrar pontos de interesse. Esta varia¸cão do detector Hessiano é semelhante ao proposto por Beaudet (1978).

Lowe (2004) propôs uma melhoria no desempenho quando se aproxima o Laplaci-ano de Gaussiana pela diferen¸ca Gaussiana, ver seçcão 3.3.2. De modo semelhante, Herbert Bay (2008) propôs uma aproxima¸cão para o Laplaciano de Gaussian, uti-lizando box filter representations, das respectivas máscaras. A figura 4.2 ilustra a semelhan¸ca entre os núcleos discretizados e cortados e os filtros equivalentes. Uti-lizando estes filtros em conjunto com a imagem integral, obtém-se um aumento de desempenho considerável. Para quantificar a diferen¸ca, considera-se o número de acessos à matriz e opera¸cões necessárias na convolu¸cão. Deste modo para um filtro de 9_{× 9 seriam necessários 81 acessos à matriz e opera¸cões para o valor real do filtro} original, e apenas 8 para a box filter representations. Assim à medida que se au-menta o tamanho do filtro, o custo computacional auau-menta significativamente para o Laplaciano original, enquanto que o mesmo custo para os box filters é invariante ao tamanho.

Na figura 4.2 o valor aplicado a cada uma das seçcões do filtro é mantido simples, sendo que para o filtro Dxy as regiões a negro têm o valor de 1, as regiões brancas o valor de -1 e as restantes regiões não possuem valor algum. Os filtros Dxx e Dyy são valorados de forma semelhante, mas com as regiões brancas a corresponder ao valor -1 e as negras ao valor 2. Uma valora¸cão simples permite o cálculo rápido das regiões, mas para a utiliza¸cão destes valores é necessário compensar os valores originados pela diferen¸ca entre o original e a aproima¸cão das máscaras. Herbert Bay (2008) propõe a seguinte expressão, como uma aproxima¸cão precisa para o determinante Hessiano, utilizando a aproxima¸cão Gaussiana (Evans, 2009):

(44)

Figura 4.2 – Filtros Laplacianos (em cima) e Box Filter (em baixo), da esquerda para a direita os filtros Dxx, Dyy e Dxy (Evans, 2009).

Em (Herbert Bay, 2008), os dois filtros são comparados em pormenor, e os resultados apontam para que a box filter representations apresente uma perda desprez´ıvel de precisão, a qual é largamente compensada pelo aumento considerável em eficiência e rapidez. O determinante aqui é referido como resposta ao agrupamento na loca-liza¸cão de x = (x, y, σ). A procura dos máximos locais desta fun¸cão sobre o espa¸co e a escala, produz os pontos de interesse da imagem. O método exacto para a extraçcão dos pontos de interesse é abordado na seçcão seguinte.

Constru¸c˜ao do Scale-Space

Para detectar pontos de interesse, utilizando o determinante Hessiano, é necessário introduzir a no¸cão de scale-space. Um scale-space é uma fun¸cão cont´ınua que pode ser utilizada para encontrar extremos em todas as escalas poss´ıveis Witkin (1983).

(45)

Na visão por computador, um scale-space é geralmente implementado como uma pirâmide de imagens, onde a imagem de entrada é várias vezes convolvida com a máscara Gaussiana, e repetitivamente subdividida, reduzindo o seu tamanho. Este método é utilizado no SIFT (Lowe, 2004), mas uma vez que cada camada depende da anterior, e as imagens precisam para ser redimensionadas, não é computacional-mente eficiente. Como o tempo de processamento das máscaras utilizadas no SURF, é invariante ao tamanho das mesmas, os scale-spaces podem ser criados aplicando

máscaras de maior tamanho à imagem original, permitindo que múltiplas camadas

do scale-space possam ser processadas simultaneamente, eliminando assim a neces-sidade da imagem da camada anterior, proporcionando, deste modo, um aumento do desempenho.

A figura 4.3 ilustra a diferen¸ca entre a estrutura tradicional de scale-space e a utili-zada no SURF.

Figura 4.3 – Constru¸cão tradicional (à esquerda) e constru¸cão utilizada no SURF (à direita) (Evans, 2009).

O scale-space ´e dividido num n´umero de octavos, onde um octavo se refere a uma

série de mapas de resposta que envolve uma duplica¸cão de escala. No SURF o n´ıvel mais baixo do scale-space é obtido a partir do resultado das máscaras 9×9, ilustradas na figura 4.2. Estas máscaras correspondem a valores reais Gaussianos com σ = 1, 2. As camadas seguintes são obtidas pelo aumento em escala das máscaras, mantendo

as propor¸cões e disposi¸cões das mesmas. À medida que o tamanho da máscara

(46)

as propor¸c˜oes permanecem constantes, pode calcular-se esta escala pela seguinte express˜ao (Evans, 2009):

σapprox = CurrentF ilterSize·

BaseF ilterScale BaseF ilterSize = CurrentF ilterSize_· 1.2

9

Ao construir m´ascaras maiores, existe um n´umero de factores que se deve ter em

considera¸cão. O aumento do tamanho é limitado pela dimensão das seçcões positiva e negativa, subjacentes à derivada Gaussiana, de segunda ordem. Nas máscaras, o tamanho das regiões é definida como um ter¸co do tamanho do lado da máscara, o qual se refere ao lado mais curto das regiões ponderadas, a preto e branco. Uma vez que é necessária a presen¸ca de um pixel central, as dimensões devem ser aumen-tadas igualmente em torno desta localiza¸cão, portanto o tamanho das seçcões pode aumentar num m´ınimo de 2 unidades. Uma vez que existem três regiões em cada máscara, as quais devem ter o mesmo tamanho, a propor¸cão de altera¸cão entre dois filtros consecutivos é de 6 unidades. Para os filtros Dxx e Dyy o comprimento do lado mais longo das regiões ponderadas, aumenta por 2 unidades, em cada lado, de forma a preservar a estrutura. A figura 4.4 ilustra a estrutura das máscaras, uma vez que aumentam de tamanho.

(47)

Localizar Pontos de Interesse

O processo de localiza¸cão de pontos de interesse invariantes à escala e à rota¸cão numa imagem, pode ser dividida em três etapas. Na primeira, as respostas são limitadas, de modo a que todos os valores abaixo do limite predeterminado sejam removidos. O aumento do limite diminui o número de pontos de interesse detectados, deixando apenas os mais fortes, enquanto a diminui¸cão do limite permite que sejam detectados muitos mais pontos de interesse. Consequentemente, o limite pode ser adaptado consoante a aplica¸cão e o n´ıvel de deteçcão necessário.

Depois de limitar o número de pontos de interesse, uma supressão não-máxima

é realizada para encontrar um conjunto de pontos candidatos. Para o efeito, cada pixel no scale-space é comparado com os seus 26 vizinhos, compostos por 8 pontos na escala nativa e 9 pontos em cada uma das escalas acima e abaixo, respectivamente. A figura 4.5 ilustra o passo da supressão não-máxima. Nesta fase, tem-se um conjunto de pontos de interesse com resistência m´ınima, determinada pelo valor de limite, os quais correspondem também a máximos ou m´ınimos locais no scale-space.

Figura 4.5 – Supressão não-máxima (Evans, 2009).

O passo final na localiza¸cão dos pontos de interesse, envolve a interpola¸cão dos dados mais próximos do ponto de interesse, de forma encontrar a localiza¸cão precisa na

(48)

escala e espa¸co do sub-pixel. Este procedimento efectua-se encaixando um quadrado 3D (CUBO), como proposto por Matthew Brown (2002). Para tal, recorre-se ao de-terminante da fun¸cão Hessiana, H(x, y, σ), como uma expansão de Taylor, capaz de criar termos quadráticos centrados na localiza¸cão detectada, expresso como (Evans, 2009): H(x) = H + δH T δx x + 1 2x Tδ2H δx2 x

A localiza¸cão interpolada do extremo, ˆx = (x, y, σ), é encontrada tomando a deri-vada desta fun¸cão e definindo-a em zero, tal que (Evans, 2009):

ˆ x =−δ 2_H−1 δx2 δH δx

As derivadas aqui são aproximadas por diferen¸cas finitas de pixels vizinhos. Se ˆx é maior do que 0,5 nas direçcões X ou Y , ajusta-se a localiza¸cão e realiza-se a interpola¸cão novamente. Este procedimento é repetido até ˆx ser inferior a 0,5 em todas as direçcões ou até que o número predeterminado de interpola¸cões tenha sido excedido. Esses pontos não convergentes são exclu´ıdos do conjunto de pontos de interesse, deixando apenas os mais estáveis e repet´ıveis.

4.2.3 Descritor de Pontos de Interesse

O descritor SURF descreve como é que as intensidades do pixel estão distribu´ıdas dentro de uma escala, dependendo da vizinhan¸ca de cada ponto de interesse, detec-tado pelo Fast-Hessian. Esta aproxima¸cão é semelhante à do SIFT (Lowe, 2004), mas a utiliza¸cão de imagens integrais em conjunto com filtros, conhecidos como Haar Wavelets, são utilizados para aumentar a robustez e diminuir o tempo computacio-nal. Os Haar Wavelets são filtros simples que podem ser utilizados para encontrar gradientes nas direçcões X e Y , estes são ilustrados pela figura 4.6.

(49)

Figura 4.6 – Haar Wavelet (Evans, 2009).

A cria¸cão do descritor pode ser dividida em duas tarefas distintas. Na primeira, a cada ponto de interesse é atribu´ıda uma orienta¸cão repet´ıvel, antes de se construir uma janela dependente da escala, em que um vector de dimensão 64 é extra´ıdo.

´

E importante que todos os cálculos para o descritor sejam baseados em medi¸cões relativas à escala detectada, a fim de alcan¸car resultados invariantes à mesma.

Orienta¸c˜ao

Com o objectivo de alcan¸car invariância à rota¸cão da imagem de cada ponto de interesse detectado, é atribu´ıda uma orienta¸cão reprodut´ıvel. A extraçcão dos com-ponentes do descritor é executada em rela¸cão a esta mesma direçcão, por isso, é importante que esta seja repet´ıvel, sob diferentes condi¸cões. Para determinar a ori-enta¸cão, as respostas Haar Wavelet de tamanho 4σ são calculadas para os pixels estabelecidos dentro de um raio de 6σ, com centro no ponto de interesse detectado, onde σ se refere à escala em que o ponto foi detectado. O conjunto espec´ıfico de pi-xels é determinado pela amostragem dos pipi-xels que se encontram dentro do c´ırculo, utilizando um tamanho de σ.

As respostas são medidas a partir do Gaussiano centrado no ponto de interesse. De acordo com o exposto, o Gaussiano é dependente da escala do ponto, considerada de forma a obter um desvio padrão de 2.5σ. Uma vez medidas, as respostas são representadas como pontos num vector espacial, com as respostas X ao longo da abcissa e as respostas Y ao longo da ordenada. A orienta¸cão dominante é selecci-onada por rota¸cão de um segmento de c´ırculo que cobre um ângulo de π₃ em torno

(50)

da origem. Em cada posi¸cão, as respostas X e Y dentro do segmento são somadas e utilizadas para formar um novo vector, o maior vector define a orienta¸cão do ponto de interesse. Este processo é ilustrado na figura 4.7.

Figura 4.7 – Obter orienta¸c˜ao (Evans, 2009).

Para algumas aplica¸cões a invariância à rota¸cão não é necessária, podendo este passo ser omitido, proporcionando um aumento do desempenho. Nesta versão do descritor (Herbert Bay, 2008), a omissão deste passo, é designada por Upright SURF ou U-SURF, e tem demonstrado manter a robustez para rota¸cões de imagem de aproximadamente 15 graus.

Componentes

O primeiro passo na extraçcão do descritor SURF passa por construir uma janela quadrada em torno do ponto de interesse. Esta janela de dimensão 20σ (onde σ se refere à escala detectada), contém os pixels que formam as entradas no vector descritor e é orientada ao longo da direçcão encontrada na seçcão anterior. Todos os cálculos seguintes são relativos a esta direçcão.

(51)

Figura 4.8 – Janela quadrada do descritor (Evans, 2009).

A janela do descritor ´e dividida em sub-regi˜oes regulares 4_{× 4. Dentro de cada}

uma destas sub-regiões, os Haar Wavelets de tamanho 2σ são calculados para uma amostra de 25 pontos distribu´ıdos regularmente. Considerando as respostas wavelet, em x e y por dx e dy, então, para os 25 pontos da amostragem recolhe-se (Evans, 2009):

vsubregion =

��

dx,�dy,�|dx|,�|dy|�

Assim, cada sub-regi˜ao retorna quatro valores para o vector descritor, originando

um vector de dimens˜ao 4_{× 4 × 4 = 64. O resultado do descritor SURF ´e invariante}

(52)

(53)

5

Resultados

5.1 Introdu¸c˜

ao

Como mencionado anteriormente, esta disserta¸cão baseia-se no estudo do algoritmo SURF e a sua aplicabilidade em UAV, e para o efeito foi estudado o algoritmo de Herbert Bay (2008) e a sua implementa¸cão OpenSURF, por Evans (2009). Esta implementa¸cão utiliza a linguagem de programa¸cão Visual C� e retorna os pontos de interesse de uma imagem seleccionada pelo utilizador.

A implementa¸cão por Evans (2009), subdivide-se em três partes distintas: a cria¸cão da imagem integral, a pesquisa de pontos de interesse e a descri¸cão dos pontos de interesse. Na cria¸cão da imagem integral, inicializa-se um objecto da classe

IntegralImagepela fun¸c˜ao FromImage. Um objecto do tipo IntegralImage, cont´em

uma matriz do tipo float, correspondente à imagem integral, e duas variáveis do tipo int, correspondentes ao tamanho da matriz, neste caso Width e Height. Como parâmetros de entrada, a fun¸cão FromImage requer uma variável do tipo Bitmap, a qual corresponde à imagem que se pretende transformar em imagem integral. O segundo ponto desta implementa¸cão consiste na deteçcão dos pontos de interesse, a partir da imagem integral calculada previamente. De modo a realizar a deteçcão

(54)

de pontos de interesse, é necessário inicializar uma lista de IPoint, a qual irá conter todos os pontos de interesse, depois de detectados. Os pontos de interesse do tipo IPoint, contêm as variáveis x e y, referentes às coordenadas do ponto de interesse; scale, response, orientation e laplacian, referentes ao valor da escala, n´ıvel de res-posta, orienta¸cão e valor do laplaciano; e por fim a variável descriptorLenght, referente ao tamanho do descritor, e um vector descriptor, o qual será o descritor do ponto de interesse. Criada a lista de IPoint, utiliza-se a fun¸cão GetIpoints da classe FastHessian, a qual possui como parâmetros de entrada, o valor limite para se considerar ponto de interesse, o número de octavos, a escala inicial, e a imagem integral, gerada anteriormente. Esta fun¸cão irá preencher a lista de IPoints, mas não preenche o descritor dos pontos de interesse.

O passo final é obter o descritor dos pontos de interesse, para tal utiliza-se a fun¸cão DecribeInterestPoints da classe SurfDescriptor. Esta fun¸cão tem como parâmetros de entrada a lista de pontos de interesse, retornada pela fun¸cão GetIpoints, duas variáveis do tipo bool, uma para se definir a variância à orienta¸cão e outra para se utilizar um descritor de 128 posi¸cões, em vez do descritor de 64, e a imagem in-tegral. Esta fun¸cão vai preencher o descritor de cada ponto de interesse encontrado. Com este processo obtém-se os descritores dos pontos de interesse da imagem. A fim de identificar objectos, recorre-se aos pontos de interesse de uma imagem e procuram-se os mesmos numa outra imagem. Para se efectuar esta compara¸cão realiza-se a pesquisa de pontos de interesse em ambas as imagens, e depois verifica-se a correspondência entre os pontos. A fim de encontrar esta correspondência foi implementada a fun¸cão MatchSurf. Depois de efectuado todo o processo de pesquisa de pontos de interesse, e de seguida a pesquisa de correspondência entre eles, obtêm-se os pontos de interesobtêm-se comuns ente as duas imagens.

De forma a efectuar o reconhecimento de objectos não por toda a imagem, é definida uma região na imagem, onde devem ser pesquisados os pontos de interesse, deno-minada por ROI (Region of Interest Points). Estes pontos de interesse definem um objecto seleccionado pelo utilizador, os quais serão comparados com os da segunda imagem.

(55)

Com objectivo de estudar a aplicabilidade em UAV, é atribu´ıda uma maior re-lavência ao tempo de processamento e às imagens a utilizar. Neste caso as imagens correspondem aos frames captados pelas câmaras, onde a pesquisa é efectuada entre

frames consecutivos ou frames espa¸cados por um n´umero determinado de frames,

dependendo da taxa de amostragem, n´umero de frames por segundo, e do tempo de

processamento.

A fim de realizar os testes e analisar os resultados, foi criada uma interface que permite a visualiza¸cão das duas imagens a ser comparadas e que mostram os pontos de interesse detectados. Para a realiza¸cão dos testes, foram capturadas imagens, a partir de uma máquina digital, nas quais se procurou captar varia¸cões de ilumina¸cão, de escala, de rota¸cão e de tamanho da imagem.

5.2 Desenvolvimento

5.2.1 Interface

A interface criada para o teste do SURF, consiste numa janela com duas pictureboxs onde são apresentadas as imagens e onde se efectua a seleçcão do ROI. De seguida apresentam-se as seguintes op¸cões, para aplicar o SURF a uma imagem: aplicar o SURF ou o U-SURF, a uma imagem definida pelo utilizador, com objectivo de detectar os pontos de interesse; aplicar o SURF ou o U-SURF a duas imagens, de-finidas pelo utilizador, detectando os pontos de interesse comuns, entre as imagens; abertura de imagens definidas pelo utilizador, de modo a que seja poss´ıvel para o utilizador definir o ROI; e por último uma op¸cão de reset, que reinicializa todos os valores. A interface é ilustrada pela figura 5.1.

(56)

Figura 5.1 – Interface.

Quando seleccionada uma das op¸c˜oes que implique o SURF ou o U-SURF, s˜ao apre-sentados numa MessageBox, ilustrada pela figura 5.2, o tempo de processamento, o

n´umero de pontos de interesse, total no caso do Run e comuns no caso do

Run/-Match, e o tamanho das imagens utilizadas.

Figura 5.2 – MessageBox.

5.2.2 Compara¸c˜

ao de Pontos de Interesse

Com o propósito de encontrar identificar a existência de um objecto em duas ima-gens, é necessário, depois de efectuada a pesquisa de pontos de interesse a partir

(57)

da implementa¸cão OpenSURF, um método que compare pontos de interesse e que retorne os que existam nas duas imagens. Para tal, foi implementada a fun¸cão MatchSurf, a qual irá preencher duas listas de pontos de interesse, previamente inicializadas como MatchA e MatchB.

A fun¸c˜ao ´e do tipo

private void MatchSurf ( L i s t <I P o i n t > iptsA , L i s t < I P o i n t > iptsB , f l o a t t h r e s h )

onde iptsA, corresponde aos pontos de interesse da primeira imagem e iptsB, aos pontos de interesse da segunda imagem, o valor thresh ao limite para se considerar que dois pontos de interesse s˜ao comuns ou n˜ao.

Para se efectuar a compara¸cão de valores, é necessário um vector auxiliar, do tipo float, de forma a serem guardados os valores, depois dos cálculos efectuados, entre os vectores descritores. Como o descritor de um ponto de interesse contém 64 valores, este vector auxiliar definido por valArr, também possui 64 posi¸cões de memória, sendo necessária uma outra variável, esta também do tipo float, para guardar, no final, o somatório do vector originado.

Como demonstrado de seguida, depois de inicializadas as vari´aveis, ´e criado um ciclo foreach para percorrer a lista de pontos de interesse da primeira imagem, e

dentro deste foreach, outro foreach, este ´ultimo, para percorrer todos os pontos

de interesse da segunda imagem. Deste modo é efectuado o acesso a todos os pontos de interesse e calculada a correspondência entre eles. Dentro dos dois foreach é efectuada inicialmente uma decisão, que se baseia na verifica¸cão se o valor de laplaciano para os dois ponto é igual, e caso seja igual, existe a possibilidade de estes serem pontos comuns, caso contrário, esta possibilidade não se verifica. Uma outra fun¸cão foi criada a partir da varia¸cão desta decisão, onde é também verificada a aproxima¸cão entre os pontos a serem analisados. Nesta fun¸cão a linha do if é descrita de seguida, na qual a condi¸cão só se verifica se os pontos se encontrarem a menos de 100 pixels de distância.

(58)

i f ( iA . l a p l a c i a n == iB . l a p l a c i a n && Math . Abs ( iA . x _{− iB . x ) <} 100 && Math . Abs ( iA . y _{− iB . y ) < 100)}

Verificada a condi¸cão anterior, procede-se aos cálculos, para determinar se os pontos de interesse são comuns. Para o efeito, subtrai-se ponto a ponto os valores do vector descritor da primeira imagem pelo da segunda, ou seja, para cada valor do vector descritor da primeira imagem, numa determinada posi¸cão, vai subtrair-se o valor do vector descritor da segunda imagem na posi¸cão correspondente. De forma a efectuar esta subtraçcão, recorresse à fun¸cão sub, fun¸cão esta, explicada no ponto 5.2.4 desta disserta¸cão.

private void MatchSurf ( L i s t <I P o i n t > iptsA , L i s t <I P o i n t > iptsB , f l o a t t h r e s h ) { f l o a t v a l ; f l o a t [ ] v a l A r r = new f l o a t [ 6 4 ] ; foreach ( I P o i n t iA in i p t s A ) { foreach ( I P o i n t iB in i p t s B ) { i f ( iA . l a p l a c i a n == iB . l a p l a c i a n ) { v a l A r r = sub ( iA . d e s c r i p t o r , iB . d e s c r i p t o r ) ; v a l A r r = mult ( valArr , v a l A r r ) ; v a l = v a l A r r . Sum ( ) ; } i f ( v a l < t h r e s h ) { MatchA . Add( iA ) ; MatchB . Add( iB ) ; }

(59)

} } }

Depois de calculada a subtraçcão ponto a ponto, é necessário efectuar uma multi-plica¸cão ponto a ponto, eliminando assim valores negativos e distanciando os pon-tos. Assim, quanto mais aproximado de zero for o valor, mais aproximado vai este ficar com esta multiplica¸cão, e sendo o valor zero uma correspondência total, esta opera¸cão vai fazer com que sejam mais distanciados os pontos correspondentes dos não correspondentes, para que seja poss´ıvel uma melhor afina¸cão do valor limite para se definir como ponto de interesse. Após o cálculo da multiplica¸cão ponto a ponto, vão somar-se todos os valores do vector originado. É necessário somar estes valores, pois a cada posi¸cão do vector só corresponde uma opera¸cão efectuada numa pequena área do ponto de interesse. Logo, para termos correspondência considera-se todo o ponto de interesse e não uma parte do mesmo. Quando efectuado o somatório é comparado este valor com o valor de limite, o thresh. Caso este valor seja inferior ao thresh definido, os pontos de interesse comparados são correspondentes, e por conseguinte, vão ser adicionados à lista de pontos de interesse correspondentes. A lista de pontos correspondentes da primeira imagem vai ter os pontos de interesse da primeira imagem, que encontraram correspondência na segunda imagem, e a lista de pontos correspondentes da segunda imagem vai ter os pontos de interesse da segunda imagem, que encontraram correspondência na primeira imagem.

Por fim obtêm-se duas listas com pontos de interesse que tenham correspondência, o que permite localizar objectos da primeira imagem, na segunda imagem, e vice-versa. Esta fun¸cão vai analisar todos os pontos de interesse de ambas as imagens, verifi-cando os que apresentam correspondentes. Como se pretende identificar um objecto, é preciso efectuar a seleçcão do objecto na primeira imagem, para tal é utilizado o ROI, este que vai ser explicado e descrito no ponto seguinte.

(60)

5.2.3 ROI (Region of Interest Points)

Tendo em conta que para a utiliza¸cão do algoritmo SURF em UAV é exigido um rápido processamento, é necessário, numa imagem inicial, identificar o objecto que se procura reconhecer em imagens posteriores. O utilizador deverá definir o objecto na primeira imagem, enquadrando-o, dentro de um rectângulo, permitindo deste modo, melhorar a velocidade de processamento, uma vez que não vai ser efectuada a pesquisa de pontos de interesse em toda a imagem. Este rectângulo é denominado por ROI.

O ROI é definido clicando na picturebox, que contém a imagem, e para tal é implementado o evento Click da picturebox. A implementa¸cão deste evento está descrito no seguimento desta disserta¸cão, onde são utilizadas as variáveis ROI1 e ROI2: duas variáveis do tipo Rectangle previamente inicializadas.

private void p b M a i n P i c t u r e C l i c k ( object s e n d e r , EventArgs e ) {

i f ( ROI1 . L o c a t i o n . IsEmpty ) {

ROI1 .X = t h i s . P o i n t T o C l i e n t ( Cursor . P o s i t i o n ) .X + Math . Abs ( s p l i t C o n t a i n e r 1 . Panel1 .

A u t o S c r o l l P o s i t i o n .X) − 1 6 ;

ROI1 .Y = t h i s . P o i n t T o C l i e n t ( Cursor . P o s i t i o n ) .Y + Math . Abs ( s p l i t C o n t a i n e r 1 . Panel1 .

A u t o S c r o l l P o s i t i o n .Y) _{− 1 6 ;} }

e l s e {

i f ( ROI1 . Width == 0 && ROI1 . Height == 0 ) {

(61)

a .X += Math . Abs ( s p l i t C o n t a i n e r 1 . Panel1 . A u t o S c r o l l P o s i t i o n .X) _{− 1 6 ;}

a .Y += Math . Abs ( s p l i t C o n t a i n e r 1 . Panel1 . A u t o S c r o l l P o s i t i o n .Y) − 1 6 ;

i f ( a .X > ROI1 .X && a .Y > ROI1 .Y) {

ROI1 . Width = a .X − ROI1 .X;

ROI1 . Height = a .Y − ROI1 .Y;

}

i f ( a .X < ROI1 .X && a .Y > ROI1 .Y) {

ROI1 . Width = ROI1 .X − a .X;

ROI1 . Height = a .Y _{− ROI1 .Y;}

ROI1 .X = a .X; }

i f ( a .X < ROI1 .X && a .Y < ROI1 .Y) {

ROI1 . Width = ROI1 .X _{− a .X;}

ROI1 . Height = ROI1 .Y − a .Y;

ROI1 .X = a .X; ROI1 .Y = a .Y; }

i f ( a .X > ROI1 .X && a .Y < ROI1 .Y) {

ROI1 . Width = a .X _{− ROI1 .X;}

ROI1 . Height = ROI1 .Y _{− a .Y;}

ROI1 .Y = a .Y; }

ROI2 . Width = Convert . ToInt16 ( ROI1 . Width _{∗ 1 . 5F) ;}

ROI2 . Height = Convert . ToInt16 ( ROI1 . Height _{∗ 1 . 5F}

(62)

ROI2 .X = ROI1 .X _{− Convert . ToInt16 ( ( ROI2 . Width −} ROI1 . Width ) / 2 ) ;

ROI2 .Y = ROI1 .Y − Convert . ToInt16 ( ( ROI2 . Height −

ROI1 . Height ) / 2 ) ; i f ( ROI2 .X < 0 )

ROI2 .X = 0 ; i f ( ROI2 .Y < 0 ) ROI2 .Y = 0 ;

i f ( ROI2 . Right > img2 . Width )

ROI2 . Width = img2 . Width − ROI2 .X;

i f ( ROI2 . Bottom > img2 . Height )

ROI2 . Height = img2 . Height _{− ROI2 .Y;}

pbMainPicture . Image = img1 ; pbimg2 . Image = img2 ;

} } }

São utilizados dois ROIs com o objectivo do ROI1 ser o objecto identificado pelo utilizador e o ROI2 a região a ser analisada na segunda imagem, a qual contém como centro a posi¸cão central do ROI1, contendo ainda uma área mais abrangente, para que o objecto na segunda imagem não se encontre fora dos limites, evitando deste modo, que este não seja encontrado. Assim, o ROI2 é criado a partir do ROI1. Para se definir o ROI1, é necessário o click nas duas extremidades mais distantes do rectângulo a definir, ou seja, nas extremidades diagonais. Quando identificadas as extremidades, o ROI1 vai ser definido, sendo a posi¸cão do ROI1 X e Y , a posi¸cão da extremidade superior esquerda. Calculando a distância desta extremidade à extre-midade oposta diagonalmente, é definida a largura e altura do rectângulo, ficando assim o ROI1 definido.