Rastreamento de objetos de grandes proporções

(1)

Rastreamento de objetos

de grandes proporções

Givanio José de Melo

Dissertação de Mestrado

Universidade Federal de Pernambuco posgraduaçã[email protected] www.cin.ufpe.br/ posgraduação

Recife

2016

(2)

Rastreamento de objetos

de grandes proporções

Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informá-tica da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.

Orientadora: Profa. Dra. Judith Kelner

Recife

2016

(3)

Catalogação na fonte

Bibliotecária Joana D’Arc Leão Salvador CRB 4-572

M528r Melo, Gilvanio José de.

Rastreamento de objetos de grandes proporções / Gilvanio José de Melo. – 2016.

87 f.: fig., tab.

Orientadora: Judith Kelner.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIN. Ciência da Computação, Recife, 2016.

Inclui referências.

1. Inteligência artificial. 2. Processamento de imagens. 3. Visão por computador I. Kelner, Judith (Orientadora). II. Titulo.

(4)

Givanio José de Melo

Rastreamento de Objetos de Grandes Proporções

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre em Ciência da Computação

Aprovado em: 03/03/2016.

BANCA EXAMINADORA

__________________________________________ Prof. Dr. Silvio de Barros Melo

Centro de Informática / UFPE

__________________________________________ Prof. Dr. Carmelo Jose Albanez Bastos Filho

Escola Politécnica de Pernambuco / UPE

__________________________________________ Profa. Dra. Judith Kelner

Centro de Informática / UFPE

(5)

O planejamento, execução e finalmente a redação desta dissertação de mestrado consistiram de um esforço sobre-humano atenuado pela inestimável companhia e colabo-ração de diversas pessoas. Em primeiro lugar agradeço a Deus nosso senhor sem o qual nada existiria, nem o homem, nem a ciência, nem o mérito da conquista. É impossível não agradecer minha admirável mãe, minha querida avó e minha amada esposa, sem seu amor, compreensão, apoio e orações eu teria desistido muito antes de concluir esse trabalho. Dedico um agradecimento especial à minha orientadora, a professora Judith Kelner, de quem recebi as maiores oportunidades de crescimento profissional da minha vida, e cuja experiência me iluminou em incontáveis decisões. Devo agradecer a meu antigo professor e hoje amigo e colega Dr. Felipe Breyer que me incentivou a começar essa jornada, bem como a um certo estatístico cabeludo, professor Samuel Macedo cujas menções devidas às contribuições em meu desenvolvimento acadêmico renderiam uma redação tão grande quanto esta dissertação.

Agradeço também a todos os meus colegas do GRVM, que me trataram com imensa humildade e generosidade desde o momento que, ainda recém-graduado comecei o meu caminho até aqui, merecem uma menção especial aqui, mestre Bernardo Reis, que se ofereceu de bom grado para a ingrata tarefa de revisar meus textos, mestre Vinicius Cesar, cuja colaboração foi vital para a própria concepção deste documento, Adalberto Lopes e seu grande talento de modelagem 3D, Gabriel Bandeira que foi meu piloto de drone e ao qual peço desculpas por ainda não termos dado continuidade ao OVNI pastor de patos e minhas amigas designers que me impediram de incluir mais vergonhosas figuras feitas no "Paint". A cada uma das pessoas aqui citadas, e também àquelas que por ventura não foram citadas, eu devo agradecimentos que não consigo colocar em palavras, sem vocês esse trabalho não existiria.

(6)

when you’re living your dream (The LEGO Movie, 2014)

(7)

Muitas aplicações necessitam ou se beneficiam de rastreamento de objetos 3D complexos, dentre elas: interfaces de interação, controle robótico e realidade aumentada são exemplos de sistemas que dependem desse tipo de implementação. A construção de um grande estádio de futebol por exemplo, incorpora várias etapas de inspeção visual, medições e controle, que hoje são realizadas de forma artesanal. Processos de produção de maquinários de grande porte como aqueles aplicados à produção de energia eólica, também comuns em estaleiros e indústrias do setor automobilístico e aeroespacial, são exemplos de onde os meios de produção atuais podem se beneficiar significativamente desse tipo de tecnologia. A área de pesquisa em visão computacional visa desenvolver soluções para problemas inerentes a esses processos de forma prática e pouco invasiva, embora o desenvolvimento de técnicas e práticas robustas para estruturas de grandes proporções ainda figure como um ramo inexplorado dessa área de pesquisa. O objetivo dessa dissertação é descrever a pesquisa realizada acerca da área de visão computacional com foco em rastreamento de objetos 3D e propor uma abordagem específica para aplicação em grandes estruturas. A mesma foi, portanto, concebida pela investigação, experimentação e análise de aplicação das técnicas de rastreamento 3D baseado em modelos, com ênfase na comparação dessas técnicas de acordo com o cenário de aplicação, focando no desenvolvimento do rastreamento dedicado a grandes estruturas. Conceitos de visão computacional, processamento digital de imagem e especificamente técnicas de rastreamento baseadas em imagens digitais e modelos tridimensionais são contextualizados nessa dissertação, além de propor uma nova abordagem de rastreamento baseado em modelo utilizando descritores de caracteristicas visuais, e rastreamento baseado em detecção. Os experimentos realizados e relatados nessa dissertação incluem múltiplos níveis de escala e complexidade de objetos, com o objetivo de avaliar tanto a eficiência das técnicas pré-existentes na literatura, como das técnicas implementadas utilizando a abordagem proposta. Os resultados obtidos evidenciam as diferenças existentes entre as abordagens de rastreamento baseado em modelo, de acordo com o tipo, quantidade e qualidade da informação utilizada, como também da técnica de rastreamento selecionada, por fluxo óptico ou por detecção.

Palavras-chave:Rastreamento 3D. Grandes Estruturas. Grandes Objetos. Descritores. Modelo 3D.

(8)

Many applications can take benefit of 3D object tracking to be performed. Interaction interfaces, robotic control and augmented reality figure in this conjecture and depend on this kind of implementation. The building process of a big soccer stadium, for instance, includes various steps in visual inspection, measures and quality control, which one currently makes without assistance. Some means of production that can achieve gains using this technology are wind power generation, shipbuilding, car manufacturing, aircraft and aeroespacial building. Computer vision research aims to create new solutions for typical problems of these processes, in practical and non-invasive ways. Anyway, the tracking of big structures still figures as a non-explored branch of computer vision. The main objective for this master thesis is to report the research in computer vision, focusing in 3D object tracking, and propose a new specific approach for big object tracking applications. This master thesis was conceived by examination, experimentation and application analysis over 3D model based tracking applications, in order to compare the implementations in different scenarios and contribute to big structure tracking branch’s development. Inside this text is presented and discussed the basis of digital image processing and computer vision, specifically, this work focuses in 3D model based techniques to track real world objects in camera images. As the main contribution, a new approach is proposed for model based tracking using feature descriptors and tracking by detection. The tests presented, include multi-scale and multi-complexity objects in order to evaluate both, literature and proposed approaches, under the effectiveness aspect. The results obtained show clear differences between approaches in model based tracking, according to information (type, quantity, quality) and tracking basis (optical flow or tracking by detection).

(9)

Figura 1 – Modelo de representação de câmera: a) Diagrama de câmera pinhole b) Câmera moderna, secção lateral c) Esquema do sistema de lentes de

uma câmera moderna. . . 17

Figura 2 – Plano de imagem . . . 17

Figura 3 – Distorção Radial . . . 20

Figura 4 – Borramento direcional causado por movimento . . . 21

Figura 5 – Posicionamentos e enquadramentos com objetos de diferentes escalas, a diferentes distâncias do plano de foco, A) enquadramento bastante próximo, com objeto no plano de foco. B) enquadramento com a câ-mera mais distante, iluminação natural e objeto de maior escala. C) enquadramento de um objeto de grandes proporções a distâncias muito maiores. . . 24

Figura 6 – Modelo de cubo representado com diferentes níveis de informação: a) nuvem de pontos, b) wireframe, c) modelo sólido, d) modelo completo (fonte: o autor) . . . 33

Figura 7 – Objeto representado com múltiplos níveis de detalhe . . . 34

Figura 8 – Objeto de pequenas proporções, fácil enquadramento em proximidade e espaço para movimentação de câmera . . . 46

Figura 9 – Objeto de maiores proporções sem enquadramento . . . 46

Figura 10 – Distanciamento para enquadramento de objeto de maior proporção, o aumento do distanciamento provê espaço adicional para movimentação de câmera . . . 47

Figura 11 – Imagens capturadas a diferentes distâncias de enquadramento . . . 48

Figura 12 – Imagens após processamento. . . 48

Figura 13 – Imagens capturadas pelo drone X5C ao longo da terceira semana do mês de agosto de 2015 no horário entre as 15:00h e as 17:00h . . . 49

Figura 14 – Efeito de rotação da câmera em torno do próprio eixo sobre a imagem de um objeto próximo. . . 51

Figura 15 – Efeito de rotação da câmera em torno do próprio eixo sobre a imagem de um objeto distante. . . 51

Figura 16 – Efeito da translação da câmera em objeto próximo. . . 52

Figura 17 – Efeito da translação da câmera em objeto distante. . . 52

Figura 18 – Técnica de rastreamento baseado em modelo 3D usando descritores . . 55

(10)

de textura . . . 62

Figura 21 – Objetos de teste divididos por categoria de tamanho . . . 63

Figura 22 – Objeto de teste A e seu respectivo conjunto de pontos de inicialização . 64

Figura 23 – Objeto de teste B e seu respectivo conjunto de pontos de inicialização . 65

Figura 24 – Objeto de teste C e seu respectivo conjunto de pontos de inicialização . 65

Figura 25 – Objeto de teste D e seu respectivo conjunto de pontos de inicialização . 66

Figura 26 – Objeto de teste E e seu respectivo conjunto de pontos de inicialização . 66

Figura 27 – Objeto de teste F e seu respectivo conjunto de pontos de inicialização . 67

Figura 28 – Objeto de teste G e seu respectivo conjunto de pontos de inicialização . 67

Figura 29 – Equipamentos de captura utilizados: a) Canon EOS Rebel T4I; b) Canon Powershot SX50; c) Azus Zenphone 6 (Z002-A500); d) Syma X5C aero-drone; e) Microsoft Lifecam Studio. . . 68

Figura 30 – Gráfico dos resultados de rastreamento dos experimentos com o objeto A 70

Figura 31 – Gráfico dos resultados de rastreamento dos experimentos com o objeto B 72

Figura 32 – Gráfico dos resultados de rastreamento dos experimentos com o objeto C 73

Figura 33 – Gráfico dos resultados de rastreamento dos experimentos com o objeto D 75

Figura 34 – Gráfico dos resultados de rastreamento dos experimentos com o objeto E 76

Figura 35 – Gráfico dos resultados de rastreamento dos experimentos com o objeto F 78

Figura 36 – Gráfico dos resultados de rastreamento dos experimentos com o objeto G 79

Figura 37 – Gráficos de desempenho de rastreamento agrupados por tipo de movi-mento de câmera . . . 82

(11)

Tabela 1 – Funções de conversão do espaço de cor RGB para escala de cinza. . . . 28

Tabela 2 – Objetos de teste e níveis de complexidade de seus respectivos modelos de rastreamento. . . 63

Tabela 3 – Modelos de câmera e parâmetros de calibração intrínsecos . . . 68

Tabela 4 – Porcentagem de quadros rastreados por cada técnica de rastreamento em cada cenário. Experimentos do objeto de testes A (caneca). . . 70

Tabela 5 – Porcentagem de quadros rastreados por cada técnica de rastreamento em cada cenário. Experimentos do objeto de testes B (lego). . . 72

Tabela 6 – Porcentagem de quadros rastreados por cada técnica de rastreamento em cada cenário. Experimentos do objeto de testes C (nave). . . 73

Tabela 7 – Porcentagem de quadros rastreados por cada técnica de rastreamento em cada cenário. Experimentos do objeto de testes D (arco). . . 74

Tabela 8 – Porcentagem de quadros rastreados por cada técnica de rastreamento em cada cenário. Experimentos do objeto de testes E (totem). . . 76

Tabela 9 – Porcentagem de quadros rastreados por cada técnica de rastreamento em cada cenário. Experimentos do objeto de testes F (Estádio Arena Pernambuco). . . 77

Tabela 10 – Porcentagem de quadros rastreados por cada técnica de rastreamento em cada cenário. Experimentos do objeto de testes G (Shopping Rio Mar). . . 79

(12)

1 INTRODUÇÃO . . . 13 1.1 Motivação . . . 13 1.2 Objeto de estudo . . . 13 1.3 Objetivos . . . 14 1.3.1 Objetivo Geral . . . 14 1.3.2 Objetivos Específicos . . . 14 1.4 Publicações realizadas . . . 14 1.5 Técnica proposta . . . 15 1.6 Estrutura do documento. . . 15 2 FUNDAMENTAÇÃO TEÓRICA . . . 16 2.1 Modelo de câmera . . . 16 2.1.1 Distorção de lentes . . . 19 2.2 Movimento de câmera . . . 21 2.2.1 Enquadramento . . . 22 2.3 Homografia . . . 23 2.4 Pose de câmera . . . 23

2.4.1 Estimativa de pose com EPNP . . . 25

2.5 Features . . . 26 2.5.1 Pré-processamento . . . 27 2.5.2 Extratores . . . 28 2.5.3 Descritores . . . 29 2.5.4 Matching . . . 29 2.6 Rastreamento . . . 30

2.6.1 Rastreamento baseado em modelo . . . 31

2.7 Modelos 3D . . . 31

2.7.1 Nível de detalhe . . . 33

2.7.2 Modelagem para rastreamento . . . 34

2.8 Fluxo Óptico . . . 35

2.9 Oclusão . . . 35

2.10 Perda de rastreamento e Reinicialização . . . 36

2.11 Rastreamento de objetos de grandes dimensões . . . 36

3 ESTADO DA ARTE . . . 38

(13)

3.1.2 Controle de Servo. . . 40

3.2 Rastreamento de features . . . 41

3.3 Rastreamento híbrido . . . 42

3.4 Rastreamento em cenários externos . . . 43

3.5 Algumas considerações . . . 43 4 CENÁRIO . . . 45 4.1 Enquadramento . . . 45 4.2 Distorção da Lente . . . 47 4.3 Iluminação . . . 48 4.4 Oclusão . . . 50 4.5 Movimento . . . 50 4.6 Perda do Rastreamento . . . 51 4.7 Algumas considerações . . . 52

5 TÉCNICA PROPOSTA DE RASTREAMENTO . . . 54

5.1 Abordagem desenvolvida . . . 54

5.2 Pré-processamento da imagem . . . 54

5.3 Extração de Keypoints . . . 56

5.4 Geração de descritores . . . 56

5.5 Amostragem. . . 57

5.5.1 Extração direta dos vértices do modelo . . . 57

5.5.2 Extração por partição . . . 57

5.6 Estimativa de pose . . . 58

5.7 Projeção das Amostras . . . 58

5.8 Algumas Considerações . . . 59

6 EXPERIMENTOS E RESULTADOS . . . 61

6.1 Objetos de Teste . . . 61

6.2 Vídeos e dados de teste . . . 63

6.3 Câmeras . . . 64 6.4 Técnicas avaliadas . . . 64 6.5 Experimentos . . . 68 6.6 Resultados . . . 69 7 CONCLUSÕES . . . 81 7.1 Trabalhos Futuros . . . 82 REFERÊNCIAS . . . 83

(14)

1 INTRODUÇÃO

O rastreamento de objetos baseado em modelo 3D emprega uma vasta gama de conhecimentos multidisciplinares, desde os princípios mais básicos da fotogrametria até algumas das técnicas mais avançadas de visão computacional, passando por geometria projetiva e processamento de imagens digitais.

Investigando as várias abordagens teóricas, recursos técnicos e combinações práticas que se desenvolveram na literatura da área aliadas aos cenários de aplicação tradicional-mente apresentados, surgiu o questionamento sobre a eficácia dessa tecnologia em cenários ainda pouco explorados, objetos cujas grandes proporções exigiam que este trabalho fosse executado, em sua maior parte, em ambientes externos, além de exigir a aplicação todo o conhecimento adquirido ao longo dessa pesquisa.

De forma resumida, pode-se dizer que cenário de objetos de grandes proporções representa um desafio em rastreamento 3D dados os aspectos inerentes ao ambiente externo, e a partir deste pensamento surgiram os questionamentos sobre aplicações de rastreamento em grandes estruturas.

1.1 MOTIVAÇÃO

A importância da tecnologia de rastreamento se mostra em diversos setores, tanto acadêmicos quanto comerciais. Atividades de inspeção, manutenção, treinamento e plane-jamento de projetos exploram o rastreamento de imagens em diversos setores. Essa área também tem sido tema de diversas pesquisas na última década e apresenta várias publica-ções e resultados promissores. Dessa forma, ficam evidentes os benefícios da expansão do cenário de aplicação de rastreamento para essas áreas de atuação.

Ao investigar a viabilidade de aplicação dessa tecnologia para estruturas de grandes proporções, as implementações passam a atender novos cenários de rastreamento em ambientes externos como objetos de estrutura complexa, pouco texturizados ou com super-fícies reflexivas, como edifícios, embarcações, maquinários, aeronaves e outras estruturas. Algumas das limitações conhecidas nas abordagens disponíveis na literatura tornam-se mais evidentes.

1.2 OBJETO DE ESTUDO

Essa dissertação tem como objeto de estudo, o conjunto de técnicas e recursos associados ao rastreamento baseado em modelo, sendo o centro da pesquisa conduzida

(15)

durante o mestrado e seu propósito final: a técnica proposta e as respectivas implementações desenvolvidas.

Dentro da área de visão computacional, os tópicos mais relevantes para a pesquisa, no contexto desse mestrado, são: rastreamento de arestas, rastreamento de features, estimativas de pose de câmera e calibração, rastreamento hibrido e rastreamento baseado em descritores.

Na área de processamento de imagens, os assuntos pesquisados incluíram, mas não se limitam a, extração de arestas, extração de features, extração de gradientes e conversão de escala de cinza.

Como principal produto esta dissertação apresenta uma proposta de técnica de rastreamento voltada especificamente para cenários aplicados a grandes estruturas.

1.3 OBJETIVOS

Os objetivos geral e específicos dessa dissertação são descritos a seguir.

1.3.1 Objetivo Geral

Como objetivo geral, esta dissertação visa propor uma arquitetura específica e eficaz para rastreamento de objetos de grandes dimensões. Esta arquitetura incorpora os conceitos observados nas abordagens de rastreamento baseado em modelo 3D em conjunto com descritores pontuais, como uma alternativa às técnicas dependentes de fluxo óptico, tanto as que utilizam arestas quanto as que se baseiam em features pontuais.

1.3.2 Objetivos Específicos

Entre os objetivos específicos podem ser listados os seguintes pontos essenciais ao cumprimento do objetivo geral:

• O desenvolvimento da técnica proposta;

• O desenvolvimento de implementações dessa técnica;

• A avaliação do desempenho das principais técnicas encontradas na literatura quando aplicadas a cenários com objetos de grandes proporções.

1.4 PUBLICAÇÕES REALIZADAS

(16)

• MACEDO, S.; MELO, G.; KELNER, J. Estudo comparativo de técnicas de conversão de escala de cinza aplicado ao rastreamento para realidade aumentada (a comparative study of grayscale conversion techniques applied to augmented reality tracking). In: WRVA 2013. Jataí - GO, Brasil, 2013.

• MACEDO, S.; MELO, G.; KELNER, J. A comparative study of grayscale conversion techniques applied to descriptor based tracking. In: SVR 2015. São Paulo – SP, Brasil, 2015.

1.5 TÉCNICA PROPOSTA

Keypoints e Descritores robustos são parte de um segmento vasto da literatura em

rastreamento e visão computacional em geral. A arquitetura proposta expande o uso desses recursos ao rastreamento 3D baseado em modelo, em uma aplicação de rastreamento por detecção quadro a quadro, em contraponto ao vasto conjunto de abordagens baseadas em fluxo óptico que permeia o acervo de técnicas de rastreamento baseado em modelo.

Para tanto, a arquitetura usa o pipeline de rastreamento baseado em modelo, substituindo a etapas de estimativa de pose por estimativas baseadas em detecção e transformação por homografia. Esta modificação simplifica a estimativa final usando apenas um único algoritmo baseado em correspondências 2D-3D.

1.6 ESTRUTURA DO DOCUMENTO

Esta dissertação está organizada em mais seis capítulos. O Capítulo 2apresenta os conceitos essenciais em que se fundamenta esta pesquisa, cobrindo tópicos em fotogrametria, processamento de imagens e visão computacional, tendo como foco o rastreamento baseado em modelo 3D.

O Capítulo3 contextualiza a pesquisa no estado da arte de visão computacional e rastreamento 3D, é mostrada uma visão geral das propostas existentes na literatura, suas inspirações e focos. No Capítulo 4 é apresentado o cenário de aplicação proposto, suas características, restrições inerentes e consequentemente as diferenças para os cenários tradicionais de rastreamento encontrados na literatura.

A técnica proposta, seu funcionamento e os conceitos utilizados são descritos no Capítulo 5. O Capítulo6 respectivamente discorre sobre os procedimentos de experimenta-ção e avaliaexperimenta-ção adotados ao longo da pesquisa bem como sobre os resultados observados nesses experimentos.

Por fim, o Capítulo 7apresenta algumas considerações acerca dos dados apresenta-dos no Capítulo 6 e sugere alguns trabalhos futuros.

(17)

2 FUNDAMENTAÇÃO TEÓRICA

Esse capítulo apresenta os conceitos básicos de visão computacional, matemática, fotogrametria e processamento digital de imagens necessários para a compreensão dessa pesquisa, bem como da localização dessa pesquisa na área de visão computacional. Todos os conceitos gerais da área apresentados nesse capítulo sem uma citação a uma publicação em especifico foram extraídos do livro de (HARTLEY; ZISSERMAN,2004).

2.1 MODELO DE CÂMERA

As características do modelo de câmera e suas implicações são foco do estudo de fotogrametria muito anterior ao advento do processamento digital de imagens e de visão computacional, abrangendo relações entre imagens analógicas ou com qualquer nível de resolução digital.

O modelo de câmara escura ou pinhole é usualmente utilizado para representar uma câmera, embora não abranja a modelagem da distorção causada por sistemas de lentes complexos como os das câmeras modernas, esse modelo é genérico e as regras fotogramétricas podem ser aplicadas a qualquer modelo de câmera, guardadas as devidas restrições, com exceções para as câmeras omnidirecionais e outros dispositivos que usem espelhos parabólicos ou hiperbólicos para obter campos de visão amplos.

As câmeras digitais modernas empregam dois componentes físicos principais, o sistema composto de lentes móveis é responsável por convergir a luminância refletida na cena para dentro do espaço de enquadramento projetivo da câmera, aumentando o campo de visão e mantendo a definição da imagem em diferentes distâncias, enquanto o sensor

CCD composto de muitas micro células fotoelétricas e filtros cromáticos é responsável pela

captura da luminância em cada ponto e conversão dessa luminancia em um sinal elétrico, discretizando e digitalizando a imagem capturada. A Figura 1 ilustra o modelo projetivo

pinhole, bem como o sistema de lentes, e sensores comum às câmeras modernas.

Matematicamente uma imagem é formada através da projeção do espaço 3D em um plano denominado plano de imagem, como pode ser visto na Figura 2. As coordenadas de um ponto 3D dadas por M = [X, Y, Z]T _{expressas em coordenadas euclidianas são}

associadas ao ponto 2D correspondente na imagem m = [u, v]T _{pela Equação (}_2.1_{) onde}

s é um fator de escala real não nulo e P é a matriz de projeção. ( ˜m = [u, v, 1]T_{) e}

( ˜M = [X, Y, Z, 1]T_{) são as coordenadas homogêneas dos pontos m e M .}

(18)

Figura 1 – Modelo de representação de câmera: a) Diagrama de câmera pinhole b) Câmera moderna, secção

lateral c) Esquema do sistema de lentes de uma câmera moderna.

Fonte: O autor

Figura 2 – Plano de imagem

Fonte: O autor

A projeção P é representada por uma matriz P3×4, e depende de um fator de escala. É usual assumir uma transformação perspectiva, o que descreve satisfatoriamente o comportamento da câmera. Essa perspectiva pode ser decomposta em dois outros conjuntos de parâmetros como na Equação (2.2), a saber denominados pose e calibração, onde K3×3 é a matriz de calibração e corresponde aos parâmetros internos da câmera como ponto principal e distância focal, enquanto [R|t]3×4 é uma matriz que corresponde aos parâmetros externos, basicamente transformações euclidianas do sistema de coordenadas global para o

(19)

sistema de coordenadas de câmera. R3×3 é uma matriz de rotação, e t3×1 é um vetor de translação.

P = K[R|t]. (2.2)

A matriz de calibração K contém os parâmetros intrínsecos da câmera, também chamados de parâmetros internos. Essa matriz é usualmente representada como na Equação (2.3) onde au e av são, respectivamente, os fatores de escala nos eixos de coordenadas u e

v. Esses fatores são diretamente proporcionais à distância focal f inerente à câmera como

na Equação (2.4) onde ku e kv são, respectivamente, o número de pixels por unidade de

distância ao longo dos eixos direcionais u e v.

K =      au s u0 0 av v0 0 0 1      . (2.3) au = kuf av = kvf. (2.4)

O centro de câmera, ou ponto principal, é definido como c = [u0, v0]T e representa, em coordenadas de imagem, a interseção entre eixo óptico e o plano de imagem. O coeficiente de cisalhamento s é usualmente 0, e assume valor não nulo se, e somente se os eixos de coordenadas de câmera u e v não forem perpendiculares, o que é extremamente raro em câmeras modernas.

Analisando a câmera estruturalmente, a distância focal f é definida única e exclusi-vamente pelo grau de curvatura da lente, enquanto os fatores de escala ku e kv são definidos pelo formato das células do sensor CCD. Os fatores de escala dos eixos de coordenadas de imagem au e av são, portanto, a representação matemática da correlação entre a curvatura

da lente e o formato das células do sensor. Por fim, as coordenadas do ponto principal da câmera são definidas por dois fatores, a quantidade de linhas e colunas na matriz de células do sensor, e o posicionamento do sensor em relação à lente da câmera.

É usual assumir o ponto principal c como o centro da imagem gerada (u0 = altura/2 e v0 = largura/2), assumindo, portanto, que o sensor CCD e a lente da câmera são perfeitamente paralelos e concêntricos, embora isso não seja factível, é uma boa aproximação para métodos iterativos de estimativa. Se for considerado que as células do sensor CCD sejam perfeitamente quadradas, assim sendo, os pixels também podem ser considerados como quadrados, pode-se assumir que au é igual a av.

Na maioria das aplicações de rastreamento, os parâmetros internos da câmera são estimados off-line, em uma etapa de calibração distinta e considerados fixos e conhecidos

(20)

ao longo da operação principal. O que é incompatível com ações que alterem os parâmetros intrínsecos como o uso de zoom.

Ao utilizar a função de zoom em uma câmera, estar-se-á alterando a posição relativa entre o sensor CCD e a lente da câmera ou mesmo a curvatura total da lente, o que significa modificar os fatores de escala au e av. Ao aplicar zoom digital, a razão de proporção dos

objetos na cena permanece, o que inviabiliza a estimativa da translação ao longo do eixo de profundidade.

Existem diferentes técnicas de estimativa dos parâmetros intrínsecos para uma câmera, esse processo é conhecido como calibração da câmera. Câmeras de um mesmo modelo ou com sistemas de lentes equivalentes podem apresentar valores diferentes nos parâmetros de calibração. De fato, mesmo mudanças no meio em que a câmera está inserida que alterem o comportamento de refração da luz podem provocar alterações nos parâmetros intrínsecos.

A diferença pode ocorrer por diferenças no formato, posicionamento das lentes, dilatação dos materiais ou outros fatores físicos. Adicionalmente, câmeras modernas possuem sistemas automáticos que podem atrapalhar o processo de estimativa alterando continuamente a configuração do sistema de lentes e ,por tanto, os parâmetros intrínsecos da câmera.

O processo de calibração é iterativo e computacionalmente custoso, além de precisar de um volume de dados significativo como entrada para efetuar a estimativa, esse processo é geralmente feito off-line.

Como preparação para os experimentos propostos e executados nessa dissertação, diferentes métodos de calibração foram utilizados e tiveram seus resultados comparados para assegurar a consistência dos valores estimados, dado que os parâmetros intrínsecos eram essenciais para todos os experimentos de rastreamento 3D realizados.

2.1.1 Distorção de lentes

O modelo de projeção perspectiva nem sempre é suficiente para representar os aspectos inerentes à formação de imagens, uma vez que não leva em conta a possível distorção proveniente das lentes, que nem sempre é negligenciável. Algumas câmeras são projetadas especificamente para oferecer um campo de visão muito amplo, o que gera grandes distorções nos pontos projetados.

É possível modelar a distorção da lente por de uma deformação no espaço euclidiano 2D, ou seja, uma deformação planar na imagem. Dada uma estimativa dos parâmetros de distorção, o efeito pode ser removido da imagem capturada pela câmera de forma eficaz e em tempo real usando um mapa de distorção pré processado. O modelo de projeção perspectiva pode então ser aplicado.

(21)

Figura 3 – Distorção Radial

Fonte: O autor

A Figura 3 exemplifica a diferença entre imagens com e sem distorção. Esse procedimento permite utilizar câmeras de visão ampla em aplicações de rastreamento, com o benefício de manter os objetos rastreados no campo de visão.

Assumindo pares correlacionados de pixels, sendo [ˇu, ˇv] um pixel da imagem original

distorcida e [ˇx, ˇy] como sendo as coordenadas normalizadas correspondentes de ˇu. Uma

representação simples dos parâmetros de distorção pode ser representado pela Equação (2.5) onde u0, v0, αu e αv são os parâmetros intrínsecos da câmera, assumindo que (u, v) e

(x, y) sejam os valores correspondentes sem distorção.

ˇ

u = u0+ αuxˇ

ˇ

v = v0+ αvy.ˇ

(2.5)

Assim, a distorção total observada através de uma lente ou sistema de lentes pode ser expressa genericamente pela Equação (2.6) ressaltando que a distorção tangencial tem uma influência inferior comparada a distorção radial e usualmente é considerada desprezível. Com a remoção da distorção, estruturas e objetos que formam linhas retas no espaço euclidiano tridimensional, tendem a formar linhas retas na imagem projetada, esse processo favorece a aplicação de técnicas de rastreamento baseadas em arestas.

ˇ x =x + dxradial+ dxtangencial, dxradial =(1 + k1kxk2+ k2kxk4. . . )x, dxtangencial =   2p1xy + p2(r2+ 2x2) p_1(r2_+2y2₎+ 2p₂xy  . (2.6)

(22)

Figura 4 – Borramento direcional causado por movimento

Fonte: O autor

2.2 MOVIMENTO DE CÂMERA

Analisar o movimento de câmera é vital para as aplicações de rastreamento e visão computacional de uma forma geral. Além da mudança do ponto de vista aplicada sobre a cena projetada na imagem, o movimento de câmera também pode propiciar o fenômeno de borramento por movimento (ou motion blur ) destruindo informação útil da imagem e até mesmo provocando oclusão total nos objetos procurados.

É importante salientar que diferente do desfoque verdadeiro, o borramento por movimento é direcional e diretamente proporcional à intensidade do movimento do plano de imagem da câmera, existindo casos em que o vetor de direção do borramento é claramente observável.

Arestas de objetos 3D projetadas no plano de imagem costumam apresentar dois comportamentos típicos. As projeções paralelas ao vetor de movimento se mantém definidas, porém são deformadas longitudinalmente, enquanto as projeções perpendiculares se mesclam aos pixels próximos e desvanecem.

Obviamente arestas cujas projeções assumem ângulos intermediários demonstram proporcionalmente ambos os comportamentos. A Figura 4 ilustra o efeito de borramento por movimento em sequências de imagens reais.

(23)

A movimentação da câmera tem efeitos diferentes nas capturas em ambiente externo, isso impacta diretamente no rastreamento de objetos de grandes proporções. Quando em comparação com os testes de bancada que utilizam objetos de pequenas dimensões, esses efeitos podem ser mais intensos, o que pode gerar dificuldades ou limitações à aplicação. Embora a expectativa inicial de um objeto ou estrutura muito grande sugira fácil visualização, isso não obrigatoriamente implica bom enquadramento ou ausência de oclusão. Conforme a distância entre a câmera e o objeto aumenta, o espaço que pode ser ocupado por outros objetos e estruturas cresce, bem como a incidência de variações de iluminação. Ambos os fatores são causas comuns de oclusão em aplicações de rastreamento.

Nos experimentos em objetos de grandes dimensões, para gerar o mesmo efeito da translação comum aos testes de bancada é necessário um movimento com velocidade e distância percorrida consideravelmente maior, em alguns casos sendo inviável sem o auxílio de outros equipamentos. O mais próximo desse nível de mudança de ponto de vista nessa dissertação foi reproduzido em algumas amostras de captura graças ao uso de drones.

Os movimentos de rotação ou órbita que em testes em ambientes internos com objetos de pequenas dimensões são limitados apenas pelo enquadramento do objeto, nos casos de cenários outdoor passam a sofrer influência de fatores externos, como vento e capacidade de manobra do equipamento. Em alguns casos, esses fatores podem vir a causar a perda total do rastreamento.

A movimentação da câmera pode ser decomposta em dois aspectos: translação e rotação. O vetor de translação é um vetor de três dimensões que denota o movimento da origem do sistema de coordenas de câmera no espaço euclidiano tridimensional assumindo os eixos de coordenadas x, y e z, ortogonais entre si.

A rotação da câmera, por sua vez, descreve a rotação do vetor do eixo óptico da câmera, assume-se o vetor do eixo óptico como sendo o vetor formado pelo centro de câmera e a origem do plano de imagem da câmera, ou simplesmente como a movimentação relativa da origem do plano de imagem em relação ao centro de câmera. Isso adiciona mais 3 graus de liberdade de movimentação distintos, respectivamente, os ângulos de rotação em torno dos eixos de coordenadas (ˆx, ˆy e ˆz).

2.2.1 Enquadramento

O enquadramento é o primeiro desafio da aplicação de técnicas de rastreamento em objetos de grandes dimensões. Nos experimentos tradicionais, o objeto costuma ser colocado intencionalmente no plano de foco da câmera, maximizando a definição de suas características sem alterar a calibração intrínseca, e sofrendo pouca ou nenhuma influência da distorção radial e tangencial gerada pela lente. Além disso, esse tipo de posicionamento geralmente permite que o objeto seja facilmente enquadrado na imagem, mantendo espaço

(24)

de manobra para que a câmera se movimente sem modificar a direção dos gradientes ou produzir oclusão. Nos experimentos tradicionais também é limitada, a variação de cor e a intensidade da iluminação incidente sobre o objeto.

Ao posicionar a câmera distante do objeto alvo há uma degradação das caracte-risticas visuais do objeto. Essa degradação ocorre de forma independente da resolução ou capacidade do sistema de lentes, uma vez que nos casos abordados neste trabalho, tratam-se de distâncias que são centenas ou milhares de vezes maiores que a distância entre o centro e o plano de foco da câmera. A Figura 5 ilustra os diferentes níveis de enquadramento.

Essa degradação faz com que mesmo áreas de textura áspera e acabamento opaco gerem artefatos de imagem como reflexo especular, um comportamento esperado de superfícies lisas, metálicas ou com cobertura refletiva.

No caso das estruturas muito grandes (estádios de futebol, navios transoceânicos, aviões de transporte de cargas, maquinário de estaleiros, etc), a distância necessária para enquadrar o objeto na cena pode ser muito maior do que o permitido pela câmera utilizada. Outro problema inerente à utilização dessa escala é o posicionamento e movimentação da câmera, um ponto de observação distante o suficiente pode ser um local afetado pela reflexão especular no objeto alvo ou com pouco espaço de manobra para a captura.

2.3 HOMOGRAFIA

Uma homografia (HARTLEY; ZISSERMAN, 2004) genericamente significa um isomorfismo entre espaços projetivos, o conceito faz parte do estudo de perspectivas em geometria euclidiana, no âmbito da visão computacional, por convenção quaisquer duas imagens de uma mesma superfície planar estão correlacionadas por uma homografia (assumindo o modelo de câmera pinhole, ou seja, assumindo que a distorção de lente é

desprezível ou foi previamente removida das imagens).

O princípio geométrico da homografia é útil ao propósito dessa dissertação ao cor-relacionar dois planos de projeção de imagens de uma cena rígida quando a distância entre o objeto principal e a câmera se sobressai muito em relação à dispersão de profundidade das features observáveis, ou seja, aproxima o comportamento das features do objeto 3D às features de um objeto planar, tornando a homografia uma boa estimativa inicial do movimento global das features do objeto.

2.4 POSE DE CÂMERA

A matriz de parâmetros externos [R|t]3×4 define a posição e orientação da câmera. Ela é definida por uma matriz de rotação R3×3 e um vetor de translação t3×1, e também é

(25)

Figura 5 – Posicionamentos e enquadramentos com objetos de diferentes escalas, a diferentes distâncias do plano

de foco, A) enquadramento bastante próximo, com objeto no plano de foco. B) enquadramento com a câmera mais distante, iluminação natural e objeto de maior escala. C) enquadramento de um objeto de grandes proporções a distâncias muito maiores.

(26)

referenciada como matriz de pose, ou pose da câmera.

Aplicações de rastreamento 3D usualmente assumem que a calibração K é conhecida e mantém o foco na estimativa de R e t, o que é equivalente a obter a posição e orientação do objeto rastreado em relação à câmera.

De maneira mais formal, a aplicação da pose corresponde a uma transformação no espaço euclidiano, do sistema de coordenadas global para o sistema de coordenadas da câmera, um ponto 3D qualquer representado pelo vetor Mw no sistema de coordenadas

global, é então representado por um vetor Mcno espaço euclidiano diretamente proporcional

ao vetor original Mw mas transformado pelos parâmetros externos da câmera de acordo

com a Equação (2.7).

Mc= RMw+ t. (2.7)

A partir desta correlação, é possível calcular o centro de câmera ou centro óptico C no sistema de coordenadas global uma vez satisfeita a expressão da Equação (2.8).

RC + t = 0 → C = RTt. (2.8)

2.4.1 Estimativa de pose com EPNP

Considerando um conjunto de n pontos de referência cujas coordenadas 3D são conhecidas no sistema de coordenadas global, e cujas coordenadas 2D projetadas no plano de imagem também são conhecidas, esta operação tem por objetivo a recuperação das coor-denadas 3D no sistema de coorcoor-denadas de câmera. Isso é equivalente a estimar o movimento de câmera, como no modelo padronizado em (HORN; HILDEN; NEGAHDARIPOUR,

1988) que decompõe o movimento em orientação e translação.

O algoritmo EPNP proposto em (LEPETIT; MORENO-NOGUER; FUA, 2008) expressa a solução desse problema através de um vetor no núcleo de uma matriz M2n×12 computada a partir das correspondências 3D-2D dos pontos de referência. Extraindo o vetor do núcleo de M , os pesos atribuídos aos pontos de controle utilizados para estimar os pontos de referência no sistema de coordenadas de câmera são calculados a um custo computacional que cresce linearmente para valores de n arbitrariamente grandes (nos experimentos relatados em (LEPETIT; MORENO-NOGUER; FUA, 2008) esse valor é considerado grande a partir de 15, ordem de grandeza inferior aos casos mais simples utilizados nesta dissertação).

Dado o conjunto de pontos de referência pw

i = [p1, p2, p3, ..., pn], quatro pontos de

controle cw_j = [c1, c2, c3, c4] são arbitrariamente representados no sistema de coordenadas global. Dessa forma, desde que os pontos de controle sejam não coplanares, cada ponto de

(27)

referência é representado por um ponto projetado em coordenadas de câmera pw

i , obtido

pela soma da Equação (2.9).

pw_i = 4

X

j=1

αijcwj. (2.9)

Onde αij são coordenadas baricêntricas homogêneas unicamente definidas, é

im-portante notar que a mesma relação se mantém no sistema de coordenadas de câmera, como pode ser visto na Equação (2.10).

pc_i = 4

X

j=1

αijccj. (2.10)

A Equação (2.11) mostra como os pesos de controle são obtidos a partir da expansão da derivação de M considerando os pontos de controle em coordenadas de câmera cc

j = [xcj, yjc, zjc]T, as imagens projetadas mi = [ui, vi]T de cada ponto de referência

pi e os parâmetros intrínsecos da câmera representados pela matriz K.

wi      ui vi 1      =      fx 0 uc 0 fy vc 0 0 1      4 X j=1 αij      xc_j yc_j zc_j      . (2.11)

As Equações (2.12) e (2.13) apresentam o par de equações lineares obtidas para cada ponto de referência em decorrência das implicações inerentes a essa relação. Removendo os pesos wi dos pontos de controle é obtido um único sistema de equações da forma M x = 0

onde cada vetor x = [cc

1T, cc2T, c3cT, cc4T]T de tamanho 12 representa os parâmetros a serem estimados, e a matriz M2n×12 é gerada a partir dos coeficientes das Equações (2.12) e (2.13) para cada ponto de referência.

4 X j=1 αijfxxcj + αij(uc− ui)zjc= 0. (2.12) 4 X j=1 αijfyycj + αij(vc− vi)zjc= 0. (2.13)

2.5 FEATURES

Métodos baseados em features focam em regiões específicas em vez de imagens como um todo. Processar as mudanças que essas regiões sofrem ao longo do tempo em uma sequência de imagens provê um registro acurado, útil na solução de problemas de rastreamento, como visto em (NICOSEVICI; GARCIA, 2013).

(28)

Segundo (NICOSEVICI; GARCIA,2013), existem dois requisitos que qualificam regiões especificas em sequências de imagens para esse propósito.

• Repetibilidade : Uma feature deve poder ser rastreada ao longo da sequência de imagens independentemente de mudanças de ponto de vista ou variação de iluminação.

• Discriminabilidade : Uma feature deve ser unicamente identificada na imagem para reduzir a ocorrência de falsas correspondências.

Os autores (NICOSEVICI; GARCIA,2013) enumeram três etapas fundamentais para o registro de imagens utilizando features: a detecção (ou extração), a descrição e o pareamento (ou matching) das features.

Uma análise dos estudos apresentados em (KANAN; COTTRELL,2012;MACEDO; MELO; KELNER, 2013; MACEDO; MELO; KELNER, 2015) também revela que os métodos de processamento digital aplicados a essas imagens, e mais especificamente o processo de conversão utilizado para obter as imagens discretizadas em escala de cinza, configuram uma quarta e importante base fundamental do uso de features locais em diferentes aplicações.

2.5.1 Pré-processamento

Uma vez que as técnicas utilizadas nessa dissertação assumem uma imagem em escala de cinza e as câmeras modernas em geral têm sensores CCD coloridos, os algoritmos de conversão para escala de cinza são as primeiras técnicas de processamento de imagem a serem aplicadas. Segundo (KANAN; COTTRELL, 2012), a conversão de imagens coloridas para escala de cinza é uma etapa usualmente negligenciada no âmbito de visão computacional, muito embora, como ele próprio demonstra, mudanças nessa etapa do processamento podem ser cruciais para a eficácia das técnicas baseadas em features.

Os trabalhos publicados (MACEDO; MELO; KELNER, 2013;MACEDO; MELO; KELNER, 2015) demonstram que a influência do algoritmo de conversão pode viabilizar ou inviabilizar completamente o rastreamento em cenários específicos.

As funções de conversão de escala de cinza basicamente agem sobre as intensidades dos três diferentes canais de um pixel originário de uma imagem colorida (a saber R, G e B), produzindo como saída uma única intensidade atribuída ao pixel da imagem em escala de cinza.

A Tabela1 mostra todas as funções avaliadas em (MACEDO; MELO; KELNER,

2013) e utilizadas nessa dissertação.

O segundo elemento mais importante no pré-processamento de imagens para técnicas baseadas em features é o borramento, os filtros de borramento têm diversas

(29)

Tabela 1 – Funções de conversão do espaço de cor RGB para escala de cinza.

GLuminance= 0, 21 · R + 0, 71 · G + 0, 07 · B GIntensity = R+G+B₃

GV alue = argM ax(R, G, B) GLightness = ₁₀₀1 (116{(Y ) − 16)

GLuster = argM ax(R,G,B)+argM in(R,G,B)₂ GLuma= 0, 21 · R0+ 0, 71 · G0 + 0, 07 · B0

GGleam= R 0_+G0_+B0 3 G 0 Luminance = Γ(GLuminance) G0

Intensity = Γ(GIntensity) GV alue0 = Γ(GV alue)

G0

Lightness= Γ(GLightness) GLuster0 = Γ(GLuster)

concepções e implementações como visto em (GONZALEZ; WOODS, 2006), sendo o mais comum, o filtro de média gaussiano.

O filtro de borramento tem como maior utilidade, a mitigação e gradual eliminação de ruído na imagem de entrada, evitando que algoritmos de extração assumam como boas

features, regiões que na verdade não contém informação útil. É necessária a resalva, de que

o uso repetitivo de filtros de borramento ocasiona uma gradual eliminação de informação útil na imagem juntamente com o ruído.

Experimentos anteriores também mostraram que filtros de borramento podem ser utilizados para avaliar a qualidade de features detectadas por técnicas invariantes a escala. Através de sucessivas passagens é possível classificar essas features de acordo com sua robustez ao ruído e ao borramento natural decorrente do movimento de câmera.

2.5.2 Extratores

O processo de detecção ou extração de features serve para definir especificamente as coordenadas dos pixels que correspondem às features visuais.

Segundo (NICOSEVICI; GARCIA,2013), a técnica de detecção de features mais utilizada historicamente é o detector de Harris (HARRIS; STEPHENS, 1988), concebido especificamente para encontrar interseções de arestas em estruturas 3D.

O detector de Harris utiliza uma matriz de segundo momento, ou matriz de auto correlação (Equação (2.14)), para a extração de features.

C(x, y) =   I2 x(x, y) IxIy(x, y) IxIy(x, y) Iy2(x, y)  . (2.14)

(30)

Existem diversas modificações do método de Harris, e várias técnicas com funcio-namento e finalidade semelhantes, os extratores modernos como SIFT (LOWE, 1990) e

SURF (BAY et al., 2008) foram concebidos tendo o detector de Harris como base. O detector do SIFT (LOWE, 1990; LOWE, 1999; LOWE, 2004) utiliza uma aproximação discreta do operador laplaciano para obter os pontos centrais de regiões com alto gradiente na imagem. Além disso o SIFT aplica um procedimento recursivo para selecionar o nível de escala para cada ponto individualmente.

O detector do SURF (BAY et al.,2008), por outro lado, utiliza o determinante da matriz hessiana para obter gradiente e escala simultaneamente, sendo considerado uma alternativa mais rápida ao SIFT. Embora esses detectores possam garantir às features selecionadas propriedades como invariância a escala e translação, outros fatores como, rotação, iluminação e transformações afins ainda não são cobertos por essas técnicas. Para preencher essa lacuna as técnicas citadas também incluem descritores de features.

2.5.3 Descritores

Em geral, features são escolhidas por detecção, de forma que sejam facilmente discrimináveis localmente na imagem. Para obter um registro correto e possível aplicação em rastreamento, essas regiões não podem ser caracterizadas somente por um pixel (caso de features pontuais) ou pequeno grupo de pixels (caso de features de arestas), é necessário incluir mais informação para tornar essas features globalmente discrimináveis. A solução proposta por (NICOSEVICI; GARCIA, 2013) ao analisar o que existe na literatura da área foram os descritores.

Além dos descritores propostos pelas técnicas SIFT e SURF, existem na literatura diversos outros descritores como BRISK (LEUTENEGGER; CHLI; SIEGWART, 2011), ORB (RUBLEE et al., 2011), BRIEF (CALONDER et al., 2010) e FREAK (ALAHI; ORTIZ; VANDERGHEYNST, 2012), porém, a maioria destas técnicas foram feitas como alternativas mais rápidas para SIFT e SURF, por tanto, menos robustas.

Neste mestrado foram utilizados apenas o SIFT e o SURF, devido à robustez dos descritores propostos em ambas as abordagens de rastreamento e o fato de que o hardware disponível para os experimentos dessa pesquisa, demonstrou suportar essas técnicas com desempenho que atendeu aos requisitos de tempo real.

2.5.4 Matching

Assumindo que as features de uma mesma região de um objeto em duas imagens dis-tintas possuem propriedades fotogramétricas similares, e que isso se reflete em semelhança nos valores numéricos dos descritores gerados, o processo de pareamento ou matching consiste simplesmente em medir a similaridade entre as features das duas imagens, ou

(31)

mais especificamente entre os descritores dessas features, uma vez que eles são invariantes a rotação, escala e iluminação.

O pareamento em si geralmente é obtido por uma medida de distância entre os valores numéricos dos vetores dos descritores (uma distância geométrica), a distância euclidiana é a mais utilizada como métrica no pareamento de descritores. Embora existam métricas menos custosas computacionalmente, a distância euclidiana usualmente produz valores comparativamente mais coerentes. Os descritores são pareados com aqueles da outra imagem que forem mais próximos geometricamente, esse procedimento consiste de um cálculo direto de distância de todos para todos, em outras palavras, pode ser mapeado através de uma travessia de menor custo em uma matriz de distâncias de tamanho n × m sendo n o número de features descritas no conjunto da amostra base, ou template, e m o número de features descritas na imagem de entrada.

Embora a medida de similaridade seja essencial para o pareamento das features, mudanças intensas de perspectiva e iluminação podem afetar os descritores e propiciar pareamentos incorretos. Para mitigar o surgimento de pareamentos incorretos nas features, as primeiras técnicas de matching estabeleciam uma distância mínima entre os descritores para confirmar o pareamento.

A técnica utilizada nessa dissertação é a proposta por (LOWE, 2004) que propõe como métrica de validação do pareamento não somente a distância mínima entre os descritores, mas também a distância relativa entre o primeiro e o segundo candidatos no pareamento de cada descritor, permitindo que o matching se adapte ao nível de dispersão dos outliers.

2.6 RASTREAMENTO

O rastreamento, no âmbito de visão computacional, é o processo pelo qual se determina o movimento de um ou mais objetos ao longo do tempo em uma série de imagens. Sejam essas imagens capturadas diretamente por uma câmera ou recuperadas a partir de um arquivo de vídeo. Para experimentos e validação, também é comum a aplicação de técnicas de rastreamento a cenas produzidas sinteticamente.

Pela natureza dos dados analisados, uma abordagem completamente genérica do processo de rastreamento tende a ser computacionalmente custosa, porém existem diversas técnicas de rastreamento viáveis aplicadas a vários cenários específicos. Existem atualmente duas grandes vertentes de pesquisa bem estabelecidas a respeito de rastreamento:

• Rastreamento planar, ou de padrões;

(32)

Adicionalmente, começam a surgir, formando uma terceira vertente, diversas pes-quisas que aplicar técnicas de aprendizagem de maquina e computação inteligente para resolver problemas de rastreamento,

A pesquisa em que se insere esta dissertação tem seu foco no rastreamento baseado em modelo, mas expande o ferramental especifico da área para técnicas associadas à vertente de rastreamento planar, como é o caso dos descritores e extratores de features do SIFT (LOWE, 1999) e do SURF (BAY et al., 2008), que usualmente são associados unicamente a rastreamento planar.

2.6.1 Rastreamento baseado em modelo

O rastreamento baseado em modelo consiste em encontrar a posição no espaço 3D de um objeto em relação à câmera, utilizando como base um modelo 3D do respectivo objeto. O rastreamento baseado em modelo é considerado muito mais robusto que o rastreamento planar em diversas aplicações que envolvam diferentes pontos de vista e/ou diferentes estados de iluminação ou oclusão. Sendo objeto de pesquisa dessa dissertação, diferentes abordagens e técnicas implementadas são apresentadas em detalhes no Capítulo

3.

2.7 MODELOS 3D

Os modelos 3D para aplicações de rastreamento descrevem um objeto particular a ser rastreado. Conforme existem várias representações de modelos 3D, existem também vários níveis de informação a serem representados. Cada técnica de rastreamento baseado em modelo especifica o nível de informação requerido ou desejável para sua implementação e implantação.

Nem todas representações são ideais para a aplicação em rastreamento. Algumas informações, embora muito úteis para renderização e visualização, são desnecessárias ou mesmo inadequadas para o rastreamento. Genericamente, pode-se dividir coerentemente as representações de dados de modelos 3D em quatro principais níveis de informação: nuvens de pontos, aramados, modelos sólidos e modelos de renderização.

As nuvens de pontos são o formato primitivo de representação num espaço 3D, uma nuvem de pontos nada mais é que um conjunto de vértices no espaço 3D. Cada vértice

X = [x, y, z]T_{, representa sua posição ao longo de cada eixo de coordenadas.}

Os algoritmos de estimativa de pose processam conjuntos de correspondências como entrada, cada uma formada por um ponto X no espaço 3D e sua posição estimada ˜x no

plano de projeção da imagem.

(33)

essencial-mente utilizam nuvens de pontos. Todos os níveis de informação superiores são submetidos às técnicas de processamento que convergem para uma funcionalidade comum: construir nuvens de pontos dinamicamente e refinar esses pontos para aprimorar a estimativa da pose de câmera.

Os modelos do tipo wireframe ou aramados, numa tradução literal, contém a informação referente às arestas do objeto em questão, ou seja, o conjunto dos pares vértices que possuem uma ligação entre si. Objetos com arestas retas ou afiadas geralmente criam regiões de alto gradiente nas imagens projetadas, essa é uma informação útil explorada pela grande maioria das técnicas encontradas na literatura.

O uso de modelos aramados em aplicações de rastreamento é desejável pois eles não requerem muito poder computacional para serem carregados e processados. Por outro lado, a maior parte das abordagens de rastreamento de modelos necessita de mais informação do que a disponível nesse formato de dados.

Um modelo sólido ou de faces contém toda a informação disponível no modelo aramado, acrescida da descrição das faces. Faces provêm informações muito úteis para calcular silhuetas de objetos, bem como definir regiões de interesse em quadros da cena. Esse tipo de modelo é requerido pela maior parte das técnicas de rastreamento encontradas na literatura, precisamente como base para cálculo de silhuetas, de forma a limitar a região de busca nas imagens para os algoritmos. Para a grande maioria das aplicações que usam esse tipo de informação, a silhueta funciona como uma máscara de binarização, que elimina ou reduz drasticamente a influência de qualquer informação na cena que não pertença ao modelo rastreado. A Seção 2.9que descreve o problema de oclusão, sugere que essa eliminação pode representar uma limitação desvantajosa, gerando problemas para aplicações de rastreamento.

Por último, mas não menos importantes, os modelos completos ou modelos de renderização contém a informação disponível nos modelos sólidos acrescida dos vetores normais para cada face, além de designações especificas para a ordem de renderização dos vértices que formam as arestas de cada face.

A informação contida nesse tipo de modelo é destinada ao processo de renderização em computação gráfica, conferindo detalhes de texturização e iluminação ao modelo. Embora essa quantidade massiva de dados seja uma carga pesada para o processamento e retarde consideravelmente o desempenho da maioria dos algoritmos, esse tipo de modelo é amplamente utilizado por aplicações que realizam pré-processamento ou rastreamento

off-line.

A Figura6mostra os diferentes formatos de representação de dados encontrados na literatura, é importante notar que a imagem pode erroneamente sugerir que a quantidade de informação contida em uma nuvem de pontos é sempre menor que a de um modelo

(34)

Figura 6 – Modelo de cubo representado com diferentes níveis de informação: a) nuvem de pontos, b) wireframe,

c) modelo sólido, d) modelo completo (fonte: o autor)

Fonte: O autor

aramado do mesmo objeto, e assim sucessivamente, embora essa afirmação nem sempre seja verdadeira considerando que volume de dados no modelo final também depende do nível de detalhe.

2.7.1 Nível de detalhe

O nível de detalhe (CLARK, 1976) de um modelo, é a propriedade que influência a quantidade de primitivas usadas para aproximar uma função continua não linear no espaço 3D, ou seja, o nível de detalhe influência quantos segmentos de reta são utilizados para aproximar uma linha curva, ou quantas faces são utilizadas para aproximar uma superfície côncava, convexa ou rugosa.

(35)

Figura 7 – Objeto representado com múltiplos níveis de detalhe

Fonte: O autor

influenciaria negativamente no rastreamento. A Figura 7 ilustra mudanças no nível de detalhamento, e a relação de semelhança com o aspecto visual do objeto.

Na área de computação gráfica existem diversas técnicas que tratam nível de detalhe para modelos de renderização, porém, essas técnicas não se aplicam aos modelos de rastreamento.

2.7.2 Modelagem para rastreamento

É importante explicitar a diferença básica entre os modelos 3D destinados a renderização e os modelos destinados a rastreamento.

O modelo de renderização tende a ter o maior nível de detalhe possível, além do mais alto nível de informação sobre o objeto.

Um modelo utilizado para rastreamento deve ser desenvolvido especificamente para esse propósito, ou seja, respeitando o nível de detalhe adequado ao cenário de aplicação, caso a aplicação envolva mudanças constantes de cenário, devem haver múltiplos modelos com diferentes níveis de detalhe.

Assumindo que uma alta complexidade do modelo influência negativamente o desempenho das técnicas de rastreamento, para todos os experimentos realizados no contexto dessa dissertação, os modelos produzidos apresentam o menor nível de detalhe aceitável para rastreamento.

(36)

2.8 FLUXO ÓPTICO

Existe uma semelhança natural entre quadros de vídeo subsequentes, independente-mente de estes procederem de acesso a um arquivo, ou de captura direta da câmera, essa semelhança é uma característica inerente ao cenário de rastreamento, tanto das técnicas planares quanto das baseadas em modelo.

Quando a informação obtida do processamento de um quadro anterior é utilizada como "chute inicial"para o processamento de um quadro subsequente, essa proximidade visual entre os quadros está sendo explorada, o mesmo principio adotado por grande parte das técnicas vistas na literatura, como pode ser visto no Capítulo 3.

A relação de disparidade (movimento aparente discreto dos pixels) entre um par de quadros de vídeo subsequentes é chamada de fluxo óptico, e trata-se de uma grandeza diretamente proporcional à translação da câmera, em outras palavras, quanto mais intenso o deslocamento da câmera, maior será a disparidade entre as duas imagens. Na Seção

2.11 pode ser verificado que esse problema se agrava ao aplicar essas técnicas a cenas de grandes dimensões.

Métodos de cálculo de fluxo óptico estimam a disparidade dos pixels entre as imagens. Esses métodos utilizam a abordagem de campo de fluxo de constância de brilho (Brightness Constancy Model, BCM) na qual assume-se que propriedades fotogramétricas

da imagem como intensidade e matiz de cor permanecem constantes.

Segundo (NICOSEVICI; GARCIA, 2013) os métodos de cálculo de fluxo óptico se dividem em duas categorias principais, os métodos globais como o de Horn e Schunck (HORN; SCHUNCK, 1981) e os métodos locais como o algoritmo Lucas-Kanade (LUCAS; KANADE, 1981). O algoritmo de Lucas e Kanade é amplamente utilizado por aplicações de rastreamento baseadas em fluxo óptico em toda a literatura.

Um erro comum a várias abordagens estudadas é supor que o vetor de translação da pose da câmera terá sempre uma norma com valor arbitrariamente pequeno, e, por tanto, incumbir demasiada influência à informação decorrente do processamento do quadro anterior, o resultado acaba sendo uma tendência natural ao acúmulo de erro. É notável que essa decisão pode levar ao fenômeno do acúmulo de erro.

2.9 OCLUSÃO

Oclusão, no âmbito de processamento de imagem e visão computacional, é descrita como o fenômeno pelo qual um objeto é obstruído fisicamente por outro objeto, ou tendo sua imagem projetada sobreposta por um artefato de câmera como uma sombra opaca ou uma luz intensa, tendo sua projeção removida total ou parcialmente da imagem da câmera.

(37)

Oclusão é um fenômeno natural e recorrente na operação de aplicações de rastrea-mento, se fazendo presente mesmo em ambientes controlados.

Ao desenvolver aplicações de rastreamento, parte-se da premissa de que parte do desenvolvimento da técnica consiste em torná-la robusta aos maiores níveis de oclusão possíveis, adaptando-se à inserção e sobreposição de novos objetos na cena, bem como de artefatos da imagem como desfoque de movimento e reflexo especular.

Isso normalmente implica em mudar a estratégia de extração de informação, ou seja, a fonte principal de informação da cena. Nesse ponto, as técnicas que restringem o campo de busca através de silhuetas e campos de busca pré processados tendem a falhar, pois perdem a capacidade de usar a informação útil da cena não oclusa que seja externa ao objeto rastreado.

2.10 PERDA DE RASTREAMENTO E REINICIALIZAÇÃO

A perda de rastreamento é definida como a falha sistemática de múltiplas etapas de uma iteração da técnica de rastreamento que inviabiliza a continuação do processo.

Uma falha que impede completamente o rastreamento geralmente é resultado de uma mudança drástica no ambiente da cena, mudanças drásticas de iluminação, oclusão total da cena, movimento rápido de câmera, e quebra de rigidez do cenário são exemplos de mudanças que podem causar perda de rastreamento. Isso se deve às limitações físicas dos próprios sensores de câmera, bem como a variedade do cenário de aplicação. Isto posto, é natural concluir que todas as técnicas investigadas ou desenvolvidas falhem em algum momento durante a aplicação, dando vazão à necessidade de técnicas de reinicialização.

As técnicas de inicialização consistem em retornar à aplicação que utiliza rastrea-mento a um estado anterior à falha, utilizando a informação já processada como base para reiniciar o rastreamento quando condições do cenário o tornem novamente viável.

Outra vertente sugere que diferentes técnicas de rastreamento possam ser aplicadas em conjunto, ou alternadamente para prevenir a perda de rastreamento. Ao considerar o cenário de aplicação estudado nessa dissertação, esse tipo de falha se torna um fator ainda mais importante.

2.11 RASTREAMENTO DE OBJETOS DE GRANDES

DIMEN-SÕES

Na maioria dos experimentos de rastreamento baseado em modelo encontrados na literatura, os testes são executados de forma a favorecer o uso do plano de foco da câmera, otimizando a definição da imagem, utilizando objetos pequenos o suficiente para

(38)

serem colocados sobre uma bancada e rastreados de uma distância inferior dois metros. No contexto dessa dissertação, os objetos de teste que atendem a essas caracteristicas comuns ao cenário tradicional de rastreamento são classificados como sendo de pequeno porte.

O rastreamento de objetos de grandes dimensões apresenta um desafio, pois implica em situações onde não existe esse nível de controle sobre os experimentos. Elevar o nível das técnicas de rastreamento às aplicações de grande porte significa rastrear um objeto que pode ter sido filmado a virtualmente qualquer distância (de apenas alguns metros até a alguns quilômetros de distância), nesse nível, a maioria das abordagens baseadas em modelo tradicionais simplesmente falham. O Capítulo 4 expõe alguns detalhes dessa diferença de contexto, que evidencia ainda mais à necessidade de uma abordagem especifica de rastreamento de grandes proporções.

(39)

3 ESTADO DA ARTE

Esse capítulo explora os avanços relacionados ao pipeline de rastreamento de objetos 3D, com foco no rastreamento baseado em modelo. São apresentados , neste capítulo, os trabalhos acadêmicos encontrados na literatura cujos conceitos, técnicas e questionamentos de alguma forma contribuíram para a condução da pesquisa em que esta dissertação se insere.

As técnicas de rastreamento baseado em modelo encontradas foram classificadas em três categorias, baseando-se em suas características principais:

• Rastreamento baseado em arestas;

• Rastreamento baseado em features;

• Rastreamento híbrido.

Foi percebido durante a pesquisa que a maioria das técnicas são baseadas em fluxo óptico. O que acarreta a necessidade de uma estratégia externa de recuperação em caso de perda do rastreamento ou acúmulo de erro inerente ao fluxo óptico como explicado no Capítulo 2.

As implementações desenvolvidas a partir das técnicas aqui descritas, partem do princípio de que existe uma pose inicial pré-determinada e muitas das técnicas, em especial as baseadas puramente em arestas, se mostram extremamente sensíveis a erros existentes nos dados de inicialização.

Algumas implementações encontradas na literatura foram desenvolvidas especifica-mente para ambientes externos, o que as aproxima do escopo dessa dissertação, merecendo especial atenção aos detalhes conceituais inerentes.

A biblioteca ViSP (MARCHAND; SPINDLER; CHAUMETTE, 2005) apresenta um framework robusto em termos de rastreamento baseado em modelo. Esta biblioteca figura como um objeto de discussão relevante para a presente dissertação pois serviu de base para o estudo do pipeline de rastreamento baseado em modelo. Adicionalmente, as implementações dos algoritmos extraídos da literatura, utilizadas nos experimentos comparativos dessa dissertação, foram extraídas desse framework.

3.1 RASTREAMENTO BASEADO EM ARESTAS

As primeiras abordagens de rastreamento baseado em modelo utilizavam arestas. O principal motivo desta abordagem se deve ao baixo custo computacional e sua facilidade de