Reconhecimento eficiente de objetos usando multifoveamento em nuvem de pontos 3D

Texto

(1)UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE. U NIVERSIDADE F EDERAL DO R IO G RANDE DO N ORTE C ENTRO DE T ECNOLOGIA P ROGRAMA DE P ÓS -G RADUAÇÃO EM E NGENHARIA E LÉTRICA E DE C OMPUTAÇÃO. Reconhecimento eficiente de objetos usando multifoveamento em nuvem de pontos 3D. Fabio Fonseca de Oliveira. Orientador: Prof. Dr. Rafael Beserra Gomes. Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Engenharia Elétrica e de Computação da UFRN (área de concentração: Engenharia de Computação) como parte dos requisitos para obtenção do título de Mestre em Ciências.. Número de ordem PPgEEC: M498 Natal, RN, julho de 2017.

(2) Universidade Federal do Rio Grande do Norte – UFRN Sistema de Bibliotecas – SISBI Catalogação de Publicação na Fonte. UFRN / Biblioteca Central Zila Mamede Oliveira, Fabio Fonseca de. Reconhecimento eficiente de objetos usando multifoveamento em nuvem de pontos 3D / Fabio Fonseca de Oliveira. – 2017. 87 f.: il. Dissertação (mestrado) – Universidade Federal do Rio Grande do Norte, Centro de Tecnologia, Programa de Pós–Graduação em Engenharia Elétrica e de Computação. Natal, RN, 2017. Orientador: Prof. Dr. Rafael Beserra Gomes. 1. Engenharia de computação – Dissertação. 2. Estrutura foveada – Dissertação. 3. Multifoveamento – Dissertação. 4. Reconhecimento de objetos 3D – Dissertação. 5. Nuvem de pontos – Dissertação. 6. Nuvem de pontos foveada – Dissertação. I. Gomes, Rafael Beserra. II. Título. RN/UF/BCZM. CDU 004.

(3)

(4)

(5) Aos meus pais que dedicaram a vida à educação de seus filhos..

(6)

(7) Agradecimentos. À minha família pelo apoio durante esta jornada. Ao meu orientador, professor Rafael Beserra Gomes, sou grato pela orientação, pela ajuda na revisão desta dissertação e pelas sugestões de temas. Aos demais colegas de pós-graduação, graduação e companheiros do Laboratório Natalnet pelas críticas, colaborações e sugestões. Aos professores da PPgEEC, DCA e DIMAP que contribuíram de forma direta ou indireta no mestrado. À CAPES, pelo apoio financeiro..

(8)

(9) Resumo. As inovações tecnológicas no campo de hardwares e sensores 3D permitiram realizar a aquisição de nuvens de pontos 3D em tempo real. Como consequência, surgiram variedades de aplicações interativas relacionadas ao mundo 3D que cada vez mais vêm recebendo atenção dos pesquisadores. No entanto, um dos principais problemas que ainda permanece é o processamento computacionalmente intensivo que exige abordagens otimizadas para lidar com esse modelo de visão 3D, especialmente quando é necessário realizar tarefas em tempo real. Assim sendo, partimos da proposta de um modelo de multirresolução 3D apresentado como nuvens de pontos foveada que é uma possível solução para esse problema, mas se limita a uma única estrutura foveada com mobilidade dependente do contexto. Desse modo a nossa proposta é um aperfeiçoamento desse modelo com a incorporação de múltiplas estruturas foveadas. Entretanto, a união de várias estruturas foveadas resulta em um considerável aumento de processamento, uma vez que há interseções entre regiões de estruturas distintas, as quais são processadas múltiplas vezes. Solucionamos esse problema propondo um modelo de multifoveamento que considera as interseções durante a união das estruturas foveadas. Tal modelo pode ser usado para identificar objetos em nuvens de pontos 3D, uma das tarefas chaves para a automação, com sincronização eficiente, permitindo a validação do modelo e verificação da sua aplicabilidade no contexto de visão computacional. Os resultados demonstraram um ganho em desempenho do modelo de multifoveamento proposto em relação ao uso de múltiplas estruturas foveadas do modelo de nuvens de pontos. Palavras-chave: Estrutura Foveada, Multifoveamento, Reconhecimento de Objetos 3D, Nuvem de Pontos, Nuvem de Pontos Foveada..

(10)

(11) Abstract. Technological innovations in the field of hardware and 3D sensors allowed real time 3D point clouds acquisition. Therefore, varieties of interactive applications related to the 3D world that have been receiving increasing attention from researchers, arisen. However, one of the main problems that remains is the computationally intensive processing that requires optimized approaches to deal with this 3D vision model, especially when it is necessary to perform tasks in real time. Thus, we started from a proposed 3D multiresolution model presented as foveated point clouds which is a possible solution to this problem, but is limited to a single foveated structure with context dependent mobility. In this way, our proposal is an improvement of this model with the incorporation of multiple foveated structures. However, the union of several foveated structures results in a considerable increase of processing, since there are intersections between regions of distinct structures, which are processed multiple times. We address this problem by using a proposed multifoveated model that regards intersections on the union procedure. Such approach can be used to identify objects in 3D point clouds, one of the key tasks for automation, with efficient synchronization, allowing the validation of the model and verification of its applicability in the context of computer vision. The results demonstrate a gain in performance of the proposed model in relation to the use of multiple structures of the foveated point cloud model. Keywords: Foveated Structure, Multifoveation, 3D Object Recognition, Point Clouds, Foveated Point Clouds..

(12)

(13) Sumário. Sumário. i. Lista de Figuras. iii. Lista de Tabelas. ix. Lista de Símbolos e Abreviaturas. xi. 1. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 1 2 4 4 5. Fundamentação Teórica 2.1 Modelos de multirresolução . . . . . . . . . . . . . . . . . . 2.1.1 Multirresolução com fóvea centralizada . . . . . . . . 2.1.2 Multirresolução com fóvea móvel . . . . . . . . . . . 2.1.3 Multifoveamento em multirresolução com fóvea móvel 2.2 Técnicas para nuvem de pontos 3D . . . . . . . . . . . . . . . 2.2.1 Features para nuvem de pontos 3D . . . . . . . . . . . 2.2.2 Descritor SHOT . . . . . . . . . . . . . . . . . . . . 2.2.3 Foveamento em nuvem de pontos . . . . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . .. 7 7 8 9 10 11 11 13 17. 3. Trabalhos relacionados 3.1 Trabalhos de multifoveamento . . . . . . . . . . . . . . . . . . . . . . . 3.2 Trabalhos com nuvem de pontos . . . . . . . . . . . . . . . . . . . . . .. 21 21 24. 4. Multifoveamento em nuvem de pontos 4.1 Região de interseção entre níveis . . . . . . . . . . . . . . . . . . . . . 4.2 Multifoveamento em nuvem de pontos . . . . . . . . . . . . . . . . . . 4.2.1 Modelo de multifoveamento em nuvem de pontos . . . . . . . . 4.2.2 Downsampling (Sub-amostragem) . . . . . . . . . . . . . . . . 4.3 Reconhecimentos de objetos na nuvem de pontos . . . . . . . . . . . . 4.3.1 Extração dos local 3D descriptors . . . . . . . . . . . . . . . . 4.3.2 Relação de correspondência de keypoints (Keypoints Matching). 29 29 34 36 36 37 38 39. 2. Introdução 1.1 Motivação . . . . . . . . . 1.2 Contribuições . . . . . . . 1.3 Terminologia . . . . . . . 1.4 Organização da Dissertação. . . . .. . . . .. . . . .. . . . .. i. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . . . . ..

(14) 4.3.3. 4.4 5. 6. Funcionamento do agrupamento por correspondência (correspondence grouping) . . . . . . . . . . . . . . . . . . . . . . . . . . Reconhecimentos de objetos com multifoveamento . . . . . . . . . . . .. Experimentos e Resultados 5.1 Conjunto de dados usados nos experimentos . . . . . . . . . . . . . . . . 5.2 Exibição das abordagens dos experimentos de comparação . . . . . . . . 5.2.1 Ferramentas utilizadas para validação da metodologia . . . . . . . 5.2.2 Experimento sem foveamento para a primeira cena . . . . . . . . 5.2.3 Experimento foveado envolvendo todos os objetos para a primeira cena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.4 Experimento foveado envolvendo um objeto por vez para a primeira cena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.5 Experimento multifoveado para a primeira cena . . . . . . . . . . 5.2.6 Experimento sem foveamento para a segunda cena . . . . . . . . 5.2.7 Experimento foveado envolvendo todos os objetos para a segunda cena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.8 Experimento foveado envolvendo um objeto por vez para a segunda cena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.9 Experimento multifoveado para a segunda cena . . . . . . . . . . 5.3 Resultados da comparação entre abordagens . . . . . . . . . . . . . . . . 5.3.1 Resultados analisados do grupo de desempenho para a primeira cena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Resultados analisados do grupo de exatidão para a primeira cena . 5.3.3 Resultados analisados do grupo de desempenho para a segunda cena 5.3.4 Resultados analisados do grupo de exatidão para a segunda cena . 5.4 Comparação entre abordagens multifoveadas . . . . . . . . . . . . . . . 5.5 Resultados entre abordagens multifoveadas . . . . . . . . . . . . . . . . 5.6 Discussão sobre problemas da NPF . . . . . . . . . . . . . . . . . . . . . 5.7 Discussão e limitações . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusão 6.1 Trabalhos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Referências bibliográficas. 40 41 45 45 47 47 49 50 51 52 53 54 54 55 56 57 60 62 65 66 68 74 78 81 82 83.

(15) Lista de Figuras. 1.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4. 2.1. Representação da aplicação do modelo MFC na Figura 2.1a e a Figura 2.1b é a exemplificação da execução do modelo MFM. . . . . . . . . . .. 8. Representação da execução da NPF com três níveis de densidade e m = 2 com a aplicação de detecção de objetos como plano de fundo. Possuindo um total de 74742 pontos e 2429 keypoints selecionados, onde a cena original possuí 307200 e seleciona 3747 keypoints no geral. . . . . . . . .. 18. A Figura de (Gomes et al. 2013) é um exemplo de como é disposta a estrutura foveada no modelo de NPF. . . . . . . . . . . . . . . . . . . . .. 19. Imagens adaptadas do trabalho (Camacho et al. 2002). Segundo Camacho Lozano et al., a Figura 3.1a corresponde a exemplificação da estrutura usada no método deles com l, r,t, b = 2, 9, 3, 4, já na Figura 3.1b é outra configuração com l, r,t, b = 7, 1, 4, 3 e pôr fim a Figura 3.1c é uma estrutura multifoveada que é formada pelas estruturas das Figuras 3.1a e 3.1b. .. 22. Representação do diagrama de operação de validação das redundâncias no multifoveamento 3D. Foram organizadas as estruturas foveadas nas colunas e enumeradas de F1 → Fn e seus respectivos níveis foram organizados em linhas enumerados de L0 → Lm. A direção da seta indica a partida e chegada da verificação do ponto. . . . . . . . . . . . . . . . . .. 33. Ilustração que corresponde ao esquema original de reconhecimento de objetos sem foveamento. (Adaptação de (Gomes et al. 2013)) . . . . . . .. 37. Ilustração do esquema de reconhecimento usado na NPF, onde o downsampling possibilita uma redução considerável dos pontos na cena. No entanto, ele não consegue reconhecer todos os objetos se estiverem muito afastados com apenas uma pequena fóvea. (Adaptação de (Gomes et al. 2013)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38. Ilustração do esquema de reconhecimento dos objetos usados na MFNP. Nota-se que é possível reconhecer os objetos que estão muito afastados um do outro com múltiplas fóveas. . . . . . . . . . . . . . . . . . . . . .. 43. 2.2. 2.3. 3.1. 4.1. 4.2 4.3. 4.4. iii.

(16) 5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 5.8. Representação do conjunto de dados que ilustra a cena com objetos um pouco distantes. (a) a nuvem de pontos original em visualização em projeção paralela e (b) é a representação do ground-truth onde cada tipo de objeto é destacado em uma cor diferente (nosso alvo são os azuis). A nuvem de pontos foi adquirida dos trabalhos (Tombari et al.2011, Tombari 2016). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. Representação do conjunto de dados que ilustra a cena com objetos um pouco próximos. (a) a nuvem de pontos original em visualização em projeção paralela e (b) é a representação do ground-truth onde cada tipo de objeto é destacado em uma cor diferente (nosso alvo são os azuis). A nuvem de pontos foi adquirida dos trabalhos (Tombari et al.2011, Tombari 2016). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. Ilustração do modelo de objeto utilizado para realização da detecção de objetos. (a) o modelo de forma frontal e (b) o modelo disposto de lado. A nuvem de pontos foi adquirida dos trabalhos (Tombari et al.2011, Tombari 2016). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 47. O modelo identificado foi de uma garrafa de suco ilustrada pelas Figuras 5.3a e 5.3b onde seus parâmetros são extraídos e realçados em vermelho. Mostra-se os resultados visuais das configurações relacionadas ao experimento 4 (FCTS) para a primeira cena. . . . . . . . . . . . . . . . .. 50. O modelo identificado foi de uma garrafa de suco ilustrada pelas Figuras 5.3a e 5.3b onde seus parâmetros são extraídos e realçados em vermelho. Em (a) e (b) são mostrados os resultados visuais das configurações relacionadas aos experimentos 6 (FCME) e 5 (FCMD), respectivamente, para a primeira cena. O mapeamento dos números das experiências para as respectivas descrições está na Tabela 5.1. . . . . . . . . . . . . . . . . . .. 51. O modelo identificado foi de uma garrafa de suco ilustrada pelas Figuras 5.3a e 5.3b onde seus parâmetros são extraídos e realçados em vermelho. É o resultado visual das configurações relacionadas ao experimento 3 (MFNP) sendo perceptível que as duas estruturas apresentadas são as que compõem 5.5b e 5.5a para a primeira cena. . . . . . . . . . . . . . .. 52. O modelo identificado foi de uma garrafa de suco ilustrada pelas Figuras5.3a e 5.3b onde seus parâmetros são extraídos e realçados em vermelho. Mostra-se os resultados visuais das configurações relacionadas ao experimento 4 (FCTS) para a segunda cena. . . . . . . . . . . . . . . . .. 53. Exemplos dos diferentes arranjos de estruturas foveadas usadas no experimento de objetos próximos. O modelo identificado foi de uma garrafa de suco ilustrada pelas Figuras 5.3a e 5.3b onde seus parâmetros são extraídos e realçados em vermelho. Em (c) e (d) são mostrados os resultados visuais das configurações relacionadas aos experimentos 6 (FCME) e 5 (FCMD), respectivamente, para a segunda cena. O mapeamento dos números das experiências para as respectivas descrições está na Tabela 5.1. .. 55.

(17) 5.9. O modelo identificado foi de uma garrafa de suco ilustrada pelas Figuras 5.3a e 5.3b onde seus parâmetros são extraídos e realçados em vermelho. É o resultado visual das configurações relacionadas ao experimento 3 (MFNP) sendo perceptível que as duas estruturas apresentadas são as que compõem 5.5b e 5.5a para a segunda cena. . . . . . . . . . . . . . .. 56. 5.10 O grupo de resultados dos desempenhos das estratégias realizadas referentes à cena ilustrada na Figura 5.1a, ou seja, disposição dos objetos afastados. Em (a) é mostrado o número total de pontos na cena final analisada, (b) é o resultado da quantidade de pontos selecionados de keypoints na cena final analisada após a execução das estratégias, (c) é a quantidade de objetos reconhecidos para cada configuração apresentada e o item (d) é a média dos tempos computados em cada experimento realizado onde pode ser notado mais detalhadamente esse resultado na Tabela 5.9 (ver mais detalhes no texto). As correspondências dos números dos experimentos podem ser vistas na Tabela 5.1. . . . . . . . . . . . . . . . . . . .. 58. 5.11 O grupo de resultados das exatidões das estratégias realizadas referentes à cena ilustrada na Figura 5.1a, ou seja, disposição dos objetos afastados. Em (a) é mostrado o número total de correspondências realizadas na cena final analisada, em (b) temos o resultado da quantidade de verdadeirospositivos selecionados na cena, (c) é a precisão de cada estratégia calculada a partir da Equação 5.2 e o item (d) é a sensibilidade de cada estratégia usando a Equação 5.3 (ver mais detalhes no texto). Os números dos experimentos são mapeados no pela Tabela 5.1. . . . . . . . . . . . . . .. 61. 5.12 O grupo de resultados dos desempenhos das estratégias realizadas referentes à cena ilustrada na Figura 5.2a, ou seja, disposição dos objetos afastados. Em (a) é mostrado o número total de pontos na cena final analisada, (b) é o resultado da quantidade de pontos selecionados de keypoints na cena final analisada após a execução das estratégias, (c) é a quantidade de objetos reconhecidos para cada configuração apresentada e o item (d) é a média dos tempos computados em cada experimento realizado onde pode ser notado mais detalhadamente esse resultado na Tabela 5.9 (ver mais detalhes no texto). As correspondências dos números dos experimentos podem ser vistas na Tabela 5.1. . . . . . . . . . . . . . . . . . . .. 63. 5.13 O grupo de resultados das exatidões das estratégias realizadas referentes à cena ilustrada na Figura 5.2a, ou seja, disposição dos objetos afastados. Em (a) é mostrado o número total de correspondências realizadas na cena final analisada, em (b) temos o resultado da quantidade de verdadeirospositivos selecionados na cena, (c) é a precisão de cada estratégia calculada a partir da Equação 5.2 e o item (d) é a sensibilidade de cada estratégia usando a Equação 5.3 (ver mais detalhes no texto). Os números dos experimentos são mapeados no pela Tabela 5.1. . . . . . . . . . . . . . .. 64.

(18) 5.14 Conjunto de dados utilizados na realização dos experimentos de sobreposição das estruturas foveadas com diferentes configurações. (a) Exemplo da disposição da estrutura foveada base para as sobreposições que segue os parâmetros da Tabela 5.3, (b) Exemplificação do arranjo dos keypoints (destacados na cor azul) após o processo de foveamento, (c) a nuvem de pontos do objeto desejado e (d) a cena original usada no experimento de sobreposição das estruturas foveadas. As nuvens de pontos dos itens (c) e (d) foram adquiridas do trabalho (Aldoma et al. 2012). No item (d) a visualização é baseada na projeção paralela, enquanto (a) e (b) são baseados na perspectiva. Além do mais, em (a) e (b) o modelo extraído é destacado em vermelho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 67. 5.15 Resultados dos experimentos das sobreposições multifoveadas com e sem tratamento de redundâncias baseados na cena da Figura 5.14d. No item (a) é exibido o número total de pontos no final de cada abordagem e o (b) é a quantidade de keypoints selecionados na cena analisada. . . . . . . . .. 69. 5.16 Resultados dos experimentos das sobreposições multifoveadas com e sem tratamento de redundâncias baseados na cena da Figura 5.14d. No item (a) é exibido o número total de correspondências realizadas na cena final analisada e o (b) é a quantidade de verdadeiros-positivos relacionados, ou seja, relacionamento corretos dos keypoints da cena com o objeto. . . . .. 70. 5.17 Resultados dos experimentos das sobreposições multifoveadas com e sem tratamento de redundâncias baseados na cena da Figura 5.14d. No item (a) é exibido a média dos tempos de execução dos experimentos realizados e o (b) é a quantidade de encontrados ao final do processo de reconhecimento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 71. 5.18 Resultados dos experimentos das sobreposições multifoveadas com e sem tratamento de redundâncias baseados na cena da Figura 5.14d. No item (a) é exibida a precisão das estratégias usadas e o (b) é sensibilidade das estratégias utilizadas as Equações utilizadas são 5.2 e 5.3, respectivamente. 72 5.19 Ilustração do experimento de sobreposição quase completa que utiliza 16 estruturas foveadas para o reconhecimento de objeto. De modo que temos a detecção do objeto desejado destacada na cor vermelha na cena. . . . .. 73. 5.20 Resultados do experimento de detecção de objetos quando há a ocorrência do objeto desejado pertencer a dois níveis de uma mesma estrutura foveada ou está totalmente fora da caixa fóvea baseado na cena da Figura 5.14d correspondente ao experimento de posicionamento das caixas fóveas. No item (a) é exibido o número total de pontos no final de cada abordagem e o (b) é a quantidade de keypoints selecionados na cena analisada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 75.

(19) 5.21 Resultados do experimento de detecção de objetos quando há a ocorrência do objeto desejado pertencer a dois níveis de uma mesma estrutura foveada ou está totalmente fora da caixa fóvea baseado na cena da Figura 5.14d correspondente ao experimento de posicionamento das caixas fóveas. No item (a) é exibida o número de correspondências realizadas para cada estratégia e o (b) é o número de verdadeiros-positivos relacionados. . 5.22 Resultados do experimento de detecção de objetos quando há a ocorrência do objeto desejado pertencer a dois níveis de uma mesma estrutura foveada ou está totalmente fora da caixa fóvea baseado na cena da Figura 5.14d correspondente ao experimento de posicionamento das caixas fóveas. No item (a) é exibida a precisão das estratégias usadas e o (b) é referente à sensibilidade das estratégias utilizadas as Equações utilizadas são 5.2 e 5.3, respectivamente. . . . . . . . . . . . . . . . . . . . . . . . 5.23 Conjunto de dados utilizados na realização do experimento de detecção de objetos quando há a ocorrência do objeto desejado pertencer a dois níveis de uma mesma estrutura foveada ou está totalmente fora da caixa fóvea. (a) Exemplo da configuração da estrutura foveada que cobre a parte de cima do objeto, (b) Exemplificação da configuração da estrutura foveada que cobre a parte de cima de baixo, (c) configuração da estrutura foveada que cobre a parte de direita do objeto, (d) a configuração da estrutura foveada que cobre a parte de esquerda do objeto, (e) configuração da estrutura foveada que tem o objeto fora da caixa fóvea e (f) configuração da estrutura foveada que cobre o objeto com o tamanho da caixa fóvea reduzida. As nuvens de pontos dos itens foram adquiridas do trabalho (Aldoma et al. 2012). O modelo extraído é destacado em vermelho, embora no item (f) foi removido o realce vermelho para melhor visualização do posicionamento da caixa fóvea da estrutura. . . . . . . . . . . . . . .. 76. 77. 79.

(20)

(21) Lista de Tabelas. 3.1 4.1. 5.1 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 5.8. 5.9. Trabalhos relacionados com técnicas de multifoveamento e nuvem de pontos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 28. Lista de parâmetros para o movimento das estruturas foveadas e seus respectivos valores padrão. Todos os parâmetros são fornecidos na unidade de (metros) com exceção de m f que é quantidade. . . . . . . . . . . . . .. 42. Enumeração das abordagens tratadas na comparação de resultados para ambas as cenas os experimentos de comparação. . . . . . . . . . . . . . . . . . . . . . . . . .. 49. Lista de parâmetros do algoritmo de agrupamento por correspondência e seus valores padrões (ver no texto mais detalhadamente). Todos os parâmetros são fornecidos na cena na unidade de (metros). . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. Lista de parâmetros da abordagem com fóvea móvel 3D e seus valores padrões (ver no texto mais detalhadamente) para o experimento referente à Figura 5.1. Todos os parâmetros são fornecidos na cena na unidade de (metros). . . . . . . . . . . . . .. 51. Lista de parâmetros de correspondência por estruturas foveadas únicas para cada objeto na cena (experimento referente à Figura 5.1). Os outros parâmetros são de acordo com a Tabela 5.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 52. Lista de parâmetros de correspondência multifoveada para o envolvimento dos dois objetos da cena (experimento referente à Figura 5.1). Os outros parâmetros são de acordo com a Tabela 5.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53. Lista de parâmetros do modelo de NPF e seus valores padrões (ver no texto mais detalhadamente) para o experimento referente à Figura 5.2 (objetos desejados com maior proximidade entre eles). Todos os parâmetros são fornecidos na cena na unidade de (metros). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. Lista de parâmetros de correspondência por estruturas foveadas únicas para cada objeto na cena (experimento referente à Figura 5.2). Os outros parâmetros são de acordo com a Tabela 5.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. Lista de parâmetros de correspondência multifoveada para o envolvimento dos dois objetos da cena (experimento referente à Figura 5.2). Os outros parâmetros são de acordo com a Tabela 5.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 55. Comparação dos tempos de execução das estratégias realizadas para a cena referente à Figura 5.1a, ou seja, disposição dos objetos afastados. O intervalo de confiança usado foi de 95% por t-Student. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 59. 5.10 Comparação dos tempos de execução das estratégias realizadas para a cena referente à Figura 5.2a, ou seja, disposição dos objetos próximos. O intervalo de confiança usado foi de 95% por t-Student. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ix. 65.

(22) 5.11 Lista dos valores padrões dos parâmetros das estruturas foveadas móveis nos experimen-. 5.12. tos de sobreposição (ver mais detalhes no texto). Todos os parâmetros da cena são dados na unidade (metros). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lista de parâmetros do experimento de detecção de objetos quando há a ocorrência do objeto desejado pertencer a dois níveis de uma mesma estrutura foveada ou totalmente fora da caixa fóvea (experimento referente à Figura 5.14c). Os outros parâmetros não citados estão de acordo com a Tabela 5.11. . . . . . . . . . . . . . . . . . . . .. 68. 74.

(23) Lista de Símbolos e Abreviaturas. EF:. Estrutura Foveada. EVD:. Eigenvalue Decomposition. FCMD: Foveamento com única estrutura foveada cobrindo o objeto mais à direit FCME:. Foveamento com única estrutura foveada cobrindo o objeto mais à esquerda. FCTS:. Foveamento com única estrutura foveada cobrindo todos objeto simultaneamente. FPGA:. Field Programmable Gate Array. GIS:. Geographical Information System. GPS:. Global Positioning System. GUI:. Interface gráfica do utilizador. LiDAR: Light Detection And Ranging LOD:. Level of detail. MFC:. Multirresolução com Fóvea Centralizada. MFM:. Multirresolução com Fóvea Móvel. MFNP:. Multifoveamento em Nuvem de Pontos. MMFM: Multifoveamento em Multirresolução com Fóvea Móvel NP:. Nuvem de Pontos. NPF:. Nuvem de Pontos Foveada. PCA:. Principal Component Analysis. PCL:. Point Cloud Library. PCS:. Point Cloud Server. PRP:. Projection-Recognition-Projection xi.

(24) RA:. Reference Axis. RF:. Reference Frame. SHOT:. Signature of Histograms of Orientations. SRVF:. Scaling-Rotating Variant Filtering. SURF:. Speeded-Up Robust Features. SVD:. Singular Value Decomposition. TI:. Tecnologia da Informação. TLS:. Total Least Square. VORT:. Video-based Object Recognition and Tracking.

(25) Capítulo 1 Introdução. As recentes inovações tecnológicas no campo de desenvolvimentos de componentes eletrônicos facilitam a aquisição e a acessibilidade a estes. Então, tem havido uma evolução significante em tecnologias de hardwares. Uma dessas foram nos sistemas de visão computacional que podem capturar dados do mundo real e processar esses dados espaciais, a fim de extrair as informações de profundidade inerentes ao espaço analisado. As bases do sistema desenvolvido nesta dissertação são nesses sistemas que capturam e interpretam os dados em forma tridimensional, pois oferecem mais detalhes nas informações, embora sejam mais populares os sistemas de visão computacional baseados em imagens 2D. A pesquisa em robótica tem tido grandes avanços sendo um dos alvos da comunidade cientifica e industrial. As aplicações são dadas de diversas formas, por exemplo, em fábricas (Mahesh et al. 2015, Lourenço et al. 2016), autonomia de veículos (da Silva & Gonçalves 2014, Serra et al. 2016, Mur-Artal et al. 2015, Santos et al. 2016), ajuda na aprendizagem (Lowry et al. 2016) e auxílio na vida doméstica (Endres et al. 2014). Uma das subáreas da robótica é a relacionada com autonomia dos robôs que tem o propósito de desenvolver entidades que possam responder a estímulos vindos do ambiente sem necessidade da intervenção humana. Embora as aplicações robóticas tenham diversos tipos de sensores como taquímetros, giroscópios, sonares e inerciais, um dos principais, senão o principal, são os sensores usados em visão computacional como as câmeras. A maioria dos sistemas robóticos com visão artificial computacional possuem sensores baseados em captura de imagens 2D. No entanto, existem alguns tipos de aplicações robóticas que necessitam das informações relativas à distância do observador até à cena (profundidade) para a realização adequada de algumas tarefas. Entretanto, é árduo o desenvolvimento de visão artificial aplicada à robótica, sendo a recuperação e uso eficiente dessas informações tridimensionais um grande desafio. Variedades de aplicações necessitam das informações de profundidade para realizar tarefas como, por exemplo, veículos autônomos, unidades lançadoras de projéteis, aplicações para a construção de mapas e sistemas de coleta de objetos. O trabalho Efficient 3D Object Recognition Using Foveated Point Clouds (Gomes et al. 2013) utiliza uma estrutura foveada (EF) para realizar a detecção de objetos em uma cena descrita por uma nuvem de pontos 3D (NP), a fim de diminuir o número de infor-.

(26) 2. CAPÍTULO 1. INTRODUÇÃO. mações não necessárias a priori durante o processamento. Essa redução traz benefícios no desempenho da tarefa executada, sem prejudicar o resultado final. Podemos dizer que uma estrutura foveada é uma armação seccionada em níveis que possuem resoluções diferentes (multirresolução), onde o tamanho do nível é inversamente proporcional à qualidade da resolução, de modo que cada um desses níveis é englobado sucessivamente pelo outro de maneira que todos sejam disjuntos. Entende-se que o sistema biológico de visão humana tem dois tipos de comportamento de atenção visual chamados de top-down e bottom-up (Katsuki & Constantinidis 2014). A atenção do tipo top-down é uma abordagem que se refere à orientação interna das atenções com base em conhecimento prévio, objetivos desejados e planejamento. Em contrapartida, a atenção do tipo bottom-up é dirigida apenas puramente por estímulos de fatores externos que se destacam, devido às suas propriedades inerentes em relação ao plano de fundo. Embora seja bastante complexa, a percepção visual humana tem uma grande eficiência para um objeto destacado por vez (Provis et al. 2013). Computacionalmente, para contornar essa limitação a forma mais adequada seria utilizar paralelismo, ou seja, aplicar várias EFs no ambiente de interesse para permitir a observação de vários objetos simultaneamente. Essa estratégia foi aplicada para imagens 2D (rasters) em Multifoveamento em Multirresolução com Fóveas Móveis (MMFM) (Medeiros 2016). O multifoveamento é um termo usado para a aplicação de várias estruturas foveadas em um conjunto de dados. Neste trabalho propomos uma nova abordagem de multifoveamento para nuvem de pontos 3D, utilizando a técnica de nuvem de pontos foveada (NPF) (Gomes et al. 2013) como a nossa base de desenvolvimento e a ideia de multifoveamento apresentada em MMFM (Medeiros 2016). O método apresentado será baseado no uso de várias EFs que são regiões com k níveis de densidades de dados que aumenta conforme a proximidade da região central da estrutura (fóvea), a fim de reconhecer vários objetos numa cena em NP. O nosso objetivo principal é evitar as redundâncias geradas pelas interseções das EFs em todos os níveis, gerando um processamento da nuvem de pontos mais eficiente. Nas EFs são aplicadas transformações chamadas de sub-amostragem (downsampling) que são a redução do número de dados em determinadas regiões por uma sub-amostragem. Para tal, é necessário conhecer profundamente como é feito o processo de reconhecimento de objetos em NP. Esses conhecimentos são necessários para determinar a eficácia do método proposto e a realização da implementação de forma adequada.. 1.1. Motivação. A motivação principal deste trabalho é apresentar um método baseado no conceito de multifoveamento que permita a realização de tarefas nas nuvens de pontos 3D com menor tempo de processamento sem comprometer a eficácia da tarefa. A elaboração desse método tem suas origens de trabalhos já realizados na área de imagens 2D, começando com um modelo baseado em multirresolução proposto por Gonçalves e colaboradores (Gonçalves et al. 2000) e Segundo et al. (Segundo et al. 2005) os quais serviram como inspiração para trabalhos realizados posteriormente. Esses dois trabalhos não tiveram a denominação definida na visão robótica. Em Gomes (Gomes 2009),.

(27) 1.1. MOTIVAÇÃO. 3. foi denominada a técnica de visão apresentada nos trabalhos como modelo de Multirresolução com Fóvea Centralizada (MFC), além de elaborar uma evolução do MFC chamado de modelo de Multirresolução com Fóvea Móvel (MFM). Na época da criação do modelo MFM a tecnologia de nuvem de pontos 3D começou a se tornar mais popular com o Microsoft Kinect (Microsoft 2016), seu kit de desenvolvimento e a biblioteca para desenvolvimento em NP chamada de Point Cloud Library (PCL). As vantagens da NP em relação às imagens 2D e o interesse de ampliar o alcance do MFM levou Gomes e colaboradores a importar as características do MFM para a NP em um modelo denominado Nuvem de Pontos Foveada (NPF) (Gomes et al. 2013). No entanto, com problemas em aberto discutidos ao longo deste trabalho. Voltando para a área de imagens 2D, Medeiros teve interesse em ampliar a abordagem do MFM para múltiplas fóveas. Em sua dissertação, Medeiros (Medeiros 2016) traz a ideia de aplicar vários MFM numa imagem, diminuindo as regiões redundantes geradas pelo encontro das estruturas foveadas. Assim foi proposto o modelo de Multifoveamento em Multirresolução com Fóveas Móveis (MMFM). Dados os trabalhos anteriores foi notado que seria possível ampliar a área de ação da NPF de forma semelhante à abordagem feita em (Medeiros 2016) com MFM, além das possíveis aplicações de um modelo que permita realização da multirresolução foveada em diferentes áreas de uma cena em NP, agilizando um processo computacionalmente custoso como a detecção de objetos de uma cena e tendo como principal desafio diminuir a deficiência da multirresolução. Assim sendo, o trabalho de Medeiros (Medeiros 2016) tem o escopo voltado para o campo 2D, enquanto a nossa proposta é voltada para o campo 3D, especificamente, para a nuvem de pontos genérica. Podemos tomar como exemplo um veículo autônomo equipado com sensores de aquisição de dados 3D e imagens 2D que tenham a representação do espaço 3D alinhada com as distâncias do mundo real e possua um equipamento acoplado disparador de projéteis. O propósito desse veículo seria acertar alvos predefinidos passados como modelo. Para concluir essa tarefa esse veículo precisa localizar algum alvo, calcular a distância, enviar as coordenadas para os atuadores do sistema realizar o movimento e efetuar o disparo. Por si só, o sistema desse veículo sem multirresolução teria problemas de desempenho pelo o fato de analisar um ambiente aberto rico em detalhes, tendo uma quantidade enorme de pontos para processar. Na aplicação de várias NPF seria possível reduzir o número de pontos, localizar vários alvos, ordená-los por prioridades (exemplo: menor gasto de energia), monitorá-los e aplicar o movimento necessário nos atuadores para terminar o objetivo. Além disso podemos ter aplicações que auxiliam na construção civil (Cho & Gai 2014) e indústria, dadas as complexidades dos ambientes e o tamanho dos equipamentos. Também seria possível aplicar este sistema multifoveado na compressão de informações geográficas sabido o enorme volume de informações que são adquiridas, permitindo armazenar os dados mais relevantes, de acordo com a necessidade do usuário. Outro ponto seria no uso de unidades robóticas que poderiam melhorar a precisão das tarefas e criar uma lista decisão de quais tarefas realizar com o peso da escolha baseado na distância..

(28) 4. CAPÍTULO 1. INTRODUÇÃO. 1.2. Contribuições. Nossas principais contribuições neste trabalho é aprimorar o funcionamento da NPF garantindo o funcionamento adequado das múltiplas estruturas foveadas de maneira simultânea numa cena. No entanto, como já citado, a reaplicação das estruturas foveadas geram informações repetidas que, diferentemente, do plano 2D que causa apenas reprocessamento, pois um pixel só pode assumir um valor. Na nuvem de pontos, isso gera múltiplos pontos, pois a representação computacional do espaço 3D pode ter vários pontos idênticos, pelo o fato da estrutura de dados desse espaço permitir isso, trazendo uma distorção nas keypoints1 da nuvem de pontos. Outra contribuição é a evolução de uma linha de trabalhos em foveamento passando pelos seguintes trabalhos: Multirresolução com fóvea centralizada (MFC) (Gonçalves et al. 2000, Segundo et al. 2005), Multirresolução com Fóvea Móvel (MFM) (Gomes 2009) e Foveamento em Nuvem de Pontos (NPF) (Gomes 2013), onde a linha cronológica até alcançar esta proposta é ilustrada na Figura 1.1.. Figura 1.1 Ilustração do caminho de linha evolutiva de trabalhos em foveamento Portanto, constatou-se que o processamento dos dados nessas estruturas foveadas acabava sendo elevado devido à quantidade de ambiguidades geradas pelas intersecções entre essas. Desta forma, propomos construir um método que garanta a mínima ocorrência de regiões redundantes durante o processamento, ou seja, ao ocorrer intersecções entre as estruturas foveadas a densidade de pontos e keypoints em cada nível da estrutura. Abordaremos esses casos no capítulo relacionado à problemática.. 1.3. Terminologia. A língua portuguesa tem uma carência em termos na área tecnológica, incluindo a de visão computacional. Então nessa proposta adotaremos alguns termos relativos ao 1 Conforme. Mian (Mian et al. 2010) são pontos adequados para realizar descrição e correspondência e constantes em relação aos pontos de vistas, ruído e variação..

(29) 1.4. ORGANIZAÇÃO DA DISSERTAÇÃO. 5. tratamento de dados processados com auxílio de modelos inspirados na fóvea. Assim traduzimos alguns termos e usamos expressões bastante utilizadas em inglês, a fim de facilitar a leitura: • foveamento (tradução para foveation): aplicação de um filtro baseado numa fóvea; • foveado (tradução para foveated): objeto no qual foi aplicado um filtro baseado numa fóvea; • modelo foveado (tradução para foveated model): modelo de filtro baseado numa fóvea; • estrutura foveada (tradução para foveated structure): delimitação espacial dividida em níveis baseado numa fóvea; • multifoveamento (tradução para multi-foveation ou multifoveation): aplicação de várias estruturas foveadas; • multifoveado (tradução para multifoveated): objeto no qual foram aplicadas várias estruturas foveadas. Já outras expressões foram mantidas com a grafia em inglês: • • • • • • • • • •. 1.4. keypoints : pontos chaves; features : características; botton-up : de baixo para cima; top-down : de cima para baixo; matching : relação de correspondência; correspondece grouping : grupo associativo; downsampling : subamostragem; resampling : reamostragem; support: vizinhança da superfície 3D de um ponto estipulado; bins: estruturas de armazenamento, ou seja, células.. Organização da Dissertação. A dissertação está estruturada da seguinte forma: Fundamentação Teórica como Capítulo 2 que apresenta os aspectos conceituais relacionados ao modelo proposto que são essenciais ao entendimento do trabalho. A descrição das referências do nosso sistema visual, passando pelas técnicas antecessoras ao nosso método. Além do detalhamento das ferramentas usadas para a realização da tarefa (reconhecimento de objetos) como: biblioteca computacional, descritor e técnicas auxiliares. Em seguida, o Capítulo 3 (Trabalhos Relacionados) relata os trabalhos vinculados ao tema desta proposta, principalmente os modelos multifoveados e nuvem de pontos que são a essência deste trabalho. O Capítulo 4 (Multifoveamento em nuvem de pontos 3D) é o principal item desta proposta e é dívida em três partes. Primeiramente, o modelo de multifoveamento em nuvem de pontos formalizado. Em seguida, discutiremos os algoritmos que utiliza como aplicação a detecção de objetos, dado que o método precisa de ao menos um fim para ser avaliado. Por fim, a exposição dos problemas em aberto deixados no modelo NPF..

(30) 6. CAPÍTULO 1. INTRODUÇÃO. Enquanto no Capitulo 5 (Experimentos e Resultados) são apresentados os experimentos e são discutidos seus respectivos resultados. Além de trazermos a confirmação que alguns dos problemas deixados em abertos foram resolvidos com base em experimentos. As conclusões sobre o trabalho e alguns destaques sobre os possíveis trabalhos futuros e aprimoramentos do mecanismo proposto MFNP no Capítulo 6..

(31) Capítulo 2 Fundamentação Teórica. Neste capítulo são apresentados as técnicas e metodologias existentes e desenvolvimentos anteriores que são essenciais ao entendimento desta proposta. As abordagens dos modelos de multirresolução foveados vistas neste capítulo, permitem o entendimento numa linha cronológica de como os modelos foram surgindo até chegar na proposta deste trabalho. Assim, os elementos básicos são discutidos na realização das tarefas em nuvens de pontos. Além de abordarmos uma das ferramentas essenciais para a descrição de cenas 3D em visão computacional, os descritores, onde escolhemos o SHOT (Salti et al. 2014) para esta proposta.. 2.1. Modelos de multirresolução. Ao observar o sistema de visão humano podemos inferir que é um dos sistemas mais complexos existentes na natureza. Assim, para a reprodução desse tipo de sistema por um sistema computacional seria necessária uma elevada quantidade de recursos. Em Uhr (Uhr 1972) foi proposto um programa de busca visual que aproxima o sistema de visão humano por um cone de reconhecimento que fornece uma pior resolução na medida que o ponto vai se aproximando do vértice do cone. De acordo com Provis et al. (Provis et al. 2013), a retina central é amplamente definida como a parte da retina que refere ao campo visual central. A fóvea (fovea centralis) uma especialização dentro da mácula (macula lutea). Sendo uma depressão dentro da superfície da retina com, aproximadamente, 1.0mm de diâmetro, tendo a principal função a maior acuidade visual. Posteriormente a Uhr começaram a surgir vários tipos de modelos de multirresolução na literatura, por exemplo, pirâmides Gaussiana (Adelson et al. 1984, Burt 1981) e Laplaciana (Burt & Adelson 1987), espaço de escalas (Witkin 1983), log-polar (Weiman & Chaikin 1979), wavelets (Mallat 1989, Mallat 1989), espaço variante (Schwartz et al. 1995), pirâmide com filtros direcionais (Bamberger & Smith 1992), foveamento com wavelets (Chang et al. 2000), multirresolução com fóvea centralizada (Gonçalves et al. 2000, Segundo et al. 2005, Boyling & Siebert 2000, Boyling & Siebert 2004) e multirresolução com fóvea móvel (Gomes 2009). Estes buscam diminuir a complexidade computacional exigida em tarefas. No entanto, abordaremos os modelos baseados em fóvea, pois são o foco para a compreensão deste trabalho..

(32) 8. CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA. (a) (Gomes 2013). (b) (Gomes 2013). Figura 2.1: Representação da aplicação do modelo MFC na Figura 2.1a e a Figura 2.1b é a exemplificação da execução do modelo MFM.. 2.1.1. Multirresolução com fóvea centralizada. Primeiramente, faremos uma breve introdução sobre o modelo de pirâmide de multirresolução tradicional que reamostra uma imagem em diferentes níveis de resolução, a partir da aplicação de algum filtro podendo ser, por exemplo, o filtro média ou o Gaussiano, produzindo uma estrutura semelhante a uma pirâmide (formada por imagens). Podendo ser profundamente abordada nos trabalhos (Uhr 1972, Witkin 1983, Burt & Adelson 1987, Schwartz et al. 1995). A Multirresolução com Fóvea Centralizada (MFC) foi trabalhada por Gonçalves e colaboradores (Gonçalves et al. 2000, Segundo et al. 2005), Boyling e Siebert (Boyling & Siebert 2000, Boyling & Siebert 2004) e intitulada em (Gomes 2009). A MFC é um modelo de pirâmide de multirresolução que também reamostra uma imagem em níveis diferentes de resolução. Embora todos os níveis possuam as mesmas dimensões (altura × largura) onde cada um é redimensionado para uma região centralizada na imagem. Sendo o primeiro nível a região da imagem completa, já o último é o resultado do redimensionamento de uma região de tamanho equivalente ao tamanho do nível, centrado na imagem e os demais níveis são o redimensionamento de uma interpolação linear entre as regiões do primeiro ao último nível. Como já notado, esse modelo aproxima a função de visão de uma fóvea, ou seja, simula uma visão com fóvea. De forma similar, há uma maior acuidade (resolução) da imagem original na região da fóvea (último nível) e uma piora progressiva, de acordo com a descida dos níveis até chegar no primeiro, podendo ser melhor observado na Figura 2.1a. Já o processo de reconstrução da imagem original é feito a partir do redimensionamento inverso e superposição dos níveis para a imagem original. Pode-se notar durante a reconstrução que as imagens com maior resolução incluem mais detalhes da cena, mas elas envolvem uma região menor da imagem. Nesse modelo consegue-se inferir que a qualidade da resolução é inversamente proporcional ao tamanho da imagem reamostrada. Então, no limite a resolução é idêntica à imagem original, mas como já mencionado apenas uma região é equivalente ao tamanho do nível que é.

(33) 2.1. MODELOS DE MULTIRRESOLUÇÃO. 9. reamostrada na imagem original. A MFC é utilizada com o intuito de diminuir o processamento da imagem analisada, acelerando o processo visual e possibilitando implementações em tempo real. No entanto, para o método MFC uma dificuldade encontrada pode ser notada numa aplicação de rastreamento de objetos em que o sensor de captura (câmera) precisa fazer deslocamentos sucessivos para acompanhar os objetos desejados, já que a zona de alta resolução sempre fica centrada no meio da imagem. Desse modo seria conveniente para este tipo de aplicação uma nova abordagem que reduza a necessidade de movimentação constante da câmera.. 2.1.2. Multirresolução com fóvea móvel. Visando contornar as dificuldades apresentadas na MFC, Gomes formalizou o modelo de Multirresolução com Fóvea Móvel (MFM) em (Gomes 2009), visto na Figura 2.1b. Da mesma forma da MFC a MFM é compreendida como um modelo de multirresolução em pirâmide, tendo um pico móvel que é a região de maior resolução da estrutura e a base a de pior resolução. É possível obter a maior qualidade na resolução em qualquer parte da imagem, diferentemente, da MFC que só pode ter a qualidade máxima apenas no centro da imagem. A formulação da MFM foi definida considerando uma imagem digital I ∈ R2 no espaço contínuo de tamanho representado por U = (Ux ,Uy ), que é redimensionado por m + 1 níveis, onde a k-ésima imagem é definida por Rk que possui um tamanho fixo W = (Wx ,Wy ). Cada nível k é calculado de uma região na imagem original I chamada de Ak de tamanho Sk = (Skx , Sky ), a formação da pirâmide é feita a partir do conjunto de Ak . Assim a menor resolução ocorre na região A0 , pois pertence ao nível 0 e corresponde ao tamanho de I, ou seja, S0 = U. Já o tamanho de Am é Sm = W , pois é a região de maior acuidade, localizada no nível m e, consequentemente, Rm é a cópia da região Am , ou seja, corresponde ao próprio tamanho de Am . Assim em (Gomes 2013) foi demonstrado que o tamanho de cada região Ak é uma interpolação linear entre os componentes S0 e Sm , dada pela Equação 2.1. kW − kU + mU (2.1) m O maior nível de resolução Am é posicionado por um vetor fóvea F, R0 faz o mapeamento de toda a imagem continuando com a mesma quantidade de pixels independente de F. Para o nível Rm o centro da fóvea pode mover-se da origem (centro da imagem I) até os limites da imagem original. Desse modo, o centro da fóvea deve estar a uma distância de no mínimo W2 de qualquer uma das bordas. Assim foi definido que o centro da fóvea F ) deve estar em (W −U) × (U−W 2 2 , ou seja, quando a fóvea é colocada no centro da imagem I o vetor F = (0, 0). Como consequência, cada região Ak possui um deslocamento δRk em relação à origem. Então o deslocamento de Ak é dado pelo centroide da região e uma interpolação linear entre os componentes δR0 e δRm . Podendo ser visto na Equação 2.2 demonstrada em (Gomes 2013). Sk =.

(34) 10. CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA. δRk =. k(U −W + 2F) 2m. (2.2). Sendo que δRk é determinado apenas para m > 0, pois é explicito que a estrutura precisa ter no mínimo dois níveis para ser considerada uma estrutura foveada. Por conseguinte, é feita a relação do foveamento em espaço discreto.. 2.1.3. Multifoveamento em multirresolução com fóvea móvel. Uma nova abordagem de multifoveamento foi proposta por Medeiros (Medeiros 2016) chamada de Multifoveamento em Multirresolução com Fóvea Móvel (MMFM). O modelo é uma extensão da MFM que emprega várias estruturas foveadas numa imagem 2D. Ele utiliza o método de extração de features baseado nas wavelets chamado de Speeded-Up Robust Features (SURF) (Bay et al. 2008), igualmente como em (Gomes 2013, Gomes 2009). Como já dito, a proposta de Medeiros é uma técnica que tem a finalidade de reduzir o processamento redundante dos pixels analisados, a partir do uso de múltiplas estruturas foveadas. O trabalho (Medeiros 2016) traz a ideia de um algoritmo que elimina o processamento das interseções (regiões redundantes) entre as estruturas de fóveas. Primeiramente, a base dos modelos foveados vistos até agora são em formatos retangulares. Portanto, cada estrutura foveada para imagens 2D possui quatro vértices. Dado qualquer vértice do quadrilátero é possível identificar qual é o envoltório da estrutura. Dessa forma, qualquer envoltório de algum retângulo genérico se torna uma região de sub-amostragem numa estrutura foveada. Então as regiões da imagem envolvidas pelos quadriláteros são processadas causando um problema de ambiguidade quando ocorre interseções entre as estruturas. A ideia de Medeiros em (Medeiros 2016) provém da ocorrência de vértices inseridos num envoltório de uma estrutura foveada de mesmo nível que é gerada posteriormente. É feita uma divisão desse nível da estrutura analisada em regiões que excluem os lugares já processados. Para isso, ele definiu os sentidos dos vértices, onde alguns deles são ocultados e outros podem englobar essas direções ocultadas, baseado nas direções cardeais. Na ocorrência de interseções entre as estruturas foveadas ocorre a invasão de vértices dentro de ambas as áreas. Assim no pré-processamento são definidas quais estruturas têm prioridade, ou seja, quais estruturas são sobrepostas pelas outras sempre levando em consideração que estão no mesmo nível. O vértice dessa estrutura divide a sobreposta em duas estruturas e removendo a área já processada. Isso é possível pela a direção definida dos vértices. Se houver ocorrência de mais estruturas são separadas até não haver regiões redundantes a serem processadas. Portanto, ao executar todo esse processo de divisão das estruturas foveadas é feita a multirresolução em cada estrutura criada, de forma correspondente aos níveis originais delas, sendo possível realizar a análise da cena 2D sem a ocorrência das regiões redundantes na imagem final com a multirresolução aplicada..

(35) 2.2. TÉCNICAS PARA NUVEM DE PONTOS 3D. 2.2. 11. Técnicas para nuvem de pontos 3D. As técnicas utilizadas para extração de informações de imagens 2D têm uma abordagem bem diferente em relação à nuvem de pontos 3D. Começando pelo o espaço analisado que é um plano composto por pixels, onde são bem definidos no plano e só podendo assumir um valor por vez. Já a representação computacional do espaço 3D pode ter vários pontos no mesmo lugar, graças a estrutura de dados de armazenamento da cena 3D. Dessa forma podendo aceitar várias coordenadas idênticas por vez, além de poder conter informações extras, dependendo do sensor de captação de dados. A biblioteca usada para desenvolvimento deste trabalho é a Point Cloud Library (PCL) pacote de software usado para moldar sistemas de reconhecimento de objeto 3D e estimar a posição com base em local1 e global2 features, dentre outras funcionalidades. Em Aldoma et al. (Aldoma et al. 2011) são analisadas abordagens dos funcionamentos dos algoritmos implementados em PCL.. 2.2.1 Features para nuvem de pontos 3D Um dos principais elementos na análise de imagens 2D ou dados 3D são as features. Após a síntese dos trabalhos (Morrone & Owens 1987, Mian et al. 2010, Gomes 2013), chegamos à conclusão que feature é uma definição abstrata. Assim sendo as features são conjuntos de informações (podendo ser pontos, frequências de sinais, pixels ou regiões nas imagens) que são marcadas visivelmente por algum tipo de característica exclusiva, podendo depender de um contexto cognitivo. As definições de features estão melhor posicionadas no campo 2D, já que é um campo de pesquisa mais clássico. As características mais explanadas nos detectores 2D de features, por exemplo, são arestas (Canny 1986, Harris & Stephens 1988), cantos (Harris & Stephens 1988) e blobs3 (Lindeberg 1993). Já no caso 3D temos as features locais que são extraídas de pequenos conjuntos de keypoints ricos em features que tentam evitar a complexidade computacional e ambiguidade, conforme Mian et al. (Mian et al. 2010). As normais são um bom exemplo de features na nuvem de pontos. Em resumo, a feature 3D pode ser um considerado ponto cuja vizinhança possui vetores normais que variam consideravelmente. No conceito de sistemas que trabalham com dados 3D, os pontos são simplesmente representados usando suas coordenadas cartesianas (x, y, z) com relação a uma dada origem. Ao assumir que a origem das coordenadas seja invariante no tempo pode haver dois pontos p1 e p2 , adquiridos em tempos t1 e t2 , respectivamente, tendo as mesmas coordenadas. É notado que isso é um problema mal-posto (Bertero et al. 1988), pois mesmo que eles sejam iguais no que se refere à alguma medida de distância (e.g. métrica Euclidiana), eles poderiam ser amostrados em superfícies completamente diferentes, e ainda representar informações totalmente diferentes quando tomados num conjunto com outros pontos em volta de sua vizinhança. Isso, essencialmente, é a realização de duas varreduras se1 Região. da imagem ou nuvem de pontos que possui propriedades especiais. uma propriedade global da imagem ou NP, por exemplo, cor e textura. 3 Regiões constantes que diferem em propriedades, tais como brilho ou cor, em comparação com regiões do ambiente. 2É.

(36) 12. CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA. quenciais e ao observar dois pontos, eles poderiam compartilhar as mesmas coordenadas apesar de pertencer a diferentes superfícies. Porque não há garantias de que o ambiente não mudou entre t1 e t2 , apresentado por Rusu em (Rusu 2009). Segundo Rusu (Rusu 2009), alguns dispositivos de aquisição de dados 3D podem fornecer informações extras para um ponto de amostragem, embora não resolvam completamente o problema e a comparação permaneça ambígua. O conceito de um ponto 3D como uma entidade singular com coordenadas cartesianas desaparece e um novo conceito o de descritor local4 tomou o seu lugar. A feature pode realizar a inferência e a captura da geometria básica da superfície (para nuvem de pontos é variedade linear) amostrada quando há inclusão na análise ao entorno dos pontos vizinhos. Isso contribui para resolver o problema de ambiguidade dos pontos 3D. De maneira ideal, as features resultantes seriam muito semelhantes para pontos que residem sobre a mesma superfície ou superfícies parecidas, em relação a algumas métricas. Além de serem distintas para pontos encontrados em superfícies diferentes. Conforme Rusu, uma boa representação de feature em ponto distingue-se de uma má, por ser capaz de capturar as mesmas características locais de superfície na presença de: • transformação de corpo rígido: rotações e translações nos dados 3D não devem influenciar na resultante do vetor feature estimado; • variação de densidade de amostragem: em princípio, um trecho amostrados da superfície local mais ou menos denso deve ter a mesma assinatura do vetor feature; • ruído: a representação de feature em ponto deve manter valores muito semelhantes ou até mesmo iguais em seu vetor feature na presença de ruído leve na nuvem de pontos. Em geral, as features usam métodos aproximados para calcular os vizinhos mais próximos de um ponto apreciado, usando rápidas consultas em uma kd-tree5 . Existem dois tipos de consultas em: • Determinar os k vizinhos de um ponto de consulta conhecido como k-seach; • Determinar todos vizinhos do ponto de consulta dentro de um raio r de busca conhecido como radius-seach Conforme Mian et al. (Mian et al. 2010), os keypoints podem ser definidos para modelos 3D ou variedades lineares6 2.5D como pontos que satisfazem três tipos de restrições que são listadas logo abaixo, garantindo que a local feature extraída no keypoint seja única para facilitar o reconhecimento preciso. • Os keypoints detectados devem ter alta repetibilidade entre diferentes visões 2.5D e modelos 3D do mesmo objeto; 4 Eles são basicamente são os descritores que trabalham com local features.. Analogamente os descritores globais são os que trabalham com global features 5 Conforme Bentley (Bentley 1975) a k-tree (k-dimensional tree) é uma estrutura de dados de particionamento de espaço que armazena um conjunto de pontos k-dimensional em uma estrutura de árvore que permite buscas em intervalos eficientes e pesquisas nos vizinhos mais próximos. 6 São conjuntos de pontos que podem vir a representar uma superfície tridimensional, basicamente..

(37) 2.2. TÉCNICAS PARA NUVEM DE PONTOS 3D. 13. • Podem ser definidas a partir da superfície da vizinhança para extrair features locais invariantes como uma base única de coordenadas 3D; • A superfície de vizinhança do keypoint deve conter informações descritivas suficientes que caracterizam exclusivamente esse ponto;. 2.2.2. Descritor SHOT. Em visão computacional uma ferramenta essencial utilizada na análise dos dados são os descritores, eles permitem descrever as características ópticas em dados que permitam tais representações visuais. Eles podem detalhar características elementares como forma, volume, a cor ou textura, dentre outras. Desse modo para a nossa proposta escolhemos um descritor baseado em dois tipos categorias descritivas: assinatura e histograma, o descritor Signature of Histograms of Orientations (SHOT) (Salti et al. 2014). A capacidade de calcular semelhança entre superfícies 3D pode ser chamada de surface matching7 que é a chave de tarefas de visão computacional tais como reconhecimentos de objetos 3D e alinhamento de superfícies. A partir dos meados de 1980 houve um forte interesse de investigação na surface matching. A tendência mais popular para surface matching, conforme Tombari et al. (Tombari et al. 2010), é explorar uma representação local de compactação de entrada de dados conhecido como descritor. A correspondência local é estabelecida pelos descritores de correspondência 3D podendo ser usada para solucionar tarefas de alto nível tal como reconhecimento de objetos 3D. Esses permitem lidar com os problemas de oclusão, desordem (clutter) e mudanças de perspectiva. A proposta apresentada por Tombari e colaboradores (Tombari et al. 2010) é baseada em dois tipos de descritores: Assinatura (Signature) e Histograma (Histogram). Primeiramente, os autores definem como support a vizinhança da superfície 3D de um ponto estipulado, esse termo será usado durante a explanação das ideias. Os descritores por Assinatura descrevem o support estabelecendo uma invariante local um frame de referência o Reference Frame (RF) e uma codificação específica, de acordo com coordenadas locais dos pontos, assim são computadas uma ou mais medidas geométricas de maneira individual em cada ponto de um subconjunto da vizinhança do mesmo. Por outro lado, os métodos baseados em Histograma descrevem o support através da codificação de contadores de entidades topológicas locais (e.g. vértice, contador de pontos, malha de área triangular) dentro dos histogramas, conforme uma especificação do domínio mensurado (e.g. coordenada de pontos, curvaturas, ângulos das normais) que requer a definição de qualquer Reference Axis (RA) ou local RF. Os RA são baseados tipicamente nas features das normais dos pontos. De maneira geral, os descritores por assinatura têm grande potencial descritivo graças ao uso da informação bem definida espacialmente, enquanto os baseados em histograma têm um equilíbrio entre poder descritivo e robustez por comprimir as estruturas geométricas dentro de células. 7 Correspondência. entre a variedade linear (superfície 3D) de um modelo em uma determinada cena 3D, ou seja, encontrar um determinado objeto (modelo) numa cena em NP..