Reconhecimentos de objetos com multifoveamento

Algoritmo 4: Relação de correspondência de keypoints (Keypoints matching). Entrada: modelo do objeto e cena em NP (Km) e (Ks)

Entrada: decritores do modelo do objeto e cena (Dm) e (Ds)

Saída : LRFs do modelo do objeto e cena (L_m) e (Ls)

Saída : conjunto de correspondência (C)

1 inicializa correspondências (C) como vazio; 2 //Encontrar a correspondência dos keypoints 3 para cada keypoint de (K_m)faça

4 deixa (d_mi) seja o descritor do keypoint atual (k_mi);

5 usar (K_s) e (D_s) para achar o keypoint mais próximo (k_{s j}) com o descritor (d_{s j}); 6 se distancia_euclidiana(d_mi, d_{s j}) < d_max então

7 adicionar o par de tripletes (k_mi, d_mi, lr f_mi) e (k_{s j}, d_{s j}, lr f_{s j}) em (C);

8 fim

9 fim

4.4 Reconhecimentos de objetos com multifoveamento

O algoritmo de foveamento em nuvem (Gomes et al. 2013) foi implementado para melhorar as capacidades de reconhecimento de objetos 3D na abordagem de agrupamento por correspondência. No entanto, eles tiveram um problema acentuado com o descritor usado na época. Nos descritores SHOT (Tombari et al. 2010) a variação de densidade de pontos foi o incômodo mais desafiador descrito, causando problemas consideráveis para a execução de métodos que dependiam disso.

Uma vez que o algoritmo de nuvem de pontos foveada é baseado na multirresolução que provoca a variação na densidade do conjunto de pontos foi notado empiricamente, nesta proposta no Capítulo 5, que deveria ser pesquisado um descritor que tivesse uma invariância adequada à flutuação na densidade de pontos. Pelo o fato do descritor não ter a robustez necessária para a variação da densidade de pontos, isso trouxe o problema de não reconhecimento de objetos quando pertencia a mais de um nível da estrutura foveada como constatado em (Gomes et al. 2013). Problema que deixou de existir no descritor SHOT com as alterações mencionadas na Seção 2.2.3 que trouxe uma maior invariância à densidade de pontos, conforme Salti et al. (Salti et al. 2014).

O modelo multifoveado em nuvem de pontos é aplicada à nuvem adquirida por sen- sores de profundidade RGB-D, de acordo com Algoritmo 1 e os parâmetros descritos na Tabela 4.1. A estimação da normal pode ser feita antes ou depois do processo de foveamento. Ao escolher fazer a estimativa antes, a computação é mais custosa, mas os traços geométricos capturados da cena são menos distorcidos. Ainda assim, continuamos a optar por conservar a geometria da cena, priorizando a melhor precisão.

Para respeitar a multirresolução da nuvem da cena, usamos a extração de keypoint adaptada para depender dos distintos e específicos níveis de resolução em cada estrutura foveada, possivelmente diferindo do raio de amostragem usado d0, . . . , dm. Nós também

usamos o algoritmo de agrupamento de correspondência modificado que acomodam a extração das keypoints em cada nuvem de ponto foveada do multifoveamento. Os pontos

42 CAPÍTULO 4. MULTIFOVEAMENTO EM NUVEM DE PONTOS

Algoritmo 5: Reconhecimento de objetos baseado no agrupamento por correspon- dência.

Entrada: conjunto de correspondência (C) Saída : conjunto das instâncias do objeto (I)

1 inicializa o acumulador Hough (H) com o tamnho da célula (L_h); 2 //Agrupamento por correspondência

3 para cada correspondência (C) faça

4 estima a transformação (T ) que alinha (lr f_mi) e (lr f_{s f}); 5 avaliar B − T k_mie achar a célula h em (H) que encontra B; 6 incrementar o número de votos de h;

7 fim

8 para cada célula h de (H) faça

9 se h tem pelo menos (V_h) votosentão

10 adicione a instância do objeto localizada na cena em h para (I)

11 fim

12 fim

Parâmetros Descrição Valor Padrão m_f Número de (níveis - 1) de resolução 3

S_{0, f} Tamanho da box de menor densidade (3.0, 3.0, 3.0) Sm, f Tamanho da box de maior densidade (0.5, 0.5, 0.5)

F_f Posição da box fóvea (−0.07, 0.02, 0.6) ∆f Posição da box mais externa (−2.9, −1.9, −1.3)

r0, f Tamanho do keypoint de menor raio 0.08

r_{m, f} Tamanho do keypoint de maior raio 0.02

Tabela 4.1: Lista de parâmetros para o movimento das estruturas foveadas e seus respec- tivos valores padrão. Todos os parâmetros são fornecidos na unidade de (metros) com exceção de mf que é quantidade.

da cena são sub-amostrados usando diversos raios rk para cada k nível e k ∈ [0, . . . , m],

onde todas as estruturas foveadas da cena têm os mesmos números de níveis. A partir da determinação arbitrária dos raios extremos das estruturas que são o do primeiro nível (nível 0) tendo um raio r0e o último (nível m) que usa um raio rm, de modo que os níveis

intermediários usam interpolação linear para estimação do raio, similarmente, como é feito no tamanho das caixas das estruturas foveadas.

Portanto, ao adotar essas abordagens de sub-amostragem do raio feitas em (Gomes et al. 2013), conseguimos uma economia de tempo considerável, devido à redução do número de keypoints tanto no cálculo de descritores como no passo de correspondência, como será visto no Capítulo 5, resultando no grande aumento na densidade dos keypoints perto da posição da fóvea sem aumento significativo do número total dos pontos originais da cena. Assim, melhorando a eficiência na detecção dos objetos se as estruturas foveadas forem definidas corretamente e reduzindo o número de falsas correspondências de

4.4. RECONHECIMENTOS DE OBJETOS COM MULTIFOVEAMENTO 43

descritores.

O esquema de reconhecimento da nossa proposta pode ser visto na Figura 4.4. Compa- rando com o esquema ilustrado na Figura 4.3, podemos notar que as saídas dos esquemas possuem diferenças. O modelo NPF só consegue reconhecer vários objetos se todos esti- verem próximos, considerando uma caixa fóvea que não englobe boa parte da nuvem de pontos. Já no modelo MFNP, os objetos podem ser identificados sem essa restrição, pelo o fato da distribuição de múltiplas estruturas foveadas na cena permitir o posicionamento adequado de cada zona de máxima resolução.

Figura 4.4: Ilustração do esquema de reconhecimento dos objetos usados na MFNP. Nota- se que é possível reconhecer os objetos que estão muito afastados um do outro com múl- tiplas fóveas.

Capítulo 5

Experimentos e Resultados

A capacidade de compactação e desempenho do modelo multifoveado em nuvem de pontos 3D são avaliados em uma série de experimentos distintos. Nesta proposta, os recursos utilizados são verificados baseados no mecanismo, na metodologia empregada e nos objetivos específicos de cada experimento.

O nosso primeiro experimento tem como finalidade comparar o nosso mecanismo com outros modelos que usam o reconhecimento de objetos (Tombari & Stefano 2010) como aplicação integrada, de maneira que possamos expor as capacidades e as limitações do modelo proposto. Em seguida, são realizados uma série de testes com detalhamento a fim de observar as principais diferenças entre a nossa abordagem que faz o tratamento de redundâncias e um multifoveamento puro (sem tratamento redundâncias) que vamos chamá-lo de modelo de multifoveamento raw. Fizemos testes com o modelo de NPF para verificar se o problema de sensibilidade à variação de densidade foi solucionado. Por fim, foram apresentadas as limitações e os problemas em aberto deixados do mecanismo proposto o MFNP.

Todos os experimentos foram realizados em um PC desktop com um processador Intel Core i7 2600-K 3.40 Ghz e 8 GB de memória RAM.

5.1 Conjunto de dados usados nos experimentos

Através dos conjuntos de dados disponibilizados por (Aldoma et al. 2012) e (Tombari et al. 2011, Tombari 2016), montamos algumas configurações para pôr em prova o po- tencial da nossa aplicação em relação a outros modelos com reconhecimento de objetos. Desse modo usamos os seguintes objetos de interesse ilustrados nas Figuras 5.3 e 5.14c. O conjunto de dados ilustrado nas Figuras 5.3 representam uma garrafa de suco em NP com um total de 9968 pontos. Já o segundo modelo é ilustrado na Figura 5.14c sendo a representação de uma caixa de leite em NP com um total de 13704 pontos. Preferimos uti- lizar esse dataset pelo o fato dele já possuir um gabarito (ground truth) para verificarmos os resultados e termos uma melhor precisão na comparação entre abordagens.

Três cenas foram usadas no total onde esses conjuntos de dados usados foram for- necido por (Aldoma et al. 2012) e (Tombari et al. 2011), cada uma com uma finalidade específica que serão explicadas ao decorrer deste capítulo 5. Assim, a primeira a ser usada foi a ilustrada no conjunto de Figuras 5.1 sendo a representação de uma mesa com alguns

46 CAPÍTULO 5. EXPERIMENTOS E RESULTADOS

(a) (b)

Figura 5.1: Representação do conjunto de dados que ilustra a cena com objetos um pouco distantes. (a) a nuvem de pontos original em visualização em projeção paralela e (b) é a representação do ground-truth onde cada tipo de objeto é destacado em uma cor diferente (nosso alvo são os azuis). A nuvem de pontos foi adquirida dos trabalhos (Tombari et al.2011, Tombari 2016).

(a) (b)

Figura 5.2: Representação do conjunto de dados que ilustra a cena com objetos um pouco próximos. (a) a nuvem de pontos original em visualização em projeção paralela e (b) é a representação do ground-truth onde cada tipo de objeto é destacado em uma cor diferente (nosso alvo são os azuis). A nuvem de pontos foi adquirida dos trabalhos (Tombari et al.2011, Tombari 2016).

produtos domésticos, onde um desses produtos são garrafas de suco (um dos nossos modelos Figuras 5.3) dispostas um pouco distantes uma da outra, assim a cena possui um total de 281097 pontos. E analogamente à experiência referente à cena das Figuras 5.1 temos uma disposição onde os objetos estão mais próximos como mostrado nas Figuras 5.2, assim a cena possui um total de 289056 pontos. Em seguida, temos outra cena de fácil montagem, um piso com três produtos com formas diferentes, onde um desses produtos é a caixa de leite, a cena é apresentada na Figura 5.14d e possui um total de 63366 pontos.

No documento Reconhecimento eficiente de objetos usando multifoveamento em nuvem de pontos 3D (páginas 65-71)