Mapas auto-organizáveis probabilísticos para categorização de lugares baseada em objetos

(1)

MAPAS AUTO-ORGANIZÁVEIS PROBABILÍSTICOS PARA

CATEGORIZAÇÃO DE LUGARES BASEADA EM OBJETOS

Universidade Federal de Pernambuco [email protected] www.cin.ufpe.br/~posgraduacao

RECIFE 2016

(2)

MAPAS AUTO-ORGANIZÁVEIS PROBABILÍSTICOS PARA

CATEGORIZAÇÃO DE LUGARES BASEADA EM OBJETOS

Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Univer-sidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.

Orientador: Aluizio Fausto Ribeiro Araújo

RECIFE 2016

(3)

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

S586m Silva Júnior, Marcondes Ricarte da

Mapas auto-organizáveis probabilísticos para categorização de lugares baseada em objetos / Marcondes Ricarte da Silva Júnior. – 2016.

115 f.: il., fig., tab.

Orientador: Aluizio Fausto Ribeiro Araújo.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn, Ciência da Computação, Recife, 2016.

Inclui referências.

1. Inteligência artificial. 2. Mapas probabilísticos. I. Araújo, Aluizio Fausto Ribeiro (orientador). II. Título.

006.3 CDD (23. ed.) UFPE- MEI 2017-24

(4)

Mapas Auto-Organizáveis Probabilísticos para Categorização de

Lugares Baseada em Objetos

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre em Ciência da Computação

Aprovado em: 30/08/2016.

BANCA EXAMINADORA

__________________________________________

Prof. Dr. Hansenclever de França Bassani

Centro de Informática / UFPE

__________________________________________ Prof. Dr. Guilherme de Alencar Barreto

Departamento de Engenharia e Teleinformática / UFC

__________________________________________ Prof. Dr. Aluizio Fausto Ribeiro Araújo

Centro de Informática / UFPE

(5)

(6)

Inicialmente agradeço a Deus por cuidar-me tão bem de mim por toda a vida. Acredito que Ele me ama com um amor infinito e incondicional, e grato sou por isso. Obrigado dar-me a oportunidade e talentos.

Agradeço ao Profº Aluizio Araújo por ter sido meu orientador, companheiro, incentivador, carrasco e mediador. Sei que cada papel que ele executou neste tempo foi para que eu tivesse a melhor formação e desenvolvesse este trabalho da melhor maneira possível. Obrigado por me confiar este trabalho.

Não tenho palavras para agradecer aos meus pais, Marcondes e Raquel Ricarte, e minha irmã Rebbeca Ricarte. Apoiar o outro no que se acredita é fácil, contudo quando se apoia algo que aparentemente seria uma loucura ou que eu não poderia provar que daria certo, neste momento pude sentir o respeito e confiança que tinham por mim. Mãe, obrigado por confiar em mim e me apoiar mesmo quando sua intuição não apostava nisto. Pai, obrigado por toda minha vida me acompanhar e me incentivar em todas as minhas atividades. Agradeço a Rebbeca, a criatura que mais me fez bullying em todo a minha vida. Você faz parte do que eu sou hoje e sempre serei, sem você eu não seria o mesmo. Agradeço a Bruna Estumano pelo companheirismo, compreensão, dedicação, carinho e paciência. Obrigado a Vovó Iolanda, minhas tias, meus tios, primos e primas, vocês também fazem parte disto.

Agradeço a Elizabeth Carvalho que ficou ao meu lado no meus momentos mais insanos (literalmente). Todas as suas observações, intervenções, conselhos, sugestões foram ouvidas com muita atenção e zelo. Sou grato a Franscilê Souza pela incentivo e palavras de discernimento quando o plano para esta dissertação não passava de uma conjectura. Obrigado a Tallyta Miranda e Larissa Bertulino pela cooperação na escrita do texto, algumas vezes nem mesmo eu entendia o que eu tinha escrito.

Obrigado aos meus amigos do Laboratório: André Tiba, Orivaldo Vieira, Flávia Araújo, Juracy França, Paulo Ferreira, Monique Soares, Elaine Guerreiro, Felipe Duque, Hesdras Viana e Tadeu Souza. Pelas conversas, sugestões e vivência na realização deste trabalho. Por fim, agradeço ao SVN por ter me salvado das minhas maiores burradas.

(7)

point of view of one who lives there. But, asked to draw or to consult a map of his village, he is faced with learning a new and different sort of task: one that employs compass bearing and units of measurement. What was first understood in the personal terms of local snapshots now has to be considered in the completely general terms of the cartographer. The villager’s knowledge by wont, enabling him to lead a stranger from place to place, is a different skill from one requiring him to tell the stranger, in perfectly general and neutral terms, how to get to any of the places, or indeed, how to understand these places in relation to those of other villages.”

(8)

Os robôs móveis estão cada vez mais inclusos na sociedade moderna podendo se loco-mover usando “coordenadas cartográficas”. No entanto, com o intuito de aperfeiçoar a interação homem-robô e a navegação das máquinas nos ambientes, os robôs podem dispor da habilidade de criar um Mapa Semântico realizando Categorização dos Lugares. Este é o nome da área de estudo que busca replicar a habilidade humana de aprender, identificar e inferir os rótulos conceituais dos lugares através de sensores, em geral, câmeras.

Esta pesquisa busca realizar a Categorização de Lugares baseada em objetos existentes no ambiente. Os objetos são importantes descritores de informação para ambientes fechados. Desse modo as imagens podem ser representadas por um vetor de frequência de objetos contidos naquele lugar. No entanto, a quantidade de todos possíveis tipos de objetos existentes é alta e os lugares possuem poucos destes, fazendo com que a representação vetorial de um lugar através de objetos contidos nele seja esparsa.

Os métodos propostos por este trabalho possuem duas etapas: Redutor de Dimensionali-dade e Categorizador. A primeira se baseia em conceitos de Compressão de Sinais, de Aprendi-zagem Profunda e Mapas Auto-Organizáveis (SOMs), a fim de realizar o pré-processamento dos dados de frequência de objetos para a redução da dimensionalidade e minimização da esparsi-dade dos dados. Para segunda etapa foi proposto o uso de múltiplos Mapas Auto-Organizáveis Probabilísticos (PSOMs). Os experimentos foram realizados para os métodos propostos por esse trabalho e comparados com o Filtro Bayesiano, existente na literatura para solução desse problema. Os experimentos foram realizados com quatro diferentes bases de dados que variam em ordem crescente de quantidade de amostras e categorias. As taxas de acerto dos métodos propostos demonstraram ser superiores à literatura quando o número de categorias das bases de dados é alta. Os resultados para o Filtro Bayesiano degeneram para as bases com maiores quantidade de categorias, enquanto para os métodos propostos por essa pesquisa as taxas de acerto caem mais lentamente.

Palavras-chave: Categorização de Lugares. Redução de Dimensionalidade. Aprendizado Profundo. Mapas Auto-Organizáveis Probabilísticos. Dados Esparsos.

(9)

Mobile Robots are currently included in modern society routine in which they may move around often using "cartographic coordinates". However, in order to improve human-robot interaction and navigation of the robots in the environment, they can have the ability to create a Semantic Map by Categorization of Places. The computing area of study that searches to replicate the human ability to learn, identify and infer conceptual labels for places through sensor data, in general, cameras is the Place Categorization.

These methods aim to categorize places based on existing objects in the environment which constitute important information descriptors for indoors. Thus, each image can be represented by the frequency of the objects present in a particular place. However, the number of all possible types of objects is high and the places do have few of them, hence, the vector representation of the objects in a place is usually sparse.

The methods proposed by this dissertation have two stages: Dimensionality reduction and categorization. The first stage relies on Signal Compression c oncepts, Deep Learning and Self-Organizing Maps (SOMs), aiming at preprocessing the data on object frequencies for dimensionality reduction and minimization of data sparsity. The second stage employs Probabilistic Self-Organizing Maps (PSOMs). The experiments were performed for the two proposed methods and compared with the Bayesian filter previously proposed in the literature. The experiments were performed with four different databases ranging considering different number of samples and categories. The accuracy of the proposed methods was higher than the previous models when the number of categories of the database is high. The results for the Bayesian filter tends to degrade with higher number of categories, so do the proposed methods, however, in a slower rate.

Keywords: Place Categorization. Dimensionality Reduction. Deep Learning. Probabilistic Self-Organizing Maps. Sparse Data.

(10)

1.1 Exemplos de mapas semânticos baseados em mapas topológicos que indicam a probabilidade dos rótulos dos cômodos (PRONOBIS,2011). . . 22

2.1 Exemplo da base LabelMe.: Uma cena de uma cozinha com polígonos com linhas coloridas delimitando os objetos (VISWANATHAN et al.,2010). . . 29 2.2 Histograma de objetos por tipo de lugar. (a) Cozinhas. (b) Escritórios (

VISWA-NATHAN et al.,2010). . . 29

2.3 Taxa de acerto por classe de lugares em diversos tipo de iluminação: Ensolarado, nublado e noite (KOSTAVELIS; GASTERATOS,2013). . . 32 2.4 Resultados de taxa de acurácia da Categorização de Lugares (LI; MENG,2012). 34

3.1 Esquerda: uma rede neural padrão com 3 camadas. Direita: uma Rede Neural Convolucional (CNN) que organiza seus nodos em três dimensões (largura, al-tura, profundidade) como visualizado em uma das camadas. Cada camada da CNN transforma o volume de entrada 3D em um volume de saída de ativações de nodos 3D. Neste exemplo, a camada de entrada contém a imagem em verme-lho, onde a sua largura e altura são equivalentes as dimensões da imagem e a profundidade seria a terceira dimensão (KARPATHY,2016). . . 44 3.2 Esquerda: Um imagem de entrada (vermelho). Cada nodo na camada

convoluti-onal está ligado apenas a uma região local no volume de entrada espacialmente. Existem alguns nodos ao longo da profundidade, todos ligados a mesma re-gião de entrada. Direita: Função de convolução para as entradas pelo filtro

(KARPATHY,2016). . . 46

3.3 A contribuição desta camada é reduzir a resolução do volume espacialmente, independentemente, em cada fatia profundidade do volume de entrada. Esquerda: Neste exemplo, o volume de entrada de tamanho [224x224x64] é reunido com o tamanho do filtro 2, passo 2 em volume de tamanho [112x112x64] saída. Note-se que a profundidade de volume é preservada. Direita: A operação de redução da resolução mais comum é max (max pooling), mostrado aqui com um passo de 2

(KARPATHY,2016). . . 46

3.4 (a) Grade Linear. (b) Grade Retangular. (c) Grade Hexagonal. . . 49 3.5 (a) Rede com modelo de mistura Gaussiana. (b) Rede com modelo de

acopla-mento de verossimilhança (CHENG; FU; WANG,2009). . . 54

4.1 Diagrama de blocos do problema de Categorização de Lugares baseada em Objetos. O destaque em vermelho representa as contribuições deste trabalho. . 66

(11)

4.3 Os gráficos foram gerados a partir do sinal discreto x = sin(2π30t) + sin(2π60t). (a) Sinal x original. (b) Sinal x com Decimação aplicada. . . 69 4.4 Exemplo de histogramas de objetos para dados originais (1069 atributos) e

Agrupamento Fixo (40 atributos) para base LabelMe4: (a) Original para um Escritório; (b) Agrupamento Fixo para um Escritório; (c) Original para um Banheiro; (d) Agrupamento Fixo para um Banheiro. . . 71 4.5 Histogramas da média dos atributos por categoria para LabelMe4 para dados

originais (1069 atributos) e Agrupamento Fixo (40 atributos): (a) Categoria Cozi-nha (dados originais); (b) Categoria CoziCozi-nha (Agrupamento Fixo); (c) Categoria Banheiro (dados originais); (d) Categoria Banheiro (Agrupamento Fixo); (e) Ca-tegoria Quarto (dados originais); (f) CaCa-tegoria Quarto (Agrupamento Fixo); (g) Categoria Escritório (dados originais); (h) Categoria Escritório (Agrupamento Fixo). . . 72 4.6 Diagrama do modelo SOM Raso. . . 73 4.7 Ativações de uma amostra em um camada de 16 nodos: (a) Ativações; (b)

Ativações com filtradas com o ponto de corte de k = 1; (b) Ativações ordenadas (para visualização). . . 74 4.8 Histogramas da média dos atributos por categoria para LabelMe4 (o tamanho da

saída são 16 atributos): (a) Saída da categoria Cozinha; (b) Saída da categoria Cozinha; (c) Saída da categoria Banheiro; (d) Saída da categoria Banheiro. . . . 74 4.9 Ativações de uma amostra em um camada de 1024 nodos: (a) Ativações; (b)

Ativações com filtradas com o ponto de corte de k = 2; (b) Ativações ordenadas (para visualização). . . 78 4.10 Histogramas de exemplos dos atributos para dados originais e Mapa

Auto-Organizável (SOM) Profundo Compartimentado para base LabelMe4: (a) Dado original para um Escritório (1069 atributos); (b) Saída do único pipeline para um Escritório (1024 atributos); (c) Saída dos múltiplos pipelines para um Escritório (16 atributos); (d) Dado original para um Banheiro (1069 atributos); (e) Saída do único pipeline para um Banheiro (1024 atributos); (f) Saídas concatenadas dos múltiplos pipelines para um Banheiro (16 atributos). . . 79

(12)

são 16 atributos): (a) Saída da categoria Cozinha do único pipeline; (b) Saída da categoria Cozinha múltiplos pipelines; (c) Saída da categoria Banheiro do único pipeline; (d) Saída da categoria Banheiro múltiplos pipelines; (e) Saída da categoria Quarto do único pipeline; (f) Saída da categoria Quarto múltiplos pipelines; (g) Saída da categoria Escritório do único pipeline; (h) Saída da categoria Escritório múltiplos pipelines. . . 79 4.12 Diagrama do modelo SOM Profundo Compartimentado. . . 80

5.1 Exemplos de amostras (imagens) com as regiões dos objetos segmentados para cada uma das categorias da LabelMe8. (a) Cozinha (17 objetos); (b) Banheiro (23 objetos); (c) Quarto (17 objetos); (d) Escritório (16 objetos); (e) Sala de Conferência (33 objetos); (f) Corredor (15 objetos); (g) Sala de Jantar (4 objetos); (h) Sala de Estar (14 objetos). . . 83 5.2 Histogramas das amostras da base de dados LabelMe8. (a) Cozinha (17

instân-cias e 11 tipos de objetos); (b) Banheiro (23 instâninstân-cias e 15 tipos de objetos); (c) Quarto (17 instâncias e 13 tipos de objetos); (d) Escritório (16 instâncias e 14 tipos de objetos); (e) Sala de Conferência (33 instâncias e 17 tipos de objetos); (f) Corredor (15 instâncias e 10 tipos de objetos); (g) Sala de Jantar (4 instâncias e 4 tipos de objetos); (h) Sala de Estar (14 instâncias e 13 tipos de objetos). . . 84 5.3 Gráficos de quantidade de amostras por suas categorias para cada base de dados:

(a) LabelMe4; (b) LabelMe8; (c) RIS62; (d) SUN407. . . 85 5.4 Histogramas de quantidade de amostras de base de dados por quantidade de tipos

de objetos: (a) LabelMe4; (b) LabelMe8; (c) RIS6;. (d) SUN407. . . 85 5.5 Rede Probabilistic Self-Organizing Map (PbSOM) com algoritmo de

apren-dizagem Self-Organizing Deterministic Annealing Expectation Maximization (SODAEM) para (a) 3x3 nodos (b) 4x4 nodos (c) 5x5 nodos (d) 6x6 nodos (e) 7x7 nodos (f) 8x8 nodos. . . 88 5.6 Rede t-Student Self-Organizing Map (TSOM) com 64 nodos em 1D, visualização

das organização da rede e a zonas de fronteiras de padrões (a) Rede com algo-ritmo Peel (b) Distribuição dos padrões classificados pela Rede com algoalgo-ritmo Peel(c) Rede com algoritmo Shoham (d) Distribuição dos padrões classificados pela Rede com algoritmo Shoham (e) Rede com algoritmo Direct (f) Distribuição dos padrões classificados pela Rede com algoritmo Direct. . . 88

(13)

padrões classificados pela Rede com algoritmo Peel (c) Rede com algoritmo Shoham (d) Distribuição dos padrões classificados pela Rede com algoritmo Shoham(e) Rede com algoritmo Direct (f) Distribuição dos padrões classificados pela Rede com algoritmo Direct. . . 89 5.8 Gráfico de taxa de acerto, no intervalo de [0, 1], para cada categoria na LabelMe4.

(a) Filtro Bayesiano; (b) Agrupamento Fixo + PbSOM; (c) Agrupamento Fixo + TSOM; (d) SOM Raso + PbSOM; (e) SOM Raso + TSOM; (f) SOM Profundo Compartimentado + PbSOM; (g) SOM Profundo Compartimentado + TSOM. . 92 5.9 Gráfico de taxa de acerto, no intervalo de [0, 1], para cada categoria na LabelMe8.

(a) Filtro Bayesiano; (b) Agrupamento Fixo + PbSOM; (c) Agrupamento Fixo + TSOM; (d) SOM Raso + PbSOM; (e) SOM Raso + TSOM; (f) SOM Profundo Compartimentado + PbSOM; (g) SOM Profundo Compartimentado + TSOM. . 96 5.10 Gráfico de taxa de acerto, no intervalo de [0, 1], para cada categoria na RIS62:

(a) Filtro Bayesiano; (b) Agrupamento Fixo + PbSOM; (c) Agrupamento Fixo + TSOM; (d) SOM Raso + PbSOM; (e) SOM Raso + TSOM; (f) SOM Profundo Compartimentado + PbSOM; (g) SOM Profundo Compartimentado + TSOM. . 100 5.11 Matriz de confusão para RIS62: (a) Filtro Bayesiano; (b) Agrupamento Fixo

+ PbSOM; (c) Agrupamento Fixo + TSOM; (d) SOM Raso + PbSOM; (e) SOM Raso + TSOM; (f) SOM Profundo Compartimentado + PbSOM; (g) SOM Profundo Compartimentado + TSOM. . . 101 5.12 Gráfico de taxa de acerto, no intervalo de [0, 1], para cada categoria na SUN407:

(a) Filtro Bayesiano; (b) Agrupamento Fixo + PbSOM; (c) Agrupamento Fixo + TSOM; (c) Agrupamento Fixo + TSOM; (d) SOM Raso + PbSOM; (e) SOM

Raso + TSOM; (f) SOM Profundo Compartimentado + PbSOM; (g) SOM Profundo Compartimentado + TSOM. . . 103 5.13 Matriz de confusão para SUN407: (a) Filtro Bayesiano; (b) Agrupamento Fixo

+ PbSOM; (c) Agrupamento Fixo + TSOM; (e) SOM Raso + PbSOM; (e) SOM Raso + TSOM; (f) Profundo Compartimentado + PbSOM; (g) Profundo Compartimentado + TSOM. . . 104

(14)

2.1 Matriz de confusão do Filtro Bayesiano para LabelMe4. . . 29

2.2 Resultados obtidos para as diversas bases de dados testadas. (ZHOU et al.,2014) 30 2.3 Resultados de taxa de acurácia da categorização dos lugares ( CHARALAM-POUS et al.,2014). . . 35

2.4 Resumos dos trabalhos mais importantes e recentes. . . 38

2.5 Resumo de problemas em aberto. . . 40

2.6 Escolha de trabalho para comparação abordando os seguintes critérios Disponi-bilidade de Bases de Dados (DBD), Aderência com aplicação robótica (APR), Resultados para poucas categorias (APC), Resultados para muitas categorias (RMC), Escalabilidade para processamento de muitas categorias (EPMC). . . . 41

3.1 Resumo dos principais modelos de Mapa Auto-Organizável Probabilístico (PSOM) relatadas na literatura. . . 52

5.1 Dados estatísticos sobre as bases de dados utilizadas. Referências para ba-ses de dados: LabelMe4 e LabelMe8 [http://labelme.csail.mit.edu/]; RIS62 [web.mit.edu/torralba/www/indoor.html]; SUN407 [groups.csail.mit.edu/vision/SUN/] . . . 86

5.2 Taxa de Esparsidade dos dados. . . 86

5.3 Os parâmetros das camadas SOMs são: n que é o número de épocas; α(0) a taxa de aprendizagem inicial; β o fator de decaimento da taxa de aprendizagem; τ fator de função de vizinhança em Progressão Geométrica (somente necessário para a fase de únicopipeline); w raio máximo da função de vizinhança (somente existente necessário para a fase de únicopipeline); k fator da função ponto de corte; σ raio máximo da função de vizinhança (somente existente necessário para a fase de múltiplos pipelines ). . . 90

5.4 Taxa de acerto média e desvio padrão para método x base de dados. . . 90

5.5 Melhor taxa de acerto para método x base de dados. . . 90

5.6 Matriz de confusão do Filtro Bayesiano para LabelMe4. . . 93

5.7 Matriz de confusão do Agrupamento Fixo + PbSOM para LabelMe4. . . 93

5.8 Matriz de confusão do Agrupamento Fixo + TSOM para LabelMe4. . . 93

5.9 Matriz de confusão do SOM Raso + PbSOM para LabelMe4. . . 94

5.10 Matriz de confusão do SOM Raso + TSOM para LabelMe4. . . 94

5.11 Matriz de confusão do SOM Profundo Compartimentado + PbSOM para LabelMe4. 94 5.12 Matriz de confusão do SOM Profundo Compartimentado + TSOM para LabelMe4. 94 5.13 Teste de hipóteses para resultados do LabelMe4. . . 94

(15)

5.16 Matriz de confusão do Agrupamento Fixo + PbSOM para LabelMe8. . . 97 5.17 Matriz de confusão do SOM Raso + PbSOM para LabelMe8. . . 97 5.18 Matriz de confusão do SOM Raso + TSOM para LabelMe8. . . 98 5.19 Matriz de confusão do SOM Profundo Compartimentado + PbSOM para LabelMe8. 98 5.20 Matriz de confusão do SOM Profundo Compartimentado + TSOM para LabelMe8. 98 5.21 Teste de hipóteses para resultados do LabelMe8. . . 98 5.22 Análise de taxas de acertos das categorias da base de dados RIS62. . . 99 5.23 Análise de taxas de acertos das categorias da base de dados SUN407. . . 102

(16)

RNAs Redes Neurais Artificiais . . . 47

BMU Best Matching Unit. . . 48

BoVW Bag of Visual Words. . . 20

CEM Conditional Expectation Maximization. . . 52

AC Aprendizado Competitivo . . . 48

CM Modelo de Contagem . . . 28

CMU Carnegie Mellon University . . . 19

CNN Rede Neural Convolucional . . . 30

CNNs Redes Neurais Convolucionais . . . 30

CRF Conditional Random Field. . . 35

DAEM Deterministic Annealing Expectation Maximization. . . 52

DBN Deep Belief Network . . . 43

GHSOM Growing Hierarchical Self-Organizing Map . . . 76

DPM Deformable Part Models. . . 20

DPMM Dirichlet Process Mixture Model. . . 32

EM Maximização da Expectativa . . . 50

GMM modelo de mistura de gaussianas . . . 53

HMM Modelo Oculto de Markov . . . 27

HDCRFH High Dimensional Composed Receptive Field Histograms. . . 27

HRI Interação Humano-Robô . . . 21

HSV Hue Saturation Value (Brightness). . . 32

HTM Hierarchical Temporal Memory. . . 34

MC Componentes da Mistura . . . 17

MBC Classificador Multinomial de Bayes . . . 35

ML Máxima Verossimilhança . . . 51

MLP Multilayer Perceptron . . . 43

MRF Markov Random Field. . . 36

(17)

FDP Função de Densidade de Probabilidade . . . 50

PSM Mapa Semântico Probabilístico . . . 32

PSOM Mapa Auto-Organizável Probabilístico . . . 24

MI-SVM Multiplas Máquinas de Vetores de Suporte MRF Markov Random Field. . . 36

NN Nearest Neigbhbor. . . 33

NGN Neural Gas Network. . . 31

RANSAC Random Sample Consensus. . . 34

RGHSOM Robust Growing Hierarchical Self-Organizing Map . . . 76

RVM Relevance Vector Machines. . . 36

SAE Stacked Auto-Encoders. . . 43

SOCEM Self-Organizing Conditional Expectation Maximization. . . 52

SODAEM Self-Organizing Deterministic Annealing Expectation Maximization. . . 52

SOEM Self-Organizing Expectation Maximization . . . 52

SA Aproximação Estocástica . . . 50

SLAM Localização e Mapeamento Simultâneos . . . 20

SIFT Scale-Invariant Feature Transform. . . 20

SOM Mapa Auto-Organizável . . . 24

SURF Speeded Up Robust Features. . . 20

STSOM Short Term Self Organizing Map . . . 76

SVM Máquina de Vetores de Suporte . . . 35

TDP Transformed Dirichlet Process . . . 20

TF-IDF Term Frequency Inverse Document Frequency. . . 36

TSOM t-Student Self-Organizing Map. . . 51

VO Odometria Visual . . . 31

VW Visual Words. . . 31

(18)

1 Introdução 19

1.1 Mapeamento e Navegação Semântica . . . 20

1.1.1 Representações de Mapas . . . 23 1.1.2 Categorização de Lugares . . . 23 1.2 Objetivos . . . 24 1.3 Organização do Documento . . . 24 2 Categorização de Lugares 25 2.1 Definição do Problema . . . 25 2.2 Conceitos Gerais . . . 25 2.2.1 Categorização de Lugares . . . 25

2.2.1.1 Métodos Baseados em Objetos . . . 26

2.2.1.2 Métodos Baseados em Regiões . . . 26

2.2.1.3 Métodos Baseados em Contexto . . . 27

2.3 Trabalhos na área Categorização de Lugares . . . 27

2.3.1 Viswanathan et al. (2009) . . . 27 2.3.2 Zhou et al. (2014) . . . 30 2.3.3 Kostavelis e Gasteratos (2013) . . . 30 2.3.4 Li e Meng (2012) . . . 32 2.3.5 Charalampous et al. (2014) . . . 34 2.3.6 Rogers et al. (2012) . . . 35

2.4 Resumo dos Trabalhos . . . 37

3 Redes de Aprendizado Profundo e SOMs Probabilísticos 42 3.1 Redes de Aprendizagem Profunda . . . 42

3.1.1 Rede Neural Convolucional . . . 44

3.2 Mapa Auto-Organizável Probabilístico (PSOM) . . . 46

3.2.1 Mapa Auto-Organizável (SOM) . . . 47

3.2.2 Conceitos Gerais Mapa Auto-Organizável Probabilístico (PSOM) . . . 49

3.2.2.1 Auto-Organização . . . 50

3.2.2.2 Componentes da Mistura (MC) . . . 51

3.2.3 Modelos de Mapa Auto-Organizável Probabilístico . . . 51

3.3 Probabilistic Self-Organizing Map(PbSOM) . . . 52

3.3.1 Self-Organizing Conditional Expectation Maximization(SOCEM) . . . 54

(19)

3.4 t-Student Self-Organizing Map(TSOM) . . . 59

3.5 Discussão . . . 62

4 Categorizador Não-supervisionado de Lugares 65 4.1 Introdução . . . 65

4.2 Redutor de Dimensionalidade . . . 67

4.3 Categorizador Não-supervisionado . . . 69

4.4 Arquiteturas . . . 70

4.4.1 Arquitetura de Agrupamento Fixo . . . 70

4.4.2 Arquitetura de SOM Raso . . . 73

4.4.3 Arquitetura de SOM Profundo Compartimentado . . . 76

5 Experimentos 82 5.1 Bases de Dados . . . 82

5.1.1 Apresentação dos Dados . . . 83

5.1.2 Análise das Bases de Dados . . . 83

5.1.3 Esparsidade dos Dados . . . 86

5.2 Resultados dos Experimentos . . . 87

5.2.1 Replicando Resultados PSOMs . . . 87

5.2.1.1 Resultados Experimentais PbSOM . . . 87

5.2.1.2 Resultados Experimentais TSOM . . . 87

5.2.2 Experimentos de Categorização de Lugares . . . 89

5.2.2.1 Análise dos Resultados com a Base LabelMe4 . . . 91

5.2.2.2 Análise dos Resultados com a Base LabelMe8 . . . 95

5.2.2.3 Análise dos Resultados com a Base RIS62 . . . 99

5.2.2.4 Análise dos Resultados com a Base SUN407 . . . 100

5.3 Resumo dos Resultados . . . 102

6 Conclusão e Perspectivas de Investigação 105 6.1 Principais Contribuições . . . 106

6.2 Limitações do Trabalho . . . 106

6.3 Trabalhos Futuros . . . 107

(20)

1

Introdução

Os robôs móveis possuem uma longa história que iniciou na década de 60. O Shakey foi o primeiro robô móvel do mundo de propósito geral a ser capaz de decidir individualmente em cada etapa sobre as suas próprias ações. Os robôs, antes do Shakey, teriam de ser instruídos por completo sobre cada etapa para a execução de uma tarefa maior. Já o Shakey poderia analisar comandos e dividi-los em partes básicas por si só. Ele foi desenvolvido no Artificial Intelligence Center da SRI (Stanford Research Institute) (NILSSON,1984;NATTHARITH, 2011). O robô foi equipado com vários sensores e sua execução ficou sob responsabilidade de um programa de resolução de problemas chamado STRIPS. Para isto, foram usados algoritmos de percepção, modelagem de mundo e controle de atuadores. Outro exemplo de um robô móvel foi o CART, desenvolvido em 1977, na Universidade de Stanford, pelo Hans Moravec em sua tese de doutorado (MORAVEC,1983). Contudo, CART era muito lento, devido ao alto tempo de processamento para dinâmica do mundo real. Outro pioneiro é o robô Rover, desenvolvido na Carnegie Mellon University (CMU)), no início dos anos 80, que foi equipado com uma câmera e possuía mais poder de processamento que CART. No entanto, a sua capacidade percepção do mundo real, processamento de tarefas e ativação de atuadores ainda eram muito lentos para aplicações em tempo real (GUZEL,2013).

Os robôs pioneiros tinham algoritmos de Visão Computacional muito simples principal-mente por causa do baixo poder de processamento dos computadores de então. Com o passar do tempo, as principais áreas de conhecimento envolvidas na robótica têm passado por inovações tecnológicas rápidas e expressivas (GUZEL,2013). Particularmente, as tecnologias nas áreas de computação, telecomunicações e dispositivos eletrônicos avançaram no desenvolvimento de sensores inteligentes, de atuadores e no planejamento e tomada de decisão. Estes avanços melhoraram significativamente as capacidades e flexibilidade dos robôs móveis (GUZEL,2013).

Os animais possuem a habilidade de se locomover através do ambiente ao seu redor de uma forma simples, robusta e autônoma seja este ambiente previamente conhecido ou não. Os humanos dotados da capacidade de criar rotas em ambientes dinâmicos e a aprender rapidamente novas rotas para ir de um lugar para outro, eles têm a capacidade de navegar pelo ambiente. Informações de rotas e representações estruturais formadas no cérebro são organizadas formando

(21)

um mapa cognitivo (TRULLIER et al., 1997). A navegação autônoma busca replicar essa habilidade de percepção de ambientes e a elaboração de mapas e rotas que os animais possuem. O objetivo é permitir que os robôs se movam de forma independente e robusta através do ambiente. Uma das áreas da computação que contribui para navegação autônoma é Visão Computacional, em particular pode ser útil para robôs móveis (BONIN-FONT; ORTIZ; OLIVER,2008).

Navegação robótica é a capacidade que o robô tem para determinar sua própria posição em seu plano de referência e, em seguida, planejar um caminho para ponto objetivo (CHOSET

et al.,2005). Diferentes sensores podem ser empregados para o propósito de navegação como

infra-vermelho, sonar e câmeras. Em particular, a navegação baseada em visão recebeu muitas contribuições da comunidade científica nas últimas três décadas.

Pode-se dividir basicamente a navegação robótica de acordo com o ambiente: terrestre, aérea e aquática. Cada uma dessas navegações tem características únicas e também restrições diferenciadas. Por exemplo, os veículos aéreos que não possuem limitação de campo de visão como os terrestres e desenvolvem uma maior velocidade de deslocamento, portanto, eles neces-sitam de uma resposta de processamento mais eficiente para não colidirem com um obstáculo

(BONIN-FONT; ORTIZ; OLIVER,2008; GUZEL, 2013). Outra categoria de subdivisão é

a navegação em ambientes fechados e abertos. Ambientes fechados tendem a ter uma maior regularidade e estrutura mais bem definida do que ambientes abertos.

O Mapeamento Semântico amplia as abordagens de construção de mapas para levarem conta não os componentes existentes no ambiente (paredes, obstáculos, piso) referenciados por coordenadas cartesianas, mas também com um semântica relacionada ao ambiente que está sendo mapeado. Aquisição das imagens para o Mapeamento Semântico pode utilizar diferentes tipos de câmeras, tais como monocular (VISWANATHAN et al.,2010;MADOKORO; UTSUMI; SATO, 2012), estéreo (CADENA et al.,2012;KOSTAVELIS; NALPANTIDIS; GASTERATOS,2012;

SENGUPTA et al.,2013), omnidirecional (WANG; LIN,2011) e com sensor de profundidade

(KOSTAVELIS; GASTERATOS,2013;OLIVER et al.,2012). As imagens são matrizes de pixels

que fornecem propriedades como forma, cor e textura. Para extração e transformação dos dados dessas matrizes em características, empregam-se algoritmos como Descritor de Gist (OLIVA;

TORRALBA,2001), Scale-Invariant Feature Transform (SIFT) (LOWE,2004), Speeded Up

Robust Features (SURF) (BAY et al., 2008). A partir desses conjuntos de características, representações de objetos e lugares são construídos. Para tal, alguns algoritmos empregados são Bag of Visual Words (BoVW) (YANG et al., 2007), Deformable Part Models (DPM)

(FELZENSZWALB et al.,2013) e Transformed Dirichlet Process (TDP) (SUDDERTH et al.,

2008).

1.1 Mapeamento e Navegação Semântica

O Localização e Mapeamento Simultâneos (SLAM) é um processo importante no desen-volvimento para robôs móveis. Esse processo fez grandes avanços no contexto de orientação

(22)

cartográfica, através de coordenadas, bússola ou GPS, no qual os robôs móveis atuais se compor-tam num sentido restrito, como máquinas cartográficas se deslocando no mundo real, incapazes de assegurar uma ligação do mapeamento/navegação pelo ambiente com as atividades para qual o robô foi projetado no contexto dos humanos. Várias abordagens de mapeamento existentes se destinam a construir um mapa métrico consistente para que o robô utilize em sua navegação. Os robôs atuais utilizam modelos de mapeamento que suprem a necessidade de descobrir ou inferir a sua própria localização no mapa construído em relação a ele. Dessa forma, é possível detectar o seu posicionamento real no mundo com boa precisão. Através dessa capacidade, os robôs podem planejar um caminho e navegar em direção a um objetivo que pode ser definido por uma posição métrica no referencial do mapa. Entretanto, para um robô aprender sobre o ambiente onde está inserido de maneira similar aos humano, faz-se necessário o entendimento do contexto em que o robô está inserido e as entidades com que pode se relacionar. Os robôs devem poder identificar ou reconhecer o contexto de uma cozinha, um escritório ou um quarto. Logo, mapas aumentados por atributos semânticos relativos a conceitos podem determinar tal contexto. Tal capacidade de reconhecimento é essencial para robôs que atuem em ambientes de humanos executando tarefas cooperativas (KOSTAVELIS; GASTERATOS,2015).

Mapeamento Semântico pode ser definido como um processo de construção de uma representação de um ambiente que associa conceitos semânticos às entidades espaciais. O Mapa é construído através de rótulos semânticos dentro do ambiente onde o robô está imerso. Um Mapa Semântico é ilustrado na Figura 1.1. O resultado do Mapeamento Semântico deve ser idealmente uma representação completa do ambiente. Essa representação não deve conter apenas as informações semânticas, mas representar explicitamente as entidades espaciais para que a semântica seja bem estruturada para a navegação. O robô pode não ter conhecimento prévio do ambiente e as informações virem diretamente dos seus sensores de visão (câmeras) a partir de observações reais do ambiente. Ele pode incorporar conhecimento a partir de um conjunto de modelos categóricos e conceituais adquiridos em outros ambientes, ou a partir de bancos de dados (PRONOBIS,2011).

O Mapa Semântico é uma descrição qualitativa do ambiente onde o robô está inserido, com o objetivo de aumentar as capacidades de navegação e a tarefa de planejamento e execução do robô, assim como para preencher as lacunas existentes neste campo em relação a Interação Humano-Robô (HRI) (PRONOBIS; JENSFELT,2012;KOSTAVELIS; GASTERATOS,2013;

ZENDER et al.,2008). O mapeamento semântico tem como objetivo identificar, reconhecer e

memorizar estruturas e símbolos que tenham significado no ambiente físico para os humanos, além de como essas estruturas e símbolos interagem entre si. Então, um mapa semântico possui tanto informações georreferenciadas do ambiente, quanto características qualitativas de alto nível. Projetar robôs capazes de perceber, memorizar e recordar semanticamente o ambiente em que estão inseridos com precisão é um elo fundamental de comunicação entre humanos e robôs. Portanto, para uma HRI bem sucedida, os robôs devem possuir as capacidades cognitivas de interpretação sobre o espaço, ou seja, eles devem envolver atributos semânticos sobre os objetos e

(23)

Figura 1.1: Exemplos de mapas semânticos baseados em mapas topológicos que indicam a probabilidade dos rótulos dos cômodos (PRONOBIS,2011).

os locais encontrados, em associação com a percepção geométrica do ambiente (KOSTAVELIS;

GASTERATOS,2015).

Um mapa semântico compreende características de alto nível que modelam os conceitos humanos sobre lugares, objetos, formas e as relações de todos esses elementos. Os mapas semânticos estendem os mapas métricos, com rótulos dos lugares sobre as características geomé-tricas que o robô deve estar ciente para navegar com segurança nos seus arredores. Contudo, há trabalhos com Mapas Semânticos que não usam um mapa métricos para determinar os tipos dos lugares, como abordagens que empregam mapas topológicos ou mapas híbridos (PRONOBIS

et al.,2006;RANGANATHAN; DELLAERT,2007;KOSTAVELIS; GASTERATOS,2015).

Mapas híbridos tentam conciliar algumas características dos mapas métricos e dos topológicos em apenas um.

Empregando Mapas Semânticos e Topológicos, a Navegação Semântica pode auxiliar atividades, como planejamento de rotas, desvio de obstáculos, exploração autônoma ou mesmo manipulação de objetos. Essa navegação permite saber o posicionamento do robô no mundo, e ser capaz de explorar o ambiente ou encontrar rotas para locais conhecidos ou desconhecidos. Várias tarefas de um robô dependem da capacidade de perceber e compreender o espaço onde estão inseridos (PRONOBIS,2011).

Em ambientes internos, o cenário fornece informação semântica valiosa, pois pode obter informações padronizadas da arquitetura. Na verdade, a capacidade de compreender a semântica do espaço e poder rotular por termos semânticos como corredor ou escritório, possibilita uma representação mais intuitiva do ambiente em que o robô está posicionado. Se projetado com tais conceitos semânticos como forma de sala, tamanho, aparência ou presença de objetos, a representação do conhecimento espacial do robô se torna mais adequada do ponto de vista do seu desempenho em tarefas complexas e com a interação humana. Por exemplo, um robô para ambientes indoor, cuja tarefa seja encontrar objetos, poderia aumentar significativamente o seu nível de reconhecimento, considerando o tipo semântico do local em que estiver inserido

(24)

correlacionando com a localização do objeto a ser reconhecido (PRONOBIS,2011).

1.1.1 Representações de Mapas

Os mapas topológicos podem ser expressos por um grafo, e são mais compactos do que os mapas métricos que gravam todas as informações métricas do ambiente. A busca em grafos tem algoritmos simples e eficientes na literatura para determinação de caminhos, como: Algoritmo Dijkstra (DIJKSTRA,1959) e A* (HART; NILSSON; RAPHAEL,1968). Os nós do grafo correspondem aos lugares do mapa e as arestas correspondem às vias para deslocamentos. Por meio de um mapa topológico, o ambiente deve ser mapeado de forma a manter tanto algumas informações geométricas para o conjunto de lugares mapeados, quanto informações conceituais sobre a categoria daquele lugar. Portanto, tais grafos se constituem em estruturas fundamentais para Mapeamento Semântico, pois permitem uma abstração maior que os mapas métricos (KOSTAVELIS; GASTERATOS,2015). Pode-se ver um mapa semântico baseado em um mapa topológico na Figura 1.1.

1.1.2 Categorização de Lugares

O ponto de restrição destas abordagens de mapeamento é que os robôs entendem o ambiente como se fossem máquinas cartográficas (KOSTAVELIS; GASTERATOS,2015) sem considerar o contexto. O Mapeamento Semântico propõe que o ambiente seja mapeado através de um contexto de alto nível se aproximando da linguagem humana para descrição de um ambiente. Para isto, podem ser empregados conceitos de Categorização de Lugares e Reconhecimento de Objetos. No contexto de Mapeamento Semântico, o reconhecimento de objetos se trata de rotular os itens (mesa, cadeira, livro, copo) existentes em um determinado cômodo. Já a Categorização de Lugares é o entendimento do contexto do que são os cômodos e propõe a rotulação destes em categorias, como: cozinha, quarto, biblioteca, escritório, dentre muitos outros. O Mapeamento Semântico emprega a Categorização de Lugares para construir a representação semântica do lugar que está sendo mapeado. Um desdobramento do Mapeamento Semântico é a Navegação Semântica, que faz uso do mapeamento para que um robô possa se deslocar pelo ambiente, neste caso, entendendo o contexto e podendo executar tarefas de alto nível de complexidade como se deslocar até a biblioteca e encontrar um livro. O entendimento semântico do ambiente viabiliza o desenvolvimento da HRI, tornando mais natural a comunicação entre humanos e robôs.

Um importante conceito em ambientes fechados é o de cômodo, que são as áreas delimitadas dos ambientes. Os cômodos tendem a compartilhar funcionalidades semelhantes que podem ser categorizadas, bem como outras propriedades espaciais. Na maioria dos casos, os cômodos são naturalmente categorizados com base em sua funcionalidade e podem ser descritos em termos dos conceitos semânticos discretos, tais como: quarto, corredor, escritório, cozinha, garagem, biblioteca ou laboratório. Cômodos também podem ser associados a conceitos que descrevem suas propriedades espaciais: área quadrada ou alongada. No entanto, as descrições

(25)

semânticas mais elaboradas podem ser usadas para refinar o processo. Reconhecimento de objetos e/ou marcadores de referência do ambiente são informações importantes que podem facilitar o processo (PRONOBIS, 2011). O processo de Categorização de Lugares é o responsável por determinar a categoria do cômodo em análise para o Mapeamento Semântico. Essa área do conhecimento será devidamente tratada no Capítulo 2 apresentando as diversas abordagens existentes na literatura para tal fim e apresentando alguns trabalhos relacionados a este.

1.2 Objetivos

O campo de estudo de Mapeamento Semântico é muito amplo, por isso, esta pesquisa restringi-se no problema de Categorização de Lugares no contexto de Mapeamento Semântico, ou seja, na determinação da categoria para os cômodos de um ambiente interno considerando as limitações de um robô móvel. A abordagem escolhida para Categorização dos Lugares nesta pesquisa foi baseada nos objetos existentes na imagem, esta abordagem será explanada no Capítulo 2. A abordagem baseada em Objetos.

Objetivo Geral:

Categorizar de Lugares baseada em Objetos para o contexto de Mapeamento

Semân-tico.

Objetivos Específicos:

Reduzir a dimensionalidade e esparsidade das bases de dados que são a frequência

dos tipos de objetos (atributos) existentes para os lugares (amostras);

Realizar Engenharia Automática de Características para melhorar a combinação dos

atributos que favoreça a solução pelo sistema de Categorização dos Lugares;

Propor um novo processo de Categorização de Lugares utilizando Múltiplos Mapa

Auto-Organizável Probabilístico (PSOM)s.

1.3 Organização do Documento

Os próximos capítulos desta dissertação organizam-se da seguinte forma: o Capítulo 2 faz uma revisão bibliográfica dos trabalhos sobre Categorização de Lugares. O Capítulo 3 apresenta as técnicas nas quais essa pesquisa se inspirou ou utilizou diretamente para a solução do problema: Aprendizado Profundo, Mapa Auto-Organizável (SOM) e Mapa Auto-Organizável Probabilístico (PSOM). O Capítulo 4 trata dos modelos propostos por esta pesquisa definindo e justificando as escolhas e detalhando o comportamento dos modelos e seu funcionamento. O Capítulo 5 apresenta, discute e sintetiza os resultados experimentais dos modelos propostos e compara com uma solução referenciada na literatura. Finalmente, o Capítulo 6 fecha o trabalho com o resumo sobre os resultados, limitações dos modelos propostos e trabalhos futuros.

(26)

2

Categorização de Lugares

Neste capítulo serão apresentados alguns trabalhos importantes sobre Categorização de Lugares, e as propostas e metodologias que foram usadas por eles. Aqui foram descritas mais extensivamente as partes mais originais e contribuições de cada trabalho.

2.1 Definição do Problema

Este trabalho se trata de como Categorizar Lugares (cômodos) isto serve de base para alguns processos como citado na Capítulo 1 para construção de Mapas Semânticos e consequen-temente utilizado para o desenvolvimento de Robôs Móveis. Esse processo de Categorização de Lugares pode ser realizado através de diferentes sensores de varredura. Este trabalho está delimitado ao uso imagens (câmeras). O problema abordado busca que, a partir das imagens, ambientes internos possam ser extraídas informações destas para que através de métodos com-putacionais possam ser avaliadas e categorizadas devidamente com rótulos conceituais como: Quarto, Sala de Estar, Banheiro e Escritório.

2.2 Conceitos Gerais

Nesta seção serão abordados alguns conceitos gerais para o entendimento dos trabalhos na área de Categorização de Lugares. Esses conceitos envolvem a Categorização de Lugares considerando informações visuais que possui métodos baseados em Objetos, em Regiões e em Contexto.

2.2.1 Categorização de Lugares

Um sistema de Navegação Semântica deve ser eficiente em Categorização de Lugares. Isto é, o robô deve ser capaz de produzir rótulos de categorias para lugares sobre os quais nenhum conhecimento prévio está disponível. Em outras palavras, o sistema deve ser capaz de generalizar o conhecimento adquirido, explorando um local específico, de modo a inferir sobre o conteúdo

(27)

semântico de qualquer outro local similar (KOSTAVELIS; GASTERATOS,2013).

O desafio é categorizar os dados de teste capturados nunca vistos anteriormente. Neste caso, os algoritmos devem enfrentar desafios adicionais resultantes da variabilidade interna da categoria. Modelos de categorização de lugares empregam como componentes provenientes da forma, do tamanho e aparência das informações dos lugares para o sistema de navegação semântica (PRONOBIS,2011).

Nos próximos tópicos desse capítulo serão explanadas as abordagens existentes na literatura para o processo de Categorização de Lugares, que são: Métodos Baseados em Objetos, Métodos Baseados em Regiões e Métodos Baseados em Contexto.

2.2.1.1 Métodos Baseados em Objetos

Os Lugares podem ser descritos pelos objetos neles contidos. Métodos para Categoriza-ção de Lugares na ocorrência de objetos (VASUDEVAN; SIEGWART,2008;VISWANATHAN

et al.,2010;CHARALAMPOUS et al.,2014) têm sido empregados com frequência para

ambi-entes confinados, pois nestes ambiambi-entes as estruturas como paredes, piso ou teto tendem a ser muito semelhantes em diferentes cômodos, isto é, podem não servir como discriminantes (

CHA-RALAMPOUS et al.,2014). O reconhecimento de alguns objetos pode também ser utilizado

como uma informação para a identificação de outros objetos em seu entorno, como o mouse é normalmente encontrados a direita do teclado, ou o fogão, próximo a geladeira (ROGERS III;

CHRISTENSEN et al.,2012). A seleção de objetos que se deve usar na representação do lugar

é um desafio para que se dê confiabilidade à inferência do lugar. Além disso, por si só, o reconhecimento de um objeto genérico já é uma tarefa desafiadora.

Os modelos baseados em Deformable Part Models (DPM) têm se mostrado eficazes para a detecção de objetos rígidos e deformáveis (FELZENSZWALB; MCALLESTER; RAMANAN,

2008; FELZENSZWALB et al.,2013). No entanto, o DPM requer uma grande quantidade

de treinamento de dados com exemplos de objetos segmentados (VISWANATHAN et al., 2010). Os algoritmos SIFT e SURF são amplamente utilizados para a extração de características locais de objetos em imagens. Quando o cenário de visão é muito grande, o número de pontos característicos a ser detectado relevantes aos objetos é diminuído e isso pode ser tornar um problema (MADOKORO; UTSUMI; SATO,2012). Os métodos baseados em objetos têm obtido resultados promissores especialmente em ambientes fechados (VISWANATHAN et al.,2010).

2.2.1.2 Métodos Baseados em Regiões

Em reconhecimento de lugares baseado em regiões, as características das cenas lançam mão de algoritmos de segmentação de imagem. Essas áreas possuem uma mesma característica em comum como cor ou textura. KATSURA et al. (2003) propuseram um método adaptável de categorização de cenas para clima e estações. Katsura et al. utilizaram um robô móvel para capturar imagens e subdividí-las em regiões, tais como: céu, edifícios, árvores dentre outras.

(28)

MATSUMOTO et al.(2000) compararam métodos baseados em objetos com métodos baseados em regiões mostrando que os baseados em regiões e demonstraram mais robustez. Um das vantagens desses métodos é a baixa necessidade de processamento, quando comparadas com outras abordagens. No entanto, a precisão da categorização totalmente dependente do processo de segmentação. O processo de segmentação em um ambiente real é uma tarefa complexa e desafiadora. (SHI; MALIK, 2000) propuseram uma melhoria na precisão neste processo de segmentação usando um método de corte normalizado. No entanto, o seu método requer o custo computacional um pouco mais elevado que os métodos mais tradicionais (MADOKORO;

UTSUMI; SATO,2012). Métodos baseado em regiões têm obtido um melhor desempenho em

ambientes abertos.

2.2.1.3 Métodos Baseados em Contexto

Métodos baseados em contexto trabalham a ideia de que lugares inteiros podem ser descritos com poucas informações através de padrões gerais da imagem. Nessa abordagem, o efeito para a presença de objetos ou a precisão da segmentação é baixo, porque as informações da cena inteira podem ser descritas como contexto.OLIVA; TORRALBA(2006) propuseram um descritor de características, o Gist, para descrever os recursos globais de uma cena.TORRALBA (2009) propuseram um método de Categorização de Lugares usando Gist, que aloca o número de estados em Modelo Oculto de Markov (HMM) (RABINER; JUANG,1986).

Os métodos baseados em contexto também podem tratar o problema como um processo de minimização de energia, como proposto porFAZL-ERSI; TSOTSOS(2010).PRONOBIS

et al.(2006) apresentaram um reconhecimento de lugares com abordagem discriminativa, que

se norteia na categorização baseada em contexto, a qual foi empregada a técnica de High Dimensional Composed Receptive Field Histograms(HDCRFH) (LINDE; LINDEBERG,2004).

2.3 Trabalhos na área Categorização de Lugares

Neste tópico foi feito uma descrição de alguns trabalhos na área Categorização de Lugares para debater as suas diversas características de cada trabalho e seus prós e contras. Os trabalhos listados seguem a abordagem baseada em objetos e em contexto, para ambientes internos a abordagem baseada em regiões não se mostra muito promissora.

2.3.1 Viswanathan et al. (2009)

O trabalho de VISWANATHAN et al. (2009) de categorização de lugares seguiu a abordagem de métodos baseados objetos. A partir da informação da presença dos objetos na cena e a quantidade que estes aparecem, este trabalho se propõe inferir o tipo de cômodo. Para isto foi utilizado base de dados com anotações sobre os objetos nelas existentes. Em um trabalho posterior (VISWANATHAN et al.,2010), foi incluída uma etapa de inferência de objetos para

(29)

que o sistema inferisse tanto o objeto e sua probabilidade quanto a quantidade de cada tipo de objetos existente na imagem. Para detecção dos objetos foi empregado o processo proposto

porFELZENSZWALB; MCALLESTER; RAMANAN(2008) com base em DPM para realizar

a detecção de objetos. Ele foi escolhido devido ao seu alto sucesso no Pascal Visual Object Classes Challenge (EVERINGHAM et al.,2015).

Com o intuito de realizar a categorização de lugares com base em objetos, Viswanathan et al. trabalharam com a informação da quantidade (frequência) de ocorrências de objetos em cada tipo de lugar. Essa informação foi obtida através de dados rotulados com as classes dos lugares e com os objetos encontrados nelas, e ajudam a construir uma estatística das ocorrências de cada objeto na cena. A tabela de contagem ctp(o, c) é a frequência que um objeto o ocorre em um típico lugar p, no qual c é a contagem. Se o número de imagens do lugar tipo p é np, a probabilidade de observar o objeto o no lugar de p é calculada como descrito pela Equação 2.1. Essa probabilidade é denominada como o Modelo de Contagem (CM) para o aprendizado do Modelo de Lugares (PM). A Equação 2.1 demonstra o cálculo do PM representado por P(o, c|p) a partir do CM que é representado por ctp(o, c).

P(o, c|p) =ctp(o, c) n_p 2.1

Dado um Modelo de Contagem (CM), o Modelo de Lugares (PM) é usado para prever o tipo de lugar mais provável dos objetos observados. Para calcular a probabilidade a priori do lugar, emprega-se a Equação 2.2. A probabilidade do tipo de lugar p dado objeto o pode ser obtida através da Equação 2.3

P(p) = np Σini 2.2 P(p|o, c) = P(o, c|p)P(p) ΣiP(o, c|pi)P(pi) 2.3

Os testes de validação empregaram a base de dados LabelMe (RUSSELL et al.,2008) para a categorização de 4 tipos de cômodos (cozinhas, quartos, banheiros e escritórios). Esta base de dados é uma fonte de dados on-line gratuita que fornece uma grande e crescente quantidade de dados visuais referenciados com anotações por humanos, muitas contêm cenas de lugares indoor adequadas para rotulagem e reconhecimento de objetos. A base possui anotações da quantidade de objetos existentes nas imagens, quais o nome e quando a região onde estão segmentados os objetos nas imagens. Na Figura 2.1, há um exemplo de imagem do banco de dados do LabelMe. Viswanathan et al. não utilizaram a informação das imagens diretamente, somente as anotações sobre as imagens. Além disso, a informação do rótulo dos objetos e suas quantidade, não foram utilizadas informações sobre a região segmentada do objeto na imagem.

A figura 2.2 mostra o histogramas de frequência de objetos para cozinha e escritório. Verifica-se que podem existir objetos correlacionados ou sinônimos que são categorizados em

(30)

Figura 2.1: Exemplo da base LabelMe.: Uma cena de uma cozinha com polígonos com linhas coloridas delimitando os objetos (VISWANATHAN et al.,2010).

Figura 2.2: Histograma de objetos por tipo de lugar. (a) Cozinhas. (b) Escritórios (VISWANATHAN et al.,2010).

rótulos diferentes, como mesa em: sala de estar, sala de jantar e cozinha. Também foram executados testes simulando 8 ambientes fechados construindo as visualizações do espaço do ambiente através de imagens da base de dados não utilizadas no treinamento, simulando assim, a distribuição espacial dos cômodos no ambiente por completo.

Viswanathan et al. realizaram experimentos apenas para quatro cômodos e os resultados foram excelentes atingindo taxas de acerto entre 97% e 98%. Os experimentos foram realizados com bases de treinamento e testes distintas, cuja matriz de confusão é apresentada na Tabela 2.1. O trabalho de Viswanathan et al. possui ótimos resultados, contudo somente foi avaliada uma base de dados limitada e com poucas categorias. O processo desenvolvido utiliza poucos recursos computacionais para ser processado e pode ser facilmente embarcado em um robô móvel.

Categoria Cozinha Banheiro Quarto Escritório Outros Cozinha 98% 0% 0% 1% 1% Banheiro 13% 84% 0% 0% 3% Quarto 3% 0% 94% 4% 0% Escritório 0% 0% 0% 100% 0%

(31)

2.3.2 Zhou et al. (2014)

No recente trabalho de ZHOU et al.(2014) foi realizado um estudo sobre Reconhe-cimento de Lugares através de Rede Neural Convolucional (CNN) (BENGIO,2009). Foram utilizados dua Redes Neurais Convolucionais (CNNs), uma baseada em contexto e outra baseada em objetos, Places-CNN e Image-Net respectivamente. Além disso, foi utilizada um rede híbrida a partir dessas duas redes. Zhou et al. usaram utiliza a própria CNNs tanto na formação de descritores de imagem quanto na etapa de Categorização de Lugares.

Foram utilizadas repositórios de tamanho que variaram de 100 mil até a ordem de 7 milhões de imagens, apenas com tamanho superior a 200 x 200 pixels e com o mínino de 100 amostras por categoria. Para evitar que existam imagens duplicadas ou similares foi calculado o descritor Gist entre as imagens e o algoritmos CNN é executado para identificar estes casos de imagens na base de dados. Dessa maneira se trata a alta densidade de imagens com o padrão extremamente parecido. Para que um sistema de categorização tenha um bom desempenho os dados utilizados como treinamento devem ter características de diversidade e densidade para cada categoria do banco de dados. Para execução dos testes e avaliação foram utilizados 4 bancos de dados com diferentes características: Scene15 (LAZEBNIK; SCHMID; PONCE,2006), MIT

(QUATTONI; TORRALBA,2009), SUN (XIAO et al.,2010) e SUN Attribute (PATTERSON;

HAYS,2012). A redes foram executadas de 300 mil à 700 mil iterações utilizando computadores com GPU NVidia.

A Tabela 2.2 mostra os resultados das duas redes para as diversas bases de dados que superam as taxas de acerto para os benchmarks: SUN 47,20% (SÁNCHEZ et al., 2013) e MIT 66,87% (DOERSCH; GUPTA; EFROS,2013). O trabalho de Zhou et al. obteve ótimos resultados para bases com uma quantidade muito alta de amostras e categorias, contudo o processo de treinamento é lento e não se adequa exatamente ao contexto da robótica. Mesmo assim o trabalho serve de referência pelos ótimos resultados na área.

Categoria SUN397 MIT Indoor67 Scene15 SUN Attribute Places-CNN feature 54.32 (0.14) 68.24 90.19 (0.34) 91.29

ImageNet-CNN feature 42.61 (0.16) 56.79 84.23 (0.37) 89.95

Tabela 2.2: Resultados obtidos para as diversas bases de dados testadas. (ZHOU et al., 2014)

2.3.3 Kostavelis e Gasteratos (2013)

No trabalho deKOSTAVELIS; GASTERATOS(2013) é proposto um modelo no qual coexistem informações de SLAM 3D e reconhecimento de lugares utilizando sensores RGB-D. O sistema proposto foi subdividido em duas partes denominadas: camada de baixo nível (navegação numérica) e camada de alto nível (interpretação semântica). A camada de baixo nível trata das informações numéricas e geométricas do local onde se está inserido. O sensor Kinect,

(32)

sensor RGB-D, é utilizado nessa etapa para estimação de movimento. Dessa forma é calculada um densa nuvem de pontos da cena. Para cada detecção de planos o algoritmo RANSAC

(FISCHLER; BOLLES,1981) é aplicado para distinguir as superfícies mais promissoras da cena,

que determinam os planos estruturais do ambiente.

A camada de alto nível do sistema aprende os modelos abstratos das áreas visitadas a cada iteração e cada instância de cena é detectada e memorizada. Consequentemente, um sistema como este se depara como um excessivo número de rotações, variação de pontos de vista, mudança de escala e iluminação. Essa abundante quantidade de informações é tratada com uma representação por Bag of Visual Words (BoVW) (ZHANG et al.,2007).

O modelo proposto possui as duas camadas ligadas por meio de um mapa topológico semântico. Este último é formado explorando a Odometria Visual (VO) (NISTÉR;

NARO-DITSKY; BERGEN,2004) que é um sistema de referenciamento realizado através de imagens.

A camada de baixo nível processa o sistema de odometria, enquanto o sistema também aproveita atributos semânticos do esquema de navegação para alta camada. A partir de cadaframe obtido pelo câmera, características de descrições locais são extraídos e armazenadas. Em seguida, a Neural Gas Network (NGN) realiza a quantização do espaço de dados. No passo seguinte, histogramas para cada amostra de sequencia de imagens são criadas sobre as descrições de quantização e como resultado, o robô aprende uma representação abstrata para cada frame.

O algoritmo de extração de característica usado foi o SIFT, e BoVW como representação dos dados extraídos da imagem. Todas as características extraídas são alimentadas em uma NGN

(MARTINETZ; BERKOVICH; SCHULTEN,1993) que serve para quantização de espaço que

trata um conjunto de dados esparsos dando uma representação abstrata e coesa do espaço de informações. A NGN tem como objetivo básico optimizar uma função de custo que minimize o erro de quantização.

Os vetores de quantização correspondem ao vocabulário que contém todas as Visual Words(VW) descrevendo o espaço inicial de uma forma abstrata. No passo seguinte, os vetores de quantização (VW) são empregados para elaboração dos histogramas que representam imagens de entrada. Então, cada imagem fornecida como entrada do processo, está sendo representada pelo histograma de aparência para treinar um categorizador. Com objetivo de tornar o vocabulário mais distinto, Kostavelis e Gasteratos compararam seu método com árvores de vocabulário (NISTER;

STEWENIUS, 2006). Essa estrutura permite a recuperação rápida de imagens de grandes

coleções. O sistema proposto pode utilizar o mesmo vocabulário tanto para reconhecimento quanto para categorização, atingindo alta capacidade de generalização.

Os testes no mundo real foram realizados através de uma plataforma robótica denominada MAGGIE (Mobile Autonomous riGGed Indoors Exploratory), desenvolvida pelos próprios autores. Os testes foram realizados em ambiente com variações de luminosidade: ensolarado, nublado, noite (luz artificial). Esses testes foram realizados a fim da avaliar tanto a capacidade de reconhecimento quanto de categorização do algoritmo. Para os mesmos testes também foi utilizada a base de dados COLD (ULLAH et al.,2008). Ainda foram realizados testes de

(33)

Figura 2.3: Taxa de acerto por classe de lugares em diversos tipo de iluminação: Ensolarado, nublado e noite (KOSTAVELIS; GASTERATOS,2013).

reconhecimento de lugares com a base de dados COLD. Essa base é composta por variações de luminosidade: ensolarado, nublado, noite. Podemos verificar os resultados desses testes na Figura 2.3. No treinamento foi empregada a técnica de validação cruzada (10-folds). O processo proposto por Kostavelis e Gasteratos teve dificuldade em reconhecer os cômodos que tinham textura parecidas como escritório e laboratório.

O trabalho de Kostavelis e Gasteratos trata bem o problema de variações de iluminação em ambiente e dinâmica do ambiente na categorização dos lugares que é uma característica importante para o Mapeamento Semântico, obtém ótimas taxas de acerto, acima de 95%, contudo utiliza um um número reduzido de tipos de cômodos.

2.3.4 Li e Meng (2012)

O trabalho deLI; MENG(2012) tem a proposta de trabalhar pontos fracos deixados por trabalhos focados na aparência global do ambiente confinado. Os autores defendem da ideia de que a semântica a ambientes confinados está nos objetos ou que estão nesses objetos. O método de representação da informação foi o Transformed Dirichlet Process (TDP). Li e Meng usam Dirichlet Process Mixture Model (DPMM) para modelar a organização das informações extraídas das imagens.

Observa-se cada lugar (cena) como uma coleção de diferentes componentes com semân-tica, o que pode ser objetos e características. Portanto, o reconhecimento de objetos e extração de características são pré-requisitos para DPMM. Para cada cena existem os rótulos de detecção de objetos e para as áreas das imagens não cobertas por objetos vetores de características são gerados. Esses dois tipos de componentes compõem cada cena. As Características Gist no espaço de cor Hue Saturation Value (Brightness) (HSV) capturaram propriedades globais e características SIFT representaram texturas locais.

A última etapa do processo é a construção da representação de cada lugar (cena), através da construção de um Mapa Semântico Probabilístico (PSM). Após extrair os componentes

(34)

a partir das imagens, constrói-se uma representação interna de cada cena. Ela é construída através de dois processos: inicialização e atualização. Para cada nova cena são associados diretamente as características e objetos conforme demonstrado na Equação 2.4. Onde i é o i-ésimo componente e j é j-ésima imagem. Para inicialização, wi j= 1 para descrever presença definitiva pela componente da cina cena s até agora.

f : wi jcj→ si= 1, ..., n, j = 0 2.4

Em seguida, atualizar esta associação com a nova amostra j, na qual j = 1, .., n, isso significa o aprendizado com outras imagens e provocado por uma atualização do cenário visu-alizado pelo robô. Por exemplo, quando o robô detecta algum movimento em seu lugar atual que leva a mudança da cena. Um método interessante é empregar a simplificação de atualização bayesiana. A partir da definição do conhecimento prévio como uma probabilidade anterior e um novo exemplo de observação, obtêm-se a distribuição de probabilidade a posteriori. Contudo, isto exige modelagem explícita dos lugares como certa distribuição de probabilidade que geralmente é mais complexa de se obter.

Para uma nova imagem apresentada podemos ter 3 cenários de respostas do modelo: novo componente, componente restante e componente desaparecido. Um novo componente só precisa de outro processo de inicialização quando for necessário adicionar um nó para o mapa. Nos casos mais frequentes: novo componente e componente restante. Pode-se simplesmente determinar a frequência de ocorrência através da contagem nas imagens. Este método requer a memorização da frequência de cada um dos componentes. Com modelos simples de cenas e componentes é possível construir uma rede hierárquica de modo a refletir a relação entre eles. Os componentes podem ser compartilhados entre lugares como por exemplo: livros na biblioteca, no quarto, no escritório ou laboratório. Desta forma, essa relação é representada através da conexão entre cenas diferentes para objetos comuns. A relação de conjunto de contenção lugar na teoria de conjuntos pode ser expressa pela Equação 2.5.

min

_∑

w kws1− s2k 2.5

Se o valor da Equação 2.5 tende a zero, então o lugar s1contém todos os elementos de s2. Assim s1é um subconjunto de s2. Então, os dois lugares são conectados com uma relação de está contido. Desta forma, um mapa semântico é construído sobre a relação entre os lugares e seus componentes. Os testes no trabalho de Li e Meng foram realizados através de uma base de dados (QUATTONI; TORRALBA,2009) e de uma plataforma de um robô humanóide. Foi utilizando no processo o classificador Nearest Neigbhbor (NN). Os resultados das taxas de reconhecimento para diversos rótulos de lugares são apresentados na Figura 2.4. O trabalho de Li e Meng desenvolve um conceito interessante de conciliar as abordagens baseadas em Objetos e Contexto tentando fundir essas informações no mesmo modelo. A deficiência do modelo proposto por Li e Meng é a dificuldade de parametrização para construção dos modelos

(35)

Figura 2.4: Resultados de taxa de acurácia da Categorização de Lugares (LI; MENG, 2012).

e consequentemente a escalabilidade para situações com muitas categorias de lugares. Além do que as taxas de acerto para poucas categorias, somente 5, são baixas, entre 70% e 90%, em relação a outros trabalho.

2.3.5 Charalampous et al. (2014)

O trabalho deCHARALAMPOUS et al.(2014) foi elaborado com foco em objetos. Ele emprega um sensor RGB-D, assim obtém informações de profundidade. Essas informações de profundidade da câmera podem ser usadas como entrada para o sistema de localização do robô. Através de algoritmos de reconstrução da cena, são identificadas as superfícies dominantes do ambiente. Sob essas superfícies objetos são mais prováveis de serem encontrados. Essa premissa é válida pois os ambientes são estruturados, especialmente os lugares confinados, nos quais a maioria dos objetos são postos sobre o piso, mesas e paredes. A parte nuvem de pontos, que é identificada como outliers desses planos, é utilizada para identificar posicionamento de prováveis objetos.

Sendo assim, os dados RGB-D são adquiridos e a cena é reconstruída em uma nuvem de pontos. Essa nuvem de pontos pode ser utilizada para inferir no deslocamento do robô através de Odometria Visual (VO) que geralmente é realizada com câmeras estéreos. A detecção de planos perpendiculares é realizada pelo Random Sample Consensus (RANSAC) (FISCHLER;

BOLLES,1981;HARTLEY; ZISSERMAN,2003), focado a procurar planos perpendiculares ao

eixo z. O plano dominante é o piso, enquanto que os restantes são considerados faces planas do mobiliário.

No caso dos pontos de outliers podem se agrupar em um volume Vique são os volumes detectados de objetos pelo estudo de planos. Então, os dados de entrada de região desta imagem são usados para o processo de reconhecimento de objetos proposto porCHARALAMPOUS;

GASTERATOS(2013), em um trabalho anterior, que é um aprendizado baseado em Hierarchical

(36)

calculado a partir do espaço de entrada inicial. A rotina de classificação dentro deste esquema compreende um número de classificadores Máquina de Vetores de Suporte (SVM) igual ao número de classes de objetos. Cada classificador SVM é treinado sob a abordagem one-vs-all. Isso implica que para cada amostra de teste a SVM fornece um valor que designa o nível de confiança sobre a identidade da amostra. O classificador que obtiver mais pontuação é o que vai determinar a identidade do objeto.

Na etapa de categorização de lugares, o processo foi baseado no Classificador Multino-mial de Bayes (MBC) (THEODORIDIS; KOUTROUMBAS,2006). Na versão de multinomial de algoritmo de categorização cada amostra é expressa como frequências de eventos. Na aborda-gem proposta por Charapalpous et al., cada característica do vetor Fj= [ f1f2... fNO]

T _{emprega o} número de aparições de cada objeto antes dela ser reconstruída.

Os testes foram realizados experimentalmente na plataforma robótica. Um robô cons-truído com um sensor Kinect como sensor RGB-D e um banco de dados de objetos foi utilizado para treinamento dos algoritmos HTM e SVM. O robô percorreu um ambiente indoor e classifi-cou os lugares em cinco classes existentes: laboratório, escritório, cozinha, corredor e global. Os resultados são apresentados na Figura 2.3. A maioria das avaliações erradas do robô se dão em zonas de transição ou quando em uma pequena quantidade de objetos são encontrados cenas. O trabalho de Charampoulos el al. avança nos conceitos de Mapeamento de Lugares utilizando sensores de profundidade para mapear os objetos e coletar múltiplas visões da cena para Categorização do Lugar. Eles trabalham com um número reduzido de categorias e suas taxas de acerto ficam em torno de 90%.

Laboratório Escritório Cozinha Corredor Global Taxa de acerto 89.32 80.53 75.16 84.21 82.3

Tabela 2.3: Resultados de taxa de acurácia da categorização dos lugares (CHARALAMPOUS et al.,2014).

2.3.6 Rogers et al. (2012)

No trabalho de ROGERS III; CHRISTENSEN et al.(2012) utiliza-se da segmentação espacial de lugares, na separação dos cômodos num ambiente confinado, antes de fazer a categorização. Ambientes fechados são organizados em cômodos e esses contém objetos específicos, tais como pasta de dentes no banheiro e calculadoras no escritório. Os cômodos também estão dispostos geograficamente em padrões característicos para permitir que a vida seja eficiente e confortável, tais como banheiros ao lado de quartos e salas de jantar são adjacentes para cozinhas. O trabalho de Rogers et al. se utilizou dessa restrição natural desses ambientes para trabalhar o modelo de Conditional Random Field (CRF) (LAFFERTY; MCCALLUM;

PEREIRA,2001). Além disso, como os objetos no mesmo cômodos possuem o mesmo contexto

semântico do lugar, desta forma a inferência de um determinado objeto pode ser alimentada pelo contexto dos objetos e do local onde se está.