Recomendações de obras de arte baseadas em conteúdo

(1)

UNIVERSIDADE PRESBITERIANA MACKENZIE

PROGRAMA DE P ´

OS-GRADUAC

¸ ˜

AO EM

ENGENHARIA EL´

ETRICA

Ricardo Ribani

RECOMENDAC

¸ ˜

OES DE OBRAS DE ARTE BASEADAS EM

CONTE ´

UDO

Disserta¸cão apresentada ao Programa de Pós-Gradua¸cão em Engenharia Elétrica da Univer-sidade Presbiteriana Mackenzie, como requisito para obten¸cão do T´ıtulo de Mestre em Enge-nharia Elétrica.

Orientador: Prof. Dr. Maur´ıcio Marengoni

(2)

R482r

Ribani, Ricardo

Recomendações de obras de arte baseadas em conteúdo. / Ricardo Ribani – São Paulo, 2015.

68 f.: il.; 30 cm

Dissertação (Programa de Pós-Graduação (Stricto Sensu) em Engenharia Elétrica) - Universidade Presbiteriana Mackenzie - São Paulo, 2015.

Orientador: Mauricio Marengoni Bibliografia: f. 53-57

1. Sistemas de recomendações. 2. Visão computacional. 3. Recuperação de imagens. 4. Bag of keypoints. 5. Pontos de interesse. 6. Inteligência artificial. I.Título.

(3)

Agradecimentos

Agrade¸co, primeiramente a Deus, por me conduzir at´e aqui.

Agrade¸co ao meu professor Mauricio Marengoni por direcionar os meus estudos, pelo incentivo, por acreditar que eu era capaz e por ser um exemplo profissional pra mim.

Aos meus pais por terem me dado educa¸c˜ao, por me ensinarem os valores da vida e me direcionarem a cada dia para ser uma pessoa melhor.

Aos meus irm˜aos, por estarem sempre ao meu lado, me ajudarem e acreditarem.

Agrade¸co `a minha noiva pelo companheirismo e compreens˜ao nos momentos mais dif´ıceis.

Aos meus amigos que sempre acreditaram em mim.

`

A CAPES e ao Mackpesquisa pela bolsa concedida.

(4)

”Quando vocˆe quer alguma coisa, todo o

universo conspira para que vocˆe realize o

seu desejo.”

(5)

RESUMO

Os sistemas de recomenda¸cões estão cada dia mais presentes no meio digital. Com a crescente quantidade de informa¸cões e a populariza¸cão da internet, cada vez mais as pessoas tem acesso a grandes acervos multim´ıdia. Com isso, consequentemente o usuário se encontra muitas vezes em situa¸cões de dúvida ao fazer uma escolha. Com o objetivo de auxiliar o usuário a fazer suas escolhas, o presente trabalho apresenta um estudo em torno dos sistemas de recomenda¸cões baseados em conteúdo de imagens. Este estudo engloba uma abordagem a respeito de algoritmos de recupera¸cão de imagens, além da aplica¸cão de conceitos de visão computacional e inteligência artificial, como técnicas para reconhecimento de padrões. Além do estudo teórico, este trabalho teve como objetivo a cria¸cão de um sistema computacional aplicado a um banco de dados de imagens de obras de arte. Uma aplica¸cão que utiliza uma interface desenvolvida para telefones celulares, no qual o usuário pode capturar a imagem de uma obra através da câmera do celular e baseado nessa obra o sistema gera uma recomenda¸cão de outra dentro do mesmo banco de dados, considerando parâmetros configuráveis como estilo, gênero ou cores.

(6)

ABSTRACT

With the growing amount of multimedia information, the recommender systems have be-come more present in digital systems. Together with the growth of the internet, more and more people have access to large multimedia collections and consequently the user is often in doubt situations when making a choice. In order to help the user to make their own choices, this research presents a study around the content-based recommender systems applied to art paintings. Here are included approaches on image retrieval algo-rithms, computer vision and artificial intelligence concepts such as techniques for pattern recognition. One of the goals of this research was the creation of a software for mobile phones, applied to an art paintings database. The application uses an interface developed for mobile phones, where the user can point the phone’s camera to a painting and based on this painting the system generates a recommendation of another painting in the same database, considering some parameters such as style, genre or color.

(7)

Sum´

ario

1 INTRODUC¸ ˜AO 1

1.1 Motiva¸c˜ao . . . 1

1.2 Objetivo . . . 2

1.3 Trabalhos Relacionados . . . 3

1.4 Estrutura da Disserta¸c˜ao . . . 4

2 CARACTERÍSTICAS DOS MOVIMENTOS DE ARTE ESTUDADOS 5 3 REFERENCIAL TE ÓRICO 11 3.1 Recupera¸cão de Imagens . . . 11

3.2 Pontos de Interesse . . . 13

3.2.1 SIFT - Scale Invariant Feature Transform . . . 13

3.2.1.1 Detec¸c˜ao dos pontos de interesse . . . 14

3.2.1.2 Refinamento dos pontos localizados . . . 15

3.2.1.3 Descri¸c˜ao dos pontos de interesse . . . 18

3.2.2 SURF - Speeded-Up Robust Features . . . 20

3.2.2.1 Detec¸c˜ao dos pontos de interesse . . . 20

3.2.2.2 Descri¸c˜ao dos pontos de interesse . . . 22

3.2.3 ORB - Oriented FAST and Rotated BRIEF . . . 24

3.3 Bag of Keypoints . . . 25

3.3.1 Constru¸c˜ao de um vocabul´ario de palavras universal . . . 27

3.3.1.1 Extra¸c˜ao dos pontos caracter´ısticos . . . 27

3.3.1.2 Agrupamento dos pontos utilizando k-means . . . 27

3.3.1.3 Gera¸c˜ao do descritor visual para cada imagem . . . 28

3.3.2 Constru¸c˜ao de um vocabul´ario adaptado por classe . . . 29

3.4 Descritor de Cores Dominantes . . . 30

3.5 Métrica para análise da precisão no sistemas de recomenda¸cões . . . 31

4 DESENVOLVIMENTO DO SISTEMA 32 4.1 Acervo . . . 32

4.2 Arquitetura . . . 34

(8)

4.3.1 Gera¸c˜ao do Descritor baseado no Bag of Keypoints . . . 36

4.3.2 Gera¸c˜ao do Descritor de Cores Dominantes . . . 38

4.4 Processo Online . . . 41

4.4.1 Reconhecimento do Quadro . . . 41

4.4.2 Indexa¸c˜ao e Recomenda¸c˜ao . . . 43

5 EXPERIMENTOS E RESULTADOS 46

6 CONCLUS ˜OES E TRABALHOS FUTUROS 51

(9)

Lista de Figuras

1 Modelo b´asico do sistema de recomenda¸c˜oes. . . 2

2 Voca¸c˜ao de S˜ao Mateus, obra de Michelangelo Merisi da Caravaggio. . . 6

3 Trˆes de Maio de 1808, obra de Francisco de Goya. . . 7

4 Montanha, obra de Basuki Abdullah. . . 7

5 Impress˜ao, Sol Nascente, obra de Claude Monet. . . 8

6 O terra¸co do caf´e `a noite, obra de Vincent Van Gogh. . . 9

7 ”Ma Jolie”, obra de Pablo Picasso. . . 10

8 Pirˆamide de escalas gerada pelo algoritmo SIFT . . . 15

9 Ponto de m´aximo ou m´ınimo detectado pelo SIFT . . . 16

10 Pontos detectados pelo algoritmo SIFT. . . 18

11 Descritor do ponto de interesse do SIFT. . . 20

12 Representa¸c˜ao do c´alculo da imagem integral. . . 21

13 Filtros utilizados nas matrizes de convolu¸c˜ao do SURF. . . 22

14 Pirˆamide de escalas utilizada nos filtros do SURF. . . 22

15 Filtros da transformada de Haar utilizados pelo SURF. . . 23

16 Atribui¸c˜ao da orienta¸c˜ao do ponto no algoritmo SURF. . . 23

17 Descritor do ponto de interesse do SURF. . . 24

18 Representa¸cão da gera¸cão do dicionário de palavras visuais. . . 26

19 Representa¸c˜ao do agrupamento realizado pelo algoritmo k-means. . . 28

20 Exemplos de Retratos dos movimentos Barroco, Realismo e Romantismo. . 33

21 Exemplos de Paisagens dos movimentos Barroco, Realismo e Romantismo. 33 22 Exemplos de Retratos dos movimentos Expressionismo e Impressionismo. . 33

23 Exemplos de Paisagens dos movimentos Expressionismo e Impressionismo. 33 24 Exemplos de Retratos do movimento Cubismo. . . 33

25 Exemplos de Paisagens do movimento Cubismo. . . 34

26 Vista do processo de recupera¸c˜ao de imagens dividido em fase offline e online. 35 27 Exemplo de paisagem do movimento barroco (classe 1). . . 37

28 Histograma de paisagem do movimento barroco. . . 37

29 Exemplo de retrato do movimento barroco (classe 2). . . 38

30 Histograma de retrato do movimento barroco. . . 38

(10)

32 Imagem quantizada com 24 cores. . . 39

33 Imagem resultante com 8 cores dominantes. . . 40

34 Histograma resultante com as 8 cores dominantes. . . 40

35 Imagem do sistema buscando o quadro na imagem capturada. . . 41

36 Imagem do sistema no momento que o quadro ´e identificado. . . 42

37 Processo de reconhecimento do quadro capturado pelo celular. . . 43

38 Representa¸cão básica de escolha da recomenda¸cão a partir da indexa¸cão. . 44

39 Configura¸cão dos parâmetros de recomenda¸cões. . . 45

40 Apresenta¸cão da recomenda¸cão ao usuário. . . 45

41 Gr´afico de precis˜oes do algoritmo SURF. . . 47

42 Gr´afico de precis˜oes do algoritmo SIFT. . . 47

43 Exemplos de resultados para 4 recomenda¸c˜oes (wp = 1 e wc = 0). . . 49

44 Resultados utilizando o descritor de bag of keypoints (wp = 1 e wc = 0). . . 49

45 Resultados utilizando o descritor de cores dominantes (wp = 0 ewc = 1). . 49

(11)

Lista de Tabelas

1 N´umero de imagens inclu´ıda em cada classe. . . 34

2 Valores de precis˜ao utilizando o algoritmo SURF. . . 46

3 Valores de precis˜ao utilizando o algoritmo SIFT. . . 47

4 Tempos médios de processamento para gera¸cão das recomenda¸cões. . . 48

(12)

1 INTRODUC

¸ ˜

AO

O termo recomenda¸cão está presente há tempos na sociedade e pode ser observado em diversos contextos. Desde a pré-história, o homem das cavernas observava os alimentos que outras pessoas consumiam para saber se eram bons, o que pode-se considerar um tipo de recomenda¸cão (KONSTAN; EKSTRAND, 2013). Em outros contextos, o termo recomenda¸cão pode ser interpretado como conselho, padrão ou normas a serem seguidas. O conceito de recomenda¸cões passou a ter também o contexto de filtro, com o objetivo de auxiliar as pessoas a encontrar informa¸cões relevantes em meio a uma grande massa de da-dos. Os sistemas de recomenda¸cões tornaram-se uma área importante de pesquisas, desde suas primeiras apari¸cões sobre filtros colaborativos em meados de 1990 (ADOMAVICIUS; TUZHILIN, 2005).

1.1 Motiva¸c˜

ao

Com a crescente quantidade de dados e acervos multim´ıdia, cada vez mais as pessoas se encontram em situa¸cões de dúvidas ao fazer uma sele¸cão de conteúdo. Por exemplo, ao alugar um filme online o usuário acessa um conjunto de informa¸cões, mas nem todo o conteúdo é relevante. Uma recomenda¸cão em meios digitais, pode ser baseada em informa¸cões do perfil do usuário, nas avalia¸cões feitas por este usuário, nas avalia¸cões feitas por outros usuários com perfil similar ou pode ser baseada no conteúdo (ADOMAVICIUS; TUZHILIN, 2005).

(13)

No contexto de obras de arte, pode-se citar os museus com grandes acervos dispon´ıveis para visita¸cão. Muitas vezes, a grande quantidade de obras dispon´ıveis faz com que o usuário perca muito tempo visitando coisas que não são de seu interesse. Usando um sistema de recomenda¸cões, a visita¸cão dessas cole¸cões pode se tornar mais interativa e agradável para um visitante regular, mostrando-lhe as pinturas relevantes de acordo com o seu interesse, assim como auxiliando o usuário a encontrar conteúdo mais rapidamente, ganhando tempo e explorando informa¸cões antes desconhecidas por ele.

1.2 Objetivo

O objetivo geral da pesquisa consiste em criar um algoritmo de recupera¸cão de imagens que será utilizado para gerar recomenda¸cões de obras de arte, no qual o usuário irá informar a imagem de uma obra por meio da câmera de um celular, em seguida será considerado o conteúdo desta imagem e a partir disso será recomendada outra obra ou uma lista de obras de arte dentro do mesmo acervo. Já o objetivo espec´ıfico consiste em gerar descritores para as imagens automaticamente de acordo com determinadas caracter´ısticas, como cor e textura. Através destes descritores será poss´ıvel classificar e indexar as imagens de acordo com sua relevância no contexto, ou seja, de acordo com a imagem passada na consulta, conforme representado na Figura 1. Também será considerado o perfil do usuário, que irá conter avalia¸cões de outros itens já visitados por ele.

Figura 1: Modelo b´asico do sistema de recomenda¸c˜oes.

(14)

1.3 Trabalhos Relacionados

Hill et al. (1995) explicam um problema relacionado a novos usuários em um sistema de recomenda¸cões, esses ainda não possuem informa¸cões suficientes para receber uma recomenda¸cão de acordo com suas preferências ou avalia¸cões. Apresentam um método, o qual utiliza as escolhas de outras pessoas como filtros ou guia para fazer recomenda¸cões a novos usuários. Ainda no mesmo ano, Shardanand e Maes (1995) descrevem um sistema chamadoRingoque faz recomenda¸cões musicais de álbuns e artistas de acordo com o perfil do usuário. Explicam que o sistema mantém uma base de conhecimento das preferências do usuário e cruzam essas informa¸cões com os perfis de outros usuários, a partir disso, quando um deles avalia uma música é poss´ıvel saber se esta será ou não recomendada ao outro.

Adomavicius e Tuzhilin (2005) explicavam que o interesse em pesquisas nesta área crescia e que havia muito trabalho a ser feito. Empresas como Amazon.com, MovieLens, AdaptiveInfo.com, TiVo System e Netflix já implementavam sistemas de recomenda¸cões em seus sistemas de vendas de produtos e servi¸cos.

No modelo de Sánchez et al. (2012), são utilizados dois bancos de dados, um de anota¸cões sobre a imagem, que armazena caracter´ısticas gerais da imagem e outro de avalia¸cões de usuários, que armazena informa¸cões de gosto e avalia¸cões do usuário. Neste sistema, o processo de classifica¸cão das imagens é feito de forma offlineou desconectado. Quando uma nova imagem é inserida no banco de dados, é executado um processo de classifica¸cão perceptiva que extrai as caracter´ısticas da imagem e as armazena no banco de dados de anota¸cões de imagens. Para obter informa¸cões e classificar as imagens, é utilizado o padrão MPEG-7 (SALEMBIER; SIKORA, 2002), este padrão possui cinco tipos de descritores (cor, textura, forma, movimento e outros), porém, no modelo de Sánchez et al. (2012) são utilizados apenas cor e textura. Ele utiliza combina¸cões entre esses parâmetros para descrever melhor a imagem, além de incluir um novo parâmetro descritor das caracter´ısticas de ilumina¸cão.

(15)

79,8% com grupos formados a partir das caracter´ısticas de cores, sem citar movimentos de (YELIZAVETA; TAT-SENG; IRINA, 2005). Outro trabalho apresenta um sistema para classificar os movimentos de arte onde a pintura é classificada em cinco movimentos, um filtro de gabor é utilizado para extra¸cão de caracter´ısticas em escala de cinza, um histograma de cores no espa¸co HSV para descrever as cores e um algoritmo de apren-dizado AdaBoost, atingindo a precisão de 68,3% (ZUJOVIC et al., 2009). Um resultado notável apresenta uma precisão de até 90% para a classifica¸cão de obras de arte utilizando seis descritores de cores diferentes em conjunto com umSupport Vector Machine, classifi-cando pinturas de arte dentro de 3 movimentos art´ısticos diferentes (GUNSEL; SARIEL; ICOGLU, 2005).

No presente trabalho, foram obtidos resultados expressivos utilizando-se apenas dois descritores: um descritor de pontos caracter´ısticos e um descritor de cores dominantes. Um ponto crucial para a obten¸cão de bons resultados foi a realiza¸cão de uma pesquisa so-bre história da arte, a fim de obter um entendimento mais profundo soso-bre as caracter´ısticas visuais presentes em cada movimento. A partir desse estudo foi poss´ıvel agrupar adequa-damente as obras, tal como identificar padrões presentes em cada movimento e qual a influência histórica que estes geraram em outros movimentos.

1.4 Estrutura da Disserta¸c˜

ao

(16)

2 CARACTER´ISTICAS DOS MOVIMENTOS DE

ARTE ESTUDADOS

Pinturas feitas em certos movimentos de arte como barroco, realismo e romantismo, possuem propriedades visuais muito similares. O movimento barroco foi desenvolvido inicialmente na Europa entre o final do século 16 e até o século 18 (PROEN¸cA, 2003). Segundo Farthing (2010), o termo barroco era inicialmente depreciativo e este movimento estava associado principalmente à arte feita sob encomenda para a Igreja Católica. É caracterizado pela decora¸cão pesada, design complexo porém sistemático e a aplica¸cão abundante de luzes e sombras.

Proen¸ca (2003) fala que as pinturas deste movimento possuem um elemento que atra-vessa o plano na diagonal com um forte contraste em claro e escuro, como exemplo a obra ”Voca¸cão de São Mateus”, de Caravaggio (Figura 2). A luz que ilumina a cena vem da direita e não de uma janela que aparece no fundo, como seria natural. É que, nesse caso, a luz dirige a aten¸cão do observador para o grupo de figuras sentadas em volta da mesa. O contraste de luz e sombra valoriza a tridimensionalidade, pois os corpos ganham volume e a variedade das cores dominui.

O movimento do romantismo surgiu em seguida, no século 19, apresentando carac-ter´ısticas muito similares ao movimento barroco, com tra¸cos bem realistas e ainda man-tendo o elemento de contraste entre claro e escuro na diagonal, o que acentua o sentimento dramático da cena (PROEN¸cA, 2003). O romantismo exerceu também uma enorme in-fluência na arte americana, em especial na pintura de paisagens. Esse movimento marcou o come¸co de um longo per´ıodo de guerras sangrentas em toda a Europa, enfatiza a exas-pera¸cão das emo¸cões, a turbulência da psicologia humana e a for¸ca da natureza.

(17)

Figura 2: Voca¸c˜ao de S˜ao Mateus, obra de Michelangelo Merisi da Caravaggio.

Fonte: www.wikiart.org, acessado em 02/11/2014.

2010). Proen¸ca (2003) cita que observando essa pintura pode-se notar, pelo jogo de luz e sombra, que se trata de uma composi¸cão diagonal. A luz concentrada sobre o homem de camisa branca, com bra¸cos abertos e levantados, nos dá certeza da morte iminente e já vivida pelos companheiros jogados no chão.

(18)

Figura 3: Trˆes de Maio de 1808, obra de Francisco de Goya.

Figura 4: Montanha, obra de Basuki Abdullah.

(19)

determinado sentimento em suas pinturas através de efeitos de luz e pinceladas marcantes. Outra caracter´ıstica desse movimento está no uso da cor, que comparado aos movimentos anteriores, apresenta mais cores e tons variados devido a evolu¸cão das tintas e técnicas de misturas de cores. Um dos artistas mais famosos deste movimento foi o francês Claude Monet (PROEN¸cA, 2003) e um exemplo de obra impressionista é a obra ”Impressão, Sol Nascente” (Figura 5), primeira obra de Monet. Foi também a primeira obra a ser cha-mada de impressionista, possui pinceladas marcantes, sobrepostas e sem muita mistura de cores.

Segundo Farthing (2010), os artistas impressionistas se propunham a capturar a im-pressão do momento passada pelo efeito da luz. Diz ainda que para os olhos do século 19, estas obras passavam aspecto de inacabadas e foram recebidas com escárnio em suas primeiras exposi¸cões.

Figura 5: Impress˜ao, Sol Nascente, obra de Claude Monet.

(20)

pin-tor holandês Vincent Van Gogh (PROEN¸cA, 2003). Os artistas pós-impressionistas em geral se afastaram do naturalismo do impressionismo, eles usaram cores vivas, camadas grossas de tinta, temas cotidianos e pinceladas expressivas que enfatizavam as formas geométricas, porém ainda haviam técnicas de pinturas e uma inspira¸cão baseada no mo-vimento impressionista. Por exemplo, na obra ”O terra¸co do café à noite” de Vincent Van Gogh (Figura 6), onde o artista utiliza técnicas aprendidas com os expressionistas, mas com cores muito mais vivas e superf´ıcies vigorosamente trabalhadas.

Figura 6: O terra¸co do caf´e `a noite, obra de Vincent Van Gogh.

(21)

domi-naram boa parte das obras iniciais do movimento, como ´e poss´ıvel observar na obra ”Ma Jolie”, de Pablo Picasso (Figura 7).

Figura 7: ”Ma Jolie”, obra de Pablo Picasso.

(22)

3 REFERENCIAL TE ´

ORICO

O conceito de recomenda¸cão e o conceito de recupera¸cão de imagens estão diretamente ligados, afinal para gerar recomenda¸cões é necessário fazer uma consulta em um banco de dados. É preciso recuperar os itens utilizando alguma medida de similaridade, de forma que estes sejam indexados de acordo com sua relevância no contexto, para então recomendar o item mais relevante (ADOMAVICIUS; TUZHILIN, 2005). Como estamos falando em imagens é necessário encontrar uma forma de medir visualmente a similaridade entre elas. Foram estudados algoritmos de deteçcão de pontos de interesse em conjunto com o conceito debag of keypoints, que juntos apresentam uma solu¸cão para representar as imagens em forma de descritores.

3.1 Recupera¸c˜

ao de Imagens

Em diversas situa¸cões quando procuramos uma determinada imagem, não sabemos expressar em palavras o que desejamos. Por exemplo, ao procurar um retrato em uma cole¸cão, qualquer forma de descrever textualmente o retrato ”perfeito” será diferente do imaginado. Esta tarefa pode se tornar mais simples e retornar resultados próximos do desejado quando passamos uma imagem de referência e procuramos encontrar outras similares a essa. Uma forma de fazer isso é utilizando uma interpreta¸cão visual da imagem, indexando e recuperando uma lista a partir disso (DATTA et al., 2008). O mesmo conceito pode ser aplicado para a gera¸cão de recomenda¸cões, que serão geradas com base em outra imagem que o usuário demonstrou interesse.

(23)

Chang et al. (2012) caracterizam recupera¸cão de imagens como o processo de buscar e recuperar imagens em um extenso banco de dados. Dizem ainda, que os bancos de dados de imagens crescem cada vez mais rápido em complexidade e diversidade, estão cada vez mais acess´ıveis devido ao uso da internet, de câmeras fotográficas digitais e principal-mente celulares com câmera e acesso a internet. Apresentam também a recupera¸cão de imagens baseada em conteúdo como alternativa a busca textual e falam sobre a extra¸cão de caracter´ısticas. Explicam que técnicas de minera¸cão de dados são utilizadas para essa tarefa, como por exemplo a técnica de agrupamento (clusteriza¸cão) por meio do algoritmo

k-means, que facilita o processo e reduz o custo computacional.

Valle e Cord (2009) explicam que a solu¸cão de anota¸cões em imagens ainda é longe do ideal por ser computacionalmente cara, lenta e inconsistente. Portanto, apresentam a recupera¸cão baseada em conteúdo como uma alternativa interessante que não precisa de palavras chave para realizar a consulta e nem metadados diretamente gravados nas imagens. Apresentam ainda dois tipos de aplica¸cões dentro deste contexto: a classifica¸cão semântica, que necessita de um aprendizado através de uma lista de imagens para cada categoria; e uma recupera¸cão interativa da informa¸cão onde o usuário participa com sua opinião sobre o resultado, essa forma é chamada de relevance feedback.

Segundo Valle e Cord (2009), um grande impedimento enfrentado no estudo da recu-pera¸cão de imagens é chamado desemantic gapou espa¸co semântico. Os autores explicam que esse espa¸co consiste em uma diferen¸ca entre a codifica¸cão dos dados brutos da imagem (como valores de pixels e sub-imagens) e a representa¸cão de como os usuários desejam recuperar as informa¸cões (conceitos complexos como ”pessoa”, ”carro” ou ”cachorro”). Datta et al. (2008) também falam sobre este problema e o colocam como a diferen¸ca entre caracter´ısticas de baixo n´ıvel e alto n´ıvel. Em algumas aplica¸cões, a similaridade visual é mais cr´ıtica do que a similaridade semântica. Para tentar superar este problema de interpreta¸cão, as informa¸cões passaram a ser representadas através de descritores, que possuem uma representa¸cão mais rica dos dados brutos da imagem. Estes descritores aparecem em diversas formas: cor, textura, formas, mapas de gradiente, etc.

(24)

relevante de imagens. Chang et al. (2012) escrevem que a escolha das caracter´ısticas afeta diretamente os resultados da consulta e que algum pré-processamento pode ser necessário para reduzir a quantidade de ru´ıdo. Utilizam uma combina¸cão de duas caracter´ısticas, um histograma de contraste e um histograma de cores médias extra´ıdas de sub-imagens da imagem. Valle e Cord (2009) citam diversos detectores de pontos de interesse que podem ser utilizados como extratores de caracter´ısticas para descrever e recuperar imagens, entre eles o SIFT (LOWE, 2004) e o SURF (BAY et al., 2008), que serão detalhados na se¸cão 3.2.

3.2 Pontos de Interesse

Serão descritos aqui, dois algoritmos de identifica¸cão de pontos de interesse, o algo-ritmo SIFT, criado por Lowe (1999), e o algoalgo-ritmo SURF, criado por Bay et al. (2008). Ambos serão utilizados para a cria¸cão de palavras visuais através do conceito deBag of Keypoints, onde estes pontos de interesse irão formar palavras visuais, para uma poste-rior classifica¸cão desta imagem. A diferen¸ca de desempenho entre os dois algoritmos já foi apresentada em algumas pesquisas (VALGREN; LILIENTHAL, 2010; SALEEM; BAIS; SABLATNIG, 2012), porém o objetivo de testar os dois algoritmos é verificar se existem diferen¸cas na precisão dos resultados ao utilizá-los para fazer recupera¸cão de imagens.

3.2.1 SIFT - Scale Invariant Feature Transform

(25)

3.2.1.1 Deteçcão dos pontos de interesse Segundo Lowe (1999), na etapa de de-teçcão dos pontos de interesse, o algoritmo procura identificar pontos no espa¸co de escala da imagem respeitando as varia¸cões de transla¸cão, rota¸cão, escala e com o m´ınimo de distor¸cão e ru´ıdo. São selecionados os pontos de máxima e m´ınima de uma fun¸cão de diferen¸ca de gaussianas aplicada neste espa¸co de escalas, que pode ser obtido construindo uma pirâmide de imagens com amostragens entre os n´ıveis. Além disso, o algoritmo identifica pontos em regiões de grande varia¸cão na imagem, que são considerados pontos particulares para caracteriza¸cão desta imagem, como pontos de alto contraste.

Para detectar os pontos de máxima e m´ınima é necessário criar uma pirâmide de escalas. Já que a fun¸cão gaussiana é separável, são feitos dois passos da convolu¸cão em 1-dimensão da gaussiana na horizontal e na vertical (Equa¸cão 1). Primeiramente é feita uma convolu¸cão da imagem de entrada I(x, y) com a gaussiana G(x, y, σ) (Equa¸cão 2), obtendo-se uma imagem A. Em seguida é feita mais uma convolu¸cão incremental com o mesmo valor de σ, obtendo-se uma imagem B. A fun¸cão com a diferen¸ca das gaussianas é obtida subtraindo a imagem B da imagem A.

G(x, y, σ) = 1 2πσ2e

−(x2+y2)

2σ2 (1)

A(x, y, σ) = G(x, y, σ)_∗I(x, y) (2)

No primeiro trabalho proposto por Lowe (1999), é feita a convolu¸cão da fun¸cão de diferen¸ca das gaussianas com a imagem, D(x, y, σ), que pode ser calculada a partir da diferen¸ca de duas escalas próximas separadas por um fator k (Equa¸cão 3).

D(x, y, σ) = (G(x, y, kσ)₋G(x, y, σ))_∗I(x, y)

=B(x, y, kσ)₋A(x, y, σ)

(3)

(26)

Para gerar a próxima oitava da pirâmide de escalas, é necessário redimensionar a imagem B utilizando uma interpola¸cão bilinear, reduzindo a resolu¸cão da imagem pela metade. A pirâmide com a diferen¸ca das gaussianas é calculada novamente para essa oitava. É feita a convolu¸cão da imagem com a gaussiana, produzindo uma lista de imagens no espa¸co de escalas. As imagens adjacentes são subtra´ıdas para gerar a diferen¸ca das gaussianas. Para cada oitava, a resolu¸cão da imagem é reduzida pela metade e o processo é repetido para essa oitava (LOWE, 2004), conforme apresentado na Figura 8.

Figura 8: Pirˆamide de escalas gerada pelo algoritmo SIFT

Fonte: (LOWE, 2004)

Com a pirâmide de escalas montada, Lowe (2004) explica que os pontos de máximo e m´ınimo são determinados comparando cada pixel na pirâmide com seus oito pixels vizinhos no mesmo n´ıvel. Se esse ponto for máximo ou m´ınimo neste n´ıvel, então a localiza¸cão do pixel mais próximo é calculada no n´ıvel abaixo da pirâmide e comparado com os nove pixels adjacentes neste n´ıvel, caso o valor continue sendo maior ou menor, então o teste se repete para o n´ıvel acima. Sendo assim, o pixel é selecionado como um candidato se seu valor for maior ou menor que todos os 26 pixels vizinhos, considerando a escala acima e abaixo (Figura 9).

(27)

refina-Figura 9: Ponto de m´aximo ou m´ınimo detectado pelo SIFT

Fonte: (LOWE, 2004)

mento dos pontos de acordo com sua escala e proximidade de localiza¸cão. O objetivo desse processo é descartar pontos que apresentam baixo contraste ou que podem caracterizar algum tipo de ru´ıdo na imagem, apresentando melhoras na estabilidade e na etapa de correla¸cão. Este conceito é feito utilizando uma expansão em séries de Taylor da fun¸cão do espa¸co de escalasD(x, y, σ), de forma que a o ponto de origem seja deslocado de acordo com a Equa¸cão 4.

D(x) =D+ ∂D

T

∂x x+ 1 2x

T∂

2

D

∂x2 x (4)

Onde D e suas deriva¸cões são estimados no ponto e x= (x, y, σ)T _{é o deslocamento a}

(28)

descartados.

ˆ x=₋∂

2 D ∂x2 −1 ∂D ∂x (5)

D(ˆx) =D+1 2

∂DT

∂x xˆ (6)

Além de descartar os pontos de baixo contraste, Lowe (2004) apresenta ainda um refinamento em rela¸cão as bordas presentes na imagem. Se a diferen¸ca das gaussianas tiver um pico mal definido, ainda podem aparecer pontos de ru´ıdo ao logo dessas bor-das. Lowe (2004) define como um pico mal definido uma curvatura principal grande ao longo da borda, porém uma curvatura pequena na dire¸cão perpendicular. Essa curvatura perpendicular pode ser calculada aplicando uma matriz hessiana na localiza¸cão do ponto:

H =

2

4

Dxx Dxy

Dxy Dyy 3

5 (7)

Os autovalores de H são proporcionais a curvaturas principais de D. Vamos considerar αo autovalor com maior magnitude eβo autovalor de menor magnitude. Então, é poss´ıvel calcular a soma dos autovalores no tra¸cado de H a partir do produto do determinante:

T r(H) = Dxx+Dyy =α+β,

Det(H) = D+xxDyy−(Dxy)

2

=αβ (8)

Quando o valor deste determinante é negativo, significa que a curvatura possui sinais diferentes e então o ponto é descartado por não ser considerado um extremo. Agora, consideremosr como sendo o valor da taxa entre o maior e o menor valor dos autovalores, ou seja α=rβ. Então:

T r(H)2

Det(H) =

(α+β)2

αβ =

(rβ+β)2

αβ2 =

(r+ 1)2

r (9)

Para verificar se a taxa da curvatura est´a abaixo de um valor de corter, basta aplicar:

T r(H)2

Det(H) <

(r+ 1)2

(29)

Lowe (2004) utiliza um valor de r = 10 para eliminar os pontos com uma taxa de curvatura maior que 10, resultando em uma quantidade ainda menor de pontos, conforme apresentado na figura 10 respectivamente: (a) imagem original; (b) imagem com todos os pontos candidatos detectados; (c) pontos eliminados de acordo com localiza¸c˜ao e proxi-midade com outros pontos; (d) imagem com os pontos eliminados de acordo com a taxa de curvatura ao longo das bordas.

(a) (b)

(c) (d)

Figura 10: Pontos detectados pelo algoritmo SIFT.

Fonte: (LOWE, 2004)

(30)

12) do gradiente. A escala considerada para a imagem ser´a a escala mais pr´oxima onde o ponto L(x,y) foi detectado.

m(x, y) = p(L(x+ 1, y)₋L(x₋1, y))2_{+ (L(x, y}_{+ 1)}

−L(x, y₋1))2 ₍₁₁₎

θ(x, y) = tan−1

((L(x, y+ 1)₋L(x, y₋1))/L(x+ 1, y)₋L(x₋1, y))) (12)

Um histograma das orienta¸cões é formado contendo 36 posi¸cões, que representam os 360 graus em torno do ponto detectado. O valor de pico do histograma corresponde a orienta¸cão dominante do gradiente naquele ponto (LOWE, 2004).

Os parâmetros obtidos até agora apresentam informa¸cões locais em duas coordenadas (posi¸cão, escala e rota¸cão). Entretanto, devido a varia¸cões de ilumina¸cão ou varia¸cões em 3 dimensões para fazer o reconhecimento de um objeto é necessário que o ponto seja descrito de uma forma mais detalhada. Lowe (2004) primeiramente obtém todas as magnitudes e orienta¸cões de gradiente nos pontos em torno do ponto detectado utilizando a escala equivalente na pirâmide.

Para que a etapa de correla¸cão seja invariante a rota¸cão, todas as orienta¸cões de gradiente são rotacionadas em rela¸cão a orienta¸cão do ponto detectado. O descritor resultante é ilustrado na figura 11, onde são calculadas a magnitude e a orienta¸cão em cada ponto em torno do ponto de interesse. A imagem a direita mostra 4 histogramas em 2x2 sub-regiões, onde o tamanho de cada seta corresponde a magnitude do gradiente. Nos experimentos do autor os valores calculados para cada ponto são sumarizados em 8 histogramas a partir de 4x4 sub-regiões, resultando em um vetor de descri¸cão de 128 posi¸cões.

(31)

Figura 11: Descritor do ponto de interesse do SIFT.

Fonte: (LOWE, 2004)

3.2.2 SURF - Speeded-Up Robust Features

Desenvolvido a partir do legado iniciado pelo seu antecessor direto, o SIFT (LOWE, 1999), o algoritmo SURF (Speeded-Up Robust Features) foi desenvolvido por Bay et al. (2008) e possui as mesmas etapas que o SIFT: a etapa de deteçcão de pontos de interesse, descri¸cão destes pontos e correla¸cão.

Com o objetivo de reduzir drasticamente o custo computacional, Bay et al. (2008) utilizam o conceito de imagens integrais, apresentado por Viola e Jones (2004). O uso de imagens integrais resulta em um rápido tempo de processamento ao utilizar filtros de convolu¸cão no formato de caixa. Uma imagem integral IP(w) na posi¸cão w = (x, y), representa a soma de todos os valores dos pixels em uma região retangular entre a origem ew.

IP(w) =

i≤x X

i=0

j≤y X

j=0

I(i, j) (13)

Com todos os valores da imagem integral calculados, são necessárias apenas 3 opera¸cões simples para sumarizar as intensidades dos pixels em uma área retangular da imagem, independente de tamanho (Figura 12).

(32)

Figura 12: Representa¸c˜ao do c´alculo da imagem integral.

Fonte: (BAY et al., 2008)

original e que serve como uma etapa para supressão de pontos não máximos. Os pontos são escolhidos de acordo com o determinante dessa matriz hessiana. Dado um ponto w= (x, y) em uma imagem I, a matriz hessianaH(w, σ) no ponto w e na escala σ será:

H(w, σ) =

2

4

Lxx(w, σ) Lxy(w, σ)

Lxy(w, σ) Lyy(w, σ) 3

5 (14)

Onde, Lxx(w, σ) representa a convolu¸c˜ao da derivada parcial de segunda ordem da

gaussiana com a imagem I no ponto w e na dire¸cão horizontal, ou seja, a derivada de x em rela¸cão a x que mostra o quanto a fun¸cão varia na dire¸cão horizontal, já Lyy(w, σ)

indica a varia¸cão para a dire¸cão vertical eLxy(w, σ) a varia¸cão na diagonal. Através disso

será poss´ıvel descrever a curvatura local necessária para sele¸cão dos pontos.

(33)

Figura 13: Filtros utilizados nas matrizes de convolu¸c˜ao do SURF.

Assim como no algoritmo SIFT (LOWE, 1999), o SURF (BAY et al., 2008) utiliza uma pirâmide de escalas para detectar as varia¸cões de diferentes magnitudes na imagem, ou seja, os pontos são detectados em diferentes escalas que representam diferentes valores deσ. No entanto, o SIFT gera uma pirâmide de escalas para a imagem, já o SURF gera uma pirâmide de escalas para os filtros utilizados (Figura 14). O filtro de tamanho 9x9 mostrado na figura 13, representa a menor escala da pirâmide e equivale a um valor de σ= 1,2.

Figura 14: Pirˆamide de escalas utilizada nos filtros do SURF.

Para verificar se o ponto será considerado um ponto de interesse, o SURF aplica uma supressão de não-máximos em torno de uma vizinhan¸ca de 3 pixels para cada lado, onde no total são verificados os 26 pixels nas dire¸cões X e Y e nas escalas superior e inferior, assim como é feito no algoritmo SIFT (Figura 9). Aplicando esse processo de deteçcão dos pontos, serão capturados os pontos com grandes varia¸cões de intensidade.

(34)

1999). A partir desta região é realizada a extra¸cão da orienta¸cão dominante da imagem, que torna o algoritmo invariante a rota¸cão.

Segundo Bay et al. (2008), para encontrar o vetor que descreve a distribui¸cão de intensidades na região de pixels vizinhos ao ponto de interesse, o algoritmo faz uma convolu¸cão com dois filtros que representam as dire¸cões X e Y, apresentados na figura 15, onde a parte escura possui o valor -1 e a parte clara possui o valor +1. Utiliza-se o conceito de imagens integrais e um vetor de 64 posi¸cões para obter um processamento mais rápido.

Figura 15: Filtros da transformada de Haar utilizados pelo SURF.

Assim que as respostas para os filtros são calculadas em torno do ponto de interesse, estas são representadas como pontos no espa¸co, com a resposta horizontal e vertical ao longo da abcissa e ordenada. A orienta¸cão dominante é sumarizada percorrendo uma vizinhan¸ca circular com um intervalo deπ/3 em torno do ponto de interesse. O vetor com maior valor define a orienta¸cão do ponto de interesse, conforme apresentado na figura 16.

Figura 16: Atribui¸c˜ao da orienta¸c˜ao do ponto no algoritmo SURF.

(35)

que indica a orienta¸cão. O atributo de cada posi¸cão é considerado mais uma vez realizando a convolu¸cão com os filtros X e Y (Figura 15) e somam-se os resultados da dire¸cão destes quadrantes. Em um grid quadrado com 4x4 sub-regiões em torno do ponto, é calculada a resposta da transformada de Haar e cada 2x2 sub-divisões de cada quadrado corresponde ao campo atual do descritor. Essas são as somasdx, _|dx_|,dye_|dy_|, calculadas em rela¸cão a orienta¸cão do grid. Com isso, para cada ponto de interesse tem-se um vetor de 64 posi¸cões descrevendo a forma como a imagem varia nesse ponto, conforme apresentado na figura 17.

Figura 17: Descritor do ponto de interesse do SURF.

3.2.3 ORB - Oriented FAST and Rotated BRIEF

(36)

Segundo Rublee et al. (2011), o algoritmo ORB (Oriented FAST and Rotated BRIEF) foi apresentado visando ser uma alternativa eficiente ao SIFT e ao SURF em rela¸cão ao tempo de processamento, principalmente no contexto de aplica¸cão em dispositivos móveis, por trabalhar com descritores binários e por ter sido desenvolvido a partir da motiva¸cão de fazer reconhecimento de imagem em dispositivos com baixo processamento de GPU.

Para a etapa de deteçcão, a proposta desse algoritmo baseia-se nas técnicas apresen-tadas pelo algoritmo FAST (ROSTEN; DRUMMOND, 2006) e introduz uma versão in-variante a rota¸cão, denominadaoFAST, além de apresentar a possibilidade de invariância em rela¸cão a escala. O detector FAST implementado no ORB utiliza um filtro Harris

para rejeitar bordas e ´e considerado um dos m´etodos mais eficientes para detectar cantos e arestas.

Já na etapa de descri¸cão, a proposta utiliza as técnicas do algoritmo BRIEF (CA-LONDER et al., 2010), que apresenta um simples descritor binário a partir da imagem suavizada. O desempenho deste descritor é parecido com o SIFT, porém este é mais sens´ıvel a rota¸cão. De modo geral, a técnica pode ser entendida como um refinamento do componente de orienta¸cão no algoritmo FAST e uma implementa¸cão da caracter´ıstica de invariância a rota¸cão no algoritmo BRIEF.

3.3 Bag of Keypoints

Um conceito para categoriza¸cão visual de imagens é apresentado por Csurka et al. (2004). Neste conceito, as caracter´ısticas locais da imagens são quantizadas para classificar um objeto ou imagem dentro de uma determinada classe. OBag of Keypointsé baseado na proposta deBag of Words, nessa representa¸cão um documento textual é descrito como um histograma com o número de ocorrências de cada palavra. Perronnin (2008) explica que de forma similar, essa quantiza¸cão pode ser aplicada a imagens, onde ao invés contabilizar dados textuais, são contabilizados dados visuais.

(37)

a imagem. Procura-se então reduzir o espa¸co semântico entre as caracter´ısticas locais e as informa¸cões interpretadas pelo conhecimento humano. Partindo desse principio, Csurka et al. (2004) e Perronnin (2008) apresentam uma forma de descrever e classificar cada uma das imagens utilizando caracter´ısticas locais (pontos de interesse). Os pontos detectados são descritos e agrupados para gerar um dicionário de palavras visuais (Figura 18). Esse dicionário corresponde a um histograma com o número de ocorrências de um determinado padrão na imagem. Com uma categoriza¸cão apropriada do conteúdo, é poss´ıvel medir a similaridade entre imagens e assim gerar recomenda¸cões.

Figura 18: Representa¸cão da gera¸cão do dicionário de palavras visuais.

Fonte: (VALLE; CORD, 2009)

Segundo Liu (2013), a principal diferen¸ca entre o Bag of Words e o Bag of Keypoints

(38)

3.3.1 Constru¸c˜ao de um vocabul´ario de palavras universal

Csurka et al. (2004) explicam que a gera¸c˜ao do descritor visual consiste em trˆes fases:

• Deteçcão e descri¸cão dos pontos de interesse ou keypoints contidos em todas as imagens;

• Gera¸cão do vocabulário de palavras através de um algoritmo de agrupamento, no caso, o k-means;

• E por ´ultimo uma contagem de quantas vezes cada palavra aparece na imagem, formando um vetor caracter´ıstico que descreve a imagem.

Para o processo de classifica¸cão é proposta mais uma etapa, que consiste em enviar o histograma extra´ıdo da imagem para uma máquina de aprendizado que determina a categoria a qual a imagem pertence (CSURKA et al., 2004). Os autores apresentam resultados utilizando as máquinas de aprendizadoSupport Vector MachineeNaive Bayes, porém esta etapa não será utilizada neste trabalho, visto que o objetivo está na indexa¸cão para gerar recomenda¸cões e não na categoriza¸cão da imagem. As etapas para a gera¸cão do dicionário de palavras visuais serão detalhadas a seguir.

3.3.1.1 Extra¸cão dos pontos caracter´ısticos A primeira etapa do processo con-siste na deteçcão e descri¸cão dos pontos de interesse, Csurka et al. (2004) utilizam o algoritmo SIFT (LOWE, 1999; LOWE, 2004) que possui as propriedades de ser inva-riante a rota¸cão, escala e ilumina¸cão. Neste trabalho, também serão feitos testes com o algoritmo SURF (BAY et al., 2008), que é um algoritmo mais moderno e apresenta avan¸cos no tempo de processamento em rela¸cão ao SIFT. Inicialmente, todos os pontos são detectados em todas as imagens e colocados juntos em um grupo único. Tanto o al-goritmo SIFT como o SURF possuem parâmetros que devem ser ajustados para detectar mais ou menos pontos. Estes ajustes serão discutidos mais a frente na fase implementa¸cão.

(39)

e irá indicar a quantidade de palavras visuais existente no vocabulário (CSURKA et al., 2004; PERRONNIN, 2008; VALLE; CORD, 2009). A quantidade de palavras poderá afetar a distância entre o descritor de cada imagem ao comparar a similaridade visual, portanto o ajuste do valork também será experimentado na fase de implementa¸cão.

Após definida a quantidade de palavras, o algoritmo converge todos os pontos infor-mados parakcentros de massa, de acordo com a figura 19. Cada centro de massa, indica uma palavra no vocabulário que será utilizada para gerar o histograma de acordo com sua proximidade em rela¸cão aos pontos. Csurka et al. (2004) explicam que a quantidade de palavras contidas neste vocabulário deve ser grande o suficiente para distinguir as carac-ter´ısticas que classificam a imagem, mas não tão grande ao ponto de distinguir pequenas varia¸cões, como por exemplo de um ru´ıdo.

Figura 19: Representa¸c˜ao do agrupamento realizado pelo algoritmo k-means.

Fonte: http://scikit-learn.org/0.5/modules/clustering.html

acessado em 15/05/2014

(40)

incrementado obtendo-se o histograma, em seguida os valores s˜ao normalizados. Este ser´a o vetor caracter´ıstico que descreve a imagem para os pontos de interesse extra´ıdos.

3.3.2 Constru¸c˜ao de um vocabul´ario adaptado por classe

Assim como apresentado por Csurka et al. (2004), Perronnin (2008) explica que a categoriza¸cão visual genérica de imagens é um problema de classifica¸cão de padrões que consiste em aplicar etiquetas a imagens com base em seu conteúdo. Porém, Perronnin (2008) aborda o uso de grupos espec´ıficos de palavras para cada classe, onde para exem-plificar a diferen¸ca na classifica¸cão entre gatos e cachorros é utilizado um histograma universal e um histograma espec´ıfico para a classe. Nesse caso a imagem de um cachorro, no histograma do classificador de cachorro, irá apresentar valores maiores no vocabulário espec´ıfico do que no universal. Já no histograma do classificador de gato, os valores do vocabulário universal serão maiores do que do vocabulário espec´ıfico.

Perronnin (2008) enfatiza o uso da palavra ”genérico” para mostrar que as imagens possuem informa¸cões comuns para todas as classes e mais importante que estas, existem caracter´ısticas espec´ıficas para cada uma, que facilitam a categoriza¸cão visual dentro de cada classe. Por exemplo, são estas caracter´ısticas espec´ıficas que nos auxiliam a iden-tificar a diferen¸ca entre uma caneca e um copo, ambos possuem caracter´ısticas similares (genéricas), mas o que diferencia uma classe da outra, são atributos particulares de cada uma. Porém, a prática de dividir os vocabulários por classe se torna impraticável para uma grande quantidade de classes, visto que o tamanho do vocabulário cresce linearmente com esta quantidade, tornando o custo computacional muito alto devido ao tamanho do histograma gerado.

(41)

de dados sempre terá uma taxa de acerto maior do que uma imagem fora do mesmo, exatamente pelo fato do agrupamento ter sido feito a partir das imagens contidas no banco de dados. No entanto, é poss´ıvel classificar uma imagem fora do banco de dados com uma boa taxa de acerto, já que os pontos caracter´ısticos tendem a estar próximos para imagens dentro das mesmas categorias.

A partir da classifica¸cão visual de imagens e visando gerar recomenda¸cões baseadas no conteúdo de uma imagem, temos um caminho que nos leva ao problema de recupera¸cão de imagens baseado em conteúdo. Para efetuar uma consulta em uma lista de imagens é necessário uma indexa¸cão, que por sua vez deve ser baseada em alguma informa¸cão da imagem. Os histogramas gerados pelo Bag of Keypoints apresentam uma boa descri¸cão para indexar as imagens, desde que a extra¸cão das caracter´ısticas seja feita de acordo com a informa¸cão buscada e desde que os parâmetros para gera¸cão do vocabulário sejam aplicados corretamente, como por exemplo a quantidade de palavras visuais que será utilizada e os parâmetros para o detector de pontos de interesse (DATTA et al., 2008).

3.4 Descritor de Cores Dominantes

Por analisar apenas varia¸cões de intensidade em pontos espec´ıficos da imagem, os algoritmos que foram utilizados trabalham com imagens em escalas de cinza (LOWE, 2004; BAY et al., 2008). No entanto, a informa¸cão de cor é uma caracter´ıstica muito importante quando falamos em obras de arte, ela adiciona beleza as imagens e fornece uma informa¸cão muito valiosa para ser utilizada na recupera¸cão de imagens baseada no conteúdo (YELIZAVETA; TAT-SENG; IRINA, 2005).

Para melhorar a descri¸cão visual das obras de arte, também foi utilizado um descritor de cores dominantes baseado na técnica apresentada por Krishnan, Banu e Christiyana (2007), onde os autores criam uma categoriza¸cão pré-determinada do espa¸co de cores e em seguida aplicam um conceito similar ao Bag of Keypoints para gerar uma tabela de frequêcia, que indica a frequência de cada cor na imagem. Por fim, essa tabela é ordenada de forma decrescente para identificar as cores dominantes na imagem.

(42)

as imagens presentes nesse banco de dados, ao invés de utilizar categorias pré-definidas como no trabalho de Krishnan, Banu e Christiyana (2007). Essa categoriza¸cão mais dinâmica permitiu uma melhor distribui¸cão das categorias no espa¸co de cores e para isso foi utilizado o algoritmo k-means. As etapas para gera¸cão desse descritor serão melhor detalhadas no cap´ıtulo 4.

3.5 M´

etrica para an´

alise da precis˜

ao no sistemas de recomenda¸c˜

oes

Para avaliar a qualidade dos resultados no sistema de recomenda¸cões, foi utilizada uma métrica muito comum no estudo de recupera¸cão de imagens, explicada por Herlocker et al. (2004). Foi utilizada a medida de precisão para medir a qualidade das informa¸cões recuperadas e avaliar se os itens retornados na pesquisa são realmente os itens esperados.

A medida de precisão indica a quantidade de itens relevantes que foram retornados na consulta ou recomendados, de acordo com a quantidade total de itens retornados, explica Herlocker et al. (2004). O valor da precisãoé definido por:

P = tp tp+fp

, (15)

onde tp representa a quantidade verdadeiros positivos, ou seja, de itens relevantes e fp ´e

(43)

4 DESENVOLVIMENTO DO SISTEMA

Com uma base teórica formada sobre os conceitos necessários, foram elaboradas duas aplica¸cões computacionais: uma aplica¸cão para computadores desktop com Windows, que executa a primeira etapa do sistema; e uma aplica¸cão para dispositivos móveis da plataforma Android, que executa a segunda etapa na qual o usuário efetivamente utiliza o sistema. Foi utilizada a biblioteca OpenCV, uma biblioteca de software livre voltada a aplica¸cões de visão computacional e cálculos matemáticos complexos (OPENCV, 2014). As linguagens de programa¸cão utilizadas foram Java, C e C++.

A primeira etapa consiste em listar as imagens do acervo e aplicar as técnicas de recupera¸cão de imagens descritas na se¸cão 3.1. Também foi utilizado o conceito de Bag of Keypoints, descrito na se¸cão 3.3, para gerar os descritores que por sua vez foram utilizados para indexar a lista e apresentar o resultado ordenado. Como pré-requisito para a implementa¸cão do Bag of Keypoints, foram testados os algoritmos de deteçcão e descri¸cão de pontos de interesse SIFT e SURF, descritos na se¸cão 3.2.

4.1 Acervo

Para implementar a solu¸cão proposta, um banco de dados de pinturas foi montado a partir do site www.wikiart.org, que contém pinturas disponibilizadas a partir de uma licen¸ca pública, organizadas por artista, gênero e movimento. As imagens obtidas foram analisadas dentro de seis movimentos de arte: Barroco, Romantismo, Realismo, Impres-sionismo, Expressionismo e Cubismo. Dentro de cada movimento existem imagens de paisagens e retratos, formando uma cole¸cão com um total de 240 obras de arte.

(44)

apre-sentada na tabela 1.

Figura 20: Exemplos de Retratos dos movimentos Barroco, Realismo e Romantismo.

Figura 21: Exemplos de Paisagens dos movimentos Barroco, Realismo e Romantismo.

Figura 22: Exemplos de Retratos dos movimentos Expressionismo e Impressionismo.

Figura 23: Exemplos de Paisagens dos movimentos Expressionismo e Impressionismo.

(45)

Figura 25: Exemplos de Paisagens do movimento Cubismo.

Tabela 1: N´umero de imagens inclu´ıda em cada classe.

Classe Movimentos de Arte (Estilo) Gˆenero Imagens

1

Barroco Realismo Romantismo

Paisagem 40

2

Barroco Realismo Romantismo

Retrato 40

3 Expressionismo

Impressionismo Paisagem 40

4 Expressionismo

Impressionismo

Retrato 40

5 Cubismo Paisagem 40

6 Cubismo Retrato 40

4.2 Arquitetura

Baseado na divis˜ao feita por Valle e Cord (2009) e conforme apresentado na figura 26, as etapas do sistema foram divididas em duas fases:

• Offline: Etapa executada de forma automática, ou seja, sem a interven¸cão do usuário. Deve ser processada antes que se possa utilizar o sistema e também a cada vez que uma nova imagem for inclu´ıda no acervo. Consiste no processamento de todas as imagens para gera¸cão do vocabulário, do descritor baseado emkeypoints

(46)

• Online: Consiste na fase em que o usuário utiliza o sistema, ou seja, quando o usuário passar uma imagem solicitando uma recomenda¸cão o sistema carrega o descritor desta imagem, que é chamada de query. Em seguida é realizado um processo de

matching entre o descritor daquery e de todas as imagens do acervo, ordenando-as de forma crescente em rela¸c˜ao a distˆancia entre os descritores.

Figura 26: Vista do processo de recupera¸c˜ao de imagens dividido em fase offline e online.

Fonte: Autor

4.3 Processo

Offline

(47)

necessário definir o valor de k, ou seja, a quantidade de palavras visuais que se deseja ter no vocabulário. Esse valor foi definido empiricamente e o resultado dos testes será apresentados no cap´ıtulo 5.

4.3.1 Gera¸c˜ao do Descritor baseado no Bag of Keypoints

Nos testes feitos para a gera¸cão do descritor de Bag of keypoints, foi identificado que havia uma necessidade de ter uma quantidade uniforme de pontos de interesse. Ao utilizar os parâmetros pré-configurados no OpenCV para os detectores do SIFT e do SURF, a quantidade de pontos detectados era muito diferente entre uma imagem e outra, princi-palmente ao analisar imagens de diferentes classes e diferentes tamanhos. Por exemplo, um quadro cubista apresentava muitos mais pontos do que um quadro do movimento barroco. Essa diferen¸ca gerou um problema no momento de aproximar cada ponto a uma palavra no vocabulário e fazer a contagem das palavras visuais. O histograma gerado ficava disperso para as imagens com muitos pontos, resultando em um número maior de falsos positivos.

Para resolver essa questão a quantidade de pontos foi normalizada para 500 pontos por imagem, alterando o parâmetro de máximo número de pontos para o SIFT e a m´ınima hessiana no SURF. Isso também resolveu o problema de imagens com diferentes tamanhos, já que os algoritmos são invariantes a escala. A quantidade fixa de pontos definiu bem o padrão detectado, gerando um descritor que caracteriza melhor cada uma das classes e reduzindo o número de falsos positivos.

Na primeira configura¸cão, que utiliza um vocabulário universal, os pontos de todas as imagens foram extra´ıdos e agrupados viak-means uma única vez para todas as imagens. O vocabulário gerado foi armazenado fisicamente em um arquivo no disco para ficar dispon´ıvel na faseonline.

(48)

em um arquivo para ficarem dispon´ıveis na fase online. Finalmente os vocabul´arios fo-ram utilizados para gerar o descritor de cada imagem presente no acervo com base nos

keypoints.

Com todos os descritores gerados, foi poss´ıvel validar o conceito de vocabulário adap-tado apresenadap-tado por Perronnin (2008), onde a parte do descritor adaptada para deter-minada classe apresentou uma quantidade maior de palavras quando a imagem analisada está dentro desta classe, por exemplo no caso da Figura 27, é poss´ıvel perceber que a quantidade de palavras presentes na classe 1 é maior do que a distribui¸cão entre as outras classes (Figura 28). Já no caso da Figura 29, é poss´ıvel perceber que a quantidade de palavras da classe 2 é maior do que nas outras classes (Figura 30).

Figura 27: Exemplo de paisagem do movimento barroco (classe 1).

(49)

Figura 29: Exemplo de retrato do movimento barroco (classe 2).

Figura 30: Histograma de retrato do movimento barroco.

4.3.2 Gera¸c˜ao do Descritor de Cores Dominantes

A gera¸cão do descritor de cores dominantes é feita na fase offline e está dividida em três passos:

• Cria¸c˜ao de uma paleta de vinte e quatro cores baseando-se em todas as imagens do acervo;

• Quantiza¸c˜ao das cores de cada imagem de acordo com os valores da paleta;

(50)

Para a gera¸c˜ao da paleta de cores, todas as imagens do acervo foram processadas e foi extra´ıdo o valor RGB de cada pixel em todas as imagens. Estes valores foram inclu´ıdos em um vetor ´unico e agrupados utilizando o algoritmok-meanscom um valor dek= 24. Com isso, cada valor convergido pelo algoritmo resultou em um valor RGB, ou seja, resultando em uma paleta de vinte e quatro cores RGB.

Com a paleta de cores definida, o próximo passo foi a quantiza¸cão de cada uma das imagens. Cada pixel em cada imagem foi aproximado a um dos 24 valores existentes na paleta utilizando a técnica de KNN, gerando um histograma que mostra quantas vezes cada cor da paleta aparece na imagem. A imagem original é apresentada na Figura 31 e após quantizada, foi obtida uma imagem com uma quantidade reduzida de cores, que é apresentada na Figura 32.

Figura 31: Imagem RGB original com todas as cores.

Figura 32: Imagem quantizada com 24 cores.

(51)

e a imagem resultante é apresentada na Figura 33. Um histograma com as mesmas 24 posi¸cões que representa o descritor das cores dominantes e seus respectivos percentuais é apresentado na Figura 34.

Figura 33: Imagem resultante com 8 cores dominantes.

(52)

4.4 Processo

Online

4.4.1 Reconhecimento do Quadro

Antes da etapa de recupera¸cão das imagens e gera¸cão da recomenda¸cão, é necessário que o usuário informe a imagemquery ao sistema, esse processo é feito na faseonline, ou seja, acontece no momento em que o usuário utiliza o sistema. O usuário aponta a câmera do celular para o quadro conforme a Figura 35 e o sistema reconhece o quadro presente no frame capturado, mostrando ao usuário as informa¸cões daquele quadro, conforme a Figura 36.

Figura 35: Imagem do sistema buscando o quadro na imagem capturada.

Fonte: Autor

Um método para reconhecer a imagem utilizando pontos de interesse consiste em detectar e descrever todos os pontos de interesse de todas as imagens e armazená-los em um banco de dados, em seguida é feita a extra¸cão e descri¸cão dos pontos na imagem do frame capturado pela câmera do celular. A partir de então é feito um processo de correla¸cão entre os descritores doframe e todos os descritores armazenados no banco de dados, onde para cada descritor doframeé encontrado um descritor no banco de dados e a respectiva imagem recebe um voto, ao final é retornada a imagem com maior quantidade de votos (VALLE; CORD, 2009). Este método foi implementado para o reconhecimento do quadro presente noframe utilizando o algoritmo ORB e suas etapas são apresentadas na Figura 37. Como o sistema proposto não faz uma proje¸cão de objetos virtuais no

(53)

Figura 36: Imagem do sistema no momento que o quadro ´e identificado.

Fonte: Autor

pontos detectados foram o suficiente para encontrar o quadro no banco de dados.

Os pontos detectados noframe utilizando o ORB, são descritos e correlacionados com os pontos ORB que foram armazenados no banco de dados durante a fase offline para cada imagem. Em seguinda é realizada uma vota¸cão e retornada a imagem que possui maior quantidade de votos, ou seja, que possui mais pontos correspondidos com os pontos do frame. Quando a imagem é capturada pela câmera do celular, a obra de arte a ser identificada pode estar presente ou não. O usuário pode estar caminhando pelo museu com o aplicativo ligado e não necessáriamente apontando para uma obra de arte. Para evitar que o sistema identifique de forma errada uma imagem em cadaframe, foi necessário aplicar um threshold, eliminando as correla¸cões que possuam uma quantidade de votos menor que 15.

(54)

Figura 37: Processo de reconhecimento do quadro capturado pelo celular.

Fonte: Autor

4.4.2 Indexa¸c˜ao e Recomenda¸c˜ao

Após o reconhecimento do quadro no frame, temos o seu identificador no banco de dados e este será o identificador da imagem query para a gera¸cão da recomenda¸cão. A partir disso é poss´ıvel recuperar os descritores debag of keypoints e de cores dominantes, que consistem em vetores de tamanho fixo para cada imagem armazenada no banco de dados.

Para cada um dos tipos de descritores, de bag of keypoints e de cores dominantes, foi feita uma correla¸cão entre aquerye as imagens no banco de dados utilizando um algoritmo de for¸ca bruta. Foram testadas duas métricas de distância dispon´ıveis no OpenCV: a distância L1 (Manhattan) e a distância L2 (Euclidiana). A métrica escolhida foi a distância deManhattan, que apresentou melhores resultados em rela¸cão a Euclidiana, conforme já apresentado anteriormente por outros autores (KOKARE; CHATTERJI; BISWAS, 2003).

Foi calculado um valor de distância para cada imagem no banco de dados em rela¸cão aquery e em seguida as imagens foram ordenadas por essa distância em ordem crescente. A imagem query sempre estará contida na cole¸cão, portanto é esperado que a primeira imagem recuperada seja ela própria e que a distância em rela¸cão aquery seja igual a zero. A segunda imagem recuperada será a pintura a ser recomendada ao usuário, conforme apresentado na Figura 38.

(55)

Figura 38: Representa¸cão básica de escolha da recomenda¸cão a partir da indexa¸cão.

Fonte: Autor

e outro para as cores dominantes. Para considerar os pontos de interesse e as cores domi-nantes em um único resultado na consulta, o ´ındice de cada caracter´ıstica foi integrado combinando os valores de distância. Para isso foi utilizado o cálculo apresentado por Jain e Vailaya (1996). Considerando Q a imagem query e I uma imagem na cole¸cão, Dp será

a distância entre Q e I com base nos pontos de interesse. Dc será a distância com base

nas cores dominantes e a distˆancia total Dt ser´a:

Dt =

wpDp +wcDc

wp+wc

(16)

onde wp e wc s˜ao os pesos para pontos de interesse (gˆenero/estilo) e cores dominantes,

respectivamente.

Para permitir uma intera¸cão maior do usuário com o sistema, é poss´ıvel alterar os valores dewp ewc a partir da interface do sistema antes da gera¸cão da recomenda¸cão,

(56)

Figura 39: Configura¸cão dos parâmetros de recomenda¸cões.

Fonte: Autor

Figura 40: Apresenta¸cão da recomenda¸cão ao usuário.

(57)

5 EXPERIMENTOS E RESULTADOS

Os primeiros testes foram executados utilizando tanto o algoritmo SURF como o SIFT, com o objetivo de comparar as precisões entre eles para a gera¸cão das recomenda¸cões. O experimento também consiste em fazer uma verifica¸cão de qual o número adequado de palavras visuais que devem existir no vocabulário, alterando empiricamente os valores de 250 a 4000. Para este teste, o peso para o descritor de cores dominantes foi definido para wc = 0. A medi¸cão foi feita passando todas as imagens presentes no banco de dados

como query, uma por uma e avaliando a precisão para uma recomenda¸cão. Como cada obra possui uma informa¸cão de estilo e gênero, a precisão foi medida por: estilo, gênero, apenas um dos dois (OR) e para os dois (AND). Os resultados para essa configura¸cão são apresentados na Tabela 2 para o SURF e na Tabela 3 para o SIFT.

Tabela 2: Valores de precis˜ao utilizando o algoritmo SURF.

Palavras Visuais Estilo Gˆenero AND OR 250 0,8410 0,6778 0,5941 0,9247 500 0,8828 0,7406 0,6778 0,9456

1000 0,9080 0,8117 0,7448 0,9749 1500 0,9205 0,8117 0,7699 0,9623 2000 0,9247 0,8243 0,7699 0,9791 3000 0,9665 0,8452 0,8368 0,9749 4000 0,9665 0,8912 0,8828 0,9749

(58)

Figura 41: Gr´afico de precis˜oes do algoritmo SURF.

Tabela 3: Valores de precis˜ao utilizando o algoritmo SIFT.

Palavras Visuais Estilo Gˆenero AND OR 250 0,7782 0,7824 0,6527 0,9079 500 0,8745 0,8912 0,8117 0,9540 1000 0,9498 0,9331 0,9038 0,9791 1500 0,9665 0,9498 0,9372 0,9791

2000 0,9749 0,9582 0,9582 0,9749 3000 0,9874 0,9707 0,9707 0,9874 4000 0,9874 0,9623 0,9623 0,9874

(59)

Foi poss´ıvel perceber que os valores de precisão para os SIFT crescem de acordo com a quantidade de palavras visuais do vocabulário. Para a caracter´ıstica de estilo, essa precisão come¸ca a estabilizar em torno de 1000 palavras visuais com 0,9498 de precisão e para o gênero em torno de 2000 mil palavras com 0,9582 de precisão, conforme é poss´ıvel observar no gráfico da Figura 42. Como é de conhecimento que o custo computacional aumenta de acordo com a quantidade de palavras, foi medido o tempo médio de processamento para a gera¸cão da recomenda¸cões com 1000 e com 2000 palavras. Os resultados são apresentados na Tabela 4 e considerando a diferen¸ca de apenas 0,008 segundos no tempo de processamento, foi escolhido o valor de 2000 palavras visuais.

Tabela 4: Tempos médios de processamento para gera¸cão das recomenda¸cões.

Palavras Visuais 1000 2000 Tempo (segundos) 0,025 0,033

Quando a primeira recomenda¸cão já foi vista pelo usuário, o sistema deve recomendar a segunda imagem e assim por diante. Devido a isso também foi medida a precisão para uma quantidade maior de recomenda¸cões. Ainda utilizando o algoritmo SIFT, para esse teste foram utilizadas 2000 palavras visuais e foram recuperadas 4 imagens. Os resultados são apresentados na Tabela 5 e na Figura 43.

Tabela 5: Precisão para 4 recomenda¸cões por estilo e gênero.

Estilo Gˆenero AND OR 0,9559 0,9487 0,9299 0,9738

Na Figura 44 é poss´ıvel perceber que os resultados recuperados estão de acordo com estilo e gênero, mas não de acordo com as cores. Para avaliar a precisão de acordo com o descritor de cores dominantes, o peso para o ´ındice do descritor de bag of keypoints foi configurado para wp = 0 e o peso do descritor de cores dominantes para wc = 1. Os

resultados s˜ao apresentados na Figura 45.

Finalmente, os pesos foram alterados de forma que ambos os ´ındices para cada carac-ter´ıstica, entrebag of keypointse cores dominantes, fossem integrados. Os valores parawp

ewc foram alterados empiricamente e os resultados foram avaliados observando as cores e

(60)

Figura 43: Exemplos de resultados para 4 recomenda¸c˜oes (wp = 1 e wc = 0).

Figura 44: Resultados utilizando o descritor de bag of keypoints (wp = 1 e wc = 0).

(61)

recomenda¸cões, estes pesos podem ser ajustados de acordo com a preferência do usuário por estilo/gênero ou cores. Os valores padrão escolhidos foram wp = 0,8 e wc = 0,2,

porém estes valores podem ser alterados pelo usuário através da interface do sistema. Os resultados de recomenda¸cões para essa configura¸cão são apresentados na Figura 46. Devido a inferência do descritor de cores a precisão foi reduzida, porém ainda manteve-se um valor de 0,9540 para estilo ou gênero.

(62)

6 CONCLUS ˜

OES E TRABALHOS FUTUROS

Com os primeiros testes foi poss´ıvel perceber que o uso de um vocabulário adaptado para cada classe se mostrou mais eficiente do que o vocabulário universal. A resposta para esse problema é que alguns pontos são similares entre as classes e ao utilizar um vocabulário único, algumas palavras são compartilhadas por imagens de diferentes classes, aumentando o número de falsos positivos. Ao usar um vocabulário adaptado são geradas duas palavras separadas para cada classe, permitindo que os pontos detectados sejam atribu´ıdos à palavra da respectiva classe, o que melhorou muito a precisão.

Também foi poss´ıvel comparar a precisão na recupera¸cão de imagens utilizando dois algoritmos diferentes para a gera¸cão dobag of keypoints. Foram obtidos melhores resulta-dos para o algoritmo SIFT em rela¸cão ao SURF, apesar deste segundo ser mais recente. Recomenda-se para trabalhos futuros executar os mesmos testes para diversos outros al-goritmos de deteçcão e descri¸cão de pontos de interesse, tal como verificar o que pode-se melhorar dentro destes algoritmos de forma que se tenha melhores precisões na aplica¸cão de recupera¸cão de imagens baseadas em conteúdo.

O método proposto apresentou bons resultados para recomenda¸cões e recupera¸cão de obras de arte a partir de um banco de dados com base no conteúdo. Utilizando apenas um descritor de pontos de interesse combag of keypointsfoi poss´ıvel obter ótimos valores de precisão chegando a 0,9749 com 2000 palavras visuais para pelo menos uma das duas caracter´ısticas entre estilo e gênero (OR). Ao combinar o descritor de pontos de interesse com o descritor de cores dominantes, foi poss´ıvel melhorar a similaridade visual das imagens recuperadas.

A divisão adequada das obras de arte também foi um passo muito importante, onde o estudo dos movimentos de arte e suas caracter´ısticas foi fundamental. Nos testes, foi poss´ıvel concluir que a escolha do número de palavras visuais no vocabulário é muito importante e deve ser adequada de acordo com o tipo de imagens utilizadas.

(63)