• Nenhum resultado encontrado

Indexa¸c˜ao e Recomenda¸c˜ao

4.4 Processo Online

4.4.2 Indexa¸c˜ao e Recomenda¸c˜ao

Ap´os o reconhecimento do quadro no frame, temos o seu identificador no banco de dados e este ser´a o identificador da imagem query para a gera¸c˜ao da recomenda¸c˜ao. A partir disso ´e poss´ıvel recuperar os descritores de bag of keypoints e de cores dominantes, que consistem em vetores de tamanho fixo para cada imagem armazenada no banco de dados.

Para cada um dos tipos de descritores, de bag of keypoints e de cores dominantes, foi feita uma correla¸c˜ao entre a query e as imagens no banco de dados utilizando um algoritmo de for¸ca bruta. Foram testadas duas m´etricas de distˆancia dispon´ıveis no OpenCV: a distˆancia L1 (Manhattan) e a distˆancia L2 (Euclidiana). A m´etrica escolhida foi a distˆancia de Manhattan, que apresentou melhores resultados em rela¸c˜ao a Euclidiana, conforme j´a apresentado anteriormente por outros autores (KOKARE; CHATTERJI; BISWAS, 2003). Foi calculado um valor de distˆancia para cada imagem no banco de dados em rela¸c˜ao a query e em seguida as imagens foram ordenadas por essa distˆancia em ordem crescente. A imagem query sempre estar´a contida na cole¸c˜ao, portanto ´e esperado que a primeira imagem recuperada seja ela pr´opria e que a distˆancia em rela¸c˜ao a query seja igual a zero. A segunda imagem recuperada ser´a a pintura a ser recomendada ao usu´ario, conforme apresentado na Figura 38.

Figura 38: Representa¸c˜ao b´asica de escolha da recomenda¸c˜ao a partir da indexa¸c˜ao.

Fonte: Autor

e outro para as cores dominantes. Para considerar os pontos de interesse e as cores domi- nantes em um ´unico resultado na consulta, o ´ındice de cada caracter´ıstica foi integrado combinando os valores de distˆancia. Para isso foi utilizado o c´alculo apresentado por Jain e Vailaya (1996). Considerando Q a imagem query e I uma imagem na cole¸c˜ao, Dp ser´a

a distˆancia entre Q e I com base nos pontos de interesse. Dc ser´a a distˆancia com base

nas cores dominantes e a distˆancia total Dt ser´a:

Dt =

wpDp + wcDc

wp+ wc

(16) onde wp e wc s˜ao os pesos para pontos de interesse (gˆenero/estilo) e cores dominantes,

respectivamente.

Para permitir uma intera¸c˜ao maior do usu´ario com o sistema, ´e poss´ıvel alterar os valores de wp e wc a partir da interface do sistema antes da gera¸c˜ao da recomenda¸c˜ao, con-

forme a Figura 39. Em seguida, o usu´ario pode selecionar a op¸c˜ao ”Gerar recomenda¸c˜ao baseada nesta obra” que ir´a exibir a imagem recomendada em uma segunda tela junto com a indica¸c˜ao de dire¸c˜ao de onde aquela obra se encontra (Figura 40).

Figura 39: Configura¸c˜ao dos parˆametros de recomenda¸c˜oes.

Fonte: Autor

Figura 40: Apresenta¸c˜ao da recomenda¸c˜ao ao usu´ario.

5

EXPERIMENTOS E RESULTADOS

Os primeiros testes foram executados utilizando tanto o algoritmo SURF como o SIFT, com o objetivo de comparar as precis˜oes entre eles para a gera¸c˜ao das recomenda¸c˜oes. O experimento tamb´em consiste em fazer uma verifica¸c˜ao de qual o n´umero adequado de palavras visuais que devem existir no vocabul´ario, alterando empiricamente os valores de 250 a 4000. Para este teste, o peso para o descritor de cores dominantes foi definido para wc = 0. A medi¸c˜ao foi feita passando todas as imagens presentes no banco de dados

como query, uma por uma e avaliando a precis˜ao para uma recomenda¸c˜ao. Como cada obra possui uma informa¸c˜ao de estilo e gˆenero, a precis˜ao foi medida por: estilo, gˆenero, apenas um dos dois (OR) e para os dois (AND). Os resultados para essa configura¸c˜ao s˜ao apresentados na Tabela 2 para o SURF e na Tabela 3 para o SIFT.

Tabela 2: Valores de precis˜ao utilizando o algoritmo SURF. Palavras Visuais Estilo Gˆenero AND OR

250 0,8410 0,6778 0,5941 0,9247 500 0,8828 0,7406 0,6778 0,9456 1000 0,9080 0,8117 0,7448 0,9749 1500 0,9205 0,8117 0,7699 0,9623 2000 0,9247 0,8243 0,7699 0,9791 3000 0,9665 0,8452 0,8368 0,9749 4000 0,9665 0,8912 0,8828 0,9749

Apesar da precis˜ao para pelo menos uma das caracter´ısticas (OR) ter sido similar para os dois algoritmos, ´e poss´ıvel perceber que na avalia¸c˜ao geral o SIFT apresentou precis˜oes melhores e a explica¸c˜ao para isso est´a no descritor. O SIFT possui um descritor maior, de 128 posi¸c˜oes, contra um descritor de 64 posi¸c˜oes do SURF. Al´em do tamanho, o descritor do SIFT trabalha com valores de magnitude do gradiente em rela¸c˜ao ao ponto para descrevˆe-lo, j´a o SURF utiliza filtros de convolu¸c˜ao nas dire¸c˜oes X e Y. O que nos leva a hip´otese de que a informa¸c˜ao relevante para o banco de dados em quest˜ao foi mais bem descrita utilizando o SIFT. Diante destes resultados, este foi escolhido para ser implementado na gera¸c˜ao dos descritores do Bag of Keypoints.

Figura 41: Gr´afico de precis˜oes do algoritmo SURF. Tabela 3: Valores de precis˜ao utilizando o algoritmo SIFT.

Palavras Visuais Estilo Gˆenero AND OR 250 0,7782 0,7824 0,6527 0,9079 500 0,8745 0,8912 0,8117 0,9540 1000 0,9498 0,9331 0,9038 0,9791 1500 0,9665 0,9498 0,9372 0,9791 2000 0,9749 0,9582 0,9582 0,9749 3000 0,9874 0,9707 0,9707 0,9874 4000 0,9874 0,9623 0,9623 0,9874

Foi poss´ıvel perceber que os valores de precis˜ao para os SIFT crescem de acordo com a quantidade de palavras visuais do vocabul´ario. Para a caracter´ıstica de estilo, essa precis˜ao come¸ca a estabilizar em torno de 1000 palavras visuais com 0,9498 de precis˜ao e para o gˆenero em torno de 2000 mil palavras com 0,9582 de precis˜ao, conforme ´e poss´ıvel observar no gr´afico da Figura 42. Como ´e de conhecimento que o custo computacional aumenta de acordo com a quantidade de palavras, foi medido o tempo m´edio de processamento para a gera¸c˜ao da recomenda¸c˜oes com 1000 e com 2000 palavras. Os resultados s˜ao apresentados na Tabela 4 e considerando a diferen¸ca de apenas 0,008 segundos no tempo de processamento, foi escolhido o valor de 2000 palavras visuais.

Tabela 4: Tempos m´edios de processamento para gera¸c˜ao das recomenda¸c˜oes. Palavras Visuais 1000 2000

Tempo (segundos) 0,025 0,033

Quando a primeira recomenda¸c˜ao j´a foi vista pelo usu´ario, o sistema deve recomendar a segunda imagem e assim por diante. Devido a isso tamb´em foi medida a precis˜ao para uma quantidade maior de recomenda¸c˜oes. Ainda utilizando o algoritmo SIFT, para esse teste foram utilizadas 2000 palavras visuais e foram recuperadas 4 imagens. Os resultados s˜ao apresentados na Tabela 5 e na Figura 43.

Tabela 5: Precis˜ao para 4 recomenda¸c˜oes por estilo e gˆenero. Estilo Gˆenero AND OR

0,9559 0,9487 0,9299 0,9738

Na Figura 44 ´e poss´ıvel perceber que os resultados recuperados est˜ao de acordo com estilo e gˆenero, mas n˜ao de acordo com as cores. Para avaliar a precis˜ao de acordo com o descritor de cores dominantes, o peso para o ´ındice do descritor de bag of keypoints foi configurado para wp = 0 e o peso do descritor de cores dominantes para wc = 1. Os

resultados s˜ao apresentados na Figura 45.

Finalmente, os pesos foram alterados de forma que ambos os ´ındices para cada carac- ter´ıstica, entre bag of keypoints e cores dominantes, fossem integrados. Os valores para wp

e wc foram alterados empiricamente e os resultados foram avaliados observando as cores e

Figura 43: Exemplos de resultados para 4 recomenda¸c˜oes (wp = 1 e wc = 0).

Figura 44: Resultados utilizando o descritor de bag of keypoints (wp = 1 e wc = 0).

recomenda¸c˜oes, estes pesos podem ser ajustados de acordo com a preferˆencia do usu´ario por estilo/gˆenero ou cores. Os valores padr˜ao escolhidos foram wp = 0, 8 e wc = 0, 2,

por´em estes valores podem ser alterados pelo usu´ario atrav´es da interface do sistema. Os resultados de recomenda¸c˜oes para essa configura¸c˜ao s˜ao apresentados na Figura 46. Devido a inferˆencia do descritor de cores a precis˜ao foi reduzida, por´em ainda manteve-se um valor de 0,9540 para estilo ou gˆenero.

6

CONCLUS ˜OES E TRABALHOS FUTUROS

Com os primeiros testes foi poss´ıvel perceber que o uso de um vocabul´ario adaptado para cada classe se mostrou mais eficiente do que o vocabul´ario universal. A resposta para esse problema ´e que alguns pontos s˜ao similares entre as classes e ao utilizar um vocabul´ario ´unico, algumas palavras s˜ao compartilhadas por imagens de diferentes classes, aumentando o n´umero de falsos positivos. Ao usar um vocabul´ario adaptado s˜ao geradas duas palavras separadas para cada classe, permitindo que os pontos detectados sejam atribu´ıdos `a palavra da respectiva classe, o que melhorou muito a precis˜ao.

Tamb´em foi poss´ıvel comparar a precis˜ao na recupera¸c˜ao de imagens utilizando dois algoritmos diferentes para a gera¸c˜ao do bag of keypoints. Foram obtidos melhores resulta- dos para o algoritmo SIFT em rela¸c˜ao ao SURF, apesar deste segundo ser mais recente. Recomenda-se para trabalhos futuros executar os mesmos testes para diversos outros al- goritmos de detec¸c˜ao e descri¸c˜ao de pontos de interesse, tal como verificar o que pode-se melhorar dentro destes algoritmos de forma que se tenha melhores precis˜oes na aplica¸c˜ao de recupera¸c˜ao de imagens baseadas em conte´udo.

O m´etodo proposto apresentou bons resultados para recomenda¸c˜oes e recupera¸c˜ao de obras de arte a partir de um banco de dados com base no conte´udo. Utilizando apenas um descritor de pontos de interesse com bag of keypoints foi poss´ıvel obter ´otimos valores de precis˜ao chegando a 0,9749 com 2000 palavras visuais para pelo menos uma das duas caracter´ısticas entre estilo e gˆenero (OR). Ao combinar o descritor de pontos de interesse com o descritor de cores dominantes, foi poss´ıvel melhorar a similaridade visual das imagens recuperadas.

A divis˜ao adequada das obras de arte tamb´em foi um passo muito importante, onde o estudo dos movimentos de arte e suas caracter´ısticas foi fundamental. Nos testes, foi poss´ıvel concluir que a escolha do n´umero de palavras visuais no vocabul´ario ´e muito importante e deve ser adequada de acordo com o tipo de imagens utilizadas.

A aplica¸c˜ao desenvolvida como prova de conceito tamb´em funcionou adequadamente conforme o esperado, permitindo gerar recomenda¸c˜oes de acordo com a imagem infor- mada e com os parˆametros de estilo/gˆenero ou cor. A aplica¸c˜ao foi desenvolvida para dispositivos Android e uma sugest˜ao de trabalho futuro ´e o desenvolvimento da aplica¸c˜ao

para dispositivos iOS, visto que essa plataforma ´e largamente utilizada atualmente. Ainda dentro da aplica¸c˜ao, pode-se desenvolver um trabalho focado na identifica¸c˜ao da imagem na fase online, buscando melhorar o tempo de processamento dessa etapa e fazendo uma an´alise mais aprofundada em rela¸c˜ao a precis˜ao no reconhecimento do quadro.

REFERˆENCIAS BIBLIOGR ´AFICAS

ADOMAVICIUS, G.; TUZHILIN, A. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions. IEEE Trans. on Knowl. and Data Eng., IEEE Educational Activities Department, Piscataway, NJ, USA, v. 17, n. 6, p. 734–749, jun. 2005. ISSN 1041-4347. Dispon´ıvel em: <http://dx.doi.org/10.1109/TKDE.2005.99>.

AZUMA, R. T. A survey of augmented reality. Presence: Teleoperators and Virtual Environments, v. 6, n. 4, p. 355–385, ago. 1997.

BAY, H. et al. Speeded-up robust features (surf). Comput. Vis. Image Underst., Elsevier Science Inc., New York, NY, USA, v. 110, n. 3, p. 346–359, jun. 2008. ISSN 1077-3142. Dispon´ıvel em: <http://dx.doi.org/10.1016/j.cviu.2007.09.014>.

CALONDER, M. et al. Brief: Binary robust independent elementary features. In: Proceedings of the 11th European Conference on Computer Vision: Part IV. Berlin, Heidelberg: Springer-Verlag, 2010. (ECCV’10), p. 778–792. ISBN 3-642-15560-X, 978-3- 642-15560-4. Dispon´ıvel em: <http://dl.acm.org/citation.cfm?id=1888089.1888148>. CHANG, R.-I. et al. A novel content based image retrieval system using k-means/knn with feature extraction. Comput. Sci. Inf. Syst., v. 9, n. 4, p. 1645–1661, 2012. Dispon´ıvel em: <http://dblp.uni-trier.de/db/journals/comsis/comsis9.html>.

CSURKA, G. et al. Visual categorization with bags of keypoints. In: In Workshop on Statistical Learning in Computer Vision, ECCV. [S.l.: s.n.], 2004. p. 1–22.

DATTA, R. et al. Image retrieval: Ideas, influences, and trends of the new age. ACM Comput. Surv., ACM, New York, NY, USA, v. 40, n. 2, p. 5:1–5:60, maio 2008. ISSN 0360-0300. Dispon´ıvel em: <http://doi.acm.org/10.1145/1348246.1348248>.

FARTHING, S. Tudo sobre Arte. [S.l.]: Editora Sextante, 2010. 210–395 p. ISBN 9788575426463.

GUNSEL, B.; SARIEL, S.; ICOGLU, O. Content-based access to art paintings. In: Image Processing, 2005. ICIP 2005. IEEE International Conference on. [S.l.: s.n.], 2005. v. 2, p. II–558–61.

HERLOCKER, J. L. et al. Evaluating collaborative filtering recommender systems. ACM Trans. Inf. Syst., ACM, New York, NY, USA, v. 22, n. 1, p. 5–53, jan. 2004. ISSN 1046-8188. Dispon´ıvel em: <http://doi.acm.org/10.1145/963770.963772>.

HILL, W. et al. Recommending and evaluating choices in a virtual community of use. In: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York, NY, USA: ACM Press/Addison-Wesley Publishing Co., 1995. (CHI ’95), p. 194–201. ISBN 0-201-84705-1. Dispon´ıvel em: <http://dx.doi.org/10.1145/223904.223929>. JAIN, A. K.; VAILAYA, A. Image retrieval using color and shape. Pattern Recognition, v. 29, p. 1233–1244, 1996.

KOKARE, M.; CHATTERJI, B.; BISWAS, P. Comparison of similarity metrics for texture image retrieval. In: TENCON 2003. Conference on Convergent Technologies for the Asia-Pacific Region. [S.l.: s.n.], 2003. v. 2, p. 571–575 Vol.2.

KONSTAN, J. A.; EKSTRAND, M. D. Introduction to Recommender Systems. 2013. https://www.coursera.org/course/recsys. [Online; acessado em 18-Outubro-2013]. KRISHNAN, N.; BANU, M.; CHRISTIYANA, C. C. Content based image retrieval using dominant color identification based on foreground objects. In: Conference on Computational Intelligence and Multimedia Applications, 2007. International Conference on. [S.l.: s.n.], 2007. v. 3, p. 190–194.

LIU, J. Image retrieval based on bag-of-words model. CoRR - Computing Research Repository, abs/1304.5168, 2013.

LOWE, D. G. Object recognition from local scale-invariant features. In: Proceedings of the International Conference on Computer Vision-Volume 2 - Volume 2. Washington, DC, USA: IEEE Computer Society, 1999. (ICCV ’99), p. 1150–. ISBN 0-7695-0164-8. Dispon´ıvel em: <http://dl.acm.org/citation.cfm?id=850924.851523>.

LOWE, D. G. Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vision, Kluwer Academic Publishers, Hingham, MA, USA, v. 60, n. 2, p. 91–110, nov. 2004. ISSN 0920-5691. Dispon´ıvel em: <http://dx.doi.org/10.1023/B:VISI.0000029664- .99615.94>.

MARENGONI, M.; STRINGHINI, D. High level computer vision using opencv. In: Graphics, Patterns and Images Tutorials (SIBGRAPI-T), 2011 24th SIBGRAPI Conference on. [S.l.: s.n.], 2011. p. 11–24.

MIKSIK, O.; MIKOLAJCZYK, K. Evaluation of local detectors and descriptors for fast feature matching. In: Pattern Recognition (ICPR), 2012 21st International Conference on. [S.l.: s.n.], 2012. p. 2681–2684. ISSN 1051-4651.

OPENCV. Open Source Computer Vision. 2014. http://opencv.org. [Online; acessado em 03-Junho-2014].

PERRONNIN, F. Universal and adapted vocabularies for generic visual categorization. IEEE Trans. Pattern Anal. Mach. Intell., IEEE Computer Society, Washington, DC, USA, v. 30, n. 7, p. 1243–1256, jul. 2008. ISSN 0162-8828. Dispon´ıvel em: <http://dx.doi.org/10.1109/TPAMI.2007.70755>.

PROEN¸cA, G. A hist´oria da Arte. [S.l.]: Editora ´Atica, 2003. 102–163 p. ISBN 8508032447.

ROSTEN, E.; DRUMMOND, T. Machine learning for high-speed corner detection. In: Proceedings of the 9th European Conference on Computer Vision - Volume Part I. Berlin, Heidelberg: Springer-Verlag, 2006. (ECCV’06), p. 430–443. ISBN 3-540-33832-2, 978-3-540-33832-1. Dispon´ıvel em: <http://dx.doi.org/10.1007/11744023 34>.

RUBLEE, E. et al. Orb: An efficient alternative to sift or surf. In: Computer Vision (ICCV), 2011 IEEE International Conference on. [S.l.: s.n.], 2011. p. 2564–2571. ISSN 1550-5499.

SADOVNIK, A. et al. Image description with a goal: Building efficient discriminating expressions for images. In: CVPR. IEEE, 2012. p. 2791–2798. ISBN 978-1-4673-1226-4. Dispon´ıvel em: <http://dblp.uni-trier.de/db/conf/cvpr/cvpr2012.html>.

SALEEM, S.; BAIS, A.; SABLATNIG, R. A performance evaluation of sift and surf for multispectral image matching. In: Proceedings of the 9th International Conference on Image Analysis and Recognition - Volume Part I. Berlin, Heidelberg: Springer-Verlag, 2012. (ICIAR’12), p. 166–173. ISBN 978-3-642-31294-6. Dispon´ıvel em: <http://dx.doi.org/10.1007/978-3-642-31295-3 20>.

SALEMBIER, P.; SIKORA, T. Introduction to MPEG-7: Multimedia Content Description Interface. New York, NY, USA: John Wiley and Sons, Inc., 2002. ISBN 0471486787.

SHARDANAND, U.; MAES, P. Social information filtering: algorithms for automating word of mouth. In: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York, NY, USA: ACM Press/Addison-Wesley Publishing Co., 1995. (CHI ’95), p. 210–217. ISBN 0-201-84705-1. Dispon´ıvel em: <http://dx.doi.org- /10.1145/223904.223931>.

S´aNCHEZ, F. et al. Social and content hybrid image recommender system for mobile social networks. MONET, v. 17, n. 6, p. 782–795, 2012. Dispon´ıvel em: <http://dblp.uni-trier.de/db/journals/monet/monet17.html>.

TKALCIC, M.; BURNIK, U.; KOSIR, A. Using affective parameters in a content-based recommender system for images. User Modeling and User-Adapted Interaction, Kluwer Academic Publishers, Hingham, MA, USA, v. 20, n. 4, p. 279–311, out. 2010. ISSN 0924-1868. Dispon´ıvel em: <http://dx.doi.org/10.1007/s11257-010-9079-z>.

VALGREN, C.; LILIENTHAL, A. J. Sift, surf and seasons: Appearance-based long-term localization in outdoor environments. Robotics and Autonomous Systems, v. 58, n. 2, p. 149 – 156, 2010. ISSN 0921-8890. Selected papers from the 2007 European Conference on Mobile Robots (ECMR 07). Dispon´ıvel em: <http://www.sciencedirect.com/science- /article/pii/S0921889009001493>.

VALLE, E.; CORD, M. Advanced techniques in cbir: Local descriptors, visual dictionaries and bags of features. In: Computer Graphics and Image Processing (SIBGRAPI TUTORIALS), 2009 Tutorials of the XXII Brazilian Symposium on. [S.l.: s.n.], 2009. p. 72–78.

VIOLA, P.; JONES, M. J. Robust real-time face detection. Int. J. Comput. Vision, Kluwer Academic Publishers, Hingham, MA, USA, v. 57, n. 2, p. 137–154, maio 2004. ISSN 0920-5691. Dispon´ıvel em: <http://dx.doi.org/10.1023/B:VISI.0000013087.49260- .fb>.

YELIZAVETA, M.; TAT-SENG, C.; IRINA, A. Analysis and retrieval of paintings using artistic color concepts. In: Multimedia and Expo, 2005. ICME 2005. IEEE International Conference on. [S.l.: s.n.], 2005. p. 1246–1249.

ZUJOVIC, J. et al. Classifying paintings by artistic genre: An analysis of features and classifiers. In: MMSP. [S.l.]: IEEE, 2009. p. 1–5. ISBN 978-1-4244-4463-2.

Documentos relacionados