• Nenhum resultado encontrado

Análise Global dos Resultados Obtidos nos Experimentos

O objetivo dos experimentos realizados foi analisar o comportamento das diferen- tes estruturas de indexação implementadas neste trabalho para a recuperação de vídeo, utilizando-se de vocabulário visual.

Em relação às taxas de Precisão e Revocação avaliadas, nota-se que todas as es- truturas têm praticamente o mesmo desempenho para busca sem consistência espacial, com poucas variações, valendo destacar uma pequena desvantagem para a abordagem utilizando acesso sequencial.

Porém, quando a consistência espacial foi utilizada, nota-se um comportamento crescente de desempenho da estrutura de acesso sequencial, enquanto que as demais es- truturas mantiveram seus valores relativamente constantes. Sendo claro uma melhora na qualidade quando são retornados apenas 100 quadros da consulta. A taxa de Precisão tende a aumentar para um número menor de quadros de resposta.

Consulta 20250 20275

20400 21250 20425

Figura 63: Resultado da avaliação qualitativa com processo de consistência espacial na consulta número 5, no qual sua realização não impactou de forma considerável o resultado da busca. Fonte: Elaborada pelo autor.

Quanto ao comportamento das estrutura em relação ao número de acessos a disco cou evidenciado o desempenho ruim da estrutura de acesso sequencial, que teve um valor muito elevado, chegando a ser 30 (ou mais) vezes maior que as demais estruturas. Neste critério de avaliação, a Slim-Tree sempre se saiu melhor, realizando uma quantidade menor de acessos a disco durante as consultas. Quanto ao número de cálculos de distân- cia realizados pelas estruturas, a M-Tree apresentou sempre o melhor desempenho, pois realiza uma quantidade menor de cálculos de distância em comparação com as demais estruturas que mantiveram comportamento muito semelhante ao longo dos testes.

Uma vez que o tempo gasto para operações de acesso a disco tende a ser maior que o gasto no cálculo de distância, o desempenho da Slim-Tree é, portanto, superior as demais estruturas em relação ao tempo médio das buscas (mantendo a qualidade dos resultados de F1-Score semelhante às demais). Porém deve-se destacar o maior tempo necessário

para se criar uma Slim-Tree. Quando a consistência espacial foi realizada, a estrutura sequencial se mostrou não ser muito eciente para esta operação, pois somente a realização da consistência espacial consumiu cerca de metade (na maioria dos experimentos) dos cálculos de distância realizados, dobrando-se assim, o número de cálculos de distâncias necessários para a busca. Deve-se, contudo, destacar que a realização da consistência espacial, contribuiu para um aumento signicativo da precisão dos resultados obtidos.

Quanto ao comportamento das estruturas em relação a variação no tamanho do vo- cabulário visual, as estruturas de indexação métricas obtiveram valores de F1-Score muito

Consulta 4550 4650

28500 27400 28525

Figura 64: Resultado da avaliação qualitativa sem processo de consistência espacial na consulta número 9. Fonte: Elaborada pelo autor.

visual de tamanho igual a 16000 foram alcançados os melhores valores de F1-Score. Já a

estrutura de acesso sequencial teve o pior desempenho em relação aos valores de F1-Score

quando a consistência espacial não foi realizada. Entretanto, quando a consistência es- pacial é realizada a estrutura de acesso sequencial apresentou uma crescente melhora dos valores de F1-Score na medida que o vocabulário visual aumentou de tamanho, enquanto

que as demais estruturas praticamente não apresentaram variação signicativa dos valores de F1-Score.

Entretanto, é importante ressaltar que, para a estrutura de acesso sequencial, ape- sar da acentuada melhora na qualidade dos seus resultados quando a consistência espacial é realizada, esta operação consome quase a metade do tempo total de busca que já é elevado. Enquanto que nas demais estruturas, o tempo gasto com a realização da consis- tência espacial foi menos signicativo.

Quanto aos valores médios para número de acessos a disco e cálculos de distância, cou mais uma vez evidenciado o bom desempenho da Slim-Tree, quando ocorre a va- riação no tamanho do vocabulário visual. Como já era esperado, todas as estruturas de indexação apresentaram um crescimento do número de acessos a disco e de cálculos de distância, na medida que o vocabulário visual aumentou de tamanho. Porém, como todas elas apresentaram um comportamento semelhante em relação ao número de cálculos de distância, a Slim-Tree foi a estrutura que apresentou menor sensibilidade à variação do tamanho do vocabulário em relação ao número de acessos a disco. A estrutura de acesso sequencial apresentou novamente um baixo desempenho, tendo valores muito elevados para número de acessos a disco em função do crescimento do vocabulário visual.

Consulta 28500 27400

28525 27375 10675

Figura 65: Resultado da avaliação qualitativa com processo de consistência espacial na consulta número 9, no qual sua realização impactou de forma considerável o resultado da busca. Fonte: Elaborada pelo autor.

Importante notar que, para o conjunto de dados utilizado neste trabalho, os valores de F1-Score apresentaram diferenças entre as estruturas, esta diferença se dá pela fato

de que no processo de busca realiza-se a busca pelo vizinho mais próximo, 1-NN, e caso exista vários elementos com a mesma distância até o elemento da consulta, a consulta pelo vizinho mais próximo pode retornar valores diferentes para cada tipo de estrutura utilizada.

Outro ponto importante a se destacar é que utilizando a segmentação por tomadas, em que foi selecionado apenas um quadro-chave de cada tomada, o número de acessos a disco para criação das estruturas foi, no pior caso, menos de 30% do valor para criação das estruturas utilizando seleção de quadros por amostragem, sem afetar de forma considerável os valores de F1-Score na busca. O que se deve pelo fato da menor quantidade de quadros-

chave selecionados no método de detecção de tomadas em relação a maior quantidade de quadros selecionados no método de amostragem.

5 CONCLUSÕES

Conforme exposto neste trabalho, foi abordado todo o processo de indexação e recuperação de vídeos. Foi descrito que, primeiramente, na etapa de indexação do vídeo, é necessário segmentá-lo em um sequência de quadros. Sobre esta sequência, é realizada a extração de quadros-chave, que foi feita de maneira aleatória e também utilizando detecção de tomadas, conforme apresentado em Guimarães et al. (2009) e em Patrocínio Jr. et al. (2010).

Posteriormente, uma amostragem dos quadros-chave foi obtida para criação do vocabulário visual, que por sua vez, é constituído de palavras visuais obtidas pela cluste- rização dos descritores de região de interesse extraídos da amostra dos quadros-chave do vídeo. Este vocabulário visual constitui o índice do arquivo invertido, no qual os quadros- chave do vídeo são indexados e representados por um histograma, chamado de bag of feature.

Na recuperação do vídeo, realizada por meio de uma imagem de consulta ou mesmo por uma região desta, foi utilizado o modelo vetorial para cálculo da similaridade entre os bag of features, e posteriormente, este resultado é reordenador pelo processo de consistên- cia espacial entre as palavras visuais do quadros-chave do vídeo e a imagem de consulta, semelhante ao apresentado em Sivic (2006) e em Sivic e Zisserman (2009).

O índice do arquivo invertido foi o principal objeto de estudo deste trabalho, que teve como objetivo apresentar uma análise comparativa de estruturas de indexação para recuperação de vídeos utilizando vocabulário visual.

Para avaliação do processo de indexação e recuperação de vídeo, foram implemen- tadas três estruturas métricas de indexação, além da estrutura de acesso sequencial, para acesso ao índice do aquivo invertido: a M-Tree (CIACCIA; PATELLA; ZEZULA, 1997), a

D-Index (DOHNAL et al., 2003) e a Slim-Tree (TRAINA JR. et al., 2000), uma variação da

M-Tree.

O objetivo dos experimentos realizados foi analisar o comportamento destas estru- turas de indexação para a recuperação de vídeo, utilizando o vocabulário visual.

Foram realizadas buscas nas estruturas com diferentes valores para o tamanho do vocabulário visual, e com e sem a realização da consistência espacial, conforme apresentado anteriormente. Foi possível avaliar que, em função do tamanho do vocabulário visual, todas as estruturas têm praticamente o mesmo desempenho, para valores de F1-Score, na

busca sem consistência espacial, com uma pequena desvantagem para a estrutura de acesso sequencial, que, por sua vez, obteve um comportamento crescente de desempenho quando a consistência espacial foi utilizada. Enquanto que as demais estruturas mantiveram seus valores relativamente constantes.

Houve também uma melhora na qualidade dos valores de F1-Score quando são

retornados apenas 100 quadros da consulta. A taxa de Precisão tende a aumentar para um número menor de quadros de resposta.

A estrutura de acesso sequencial obteve um desempenho inferior quanto em relação ao número de acessos a disco, chegando a ser 30 (ou mais) vezes maior que as demais estruturas. Neste critério de avaliação, a Slim-Tree sempre se saiu melhor, realizando uma quantidade menor de acessos a disco durante as consultas.

Quanto ao número de cálculos de distância realizados pelas estruturas, a M-Tree apresentou sempre o melhor desempenho, pois realiza uma quantidade menor de cálculos de distância em comparação com as demais estruturas que mantiveram comportamento muito semelhante ao longo dos testes.

Uma vez que o tempo gasto para operações de acesso a disco tende a ser maior que o gasto no cálculo de distância, o desempenho da Slim-Tree é, portanto, superior as demais estruturas em relação ao tempo médio das buscas (mantendo a qualidade dos resultados de F1-Score semelhante às demais). Porém deve-se destacar o maior tempo

necessário para se criar uma Slim-Tree.

Quando a consistência espacial foi realizada, de maneira geral sempre houve um aumento nos valores de precisão dos resultados em relação às consultas em que a consis- tência espacial não é realizada. Contudo, é importante ressaltar que, para a estrutura de acesso sequencial, apesar da acentuada melhora na qualidade dos seus resultados quando a consistência espacial é realizada, esta operação consome quase a metade do tempo total de busca que já é elevado. Enquanto que nas demais estruturas, o tempo gasto com a realização da consistência espacial foi menos signicativo.

Quanto aos valores médios para número de acessos a disco e cálculos de distância, cou mais uma vez evidenciado o bom desempenho da Slim-Tree, quando ocorre a va- riação no tamanho do vocabulário visual. Como já era esperado, todas as estruturas de indexação apresentaram um crescimento do número de acessos a disco e de cálculos de distância, na medida que o vocabulário visual aumentou de tamanho. Porém, como todas elas apresentaram um comportamento semelhante em relação ao número de cálculos de distância, a Slim-Tree foi a estrutura que apresentou menor sensibilidade à variação do tamanho do vocabulário em relação ao número de acessos a disco. A estrutura de acesso

sequencial apresentou novamente um baixo desempenho, tendo valores muito elevados para número de acessos a disco em função do crescimento do vocabulário visual.

É importante destacar que, para o conjunto de dados utilizado neste trabalho, o bom desempenho da estrutura D-Index no processo de consistência espacial se dá pelo fato do seu melhor desempenho para realização de busca por abrangência em que o valor do raio é zero, ou seja, quando se desejar encontrar o mesmo elemento da consulta. Processo diferente da busca realizada sem a consistência em que apenas a busca pelo vizinho mais próximos é realizada, e neste tipo de consulta, a estrutura Slim-Tree se mostrou mais efetiva quanto a número de acesso a disco.

Como resultado deste trabalho, foi obtida uma publicação em relação ao método de segmentação de vídeo por detecção de tomadas, utilizando análise de transições abruptas,

(GUIMARÃES et al., 2009). Mais recentemente, foi obtida uma publicação, também para

detecção de transições em um vídeo, mas com o objetivo de reconhecer transições abruptas e graduais (PATROCÍNIO JR. et al., 2010).

Como contribuição principal do trabalho, vale destacar a análise do desempenho das estruturas métricas de indexação tanto para busca quanto para o processo de classi- cação por meio da consistência espacial. Pelos resultados apresentados, pode-se concluir que para o processo de busca sobre o conjunto de dados utilizado neste trabalho, a Slim- Tree é a estrutura mais adequada por apresentar baixos valores de acesso a disco (fator determinante para o tempo de busco sobre os dados utilizados). No entanto, para a reali- zação da consistência espacial, a estrutura D-Index torna-se a mair adequada justamente por apresentar melhor desempenho para buscas por abrangência com valor de raio zero. 5.1 Trabalhos Futuros

Baseado na análise dos resultados deste trabalho, pode-se sugerir as seguintes linhas de investigação como trabalhos futuros:

a) Explorar outros algoritmos para construção do vocabulário visual, para me- lhorar o desempenho, em relação a tempo de processamento do processo de clusterização, ou mesmo, inserir todos os descritores dos quadros da amostra como índice no arquivo invertido.

b) Explorar algoritmos para criação de forma eciente das estruturas de indexa- ção, como por exemplo, a utilização dos algoritmos de Bulk Loading para carga dos dados.

c) Analisar o impacto da política de escolha de pivots na D-Index, visto que pode impactar diretamente no desempenho da estrutura.

d) Análise e teste da utilização dos outros detectores de regiões como também de outros descritores, como por exemplos a utilização de descritores de cor de imagens.

e) Técnicas de sumarização poderiam ser utilizadas para melhorar a escolha dos quadros-chave do vídeo. Uma vez que as tomadas sejam identicadas, uma análise de técnicas de sumarização poderia melhorar a escolha dos quadros- chave mais relevantes do vídeo.

f) Avaliar outras estruturas métricas de indexação, tanto para memória primária quanto para memória secundária.

g) Explorar possíveis melhorias no algoritmo de consistência espacial, com obje- tivo de diminuir o custo computacional do mesmo.

REFERÊNCIAS

ALMEIDA, J.; ROCHA, A.; TORRES, R.; GOLDENSTEIN, S. Making colors worth more than a thousand words. In: ACM SYMPOSIUM ON APPLIED COMPUTING, v. 23, 2008, Fortaleza, Ceara, Brazil. ACM, New York, USA: ACM, Mar. 2008. p. 1180-1186.

AVILA, S. E. F. de. Uma abordagem baseada em características de cor para a elaboração automática e avaliação subjetiva de resumos estáticos de vídeos. Set. 2008. Dissertação, mestrado - UFMG, Belo Horizonte.

BROWNE, P.; SMEATON, A. F. Video retrieval using dialogue, keyframe similarity and video objects. In: IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, Genoa, Italy. IEEE Computer Society, Glasnevin, Dublin 9, Ireland: IEEE, 2005, sep. 2005. p. 1208-1211.

CHAVEZ, E.; NAVARRO, G.; BAEZA-YATES, R.; MARROQUIN, J. Searching in metric spaces. ACM Computing Surveys, New York, USA, v. 33, n. 3, p. 273-321, Mar. 2001.

CIACCIA, P.; PATELLA, M.; ZEZULA, P. M-tree: An ecient access method for similarity search in metric spaces. In: INTERNATIONAL CONFERENCE ON VERY LARGE DATA BASES, v. 23, 1997, Athens, Greece. International Conference on Very Large Data Bases, San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 1997. p. 426-435.

DOHNAL, V. Indexing Structures for Searching in Metric Spaces. Feb. 2004. Tese, doutorado - Masaryk University Faculty Of Informatics, Brno.

DOHNAL, V.; GENNARO, C.; SAVINO, P.; ZEZULA, P. D-index: Distance searching index for metric data sets. Multimedia Tools Application, Kluwer Academic Publishers, Hingham, MA, USA, v. 21, n. 3, p. 9-33, sep. 2003.

FRAKES, W. B.; BAEZA-YATES, R. A. Information retrieval: data structures and algorithms. 1. ed. Upper Saddle River, NJ, USA: Prentice-Hall, Inc., 1992. 504p. GUIMARÃES, S. J. F.; JR, Z. K. G. d. P.; PAULA, H. B. d.; SILVA, H. B. A new dissimilarity measure for cut detection using bipartite graph matching. International Journal of Semantic Computing, [s.l.], v. 3, n. 2, p. 155-181, Jun. 2009.

HOMOLA, T.; DOHNAL, V.; ZEZULA, P. Sub-image searching through intersection of local descriptors. In: INTERNATIONAL CONFERENCE ON SIMILARITY SEARCH AND APPLICATIONS, 3, 2010, Istanbul, Turkey. ACM, New York, NY, USA: ACM, 2010. p. 127-128.

KANUNGO, T.; MOUNT, D. M.; NETANYAHU, N. S.; PIATKO, C. D.; SILVERMAN, R.; WU, A. Y. An ecient k-means clustering algorithm: Analysis and implementation. IEEE Transactions on Pattern Analysis and Machine Intelligence, Washington, DC, USA, v. 24, n. 7, p. 881-892, jul. 2002.

LOPES, A. P. B.; AVILA, S. E. F. D.; PEIXOTO, A. N. A. A bag-of-features approach based on hue-sift descriptor for nude detection. In: EUROPEAN SIGNAL PROCESSING CONFERENCE, n. 17, 2009, [s.l.]. 2009. p. 1552-1556.

LOWE, D. G. Object recognition from local scale-invariant features. In: INTERNA- TIONAL CONFERENCE ON COMPUTER VISION. 1999, Kerkyra, Greece. International Conference On Computer Vision, Washington, DC, USA: IEEE Computer Society, set. 1999. p. 1150-1157.

LOWE, D. G. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, Kluwer Academic Publishers, Hingham, MA, USA, v. 60, n. 2, p. 91-110, nov. 2004.

MACQUEEN, J. B. Some methods for classication and analysis of multivariate observations. In: BERKELEY SYMPOSIUM ON MATHEMATICAL STATISTICS AND PROBABILITY, n. 5, 1967, [s.l.]. Berkeley Symposium On Mathematical Statistics And Probability. Berkeley, California: University of California Press, 1967. p. 281-297.

MENDI, E.; BAYRAK, C. Shot boundary detection and key frame extraction using salient region detection and structural similarity. In: ANNUAL SOUTHEAST REGIONAL CONFERENCE. n. 48, 2010, Oxford, Mississippi. Annual Southeast Regional Conference. New York, NY, USA: ACM, 2010. p. 66:1-66:4.

MIKOLAJCZYK, K.; SCHMID, C. A performance evaluation of local descriptors. IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE Computer Society, Los Alamitos, CA, USA, v. 27, n. 10, p. 1615-1630, oct. 2005.

MIKOLAJCZYK, K.; TUYTELAARS, T.; SCHMID, C.; ZISSERMAN, A.; MATAS, J.; SCHAFFALITZKY, F.; KADIR, T.; GOOL, L. V. A comparison of ane region detectors. International Journal of Computer Vision, Kluwer Academic Publishers, Hingham, MA, USA, v. 65, n. 1-2, p. 4372, nov. 2005.

PATROCÍNIO JR., Z. K. G.; GUIMARÃES, S. J. F.; SILVA, H. B.; SOUZA, K. J. An unied transition detection based on bipartite graph matching approach. In: IBEROAMERICAN CONGRESS ON PATTERN RECOGNITION, n. 15, 2010, São Paulo, Brazil. Iberoamerican Congress On Pattern Recognition, São Paulo, Brazil: Springer-Verlag, nov. 2010. p. 184-192.

PEDRINI, H.; SCHWARTZ, W. Análise de Imagens Digitais: Princípios, Algoritmos e Aplicações. 1. ed. [S.l.]: Thomson Learning, 2007. 528 p.

SEBE, N.; LEW, M. S.; SMEULDERS, A. W. M. Video retrieval and summarization. Computer Vision and Image Understanding, v. 92, n. 2-3, p. 141-146, nov./dec. 2003.

SHAO, J.; SHEN, H. T.; ZHOU, X. Challenges and techniques for eective and ecient similarity search in large video databases. Very Large Database Endowment, VLDB Endowment, v. 1, n. 2, p. 1598-1603, aug. 2008.

SHEN, H. T.; OOI, B. C.; ZHOU, X. Towards eective indexing for very large video sequence database. In: INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, n. 5, 2005, Baltimore, Maryland. International Conference On Management Of Data, New York, USA: ACM, 2005. p. 730-741.

SIVIC, J. Ecient Visual Search of Images and Videos. 2006. Tese, doutorado - University of Oxford, Oxford.

SIVIC, J.; ZISSERMAN, A. Ecient Visual Search for Objects in Videos. 2008. SIVIC, J.; ZISSERMAN, A. Ecient visual search of videos cast as text retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, [s.l.], v. 31, n. 4, p. 591-606, apr. 2009.

TORRES, R. D. S.; FALCÃO, A. X. Content-based image retrieval: Theory and applications. Revista de Informática Teórica e Aplicada, v. 13, p. 161-185, 2006. TORRES, R. da S.; AO, A. X. F.; GONCALVES, M. A.; ZHANG, B.; FAN, W.; FOX, E. A.; CALADO, P. A new framework to combine descriptors for content-based image retrieval. In: CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT, n.40, 2005, Bremen, Germany: ACM Press, 2005. p. 335-336. TORRES, R. da S.; ZEGARRA, J. A. M.; SANTOS, J. A.; FERREIRA, C. D.; PENATTI, O. A. B.; ANDALÓ, F. A.; JR, J. G. A. Recuperação de imagens: Desaos e novos rumos. In: Seminário Integrado de Software e Hardware, Belém: [s.n.], 2008.

TRAINA JR., C.; TRAINA, A. J. M.; SEEGER, B.; FALOUTSOS, C. Slim-trees: High performance metric trees minimizing overlap between nodes. In: INTERNATIONAL CONFERENCE ON EXTENDING DATABASE TECHNOLOGY:

ADVANCES IN DATABASE TECHNOLOGY, n. 7, 2000, London, UK: Springer-Verlag, 2000, p. 51-65.

TUYTELAARS, T.; MIKOLAJCZYK, K. Local invariant feature detectors: a survey. Foundation and Trends in Computer Graphics and Vision, Now Publishers Inc., Hanover, MA, USA, v. 3, n. 3, p. 177-280.

ZEZULA, P.; AMATO, G.; DOHNAL, V.; BATKO, M. Similarity Search: The Metric Space Approach. [S.l.]: Springer, 2006. 220 p.

Documentos relacionados