A VALIAÇÃO E XPERIMENTAL - A Study of Swimmers Detection in Beach Images Ricardo Luna da Silva,

A Study of Swimmers Detection in Beach Images Ricardo Luna da Silva, Sérgio Chevtchenko, Allan Alves de Moura, Valmir Macario, Filipe Rolim Cordeiro

IV. A VALIAÇÃO E XPERIMENTAL

Esta seção apresenta a metodologia usada para avaliar a detecção de pessoas em imagens de praia.

A. Base de dados

A base de dados com imagens contém fotos tiradas de postos de guarda-vidas na praia de Boa viagem em 2016. As fotografias foram devidamente rotuladas usando a ferramenta online LabelMe [21]. Os rótulos delimitam as regiões de pessoas nas imagens de praia como mostrado na Figura 3.

Figura 3. Imagem rotulada da praia de Boa Viagem-Recife-Brasil.

Nosso conjunto de dados é composto de 1000 segmentos contendo pessoas e 1000 segmentos de objetos que podem ser confundidos com pessoas durante a segmentação, como por exemplo extensões de recifes, cadeiras, pássaros, entre outros. Todas as imagens são redimensionadas para a resolução de 29 × 25 pixels, no qual é o tamanho médio das imagens encontradas na base de dados. Uma amostra de segmentos positivos e negativos são mostrados na Figura 4. O objetivo do classificador é determinar os segmentos que contém pessoas nessas imagens (classe positiva).

(a) (b) (c) (d) (e) (f)

Figura 4. Um exemplo de imagens positivas (a) (b) (c) e negativas (d) (e) (f).

B. Seleção de parâmetros

A maioria dos descritores e classificadores possuem pa- râmetros que influenciam os resultados. Estes parâmetros foram selecionados experimentalmente em uma base de dados separada, contendo 392 imagens da classe positiva e 296 imagens da classe negativa. O classificador Random Forests foi utilizado para todos os experimentos. Cada configuração foi avaliada 50 vezes através da seleção aleatória de 80% da base de dados para treinamento e o restante para teste. Os melhores parâmetros foram selecionados com base na taxa média de detecção do classificador com o descritor correspondente.

Os parâmetros seguintes foram considerados:

1) Gabor filter:

• w: 2, 5, 10, 20, 40, 80 e 120 pixels. • θ: 0◦, 45◦ e 90◦.

Os resultados da grade de busca são apresentados na Tabela I. A melhor taxa de reconhecimento de 85,14% foi obtida com w = 40 e θ = 45◦

Tabela I

TAXA DE RECONHECIMENTO(%)DURANTE A SELEÇÃO DO PARÂMETRO DO FILTRO DEGABOR(ORIENTAÇÃO E TAMANHO DA JANELA)

2 5 10 20 40 80 120

0◦ _79,22 _76,33 _76,68 _80,50 _70,36 _64,90 _64,46

45◦ 79,38 78,72 77,82 81,82 _85,14 79,44 71,88

90◦ _71,55 _76,43 _74,70 _67,77 _63,60 _62,03 _61,79

2) Momentos de Zernike: O parâmetro avaliado foi ordem (n): 5, 10, 15, 20, 25 e 40. Como pode ser visto pela Tabela II, a taxa de reconhecimento de 87.42% foi obtida quando n = 10

Tabela II

TAXA DE RECONHECIMENTO PARA DIFERENTES ORDENS DO MOMENTO DEZERNIKE

Ordem: 5 10 15 20 25 40

Acurácia (%): 87,04 87,42 86,97 86,27 85,80 84,38

3) HOG: Os parâmetros avaliados são:

• Tamanho da célula: 4×4, 8×8 e 16×16. • Tamanho do bloco: 1×1, 2×2, 3×3 e 4×4.

Taxas de reconhecimento associadas com os parâmetros acima são apresentadas na Tabela III. Devido ao tamanho pequeno das imagens (29×25), algumas combinações de células e blocos não foram possíveis, deixando espaços em branco. Os melhores resultados foram alcançados com células 8×8 e blocos 2×2.

Tabela III

TAXA DE RECONHECIMENTO(%)PARA DIFERENTES TAMANHOS DE CÉLULAS(LINHAS)E BLOCOS(COLUNAS)PARA O DESCRITORHOG

1x1 2x2 3x3 4x4

4x4 78,22 79,77 79,29 81,01 8x8 79,57 81,39

16x16 69,36

4) LBP: Como anteriormente, devido ao pequeno tamanho das imagens, raio e vizinhança foram fixados em 1 e 8 respectivamente.

• Tamanho da célula: 4×4, 8×8 e 16×16. • Normalização do histograma: nenhuma e L2.

• Interpolação de pixels vizinhos: linear e mais próximo.

Como pode ser visto na tabela IV, o melhor descritor LBP foi formado por células 8×8 sem normalização e interpolação para o pixel mais próximo. Além disso, a taxa de reconhecimento varia principalmente pelo tamanho da célula.

Tabela IV

TAXA DE RECONHECIMENTO(%)PARA DIFERENTES PARÂMETROS DO LBP

Normalização: L2 Nenhum L2 Nenhum

Interpolação: Linear Linear Mais próximo Mais próximo

célula 4x4: 87,56 87,32 87,88 87,79

célula 8x8: 89,54 89,19 89,77 89,82

célula 16x16: 84,41 84,42 84,41 85,05

Depois da seleção de parâmetros, o método de extração de características definido na seção anterior foi implementado em MatLab R _{a seguir:}

1) Hu – Vetor de características com 7 escalares.

2) Zernike – 66 escalares, correspondente as características de Zernike de ordem 10.

3) Gabor – vetor de característica com 725 escalares, obtidos através da convolução de uma imagem com o filtro de Gabor. O filtro é formado por uma janela de 40×40 pixels com inclinação de 45◦_{. Outros parâmetros}

deste filtro são mantidos com seus valores padrões. 4) HOG – 144 escalares são obtidos através da divisão da

imagem em células 8×8 e agrupando histogramas em blocos de 2×2 para normalização.

5) LBP – 531 escalares, obtidos considerando 8-vizinhança e células 8×8.

O tamanho de cada vetor de característica acima e a sua combinação de pares são resumidos na TabelaV.

Tabela V

TAMANHO DOS VETORES DE CARACTERÍSTICA E SUAS COMBINAÇÕES EM PARES

Hu Zernike Gabor HOG LBP

Hu 7 Zernike 73 66 Gabor 732 791 725 HOG 151 210 869 144 LBP 538 597 1256 675 531 C. Classificação

Os vetores de características previamente descritos são também concatenados em pares. Os resultados apresentados nesta Seção são a média entre 50 repetições com separação aleatória do conjunto de dados, onde 80% é treinamento (800 imagens por classe) e 20% de teste (200 imagens por classe). Cada combinação de características é testada com classificadores Random Forest e SVM (kernel linear e radial). Uma técnica comum de redução de características é o PCA [22], do inglês Principal Components Analysis, foi aplicada ao vetor de características. A fim de evitar viés, os autovetores foram obtidos da base de dados de teste, mantendo o suficiente para representar 95% da variância. A taxa de reconhecimento com os dois classificadores acima é apresentada com e sem o uso do PCA nas Tabelas VI, VII, VIII, IX, X e XI. Um teste- T estatístico com intervalo de confiança de 95% é usado para comparar o melhor resultado numérico em cada tabela contra outros resultados pertencentes a mesma tabela. Os resultados destacados são estatisticamente melhores do que

outras acurácias na mesma tabela. Na tabela VIII, a segunda melhor taxa (83,80%) é equivalente a melhor (84,42%), então as duas são destacadas.

No geral, a melhor taxa de reconhecimento é 93,31% com 1,43% de desvio padrão. Isto foi obtido com o classificador SVM com kernel radial e utilizando o PCA.

Tabela VI

TAXA DE RECONHECIMENTO(%)NA BASE DE TESTES USANDO CLASSIFICADORRandom Forest

Hu Zernike Gabor HOG LBP

Hu 65,61 Zernike 78,94 75,59 Gabor 73,26 74,14 72,68 HOG 81,22 82,82 80,86 80,89 LBP 85,70 86,44 85,42 88,03 85,66 Tabela VII

TAXA DE RECONHECIMENTO(%)NA BASE DE TESTES USANDO CLASSIFICADORRandom ForestEPCA

Hu Zernike Gabor HOG LBP

Hu 63,19 Zernike 73,95 70,97 Gabor 54,52 76,84 54,67 HOG 80,63 81,96 81,95 80,68 LBP 82,56 81,01 84,49 83,08 82,32 Tabela VIII

TAXA DE RECONHECIMENTO(%)NA BASE DE TESTES USANDO CLASSIFICADORSVMCOMkernelLINEAR

Hu Zernike Gabor HOG LBP

Hu 50,39 Zernike 77,64 78,22 Gabor 67,02 68,95 67,13 HOG 80,04 84,42 66,64 80,04 LBP 82,13 83,80 75,02 82,59 82,13 Tabela IX

TAXA DE RECONHECIMENTO(%)NA BASE DE TESTES USANDO CLASSIFICADORSVMCOMkernelLINEAR EPCA

Hu Zernike Gabor HOG LBP Hu 55,36 Zernike 75,31 66,97 Gabor 54,88 74,50 54,74 HOG 79,82 81,56 82,26 79,7 LBP 82,43 82,7 84,58 85,14 82,03 Tabela X

TAXA DE RECONHECIMENTO(%)NA BASE DE TESTES USANDO CLASSIFICADORSVMCOMkernelRADIAL

Hu Zernike Gabor HOG LBP

Hu 50,38 Zernike 55,92 55,28 Gabor 50,00 50,00 50,00 HOG 74,72 63,23 50,00 74,92 LBP 88,59 72,62 50,00 88,94 88,54 ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✶✵

Tabela XI

TAXA DE RECONHECIMENTO(%)NA BASE DE TESTES USANDO CLASSIFICADORSVMCOMkernelRADIAL EPCA

Hu Zernike Gabor HOG LBP Hu 61,91

Zernike 77,48 74,00

Gabor 55,26 69,86 55,29 HOG 83,19 86,68 76,19 83,44

LBP 88,46 89,18 86,89 90,31 88,44

O custo computacional deste descritor também é conside- rado na Tabela XII. A diagonal desta tabela indica o tempo médio de extração de um único descritor de característica. Este experimento utilizou imagens em tons de cinza com 29 × 25 pixels e foi executado em um processador i3. É importante perceber que a melhor combinação de características baseado na acurácia (HOG+LBP) é também um dos mais rápidos, com uma média de extração de características de 2ms por imagem.

Tabela XII

TEMPO DE EXTRAÇÃO MÉDIO DE CARACTERÍSTICAS EM MILISSEGUNDOS DE UMA IMAGEM EM TONS DE CINZA COM DIMENSÕES DE29 × 25 pixels

Hu Zernike Gabor HOG LBP Hu 0,5 Zernike 19,5 19,0 Gabor 3,6 22,1 3,1 HOG 1,6 20,1 4,3 1,2 LBP 1,3 19,8 3,9 2,0 0,8 V. CONCLUSÃO

Este trabalho apresenta um estudo com o objetivo de detectar pessoas em imagens de praia do conjunto de imagens tiradas da praia de boa viagem, localizado em Recife, Brasil. Esta é uma tarefa desafiadora devido as variações de brilho em dias nublados ou chuvosos e em diferentes horários do dia, dificuldade na segmentação de imagens, vários graus de oclusão e posicionamento de câmera. Devido a estes fatores, o funcionamento correto dos algoritmos de segmentação e detecção podem ser afetados. Este trabalho avalia os classificadores Máquina de Vetor de Suporte com kernels linear e radial e o Random Forest. Apesar de serem usados am- plamente para a detecção de pessoas em ambientes abertos, em nosso conhecimento, não foram encontrados na literatura trabalhos que visam detectar pessoas em imagens de praia. Além disso, os experimentos mostraram que o classificador SVM com kernel radial, utilizando descritores HOG e LBP com redução de características utilizando PCA, apresentaram resultados promissores, obtendo 90,31% de acurácia. A com- binação desses descritores também é uma boa escolha para detecção de tempo real, devido a não influência da variação de luminosidade e uma média de extração de características de 2ms por segmento.

Em trabalhos futuros, nós pretendemos adicionar uma abor- dagem em cascata para classificadores e criar um sistema de tempo real integrado entre detecção e rastreamento nas praias. E também aplicar etapas de pré-processamento de imagens visando uma melhoria nos resultados.

AGRADECIMENTOS

Os autores gostariam de agradecer à FACEPE e a SDS-PE pelo seu apoio financeiro.

REFERÊNCIAS

[1] CEMIT, “Statistics of shark incidents in the state of pernambuco-brazil,” jul 2017. [Online]. Availa- ble: http://www.portaisgoverno.pe.gov.br/c/document_library/get_file? uuid=456ed61c-2b3a-4283-8523-aa508231d51f\&groupId=124015 [2] N. Dalal and B. Triggs, “Histograms of oriented gradients for human

detection,” in Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, vol. 1. IEEE, 2005, pp. 886–893.

[3] S. Wang, J. Zhang, and Z. Miao, “A new edge feature for head-shoulder detection,” in Image Processing (ICIP), 2013 20th IEEE International Conference on. IEEE, 2013, pp. 2822–2826.

[4] J. Marin, D. Vázquez, A. M. López, J. Amores, and B. Leibe, “Random forests of local experts for pedestrian detection,” in Proceedings of the IEEE International Conference on Computer Vision, 2013, pp. 2592– 2599.

[5] P. Viola, M. J. Jones, and D. Snow, “Detecting pedestrians using patterns of motion and appearance,” in null. IEEE, 2003, p. 734.

[6] D. Xie, L. Dang, and R. Tong, “Video based head detection and tracking surveillance system,” in Fuzzy Systems and Knowledge Discovery (FSKD), 2012 9th International Conference on. IEEE, 2012, pp. 2832– 2836.

[7] Y. Rubner and C. Tomasi, Perceptual metrics for image database navigation. Springer Science & Business Media, 2013, vol. 594. [8] X. Wang, T. X. Han, and S. Yan, “An hog-lbp human detector with

partial occlusion handling,” in Computer Vision, 2009 IEEE 12th Inter- national Conference on. IEEE, 2009, pp. 32–39.

[9] J. Tu, C. Zhang, and P. Hao, “Robust real-time attention-based head- shoulder detection for video surveillance,” in Image Processing (ICIP), 2013 20th IEEE International Conference on. IEEE, 2013, pp. 3340– 3344.

[10] R. Hu, R. Wang, S. Shan, and X. Chen, “Robust head-shoulder detection using a two-stage cascade framework,” in ICPR, 2014, pp. 2796–2801. [11] M.-K. Hu, “Visual pattern recognition by moment invariants,” Informa-

tion Theory, IRE Transactions on, vol. 8, no. 2, pp. 179–187, 1962. [12] C.-H. Teh and R. T. Chin, “On image analysis by the methods of mo-

ments,” Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol. 10, no. 4, pp. 496–513, 1988.

[13] A. K. Jain and F. Farrokhnia, “Unsupervised texture segmentation using gabor filters,” Pattern recognition, vol. 24, no. 12, pp. 1167–1186, 1991. [14] T. Ojala, M. Pietikäinen, and D. Harwood, “A comparative study of texture measures with classification based on featured distributions,” Pattern recognition, vol. 29, no. 1, pp. 51–59, 1996.

[15] M. Fernández-Delgado, E. Cernadas, S. Barro, and D. Amorim, “Do we need hundreds of classifiers to solve real world classification problems,” J. Mach. Learn. Res, vol. 15, no. 1, pp. 3133–3181, 2014.

[16] V. N. Vapnik and V. Vapnik, Statistical learning theory. Wiley New York, 1998, vol. 1.

[17] F.-C. Hsu, J. Gubbi, and M. Palaniswami, “Head detection using motion features and multi level pyramid architecture,” Computer Vision and Image Understanding, vol. 137, pp. 38–49, 2015.

[18] J. Mercer, “Functions of positive and negative type, and their connection with the theory of integral equations,” Philosophical transactions of the royal society of London. Series A, containing papers of a mathematical or physical character, vol. 209, pp. 415–446, 1909.

[19] A. Criminisi, J. Shotton, and E. Konukoglu, “Decision forests for classification, regression, density estimation, manifold learning and semi-supervised learning,” Microsoft Research Cambridge, Tech. Rep. MSRTR-2011-114, vol. 5, no. 6, p. 12, 2011.

[20] I. Ardiyanto and J. Miura, “Partial least squares-based human upper body orientation estimation with combined detection and tracking,” Image and Vision Computing, vol. 32, no. 11, pp. 904–915, 2014.

[21] B. C. Russell, A. Torralba, K. P. Murphy, and W. T. Freeman, “Labelme: a database and web-based tool for image annotation,” International journal of computer vision, vol. 77, no. 1, pp. 157–173, 2008. [22] R. Bro and A. K. Smilde, “Principal component analysis,” Analytical

Methods, vol. 6, no. 9, pp. 2812–2831, 2014.

A Method for Automatic Correction

No documento XIII Workshop de Visão Computacional: anais do 13º Workshop de Visão Computacional realizado na UFRN (páginas 119-122)