People Detection and Tracking in Low Frame Rate Dynamic Scenes

(1)

1_{Abstract— People detection and tracking in video sequences}

are a crucial step for many applications such as security systems and entertainment. Although humans can easily perform these tasks, detecting and tracking people in dynamic background scenes are not trivial for computer vision systems. Furthermore, the amount of data generated by these applications has become overwhelming. Reducing the video frame rate can be an alternative, mainly in security systems, to reduce the amount of generated data. This paper aims to analyze how much a video frame rate can be reduced without affecting the performance of detection and tracking when people move in scenes with dynamic background. A supervised cascade classifier is used for detection and tracking is performed using the Kalman filter. The analysis is based on video sequences recorded from a vehicle. Results show that tracking is very dependent on the frame rate while detection is much more robust in this scenario.

Keywords— People Tracking, People Detection, Filtro de Kalman, Adaboost.

I. INTRODUÇÃO

DETECÇÃO e o rastreamento de pessoas em sequências de imagens são de grande utilidade para várias tarefas desempenhadas pela sociedade, como o monitoramento de espaços públicos, estações de ônibus, estádios de futebol e até mesmo para a análise do comportamento humano. Saber a localização de pessoas no espaço é uma tarefa trivial realizada por humanos mas de extrema complexidade para sistemas de visão computacional. Tanto a forma natural como a automatizada têm grandes implicações na área de segurança o que faz dessa tarefa crucial para suas aplicações.

A tarefa de detectar pessoas e a análise de seu movimento objetiva além da segurança, o rastreamento visual, a contagem automática de pessoas entre outros. Essa tarefa é feita de forma não intrusiva, ou seja, sem interferir no ambiente que está sendo monitorado.

Um dos primeiros trabalhos exclusivamente dedicados à detecção e ao rastreamento de pessoas em uma sequência de imagens foi realizado por Riter, Bernat e Schroder em 1988 e tinha como objetivo detectar e rastrear imigrantes ilegais que cruzavam a fronteira entre os Estados Unidos da América e o México [1]. Apesar do tema ter sido profusamente investigado desde a década de 80, muitos desafios permanecem sem solução, tais como o correto rastreamento individual de pessoas em multidões ou em ambientes em que o fundo de cena não é estático.

1_{D. L. Siqueira, Programa de Pós-graduação em Engenharia Elétrica, PUC} Minas, Belo Horizonte, Brasil, diego.siqueira@sga.pucminas.br

A. M. C. Machado, Programa de Pós-graduação em Engenharia Elétrica, PUC Minas, Belo Horizonte, Brasil, alexei@pucminas.br

A segmentação de objetos que se movem utilizando-se a subtração de imagens é inadequado em problemas com fundo dinâmico [1, 2]. Entretanto, a necessidade de rastrear objetos em cenas complexas, como as que apresentam fundo não estático, é cada vez mais comum. Essa necessidade gera uma grande quantidade de dados que devem ser armazenados e processados. Dessa forma, há uma necessidade de comprimir essas informações e uma abordagem amplamente utilizada é a eliminação de redundâncias físicas-visuais de vídeos que corresponde à retirada de informações irrelevantes para a percepção humana, como pequenas variações de cores que o sistema visual humano não é capaz de perceber ou a readequação da frequência de quadros que são armazenados ou exibidos. Esta técnica é comumente utilizada por sistema de segurança devido ao uso de equipamentos de baixa qualidade ou à falta de capacidade de armazenamento de grandes quantidades de dados [3].

Para rastrear uma pessoa em uma sequência de vídeo, é primordial saber a sua localização nas imagens [4]. A subtração de uma imagem pela imagem de fundo é uma das técnicas mais simples e amplamente utilizada para a extração de pessoas que se movem em uma sequência de imagens [5]. Nessa abordagem, a imagem atual é comparada com uma imagem previamente definida como imagem de fundo. Quando entre essas duas há uma diferença significativa, isso indica que na imagem há pessoas ou objetos em movimento [6-8]. Contudo, se a imagem de fundo não for atualizada constantemente, o resultado pode ser facilmente afetado por mudanças que podem ocorrer na cena, como variação na iluminação ou até mesmo mudanças físicas. Para evitar essa limitação e/ou diminuir possíveis ruídos que possam interferir no resultado da detecção, abordagens com atualizações mais frequentes da imagem de fundo são propostas na literatura [9, 10]. A diferença de imagens consecutivas de uma sequência é uma técnica simples e relativamente fácil para extrair objetos que se movem em vídeos [5]. Nessa abordagem, pixels que apresentam um valor de diferença elevado são considerados

pixels que não pertencem à cena, logo, são pixels que variam

ao longo do tempo. A detecção de pessoas por subtração de imagens consecutivas foi utilizada por [1, 4]. Contudo, esse método é diretamente dependente da escolha de um limiar capaz de definir na imagem de diferença o que se move ou não. Um classificador em cascata proposto por [11] leva em consideração as características das pessoas e é utilizado para a detecção de pedestres em uma cena. As características utilizadas pelo classificador são calculadas através de funções

Haar-like. O classificador é definido após um processo de

treinamento para que as melhores características Haar-like que representam uma pessoa possam ser escolhidas. Como o

A

People Detection and Tracking in Low

Frame Rate Dynamic Scenes

(2)

classificador leva em consideração apenas as características dos alvos, essa é uma abordagem de detecção que independe do fundo da cena.

A tarefa de rastrear pessoas em uma sequência de imagens é extremamente complexa devido à influência de fatores externos. Podemos destacar como os principais fatores que dificultam essa tarefa os ruídos que as imagens analisadas apresentam, a oclusão total ou parcial das pessoas na cena, a alteração de iluminação durante a sequência de imagens e o processamento necessário antes do rastreamento para sistemas de tempo real [12]. Detectar e estabelecer uma correspondência entre as pessoas presentes na cena ao longo dos quadros da sequência pode ser, ou não, realizada pelo método de rastreamento. No primeiro caso, a detecção é realizada por métodos específicos de detecção e o seu resultado é utilizado como entrada para o rastreamento. Já no segundo caso, a região que pode representar uma pessoa é estimada iterativamente ao se atualizarem suas posições e assim realizar o rastreamento. As pessoas localizadas no processo de detecção podem ser representadas como um ponto ao longo das imagens de uma sequência. Associar e rotular esses pontos com base no seu estado anterior para definir sua trajetória é realizado por métodos como o filtro de Kalman e

filtro de partículas. Proposto por Rudolf Emil Kálmán [13], o

filtro de mesmo nome é usado para estimar o estado de um sistema linear quando assumimos que este é modelado por uma distribuição gaussiana. O filtro de Kalman é amplamente utilizado para o rastreamento de pessoas em sistemas de visão computacional que apresentam movimentos uniformes [9, 14]. O filtro de Kalman apresenta um comportamento estável mesmo quando há uma grande presença de ruídos ou quando oclusões ocorrem durante o rastreamento. Segundo [12], o filtro de predição de Kalman se tornou popular devido à facilidade de implementação em linguagem de programação de computadores e a não necessidade de conhecer exatamente o funcionamento interno do filtro para implementá-lo. Algumas técnicas clássicas de rastreamento de objetos podem ser aplicadas no rastreamento de pessoas. O método

mean-shift, por exemplo, é utilizado em situações onde a oclusão

parcial ou total de pessoas a serem rastreadas não é frequente [15, 18].

A principal motivação deste trabalho baseia-se no fato de muitas abordagens não levarem em conta situações em que o fundo da cena analisada pode mudar dinamicamente e o vídeo apresentar baixa taxa de quadros por segundo ao serem capturadas por sensores de baixo custo. Portanto, é necessário saber qual o impacto que os vídeos que apresentam baixa amostragem temporal e fundo dinâmico sofrem ao se realizarem a detecção e o rastreamento de pessoas.

II.DETECÇÃO DE PESSOAS

A detecção de pessoas em sequências de imagens em um cenário de fundo dinâmico não apresenta bons resultados se forem aplicados os algoritmos de detecção mais utilizados na literatura, tais como a subtração da cena pelo seu fundo ou a subtração de quadros consecutivos. Dessa forma, foi necessário utilizar um detector de pessoas invariante à cena e

que se concentrasse apenas na detecção a partir das características do alvo, como o classificador em cascata treinado com o algoritmo de aprendizagem de máquina

AdaBoost proposto por [11]. Esse conjunto de algoritmos e

técnicas de processamento de imagens nos fornece um robusto

framework para detecção visual de pessoas. Para compreender

todos os componentes desse framework para a detecção de pessoas em ambientes de fundo dinâmico, é necessário dividi-lo em três pilares.

O primeiro pilar do método utilizado no trabalho é uma nova representação de uma imagem chamada integral image, ou imagem integral. Essa representação permite que funções

Haar-like sejam calculadas em um tempo constante para

qualquer posição na imagem. O segundo pilar que torna a tarefa mais eficiente é a construção do classificador ao se selecionar um pequeno número de características Haar-like utilizando o algoritmo de aprendizagem de máquina AdaBoost proposto por [16]. Para proporcionar uma classificação rápida, o processo de aprendizagem deve excluir a grande maioria das características e utilizar apenas um pequeno conjunto de características críticas.

O terceiro e último pilar é o método que combina os classificadores mais complexos em uma estrutura em cascata que melhora substancialmente o tempo de detecção de pessoas ao concentrar-se em regiões promissoras da imagem. Esse método tem como resultado a eliminação de grande quantidade de falsos positivos que poderiam exigir tempo de processamento e consequentemente tornar o processo de detecção mais lento.

A. Treinamento do classificador

Dado um conjunto de características ou classificadores simples e um conjunto de amostras positivas e negativas, poderíamos utilizar qualquer algoritmo de aprendizagem de máquina para definir um classificador. Mas para o framework de detecção de pessoas proposto por [11] foi utilizado o algoritmo de treinamento de máquina AdaBoost devido ao grande número de características presentes no conjunto de possíveis características úteis para a classificação. O classificador resultante desse treinamento é denominado como um classificador forte.

O AdaBoost é um algoritmo heurístico de aprendizagem de máquina inicialmente proposto por [16] e parte do princípio de que um classificador pode ser considerado forte a partir do momento em que é realizada uma combinação linear de classificadores fracos. São considerados fracos os classificadores que realizam classificações de acordo com apenas uma dimensão da entrada. Podemos definir um classificador AdaBoost da forma:

onde representa o vetor de entrada, são os classificadores fracos dado , sendo o número total de classificadores e é o peso que cada classificador fraco recebe após o treinamento.

(3)

em cenas com fundo dinâmico a organização dos classificadores em forma de cascata. Organizar os classificadores em cascata aumenta a performance, diminuindo radicalmente o tempo de processamento ao descartar potenciais alvos que já foram identificados como falsos positivos. A estrutura da cascata favorece o fato que, em uma única imagem, a grande maioria de sub-janelas não representa uma pessoa. A eliminação dessas sub-janelas já no começo de sua classificação proporciona uma grande economia de tempo e processamento. Já as amostras positivas consequentemente passam por todos os estágios e consomem um tempo maior de processamento. Como é um evento raro em comparação s amostras negativas, o método continua eficiente.

III. RASTREAMENTODEPESSOAS

O rastreamento de pessoas em um sistema de visão computacional tem como principal objetivo definir a trajetória de uma pessoa localizando seu posicionamento em todos os momentos de sua presença no vídeo analisado. Desde sua primeira ocorrência até o último instante em que permanece na cena, o método de rastreamento é o responsável por associar o mesmo rótulo de identificação proporcionando um correto mapeamento do deslocamento da pessoa. Como métodos de rastreamento possuem algumas limitações de escopo, foi necessário definir as peculiaridades do problema a ser resolvido para propiciar a correta escolha do método de rastreamento de pessoas. Mesmo sendo amplamente utilizado no rastreamento de pessoas, o método mean-shift foi descartado pelo fato de sequências de imagens com fundo dinâmico apresentarem uma alta taxa de variação de iluminação. Isso ocorre, pois, a mudança de fundo é ocasionada ou pelo movimento do sensor de captura, ou pelo próprio movimento do fundo fazendo com que mudanças bruscas de iluminação ocorram.

Outra peculiaridade do trabalho é a redução da amostragem temporal do vídeo a ser analisado. Reduzir intencionalmente a amostragem temporal de uma sequência de imagens é privar de processamento alguns quadros da sequência. O não processamento desses quadros tem o mesmo valor de processar um quadro e não detectar uma pessoa. Tendo em vista este comportamento, o filtro de Kalman lida bem com situações onde ocorrem falhas momentâneas de detecção. O não processamento de um quadro pode ser considerado como uma detecção malsucedida e sem resultado.

Proposto por Rudolf Emil Kalman [13], o filtro de mesmo nome é usado para estimar o estado de um sistema linear quando assumimos que este é modelado por uma distribuição gaussiana [12]. O filtro de Kalman realiza uma predição quando se tem um conjunto de medidas até o k-ésimo passo e deseja-se obter uma estimativa no passo . Quando a medida é calculada, ela é usada para corrigir o processo de predição que será utilizado novamente. O algoritmo usado para o rastreamento de pessoas utiliza dois estágios, a predição e a correção. O estágio de predição é responsável pelo avanço temporal do filtro e, a cada passo, as equações de correção são reajustadas corrigindo-se a

estimativa feita a priori.

O filtro de Kalman determina o estado futuro de um processo utilizando a forma recursiva: o filtro estima o estado em um certo momento e então utiliza essa estimativa para as estimativas futuras, mas sempre as corrigindo em cada passo do processo. Sendo assim, as equações para o filtro são divididas em dois grupos; equações de predição e equações de correção. As equações de predição são responsáveis pela projeção adiante do tempo do estado atual e da matriz de covariância do erro para se obterem as estimativas a priori dos próximos passos. As equações de correção são responsáveis pelo reajuste dos parâmetros da estimação a priori para se obterem uma estimação a posteriori.

Após o sistema passar pelos estágios de predição e correção, o processo é repetido com os valores a posteriori para realizar as estimações a priori. Essa natureza recursiva é uma das características mais importante do filtro de Kalman.

IV. EXPERIMENTOSERESULTADOS

Para a execução deste trabalho foi realizado uma coleta de sequências de imagens em uma base pública. Em seguida, foi realizado a detecção das pessoas utilizando o framework do classificador em cascata. Após definida cada posição das pessoas na cena foi aplicado o filtro de Kalman para definir a trajetória dos alvos detectados. Para a mesma sequência de imagens, a amostragem temporal foi reduzida e o experimento realizado novamente. A hipótese formulada era que os resultados obtidos através dos experimentos propostos deixassem evidente que ao se diminuir a amostragem temporal de imagens em uma sequência, uma queda na qualidade do rastreamento seria observada. Os experimentos foram desenvolvidos em MatLab e C++ com o auxílio da biblioteca

OpenCV.

Figura 1. Exemplos de amostras positivas (a) e negativas (b) utilizadas para o treinamento do classificador cascata.

A base de imagens utilizada neste trabalho foi a Daimler

Pedestrian Path Prediction Benchmark [17] que contém um

conjunto de vídeos capturados com uma câmera digital a uma frequência de 16 quadros por segundo e com resolução de 1176x640 pixels. A câmera foi posicionada atrás do para-brisa de um veículo automotor em movimento. O uso dessa base foi motivado pelo fato de ela conter vídeos de pedestres capturados por um sensor em movimento que proporciona a

(4)

presença de uma pessoa em uma cena em que o fundo varia ao decorrer do tempo. Além disso, a Daimler Pedestrian Path

Prediction Benchmark apresenta um conjunto de imagens de

treinamento que apresentam imagens distintas das imagens utilizadas para teste. Com isso, o treinamento do detector de pessoas utiliza alvos positivos se estes representam uma pessoa, e negativos caso a imagem não seja uma pessoa.

Para o treinamento do classificador cascata, dois conjuntos de imagens – positivo e negativo – foram criados. Como os autores da base rotularam manualmente as pessoas presentes nas imagens, o conjunto de amostras positivas foi formado justamente pelo recorte desses alvos rotulados da imagem original (Fig. 1a). Como uma marcação em volta de uma pessoa apresenta forma retangular onde a base é menor que a altura, foi definido que amostras que apresentassem bases menores que 100 pixels seriam descartados. Todas as amostras que tinham bases menores que esse tamanho eram pessoas que se encontravam longe da câmera de captura. Sendo assim, do total de imagens disponibilizadas para testes, foram retiradas 3.600 amostras positivas. Para cada amostra positiva retirada de uma imagem da base de treinamento, uma imagem era gerada com um retângulo na cor preta substituindo o alvo (Fig. 1b). Sendo assim, a imagem negativa era o fundo da cena onde o pedestre se encontrava. Foi necessário usar essa técnica pelo fato de a base de treinamento não fornecer imagens que não representam pessoas. Também foram incluídas no conjunto de amostras negativas imagens que não possuíam rótulos de pessoas o que totalizou 5.000 amostras negativas.

Definidos os conjuntos de amostras que representam ou não uma pessoa a ser detectada pelo classificador a ser treinado, foi iniciado o processo de treinamento. As funções Haar-like foram utilizadas para a extração de características do classificador. Também foi definido que o classificador em cascata teria 20 estágios. A quantidade de estágios influencia diretamente o desempenho do processo de treinamento e para o conjunto de amostras previamente elaborado, 20 estágios apresentaram uma boa taxa de acerto e uma baixa taxa de falsos positivos ao levar em conta o tempo para o treinamento. Mais detalhes podem ser encontrados na TABELA I que mostra a relação entre a quantidade de estágios de um classificador cascata, a taxa de acerto e a taxa de falsos positivos, aplicado na base de teste e o tempo gasto para seu treinamento.

TABELA I. DESEMPENHO DO TREINAMENTO DO CLASSIFICADOR CASCATA.

Estágios Taxa acerto Taxa falso positivo Tempo

10 78% 13% 01:17:00

15 85% 10% 02:46:00

20 89% 5% 03:58:00

25 91% 3% 05:08:00

30 92% 1% 06:26:00

A. Detecção de pedestres em fundo dinâmico

A detecção e o rastreamento de pessoas em vídeos são tratados como processos diferentes neste trabalho. A cada imagem da sequência é iniciado um processo de detecção e

caso o alvo esteja presente na imagem analisada, sua posição é utilizada pelo processo de rastreamento para a correta rotulação e identificação do pedestre. A necessidade de se utilizar um processo de detecção baseado apenas nas características das pessoas ocorre pelo fato de a cena em que as mesmas se encontram mudar constantemente. A diminuição da amostragem temporal dos quadros do vídeo também reforça o uso dessa técnica, pois a diferença do fundo entre dois quadros que foram capturados em um espaço de tempo maior é superior à diferença de dois quadros capturados em um curto espaço de tempo. Sendo assim, a abordagem da detecção tem que ser totalmente independente do fundo em que o alvo se encontra, levando apenas em consideração suas características visuais.

Figura 2. Ocorrências da correta detecção de pedestres pelo classificador cascata.

Figura 3. Ocorrências de falsos negativos (a) e falsos positivos (b). Para melhor descrever a presença de um falso negativo, foi marcado manualmente a sua localização com um retângulo vermelho.

(5)

A posição da pessoa detectada foi representada por um vetor que é a entrada para o processo de rastreamento da trajetória do pedestre na cena. Como o processo é executado em todos os quadros do vídeo, é imprescindível que seu tempo de processamento seja inferior ao tempo de exibição de um quadro da sequência, ou seja, como foram utilizados vídeos com output de 16 quadros por segundo, o tempo de detecção de um único quadro deveria ser de no máximo 65,2ms. Com a diminuição da amostragem temporal, pode-se gastar mais tempo com a detecção de pessoas sem interferir no desempenho. Aplicando-se o classificador em todas as imagens da base de teste, foi obtida uma taxa de acerto de 89% e o tempo médio de processamento de uma imagem foi de 37ms. Na Fig. 2 são mostrados alguns exemplos da correta detecção de pedestres em cenas com fundo dinâmico. Já a Fig. 3a exemplifica as ocorrências de falsos negativos e na Fig. 3b estão as ocorrências de falsos positivos.

B. Rastreamento de pedestres em vídeos de baixa amostragem temporal

O rastreamento de pessoas é um processo separado do processo de detecção mas totalmente dependente deste. Mesmo quando a detecção não encontra uma pessoa, o processo de rastreamento é executado e as predições e correções do filtro de Kalman são calculados. Isso é importante pois situações de oclusão são tratadas e o ressurgimento do alvo não faz com que o sistema o defina como uma nova pessoa. Durante toda a permanência do pedestre na cena, é de responsabilidade do rastreador definir o seu rótulo e mantê-lo até o último instante da presença do pedestre na cena. O rastreador também deve ser capaz de gerenciar situações onde oclusões momentâneas podem ocorrer ou até mesmo falhas pontuais de detecção.

Para realizar a comparação e posterior avaliação do comportamento de um rastreador de pessoas em vídeos com baixa amostragem temporal, foi necessário reduzir intencionalmente a quantidade de quadros que o vídeo possui. O processo adotado consiste em processar um quadro e privar o seguinte ou os seguintes de processamento. Quanto maior a quantidade de quadros não processados, menor será a taxa de amostragem. Como a base Daimler Pedestrian Path

Prediction Benchmark possuía suas sequências com uma taxa

de 16 quadros por segundo, após a redução da amostragem foram obtidas taxas de 8, 4 e 2 quadros por segundo. Foi

observado que o movimento dos pedestres ao longo da cena em sequências com maiores amostragens temporais era mais suave. Isso foi um fator que favoreceu o rastreamento, pois quando o detector falha ao identificar um pedestre, a sua posição no quadro seguinte é próxima da posição estimada. Já nas sequências com baixa frequência de quadros, quando ocorre um falso negativo, a próxima posição do pedestre pode ser diferente da que foi estimado. Na Fig. 5 são apresentados os mapas de posições por onde o pedestre esteve localizado em uma faixa de tempo. Cada linha e marcação representam a posição que foi definida pelo detector de pessoas, a posição que o filtro de Kalman estimou e a posição onde o rótulo foi definido. Como pode-se observar, ao reduzir-se a frequência de quadros por segundo o rastreador começa a ter um comportamento instável e as estimativas das prováveis posições dos pedestres começam a destoar de suas reais localizações. Uma ocorrência de erro na detecção _ tanto falso positivo quanto falso negativo, pode ocasionar erro no rastreamento (Fig. 4b).

IV. CONCLUSÕES

A realização desta análise nos revela que há um limite no rastreamento de pessoas quando a amostragem temporal da sequência é reduzida. Ao se comparar o comportamento de um rastreador em uma sequência de imagem com a mesma sequência obtida com taxas de amostragem menores, chegou-se à conclusão que ao chegou-se diminuir essa amostragem a qualidade do rastreamento também diminui. A baixa eficácia do rastreador em sequências de baixa amostragem temporal ocorre, pois, o movimento da pessoa na cena não é contínuo, quase ocupando posições aleatórias e ferindo um dos pré-requisitos do filtro de Kalman que foi o método escolhido para o rastreamento. Mesmo que a ação de diminuir a amostragem temporal seja diretamente proporcional ao insucesso do rastreamento de pessoas, foi verificado que sequências com taxa de 8 quadros por segundo apresentaram resultados de rastreamento semelhante aos de sequência com taxa maior. Isso pode ser importante para situações onde é necessário realizar o rastreamento de pessoas, mas, por alguma limitação a amostragem temporal não pode ser alta. Um maior número de experimentos, no entanto, é necessário para a comprovação desse comportamento.

A sincronia entre o detector de pessoas e o rastreador Figura 4. Exemplo do rastreamento de pessoas em sequências de 16 quadros por segundo (a) e 2 quadros por segundo (b). O rótulo "Estimando" é atribuído na provável posição do pedestre. Em sequências com baixa taxa de quadros por segundo o rastreamento fica mais sensível aos erros do detector.

(6)

também é um ponto importante que muitas vezes interfere no resultado do rastreamento. Vídeos que apresentavam uma baixa taxa de acerto na detecção também apresentavam problemas principalmente no rastreamento de sequências com taxa de 8 quadros por segundo ou menos.

Sendo assim, podemos concluir que o rastreamento de pessoas em sequência de imagens com fundo dinâmico e baixa amostragem temporal é uma tarefa totalmente dependente do desempenho do detector de pessoas. Se o detector apresentar baixas taxas de acerto e/ou altas taxas de falsos positivos, seu desempenho pode ser comprometido.

REFERÊNCIAS

[1] S. Riter, A. Bernat and D. Schroder "Computer detection and tracking of moving people in television images," in Proc. IEEE International Conference on Systems, Man, and Cybernetics, p. 1013–1016, Pequim, 1998. [2] W. Chan and S. Chien, "Real-time memory-efficient video object segmentation in dynamic background with multi-background registration technique," in IEEE Workshop on Multimedia Signal Processing, p. 219–222, Crete, 2007.

[3] M. Burton et al. "Face recognition in poor-quality video: Evidence from security surveillance," in Psychological Science, vol. 10, no. 3, p. 243– 248, 1999.

[4] H. Ma, H. Lu, and M. Zhang, "A real-time effective system for tracking passing people using a single camera," in 7th World Congress on Intelligent Control and Automation (WCICA), p. 6173-6177, Chongqing, 2008.

[5] M. Piccardi, "Background subtraction techniques: a review," in IEEE International Conference on Systems, Man and Cybernetics, p. 3099-3104, The Hague, 2004.

[6] L. Fuentes, S. Velastin, "People tracking in surveillance applications," in Proceedings of the 2nd IEEE International workshop on PETS, p. 1165-1171, Kauai, 2001.

[7] M. Li, Z. Zhang, K. Huang, and T. Tan, "Estimating the number of people in crowded scenes by MID based foreground segmentation and head-shoulder detection," in 19th International Conference on Pattern Recognition (ICPR), p. 1-4, Flórida, 2008.

[8] S. Yu, X. Chen, W. Sun, and D. Xie, "A robust method for detecting and counting people," in International Conference on Audio, Language and Image Processing, p. 1545-1549, Shangai, 2008.

[9] X. Liu, P. Tu, J. Rittscher, A. Perera, and N. Krahnstoever, “Detecting and counting people in surveillance applications,” in IEEE Conference on Advanced Video and Signal Based Surveillance, p. 306-311, Como, 2005. [10] A. Monnet, A. Mittal, N. Paragios, and V. Ramesh, "Background modeling and subtraction of dynamic scenes," in IEEE International Conference on Computer Vision, p. 1305-1312, Nice, 2003.

[11] P. A. Viola, M. J. Jones, D. Snow, "Detecting Pedestrians Using Patterns of Motion and Appearance," in 9th IEEE International Conference on Computer Vision, p. 734-741, Nice, 2003.

[12] A. Yilmaz, O. Javed, M. Shah, "Object tracking: A survey," ACM Computing Surveys vol. 38, no. 4, p. 13, ACM, 2006.

[13] R. E. Kalman, "A new approach to linear filtering and prediction problems". Journal of Fluids Engineering, vol. 82, no. 1, pp. 35–45, American Society of Mechanical Engineers, 1960.

[14] J. Garcia, A. G. Vicente, I. Bravo, J. L. Lazaro, M. Martinez, and D. Rodriguez, “Directional people counter based on head tracking,” IEEE Transactions on Industrial Electronics, vol. 60, no. 9, pp. 3991–4000, IEEE, 2013.

[15] G. Phadke, R. Velmurugan, "Improved mean shift for multi-target tracking," in IEEE International Workshop on Performance Evaluation of Tracking and Surveillance, p. 37-44, Flórida, 2013.

[16] Y. Freund, R. Schapire, "A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting," JCSS: Journal of Computer and System Sciences vol. 55, no. 1, p. 119-139, 1997.

[17] N. Schneider and D Gavrila, "Pedestrian path prediction with recursive Bayesian filters: A comparative study," Pattern Recognition, vol. 1, no. 1, p. 174-183, Springer, 2013.

[18] D. L. Cosmo, E. Salles, P. Ciarelli, "Pedestrian Detection Utilizing Gradient Orientation Histograms and Color Self Similarities Descriptors," Latin America Transactions, IEEE (Revista IEEE America Latina), vol. 13, no. 7, p. 2416-2422, IEEE, 2015.

Diego Luiz Siqueira, possui graduação em Ciência da

Computação e mestrado em Engenharia Elétrica pela Pontifícia Universidade Católica de Minas Gerais, Brasil. Atualmente é bolsista FAPEMIG nas instituições Ericsson e FITec.

Alexei Manso Correa Machado é Doutor em Ciência

da Computação pela Universidade Federal de Minas Gerais, Brasil, com pós-doutorado na University of Pennsylvania, USA. Atua como professor de graduação e pós-graduação nas áreas de visão computacional, inteligência artificial e informática médica.

Figura 5. Mapa das posições do pedestre detectado. A posição de rastreamento é o local onde o filtro de kalman aplica o rótulo de identificação. A posição detectada é a posição que o detector obteve.