TRACKING-LEARNING-DETECTION - Rastreamento por Detecção

Rastreamento por Detecção

3.2 TRACKING-LEARNING-DETECTION

3.2 Tracking-Learning-Detection

O framework desenvolvido por Kalal et al. (KALAL; MATAS; MIKOLAJCZYK, 2009; KA- LAL; MIKOLAJCZYK; MATAS, 2012) denominado Tracking-Learning-Detection (TLD) di- vide o rastreamento em três módulos distintos: rastreamento, detecção e aprendizagem. O módulo de rastreamento tem a função de determinar a localização de um objeto ou região da imagem no quadro subsequente. Este módulo é implementado utilizando técnicas de rastreamento consideradas de curto prazo. Esses métodos são denominados de curto prazo porque é esperado que o rastreamento seja perdido sem que possa ser reinicializado com o passar do tempo por causa de ruídos, como movimentos bruscos e rápidos ou oclusão.

O módulo de detecção tem a função de detectar o objeto alvo na imagem inteira (ao contrá- rio do módulo de rastreamento, o detector não leva em consideração informações de localiza- ções anteriores) do quadro atual do vídeo. Como normalmente o objeto a ser rastreado apenas é determinado em tempo de execução, esse detector tem que ter pelo menos parte to treinamento feita de forma online.

O módulo de aprendizagem é responsável por observar ambos os módulos de detecção e rastreamento, identificar os erros que o detector faz ao longo do tempo e utilizá-los para retreinar o módulo de detecção. O componente de aprendizado assume que ambos os módulos de detecção e rastreamento são passíveis de erro. Em virtude do módulo de aprendizagem, o módulo de detecção pode se especializar no objeto rastreado e errar cada vez menos ao longo do tempo.

As próximas subseções tem a função de detalhar cada um dos módulos descritos. A Subse- ção 3.2.1 descreve o módulo de aprendizagem, em seguida a Subseção 3.2.2 detalha o módulo de detecção, a Subseção 3.2.3 descreve o módulo de rastreamento e por fim a Subseção 3.2.4 descreve um rastreador baseado no TLD específico para faces.

3.2.1 Aprendizagem

O módulo de aprendizagem tem a função de melhorar a precisão do módulo de detecção ob- servando e identificando seus erros e utilizando-os para retreiná-lo. Para que isso seja possível, Kalal et al. (KALAL; MATAS; MIKOLAJCZYK, 2009; KALAL; MIKOLAJCZYK; MATAS, 2011) definiram o conceito de especialistas P-N, onde cada especialista deve identificar tipos de erros distintos. O especialista P tem a função de analisar apenas as amostras classificadas como negativas e identificar quais delas foram incorretamente classificadas. De forma análoga, o especialista N verifica as amostras positivas de forma a encontrar falsos positivos. Ambos especialistas cometem seus próprios erros, mas a independência entre eles minimiza o erro cometido por ambos, de forma que o erro cometido por um é compensado pelo acerto do outro. Considerando o problema de rastreamento, existem dois conjuntos de treinamento: (I) o conjunto qualificado L ={x,y}, onde x faz parte do espaço de características X e y faz parte do espaço de rótulosY = {−1,+1} e (II) o conjunto Xsr de exemplos não rotulados. O conjunto L é obtido logo na inicialização do rastreador no primeiro quadro onde é definido o que se deseja rastrear. O conjunto Xsr é obtido em todos os quadros consecutivos ao primeiro. Por causa disso, o tamanho de L é muito menor do que Xsr, assim utilizar um método de aprendizagem totalmente supervisionado (que só utilize L no treinamento) faria com que muita informação

3.2 TRACKING-LEARNING-DETECTION 41

importante não fosse considerada. Para que essa informação não seja perdida, a tarefa da aprendizagem P-N é encontrar os parâmetrosθ de uma função de classificação f :X → Y através do treinamento com o conjunto L e potencializar a precisão de f através do treinamento com Xsr .

Para que isso seja possível, o treinamento P-N consiste em quatro partes: (I) um classificador para ser treinado, (II) um conjunto de treinamento classificado, (III) um método de aprendizagem supervisionado, e (IV) especialistas P-N para gerar amostras positivas e negativas durante o treinamento. O treinamento P-N começa com a utilização do conjunto classi- ficado L para treinar o classificador e definir seus parâmetros iniciais θ0. A continuação do treinamento se dá por meio de um bootstraping iterativo (SUNG; POGGIO, 1998). Na iteração

k o classificador rotula cada uma das amostras disponíveis no quadro k, os especialistas P-N

então identificam e corrigem os erros cometidos pelo classificador e reutilizam estas amostras no seu retreino de forma a encontrarθk.

Este tipo de treinamento é tão bem sucedido por focar o treinamento apenas nos erros cometidos pelo classificador. Isso faz com que apenas amostras próximas a fronteira de separação das classes positiva e negativa sejam utilizadas. O que leva o classificador a construir uma fronteira de separação bem definida. As próximas duas subseções descrevem os especialistas P e N respectivamente.

3.2.1.1 Especialista P

O especialista P utiliza a estrutura temporal do rastreamento para selecionar as amostras positivas. Em outras palavras, ele se aproveita do fato que uma amostra positiva deve possuir localizações relativas coerentes de um quadro para o outro no vídeo. Para que essa análise seja possível, o especialista P utiliza a informação dada pelo módulo de rastreamento.

No entanto, a posição final do objeto é calculada através de uma junção entre as saídas dos módulos de rastreamento e detecção. Por causa disso, a linha de trajetória de rastreamento pode não ser contínua e levar o especialista P a cometer erros. Para evitar esses problemas, o especialista P utiliza a base de conhecimento (ou modelo do objeto) M do módulo de detecção, para calcular a confiança da trajetória dada pelo módulo de rastreamento. A Figura 3.3 ilus- tra o modelo de um objeto sendo rastreado, os pontos vermelhos da trajetória especificam os momentos em que o objeto rastreado foi classificado como positivo.

Sempre que a trajetória do rastreamento entrar na área do modelo M, a sua trajetória é considerada válida até que o rastreamento seja reinicializado pelo detector ou até que o próprio módulo de rastreamento identifique o seu erro. Todos os patchs presentes numa trajetória válida são considerados como amostras positivas. As amostras que não foram validadas como positivas pelo detector (mas que o especialista P identificou como positivas) são utilizadas para retreinar o classificador (invertendo o seu rótulo para positivo).

Para cada amostra incorretamente classificada como negativa, 10 retângulos mais próximos a amostra são obtidos para treinamento. De cada retângulo, 10 amostras positivas são geradas aplicando transformações geométricas (±1% deslocamento, ±1% mudança de escala e ±5◦ rotação) o que totalizam 100 amostras positivas para cada amostra incorretamente classificada como negativa.

3.2 TRACKING-LEARNING-DETECTION 42

No documento Rastreamento de vídeo com aprendizagem em tempo real (páginas 41-43)