SEQ ¨ Uˆ ENCIAS DE IMAGENS

(1)

RODRIGO ANDRADE DE BEM

UMA ABORDAGEM LIVRE DE MODELO PARA RASTREAMENTO DE OBJETOS EM

SEQ ¨ Uˆ ENCIAS DE IMAGENS

S˜ao Paulo

2007

(2)

UMA ABORDAGEM LIVRE DE MODELO PARA RASTREAMENTO DE OBJETOS EM

SEQ ¨ Uˆ ENCIAS DE IMAGENS

Disserta¸cão apresentada à Escola Politécnica da Universidade de São Paulo para obten¸cão do T´ıtulo de Mestre em Engenharia Elétrica.

S˜ao Paulo

2007

(3)

RODRIGO ANDRADE DE BEM

UMA ABORDAGEM LIVRE DE MODELO PARA RASTREAMENTO DE OBJETOS EM

SEQ ¨ Uˆ ENCIAS DE IMAGENS

Disserta¸cão apresentada à Escola Politécnica da Universidade de São Paulo para obten¸cão do T´ıtulo de Mestre em Engenharia Elétrica.

Area de concentra¸c˜ao: ´ Sistemas Digitais

Orientadora: Professora Livre-Docente Anna Helena Reali Costa

S˜ao Paulo

2007

(4)

S˜ao Paulo, 04 de maio de 2007.

Assinatura do autor Assinatura do orientador

FICHA CATALOGR´ AFICA

Bem, Rodrigo Andrade de

Uma abordagem livre de modelo para rastreamento de objetos em seqüências de imagens/ R.A. de Bem. – ed.rev. – São Paulo, 2007. 86 p.

Disserta¸cão (Mestrado) — Escola Politécnica da Universi- dade de São Paulo. Departamento de Engenharia de Computa¸cão e Sistemas Digitais.

1. Vis˜ao computacional. 2. Inteligˆencia artificial. 3. Pro-

cessamento digital de imagens. I. Universidade de S˜ao Paulo. Es-

cola Polit´ecnica. Departamento de Engenharia de Computa¸c˜ao

e Sistemas Digitais II.t.

(5)

DEDICAT ´ ORIA

A Carol.

(6)

Parece que dois anos passam rápido, quase em um piscar de olhos, especialmente quando estamos nos divertindo, o tempo voa! Já nos momentos de dificuldade, o tempo insiste em passar mais devagar, e um simples dia parece ter muito mais de vinte e quatro horas. Aqui, quero agradecer aos que fizeram o meu tempo passar rápido nestes dois anos do mestrado, mas também aos que estiveram presentes nos momentos em que o tempo não passava.

Agrade¸co primeiramente a Deus por ter me sustentado em todos os aspectos, e por ter me ensinado muito nestes dois anos.

A professora Anna Helena Reali Costa, minha orientadora, pela dedica¸c˜ao e por constan- ` temente instigar o desenvolvimento do trabalho e o meu desenvolvimento pessoal.

Aos amigos que me auxiliaram ao longo do trabalho, dando sugestões, dispondo seu tempo para escutar minhas dúvidas e discutindo questões técnicas, Antônio Selvatici, Evaldo Araújo, Roberto Barra, Valdinei Freire, Valdir Grassi e Valguima Odakura. Aos amigos Evaldo Araújo e João Vital pela ajuda na corre¸cão do texto, e ao amigo Milton Schivani pelo aux´ılio na prepara¸cão de dados para os experimentos.

Agrade¸co especialmente a Carol, minha namorada, pelo amor, carinho, compreensão, paciência e apoio em todos os momentos, desde quando decidi fazer o mestrado em São Paulo, até o final do curso. Por esses e muito outros motivos, este trabalho é dedicado a ela.

Aos meus pais, Raul e Anelita, aos meus irmãos, Eduardo e Daniela, meus avós, Raul, Emy e Maria, e aos meus demais familiares, pelo amor e suporte durante todo tempo e em todos os sentidos. Agrade¸co especialmente a minha tia Vanilde e sua fam´ılia, pela dedica¸cão, carinho e por ter me recebido tão bem em São Paulo.

A todos os demais amigos do LTI e da Poli, por todas as conversas, churrascos e outros bons momentos que compartilhamos. Em especial aos amigos Andr´e Iasi, Diana Adamatti, Lucas De Marchi, Luciano Coutinho.

Aos amigos com os quais morei durante um ”bom”tempo, André Lopes, Evaldo Araújo, Vicente de Barros e João Vital, pela amizade, companheirismo e ajuda sempre que precisei.

Este trabalho foi realizado com bolsa de Mestrado no Pa´ıs, concedida pelo Conselho Naci-

onal de Desenvolvimento Cient´ıfico e Tecnol´ogico - CNPq - processo n´umero 132185/2005-9.

(7)

RESUMO

Este trabalho propõe uma abordagem para o rastreamento de objetos observados em seqüências de imagens. O objetivo principal é o desenvolvimento de uma metodologia eficiente, capaz de realizar o rastreamento de um ou mais alvos heterogêneos, usando pouca informa¸cão a priori sobre os mesmos. Para alcan¸car este objetivo é proposta a descri¸cão dos alvos livre de um modelo expl´ıcito de forma, através de uma representa¸cão baseada em contornos, a qual é inte- ressante pois tem a capacidade de adaptar-se dinamicamente a alvos com formas heterogêneas de modo eficaz. Além disso, é usado um modelo de movimento único e simples, considerando somente transla¸cão e mudan¸ca de escala quadro a quadro. Este modelo possibilita o tra- tamento de movimentos suaves e previamente desconhecidos dos alvos. O rastreamento de cada alvo é executado com a combina¸cão de dois Filtros de Kalman: um para estima¸cão do movimento e outro para estima¸cão do contorno. O modelo de observa¸cão é baseado em linhas de medida 1D fixadas ao longo do contorno estimado e tem baixo custo computacio- nal. Experimentos foram conduzidos para avaliar a eficácia e eficiência da proposta, utilizando seqüências de imagens controladas e reais. Os resultados mostram que a abordagem proposta

é capaz de rastrear alvos distintos (figuras geométricas, pessoas e robôs móveis), executando diferentes movimentos considerando a posi¸cão de observa¸cão da câmera. Embora haja uma rela¸cão cr´ıtica entre a varia¸cão quadro a quadro do movimento e da forma dos alvos, e o n´ıvel de ru´ıdo nas imagens, a abordagem é adequada nos casos em que informa¸cões detalhadas a respeito do movimento e da forma dos alvos não são dispon´ıveis.

Palavras-chave: Rastreamento visual. Vis˜ao computacional. Processamento digital de ima-

gens.

(8)

This work proposes an approach to track objects observed in sequences of images. The main objective is the development of an efficient methodology, capable of performing the tracking of one or more heterogeneous targets by using a small amount of a priori information about them. To accomplish this objective we propose a description of the targets free of an explicit shape model. This description is a contour-based representation, which is interesting because it is capable of adapting dynamically to targets that have heterogeneous shapes in an effective way. Besides this, a unique and simple movement model is used, considering only translation and scaling frame by frame. This model allows treating smooth and previously unknown tar- gets movements. The tracking of each target is executed by the combination of two Kalman Filters: one used to estimate movement and another one to estimate contour. The observation model is based on 1D measurement lines fixed along the estimated contour and requires low computational power. Experiments were performed to evaluate the efficacy and the efficiency of the proposal, using controlled and real image sequences. Results show that the proposed approach is capable of tracking distinct targets (geometric figures, human bodies and mobile robots), which execute different movements regarding the observation position of the camera.

Despite the critical tradeoff between the frame by frame variation of the targets movements and shapes and the level of noise in the images, the approach showed to be adequate for those cases of application where detailed information about target movement and shape are not available.

Keywords: Visual tracking. Computer vision. Digital image processing.

(9)

LISTA DE FIGURAS

2.1 Taxonomia apresentada por Hu et al. (2004) que define as categorias de abor- dagens para o rastreamento visual de acordo com a representa¸c˜ao utilizada.

. . . . 9 2.2 Proposta de adapta¸c˜ao da taxonomia apresentada por Hu et al. (2004) feita

com base na classifica¸cão das abordagens sugerida por Gavrila (1999). . . 10 3.1 Cenário básico: o sensor óptico produz uma observa¸cão do ambiente dentro de

seu campo de visão, no qual o alvo de interesse descreve a trajetória indicada. 14 3.2 Cenário com alvos heterogêneos: dois alvos com formas distintas descrevem

trajetórias no ambiente enquanto observa¸cões são realizadas pelo sensor óptico. 15 4.1 (a) Imagem original. (b) Resultado da subtra¸cão de fundo e limiariza¸cão e o

pol´ıgono convexo envolvente. (c) Resultado da deteçcão de bordas e o pol´ıgono convexo envolvente. (d) Pol´ıgono convexo com 21 vértices. . . 31 4.2 Dezesseis pontos, representados por quadrados, amostrados uniformemente ao

longo do pol´ıgono convexo. . . 32 4.3 Fun¸c˜ao B-spline c´ubica (linha pontilhada), definida por seus pontos de controle

(arteriscos), que aproxima o pol´ıgono convexo (linha cont´ınua). . . 34 4.4 Aproxima¸c˜oes feitas a um pol´ıgono convexo (linha cont´ınua) com 21 v´ertices

e 16 pontos amostrados, utilizando-se uma B-spline c´ubica (linha pontilhada) com: (a) 15 pontos de controle; (b) 11 pontos de controle; (c) 7 pontos de controle; (d) 4 pontos de controle. . . 35 5.1 (a) Intensidade dos pixels em uma linha de medida extra´ıda da imagem. (b)

Aplica¸c˜ao dos detectores de bordas e movimento. (c) Densidade de probabi-

lidade Gaussiana. (d) Probabilidade de cada pixel corresponder `a borda real

(mais escuro corresponde `a maior probabilidade). . . . 42

(10)

o ponto de controle e o centr´oide do alvo. (b) A nova posi¸c˜ao do ponto de controle no quadro k, denotada por x

k

, é definida em fun¸cão de sua posi¸cão anterior, somada ao deslocamento do centróide, dado por v

_k−1

, e a altera¸cão da distância entre o ponto e o centróide, definida pelo fator de escala s

_k

. . . 46 7.1 Esquema da abordagem proposta. As n primeiras imagens s˜ao usadas na

inicializa¸cão, enquanto as demais são tratadas diretamente pelo processo de rastreamento. . . 48 7.2 Na inicializa¸cão os alvos são detectados, e gerada uma estimativa inicial de

suas posi¸cões e velocidades. . . 50 7.3 O esquema mostra as etapas do processo de rastreamento dos alvos. . . 51 8.1 Quadros da seqüência onde o quadrado contrastante com o fundo é rastreado.

O contorno resultante é mostrado em torno do alvo, bem como a trajetória estimada de seu centróide (linha cont´ınua). . . 61 8.2 Contorno estimado do alvo rastreado e as linhas de medida usadas no modelo

de observa¸cão fixadas ao longo do contorno. . . 62 8.3 Compara¸cão entre a posi¸cão real do centróide (linha cont´ınua) e a posi¸cão

estimada no rastreamento (linha tracejada). Os instantes inicial e final do rastreamento são indicados no gráfico por k = 1 e k = 299. . . 62 8.4 Quadros da seqüência onde um quadrado é rastreado. O contorno resultante é

mostrado em torno do alvo, bem como a trajet´oria estimada de seu centr´oide (linha cont´ınua). . . 64 8.5 Contorno estimado do alvo rastreado e as linhas de medida usadas no modelo

de observa¸c˜ao fixadas ao longo do contorno. . . 64 8.6 Alvo A (esquerda) realiza transla¸c˜ao na vertical e na diagonal; Alvo B (direita)

se afasta da cˆamera e executa transla¸c˜ao na vertical. O contorno resultante

é mostrado em torno de cada alvo, bem como a trajetória estimada de seus centróides (linhas cont´ınuas). . . 65 8.7 Contorno estimado dos alvos rastreados e as linhas de medida usadas no modelo

de observa¸c˜ao fixadas ao longo do contorno. . . 66

(11)

8.8 Compara¸cão entre a posi¸cão real do centróide (linha cont´ınua) e a posi¸cão estimada no rastreamento (linha tracejada) dos alvos A e B. Os instantes inicial e final do rastreamento são indicados no gráfico por k = 1 e k = 299. . 66 8.9 Quadros da seqüência onde um pessoa é rastreada. O contorno resultante é

mostrado em torno do alvo, bem como a trajet´oria estimada de seu centr´oide (linha cont´ınua). . . 70 8.10 Contorno estimado do alvo rastreado e as linhas de medida usadas no modelo

de observa¸cão fixadas ao longo do contorno. . . 70 8.11 Compara¸cão entre a posi¸cão real do centróide (linha cont´ınua) e a posi¸cão

estimada no rastreamento (linha tracejada). Os instantes inicial e final do rastreamento são indicados no gráfico por k = 1 e k = 174. . . 71 8.12 Quadros da seqüência onde três pessoas são rastreadas. O contorno resultante

é mostrado em torno do alvo, bem como a trajetória estimada de seu centróide (linha cont´ınua). . . . 73 8.13 Contorno estimado dos alvos rastreados e as linhas de medida usadas no modelo

de observa¸cão fixadas ao longo dos contornos. . . 74 8.14 Compara¸cão entre a posi¸cão real dos centróides (linhas cont´ınuas) e a posi¸cão

estimada (linhas tracejadas). . . 74 8.15 Quadros da seqüência onde quatro robôs móveis são rastreados. O contorno

resultante é mostrado em torno dos alvos, bem como a trajetória estimada de seu centróide (linha cont´ınua). . . . 76 8.16 Contorno estimado dos alvos rastreados e as linhas de medida usadas no modelo

de observa¸cão fixadas ao longo dos contornos. . . 77 8.17 Compara¸cão entre a posi¸cão real dos centróides (linhas cont´ınuas) e a posi¸cão

estimada (linhas pontilhadas) dos alvos A, B, C e D, da esquerda para direita. 77

(12)

1.1 Suposi¸cões a respeito dos movimentos, ambientes e alvos tratados pela abor- dagem proposta. . . . 6 8.1 Parâmetros utilizados na configura¸cão do sistema de rastreamento para execu¸cão

dos Testes 1, 2 e 3 da Se¸cão 8.1. . . 61 8.2 Parâmetros utilizados na configura¸cão do sistema de rastreamento para execu¸cão

do Teste1 em imagens reais. . . 69 8.3 Parâmetros utilizados na configura¸cão do sistema de rastreamento para execu¸cão

do Teste2 em imagens reais. . . 72 8.4 Parâmetros utilizados na configura¸cão do sistema de rastreamento para execu¸cão

do Teste 3 em imagens reais. . . 75

(13)

LISTA DE ABREVIATURAS E SIGLAS

CCD Charge Coupled Device

Condensation Conditional Density Propagation

EQM Erro Quadrado M´edio

i.i.d. independente e identicamente distribu´ıdo JPDAF Joint Probabilistic Data Association Filter

pdf fun¸c˜oes densidade de probabilidade

SIR Sampling Importance Resampling

SIS Sequential Importance Sampling

(14)

As conven¸c˜oes e s´ımbolos utilizados s˜ao mostrados nas tabelas seguintes:

Conven¸c˜ao Defini¸c˜ao

~x vetores s˜ao denotados por uma seta sobrescrita

n

_x

dimens˜ao de um vetor ~x

P matrizes s˜ao denotadas por letras mai´usculas P

x

matriz de covariância de um vetor de estado ~x f(.) fun¸cões são denotadas por letras minúsculas

~

x

_k

, X ~

_k

, P

_k

, P

_x,k

, f

_k

(.), x

_k

o ´ındice temporal discreto é subescrito nos vetores, matrizes, fun¸cões e variáveis

~x

ⁱ_k

o ´ındice superescrito em um vetor indica elemento de um con- junto

x é o valor esperado ou média da variável x

x

⁰

´e o valor estimado da vari´avel x

A

^T

´e a matriz transposta de A

A

⁻¹

´e a matriz inversa de A

f ˙ derivada total da fun¸c˜ao f(.)

∂f

∂x

derivada parcial da fun¸cão f (.) em rela¸cão à x

I

n

matriz identidade de dimens˜ao n × n

I matriz identidade de dimens˜ao gen´erica

(15)

S´ımbolo Defini¸c˜ao

∆T intervalo de tempo

I

_i:j

conjunto de observa¸c˜oes realizadas entre os instantes i e j

p(.) fun¸c˜ao densidade de probabilidade

p(.|.) fun¸cão densidade de probabilidade condicional N (0, P ) distribui¸cão Gaussiana com média 0 e covariância P P

_X

matriz de covariˆancia do vetor de estado X ~

P

M

matriz de covariˆancia do vetor de estado M ~ ω

_kⁱ

peso de uma amostra ou part´ıcula i no instante k C

ⁿ

continuidade at´e a n-´esima derivada

r(u) r(.) ´e um fun¸c˜ao B-spline parametrizada por u B

_i^k

(u) i-´esima fun¸c˜ao base de uma B-spline de ordem k

b

^k_i

(t) i-´esimo segmento polinomial constituinte de uma fun¸c˜ao base de ordem k

x

_i

i-´esimo ponto de controle de uma fun¸c˜ao B-spline 1D x

_i

= (x

_i

, y

_i

) i-´esimo ponto de controle de uma fun¸c˜ao B-spline 2D

P

j

j-´esimo ponto amostrado ao longo do pol´ıgono envolvente de um alvo

ˆ

u

_j

j-´esima amostra do intervalo de valores do parˆametro u de uma B-spline

z

⁽ⁿ⁾

linha de medida

C

_m

máscara de convolu¸cão discreta usada na aplica¸cão de filtros so- bre as linhas de medida

L comprimento em pixels de um linha de medida

z

_n

reta param´etrica normal `a curva B-spline ˆ

n vetor unit´ario normal `a curva B-spline

z

_n,l

valor de intensidade no ponto (x

_n,l

, y

_n,l

) da linha de medida z

⁽ⁿ⁾

V (i, j ) valor de intensidade do pixel (i, j) em uma imagem

w

_i,j

peso de um pixel (i, j) usado na interpola¸c˜ao bilinear de intensi- dade

c

k

= (c

^x_k

, c

^y_k

) coordenadas da posi¸c˜ao do centr´oide de um alvo no instante k v

_k

= (v

_x,k

, v

_y,k

) velocidade de transla¸c˜ao do centr´oide de um alvo em x e y no

instante k

s

k

= (s

x,k

, s

y,k

) fator de mudan¸ca de escala de um alvo em x e y no instante k s

_k

fator de mudan¸ca de escala uniforme (s

_k

= s

_x,k

= s

_y,k

) de um

alvo no instante k

K Ganho de Kalman

, igual por defini¸c˜ao

∼ distribu´ıdo como

k.k norma Euclididana

b.c piso

Z conjunto dos n´umeros inteiros

R conjunto dos n´umeros reais

(16)

1 Introdu¸c˜ ao 1

1.1 Motiva¸c˜ao . . . . 4

1.2 Objetivo . . . . 5

1.3 Dom´ınio de Aplica¸c˜ao . . . . 6

1.4 Organiza¸c˜ao do Trabalho . . . . 6

2 Revis˜ ao Bibliogr´ afica 8 2.1 Taxonomia . . . . 8

2.2 Trabalhos Relacionados . . . 10

2.3 Considera¸c˜oes Finais . . . 13

3 Abordagem Probabil´ıstica do Rastreamento Visual 14 3.1 Filtros Probabil´ısticos Aplicados ao Rastreamento Visual . . . 17

3.1.1 Filtro de Kalman . . . 18

3.1.2 Filtro de Kalman Estendido . . . 19

3.1.3 Conditional Density Propagation (Condensation) . . . 20

3.2 Considera¸c˜ao Finais . . . 22

4 Modelo de Representa¸c˜ ao Baseado em Contornos 24 4.1 Deteçcão de Objetos Móveis . . . 24

4.2 Modelo de Representa¸c˜ao . . . 26

4.2.1 B-splines . . . 26

4.2.2 Aproxima¸c˜ao de uma B-spline a um Pol´ıgono . . . 30

4.3 Considera¸c˜oes Finais . . . 34

(17)

5 Modelo de Observa¸c˜ ao Baseado em Contornos 37

5.1 Linhas de Medida . . . 38

5.1.1 Constru¸c˜ao das Linhas de Medida . . . 38

5.1.2 Extra¸c˜ao de Caracter´ısticas . . . 39

5.1.3 Interpreta¸c˜ao Probabil´ıstica das Caracter´ısticas Detectadas . . . 41

5.2 Considera¸c˜oes Finais . . . 42

6 Modelo de Movimento dos Objetos 44 6.1 Modelo de Movimento . . . 45

6.2 Considera¸c˜oes Finais . . . 47

7 Detalhamento da Abordagem Proposta 48 7.1 Inicializa¸c˜ao . . . 49

7.2 Rastreamento . . . 51

7.2.1 Estima¸c˜ao do Movimento . . . 54

7.2.2 Estima¸c˜ao do Contorno . . . 56

7.3 Considera¸c˜oes Finais . . . 58

8 Experimentos e Resultados 59 8.1 Experimentos com Imagens Controladas . . . 59

8.1.1 Teste 1: Movimento . . . 60

8.1.2 Teste 2: Altera¸c˜ao de Forma . . . 63

8.1.3 Teste 3: Alvos Heterogˆeneos . . . 65

8.1.4 An´alise dos Resultados . . . 67

8.2 Alvos reais . . . 68

8.2.1 Teste 1: Uma Pessoa . . . 69

8.2.2 Teste 2: Grupo de Pessoas . . . 71

8.2.3 Teste 3: Robˆos M´oveis . . . 75

(18)

8.3 Considera¸c˜oes Finais . . . 79

9 Conclus˜ ao 80

9.1 Trabalhos Futuros . . . 81

REFERˆ ENCIAS BIBLIOGR´ AFICAS 83

(19)

1

1 Introdu¸c˜ ao

A visão computacional é uma das grandes áreas da Inteligência Artificial e pode ser definida como sendo a constru¸cão de descri¸cões expl´ıcitas e com significado de objetos f´ısicos a partir de imagens ( BALLARD; BROWN , 1982), envolvendo também o estudo do racioc´ınio e planejamento realizados com base em tais descri¸cões ( DUDEK; JENKIN , 2000). Dois importantes problemas amplamente estudados na visão computacional são ( MACCORMICK , 2000):

• localizar um objeto em uma imagem est´atica;

• localizar um objeto móvel, em cada quadro de uma seqüência de imagens (trecho de v´ıdeo).

O primeiro problema, definido na literatura como deteçcão, refere-se à tarefa de determi- nar a presen¸ca de um objeto em uma cena (imagem) e também sua localiza¸cão na mesma, diferenciando-o de todos os outros objetos e padrões visuais presentes. O segundo, por sua vez, constitui o que é definido como rastreamento em seqüências de imagens, ou rastrea- mento visual, que é a tarefa de seguir o objeto detectado, estabelecendo uma correspondência temporal entre pontos de referência do mesmo, diferenciando-o de outros objetos móveis, eventualmente presentes na cena ( GONG; MCKENNA; PSARROU , 2000). A localiza¸cão de um objeto em uma imagem é determinada por sua posi¸cão em rela¸cão ao observador no ambiente.

´ E importante salientar que o termo objeto é empregado aqui de maneira geral, referindo-se a itens de interesse que podem ser diferenciados por suas caracter´ısticas de outros em uma imagem. Um objeto poderia ser, por exemplo, um ve´ıculo, uma pessoa, uma face, uma mão ou uma laranja. O termo alvo, muito empregado na literatura de rastreamento visual, também é usado para referenciar um objeto que está sendo rastreado ao longo do tempo ( MACCORMICK , 2000). Neste trabalho os termos objeto e alvo serão utilizados sem distin¸cão entre os mesmos.

O rastreamento de alvos ´e uma ampla e bem explorada ´area de pesquisa e desenvolvimento,

onde se encontra um grande n´umero de ferramentas matem´aticas probabil´ısticas propostas para

solu¸cão do problema ( BAR-SHALOM; LI; KIRUBARAJAN , 2001). O cenário básico consiste em um

sensor, que produz observa¸c˜oes ruidosas do ambiente, e um alvo que descreve uma determinada

(20)

trajetória. O objetivo de um algoritmo de rastreamento é determinar a trajetória do alvo, usando as observa¸cões fornecidas pelo sensor, e todo o conhecimento a priori dispon´ıvel sobre a dinâmica do alvo ( S¨ ARKK¨ A et al. , 2004). Tratando-se do rastreamento visual, é empregado um sensor óptico para extrair informa¸cões do ambiente, como por exemplo uma câmera CCD (Charge Coupled Device), e os alvos podem ser quaisquer objetos de interesse dentro do campo de visão da câmera.

Um sistema de rastreamento visual pode ser dividido em quatro componentes: a re- presenta¸c˜ ao, que pode ser chamada de descri¸cão, vetor de estado, ou modelo do alvo, e define como o mesmo é descrito no sistema; o modelo de observa¸c˜ ao empregado, que define, com base na representa¸cão adotada, quais caracter´ısticas peculiares ao objeto de in- teresse estão sendo buscadas nas imagens; o modelo de movimento, que descreve como o alvo movimenta-se no campo de visão do sensor óptico; e o algoritmo de rastreamento propriamente dito que, em termos gerais, estabelece como a representa¸cão e os modelos de ob- serva¸cão e movimento serão empregados para detectar o objeto em cada quadro da seqüência de imagens. O conhecimento dispon´ıvel a priori, referente às caracter´ısticas apresentadas pelos objetos nas imagens e a sua movimenta¸cão, determina quão espec´ıficos serão os modelos, e conseqüentemente como estes serão associados através do algoritmo de rastreamento. Uma boa quantidade de informa¸cões prévias facilita a elabora¸cão de uma solu¸cão robusta ( GAVRILA , 1999).

Pelo fato de existir um grande n´umero de abordagens para tratar o rastreamento visual,

que variam de acordo com a aplica¸cão em foco, não é simples classificar as propostas exis-

tentes. No Cap´ıtulo 2 alguns trabalhos ser˜ao apresentados em mais detalhes, por ora ser˜ao

identificados aqui dois tipos de solu¸c˜oes de interesse que apresentam principalmente dife-

ren¸cas quanto à representa¸cão empregada. No primeiro grupo de abordagens, que serão

denominadas como livres de modelo, não há uma descri¸cão expl´ıcita da forma dos objetos

a serem rastreados, ou seja, a informa¸cão prévia dispon´ıvel sobre os alvos é limitada, o que

impossibilita a constru¸c˜ao de uma representa¸c˜ao detalhada. Nesse caso os modelos podem

ser baseados em pontos, retˆangulos envolventes (bounding boxes) ( JUNG; SUKHATME , 2005),

contornos ( NGUYEN; WORRING , 2000) ou regi˜oes correspondentes aos alvos (blobs). J´a no

segundo grupo, das abordagens denominadas como baseadas em modelo, sabe-se exata-

mente quais objetos estão sendo procurados, assim é poss´ıvel construir uma representa¸cão

mais precisa da forma dos mesmos. Tais modelos podem ser definidos tanto no espa¸co 2D,

como estruturas formadas por arestas e jun¸c˜oes, ou como contornos ( MACCORMICK , 2000)

referentes `as proje¸c˜oes dos alvos no plano da imagem, quanto no espa¸co 3D, como formas

volum´etricas ( KOLLER; DANIILIDIS; NAGEL , 1993), ( CAMPOS , 2003).

(21)

Introdu¸cão 3 De um modo geral, em ambos os grupos de abordagens, livres de modelo e baseadas em modelo, os algoritmos de rastreamento utilizados para seguir os alvos ao longo de seqüências de imagens adotam a metodologia de predi¸cão-observa¸cão-filtragem. Neste arcabou¸co, o estado dos alvos no próximo quadro de uma seqüência de imagens é estimado através de uma predi¸cão realizada com base no modelo de movimento do mesmo; logo depois, o modelo de observa¸cão é empregado para extrair informa¸cões da imagem, possibilitando a filtragem (também chamada de atualiza¸cão) da estimativa executada no passo de predi¸cão. Neste ponto, é importante salientar que esta metodologia tem uma correspondência direta com as etapas de execu¸cão de estimadores Bayesianos como o Filtro de Kalman ( GELB et al. , 1974), o Filtro de Kalman Estendido ( GELB et al. , 1974) e o Condensation ( BLAKE; ISARD , 1998), de modo que tais algoritmos são amplamente usados no rastreamento visual, principalmente nas abordagens baseadas em modelo. Ressalta-se que na literatura que trata dos estimadores recursivos Bayesianos os mesmos são descritos em duas etapas, predi¸cão e filtragem, deixando impl´ıcita a observa¸cão. Quanto às abordagens livres de modelo, métodos mais simples são utilizados com maior freqüência, como por exemplo no caso de alvos representados por regiões nas imagens (blobs), em que os mesmos são rastreados através de técnicas de similaridade de regiões, baseadas em métricas como correla¸cão ( HAGER; TOYAMA , 1998) ou histograma de cores ( COMANICIU; RAMESH; MEER , 2000). Mesmo nesses casos os passos de predi¸cão- observa¸cão-filtragem podem ser identificados.

A op¸cão pela utiliza¸cão de uma abordagem livre de modelo ou baseada em um modelo de forma dos objetos rastreados é especialmente relevante no rastreamento visual de múltiplos alvos. Nesta importante extensão do problema com um único alvo a defini¸cão da representa¸cão dos objetos, bem como dos outros componentes do sistema de rastreamento, torna-se cr´ıtica.

Isto ocorre devido a questões como oclusão, necessidade de identifica¸cão única de cada alvo, desconhecimento ou varia¸cão do número de objetos rastreados, além da dificuldade carac- ter´ıstica do caso envolvendo mais de um alvo, estabelecida pelo problema da associa¸cão de dados (data association) ( BAR-SHALOM; FORTMANN , 1988) apud ( SCHULZ et al. , 2001), que consiste na necessidade do estabelecimento de uma correspondência entre as observa¸cões do sensor e cada alvo rastreado no ambiente.

Ainda no contexto do problema com v´arios alvos as abordagens consideradas como livres

de modelo, que não utilizam uma representa¸cão expl´ıcita da forma dos alvos, têm a vantagem

de possibilitarem o rastreamento de objetos com formas desconhecidas a priori, o que as torna

mais flex´ıveis, al´em de dispensar a elabora¸c˜ao de um modelo que em alguns casos pode ser

custoso. No entanto, em geral este tipo de abordagem n˜ao apresenta robustez no tratamento

de problemas como oclusão e manuten¸cão da identidade única de cada alvo, baseando-se

(22)

em estratégias fracas como união e separa¸cão de regiões, quando dois alvos aproximam-se, por exemplo, o que dificulta muito a manuten¸cão da identidade dos mesmos ( HARITAOGLU;

HARWOOD; DAVIS , 1998). Por outro lado, as propostas classificadas como baseadas em modelo, as quais usam um modelo detalhado dos alvos, requerem necessariamente o conhecimento prévio dos alvos de interesse e a obten¸cão de informa¸cões sobre os mesmos, de modo que seja poss´ıvel a constru¸cão da representa¸cão. A descri¸cão apurada dos alvos, associada a algoritmos de rastreamento probabil´ısticos favorecem a elabora¸cão de abordagens robustas, que tratam satisfatoriamente os problemas mencionados anteriormente ( MACCORMICK; BLAKE , 2000). A principal desvantagem destes métodos é que em alguns ambientes, como locais públicos, nem sempre é viável determinar todos os tipos de alvos que entrarão no campo de visão do sensor

´optico e, al´em disso, elaborar modelos para os mesmos.

Considerando o que foi exposto, o emprego de uma abordagem livre de modelo para o rastreamento de objetos em seqüências de imagens possibilita a utiliza¸cão de pouca quantidade de informa¸cões prévias sobre os objetos de interesse. A relevância deste tipo de abordagem torna-se clara quando se considera aplica¸cões em que os alvos são desconhecidos, como em um local público, ou heterogêneos, como pessoas e ve´ıculos. No entanto, a disponibilidade de pouca informa¸cão a priori compromete a eficácia do processo de rastreamento. Deste modo, a quantidade de informa¸cões prévias utilizadas e a eficácia do processo de rastreamento estabelece um importante paradoxo a ser considerado no desenvolvimento de uma abordagem livre de modelo de forma dos alvos.

1.1 Motiva¸c˜ ao

O problema de rastrear objetos em seqüências de imagens ainda não se encontra resolvido de forma definitiva na literatura. Questões como fundo dinâmico de cena, oclusão persis- tente, identifica¸cão única de alvos, número desconhecido e variável de objetos de interesse e o rastreamento de objetos sobre os quais não se tem muita informa¸cão a priori mostram-se desafiadoras. Além disso, há um grande número de aplica¸cões nas quais abordagens eficien- tes podem ser empregadas, como na vigilância automática de ambientes, controle de tráfego em estradas, rastreamento de pessoas, estimativa do número de pessoas em multidões, entre outras. Assim, a investiga¸cão deste problema configura-se tanto uma importante tarefa ci- ent´ıfica, quanto a explora¸cão de um dom´ınio repleto de aplica¸cões promissoras. Nesta se¸cão serão abordadas brevemente duas destas aplica¸cões: a robótica móvel e o monitoramento automático de ambientes.

Atualmente há uma crescente necessidade de intera¸cão entre robôs móveis e seres huma-

(23)

1.2 Objetivo 5 nos em lugares como indústrias, escritórios, hospitais, locais públicos e mesmo no ambiente doméstico. Neste contexto, possibilitar que um robô móvel tenha a capacidade de realizar o rastreamento de objetos (pessoas ou outros robôs) em imagens do ambiente captadas por ele é de fundamental importância para sua autonomia. Através disso, um robô móvel pode, por exemplo, ajustar sua postura e velocidade de acordo com a movimenta¸cão captada de um objeto no ambiente, diminuindo assim a possibilidade de colisões ( SCHULZ et al. , 2001).

Além disso, deteçcão e rastreamento de outros robôs móveis é uma tarefa de fundamental importância na manuten¸cão e estimativa do posicionamento de cada membro de grupos de robôs durante a inspe¸cão e explora¸cão de ambientes, localiza¸cão de v´ıtimas em áreas de dif´ıcil acesso, onde ocorreram desastres, localiza¸cão de pessoas em locais tomados por seqüestradores ou por terroristas, bem como na execu¸cão de outras tarefas cooperativas ou competitivas.

O monitoramento de ambientes também é um assunto sobre o qual há um crescente interesse de pesquisa e desenvolvimento nas áreas da robótica e visão computacional. Essa tarefa pode ser executada com o uso de circuitos fechados de v´ıdeo, com câmeras fixas, por câmeras instaladas em robôs móveis atuando de maneira independente, ou ainda por equipes de robôs agindo de modo coordenado. O monitoramento automático de ambientes pode ser utilizado para realizar a vigilância de um prédio, ou para proteger um determinado local, detectando a presen¸ca de intrusos.

1.2 Objetivo

O objetivo deste trabalho é propor uma abordagem única, capaz de realizar o rastreamento visual de alvos heterogêneos com a utiliza¸cão de pouco conhecimento a priori sobre os mesmos, isto é, uma abordagem livre de modelo de forma, mas ainda assim que seja eficiente e eficaz no processo de rastreamento. ´ E importante salientar que tais interesses são conflitantes, exigindo um equil´ıbrio entre a quantidade de informa¸cão empregada e a eficiência e eficácia pretendidas.

Como j´a mencionado, as caracter´ısticas das abordagens classificadas como livres de mo-

delos favorecem o rastreamento de alvos heterogˆeneos, por outro lado, as abordagens tidas

como baseadas em modelos propiciam maior robustez quanto a quest˜oes como oclus˜ao e fundo

de cena dinˆamico. Pretende-se portanto, utilizar peculiaridades dos dois grupos para alcan¸car

os objetivos desejados. Mais especificamente, ser´a utilizada para os alvos uma representa¸c˜ao

livre de modelo de forma que permitir´a o rastreamento de objetos m´oveis desconhecidos a

priori. O algoritmo de rastreamento ser´a um estimador Bayesiano, o qual ´e associado aos mo-

delos de movimento e de observa¸cão dos alvos, e fornece a base para elabora¸cão de solu¸cões

probabil´ısticas adequadas para o problema do rastreamento visual, como se pode ver em tra-

(24)

balhos encontrados na literatura ( MACCORMICK , 2000), ( TWEED; CALWAY , 2002). Para isso

é necessário que haja uma boa adequa¸cão entre a representa¸cão dos alvos, os modelos de movimento e de observa¸cão e o algoritmo de rastreamento.

1.3 Dom´ınio de Aplica¸c˜ ao

A abordagem proposta foi desenvolvida visando o rastreamento de alvos com formas hete- rogêneas, como pessoas e ve´ıculos (robôs móveis), que se deslocam em ambientes internos, por exemplo em escritórios, centros comerciais e hospitais. Definiu-se que o sensoriamento do ambiente é feito por um sensor óptico, mais especificamente uma câmera Charge Coupled Device (CCD) fixa em um ponto pré-determinado. Quanto aos objetos de interesse assume-se que os mesmos são móveis e se deslocam no campo de visão do sensor óptico realizando movimentos suaves e simples; assim, esta é a primeira informa¸cão prévia usada na abordagem adotada. As demais suposi¸cões assumidas a respeito do dom´ınio de aplica¸cão da abordagem são mostradas na Tabela 1.1. As mesmas são agrupadas nas categorias ambiente, alvos e movimentos, a exemplo do que é apresentado por Moeslund e Granum (2001).

Suposi¸c˜ oes

Movimentos Ambiente Alvos

Câmera estática Ilumina¸cão constante Ve´ıculos Alvos com movimentos suaves Fundo de cena estático Pessoas Movimento limitado de membros (pessoas)

Movimentos sobre um plano

Tabela 1.1: Suposi¸c˜oes a respeito dos movimentos, ambientes e alvos tratados pela aborda- gem proposta.

1.4 Organiza¸c˜ ao do Trabalho

Os temas abordados neste trabalho est˜ao divididos da seguinte forma: no Cap´ıtulo 2 ´e apresen-

tada uma breve revisão bibliográfica, assim como uma taxonomia que será útil para localizar

a abordagem proposta dentre as demais encontradas na literatura; o Cap´ıtulo 3 trata a mode-

lagem probabil´ıstica do rastreamento visual de objetos, al´em de apresentar alguns estimadores

recursivos Bayesianos considerados nos trabalhos de rastreamento visual; o modelo de repre-

senta¸c˜ao baseado nos contornos dos alvos ´e detalhado no Cap´ıtulo 4, enquanto o modelo de

observa¸cão é apresentado em detalhes no Cap´ıtulo 5, e o modelo de movimento dos alvos é

descrito no Cap´ıtulo 6. O detalhamento da abordagem proposta neste trabalho encontra-se

no Cap´ıtulo 7. Por fim, os experimentos realizados e os resultados obtidos s˜ao mostrados no

(25)

1.4 Organiza¸c˜ao do Trabalho 7

Cap´ıtulo 8, seguidos da conclus˜oes finais desta pesquisa e indica¸c˜oes de trabalhos futuros, no

Cap´ıtulo 9.

(26)

2 Revis˜ ao Bibliogr´ afica

Devido ao grande número e a variedade de abordagens encontradas na literatura, torna-se muito dif´ıcil o estabelecimento de uma taxonomia capaz de classificar as propostas existentes para o tratamento do problema do rastreamento visual de objetos, sem que haja uma série de exce¸cões e interseçcões entre as classes definidas. Os próprios trabalhos encontrados que se propõem a estabelecer taxonomias mencionam tal problema ( HU et al. , 2004), ( MOESLUND;

GRANUM , 2001), ( GAVRILA , 1999). Dessa forma, não se pretende propor aqui uma taxonomia, e sim apresentar a proposta de Hu et al. (2004), e posteriormente propor uma simples adapta¸cão da mesma, que se entende ser mais clara e compreens´ıvel, dados os trabalhos encontrados na literatura. Não se tem como objetivo classificar uma série de abordagens encontradas, e sim fornecer um panorama geral, de modo que se possa situar com facilidade o presente trabalho dentre as principais propostas existentes.

E importante salientar que as taxonomias podem ser constru´ıdas levando-se em consi- ´ dera¸cão muitos critérios, como dimensão da representa¸cão (2D × 3D), número de sensores (monocular × estéreo), disposi¸cão dos sensores (centralizados × distribu´ıdos), mobilidade dos sensores (estáticos × móveis), entre outras ( GAVRILA , 1999). A taxonomia apresentada baseia-se no tipo de representa¸cão utilizada para descrever os alvos, o que se ajusta perfeita- mente ao escopo do presente trabalho. Além da taxonomia mencionada, descrita na Se¸cão 2.1, ainda neste cap´ıtulo serão apresentadas na Se¸cão 2.2 propostas de interesse que apresentam abordagens relevantes ao rastreamento visual.

2.1 Taxonomia

Na taxonomia adotada, apresentada por Hu et al. (2004) e mostrada na Figura 2.1, os autores prop˜oem-se a dividir as abordagens que tratam o rastreamento visual, de acordo com o tipo de representa¸c˜ao utilizada para descrever os alvos, em quatro classes: baseadas em regi˜ ao, baseadas em contorno, baseadas em caracter´ısticas (features) e baseadas em modelo.

A primeira delas engloba os m´etodos que representam os alvos como regi˜oes nas imagens. Estes

(27)

2.1 Taxonomia 9 métodos são freqüentemente denominados na literatura como rastreadores de regiões (blob trackers). Na categoria das técnicas baseadas em contorno, os métodos descrevem os alvos de interesse por uma aproxima¸cão da forma de suas proje¸cões no plano da imagem. Já os métodos baseados em caracter´ısticas modelam os alvos através de elementos com menos significado semântico, ou seja, centróides, áreas, segmentos de reta e curva, vértices (quinas e cantos), ou mesmo rela¸cões geométricas entre tais caracter´ısticas. Finalmente, as abordagens consideradas como sendo baseadas em modelo utilizam uma representa¸cão expl´ıcita e detalhada dos alvos.

Estas representa¸cões podem ser constru´ıdas tanto no espa¸co 2D, quanto no 3D, baseando-se na estrutura, nos contornos, em formas volumétricas, ou ainda na conjun¸cão destes modelos anteriores.

Rastreamento Visual

Baseadas em Regiões

Baseadas em Contornos

Baseadas em Características

Baseadas em Modelos

Figura 2.1: Taxonomia apresentada por Hu et al. (2004) que define as categorias de abor- dagens para o rastreamento visual de acordo com a representa¸c˜ao utilizada.

Neste momento ´e importante salientar alguns pontos de conflito em tal taxonomia. Pri-

meiramente, a existência de uma classe de métodos baseados em modelo induz à suposi¸cão

de que as demais categorias n˜ao se baseiam em modelos dos alvos, no entanto, tal suposi¸c˜ao

n˜ao ´e confirmada. Como exemplo, pode-se citar o trabalho de Wren et al. (1997), inclu´ıdo na

classe das propostas baseadas em regiões. De fato, são utilizadas regiões para modelar os alvos

(pessoas) nas imagens, mas é estabelecida uma rela¸cão expl´ıcita entre a posi¸cão de cada região

que compõe um alvo (cabe¸ca, mãos, tronco, etc.), de tal modo que este trabalho é classificado

como baseado em modelo de forma em outras taxonomias ( MOESLUND; GRANUM , 2001), ( GA-

VRILA , 1999). Da mesma maneira, uma abordagem baseada em caracter´ısticas pode utilizar

uma defini¸c˜ao expl´ıcita da posi¸c˜ao relativa em que se espera encontrar tais caracter´ısticas nos

alvos, configurando assim um modelo de forma do mesmo. Apesar da controv´ersia apontada,

a taxonomia fornece um bom panorama dos tipos de representa¸c˜oes dos alvos encontrados na

(28)

literatura.

Pelos motivos acima expostos optou-se por realizar uma adapta¸cão da classifica¸cão apre- sentada anteriormente, baseada na taxonomia proposta por Gavrila (1999). Neste trabalho, mesmo sem fornecer uma descri¸cão bem organizada dos tipos de representa¸cões existentes, o autor propõe uma classifica¸cão em que há uma separa¸cão clara entre abordagens que utilizam ou não modelos expl´ıcitos da forma dos alvos. Na adapta¸cão apresentada, mostrada na Figura 2.2, as abordagens são primeiramente definidas como livres ou baseadas em um modelo de forma dos alvos, para depois serem classificadas em categorias como as expostas por Hu et al.

(2004). Tal adapta¸cão não constitui de maneira alguma uma taxonomia absoluta, visto que são encontradas abordagens que associam mais de um tipo de representa¸cão; o objetivo aqui, como dito anteriormente é fornecer um panorama de alguns métodos existentes na literatura, visando facilitar a localiza¸cão do presente trabalho entre os mesmos.

Rastreamento Visual

Baseadas em Modelos

Livres de Modelos

Baseadas em Estruturas Baseadas em

Modelos 3D

Figura 2.2: Proposta de adapta¸c˜ao da taxonomia apresentada por Hu et al. (2004) feita com base na classifica¸c˜ao das abordagens sugerida por Gavrila (1999).

2.2 Trabalhos Relacionados

Como j´a mencionado, h´a uma grande quantidade de abordagens na literatura que tratam o

rastreamento de alvos em seqüências de imagens. Neste trabalho, como foi descrito na Se¸cão

1.2, tem-se como objetivo principal propor uma abordagem ´unica para o rastreamento visual de

alvos heterogêneos. Para tanto optou-se pela utiliza¸cão de uma representa¸cão livre de modelo

(29)

2.2 Trabalhos Relacionados 11 de forma dos alvos. Tendo em vista a taxonomia baseada na representa¸cão dos alvos para classifica¸cão dos métodos encontrados na literatura, mostrada na Figura 2.2, são considerados três tipos de representa¸cões livres de modelo de forma: baseadas em regiões, baseadas em contornos e basedas em caracter´ısticas.

No primeiro tipo citado os alvos são representados por regiões no plano das imagens, sendo que o modelo de observa¸cão extrai informa¸cões dos pixels componentes destas regiões para execu¸cão do rastreamento, como se pode observar em ( HARITAOGLU; HARWOOD; DAVIS , 1998), ( ISARD; MACCORMICK , 2001), ( MCKENNA et al. , 2000). Nas técnicas baseadas em con- tornos é constru´ıda uma representa¸cão aproximada das proje¸cões das bordas dos objetos nas imagens, sendo neste caso a observa¸cão dos alvos realizada usualmente através da extra¸cão de bordas de intensidade, textura e cor das imagens, como se encontra em ( NGUYEN; WORRING , 2000), ( KOLLER; WEBER; MALIK , 1994), ( PARAGIOS; DERICHE , 2000). Já nos métodos basedos em caracter´ısticas os alvos são representados por informa¸cões de baixo n´ıvel semântico, como pontos e retângulos envolventes, com cantos, retas e quinas extra´ıdos pelo modelo de ob- serva¸cão durante o rastreamento nas seqüências de imagens, tal como em ( JUNG; SUKHATME , 2005), ( POLANA; NELSON , 1994), ( JIN; FAVARO; SOATTO , 2001), ( SHI; TOMASI , 1994).

Apesar de apresentarem flexibilidade quanto à forma dos alvos de interesse, as aborda- gens que fazem uso de representa¸cões livres de modelos geralmente apresentam limita¸cões referentes ao tratamento de oclusões e à identifica¸cão única de cada alvo ao longo de uma seqüência de imagens. Solu¸cões eficazes de tais questões são freqüentemente encontradas entre as abordagens que utilizam representa¸cões baseadas em modelos de forma dos alvos e empregam estimadores Bayesianos para executar o rastreamento, ( MACCORMICK; BLAKE , 2000), ( MACCORMICK , 2000), ( TWEED; CALWAY , 2002), ( ISARD; BLAKE , 1998).

Dentre os trabalhos estudados e referidos acima, ser˜ao apresentados em detalhes a seguir

aqueles que apresentam atributos que v˜ao ao encontro aos objetivos j´a expostos. O trabalho

de Koller, Weber e Malik (1994) apresenta uma proposta para o rastreamento de ve´ıculos em

estradas. Devido `a dificuldade de determinar previamente todos os tipos de alvos pass´ıveis de

serem rastreados (caminh˜oes, carros, motos, etc.), e construir uma descri¸c˜ao para cada um

deles, uma representa¸c˜ao livre de modelo foi adotada. Os alvos s˜ao descritos por seus contor-

nos, constru´ıdos com o uso de B-splines ( BLAKE; ISARD , 1998). O processo de rastreamento ´e

iniciado com a segmenta¸cão dos alvos móveis através da técnica de subtra¸cão de fundo adap-

tativo, porque apesar das imagens serem captadas por uma cˆamera est´atica, posicionada sobre

a estrada, há uma varia¸cão periódica de ilumina¸cão já que o ambiente é externo. ´ E constru´ıda

ent˜ao o contorno aproximado de cada alvo segmentado, sendo estes rastreados na imagem

com a metodologia de predi¸cão-observa¸cão-filtragem, implementada com duas instâncias do

(30)

Filtro de Kalman para cada objeto móvel, uma para estima¸cão de movimento e outra para estima¸cão de forma. O modelo de observa¸cão extrai as bordas das proje¸cões dos alvos no plano da imagem e oclusões são tratadas através da modelagem geométrica da cena no espa¸co 3D, que é poss´ıvel porque a câmera é fixa, e em postura conhecida em rela¸cão à cena, como já mencionado.

Jung e Sukhatme (2005) propõem uma abordagem para o rastreamento de alvos móveis em ambiente externo. Nesse caso também não há um conhecimento prévio sobre os obje- tos de interesse que viabilize a constru¸cão de uma representa¸cão única da forma para cada alvo. Os mesmos podem ser pessoas ou qualquer tipo de ve´ıculo. A descri¸cão é baseada em caracter´ısticas, mais especificamente pontos que são agrupados e delimitados por um retângulo envolvente (bounding box). Neste trabalho o sensor óptico é móvel, posicionado em um robô móvel, por isso os alvos não são segmentados na inicializa¸cão do processo. O rastreamento é executado com o uso de uma instância do Filtro de Part´ıculas ( S¨ ARKK¨ A et al. , 2004) para cada alvo, sendo que conforme o número de alvos varia, tais instâncias são criadas ou eliminadas. O modelo de observa¸cão baseia-se no movimento captado em cada imagem da seqüência por diferencia¸cão entre dois quadros subseqüentes, sendo que o movimento da câmera (egomovimento do robô) é compensado com o algoritmo KLT (Kanade-Lucas-Tomasi) ( TOMASI; KANADE , 1991). Não há um tratamento expl´ıcito de oclusão e este problema não é suficientemente abordado.

Com o objetivo de seguir pessoas em um ambiente interno, usando uma câmera estática, MacCormick e Blake (2000) empregam uma solu¸cão baseada em modelo, que representa os alvos pelo contorno da cabe¸ca e ombros, constru´ıdo com B-splines. Não há segmenta¸cão dos alvos neste caso, sendo os mesmos perseguidos com o uso do algoritmo Condensation. O modelo de observa¸cão extrai as bordas de intensidade das proje¸cões dos alvos nas imagens utilizando linhas de medida anexadas à representa¸cão dos mesmos, que possibilitam a extra¸cão de bordas no espa¸co 1D, reduzindo o custo computacional do algoritmo. Há um rigoroso tratamento de oclusão, por meio de um princ´ıpio de exclusão probabil´ıstico, que torna robusta a identifica¸cão única de cada alvo ao longo de uma seqüência de quadros, no entanto o número de objetos reastreados deve ser fixo e conhecido previamente.

Isard e MacCormick (2001) tamb´em apresentam uma proposta para o monitoramento

da movimenta¸cão de pessoas em ambientes internos com uma câmera fixa. Os alvos são

representados por um cilindro no espa¸co 3D da cena, mas o modelo torna-se na realidade

uma regi˜ao el´ıptica quando projetado no plano da imagem, utilizando para isso informa¸c˜oes

geométricas do ambiente. Há uma fase de treinamento no processo onde as fun¸cões de

verossimilhan¸ca do fundo da imagem e dos alvos s˜ao aprendidas para uma determinada cena,

(31)

2.3 Considera¸c˜oes Finais 13 com base no resultado fornecido por filtros aplicados nas 3 bandas das imagens (Y, Cr, Cb).

Os objetos de interesse são rastreados pelo algoritmo Condensation, sendo que o modelo de observa¸cão utiliza uma grade sobre toda imagem para determinar as regiões com maior probabilidade de corresponderem aos alvos, em uma dada cena. Não há um tratamento de oclusão expl´ıcito e problemas quanto à identifica¸cão única dos alvos são relatados pelos autores, no entanto a abordagem é capaz de rastrear um número variável de alvos, e fornece uma metodologia para associa¸cão entre um modelo baseado em região e o algoritmo Condensation.

2.3 Considera¸c˜ oes Finais

As solu¸c˜oes apresentadas acima possuem atributos interessantes em rela¸c˜ao aos objetivos as-

sumidos neste trabalho. Koller, Weber e Malik (1994) e Jung e Sukhatme (2005) prop˜oem

abordagens livres de modelo, no entanto, no primeiro caso o tratamento de oclus˜oes fica con-

dicionado à modelagem geométrica da cena, o que gera restri¸cões quanto ao posicionamento

da câmera no ambiente, já no segundo trabalho este problema não é consideravelmente tra-

tado. Ambos também possibilitam que um número variável de alvos seja rastreado, bem como

a solu¸c˜ao de Isard e MacCormick (2001). O tratamento de oclus˜ao dado por MacCormick e

Blake (2000) ´e robusto e rigoroso, no entanto o n´umero de alvos deve ser estabelecido a priori e

a sua extensão para oclusão entre mais de dois alvos é complexa. Isard e MacCormick (2001)

utilizam uma representa¸c˜ao baseada em regi˜oes, o que torna o rastreamento mais robusto

em rela¸cão ao uso de contornos aproximados, mas não há um modelo único aprendido para

cada alvo, o que gera degrada¸cão do rastreamento em situa¸cões de oclusão. Tais solu¸cões

ser˜ao consideradas para elabora¸c˜ao da abordagem proposta no presente trabalho, de modo a

possibilitar o rastreamento eficiente de alvos com formas heterogˆeneas.

(32)

3 Abordagem Probabil´ıstica do Rastreamento Visual

O cenário básico de um problema de rastreamento é formado por um sensor, que fornece in- forma¸cões ruidosas do ambiente, e um alvo que descreve uma determinada trajetória ( S¨ ARKK¨ A et al. , 2004). No caso do rastreamento visual, é utilizado um sensor óptico, como uma câmera, como ilustrado na Figura 3.1, e as observa¸cões são imagens captadas do ambiente. Varia¸cões do caso básico podem ser criadas alterando-se o número de alvos, como mostrado na Figura 3.2, o número de sensores, ou as caracter´ısticas dos mesmos, como por exemplo sua mobili- dade. No caso do presente trabalho o problema em questão é o rastreamento visual de alvos com um sensor óptico fixo.

Sensor (câmera) Campo

de Visão

Alvo

Observação (imagem)

Trajetória do Alvo

Figura 3.1: Cenário básico: o sensor óptico produz uma observa¸cão do ambiente dentro de seu campo de visão, no qual o alvo de interesse descreve a trajetória indicada.

O rastreamento visual pode ser modelado como um processo de estima¸c˜ao, no qual os alvos sensoriados constituem um sistema dinˆamico, ou seja, que se altera ao longo do tempo.

O estado do sistema, que corresponde à localiza¸cão dos alvos na cena, é representado por n

_x

parâmetros que o definem unicamente em um instante t ∈ R; e pela descri¸cão da evolu¸cão

destes parˆametros ao longo do tempo ( MACCORMICK , 2000), ( BLAKE; ISARD , 1998). As incer-

tezas inerentes a aplica¸cões reais, geradas por imperfei¸cões no próprio modelo matemático do

sistema dinâmico, por ru´ıdos e por imprecisões nas observa¸cões sensoriais, devem ser conside-

(33)

Abordagem Probabil´ıstica do Rastreamento Visual 15

Sensor (câmera) Campo

de Visão

Alvo 1

Observação (imagem)

Trajetória do Alvo 1 Alvo 2

Trajetória do Alvo 2

Figura 3.2: Cenário com alvos heterogêneos: dois alvos com formas distintas descrevem trajetórias no ambiente enquanto observa¸cões são realizadas pelo sensor óptico.

radas na estima¸cão. Existem várias formas de modelar tais incertezas ( GOLDENSTEIN , 2004), dentre elas provavelmente a mais difundida e fundamentada seja a abordagem probabil´ıstica ( S¨ ARKK¨ A et al. , 2004),( BAR-SHALOM; LI; KIRUBARAJAN , 2001), por apresentar bons resultados práticos. Nessa abordagem os parâmetros que definem o sistema são agrupados em uma variável aleatória multidimensional ~x, denominada como vetor de estado do sistema. Dada a natureza dinâmica do sistema, o vetor de estado em um determinado instante k é dado por

~x

_k

, onde k ∈ Z é a representa¸cão discreta do tempo, tal que t = k.∆T , sendo t ∈ R o tempo cont´ınuo. A evolu¸cão do vetor de estado do sistema ao longo do tempo é dada por

~x

_k

= f

_k−1

(~x

_k−1

, ~ w

_k−1

), (3.1) onde a fun¸c˜ao f

_k−1

: R

ⁿ^x

× R

ⁿ^w

→ R

ⁿ^x

representa o modelo de movimento do sistema, a dimens˜ao do vetor de estado ~x ´e dada por n

x

e n

w

´e a dimens˜ao do vetor w ~ que representa o ru´ıdo independente e identicamente distribu´ıdo (i.i.d.) do modelo. Como muitos sistemas po- dem ser considerados processos de Markov de ordem um, nos quais o estado seguinte depende apenas do estado imediatamente anterior, os vetores ~x

_i

, com i = 0, ..., k − 2, correspondentes aos estados anteriores, não são considerados no modelo de evolu¸cão do vetor de estado.

O objetivo do rastreamento é estimar o estado de um sistema, em um determinado ins- tante k, utilizando para isso o modelo de movimento mostrado na Equa¸cão 3.1 e observa¸cões indiretas dos parâmetros que compõem o estado, fornecidas usualmente por sensores. Uma observa¸cão indireta ~z

_k

do estado do sistema ´e dada por

~z

_k

= h

_k

(~x

_k

, ~v

_k

), (3.2)

onde a fun¸c˜ao h

k

: R

ⁿ^x

× R

ⁿ^v

→ R

ⁿ^z

representa o modelo de observa¸c˜ao do sistema, a

(34)

dimensão do vetor de observa¸cão ~z é dada por n

_z

e n

_v

é a dimensão do vetor ~v que representa o ru´ıdo i.i.d. da observa¸cão. Como uma observa¸cão é realizada a cada instante k, tem-se o histórico de observa¸cões do instante 1 até o instante k, definido como o conjunto I

_1:k

, {~z

1

, ..., ~z

k

}. Neste ponto é válido fazer distin¸cão entre três problemas gerais de estima¸cão, definidos de acordo com a rela¸cão entre o instante k no qual se deseja realizar a estima¸cão, e os instantes inicial e final que definem o conjunto das observa¸cões utilizadas, denotados abaixo por i e j, respectivamente ( GELB et al. , 1974):

• Predi¸c˜ ao onde s˜ao usadas apenas observa¸c˜oes anteriores ao instante k: i ≤ j < k;

• Filtragem onde são usadas apenas observa¸cões até o instante k (inclusive): i ≤ j = k;

• Suaviza¸c˜ ao onde s˜ao usadas observa¸c˜oes anteriores ou posteriores ao instante k: i ≤ k ≤ j.

Como o vetor de estado ~x

k

e o vetor de observa¸c˜oes ~z

k

são variáveis aleatórias, os mesmos podem ser representados por fun¸cões densidade de probabilidade (pdf) possibilitando o em- prego da estima¸cão recursiva Bayesiana, que constitui um arcabou¸co confiável para combina¸cão do modelo de movimento do sistema com seu modelo de observa¸cão. A estima¸cão Bayesiana em um instante k permite a utiliza¸cão de toda informa¸cão dispon´ıvel até este instante: todas as observa¸cões até k e o conhecimento anterior sobre o estado. Com essas informa¸cões, repre- sentadas pelo histórico de observa¸cões I

_1:k

= {~z

₁

, ..., ~z

_k

}, e pela distribui¸c˜ao de probabilidade do estado anterior p(~x

_k−1

|I

_1:k−1

), sendo esta última no instante inicial igual à distribui¸cão de probabilidade a priori do sistema p( x ~

0

), deseja-se calcular a distribui¸c˜ao a posteriori de ~x

k

: p(~x

_k

|I

_1:k

).

Para isso a Regra de Bayes pode ser aplicada, de modo que p(~x

_k

|I

_1:k

) = p(~x

_k

|~z

_k

, I

_1:k−1

)

= R p(~z

_k

|~x

_k

, I

_1:k−1

)p(~x

_k

|I

_1:k−1

)

p(~z

_k

|~x

_k

, I

_1:k−1

)p(~x

_k

|I

_1:k−1

)d

_~x_k

(3.3)

= 1

c p(~z

k

|~x

k

, I

1:k−1

)p(~x

k

|I

1:k−1

),

onde c é uma constante normalizadora. Com a aplica¸cão da equa¸cão de Chapman-Kolmogorov, que é uma conseqüência imediata do teorema da probabilidade total ( BAR-SHALOM; LI; KIRU- BARAJAN , 2001), tem-se que:

p(~x

_k

|I

_1:k−1

) = Z

p(~x

_k

|~x

_k−1

, I

_1:k−1

)p(~x

_k−1

|I

_1:k−1

)d

_~x_k−1

. (3.4)

(35)

3.1 Filtros Probabil´ısticos Aplicados ao Rastreamento Visual 17 O sistema dado pela Equa¸c˜ao 3.1 foi assumido como um processo de Markov de ordem um, tem-se ( BAR-SHALOM; LI; KIRUBARAJAN , 2001):

p(~x

_k

|I

_1:k

) = 1

c p(~z

_k

|~x

_k

, I

_1:k−1

) Z

p(~x

_k

|~x

_k−1

, I

_1:k−1

)p(~x

_k−1

|I

_1:k−1

)d

_~x_k−1

= 1

c p(~z

_k

|~x

_k

) Z

p(~x

_k

|~x

_k−1

)p(~x

_k−1

|I

_1:k−1

)d

_~x_k−1

, (3.5) onde a fun¸c˜ao de verossimilhan¸ca p(~z

_k

|~x

_k

) ´e definida pelo modelo de observa¸c˜ao h

_k

(.) na Equa¸c˜ao 3.2, a evolu¸c˜ao do estado p(~x

_k

|~x

_k−1

) ´e definida pelo modelo de movimento f

_k−1

(.) na Equa¸c˜ao 3.1, e p(~x

_k−1

|I

_1:k−1

) representa a distribui¸c˜ao a posteriori do estado anterior, ou sim- plesmente a distribui¸c˜ao a priori p( x ~

0

) no primeiro passo do processo de estima¸cão. Percebe-se claramente a caracter´ıstica recursiva do estimador Bayesiano, que é usualmente dividido em duas etapas: predi¸c˜ ao, quando o próximo estado é estimado p(~x

_k

|I

_1:k−1

); e filtragem quando a observa¸cão é incorporada na estimati¸cão através da verossimilhan¸ca p(~z

_k

|~x

_k

).

Existe uma série de estimadores que resolvem a equa¸cão recursiva Bayesiana 3.5, cada um deles usando diferentes suposi¸cões. O Filtro de Kalman ( GELB et al. , 1974), supondo as fun¸cões f

_k−1

(.) e h

_k

(.) como lineares, e distribui¸cões de probabilidade Gaussianas, fornece uma solu¸cão anal´ıtica fechada da equa¸cão. O Filtro de Kalman Estendido ( GELB et al. , 1974) é capaz de lidar com fun¸cões f

_k−1

(.) e h

_k

(.) não-lineares, mas ainda exige distribui¸cões Gaussianas. Já o Condensation ( BLAKE; ISARD , 1998) (Filtro de Part´ıculas), permite tanto que as fun¸cões sejam não-lineares, quanto que as distribui¸cões de probabilidade envolvidas no processo se- jam não-Gaussianas. Na próxima se¸cão serão apresentados os estimadores Bayesianos mais freqüentemente usados no rastreamento visual.