Classificação automática do estado do trânsito baseada em contexto global

(1)

Universidade Federal da Bahia

Escola Polit´

ecnica / Instituto de Matem´

atica

Programa de P´

os-Gradua¸c˜

ao em Mecatrˆ

onica

ANDREWS CORDOLINO SOBRAL

CLASSIFICAC

¸ ˜

AO AUTOM ´

ATICA DO

ESTADO DO TR ˆ

ANSITO BASEADA EM

CONTEXTO GLOBAL

Salvador

Dezembro de 2012

(2)

ANDREWS CORDOLINO SOBRAL

CLASSIFICAC

¸ ˜

AO AUTOM ´

ATICA DO ESTADO DO TR ˆ

ANSITO

BASEADA EM CONTEXTO GLOBAL

Disserta¸cão apresentada ao Programa de Pós-Gradua¸cão em Mecatrônica da Universidade Federal da Bahia como re-quisito para obten¸cão do grau de Mestre em Mecatrônica.

Orientador: Dr. Leizer Schnitman

Co-orientador: Dr. Luciano Rebou¸cas de Oliveira

Salvador

Dezembro de 2012

(3)

S677 Sobral, Andrews

Classificação automática do estado do trânsito baseada em contexto global / Andrews Sobral. – Salvador, 2012.

94 f. : il. color.

Orientador: Leizer Schnitman. Coorientador: Luciano Oliveira.

Dissertação (mestrado) – Universidade Federal da Bahia. Escola Politécnica, 2012.

1. Levantamentos de trânsito. 2. Trânsito - Controle eletrônico. 3. Redes neurais (computação). I. Schnitman, Leizer. II. Oliveira, Luciano. III. Universidade Federal da Bahia. IV. Título.

(4)

(5)

AGRADECIMENTOS

Em primeiro lugar agrade¸co aos meus pais, Ruivaldo Regis Sobral e Vera L´ucia de Santana Cordolino, pois sem eles eu n˜ao estaria no mundo. Sem o cuidado e carinho que me deram,

eu n˜ao teria chegado onde estou, e sei que ainda posso contar com a amizade deles por muito tempo. Agrade¸co ao meu orientador, Leizer Schnitman, pelo seu empenho

e dedica¸cão. Ao meu co-orientador, Luciano Rebou¸cas de Oliveira, pelo incentivo e colabora¸cão. Agrade¸co a Caroline Pacheco, pelo carinho, amor e compreensão, que foram

tão importantes para a conclusão deste trabalho. A todos os meus colegas, que de alguma maneira tiveram a inten¸cão de contribuir para a conclusão deste trabalho. Em especial

para os meus colegas Vitor Le˜ao Filardi e Jos´e Grimaldo.

(6)

”A ciência não pode prever o que vai acontecer. Só pode prever a probabilidade de algo acontecer.” —CÉSAR LATTES

(7)

RESUMO

Atualmente, sistemas inteligentes utilizados para monitora¸cão de tráfego urbano têm sido adotados com maior frequência. As solu¸cões tradicionais produzem estat´ısticas através

da deteçcão e contagem individual de ve´ıculos presentes no trânsito. Porém, estes siste-mas comumente falham, especialmente em cenas que possuem uma grande quantidade de

ve´ıculos em movimento (e.g. alto congestionamento) por conta do aumento da oclusão entre os ve´ıculos. Muitas vezes a oclusão acaba prejudicando a predi¸cão exata da

quan-tidade de ve´ıculos presentes na cena e a correta identifica¸cão do real estado do trânsito. Métodos alternativos analisam o v´ıdeo de forma global considerando o trânsito como

uma ´unica entidade – nuvem ou aglomerado de ve´ıculos que possuem um comportamento ´

unico. Através da análise do comportamento da nuvem de ve´ıculos, os métodos baseados

em contexto global procuram extrair informa¸cões relevantes tais como a densidade, velo-cidade, localiza¸cão e sentido dos ve´ıculos presentes na cena, favorecendo a identifica¸cão

do real estado do trânsito. Considerando esta abordagem, o presente trabalho propõe um método para classifica¸cão do estado do trânsito. Para determinar o estado do trânsito,

optou-se por utilizar duas propriedades para classificar o trânsito em três n´ıveis de con-gestionamento: baixo, médio e alto. Tais propriedades são representadas pela densidade

média da nuvem de ve´ıculos e sua respectiva velocidade média. Estas duas propriedades são combinadas em um vetor de caracter´ısticas que foi utilizado para compor o conjunto

de treinamento. Os resultados experimentais demonstram uma taxa de acerto de 94,5% em um conjunto de 254 v´ıdeos de trˆansito utilizando redes neurais artificiais.

Palavras-chave: V´ıdeo Análise, Classifica¸cão do Trânsito, RNA

(8)

ABSTRACT

Intelligent vision systems for urban traffic surveillance have been frequently adopted. The traditional approaches are based on detection and counting of individual vehicles

to perform traffic analysis. However, traditional approaches commonly fail, especially, on crowded situations (e.g. high traffic congestion) due to the large occlusion of moving

objects, causing error on the vehicle counting and traffic analysis. Global approaches evaluate the crowd as an individual entity. Some properties can be extracted from crowds

behavior analysis like crowd flows, density, speed, localization and direction. This work proposes a method for highway traffic video classification based on global approach. The

method uses two crowd properties and classify the traffic congestion into three classes: light, medium and heavy. These properties are based on average crowd density and

average crowd speed. In this work, we chose to combine these two properties in a feature vector that is used to compose the training set. Experimental results show 94.50% of

accuracy on 254 highway traffic videos using artificial neural networks.

(9)

LISTA DE FIGURAS

2.1 Exemplos de trabalhos baseados na abordagem local. . . 6 2.2 Diagrama de blocos de um sistema de an´alise de v´ıdeo baseado na

abor-dagem bottom-up. . . 7 2.3 Diagrama de blocos de um sistema de an´alise de v´ıdeo baseado na

abor-dagem top-down. . . 8 2.4 Exemplo de aglomera¸c˜oes de ve´ıculos. . . 9 2.5 Diagrama de blocos de um sistema t´ıpico para an´alise de comportamento

de aglomerados. . . 11 2.6 Exemplos de trabalhos baseados na abordagem hol´ıstica. . . 14 2.7 Diagrama de blocos do processo de subtra¸cão de fundo. . . 15 2.8 Exemplos de situa¸cões onde o processo de subtra¸cão de fundo pode falhar. 18 2.9 Exemplo de aprendizado adaptativo na cria¸cão do modelo de plano de fundo. 20 2.10 Determina¸cão da máscara de primeiro plano. . . 21 2.11 Exemplo de uma imagem de entrada e a imagem LBP correspondente. . 24 2.12 Formas de representa¸cão do objeto. (a) Centroide, (b) múltiplos pontos,

(c) forma retangular, (d) forma el´ıptica, (e) partes articuladas, (f) esque-leto, (g) pontos do contorno, (h) borda e (i) silhueta. Fonte: Yilmaz et al. (2006) . . . 29 2.13 Ilustra¸c˜ao do campo de movimento obtido por fluxo ´otico. Fonte: Catalano

et al. (2009) . . . 30

3.1 Diagrama de bloco do sistema proposto. . . 33 3.2 Defini¸cão da região de interesse em uma área com maior concentra¸cão de

movimento. . . 34 3.3 Resultado da segmenta¸cão dos ve´ıculos com o trânsito em três estados

distintos conforme anota¸cões da base de v´ıdeos UCSD. . . 36 3.4 Máscaras de primeiro plano de três v´ıdeos com o trânsito em três estados

distintos conforme anota¸cões da base de v´ıdeos UCSD. . . 37 3.5 Varia¸cão da densidade de ve´ıculos em três v´ıdeos com o trânsito em três

estados distintos conforme anota¸cões da base de v´ıdeos UCSD. . . 38 3.6 Falha na segmenta¸cão dos ve´ıculos em um trânsito com alto

congestiona-mento produzindo uma estima¸cão incorreta da densidade de ve´ıculos. . . 38 3.7 Ilustra¸cão do processo de rastreamento utilizando o método KLT. . . 39 3.8 Ilustra¸cão do movimento de um ponto de interesse entre dois quadros

con-secutivos e seu respectivo deslocamento. . . 40 3.9 Varia¸cão da velocidade da nuvem de ve´ıculos em três v´ıdeos de trânsito

com estados distintos conforme anota¸c˜oes da base de v´ıdeos UCSD. . . . 41

(10)

3.10 Caracter´ısticas extra´ıdas da nuvem de ve´ıculos em três v´ıdeos de trânsito com estados distintos conforme anota¸cões da base de v´ıdeos UCSD. . . . 42

4.1 Amostras de quadros dos v´ıdeos da base ChangeDetection e suas respecti-vas m´ascaras de primeiro plano. . . 46

5.1 Amostras de quadros dos v´ıdeos da base de v´ıdeos UCSD. . . 52 5.2 Normaliza¸cão das caracter´ısticas extra´ıdas da base UCSD. . . 53 5.3 Ilustra¸cão dos conjuntos utilizados para avalia¸cão dos classificadores. . . 54 5.4 Conjuntos utilizados para treinamento (esquerda) e teste (direita). . . 55 5.5 Matrizes de confusão do classificador K-NN relativas a cada um dos

con-juntos de teste. . . 57 5.6 Superf´ıcies de decis˜ao geradas pelo classificador K-NN utilizando os

con-juntos de treinamento A, B, C e D. . . 58 5.7 Matrizes de confus˜ao do classificador NBC relativas a cada um dos

con-juntos de teste. . . 59 5.8 Superf´ıcies de decis˜ao geradas pelo classificador NBC utilizando os

conjun-tos de treinamento A, B, C e D. . . 60 5.9 Matrizes de confus˜ao do classificador MLP relativas a cada um dos

con-juntos de teste. . . 62 5.10 Superf´ıcies de decis˜ao geradas pelo classificador MLP utilizando os

con-juntos de treinamento A, B, C e D. . . 63 5.11 Matrizes de confus˜ao do classificador SVM. . . 65 5.12 Superf´ıcies de decis˜ao geradas pelo classificador SVM utilizando os

con-juntos de treinamento A, B, C e D. . . 66

6.1 Matrizes de confusão referente ao sistema proposto (a) e aos trabalhos de Chan e Vasconcelos (2005) (b) e Derpanis e Wildes (2011) (c). . . 68 6.2 Normaliza¸cão das caracter´ısticas extra´ıdas da base UCSD. . . 69 6.3 Exemplo de quadros de v´ıdeos que possuem padrões similares, porém

r´otulos distintos. . . 71 6.4 Quadros de v´ıdeos que foram classificados erroneamente. . . 72

(11)

LISTA DE TABELAS

3.1 Rela¸cão dos métodos de subtra¸cão de fundo avaliados neste trabalho. . . 35

4.1 Rela¸cão de métricas utilizadas para avaliar o desempenho dos algoritmos de subtra¸cão de fundo. . . 47

4.2 Desempenho dos algoritmos de subtra¸c˜ao na categoria linha de base. . . . 48

4.3 Desempenho dos algoritmos de subtra¸c˜ao na categoria cˆamera oscilante. . 48

4.4 Desempenho dos algoritmos de subtra¸c˜ao na categoria plano de fundo dinˆamico. . . 48

4.5 Desempenho dos algoritmos de subtra¸c˜ao na categoria de movimento de objetos intermitentes. . . 49

4.6 Desempenho dos algoritmos de subtra¸c˜ao na categoria sombra. . . 49

4.7 Desempenho geral dos algoritmos de subtra¸c˜ao de fundo. . . 50

5.1 Sum´ario da base de v´ıdeos UCSD. . . 52

5.2 Resultados obtidos pelo classificador K-NN nos conjuntos A, B, C e D variando o n´umero de vizinhos mais pr´oximos. . . 57

5.3 Resultados obtidos pelo classificador NBC. . . 59

5.4 Resultados obtidos pelo classificador MLP variando o algoritmo de trei-namento (TA), fun¸cão de ativa¸cão (AF) e a quantidade de neurônios na camada oculta (HN). . . 62

5.5 Fun¸c˜oes de kernel utilizadas neste trabalho. . . 64

5.6 Resultados obtidos pelo classificador SVM variando o k-fold e a fun¸c˜ao de kernel. . . 65

(12)

LISTA DE ABREVIATURAS

ARMA Autoregressive Moving Average - Modelo auto-regressivo de m´edia m´ovel

DCT Discrete Cosine Transform - Transformada Discreta do Cosseno

FPS Frames per Second - Quadros por segundo

HMM-GM Gaussian Mixture Hidden Markov Models

HOG Histogram of Oriented Gradients - Histograma de Gradientes Orientados

KL Kullback-Leibler

KLT Kanade-Lucas-Tomasi

K-NN K-Nearest Neighbor - K-Vizinhos mais pr´oximo

ML Maximum Likelihood - M´aximo de Verossimilhan¸ca

MLP Multi-Layer Perceptrons

MPEG Moving Picture Experts Group

NBC Naive Bayes Classifier

PBAS Pixel-Based Adaptive Segmenter

RGB Red Green Blue - Vermelho Verde Azul

ROI Region of Interest - Regi˜ao de Interesse

SIFT Scale-Invariant Feature Transform

SURF Speeded Up Robust Feature

SOM Self-Organization Maps - Mapa auto-organiz´avel

(13)

SUM ´

ARIO

Cap´ıtulo 1—Introdu¸cão 1 1.1 Objetivo . . . 3 1.1.1 Objetivos Espec´ıficos . . . 3 1.2 Publica¸cões . . . 4 1.3 Organiza¸cão do Texto . . . 4

Cap´ıtulo 2—Estado da Arte 5 2.1 Métodos de Análise de Tráfego . . . 5

2.1.1 Abordagem Local . . . 5

2.1.1.1 Abordagem Bottom-Up . . . 7

2.1.1.2 Abordagem Top-Down . . . 8

2.1.2 Abordagem Global . . . 9

2.2 Segmenta¸c˜ao de Objetos em Movimento . . . 15

2.2.1 Desafios na Segmenta¸c˜ao de Movimento . . . 15

2.2.2 Processo de Subtra¸c˜ao de Fundo . . . 19

2.2.2.1 M´etodos Estat´ısticos . . . 25

2.2.2.2 M´etodos Fuzzy . . . 25

2.2.2.3 M´etodos Neurais . . . 26

2.3 Rastreamento de Objetos em Movimento . . . 26

2.3.1 Representa¸c˜ao de Objetos . . . 28

2.3.2 Rastreamento por Fluxo ´Otico . . . 29

Cap´ıtulo 3—Classifica¸cão do Estado do Trânsito 32 3.1 Introdu¸cão . . . 32

3.2 Defini¸c˜ao da Regi˜ao de Interesse . . . 34

3.3 Segmenta¸c˜ao da Nuvem de Ve´ıculos . . . 34

3.3.1 Estima¸c˜ao da Densidade de Ve´ıculos . . . 36

3.4 Rastreamento da Nuvem de Ve´ıculos . . . 37

3.4.1 Estima¸c˜ao da Velocidade da Nuvem de Ve´ıculos . . . 40

3.5 Processo de Extra¸c˜ao de Caracter´ısticas e Classifica¸c˜ao . . . 41

3.6 Crit´erios e Limita¸c˜oes do Sistema Proposto . . . 44

Cap´ıtulo 4—Avalia¸c˜ao dos Algoritmos de Subtra¸c˜ao de Fundo 45 4.1 Base de Dados . . . 45

4.2 Metodologia . . . 47

(14)

Cap´ıtulo 5—Avalia¸cão dos Algoritmos de Classifica¸cão 51 5.1 Base de Dados . . . 51 5.2 Metodologia . . . 53 5.2.1 Avalia¸cão do Classificador K-NN . . . 56 5.2.2 Avalia¸cão do Classificador NBC . . . 59 5.2.3 Avalia¸cão do Classificador MLP . . . 61 5.2.4 Avalia¸cão do Classificador SVM . . . 64

Cap´ıtulo 6—Resultados e Considera¸c˜oes Finais 68 6.1 Avalia¸c˜ao dos Resultados . . . 68

6.2 Conclus˜oes . . . 73

(15)

CAP´ITULO 1

INTRODUC

¸ ˜

AO

Sistemas de v´ıdeo para monitoramento de tr´afego urbano tˆem sido adotados, cada

vez mais, com maior frequˆencia. Entretanto, muitos destes sistemas s˜ao operados por humanos, os quais comumente possuem dificuldade em trabalhar por longos per´ıodos de

tempo observando as imagens capturadas do trˆansito. Por esta raz˜ao, o desenvolvimento de sistemas inteligentes e automatizados para realizar este tipo de tarefa tem sido cada

vez mais incentivado. Através da análise do v´ıdeo, podem-se obter muitas informa¸cões relevantes tais como a velocidade do tráfego em geral, o n´ıvel de ocupa¸cão da faixa e a

velocidade m´edia de carros por faixa, al´em da capacidade de rastrear e contabilizar os ve´ıculos individualmente (BUCH et al., 2011;VALERA; VELASTIN, 2005;KASTRINAKI et al., 2003).

Segundo uma pesquisa publicada por Jerˆonimo (2010) e realizada pela Associa¸c˜ao

Brasileira de Educa¸cão de Trânsito (ABETRAN), baseada nas informa¸cões adquiridas pelo Departamento Estadual de Trânsito de São Paulo (DETRAN-SP), em Janeiro de

2000 a frota registrada era de 3,91 milhões de automóveis e em Janeiro de 2010 aumentou para 4,97 milhões, ou seja, um aumento de 27%. Porém um estudo realizado pelo

Movi-mento Viva Nossa São Paulo, baseado nas informa¸cões da Companhia de Engenharia de Tráfego (CET), indica que a média do pico do congestionamento entre manhã e tarde era

de 20 km em 2000, tendo saltado para 98 km em 2010, o que significa um aumento de 490%. Deve-se também considerar que estes percentuais não são exatos porque a frota

quantificada foi a de autom´oveis e o congestionamento ´e composto por todos os tipos de ve´ıculos automotores.

Empresas como a Traficon (TRAFICON, 2012), Vysionics (VYSIONICS, 2012), Ipso-tek (IPSOTEK, 2012), Autonomy Virage (VIRAGE, 2012) e ObjectVideo (OBJECTVIDEO, 2012) oferecem solu¸c˜oes baseadas em processamento de v´ıdeo capazes de auxiliar a gest˜ao

(16)

do tráfego urbano oferecendo sistemas que realizam deteçcão e contagem de ve´ıculos e

pedestres, reconhecimento de placas e acidentes, alerta de ve´ıculos parados ou em sentido contrário, estimativas em rela¸cão a velocidade média e taxa de ocupa¸cão dos ve´ıculos nas

vias, entre outras. No Brasil, empresas como a InviSys (INVISYS, 2012) e Digifort ( DIGI-FORT, 2012) oferecem sistemas similares. A maioria destes sistemas utiliza um conjunto de ferramentas para a segmenta¸cão, classifica¸cão e rastreamento de objetos. Inicialmente o ve´ıculo é segmentado através da remo¸cão do plano de fundo e, em seguida, seu

mo-vimento é rastreado. Em alguns sistemas, antes da etapa de rastreamento, é realizada uma valida¸cão ou classifica¸cão para identificar o tipo do ve´ıculo em questão. Portanto,

muitos destes sistemas possuem uma desvantagem, pois sua precisão depende da quali-dade da deteçcão dos ve´ıculos. A presen¸ca de condi¸cões ambientais adversas tais como

ilumina¸cão (tempo nublado, ensolarado ou à noite), sombras, perda de foco, imagens de baixa resolu¸cão e aglomera¸cões de ve´ıculos (e.g. cenas de congestionamentos), são alguns

dos principais fatores que interferem na precis˜ao destes sistemas (CHAN; VASCONCELOS, 2005).

Como pode ser visto em Buch et al. (2011), Valera e Velastin (2005) e Kastrinaki et al. (2003), na literatura são encontrados inúmeros trabalhos relacionados à análise de

imagens e v´ıdeos de trˆansitos. Para um melhor entendimento, neste trabalho optou-se por agrupar estes diversos trabalhos em duas abordagens denominadas local e global.

A maioria dos sistemas tradicionais são baseados na abordagem local, produzindo es-tat´ısticas através da deteçcão e contagem individual dos ve´ıculos presentes no trânsito.

Entretanto, estes sistemas comumente falham, especialmente, em cenas de alto conges-tionamentos por conta do aumento da oclus˜ao entre os ve´ıculos, prejudicando assim a

predi¸cão correta da quantidade de ve´ıculos presentes na cena e a correta identifica¸cão do real estado do trânsito. Métodos alternativos analisam o v´ıdeo de forma global

con-siderando o trânsito como uma única entidade – nuvem ou aglomerado de ve´ıculos que possuem um comportamento único. Através da análise do comportamento da nuvem de

ve´ıculos, os métodos globais procuram extrair informa¸cões relevantes tais como a den-sidade, velocidade, localiza¸cão e sentido dos ve´ıculos presentes na cena, favorecendo a

(17)

identifica¸c˜ao do real estado do trˆansito.

Este trabalho propõe um método para classifica¸cão do estado do trânsito utilizando uma abordagem baseada em contexto global. Para determinar o estado do trânsito,

optou-se por utilizar duas propriedades para classificar o trânsito em três n´ıveis de con-gestionamento: baixo, médio e alto. Tais propriedades são representadas pela densidade

média da nuvem de ve´ıculos e sua respectiva velocidade média. Estas duas propriedades foram combinadas em um vetor de caracter´ısticas que é utilizado para compor o conjunto

de treinamento. Os resultados experimentais demonstram uma taxa de acerto de 94,5% em um conjunto de 254 v´ıdeos de trˆansito utilizando redes neurais artificiais.

Nas próximas se¸cões, são apresentados o objetivo geral deste trabalho e a orga-niza¸cão do texto.

1.1 OBJETIVO

Neste trabalho é proposto um método baseado em contexto global capaz de classi-ficar o estado do trânsito em três n´ıveis de congestionamento: baixo, médio e alto.

1.1.1 Objetivos Espec´ıficos

Os objetivos espec´ıficos deste trabalho s˜ao:

• Estudar as caracter´ısticas dos métodos tradicionais utilizados em análise de tráfego urbano.

• Desenvolver uma solu¸c˜ao alternativa utilizando uma abordagem baseada em con-texto global para as limita¸c˜oes dos modelos tradicionais.

• Realizar testes de desempenho e precis˜ao do novo m´etodo.

(18)

1.2 PUBLICAC¸ ˜OES

O presente trabalho foi aceito para publica¸c˜ao no 10th IASTED International

Conference on Signal Processing, Pattern Recognition and Applications (SPPRA) sob o t´ıtulo “Highway Traffic Congestion Classification Using Holistic Properties”(SOBRAL et al., 2013).

1.3 ORGANIZAC¸ ˜AO DO TEXTO

O texto est´a organizado da seguinte forma:

• No Cap´ıtulo 2 é realizada uma revisão da literatura abordando os principais métodos utilizados em processamento de imagens e v´ıdeos para análise de tráfego urbano;

• No Cap´ıtulo 3, o sistema proposto para classifica¸cão do estado do trânsito é deta-lhado;

• O Cap´ıtulo 4 apresenta os resultados da avalia¸c˜ao dos algoritmos de subtra¸c˜ao de fundo;

• No Cap´ıtulo 5 é realizada uma avalia¸cão dos algoritmos de classifica¸cão;

• Finalmente, o Cap´ıtulo 6 versa sobre os resultados obtidos e as considera¸c˜oes finais do presente trabalho.

(19)

CAP´ITULO 2

ESTADO DA ARTE

Neste cap´ıtulo é apresentada uma visão geral do estado da arte relacionando as ferramentas comumente utilizadas no processamento de imagens e v´ıdeos para análise de

tr´afego urbano.

2.1 MÉTODOS DE AN ÁLISE DE TR ÁFEGO

Nesta se¸cão são apresentados os elementos utilizados em sistemas de análise de

tr´afego. Estes elementos foram agrupados em duas abordagens denominadas: local e global.

2.1.1 Abordagem Local

Os m´etodos locais consistem basicamente no rastreamento e contabiliza¸c˜ao

indivi-dual dos ve´ıculos detectados para estimar a quantidade, densidade e fluxo do tráfego em uma determinada localidade. Segundo Buch et al. (2011), os métodos locais são

agru-pados em duas categorias conhecidas como top-down e bottom-up. As diferen¸cas entre estas duas categorias são detalhadas nas próximas se¸cões. Na Figura 2.1 são ilustrados

alguns sistemas baseados na abordagem local para deteçcão, contagem, rastreamento, classifica¸cão e estimativa de velocidade de ve´ıculos.

(20)

(a) Sistema da AgilityVideo (2012) para contagem de ve´ıculos.

(b) Sistema da VaxtorSystems (2012) para estimativa de velocidade de ve´ıculos.

(c) Sistema da I2V (2012) para contagem de ve´ıculos por classifica¸c˜ao.

(21)

Vídeo Extração de Características Classificação do Veículo Rastreamento do Veículo CAR CAR CAR CAR ...

Figura 2.2: Diagrama de blocos de um sistema de an´alise de v´ıdeo baseado na abordagem bottom-up.

2.1.1.1 Abordagem Bottom-Up .

Na abordagem bottom-up, primeiramente são aplicados métodos de extra¸cão de ca-racter´ısticas que identificam quais são as caracter´ısticas relevantes em uma imagem. Em

seguida, estas caracter´ısticas s˜ao utilizadas para treinar um algoritmo classificador para determinar quais e quantos objetos de interesse (e.g. ve´ıculos) est˜ao contidos na imagem.

Após a etapa de classifica¸cão, é realizado o rastreamento do(s) objeto(s) identificado(s). A Figura 2.2 representa o modelo descrito.

Diversos métodos de extra¸cão de caracter´ısticas foram desenvolvidos nos últimos anos. Os métodos comumente utilizados em trabalhos relacionados, não se restringindo

a esta lista, s˜ao: SIFT (Scale-Invariant Feature Transform) proposta por Lowe (1999), SURF (Speeded Up Robust Feature) de Bay et al. (2008), HOG (Histogram of Oriented

Gradients) de Dalal e Triggs (2005), Haar wavelet de Papageorgiou et al. (1998) e Haar-like de Viola e Jones (2001).

Alguns autores como Cheng e Chen (2011) realizaram a fus˜ao de informa¸c˜oes de borda e cor para detectar ve´ıculos em imagens. Lan e Zhang (2010) sugerem um novo

extrator de bordas para deteçcão de ve´ıculos em tempo real. Thi et al. (2008) utilizaram análise de componentes principais para detectar e classificar ve´ıculos em imagens

notur-nas. Acunzo et al. (2007) realizaram a detec¸c˜ao de ve´ıculos utilizando o histograma de intensidade dos pixels em diferentes contextos. Alefs (2006) utilizou HOG e Haar-like na

(22)

Vídeo Subtração de Fundo Classificação do Veículo Rastreamento do Veículo CAR CAR ... Modelo do plano de fundo CAR

Figura 2.3: Diagrama de blocos de um sistema de an´alise de v´ıdeo baseado na abordagem top-down.

2.1.1.2 Abordagem Top-Down .

Tipicamente, nos métodos pertencentes à categoria top-down, inicialmente é reali-zada uma estimativa do plano de fundo. Nesta etapa são utilizadas as primeiras imagens

ou quadros do v´ıdeo, preferencialmente contendo nenhum objeto em movimento. Em seguida, ap´os a etapa de aprendizado, as imagens consecutivas s˜ao comparadas com o

modelo estimado do plano de fundo. A diferen¸ca absoluta entre a imagem atual e o plano de fundo resulta em uma nova imagem onde os pixels n˜ao nulos1 _{representam as}

regiões onde se encontram os poss´ıveis objetos em movimento – denominada também de imagem de primeiro plano. Cada região é formada pelo agrupamento dos pixels não nulos

que possuem uma determinada distância entre si formando uma silhueta. O processo de classifica¸cão consiste em identificar qual rótulo está associado a uma região espec´ıfica,

permitindo assim realizar o rastreamento do objeto de interesse. A Figura 2.3 ilustra o modelo em quest˜ao.

Exemplos de sistemas que pertencem a esta categoria podem ser encontrados em Mithun et al. (2012), Lai et al. (2010), Buch et al. (2010), Monteiro et al. (2008), Morris e

Trivedi (2006), Hsieh et al. (2006). ´E importante ressaltar que nem todos os sistemas ba-seados na abordagem top-down utilizam estritamente todas as etapas descritas na Figura

2.3. Por exemplo, em JunFang et al. (2011) e Luo e Zhu (2010), os autores segmentam e contabilizam os ve´ıculos em uma rodovia sem a necessidade de classifica¸c˜ao.

(23)

2.1.2 Abordagem Global

As solu¸c˜oes tradicionais baseiam-se na identifica¸c˜ao e contagem individual de ve´ıculos,

calculando a quantidade de ve´ıculos em um determinado per´ıodo de tempo para estimar o volume de ve´ıculos e o estado do trânsito (BUCH et al., 2010). Porém, muitos destes sistemas falham na presen¸ca de uma grande quantidade de ve´ıculos em movimento, tal como acontece em um trânsito congestionado. A partir da Figura 2.4 é poss´ıvel perceber

que a deteçcão e o rastreamento de um ve´ıculo espec´ıfico em um aglomerado de ve´ıculos em movimento é muitas vezes dif´ıcil devido, por exemplo, a grande quantidade de oclusão

entre os ve´ıculos presentes na cena. Portanto, a precisão dos métodos tradicionais tendem a decrescer à medida que o tamanho do aglomerado de ve´ıculos aumenta (ZHAN et al., 2008; JUNIOR et al., 2010). Métodos alternativos para lidar com este tipo de problema fez surgir um novo campo de estudo denominado crowd analysis ou análise de aglomerados.

A análise do comportamento de aglomerados de objetos em movimento tais como pessoas ou ve´ıculos é um importante tópico de pesquisa no campo de visão

computacio-nal. Através deste estudo é poss´ıvel extrair muitas informa¸cões importantes que podem ser utilizadas em inúmeras aplica¸cões tais como:

Sistemas inteligentes A análise de aglomerados pode ser usada para auxiliar ou guiar alguém em um ambiente lotado de pessoas (e.g. museu). Outras aplica¸cões incluem

´

areas urbanas e nas vias de trˆansito orientando os ve´ıculos em uma rota alternativa evi-tando congestionamentos.

Vigilância A análise de aglomerados pode ser utilizada para detectar eventos sus-peitos e anomalias (e.g. brigas em uma multidão de pessoas ou acidentes). Também pode

(24)

ser utilizada para identificar ve´ıculos que realizam manobras indevidas no trˆansito (e.g.

ve´ıculos em sentido contrário) e deteçcão de congestionamentos.

Como descrito em Junior et al. (2010), existem duas abordagens para realizar a

análise de comportamento de aglomerados. A abordagem baseada em objetos procura inferir o comportamento do aglomerado através da análise de elementos individuais da

cena. Um exemplo t´ıpico ´e o rastreamento de alguns indiv´ıduos em particular dentro de uma multid˜ao com o objetivo de determinar o fluxo do movimento do aglomerado. Por

outro lado, a abordagem baseada em contexto global (ou hol´ıstica) trata o aglomerado como uma única entidade, não sendo necessário realizar a deteçcão e rastreamento de

cada indiv´ıduo. Muitas vezes ´e dif´ıcil rastrear um determinado indiv´ıduo em uma cena com uma grande quantidade de objetos em movimento (e.g. pessoas ou ve´ıculos).

Nes-tes casos, a abordagem global pode ser uma alternativa mais apropriada (JUNIOR et al., 2010). Os m´etodos globais procuram obter uma informa¸c˜ao geral da cena, tais como fluxo

principal do movimento, desprezando informa¸c˜oes locais (e.g. uma pessoa ou ve´ıculo se movendo pelo fluxo).

Os principais atributos utilizados na análise de comportamento de aglomerados são a densidade, velocidade, dire¸cão e localiza¸cão (SAXENA et al., 2008; ZHAN et al., 2008; JU-NIOR et al., 2010). Estas informa¸cões muitas vezes são extra´ıdas de forma automática utilizando técnicas de processamento digital de imagens e visão computacional.

In-forma¸cões vindas de especialistas também podem ser utilizadas para complementar o sistema. Os atributos são utilizados para criar um modelo do comportamento dinâmico

do aglomerado. Através deste modelo, um mecanismo de inferência é utilizado para de-tectar eventos, anomalias, divergências, entre outras caracter´ısticas associadas ao estado

do aglomerado. A Figura 2.5 ilustra o processo em quest˜ao.

Saxena et al. (2008), Zhan et al. (2008) e Junior et al. (2010) citam que muitas

vezes a densidade de um aglomerado pode ser obtida através do processo de subtra¸cão de fundo (JODOIN et al., 2012), dos vetores de fluxo ótico (IHADDADENE; DJERABA, 2008;

SANTORO et al., 2010;RYAN et al., 2011; HE; LIU, 2012) ou de caracter´ısticas extra´ıdas da textura (MA et al., 2010; RYAN et al., 2011), borda (SHIYAO et al., 2012) e no dom´ınio da

(25)

Figura 2.5: Diagrama de blocos de um sistema t´ıpico para an´alise de comportamento de aglomerados.

frequência (HSU et al., 2011). Alguns autores também utilizam métodos de fluxo ótico para determinar a dire¸cão e velocidade de um aglomerado de objetos em movimento (SANTORO et al., 2010;RYAN et al., 2011).

A densidade de um aglomerado também pode ser utilizada para estimar a quanti-dade de objetos (e.g. pessoas ou ve´ıculos) em uma multidão (ZHAN et al., 2008; JUNIOR et al., 2010). Em Ma et al. (2004) os autores estabelecem uma rela¸cão linear (após uma corre¸cão geométrica) entre a quantidade de pessoas de uma multidão com o número de

pixels presentes na máscara de primeiro plano obtida após a subtra¸cão de fundo. E´ assumido que uma certa quantidade de pixels é proporcional a uma quantidade de

pes-soas considerando que a oclus˜ao seja pequena. Em Chan e Vasconcelos (2009) e Chan e Vasconcelos (2012) os autores utilizam de 29 a 30 caracter´ısticas extra´ıdas de v´ıdeos

de aglomerado de pedestres para estimar a quantidade de pessoas que est˜ao presentes na cena.

Métodos globais utilizados para análise de tráfego podem ser encontrados em Porikli e Li (2004), Chan e Vasconcelos (2005), Lee e Bovik (2009) e Derpanis e Wildes (2011).

Em Porikli e Li (2004) os autores realizaram a classifica¸cão do trânsito em cinco estados (livre, congestão baixa, média, alta e trânsito parado – alto congestionamento)

utilizando Cadeias Ocultas de Markov com Mistura de Gaussianas (HMM-GM ou Gaus-sian Mixture Hidden Markov Models). As caracter´ısticas para treinamento foram obtidas

(26)

a partir dos coeficientes da transformada discreta do cosseno (DCT ou Discrete Cosine

Transform) e dos vetores de fluxo extra´ıdos do padrão de compressão de v´ıdeo MPEG. As Cadeias de Markov são treinadas previamente de modo offline e a classifica¸cão é

re-alizada pelo método de máxima verossimilhan¸ca (ML - Maximum Likelihood ) em tempo real. Segundo os autores, o sistema proposto é robusto quanto a varia¸cões de ilumina¸cão

e os resultados demonstraram uma precis˜ao de 95,50% em 163 minutos de v´ıdeos obtidos de quatro cˆameras externas em autoestradas nos EUA.

Em Chan e Vasconcelos (2005), os autores criaram um modelo autoregressivo do tipo ARMA (autoregressive-moving-average) para representar o comportamento

espa¸co-temporal dos pixels em um v´ıdeo (ver Figura 2.6a). Os autores citam que o método proposto também pode ser utilizado para recupera¸cão ou busca de v´ıdeos que possuem

padrões comportamentais similares. Segundo os autores, uma das vantagens desta pro-posta é a robustez quanto a varia¸cões de luminosidade, oclusão, emba¸camento da imagem

e baixa resolu¸cão dos v´ıdeos. Os resultados obtidos demonstram uma precisão de 94,50% em um conjunto com 254 v´ıdeos gravados a partir de uma câmera estacionária em uma

via de Seattle nos EUA.

Lee e Bovik (2009) utilizam o histograma dos vetores de fluxo ´otico2 _{para detectar}

anomalias no fluxo de tr´afego urbano. Durante o treinamento, os autores utilizaram os primeiros 1000 quadros do v´ıdeo para determinar as distribui¸c˜oes dos vetores de fluxo que

representam o trˆansito em um estado normal. Na etapa de testes, um novo histograma ´

e calculado a partir de um bloco de quadros contendo um segundo de v´ıdeo, e ent˜ao ´e

realizada uma compara¸cão de similaridade entre os dois histogramas através do método de Kullback-Leibler (KL). Segundo os autores, a abordagem proposta pode ser utilizada

para extrair estat´ısticas do fluxo do trˆansito.

Derpanis e Wildes (2011) citam que o m´etodo elaborado por Chan e Vasconcelos

(2005) requer um alto custo computacional e que também não é adequado para uso em aplica¸cões de tempo real e sugerem o uso de um filtro espa¸co-temporal orientado para

2_{Segundo Catalano et al. (2009), fluxo ´}_{otico ´}_{e o campo que descreve os deslocamentos ocorridos entre} duas imagens. O campo de movimento obtido por fluxo ótico é frequentemente descrito no dom´ınio discreto através de um mapeamento vetorial conhecido como vetores de deslocamento.

(27)

classifica¸c˜ao do estado do trˆansito. Os resultados apresentados pelos autores,

demons-tram que o m´etodo proposto obteve 95,28% de precis˜ao, superando o resultado de Chan e Vasconcelos (2005) utilizando o mesmo conjunto de v´ıdeos e metodologia de treinamento

e teste.

Comercialmente, algumas empresas est˜ao trabalhando em solu¸c˜oes hol´ısticas para

análise de imagens e v´ıdeos, desenvolvendo sistemas que permitem a deteçcão de anoma-lias ou padrões comportamentais em aglomerados de pessoas e ve´ıculos. Como exemplo,

a ObjectVideo (2012) oferece uma biblioteca de análise de v´ıdeo com foco em seguran¸ca e trânsito. Na Figura 2.6b é apresentado um sistema comercializado pela ObjectVideo

(2012) que determina o estado de uma via do trânsito de modo hol´ıstico. Inicialmente uma via é delimitada manualmente e em seguida o sistema realiza a classifica¸cão do

trânsito em três estados distindos (leve, médio e pesado - alta congestão).

O método proposto no presente trabalho também procura realizar a classifica¸cão do

estado do trânsito utilizando uma abordagem baseada em contexto global. Para determi-nar o estado do trânsito, optou-se por utilizar duas propriedades para classificar o trânsito

em três n´ıveis de congestionamento: baixo, médio e alto. Tais propriedades são repre-sentadas pela densidade média da nuvem de ve´ıculos e sua respectiva velocidade média.

No presente trabalho, para estimar a densidade da nuvem de ve´ıculos e sua respectiva velocidade, utilizou-se o processo de subtra¸c˜ao de fundo e o rastreamento de pontos de

interesse por fluxo ótico. Nas próximas se¸cões são apresentados os métodos comumente utilizados para segmenta¸cão de objetos em movimento por subtra¸cão de fundo. Em

se-guida, são introduzidos os métodos comumente utilizados para rastreamento de objetos em movimento por fluxo ótico.

(28)

(a) Classifica¸c˜ao baseada no modelo autoregressivo ARMA (CHAN; VASCONCELOS, 2005).

.

(b) Sistema de classifica¸c˜ao do estado do trˆansito da ObjectVideo (2012).

(29)

Vídeo _{modelo de plano}Inicialização do de fundo Detecção do primeiro plano Manutenção do modelo de plano de fundo n ≤ T n > T

Figura 2.7: Diagrama de blocos do processo de subtra¸c˜ao de fundo.

2.2 SEGMENTAC¸ ˜AO DE OBJETOS EM MOVIMENTO

Consiste em geral na compara¸c˜ao de uma imagem observada com outra imagem que representa uma estimativa do plano de fundo. As regi˜oes que possuem maior diferen¸ca

significativa, acima de um determinado limiar entre a imagem de entrada e a imagem de referˆencia (plano de fundo), indicam a localiza¸c˜ao de objetos de interesse em movimento.

Este processo também é denominado de subtra¸cão de fundo, pois, a partir de uma imagem de entrada, a primeira fase da segmenta¸cão é obtida subtraindo desta imagem de entrada

a imagem de fundo. Basicamente o processo de subtra¸cão de fundo consiste em: a) na inicializa¸cão do modelo do plano de fundo até um determinado limiar, b) a manuten¸cão

deste modelo após o limiar, e, c) a deteçcão do primeiro plano (BOUWMANS, 2012). A Figura 2.7 apresenta as etapas relacionadas ao processo de subtra¸cão de fundo.

Como pode ser visto em Bouwmans (2012, 2011), Buch et al. (2011), Brutzer et al. (2011), dezenas de m´etodos de subtra¸c˜ao de fundo foram desenvolvidos ao longo

dos últimos anos. A seguir é realizada uma descri¸cão dos principais fatores que podem interferir no processo de subtra¸cão de fundo.

2.2.1 Desafios na Segmenta¸c˜ao de Movimento

Durante a segmenta¸c˜ao de movimento, os algoritmos de subtra¸c˜ao de fundo muitas

(30)

luminosi-dade e ru´ıdos). Tais situa¸c˜oes podem variar dependendo do ambiente no qual a cˆamera

de v´ıdeo está em funcionamento. Os ambientes internos tipicamente são menos propensos a eventos inesperados do que câmeras externas. Bouwmans (2011) e Brutzer et al. (2011)

relacionam as situa¸c˜oes mais comuns que ocorrem durante a subtra¸c˜ao de fundo:

1. Varia¸c˜ao Gradual de Luminosidade ´

E necess´ario que o modelo do plano de fundo se adapte `as mudan¸cas graduais de

luminosidade do ambiente. Em ambientes externos isto acontece ao longo do dia.

2. Varia¸c˜ao Repentina de Luminosidade

Tipicamente em ambientes internos isto ocorre quando uma pessoa liga ou desliga

uma lˆampada. Os algoritmos de subtra¸c˜ao de fundo utilizados neste tipo de ambi-ente precisam lidar com tais problemas.

3. Ambientes Dinˆamicos

Caracter´ıstica frequente em ambientes externos, o modelo do plano de fundo precisa se adaptar a cenas que possuem elementos em movimento que n˜ao devem ser

condi-derados como primeiro plano tais como, folhas de árvore agitadas pelo vento, chuva, entre outros. Algoritmos de subtra¸cão de fundo robustos a tais fatores também

po-dem ser denominados algoritmos multimodais.

4. Camuflagem

Algumas vezes os objetos de interesse podem ter uma aparˆencia similar ao plano de

fundo dificultando sua segmenta¸cão. Isto é especialmente importante em aplica¸cões de vigilância.

5. Sombras

Muitas vezes as sombras relativas aos objetos de primeiro plano precisam ser tra-tadas para n˜ao interferir nos processos posteriores.

(31)

6. Bootstrapping

Alguns algoritmos de subtra¸c˜ao de fundo exigem que, durante a etapa de

inicia-liza¸c˜ao do modelo do plano de fundo, nenhum objeto de interesse esteja presente na cena.

7. Ru´ıdos

Durante seu funcionamento, as cˆameras podem apresentar ru´ıdos e falhas durante a captura do v´ıdeo.

8. Instabilidade da imagem

Condi¸cões ambientais adversas tais como, ventos fortes, tremores, entre outros, podem provocar o movimento não desejado em câmeras estáticas prejudicanto a

qualidade da segmenta¸c˜ao.

A Figura 2.8 ilustra alguns exemplos de cenas contendo fatores que podem interferir na qualidade da segmenta¸c˜ao dos algoritmos de subtra¸c˜ao de fundo.

Na próxima se¸cão é apresentada uma breve introdu¸cão ao processo de subtra¸cão de fundo. Também são relacionados os métodos comumente utilizados para subtra¸cão de

(32)

(a) Imagem noturna. (b) Aglomerado de ve´ıculos.

(c) Filmagem frontal. (d) Mudan¸cas de luminosidade.

(e) Sombras fortes. (f ) Luz incidente na cˆamera.

(33)

2.2.2 Processo de Subtra¸c˜ao de Fundo

Como visto anteriormente, no processo de subtra¸c˜ao de fundo inicialmente ´e preciso

criar ou inicializar um modelo do plano de fundo. Isto pode ser realizado de m´ultiplas formas. A mais simples, consiste em definir manualmente uma imagem que representa

o plano de fundo contendo nenhum objeto de interesse. Porém, utilizar uma imagem estática nem sempre é a melhor op¸cão. Por exemplo, em locais onde pode ocorrer

mu-dan¸cas de luminosidade a segmenta¸cão irá falhar, pois a imagem de primeiro plano incluirá as regiões que sofreram altera¸cões de luminosidade. Em Lai e Yung (1998), o autor sugere

a inicializa¸cão e manuten¸cão do modelo do plano de fundo através da média aritmética (simples ou ponderada) dos pixels entre sucessivas imagens. Assim, considerando um

v´ıdeo V de comprimento N composto por I imagens definido por V = I1, ..., IN.

Con-siderando que as imagens possuem apenas um canal (escala de cinza), uma imagem Ii

pode ser representada por uma matriz de intensidade. Logo, o modelo do plano de fundo, representado por B, ´e dado por

B = 1 N N X i=1 Ii. (.)

Tipicamente a Equa¸cão . é utilizada para inicializar o modelo do plano de fundo, porém, durante sua atualiza¸cão é comum a implementa¸cão da Equa¸cão . em sua forma

recursiva como pode ser visto na Equa¸c˜ao ..

Bn= (1 − α)Bn−1+ αIn, (.)

onde Bn representa o modelo do plano de fundo no instante n dado por n ∈ [1, N ] e

α ∈ [0, 1] é a constante de aprendizado. A principal vantagem deste método é a

manu-ten¸c˜ao adaptativa do modelo do plano de fundo conforme mudan¸cas ocorrem na cena. Por´em, alguns autores como Bouwmans (2012) e Sigari et al. (2008) esclarecem que os

pixels classificados como primeiro plano acabam sendo computados na atualiza¸cão do modelo do plano de fundo. Sendo assim, é sugerido um método seletivo para solucionar

(34)

(a) Amostra de um v´ıdeo de entrada em escala de cinza.

(b) Modelo do plano de fundo ap´os 750 itera¸c˜oes com α = 0.01.

Figura 2.9: Exemplo de aprendizado adaptativo na cria¸c˜ao do modelo de plano de fundo.

este problema. No método seletivo, o modelo do plano de fundo sofre atualiza¸cão apenas nas regiões onde nenhum objeto em movimento foi detectado. Entretanto, considerando

um pixel com localiza¸cão definida por (x, y) em uma imagem I, também expresso por I(x, y), durante a manuten¸cão seletiva, o novo modelo do plano de fundo é dado por

Bn(x, y) =

 



(1 − α)Bn−1(x, y) + αIn(x, y) se o pixel (x, y) ∈ plano de fundo.

Bn−1(x, y) se o pixel (x, y) ∈ primeiro plano.

, (.)

sendo Bn(x, y) e In(x, y) o valor do pixel (x, y) nas imagens B e I no instante n dado

por n ∈ [1, N ] em que N ´e a quantidade total de quadros de um v´ıdeo V . Esta equa¸c˜ao ´

e aplicada em todos os pixels das imagens B e I.

Para verificar se um pixel pertence ou n˜ao ao plano de fundo, inicialmente pode-se utilizar a Equa¸c˜ao . nos primeiros quadros do v´ıdeo e, em seguida, determinar a imagem

de primeiro plano comparando o quadro atual com o modelo obtido do plano de fundo. Em geral, durante a compara¸cão é utilizado um limiar, definido por T , e o resultado é

uma imagem binária F representando o primeiro plano. Esta opera¸cão é definida por

Fn(x, y) =

  

1 se d(In(x, y), Bn−1(x, y)) > T

0 caso contr´ario

(35)

(a) Diferen¸ca absoluta entre o quadro de entrada e o modelo do plano de fundo.

(b) Máscara de primeiro plano após aplica¸cão de um limitar T = 0.1.

Figura 2.10: Determina¸c˜ao da m´ascara de primeiro plano.

onde a fun¸c˜ao d(I(x, y), B(x, y)) = |I(x, y) − B(x, y)| ´e a diferen¸ca absoluta entre dois pixels.

Se o pixel da imagem I possuir um valor não nulo na imagem de primeiro plano F , então o pixel é considerado como pixel do primeiro plano, caso contrário, é um pixel do

plano de fundo. A Equa¸cão . também pode ser considerada como uma fun¸cão degrau, porém Sigari et al. (2008) sugere a utiliza¸cão de uma fun¸cão de satura¸cão linear definida

por F sn(x, y) =     

1 se d(In(x, y), Bn−1(x, y)) > T s.

I(x, y) − B(x, y) T s

caso contr´ario

, (.)

onde T s ´e o limiar.

Entretanto o resultado da Equa¸c˜ao . consiste em uma imagem com valores reais

entre [0, 1]. Para determinar a imagem bin´aria de primeiro plano, Sigari et al. (2008) su-gere a utiliza¸c˜ao de um filtro passa-baixa (LPF – low-pass filter ). Sendo assim, a imagem

de primeiro plano ´e definida como

Fn(x, y) =

  

1 se |LP F (F sn(x, y))| > T .

0 caso contr´ario

. (.)

(36)

plano devido a utiliza¸c˜ao de um filtro passa-baixa (SIGARI et al., 2008).

Os métodos apresentados até então se baseiam apenas no n´ıvel de intensidade dos pixels de uma imagem. Alguns autores, tais como Zhang e Xu (2006), Kristensen et al.

(2006), Jain et al. (2007), Yao e Odobez (2007), Jian et al. (2008), Baf et al. (2008a), Azab et al. (2010) e Bouwmans (2012) sugerem a utiliza¸c˜ao de caracter´ısticas extra´ıdas

do espa¸co de cor, textura e bordas da imagem. A seguir s˜ao brevemente apresentados alguns dos m´etodos comumente utilizados para extrair caracter´ısticas relativas a cor e

textura.

Caracter´ısticas de Cor .

A escolha do espa¸co de cor é um dos principais fatores para realizar uma seg-menta¸cão eficiente. Uma compara¸cão entre espa¸co de cores pode ser encontrada em

Kristensen et al. (2006) e Kanprachar e Tangkawanit (2007). O espa¸co de cor RGB é comumente utilizado, porém Bouwmans (2012) não recomenda a escolha deste, pois as

três componentes do espa¸co de cor RGB são sens´ıveis a varia¸cões de luminosidade. Zhang e Xu (2006) sugerem a utiliza¸cão do espa¸co de cor Ohta que é uma transforma¸cão linear

do espa¸co de cor RGB. A Equa¸c˜ao . apresenta a rela¸c˜ao entre o espa¸co de cor RGB e Ohta.

O1 = (R + G + B)/3

O2 = (R − B)/2

O3 = (2G − R − B)/4

(.)

Posteriormente Baf et al. (2008a) obtiveram melhores resultados utilizando o espa¸co de cor YCrCb. Os autores utilizaram o canal Cr e Cb e desprezaram o canal Y por sua

sensibilidade a altera¸cões de luminosidade. A Equa¸cão . apresenta a rela¸cão entre o espa¸co de cor RGB e YCrCb.

Y = 0.25R + 0.504G + 0.098B + 16

Cr = 0.439R − 0.368G − 0.071B + 128

Cb = −0.148R − 0.291G + 0.439B + 128

(37)

Para realizar a segmenta¸c˜ao do primeiro plano utilizando informa¸c˜oes de cores, Zhang

e Xu (2006) sugerem uma fun¸c˜ao de medida de similaridade entre duas imagens. Dada uma imagem de entrada I e uma imagem B representando o plano de fundo, o grau de

similaridade entre os pixels ´e definido por:

Sk(x, y) =                Ik(x, y) Bk(x, y) se Ik(x, y) < Bk(x, y). 1 se Ik(x, y) = Bk(x, y). Bk(x, y) Ik(x, y) se Ik(x, y) > Bk(x, y). (.)

onde k ∈ 1, 2, 3 representa um dos canais da imagem. Nota-se que Sk(x, y) assume valores

entre 0 e 1.

Caracter´ısticas de Textura .

A segmenta¸c˜ao do primeiro plano tamb´em pode ser realizada pela textura. Zhang

e Xu (2006) e Baf et al. (2008a) sugerem a utiliza¸cão do método LBP (Local Binary Pattern) originalmente proposto por Ojala et al. (1996). Segundo os autores, o método

LBP possui um baixo custo computacional e robustez quanto a varia¸cão monotônica nos n´ıveis de cinza que ocorrem durante altera¸cões de luminosidade. O método LBP é

definido por: LBP (x, y) = N −1 X i=1 s(gi− g)2i (.)

onde g corresponde ao n´ıvel de cinza do pixel centrado em (x, y) em uma imagem I, gi o

n´ıvel de cinza do i-ésimo pixel vizinho e 2i representa o peso do i-ésimo pixel vizinho. A fun¸cão s é definida por:

s(gi− g) =

 



1 se gi− g ≥ 0.

0 caso contr´ario

(.)

Originalmente o m´etodo LBP considera uma vizinhan¸ca de 3 x 3. A Figura 2.11 apresenta

(38)

(a) Imagem original. (b) Imagem LBP.

Figura 2.11: Exemplo de uma imagem de entrada e a imagem LBP correspondente.

Dada duas texturas definidas por LI _{e L}B_{, sendo L}I _{a textura da imagem de entrada}

I e LB_{a textura do plano de fundo B, Zhang e Xu (2006) sugere que o grau de similaridade}

entre estas duas texturas pode ser calculado atrav´es da Equa¸c˜ao ..

Sk(x, y) =                LI k(x, y) LB k(x, y) se LI k(x, y) < LBk(x, y). 1 se LI k(x, y) = LBk(x, y). LB_k(x, y) LI k(x, y) se LI_k(x, y) > LB_k(x, y). (.)

onde LI_{(x, y) e L}B_{(x, y) s˜}_{ao obtidas ap´}_{os a aplica¸c˜}_{ao do m´}_{etodo LBP no pixel (x, y) da}

imagem de entrada e do plano de fundo. Nota-se que Sk(x, y) assume valores entre 0 e

1. Sk(x, y) assume valores pr´oximos de 1 quando LI(x, y) e LB(x, y) s˜ao muito similares.

O processo de subtra¸cão de fundo pode-se tornar mais robusto com a utiliza¸cão de caracter´ısticas de cor e textura. Zhang e Xu (2006) sugerem a fusão destas caracter´ısticas

utilizando uma abordagem fuzzy com o uso da Integral de Sugeno (SUGENO, 1974). Pos-teriormente Baf et al. (2008a) e Azab et al. (2010) obtiveram melhores resultados com o

uso da Integral de Choquet (CHOQUET, 1953).

Conforme apresentado inicialmente, uma grande quantidade de m´etodos de

sub-tra¸cão de fundo foram desenvolvidos ao longo dos anos. Neste trabalho alguns métodos foram agrupados em categorias. Cada categoria é descrita abaixo.

(39)

2.2.2.1 M´etodos Estat´ısticos .

Wren et al. (1997) propuseram que a série temporal de cada pixel de uma imagem pode ser modelada através de uma fun¸cão de densidade de probabilidade considerando

uma distribui¸cão gaussiana. Posteriormente Stauffer e Grimson (1999) esclarecem que apenas uma gaussiana é insuficiente para modelar a dinâmica do plano de fundo e sugere

a utiliza¸cão de uma mistura de gaussianas. Stauffer e Grimson (1999) citam que três a cinco gaussianas por pixel são suficientes para modelar a maior parte das cenas

comu-mente encontradas em ambientes externos. O n´umero de gaussianas tamb´em influencia no desempenho do algoritmo, principalmente em imagens multi-canais, tais como

ima-gens coloridas no formato RGB. Cada pixel em cada componente da imagem possuir´a uma mistura de gaussianas consumindo assim uma maior quantidade de mem´oria e

po-der computacional. Em seguida Elgammal et al. (2000) propõem a modelagem do plano de fundo de forma não-paramétrica. Posteriormente Zivkovic (2004) e Zivkovic e

Heij-den (2006) aperfei¸coaram o método proposto por Stauffer e Grimson (1999) adicionando suporte a deteçcão de sombras e sele¸cão adaptativa do número de gaussianas por pixel

aumentando assim a robustez e o desempenho do algoritmo.

2.2.2.2 M´etodos Fuzzy .

Recentemente, alguns autores têm introduzido conceitos fuzzy nas diferentes etapas do processo de subtra¸cão de fundo. Em Zhang e Xu (2006) os autores realizam a subtra¸cão

de fundo através do grau de similaridade entre caracter´ısticas de cor e textura da imagem de entrada e o modelo de plano de fundo utilizando a Integral de Sugeno (SUGENO, 1974). Posteriormente, Baf et al. (2008a) obtiveram melhores resultados utilizando a Integral de Choquet (CHOQUET, 1953). Em seguida, Azab et al. (2010) utilizaram a Integral de Choquet com caracter´ısticas de borda além de textura e cor. Sigari et al. (2008) propuseram uma fun¸cão fuzzy para a atualiza¸cão do modelo do plano de fundo e para

a extra¸c˜ao dos pixels de primeiro plano. Baf et al. (2008b) sugerem uma fun¸c˜ao fuzzy tipo-2 para lidar com as incertezas do modelo multi-gaussiano do plano de fundo. Em

(40)

aprimorar a detec¸c˜ao de objetos em movimento. Em Bouwmans (2012) o autor faz uma

revis˜ao completa sobre a abordagem fuzzy aplicada ao processo de subtra¸c˜ao de fundo.

2.2.2.3 M´etodos Neurais .

Basicamente a rede neural aprende como classificar cada pixel da imagem, deter-minando se um pixel pertence ao primeiro plano ou plano de fundo (BOUWMANS, 2011). Em Culibrk et al. (2007) os autores utilizam uma rede neural com 124 neurˆonios, o modelo do plano de fundo ´e aprendido pela rede neural enquanto um classificador

baye-siano identifica se um determinado pixel pertence ao primeiro plano ou plano de fundo. Em Maddalena e Petrosino (2008), os autores desenvolveram um algoritmo que realiza

a subtra¸c˜ao de fundo utilizando mapas auto-organiz´aveis (SOM - self-organizing map), ou mapas de Kohonen. Cada pixel da imagem possui um mapa neural bidimensional

formado por n x n vetores de peso. Posteriormente Maddalena e Petrosino (2010) aper-fei¸coaram o trabalho anterior adicionando uma fun¸c˜ao fuzzy durante o aprendizado do

modelo de plano de fundo e uma análise de coerência espacial sobre a rede SOM de cada pixel apresentando resultados superiores ao método anterior.

2.3 RASTREAMENTO DE OBJETOS EM MOVIMENTO

O rastreamento pode ser definido como o problema de estimar a trajet´oria de um

determinado objeto (ou múltiplos objetos) em uma sequência de quadros de um v´ıdeo. Em outras palavras, o algoritmo de rastreamento precisa garantir uma identidade única

para um objeto nos diferentes quadros de um v´ıdeo. O rastreamento de objetos é uma tarefa importante no campo de visão computacional. Através da análise da trajetória

gerada pelo rastreamento de um objeto particular, ´e poss´ıvel estimar, por exemplo, seu comportamento. Segundo Yilmaz et al. (2006) e Yang et al. (2011), algumas de suas

aplica¸c˜oes incluem:

Reconhecimento de movimentos .

(41)

Intera¸c˜ao Homem-M´aquina .

Reconhecimento de gestos realizados pelos humanos.

Vigilância e monitora¸cão de tráfego .

Extrair estat´ısticas de um fluxo de objetos em movimento.

Yilmaz et al. (2006) e Yang et al. (2011) definem alguns dos principais desafios que os

m´etodos de rastreamento precisam considerar:

• Perda de informa¸c˜ao causada pela proje¸c˜ao de um ambiente tridimensional em um plano bidimensional.

• Ru´ıdos nas imagens.

• Oclus˜ao parcial ou completa do objeto rastreado. • Altera¸c˜oes de luminosidade.

• Plano de fundo dinˆamico.

• Objetos que aparecem ou saem da cena.

Para simplificar a complexidade que os algoritmos de rastreamento devem contemplar,

muitas vezes é necessário impor restri¸cões, tal como considerar que o movimento de um objeto entre os quadros de um v´ıdeo é suave (não abrupto). Outras restri¸cões consideram

que a velocidade ou acelera¸cão de um objeto particular é constante. O conhecimento prévio sobre o tamanho, aparência (cor ou textura), forma e quantidade de objetos que

devem ser rastreados, tamb´em podem simplificar o problema (YILMAZ et al., 2006;YANG et al., 2011).

Antes de realizar o rastreamento, em geral é preciso ter uma forma ou modelo de representa¸cão do objeto a ser rastreado. Na próxima se¸cão são descritas algumas das

(42)

2.3.1 Representa¸c˜ao de Objetos

Ao rastrear um objeto, muitas vezes é necessário uma representa¸cão ou modelo que

descreva a forma, aparência ou caracter´ısticas que o definem. Nesta se¸cão, são apresen-tadas as caracter´ısticas comumente utilizadas para representar um objeto conforme as

defini¸c˜oes de Yilmaz et al. (2006).

• Pontos - O objeto é representado por um ponto central (ou centroide) (Figura 2.12 (a)) ou por um conjunto de pontos (Figura 2.12 (b)). Em geral, a representa¸cão por pontos é adequada para rastreamento de objetos que ocupam pequenas regiões

na imagem.

• Formas geométricas - O objeto é definido por uma forma geométrica, tal como um retângulo (Figura 2.12 (c)) ou uma elipse (Figura 2.12 (d)). Esta op¸cão é comu-mente usada rastrear objetos r´ıgidos (inflex´ıvel), mas também podem ser usadas

para objetos n˜ao r´ıgidos.

• Formas articuladas - O objeto ´e representado por um conjunto de partes articuladas (Figura 2.12 (e)). Por exemplo, o corpo humano pode ser representado por um conjunto de formas articuladas que definem o bra¸co, m˜aos, cabe¸ca, tronco e pernas.

• Esqueleto - O objeto tamb´em pode ser representado por um esqueleto (Figura 2.12 (f)). Este modelo tamb´em pode ser usado para objetos articulados ou objetos

r´ıgidos.

• Silhueta ou contorno - O contorno de um objeto também pode ser utilizado como uma forma de representa¸cão. A representa¸cão por contorno pode ser definida por

pontos (Figura 2.12 (g)), pela borda (Figura 2.12 (h)) ou pela silhueta do objeto (Figura 2.12 (i)).

Outras caracter´ısticas também utilizadas para representa¸cão de objetos incluem in-forma¸cões de cor, textura e bordas através de histogramas e modelos (YILMAZ et al., 2006).

(43)

(a) (b) (c) (d) (e)

(f) (g) (h) (i)

Figura 2.12: Formas de representa¸c˜ao do objeto. (a) Centroide, (b) m´ultiplos pontos, (c) forma retangular, (d) forma el´ıptica, (e) partes articuladas, (f) esqueleto, (g) pontos do contorno, (h) borda e

(i) silhueta. Fonte: Yilmaz et al. (2006)

de objetos foram propostos nos últimos anos. Na próxima se¸cão é realizada uma breve introdu¸cão sobre fluxo ótico3_.

2.3.2 Rastreamento por Fluxo ´Otico

Segundo Catalano et al. (2009), fluxo ´otico ´e o campo que descreve os deslocamentos

ocorridos entre duas imagens. O campo de movimento obtido por fluxo ótico é frequente-mente descrito no dom´ınio discreto através de um mapeamento vetorial conhecido como

vetores de deslocamento (Figura 2.13). Considere I(x, y, t) a intensidade da imagem no ponto (x, y) no tempo t, e suponha que o ponto se moveu para uma nova posi¸c˜ao dada

por (∆x,∆y) no intervalo ∆t. A Equa¸c˜ao . representa a busca do ponto (x, y) na nova imagem sendo ∆x, ∆y e ∆t as inc´ognitas a serem determinadas. Assumindo que

o movimento do ponto é relativamente pequeno, os métodos de fluxo ótico diferenciais procuram resolver a Equa¸cão . utilizando a expansão pela série de Taylor, resultando

3_{No presente trabalho, o m´}_{etodo KLT(Kanade-Lucas-Tomasi) utilizado para estimar a velocidade de} um aglomerado de ve´ıculos ´e baseado em fluxo ´otico.

(44)

frame (j) frame (j+1) campo de movimento

Figura 2.13: Ilustra¸c˜ao do campo de movimento obtido por fluxo ´otico. Fonte: Catalano et al. (2009)

na Equa¸c˜ao ..

I(x, y, t) = I(x + ∆x, y + ∆y, t + ∆t) (.)

I(x + ∆x, y + ∆y, t + ∆t) = I(x, y, t) + ∂I ∂x∆x +

∂I ∂y∆y +

∂I

∂t∆t + (.)

Igualando as Equa¸c˜oes . e ., e eliminando o termo de alta ordem , tem-se

∂I ∂x∆x + ∂I ∂y∆y + ∂I ∂t∆t = 0 (.)

dividindo todos os termos por ∆t

∂I ∂x ∆x ∆t + ∂I ∂y ∆y ∆t + ∂I ∂t ∆t ∆t = 0 (.) que resulta em ∂I ∂xVx+ ∂I ∂yVy + ∂I ∂t = 0 (.)

onde Vx e Vy s˜ao os vetores de velocidade associados aos componentes x e y do ponto em

movimento e ∂I\∂x, ∂I\∂y e ∂I\∂t as derivadas parciais da imagem de intensidade em I(x, y, t).

A seguir, são apresentados resumidamente apenas alguns dos métodos de fluxo ótico comumente utilizados para rastreamento de objetos:

(45)

par-tes e para cada parte é calculado o fluxo ótico. É um método não iterativo que

assume um fluxo ´otico constante e local. Este m´etodo foi posteriomente aprimo-rado por Bouguet (2000) e Senst et al. (2012).

Horn-Schunck (HORN; SCHUNCK, 1981) Os vetores de velocidade da imagem s˜ao calculados a partir das derivadas espa¸co-temporal das intensidades na imagem. O

método considera que a ilumina¸cão incidente é uniforme e que a reflexão varia suavemente sem descontinuidades.

Alguns autores tais como Saxena et al. (2008) e Santoro et al. (2010) combinam

métodos de extra¸cão de caracter´ısticas com fluxo ótico para realizar o rastreamento de pontos de interesse em v´ıdeos. Um dos métodos mais conhecidos é o KLT

(Kanade-Lucas-Tomasi ) que é basicamente uma combina¸cão de um extrator de caracter´ısticas proposta por Shi e Tomasi (1994) em conjunto com o método de fluxo ótico Lucas-Kanade. Como

pode ser visto em Rodriguez et al. (2011) e He e Liu (2012), este m´etodo ´e comumente utilizado para estimar os vetores de fluxo de um aglomerado de objetos em movimento.

(46)

CAP´ITULO 3

CLASSIFICAC

¸ ˜

AO DO ESTADO DO TR ˆ

ANSITO

3.1 INTRODUC¸ ˜AO

A utiliza¸cão de câmeras de monitoramento de tráfego nas estradas é uma realidade

presente em muitas cidades do mundo (BUCH et al., 2011). Entretanto, a maior parte destes sistemas s˜ao ainda operados por humanos que dedicam longos per´ıodos de tempo

a observar imagens capturadas do trânsito. Sistemas inteligentes capazes de analisar de forma automática as imagens e v´ıdeos capturados pelas câmeras de monitoramento

urbano tem sido cada vez mais utilizados. As solu¸cões tradicionais para tais sistemas produzem estat´ısticas através da deteçcão e contagem individual de ve´ıculos presentes

no trˆansito. Entretanto, estes sistemas comumente falham, especialmente em cenas de alto congestionamentos, por exemplo, por conta do aumento da oclus˜ao entre os ve´ıculos,

prejudicando assim a predi¸cão correta da quantidade de ve´ıculos presentes na cena e a identifica¸cão do real estado do trânsito. Métodos alternativos analisam o v´ıdeo de forma

global considerando o trânsito como uma única entidade – nuvem ou aglomerado de ve´ıculos que possuem um comportamento único. Através da análise do comportamento

da nuvem de ve´ıculos, os métodos globais procuram extrair informa¸cões relevantes tais como a densidade, velocidade, localiza¸cão e sentido dos ve´ıculos presentes na cena,

favo-recendo a identifica¸c˜ao do real estado do trˆansito.

Este trabalho propõe um método para classifica¸cão do estado do trânsito utilizando

uma abordagem baseada em contexto global. Para determinar o estado do trânsito, optou-se por utilizar duas propriedades para classificar o trânsito em três n´ıveis de

con-gestionamento: baixo, médio e alto. Tais propriedades são representadas pela densidade média da nuvem de ve´ıculos e sua respectiva velocidade média. Considera-se que um

(47)

Subtração de Fundo Vídeo Modelo do plano de fundo Segmentação da Nuvem de Veículos Extração de Características Rastreamento da Nuvem de Veículos Estimação da Densidade Estimação da Velocidade Vetor de Características Classificação Preprocessamento Alto Médio Baixo Nível de Congestionamento

Figura 3.1: Diagrama de bloco do sistema proposto.

baixa. De outro modo, quando a densidade estiver baixa e a velocidade for alta, o sistema

considerá que o trânsito possui baixo congestionamento. Para medidas intermediárias, o sistema considera que o tráfego é de média congestão.

O sistema proposto é ilustrado na Figura 3.1. Para determinar a densidade da nuvem de ve´ıculos, primeiramente é realizado um processo de subtra¸cão de fundo

permi-tindo a segmenta¸cão dos ve´ıculos em movimento. Em paralelo, para estimar a velocidade da nuvem de ve´ıculos, um processo de extra¸cão de caracter´ısticas é utilizado. Através das

caracter´ısicas extra´ıdas, é realizado o rastreamento da nuvem de ve´ıculos. Em seguida, dadas a densidade média dos ve´ıculos e sua respectiva velocidade média, é constru´ıdo

um vetor de caracter´ısticas utilizado para treinar um algoritmo classificador. Após o treinamento, o algoritmo realiza a predi¸cão do estado do trânsito, classificando-o em três

n´ıveis de congestionamento: baixo, m´edio e alto.

Nas se¸c˜oes seguintes s˜ao descritos os procedimentos realizados em cada etapa do

(48)

Figura 3.2: Defini¸cão da região de interesse em uma área com maior concentra¸cão de movimento.

3.2 DEFINIÇ ÃO DA REGI ÃO DE INTERESSE

Na etapa de aquisi¸cão do v´ıdeo, foi necessário definir uma região de interesse (ROI - region of interest ) centrada na área com maior concentra¸cão de movimento. A ROI

permite minimizar a presen¸ca de objetos próximos ao trânsito (e.g. ve´ıculos presentes em outras vias, etc . . . ). Esta restri¸cão muitas vezes é necessária para que o cálculo

da densidade considere apenas os ve´ıculos presentes de um determinado local da cena. Nos trabalhos de Chan e Vasconcelos (2005) e Derpanis e Wildes (2011) os autores

uti-lizaram um ROI de 48x48 pixels, porém este tamanho não foi adequado para realizar a segmenta¸cão e rastreamento da nuvem de ve´ıculos no presente trabalho. Para obter

me-lhores resultados, foi utilizado um ROI retangular1 de 190x140 pixels conforme a Figura 3.2.

3.3 SEGMENTAÇ ÃO DA NUVEM DE VEÍCULOS

A segmenta¸cão da nuvem de ve´ıculos pode ser realizada através da subtra¸cão de

fundo (JODOIN et al., 2012), fluxo ótico (HE; LIU, 2012) e transformada de Fourier (HSU et al., 2011). No presente trabalho, o processo de subtra¸cão de fundo foi selecionado por ser uma técnica comumente utilizada para segmentar objetos em movimento (BOUWMANS,

1_{Uma alternativa poderia ser a utiliza¸}_c˜_{ao de um ROI poligonal para delinear a via de trˆ}_{ansito com} maior precis˜ao. Por´em, para o conjunto de v´ıdeos utilizados no presente trabalho, um ROI retangular

(49)

2012). Primeiramente, foram avaliados cinco m´etodos recentes de subtra¸c˜ao de fundo com

a base de v´ıdeos ChangeDetection (descrita no Cap´ıtulo 4). O objetivo desta avalia¸cão é identificar qual método possui o melhor desempenho e robustez considerando as varia¸cões

clim´aticas e de luminosidade presentes em cenas de ambientes externos. Em cenas onde o tr´afego possui um alto congestionamento, muitos ve´ıculos podem ficar parados por um

longo per´ıodo de tempo. O método de subtra¸cão de fundo precisa construir um modelo apropriado do plano de fundo e analisar o que deve (ou não) ser inclu´ıdo durante sua

atualiza¸cão. Sombras, ajuste automático de foco, instabilidade da câmera e plano de fundo dinâmico também são alguns dos mais diversos desafios com os quais os algoritmos

de subtra¸c˜ao de fundo precisam lidar.

A Tabela 3.1 apresenta a rela¸c˜ao dos m´etodos avaliados neste trabalho com seus

respectivos autores. Neste trabalho, selecionou-se apenas o método que obteve o melhor desempenho nos testes realizados. A avalia¸cão dos algoritmos é apresentada no Cap´ıtulo

4.

A Figura 3.3 ilustra o resultado da segmenta¸cão dos ve´ıculos com o trânsito em três

estados distintos. Os v´ıdeos foram obtidos da base de v´ıdeos UCSD (descrita no Cap´ıtulo 5), onde cada v´ıdeo possui uma anota¸cão informando o estado do trânsito, condi¸cão

meteorol´ogica, entre outras caracter´ısticas.

Tabela 3.1: Rela¸cão dos métodos de subtra¸cão de fundo avaliados neste trabalho.

M´etodo Autor(es) Informa¸c˜oes adicionais

Pixel-Based Adaptive Segmenter (PBAS)

Hofmann et al. (2012) N˜ao-param´etrico, estat´ıstico, multimodal

Fuzzy SOM Maddalena e Petrosino (2010) Neuro-Fuzzy, multimodal, um mapa de Kohonen 3x3 para cada pixel

Fuzzy Choquet Integral Baf et al. (2008a) Unimodal, atualiza¸c˜ao adapta-tiva e seleadapta-tiva do modelo do plano de fundo, utiliza in-forma¸c˜oes de cor e textura Adaptive SOM Maddalena e Petrosino (2008) Neural, multimodal, um mapa de

Kohonen 3x3 para cada pixel Multi-Layer Yao e Odobez (2007) Estat´ıstico, multimodal, utiliza

informa¸c˜oes de cor e textura, su-porte a sombras

(50)

Segmentação dos Veículos Imagem de entrada BAIXO Nível de Congestionamento MÉDIO ALTO

Figura 3.3: Resultado da segmenta¸cão dos ve´ıculos com o trânsito em três estados distintos conforme anota¸cões da base de v´ıdeos UCSD.

3.3.1 Estima¸c˜ao da Densidade de Ve´ıculos

A estima¸cão da densidade de ve´ıculos é realizada após o processo de subtra¸cão de

fundo. A densidade é determinada pela contagem dos pixels não nulos da máscara de primeiro plano obtida durante a subtra¸cão de fundo. Este procedimento é realizado a

cada quadro do v´ıdeo. As Figuras 3.4 e 3.5 ilustram o processo em questão. Foram utilizados três v´ıdeos com o trânsito em três estados distintos conforme as anota¸cões da

base de v´ıdeos UCSD. A Figura 3.4 apresenta a máscara de primeiro para cada estado do trânsito e a Figura 3.5 apresenta a varia¸cão da densidade ao longo de 40 quadros. A

escolha do método de subtra¸cão de fundo é uma decisão importante. Conforme descrito na Se¸cão 3.3, o algoritmo de subtra¸cão de fundo precisa construir um modelo adequado do