• Nenhum resultado encontrado

Classificação automática do estado do trânsito baseada em contexto global

N/A
N/A
Protected

Academic year: 2021

Share "Classificação automática do estado do trânsito baseada em contexto global"

Copied!
95
0
0

Texto

(1)

Universidade Federal da Bahia

Escola Polit´

ecnica / Instituto de Matem´

atica

Programa de P´

os-Gradua¸c˜

ao em Mecatrˆ

onica

ANDREWS CORDOLINO SOBRAL

CLASSIFICAC

¸ ˜

AO AUTOM ´

ATICA DO

ESTADO DO TR ˆ

ANSITO BASEADA EM

CONTEXTO GLOBAL

Salvador

Dezembro de 2012

(2)

ANDREWS CORDOLINO SOBRAL

CLASSIFICAC

¸ ˜

AO AUTOM ´

ATICA DO ESTADO DO TR ˆ

ANSITO

BASEADA EM CONTEXTO GLOBAL

Disserta¸c˜ao apresentada ao Programa de P´os-Gradua¸c˜ao em Mecatrˆonica da Universidade Federal da Bahia como re-quisito para obten¸c˜ao do grau de Mestre em Mecatrˆonica.

Orientador: Dr. Leizer Schnitman

Co-orientador: Dr. Luciano Rebou¸cas de Oliveira

Salvador

Dezembro de 2012

(3)

S677 Sobral, Andrews

Classificação automática do estado do trânsito baseada em contexto global / Andrews Sobral. – Salvador, 2012.

94 f. : il. color.

Orientador: Leizer Schnitman. Coorientador: Luciano Oliveira.

Dissertação (mestrado) – Universidade Federal da Bahia. Escola Politécnica, 2012.

1. Levantamentos de trânsito. 2. Trânsito - Controle eletrônico. 3. Redes neurais (computação). I. Schnitman, Leizer. II. Oliveira, Luciano. III. Universidade Federal da Bahia. IV. Título.

(4)
(5)

AGRADECIMENTOS

Em primeiro lugar agrade¸co aos meus pais, Ruivaldo Regis Sobral e Vera L´ucia de Santana Cordolino, pois sem eles eu n˜ao estaria no mundo. Sem o cuidado e carinho que me deram,

eu n˜ao teria chegado onde estou, e sei que ainda posso contar com a amizade deles por muito tempo. Agrade¸co ao meu orientador, Leizer Schnitman, pelo seu empenho

e dedica¸c˜ao. Ao meu co-orientador, Luciano Rebou¸cas de Oliveira, pelo incentivo e colabora¸c˜ao. Agrade¸co a Caroline Pacheco, pelo carinho, amor e compreens˜ao, que foram

t˜ao importantes para a conclus˜ao deste trabalho. A todos os meus colegas, que de alguma maneira tiveram a inten¸c˜ao de contribuir para a conclus˜ao deste trabalho. Em especial

para os meus colegas Vitor Le˜ao Filardi e Jos´e Grimaldo.

(6)

”A ciˆencia n˜ao pode prever o que vai acontecer. S´o pode prever a probabilidade de algo acontecer.” —C´ESAR LATTES

(7)

RESUMO

Atualmente, sistemas inteligentes utilizados para monitora¸c˜ao de tr´afego urbano tˆem sido adotados com maior frequˆencia. As solu¸c˜oes tradicionais produzem estat´ısticas atrav´es

da detec¸c˜ao e contagem individual de ve´ıculos presentes no trˆansito. Por´em, estes siste-mas comumente falham, especialmente em cenas que possuem uma grande quantidade de

ve´ıculos em movimento (e.g. alto congestionamento) por conta do aumento da oclus˜ao entre os ve´ıculos. Muitas vezes a oclus˜ao acaba prejudicando a predi¸c˜ao exata da

quan-tidade de ve´ıculos presentes na cena e a correta identifica¸c˜ao do real estado do trˆansito. M´etodos alternativos analisam o v´ıdeo de forma global considerando o trˆansito como

uma ´unica entidade – nuvem ou aglomerado de ve´ıculos que possuem um comportamento ´

unico. Atrav´es da an´alise do comportamento da nuvem de ve´ıculos, os m´etodos baseados

em contexto global procuram extrair informa¸c˜oes relevantes tais como a densidade, velo-cidade, localiza¸c˜ao e sentido dos ve´ıculos presentes na cena, favorecendo a identifica¸c˜ao

do real estado do trˆansito. Considerando esta abordagem, o presente trabalho prop˜oe um m´etodo para classifica¸c˜ao do estado do trˆansito. Para determinar o estado do trˆansito,

optou-se por utilizar duas propriedades para classificar o trˆansito em trˆes n´ıveis de con-gestionamento: baixo, m´edio e alto. Tais propriedades s˜ao representadas pela densidade

m´edia da nuvem de ve´ıculos e sua respectiva velocidade m´edia. Estas duas propriedades s˜ao combinadas em um vetor de caracter´ısticas que foi utilizado para compor o conjunto

de treinamento. Os resultados experimentais demonstram uma taxa de acerto de 94,5% em um conjunto de 254 v´ıdeos de trˆansito utilizando redes neurais artificiais.

Palavras-chave: V´ıdeo An´alise, Classifica¸c˜ao do Trˆansito, RNA

(8)

ABSTRACT

Intelligent vision systems for urban traffic surveillance have been frequently adopted. The traditional approaches are based on detection and counting of individual vehicles

to perform traffic analysis. However, traditional approaches commonly fail, especially, on crowded situations (e.g. high traffic congestion) due to the large occlusion of moving

objects, causing error on the vehicle counting and traffic analysis. Global approaches evaluate the crowd as an individual entity. Some properties can be extracted from crowds

behavior analysis like crowd flows, density, speed, localization and direction. This work proposes a method for highway traffic video classification based on global approach. The

method uses two crowd properties and classify the traffic congestion into three classes: light, medium and heavy. These properties are based on average crowd density and

average crowd speed. In this work, we chose to combine these two properties in a feature vector that is used to compose the training set. Experimental results show 94.50% of

accuracy on 254 highway traffic videos using artificial neural networks.

(9)

LISTA DE FIGURAS

2.1 Exemplos de trabalhos baseados na abordagem local. . . 6 2.2 Diagrama de blocos de um sistema de an´alise de v´ıdeo baseado na

abor-dagem bottom-up. . . 7 2.3 Diagrama de blocos de um sistema de an´alise de v´ıdeo baseado na

abor-dagem top-down. . . 8 2.4 Exemplo de aglomera¸c˜oes de ve´ıculos. . . 9 2.5 Diagrama de blocos de um sistema t´ıpico para an´alise de comportamento

de aglomerados. . . 11 2.6 Exemplos de trabalhos baseados na abordagem hol´ıstica. . . 14 2.7 Diagrama de blocos do processo de subtra¸c˜ao de fundo. . . 15 2.8 Exemplos de situa¸c˜oes onde o processo de subtra¸c˜ao de fundo pode falhar. 18 2.9 Exemplo de aprendizado adaptativo na cria¸c˜ao do modelo de plano de fundo. 20 2.10 Determina¸c˜ao da m´ascara de primeiro plano. . . 21 2.11 Exemplo de uma imagem de entrada e a imagem LBP correspondente. . 24 2.12 Formas de representa¸c˜ao do objeto. (a) Centroide, (b) m´ultiplos pontos,

(c) forma retangular, (d) forma el´ıptica, (e) partes articuladas, (f) esque-leto, (g) pontos do contorno, (h) borda e (i) silhueta. Fonte: Yilmaz et al. (2006) . . . 29 2.13 Ilustra¸c˜ao do campo de movimento obtido por fluxo ´otico. Fonte: Catalano

et al. (2009) . . . 30

3.1 Diagrama de bloco do sistema proposto. . . 33 3.2 Defini¸c˜ao da regi˜ao de interesse em uma ´area com maior concentra¸c˜ao de

movimento. . . 34 3.3 Resultado da segmenta¸c˜ao dos ve´ıculos com o trˆansito em trˆes estados

distintos conforme anota¸c˜oes da base de v´ıdeos UCSD. . . 36 3.4 M´ascaras de primeiro plano de trˆes v´ıdeos com o trˆansito em trˆes estados

distintos conforme anota¸c˜oes da base de v´ıdeos UCSD. . . 37 3.5 Varia¸c˜ao da densidade de ve´ıculos em trˆes v´ıdeos com o trˆansito em trˆes

estados distintos conforme anota¸c˜oes da base de v´ıdeos UCSD. . . 38 3.6 Falha na segmenta¸c˜ao dos ve´ıculos em um trˆansito com alto

congestiona-mento produzindo uma estima¸c˜ao incorreta da densidade de ve´ıculos. . . 38 3.7 Ilustra¸c˜ao do processo de rastreamento utilizando o m´etodo KLT. . . 39 3.8 Ilustra¸c˜ao do movimento de um ponto de interesse entre dois quadros

con-secutivos e seu respectivo deslocamento. . . 40 3.9 Varia¸c˜ao da velocidade da nuvem de ve´ıculos em trˆes v´ıdeos de trˆansito

com estados distintos conforme anota¸c˜oes da base de v´ıdeos UCSD. . . . 41

(10)

3.10 Caracter´ısticas extra´ıdas da nuvem de ve´ıculos em trˆes v´ıdeos de trˆansito com estados distintos conforme anota¸c˜oes da base de v´ıdeos UCSD. . . . 42

4.1 Amostras de quadros dos v´ıdeos da base ChangeDetection e suas respecti-vas m´ascaras de primeiro plano. . . 46

5.1 Amostras de quadros dos v´ıdeos da base de v´ıdeos UCSD. . . 52 5.2 Normaliza¸c˜ao das caracter´ısticas extra´ıdas da base UCSD. . . 53 5.3 Ilustra¸c˜ao dos conjuntos utilizados para avalia¸c˜ao dos classificadores. . . 54 5.4 Conjuntos utilizados para treinamento (esquerda) e teste (direita). . . 55 5.5 Matrizes de confus˜ao do classificador K-NN relativas a cada um dos

con-juntos de teste. . . 57 5.6 Superf´ıcies de decis˜ao geradas pelo classificador K-NN utilizando os

con-juntos de treinamento A, B, C e D. . . 58 5.7 Matrizes de confus˜ao do classificador NBC relativas a cada um dos

con-juntos de teste. . . 59 5.8 Superf´ıcies de decis˜ao geradas pelo classificador NBC utilizando os

conjun-tos de treinamento A, B, C e D. . . 60 5.9 Matrizes de confus˜ao do classificador MLP relativas a cada um dos

con-juntos de teste. . . 62 5.10 Superf´ıcies de decis˜ao geradas pelo classificador MLP utilizando os

con-juntos de treinamento A, B, C e D. . . 63 5.11 Matrizes de confus˜ao do classificador SVM. . . 65 5.12 Superf´ıcies de decis˜ao geradas pelo classificador SVM utilizando os

con-juntos de treinamento A, B, C e D. . . 66

6.1 Matrizes de confus˜ao referente ao sistema proposto (a) e aos trabalhos de Chan e Vasconcelos (2005) (b) e Derpanis e Wildes (2011) (c). . . 68 6.2 Normaliza¸c˜ao das caracter´ısticas extra´ıdas da base UCSD. . . 69 6.3 Exemplo de quadros de v´ıdeos que possuem padr˜oes similares, por´em

r´otulos distintos. . . 71 6.4 Quadros de v´ıdeos que foram classificados erroneamente. . . 72

(11)

LISTA DE TABELAS

3.1 Rela¸c˜ao dos m´etodos de subtra¸c˜ao de fundo avaliados neste trabalho. . . 35

4.1 Rela¸c˜ao de m´etricas utilizadas para avaliar o desempenho dos algoritmos de subtra¸c˜ao de fundo. . . 47

4.2 Desempenho dos algoritmos de subtra¸c˜ao na categoria linha de base. . . . 48

4.3 Desempenho dos algoritmos de subtra¸c˜ao na categoria cˆamera oscilante. . 48

4.4 Desempenho dos algoritmos de subtra¸c˜ao na categoria plano de fundo dinˆamico. . . 48

4.5 Desempenho dos algoritmos de subtra¸c˜ao na categoria de movimento de objetos intermitentes. . . 49

4.6 Desempenho dos algoritmos de subtra¸c˜ao na categoria sombra. . . 49

4.7 Desempenho geral dos algoritmos de subtra¸c˜ao de fundo. . . 50

5.1 Sum´ario da base de v´ıdeos UCSD. . . 52

5.2 Resultados obtidos pelo classificador K-NN nos conjuntos A, B, C e D variando o n´umero de vizinhos mais pr´oximos. . . 57

5.3 Resultados obtidos pelo classificador NBC. . . 59

5.4 Resultados obtidos pelo classificador MLP variando o algoritmo de trei-namento (TA), fun¸c˜ao de ativa¸c˜ao (AF) e a quantidade de neurˆonios na camada oculta (HN). . . 62

5.5 Fun¸c˜oes de kernel utilizadas neste trabalho. . . 64

5.6 Resultados obtidos pelo classificador SVM variando o k-fold e a fun¸c˜ao de kernel. . . 65

(12)

LISTA DE ABREVIATURAS

ARMA Autoregressive Moving Average - Modelo auto-regressivo de m´edia m´ovel

DCT Discrete Cosine Transform - Transformada Discreta do Cosseno

FPS Frames per Second - Quadros por segundo

HMM-GM Gaussian Mixture Hidden Markov Models

HOG Histogram of Oriented Gradients - Histograma de Gradientes Orientados

KL Kullback-Leibler

KLT Kanade-Lucas-Tomasi

K-NN K-Nearest Neighbor - K-Vizinhos mais pr´oximo

ML Maximum Likelihood - M´aximo de Verossimilhan¸ca

MLP Multi-Layer Perceptrons

MPEG Moving Picture Experts Group

NBC Naive Bayes Classifier

PBAS Pixel-Based Adaptive Segmenter

RGB Red Green Blue - Vermelho Verde Azul

ROI Region of Interest - Regi˜ao de Interesse

SIFT Scale-Invariant Feature Transform

SURF Speeded Up Robust Feature

SOM Self-Organization Maps - Mapa auto-organiz´avel

(13)

SUM ´

ARIO

Cap´ıtulo 1—Introdu¸c˜ao 1 1.1 Objetivo . . . 3 1.1.1 Objetivos Espec´ıficos . . . 3 1.2 Publica¸c˜oes . . . 4 1.3 Organiza¸c˜ao do Texto . . . 4

Cap´ıtulo 2—Estado da Arte 5 2.1 M´etodos de An´alise de Tr´afego . . . 5

2.1.1 Abordagem Local . . . 5

2.1.1.1 Abordagem Bottom-Up . . . 7

2.1.1.2 Abordagem Top-Down . . . 8

2.1.2 Abordagem Global . . . 9

2.2 Segmenta¸c˜ao de Objetos em Movimento . . . 15

2.2.1 Desafios na Segmenta¸c˜ao de Movimento . . . 15

2.2.2 Processo de Subtra¸c˜ao de Fundo . . . 19

2.2.2.1 M´etodos Estat´ısticos . . . 25

2.2.2.2 M´etodos Fuzzy . . . 25

2.2.2.3 M´etodos Neurais . . . 26

2.3 Rastreamento de Objetos em Movimento . . . 26

2.3.1 Representa¸c˜ao de Objetos . . . 28

2.3.2 Rastreamento por Fluxo ´Otico . . . 29

Cap´ıtulo 3—Classifica¸c˜ao do Estado do Trˆansito 32 3.1 Introdu¸c˜ao . . . 32

3.2 Defini¸c˜ao da Regi˜ao de Interesse . . . 34

3.3 Segmenta¸c˜ao da Nuvem de Ve´ıculos . . . 34

3.3.1 Estima¸c˜ao da Densidade de Ve´ıculos . . . 36

3.4 Rastreamento da Nuvem de Ve´ıculos . . . 37

3.4.1 Estima¸c˜ao da Velocidade da Nuvem de Ve´ıculos . . . 40

3.5 Processo de Extra¸c˜ao de Caracter´ısticas e Classifica¸c˜ao . . . 41

3.6 Crit´erios e Limita¸c˜oes do Sistema Proposto . . . 44

Cap´ıtulo 4—Avalia¸c˜ao dos Algoritmos de Subtra¸c˜ao de Fundo 45 4.1 Base de Dados . . . 45

4.2 Metodologia . . . 47

(14)

Cap´ıtulo 5—Avalia¸c˜ao dos Algoritmos de Classifica¸c˜ao 51 5.1 Base de Dados . . . 51 5.2 Metodologia . . . 53 5.2.1 Avalia¸c˜ao do Classificador K-NN . . . 56 5.2.2 Avalia¸c˜ao do Classificador NBC . . . 59 5.2.3 Avalia¸c˜ao do Classificador MLP . . . 61 5.2.4 Avalia¸c˜ao do Classificador SVM . . . 64

Cap´ıtulo 6—Resultados e Considera¸c˜oes Finais 68 6.1 Avalia¸c˜ao dos Resultados . . . 68

6.2 Conclus˜oes . . . 73

(15)

CAP´ITULO 1

INTRODUC

¸ ˜

AO

Sistemas de v´ıdeo para monitoramento de tr´afego urbano tˆem sido adotados, cada

vez mais, com maior frequˆencia. Entretanto, muitos destes sistemas s˜ao operados por humanos, os quais comumente possuem dificuldade em trabalhar por longos per´ıodos de

tempo observando as imagens capturadas do trˆansito. Por esta raz˜ao, o desenvolvimento de sistemas inteligentes e automatizados para realizar este tipo de tarefa tem sido cada

vez mais incentivado. Atrav´es da an´alise do v´ıdeo, podem-se obter muitas informa¸c˜oes relevantes tais como a velocidade do tr´afego em geral, o n´ıvel de ocupa¸c˜ao da faixa e a

velocidade m´edia de carros por faixa, al´em da capacidade de rastrear e contabilizar os ve´ıculos individualmente (BUCH et al., 2011;VALERA; VELASTIN, 2005;KASTRINAKI et al., 2003).

Segundo uma pesquisa publicada por Jerˆonimo (2010) e realizada pela Associa¸c˜ao

Brasileira de Educa¸c˜ao de Trˆansito (ABETRAN), baseada nas informa¸c˜oes adquiridas pelo Departamento Estadual de Trˆansito de S˜ao Paulo (DETRAN-SP), em Janeiro de

2000 a frota registrada era de 3,91 milh˜oes de autom´oveis e em Janeiro de 2010 aumentou para 4,97 milh˜oes, ou seja, um aumento de 27%. Por´em um estudo realizado pelo

Movi-mento Viva Nossa S˜ao Paulo, baseado nas informa¸c˜oes da Companhia de Engenharia de Tr´afego (CET), indica que a m´edia do pico do congestionamento entre manh˜a e tarde era

de 20 km em 2000, tendo saltado para 98 km em 2010, o que significa um aumento de 490%. Deve-se tamb´em considerar que estes percentuais n˜ao s˜ao exatos porque a frota

quantificada foi a de autom´oveis e o congestionamento ´e composto por todos os tipos de ve´ıculos automotores.

Empresas como a Traficon (TRAFICON, 2012), Vysionics (VYSIONICS, 2012), Ipso-tek (IPSOTEK, 2012), Autonomy Virage (VIRAGE, 2012) e ObjectVideo (OBJECTVIDEO, 2012) oferecem solu¸c˜oes baseadas em processamento de v´ıdeo capazes de auxiliar a gest˜ao

(16)

do tr´afego urbano oferecendo sistemas que realizam detec¸c˜ao e contagem de ve´ıculos e

pedestres, reconhecimento de placas e acidentes, alerta de ve´ıculos parados ou em sentido contr´ario, estimativas em rela¸c˜ao a velocidade m´edia e taxa de ocupa¸c˜ao dos ve´ıculos nas

vias, entre outras. No Brasil, empresas como a InviSys (INVISYS, 2012) e Digifort ( DIGI-FORT, 2012) oferecem sistemas similares. A maioria destes sistemas utiliza um conjunto de ferramentas para a segmenta¸c˜ao, classifica¸c˜ao e rastreamento de objetos. Inicialmente o ve´ıculo ´e segmentado atrav´es da remo¸c˜ao do plano de fundo e, em seguida, seu

mo-vimento ´e rastreado. Em alguns sistemas, antes da etapa de rastreamento, ´e realizada uma valida¸c˜ao ou classifica¸c˜ao para identificar o tipo do ve´ıculo em quest˜ao. Portanto,

muitos destes sistemas possuem uma desvantagem, pois sua precis˜ao depende da quali-dade da detec¸c˜ao dos ve´ıculos. A presen¸ca de condi¸c˜oes ambientais adversas tais como

ilumina¸c˜ao (tempo nublado, ensolarado ou `a noite), sombras, perda de foco, imagens de baixa resolu¸c˜ao e aglomera¸c˜oes de ve´ıculos (e.g. cenas de congestionamentos), s˜ao alguns

dos principais fatores que interferem na precis˜ao destes sistemas (CHAN; VASCONCELOS, 2005).

Como pode ser visto em Buch et al. (2011), Valera e Velastin (2005) e Kastrinaki et al. (2003), na literatura s˜ao encontrados in´umeros trabalhos relacionados `a an´alise de

imagens e v´ıdeos de trˆansitos. Para um melhor entendimento, neste trabalho optou-se por agrupar estes diversos trabalhos em duas abordagens denominadas local e global.

A maioria dos sistemas tradicionais s˜ao baseados na abordagem local, produzindo es-tat´ısticas atrav´es da detec¸c˜ao e contagem individual dos ve´ıculos presentes no trˆansito.

Entretanto, estes sistemas comumente falham, especialmente, em cenas de alto conges-tionamentos por conta do aumento da oclus˜ao entre os ve´ıculos, prejudicando assim a

predi¸c˜ao correta da quantidade de ve´ıculos presentes na cena e a correta identifica¸c˜ao do real estado do trˆansito. M´etodos alternativos analisam o v´ıdeo de forma global

con-siderando o trˆansito como uma ´unica entidade – nuvem ou aglomerado de ve´ıculos que possuem um comportamento ´unico. Atrav´es da an´alise do comportamento da nuvem de

ve´ıculos, os m´etodos globais procuram extrair informa¸c˜oes relevantes tais como a den-sidade, velocidade, localiza¸c˜ao e sentido dos ve´ıculos presentes na cena, favorecendo a

(17)

identifica¸c˜ao do real estado do trˆansito.

Este trabalho prop˜oe um m´etodo para classifica¸c˜ao do estado do trˆansito utilizando uma abordagem baseada em contexto global. Para determinar o estado do trˆansito,

optou-se por utilizar duas propriedades para classificar o trˆansito em trˆes n´ıveis de con-gestionamento: baixo, m´edio e alto. Tais propriedades s˜ao representadas pela densidade

m´edia da nuvem de ve´ıculos e sua respectiva velocidade m´edia. Estas duas propriedades foram combinadas em um vetor de caracter´ısticas que ´e utilizado para compor o conjunto

de treinamento. Os resultados experimentais demonstram uma taxa de acerto de 94,5% em um conjunto de 254 v´ıdeos de trˆansito utilizando redes neurais artificiais.

Nas pr´oximas se¸c˜oes, s˜ao apresentados o objetivo geral deste trabalho e a orga-niza¸c˜ao do texto.

1.1 OBJETIVO

Neste trabalho ´e proposto um m´etodo baseado em contexto global capaz de classi-ficar o estado do trˆansito em trˆes n´ıveis de congestionamento: baixo, m´edio e alto.

1.1.1 Objetivos Espec´ıficos

Os objetivos espec´ıficos deste trabalho s˜ao:

• Estudar as caracter´ısticas dos m´etodos tradicionais utilizados em an´alise de tr´afego urbano.

• Desenvolver uma solu¸c˜ao alternativa utilizando uma abordagem baseada em con-texto global para as limita¸c˜oes dos modelos tradicionais.

• Realizar testes de desempenho e precis˜ao do novo m´etodo.

(18)

1.2 PUBLICAC¸ ˜OES

O presente trabalho foi aceito para publica¸c˜ao no 10th IASTED International

Conference on Signal Processing, Pattern Recognition and Applications (SPPRA) sob o t´ıtulo “Highway Traffic Congestion Classification Using Holistic Properties”(SOBRAL et al., 2013).

1.3 ORGANIZAC¸ ˜AO DO TEXTO

O texto est´a organizado da seguinte forma:

• No Cap´ıtulo 2 ´e realizada uma revis˜ao da literatura abordando os principais m´etodos utilizados em processamento de imagens e v´ıdeos para an´alise de tr´afego urbano;

• No Cap´ıtulo 3, o sistema proposto para classifica¸c˜ao do estado do trˆansito ´e deta-lhado;

• O Cap´ıtulo 4 apresenta os resultados da avalia¸c˜ao dos algoritmos de subtra¸c˜ao de fundo;

• No Cap´ıtulo 5 ´e realizada uma avalia¸c˜ao dos algoritmos de classifica¸c˜ao;

• Finalmente, o Cap´ıtulo 6 versa sobre os resultados obtidos e as considera¸c˜oes finais do presente trabalho.

(19)

CAP´ITULO 2

ESTADO DA ARTE

Neste cap´ıtulo ´e apresentada uma vis˜ao geral do estado da arte relacionando as ferramentas comumente utilizadas no processamento de imagens e v´ıdeos para an´alise de

tr´afego urbano.

2.1 M´ETODOS DE AN ´ALISE DE TR ´AFEGO

Nesta se¸c˜ao s˜ao apresentados os elementos utilizados em sistemas de an´alise de

tr´afego. Estes elementos foram agrupados em duas abordagens denominadas: local e global.

2.1.1 Abordagem Local

Os m´etodos locais consistem basicamente no rastreamento e contabiliza¸c˜ao

indivi-dual dos ve´ıculos detectados para estimar a quantidade, densidade e fluxo do tr´afego em uma determinada localidade. Segundo Buch et al. (2011), os m´etodos locais s˜ao

agru-pados em duas categorias conhecidas como top-down e bottom-up. As diferen¸cas entre estas duas categorias s˜ao detalhadas nas pr´oximas se¸c˜oes. Na Figura 2.1 s˜ao ilustrados

alguns sistemas baseados na abordagem local para detec¸c˜ao, contagem, rastreamento, classifica¸c˜ao e estimativa de velocidade de ve´ıculos.

(20)

(a) Sistema da AgilityVideo (2012) para contagem de ve´ıculos.

(b) Sistema da VaxtorSystems (2012) para estimativa de velocidade de ve´ıculos.

(c) Sistema da I2V (2012) para contagem de ve´ıculos por classifica¸c˜ao.

(21)

Vídeo Extração de Características Classificação do Veículo Rastreamento do Veículo CAR CAR CAR CAR ...

Figura 2.2: Diagrama de blocos de um sistema de an´alise de v´ıdeo baseado na abordagem bottom-up.

2.1.1.1 Abordagem Bottom-Up .

Na abordagem bottom-up, primeiramente s˜ao aplicados m´etodos de extra¸c˜ao de ca-racter´ısticas que identificam quais s˜ao as caracter´ısticas relevantes em uma imagem. Em

seguida, estas caracter´ısticas s˜ao utilizadas para treinar um algoritmo classificador para determinar quais e quantos objetos de interesse (e.g. ve´ıculos) est˜ao contidos na imagem.

Ap´os a etapa de classifica¸c˜ao, ´e realizado o rastreamento do(s) objeto(s) identificado(s). A Figura 2.2 representa o modelo descrito.

Diversos m´etodos de extra¸c˜ao de caracter´ısticas foram desenvolvidos nos ´ultimos anos. Os m´etodos comumente utilizados em trabalhos relacionados, n˜ao se restringindo

a esta lista, s˜ao: SIFT (Scale-Invariant Feature Transform) proposta por Lowe (1999), SURF (Speeded Up Robust Feature) de Bay et al. (2008), HOG (Histogram of Oriented

Gradients) de Dalal e Triggs (2005), Haar wavelet de Papageorgiou et al. (1998) e Haar-like de Viola e Jones (2001).

Alguns autores como Cheng e Chen (2011) realizaram a fus˜ao de informa¸c˜oes de borda e cor para detectar ve´ıculos em imagens. Lan e Zhang (2010) sugerem um novo

extrator de bordas para detec¸c˜ao de ve´ıculos em tempo real. Thi et al. (2008) utilizaram an´alise de componentes principais para detectar e classificar ve´ıculos em imagens

notur-nas. Acunzo et al. (2007) realizaram a detec¸c˜ao de ve´ıculos utilizando o histograma de intensidade dos pixels em diferentes contextos. Alefs (2006) utilizou HOG e Haar-like na

(22)

Vídeo Subtração de Fundo Classificação do Veículo Rastreamento do Veículo CAR CAR ... Modelo do plano de fundo CAR

Figura 2.3: Diagrama de blocos de um sistema de an´alise de v´ıdeo baseado na abordagem top-down.

2.1.1.2 Abordagem Top-Down .

Tipicamente, nos m´etodos pertencentes `a categoria top-down, inicialmente ´e reali-zada uma estimativa do plano de fundo. Nesta etapa s˜ao utilizadas as primeiras imagens

ou quadros do v´ıdeo, preferencialmente contendo nenhum objeto em movimento. Em seguida, ap´os a etapa de aprendizado, as imagens consecutivas s˜ao comparadas com o

modelo estimado do plano de fundo. A diferen¸ca absoluta entre a imagem atual e o plano de fundo resulta em uma nova imagem onde os pixels n˜ao nulos1 representam as

regi˜oes onde se encontram os poss´ıveis objetos em movimento – denominada tamb´em de imagem de primeiro plano. Cada regi˜ao ´e formada pelo agrupamento dos pixels n˜ao nulos

que possuem uma determinada distˆancia entre si formando uma silhueta. O processo de classifica¸c˜ao consiste em identificar qual r´otulo est´a associado a uma regi˜ao espec´ıfica,

permitindo assim realizar o rastreamento do objeto de interesse. A Figura 2.3 ilustra o modelo em quest˜ao.

Exemplos de sistemas que pertencem a esta categoria podem ser encontrados em Mithun et al. (2012), Lai et al. (2010), Buch et al. (2010), Monteiro et al. (2008), Morris e

Trivedi (2006), Hsieh et al. (2006). ´E importante ressaltar que nem todos os sistemas ba-seados na abordagem top-down utilizam estritamente todas as etapas descritas na Figura

2.3. Por exemplo, em JunFang et al. (2011) e Luo e Zhu (2010), os autores segmentam e contabilizam os ve´ıculos em uma rodovia sem a necessidade de classifica¸c˜ao.

(23)

2.1.2 Abordagem Global

As solu¸c˜oes tradicionais baseiam-se na identifica¸c˜ao e contagem individual de ve´ıculos,

calculando a quantidade de ve´ıculos em um determinado per´ıodo de tempo para estimar o volume de ve´ıculos e o estado do trˆansito (BUCH et al., 2010). Por´em, muitos destes sistemas falham na presen¸ca de uma grande quantidade de ve´ıculos em movimento, tal como acontece em um trˆansito congestionado. A partir da Figura 2.4 ´e poss´ıvel perceber

que a detec¸c˜ao e o rastreamento de um ve´ıculo espec´ıfico em um aglomerado de ve´ıculos em movimento ´e muitas vezes dif´ıcil devido, por exemplo, a grande quantidade de oclus˜ao

entre os ve´ıculos presentes na cena. Portanto, a precis˜ao dos m´etodos tradicionais tendem a decrescer `a medida que o tamanho do aglomerado de ve´ıculos aumenta (ZHAN et al., 2008; JUNIOR et al., 2010). M´etodos alternativos para lidar com este tipo de problema fez surgir um novo campo de estudo denominado crowd analysis ou an´alise de aglomerados.

A an´alise do comportamento de aglomerados de objetos em movimento tais como pessoas ou ve´ıculos ´e um importante t´opico de pesquisa no campo de vis˜ao

computacio-nal. Atrav´es deste estudo ´e poss´ıvel extrair muitas informa¸c˜oes importantes que podem ser utilizadas em in´umeras aplica¸c˜oes tais como:

Sistemas inteligentes A an´alise de aglomerados pode ser usada para auxiliar ou guiar algu´em em um ambiente lotado de pessoas (e.g. museu). Outras aplica¸c˜oes incluem

´

areas urbanas e nas vias de trˆansito orientando os ve´ıculos em uma rota alternativa evi-tando congestionamentos.

Vigilˆancia A an´alise de aglomerados pode ser utilizada para detectar eventos sus-peitos e anomalias (e.g. brigas em uma multid˜ao de pessoas ou acidentes). Tamb´em pode

(24)

ser utilizada para identificar ve´ıculos que realizam manobras indevidas no trˆansito (e.g.

ve´ıculos em sentido contr´ario) e detec¸c˜ao de congestionamentos.

Como descrito em Junior et al. (2010), existem duas abordagens para realizar a

an´alise de comportamento de aglomerados. A abordagem baseada em objetos procura inferir o comportamento do aglomerado atrav´es da an´alise de elementos individuais da

cena. Um exemplo t´ıpico ´e o rastreamento de alguns indiv´ıduos em particular dentro de uma multid˜ao com o objetivo de determinar o fluxo do movimento do aglomerado. Por

outro lado, a abordagem baseada em contexto global (ou hol´ıstica) trata o aglomerado como uma ´unica entidade, n˜ao sendo necess´ario realizar a detec¸c˜ao e rastreamento de

cada indiv´ıduo. Muitas vezes ´e dif´ıcil rastrear um determinado indiv´ıduo em uma cena com uma grande quantidade de objetos em movimento (e.g. pessoas ou ve´ıculos).

Nes-tes casos, a abordagem global pode ser uma alternativa mais apropriada (JUNIOR et al., 2010). Os m´etodos globais procuram obter uma informa¸c˜ao geral da cena, tais como fluxo

principal do movimento, desprezando informa¸c˜oes locais (e.g. uma pessoa ou ve´ıculo se movendo pelo fluxo).

Os principais atributos utilizados na an´alise de comportamento de aglomerados s˜ao a densidade, velocidade, dire¸c˜ao e localiza¸c˜ao (SAXENA et al., 2008; ZHAN et al., 2008; JU-NIOR et al., 2010). Estas informa¸c˜oes muitas vezes s˜ao extra´ıdas de forma autom´atica utilizando t´ecnicas de processamento digital de imagens e vis˜ao computacional.

In-forma¸c˜oes vindas de especialistas tamb´em podem ser utilizadas para complementar o sistema. Os atributos s˜ao utilizados para criar um modelo do comportamento dinˆamico

do aglomerado. Atrav´es deste modelo, um mecanismo de inferˆencia ´e utilizado para de-tectar eventos, anomalias, divergˆencias, entre outras caracter´ısticas associadas ao estado

do aglomerado. A Figura 2.5 ilustra o processo em quest˜ao.

Saxena et al. (2008), Zhan et al. (2008) e Junior et al. (2010) citam que muitas

vezes a densidade de um aglomerado pode ser obtida atrav´es do processo de subtra¸c˜ao de fundo (JODOIN et al., 2012), dos vetores de fluxo ´otico (IHADDADENE; DJERABA, 2008;

SANTORO et al., 2010;RYAN et al., 2011; HE; LIU, 2012) ou de caracter´ısticas extra´ıdas da textura (MA et al., 2010; RYAN et al., 2011), borda (SHIYAO et al., 2012) e no dom´ınio da

(25)

Figura 2.5: Diagrama de blocos de um sistema t´ıpico para an´alise de comportamento de aglomerados.

frequˆencia (HSU et al., 2011). Alguns autores tamb´em utilizam m´etodos de fluxo ´otico para determinar a dire¸c˜ao e velocidade de um aglomerado de objetos em movimento (SANTORO et al., 2010;RYAN et al., 2011).

A densidade de um aglomerado tamb´em pode ser utilizada para estimar a quanti-dade de objetos (e.g. pessoas ou ve´ıculos) em uma multid˜ao (ZHAN et al., 2008; JUNIOR et al., 2010). Em Ma et al. (2004) os autores estabelecem uma rela¸c˜ao linear (ap´os uma corre¸c˜ao geom´etrica) entre a quantidade de pessoas de uma multid˜ao com o n´umero de

pixels presentes na m´ascara de primeiro plano obtida ap´os a subtra¸c˜ao de fundo. E´ assumido que uma certa quantidade de pixels ´e proporcional a uma quantidade de

pes-soas considerando que a oclus˜ao seja pequena. Em Chan e Vasconcelos (2009) e Chan e Vasconcelos (2012) os autores utilizam de 29 a 30 caracter´ısticas extra´ıdas de v´ıdeos

de aglomerado de pedestres para estimar a quantidade de pessoas que est˜ao presentes na cena.

M´etodos globais utilizados para an´alise de tr´afego podem ser encontrados em Porikli e Li (2004), Chan e Vasconcelos (2005), Lee e Bovik (2009) e Derpanis e Wildes (2011).

Em Porikli e Li (2004) os autores realizaram a classifica¸c˜ao do trˆansito em cinco estados (livre, congest˜ao baixa, m´edia, alta e trˆansito parado – alto congestionamento)

utilizando Cadeias Ocultas de Markov com Mistura de Gaussianas (HMM-GM ou Gaus-sian Mixture Hidden Markov Models). As caracter´ısticas para treinamento foram obtidas

(26)

a partir dos coeficientes da transformada discreta do cosseno (DCT ou Discrete Cosine

Transform) e dos vetores de fluxo extra´ıdos do padr˜ao de compress˜ao de v´ıdeo MPEG. As Cadeias de Markov s˜ao treinadas previamente de modo offline e a classifica¸c˜ao ´e

re-alizada pelo m´etodo de m´axima verossimilhan¸ca (ML - Maximum Likelihood ) em tempo real. Segundo os autores, o sistema proposto ´e robusto quanto a varia¸c˜oes de ilumina¸c˜ao

e os resultados demonstraram uma precis˜ao de 95,50% em 163 minutos de v´ıdeos obtidos de quatro cˆameras externas em autoestradas nos EUA.

Em Chan e Vasconcelos (2005), os autores criaram um modelo autoregressivo do tipo ARMA (autoregressive-moving-average) para representar o comportamento

espa¸co-temporal dos pixels em um v´ıdeo (ver Figura 2.6a). Os autores citam que o m´etodo proposto tamb´em pode ser utilizado para recupera¸c˜ao ou busca de v´ıdeos que possuem

padr˜oes comportamentais similares. Segundo os autores, uma das vantagens desta pro-posta ´e a robustez quanto a varia¸c˜oes de luminosidade, oclus˜ao, emba¸camento da imagem

e baixa resolu¸c˜ao dos v´ıdeos. Os resultados obtidos demonstram uma precis˜ao de 94,50% em um conjunto com 254 v´ıdeos gravados a partir de uma cˆamera estacion´aria em uma

via de Seattle nos EUA.

Lee e Bovik (2009) utilizam o histograma dos vetores de fluxo ´otico2 para detectar

anomalias no fluxo de tr´afego urbano. Durante o treinamento, os autores utilizaram os primeiros 1000 quadros do v´ıdeo para determinar as distribui¸c˜oes dos vetores de fluxo que

representam o trˆansito em um estado normal. Na etapa de testes, um novo histograma ´

e calculado a partir de um bloco de quadros contendo um segundo de v´ıdeo, e ent˜ao ´e

realizada uma compara¸c˜ao de similaridade entre os dois histogramas atrav´es do m´etodo de Kullback-Leibler (KL). Segundo os autores, a abordagem proposta pode ser utilizada

para extrair estat´ısticas do fluxo do trˆansito.

Derpanis e Wildes (2011) citam que o m´etodo elaborado por Chan e Vasconcelos

(2005) requer um alto custo computacional e que tamb´em n˜ao ´e adequado para uso em aplica¸c˜oes de tempo real e sugerem o uso de um filtro espa¸co-temporal orientado para

2Segundo Catalano et al. (2009), fluxo ´otico ´e o campo que descreve os deslocamentos ocorridos entre duas imagens. O campo de movimento obtido por fluxo ´otico ´e frequentemente descrito no dom´ınio discreto atrav´es de um mapeamento vetorial conhecido como vetores de deslocamento.

(27)

classifica¸c˜ao do estado do trˆansito. Os resultados apresentados pelos autores,

demons-tram que o m´etodo proposto obteve 95,28% de precis˜ao, superando o resultado de Chan e Vasconcelos (2005) utilizando o mesmo conjunto de v´ıdeos e metodologia de treinamento

e teste.

Comercialmente, algumas empresas est˜ao trabalhando em solu¸c˜oes hol´ısticas para

an´alise de imagens e v´ıdeos, desenvolvendo sistemas que permitem a detec¸c˜ao de anoma-lias ou padr˜oes comportamentais em aglomerados de pessoas e ve´ıculos. Como exemplo,

a ObjectVideo (2012) oferece uma biblioteca de an´alise de v´ıdeo com foco em seguran¸ca e trˆansito. Na Figura 2.6b ´e apresentado um sistema comercializado pela ObjectVideo

(2012) que determina o estado de uma via do trˆansito de modo hol´ıstico. Inicialmente uma via ´e delimitada manualmente e em seguida o sistema realiza a classifica¸c˜ao do

trˆansito em trˆes estados distindos (leve, m´edio e pesado - alta congest˜ao).

O m´etodo proposto no presente trabalho tamb´em procura realizar a classifica¸c˜ao do

estado do trˆansito utilizando uma abordagem baseada em contexto global. Para determi-nar o estado do trˆansito, optou-se por utilizar duas propriedades para classificar o trˆansito

em trˆes n´ıveis de congestionamento: baixo, m´edio e alto. Tais propriedades s˜ao repre-sentadas pela densidade m´edia da nuvem de ve´ıculos e sua respectiva velocidade m´edia.

No presente trabalho, para estimar a densidade da nuvem de ve´ıculos e sua respectiva velocidade, utilizou-se o processo de subtra¸c˜ao de fundo e o rastreamento de pontos de

interesse por fluxo ´otico. Nas pr´oximas se¸c˜oes s˜ao apresentados os m´etodos comumente utilizados para segmenta¸c˜ao de objetos em movimento por subtra¸c˜ao de fundo. Em

se-guida, s˜ao introduzidos os m´etodos comumente utilizados para rastreamento de objetos em movimento por fluxo ´otico.

(28)

(a) Classifica¸c˜ao baseada no modelo autoregressivo ARMA (CHAN; VASCONCELOS, 2005).

.

(b) Sistema de classifica¸c˜ao do estado do trˆansito da ObjectVideo (2012).

(29)

Vídeo modelo de plano Inicialização do de fundo Detecção do primeiro plano Manutenção do modelo de plano de fundo n ≤ T n > T

Figura 2.7: Diagrama de blocos do processo de subtra¸c˜ao de fundo.

2.2 SEGMENTAC¸ ˜AO DE OBJETOS EM MOVIMENTO

Consiste em geral na compara¸c˜ao de uma imagem observada com outra imagem que representa uma estimativa do plano de fundo. As regi˜oes que possuem maior diferen¸ca

significativa, acima de um determinado limiar entre a imagem de entrada e a imagem de referˆencia (plano de fundo), indicam a localiza¸c˜ao de objetos de interesse em movimento.

Este processo tamb´em ´e denominado de subtra¸c˜ao de fundo, pois, a partir de uma imagem de entrada, a primeira fase da segmenta¸c˜ao ´e obtida subtraindo desta imagem de entrada

a imagem de fundo. Basicamente o processo de subtra¸c˜ao de fundo consiste em: a) na inicializa¸c˜ao do modelo do plano de fundo at´e um determinado limiar, b) a manuten¸c˜ao

deste modelo ap´os o limiar, e, c) a detec¸c˜ao do primeiro plano (BOUWMANS, 2012). A Figura 2.7 apresenta as etapas relacionadas ao processo de subtra¸c˜ao de fundo.

Como pode ser visto em Bouwmans (2012, 2011), Buch et al. (2011), Brutzer et al. (2011), dezenas de m´etodos de subtra¸c˜ao de fundo foram desenvolvidos ao longo

dos ´ultimos anos. A seguir ´e realizada uma descri¸c˜ao dos principais fatores que podem interferir no processo de subtra¸c˜ao de fundo.

2.2.1 Desafios na Segmenta¸c˜ao de Movimento

Durante a segmenta¸c˜ao de movimento, os algoritmos de subtra¸c˜ao de fundo muitas

(30)

luminosi-dade e ru´ıdos). Tais situa¸c˜oes podem variar dependendo do ambiente no qual a cˆamera

de v´ıdeo est´a em funcionamento. Os ambientes internos tipicamente s˜ao menos propensos a eventos inesperados do que cˆameras externas. Bouwmans (2011) e Brutzer et al. (2011)

relacionam as situa¸c˜oes mais comuns que ocorrem durante a subtra¸c˜ao de fundo:

1. Varia¸c˜ao Gradual de Luminosidade ´

E necess´ario que o modelo do plano de fundo se adapte `as mudan¸cas graduais de

luminosidade do ambiente. Em ambientes externos isto acontece ao longo do dia.

2. Varia¸c˜ao Repentina de Luminosidade

Tipicamente em ambientes internos isto ocorre quando uma pessoa liga ou desliga

uma lˆampada. Os algoritmos de subtra¸c˜ao de fundo utilizados neste tipo de ambi-ente precisam lidar com tais problemas.

3. Ambientes Dinˆamicos

Caracter´ıstica frequente em ambientes externos, o modelo do plano de fundo precisa se adaptar a cenas que possuem elementos em movimento que n˜ao devem ser

condi-derados como primeiro plano tais como, folhas de ´arvore agitadas pelo vento, chuva, entre outros. Algoritmos de subtra¸c˜ao de fundo robustos a tais fatores tamb´em

po-dem ser denominados algoritmos multimodais.

4. Camuflagem

Algumas vezes os objetos de interesse podem ter uma aparˆencia similar ao plano de

fundo dificultando sua segmenta¸c˜ao. Isto ´e especialmente importante em aplica¸c˜oes de vigilˆancia.

5. Sombras

Muitas vezes as sombras relativas aos objetos de primeiro plano precisam ser tra-tadas para n˜ao interferir nos processos posteriores.

(31)

6. Bootstrapping

Alguns algoritmos de subtra¸c˜ao de fundo exigem que, durante a etapa de

inicia-liza¸c˜ao do modelo do plano de fundo, nenhum objeto de interesse esteja presente na cena.

7. Ru´ıdos

Durante seu funcionamento, as cˆameras podem apresentar ru´ıdos e falhas durante a captura do v´ıdeo.

8. Instabilidade da imagem

Condi¸c˜oes ambientais adversas tais como, ventos fortes, tremores, entre outros, podem provocar o movimento n˜ao desejado em cˆameras est´aticas prejudicanto a

qualidade da segmenta¸c˜ao.

A Figura 2.8 ilustra alguns exemplos de cenas contendo fatores que podem interferir na qualidade da segmenta¸c˜ao dos algoritmos de subtra¸c˜ao de fundo.

Na pr´oxima se¸c˜ao ´e apresentada uma breve introdu¸c˜ao ao processo de subtra¸c˜ao de fundo. Tamb´em s˜ao relacionados os m´etodos comumente utilizados para subtra¸c˜ao de

(32)

(a) Imagem noturna. (b) Aglomerado de ve´ıculos.

(c) Filmagem frontal. (d) Mudan¸cas de luminosidade.

(e) Sombras fortes. (f ) Luz incidente na cˆamera.

(33)

2.2.2 Processo de Subtra¸c˜ao de Fundo

Como visto anteriormente, no processo de subtra¸c˜ao de fundo inicialmente ´e preciso

criar ou inicializar um modelo do plano de fundo. Isto pode ser realizado de m´ultiplas formas. A mais simples, consiste em definir manualmente uma imagem que representa

o plano de fundo contendo nenhum objeto de interesse. Por´em, utilizar uma imagem est´atica nem sempre ´e a melhor op¸c˜ao. Por exemplo, em locais onde pode ocorrer

mu-dan¸cas de luminosidade a segmenta¸c˜ao ir´a falhar, pois a imagem de primeiro plano incluir´a as regi˜oes que sofreram altera¸c˜oes de luminosidade. Em Lai e Yung (1998), o autor sugere

a inicializa¸c˜ao e manuten¸c˜ao do modelo do plano de fundo atrav´es da m´edia aritm´etica (simples ou ponderada) dos pixels entre sucessivas imagens. Assim, considerando um

v´ıdeo V de comprimento N composto por I imagens definido por V = I1, ..., IN.

Con-siderando que as imagens possuem apenas um canal (escala de cinza), uma imagem Ii

pode ser representada por uma matriz de intensidade. Logo, o modelo do plano de fundo, representado por B, ´e dado por

B = 1 N N X i=1 Ii. (.)

Tipicamente a Equa¸c˜ao . ´e utilizada para inicializar o modelo do plano de fundo, por´em, durante sua atualiza¸c˜ao ´e comum a implementa¸c˜ao da Equa¸c˜ao . em sua forma

recursiva como pode ser visto na Equa¸c˜ao ..

Bn= (1 − α)Bn−1+ αIn, (.)

onde Bn representa o modelo do plano de fundo no instante n dado por n ∈ [1, N ] e

α ∈ [0, 1] ´e a constante de aprendizado. A principal vantagem deste m´etodo ´e a

manu-ten¸c˜ao adaptativa do modelo do plano de fundo conforme mudan¸cas ocorrem na cena. Por´em, alguns autores como Bouwmans (2012) e Sigari et al. (2008) esclarecem que os

pixels classificados como primeiro plano acabam sendo computados na atualiza¸c˜ao do modelo do plano de fundo. Sendo assim, ´e sugerido um m´etodo seletivo para solucionar

(34)

(a) Amostra de um v´ıdeo de entrada em escala de cinza.

(b) Modelo do plano de fundo ap´os 750 itera¸c˜oes com α = 0.01.

Figura 2.9: Exemplo de aprendizado adaptativo na cria¸c˜ao do modelo de plano de fundo.

este problema. No m´etodo seletivo, o modelo do plano de fundo sofre atualiza¸c˜ao apenas nas regi˜oes onde nenhum objeto em movimento foi detectado. Entretanto, considerando

um pixel com localiza¸c˜ao definida por (x, y) em uma imagem I, tamb´em expresso por I(x, y), durante a manuten¸c˜ao seletiva, o novo modelo do plano de fundo ´e dado por

Bn(x, y) =

 

(1 − α)Bn−1(x, y) + αIn(x, y) se o pixel (x, y) ∈ plano de fundo.

Bn−1(x, y) se o pixel (x, y) ∈ primeiro plano.

, (.)

sendo Bn(x, y) e In(x, y) o valor do pixel (x, y) nas imagens B e I no instante n dado

por n ∈ [1, N ] em que N ´e a quantidade total de quadros de um v´ıdeo V . Esta equa¸c˜ao ´

e aplicada em todos os pixels das imagens B e I.

Para verificar se um pixel pertence ou n˜ao ao plano de fundo, inicialmente pode-se utilizar a Equa¸c˜ao . nos primeiros quadros do v´ıdeo e, em seguida, determinar a imagem

de primeiro plano comparando o quadro atual com o modelo obtido do plano de fundo. Em geral, durante a compara¸c˜ao ´e utilizado um limiar, definido por T , e o resultado ´e

uma imagem bin´aria F representando o primeiro plano. Esta opera¸c˜ao ´e definida por

Fn(x, y) =

  

1 se d(In(x, y), Bn−1(x, y)) > T

0 caso contr´ario

(35)

(a) Diferen¸ca absoluta entre o quadro de entrada e o modelo do plano de fundo.

(b) M´ascara de primeiro plano ap´os aplica¸c˜ao de um limitar T = 0.1.

Figura 2.10: Determina¸c˜ao da m´ascara de primeiro plano.

onde a fun¸c˜ao d(I(x, y), B(x, y)) = |I(x, y) − B(x, y)| ´e a diferen¸ca absoluta entre dois pixels.

Se o pixel da imagem I possuir um valor n˜ao nulo na imagem de primeiro plano F , ent˜ao o pixel ´e considerado como pixel do primeiro plano, caso contr´ario, ´e um pixel do

plano de fundo. A Equa¸c˜ao . tamb´em pode ser considerada como uma fun¸c˜ao degrau, por´em Sigari et al. (2008) sugere a utiliza¸c˜ao de uma fun¸c˜ao de satura¸c˜ao linear definida

por F sn(x, y) =     

1 se d(In(x, y), Bn−1(x, y)) > T s.

I(x, y) − B(x, y) T s

caso contr´ario

, (.)

onde T s ´e o limiar.

Entretanto o resultado da Equa¸c˜ao . consiste em uma imagem com valores reais

entre [0, 1]. Para determinar a imagem bin´aria de primeiro plano, Sigari et al. (2008) su-gere a utiliza¸c˜ao de um filtro passa-baixa (LPF – low-pass filter ). Sendo assim, a imagem

de primeiro plano ´e definida como

Fn(x, y) =

  

1 se |LP F (F sn(x, y))| > T .

0 caso contr´ario

. (.)

(36)

plano devido a utiliza¸c˜ao de um filtro passa-baixa (SIGARI et al., 2008).

Os m´etodos apresentados at´e ent˜ao se baseiam apenas no n´ıvel de intensidade dos pixels de uma imagem. Alguns autores, tais como Zhang e Xu (2006), Kristensen et al.

(2006), Jain et al. (2007), Yao e Odobez (2007), Jian et al. (2008), Baf et al. (2008a), Azab et al. (2010) e Bouwmans (2012) sugerem a utiliza¸c˜ao de caracter´ısticas extra´ıdas

do espa¸co de cor, textura e bordas da imagem. A seguir s˜ao brevemente apresentados alguns dos m´etodos comumente utilizados para extrair caracter´ısticas relativas a cor e

textura.

Caracter´ısticas de Cor .

A escolha do espa¸co de cor ´e um dos principais fatores para realizar uma seg-menta¸c˜ao eficiente. Uma compara¸c˜ao entre espa¸co de cores pode ser encontrada em

Kristensen et al. (2006) e Kanprachar e Tangkawanit (2007). O espa¸co de cor RGB ´e comumente utilizado, por´em Bouwmans (2012) n˜ao recomenda a escolha deste, pois as

trˆes componentes do espa¸co de cor RGB s˜ao sens´ıveis a varia¸c˜oes de luminosidade. Zhang e Xu (2006) sugerem a utiliza¸c˜ao do espa¸co de cor Ohta que ´e uma transforma¸c˜ao linear

do espa¸co de cor RGB. A Equa¸c˜ao . apresenta a rela¸c˜ao entre o espa¸co de cor RGB e Ohta.

O1 = (R + G + B)/3

O2 = (R − B)/2

O3 = (2G − R − B)/4

(.)

Posteriormente Baf et al. (2008a) obtiveram melhores resultados utilizando o espa¸co de cor YCrCb. Os autores utilizaram o canal Cr e Cb e desprezaram o canal Y por sua

sensibilidade a altera¸c˜oes de luminosidade. A Equa¸c˜ao . apresenta a rela¸c˜ao entre o espa¸co de cor RGB e YCrCb.

Y = 0.25R + 0.504G + 0.098B + 16

Cr = 0.439R − 0.368G − 0.071B + 128

Cb = −0.148R − 0.291G + 0.439B + 128

(37)

Para realizar a segmenta¸c˜ao do primeiro plano utilizando informa¸c˜oes de cores, Zhang

e Xu (2006) sugerem uma fun¸c˜ao de medida de similaridade entre duas imagens. Dada uma imagem de entrada I e uma imagem B representando o plano de fundo, o grau de

similaridade entre os pixels ´e definido por:

Sk(x, y) =                Ik(x, y) Bk(x, y) se Ik(x, y) < Bk(x, y). 1 se Ik(x, y) = Bk(x, y). Bk(x, y) Ik(x, y) se Ik(x, y) > Bk(x, y). (.)

onde k ∈ 1, 2, 3 representa um dos canais da imagem. Nota-se que Sk(x, y) assume valores

entre 0 e 1.

Caracter´ısticas de Textura .

A segmenta¸c˜ao do primeiro plano tamb´em pode ser realizada pela textura. Zhang

e Xu (2006) e Baf et al. (2008a) sugerem a utiliza¸c˜ao do m´etodo LBP (Local Binary Pattern) originalmente proposto por Ojala et al. (1996). Segundo os autores, o m´etodo

LBP possui um baixo custo computacional e robustez quanto a varia¸c˜ao monotˆonica nos n´ıveis de cinza que ocorrem durante altera¸c˜oes de luminosidade. O m´etodo LBP ´e

definido por: LBP (x, y) = N −1 X i=1 s(gi− g)2i (.)

onde g corresponde ao n´ıvel de cinza do pixel centrado em (x, y) em uma imagem I, gi o

n´ıvel de cinza do i-´esimo pixel vizinho e 2i representa o peso do i-´esimo pixel vizinho. A fun¸c˜ao s ´e definida por:

s(gi− g) =

 

1 se gi− g ≥ 0.

0 caso contr´ario

(.)

Originalmente o m´etodo LBP considera uma vizinhan¸ca de 3 x 3. A Figura 2.11 apresenta

(38)

(a) Imagem original. (b) Imagem LBP.

Figura 2.11: Exemplo de uma imagem de entrada e a imagem LBP correspondente.

Dada duas texturas definidas por LI e LB, sendo LI a textura da imagem de entrada

I e LBa textura do plano de fundo B, Zhang e Xu (2006) sugere que o grau de similaridade

entre estas duas texturas pode ser calculado atrav´es da Equa¸c˜ao ..

Sk(x, y) =                LI k(x, y) LB k(x, y) se LI k(x, y) < LBk(x, y). 1 se LI k(x, y) = LBk(x, y). LBk(x, y) LI k(x, y) se LIk(x, y) > LBk(x, y). (.)

onde LI(x, y) e LB(x, y) s˜ao obtidas ap´os a aplica¸c˜ao do m´etodo LBP no pixel (x, y) da

imagem de entrada e do plano de fundo. Nota-se que Sk(x, y) assume valores entre 0 e

1. Sk(x, y) assume valores pr´oximos de 1 quando LI(x, y) e LB(x, y) s˜ao muito similares.

O processo de subtra¸c˜ao de fundo pode-se tornar mais robusto com a utiliza¸c˜ao de caracter´ısticas de cor e textura. Zhang e Xu (2006) sugerem a fus˜ao destas caracter´ısticas

utilizando uma abordagem fuzzy com o uso da Integral de Sugeno (SUGENO, 1974). Pos-teriormente Baf et al. (2008a) e Azab et al. (2010) obtiveram melhores resultados com o

uso da Integral de Choquet (CHOQUET, 1953).

Conforme apresentado inicialmente, uma grande quantidade de m´etodos de

sub-tra¸c˜ao de fundo foram desenvolvidos ao longo dos anos. Neste trabalho alguns m´etodos foram agrupados em categorias. Cada categoria ´e descrita abaixo.

(39)

2.2.2.1 M´etodos Estat´ısticos .

Wren et al. (1997) propuseram que a s´erie temporal de cada pixel de uma imagem pode ser modelada atrav´es de uma fun¸c˜ao de densidade de probabilidade considerando

uma distribui¸c˜ao gaussiana. Posteriormente Stauffer e Grimson (1999) esclarecem que apenas uma gaussiana ´e insuficiente para modelar a dinˆamica do plano de fundo e sugere

a utiliza¸c˜ao de uma mistura de gaussianas. Stauffer e Grimson (1999) citam que trˆes a cinco gaussianas por pixel s˜ao suficientes para modelar a maior parte das cenas

comu-mente encontradas em ambientes externos. O n´umero de gaussianas tamb´em influencia no desempenho do algoritmo, principalmente em imagens multi-canais, tais como

ima-gens coloridas no formato RGB. Cada pixel em cada componente da imagem possuir´a uma mistura de gaussianas consumindo assim uma maior quantidade de mem´oria e

po-der computacional. Em seguida Elgammal et al. (2000) prop˜oem a modelagem do plano de fundo de forma n˜ao-param´etrica. Posteriormente Zivkovic (2004) e Zivkovic e

Heij-den (2006) aperfei¸coaram o m´etodo proposto por Stauffer e Grimson (1999) adicionando suporte a detec¸c˜ao de sombras e sele¸c˜ao adaptativa do n´umero de gaussianas por pixel

aumentando assim a robustez e o desempenho do algoritmo.

2.2.2.2 M´etodos Fuzzy .

Recentemente, alguns autores tˆem introduzido conceitos fuzzy nas diferentes etapas do processo de subtra¸c˜ao de fundo. Em Zhang e Xu (2006) os autores realizam a subtra¸c˜ao

de fundo atrav´es do grau de similaridade entre caracter´ısticas de cor e textura da imagem de entrada e o modelo de plano de fundo utilizando a Integral de Sugeno (SUGENO, 1974). Posteriormente, Baf et al. (2008a) obtiveram melhores resultados utilizando a Integral de Choquet (CHOQUET, 1953). Em seguida, Azab et al. (2010) utilizaram a Integral de Choquet com caracter´ısticas de borda al´em de textura e cor. Sigari et al. (2008) propuseram uma fun¸c˜ao fuzzy para a atualiza¸c˜ao do modelo do plano de fundo e para

a extra¸c˜ao dos pixels de primeiro plano. Baf et al. (2008b) sugerem uma fun¸c˜ao fuzzy tipo-2 para lidar com as incertezas do modelo multi-gaussiano do plano de fundo. Em

(40)

aprimorar a detec¸c˜ao de objetos em movimento. Em Bouwmans (2012) o autor faz uma

revis˜ao completa sobre a abordagem fuzzy aplicada ao processo de subtra¸c˜ao de fundo.

2.2.2.3 M´etodos Neurais .

Basicamente a rede neural aprende como classificar cada pixel da imagem, deter-minando se um pixel pertence ao primeiro plano ou plano de fundo (BOUWMANS, 2011). Em Culibrk et al. (2007) os autores utilizam uma rede neural com 124 neurˆonios, o modelo do plano de fundo ´e aprendido pela rede neural enquanto um classificador

baye-siano identifica se um determinado pixel pertence ao primeiro plano ou plano de fundo. Em Maddalena e Petrosino (2008), os autores desenvolveram um algoritmo que realiza

a subtra¸c˜ao de fundo utilizando mapas auto-organiz´aveis (SOM - self-organizing map), ou mapas de Kohonen. Cada pixel da imagem possui um mapa neural bidimensional

formado por n x n vetores de peso. Posteriormente Maddalena e Petrosino (2010) aper-fei¸coaram o trabalho anterior adicionando uma fun¸c˜ao fuzzy durante o aprendizado do

modelo de plano de fundo e uma an´alise de coerˆencia espacial sobre a rede SOM de cada pixel apresentando resultados superiores ao m´etodo anterior.

2.3 RASTREAMENTO DE OBJETOS EM MOVIMENTO

O rastreamento pode ser definido como o problema de estimar a trajet´oria de um

determinado objeto (ou m´ultiplos objetos) em uma sequˆencia de quadros de um v´ıdeo. Em outras palavras, o algoritmo de rastreamento precisa garantir uma identidade ´unica

para um objeto nos diferentes quadros de um v´ıdeo. O rastreamento de objetos ´e uma tarefa importante no campo de vis˜ao computacional. Atrav´es da an´alise da trajet´oria

gerada pelo rastreamento de um objeto particular, ´e poss´ıvel estimar, por exemplo, seu comportamento. Segundo Yilmaz et al. (2006) e Yang et al. (2011), algumas de suas

aplica¸c˜oes incluem:

Reconhecimento de movimentos .

(41)

Intera¸c˜ao Homem-M´aquina .

Reconhecimento de gestos realizados pelos humanos.

Vigilˆancia e monitora¸c˜ao de tr´afego .

Extrair estat´ısticas de um fluxo de objetos em movimento.

Yilmaz et al. (2006) e Yang et al. (2011) definem alguns dos principais desafios que os

m´etodos de rastreamento precisam considerar:

• Perda de informa¸c˜ao causada pela proje¸c˜ao de um ambiente tridimensional em um plano bidimensional.

• Ru´ıdos nas imagens.

• Oclus˜ao parcial ou completa do objeto rastreado. • Altera¸c˜oes de luminosidade.

• Plano de fundo dinˆamico.

• Objetos que aparecem ou saem da cena.

Para simplificar a complexidade que os algoritmos de rastreamento devem contemplar,

muitas vezes ´e necess´ario impor restri¸c˜oes, tal como considerar que o movimento de um objeto entre os quadros de um v´ıdeo ´e suave (n˜ao abrupto). Outras restri¸c˜oes consideram

que a velocidade ou acelera¸c˜ao de um objeto particular ´e constante. O conhecimento pr´evio sobre o tamanho, aparˆencia (cor ou textura), forma e quantidade de objetos que

devem ser rastreados, tamb´em podem simplificar o problema (YILMAZ et al., 2006;YANG et al., 2011).

Antes de realizar o rastreamento, em geral ´e preciso ter uma forma ou modelo de representa¸c˜ao do objeto a ser rastreado. Na pr´oxima se¸c˜ao s˜ao descritas algumas das

(42)

2.3.1 Representa¸c˜ao de Objetos

Ao rastrear um objeto, muitas vezes ´e necess´ario uma representa¸c˜ao ou modelo que

descreva a forma, aparˆencia ou caracter´ısticas que o definem. Nesta se¸c˜ao, s˜ao apresen-tadas as caracter´ısticas comumente utilizadas para representar um objeto conforme as

defini¸c˜oes de Yilmaz et al. (2006).

• Pontos - O objeto ´e representado por um ponto central (ou centroide) (Figura 2.12 (a)) ou por um conjunto de pontos (Figura 2.12 (b)). Em geral, a representa¸c˜ao por pontos ´e adequada para rastreamento de objetos que ocupam pequenas regi˜oes

na imagem.

• Formas geom´etricas - O objeto ´e definido por uma forma geom´etrica, tal como um retˆangulo (Figura 2.12 (c)) ou uma elipse (Figura 2.12 (d)). Esta op¸c˜ao ´e comu-mente usada rastrear objetos r´ıgidos (inflex´ıvel), mas tamb´em podem ser usadas

para objetos n˜ao r´ıgidos.

• Formas articuladas - O objeto ´e representado por um conjunto de partes articuladas (Figura 2.12 (e)). Por exemplo, o corpo humano pode ser representado por um conjunto de formas articuladas que definem o bra¸co, m˜aos, cabe¸ca, tronco e pernas.

• Esqueleto - O objeto tamb´em pode ser representado por um esqueleto (Figura 2.12 (f)). Este modelo tamb´em pode ser usado para objetos articulados ou objetos

r´ıgidos.

• Silhueta ou contorno - O contorno de um objeto tamb´em pode ser utilizado como uma forma de representa¸c˜ao. A representa¸c˜ao por contorno pode ser definida por

pontos (Figura 2.12 (g)), pela borda (Figura 2.12 (h)) ou pela silhueta do objeto (Figura 2.12 (i)).

Outras caracter´ısticas tamb´em utilizadas para representa¸c˜ao de objetos incluem in-forma¸c˜oes de cor, textura e bordas atrav´es de histogramas e modelos (YILMAZ et al., 2006).

(43)

(a) (b) (c) (d) (e)

(f) (g) (h) (i)

Figura 2.12: Formas de representa¸c˜ao do objeto. (a) Centroide, (b) m´ultiplos pontos, (c) forma retangular, (d) forma el´ıptica, (e) partes articuladas, (f) esqueleto, (g) pontos do contorno, (h) borda e

(i) silhueta. Fonte: Yilmaz et al. (2006)

de objetos foram propostos nos ´ultimos anos. Na pr´oxima se¸c˜ao ´e realizada uma breve introdu¸c˜ao sobre fluxo ´otico3.

2.3.2 Rastreamento por Fluxo ´Otico

Segundo Catalano et al. (2009), fluxo ´otico ´e o campo que descreve os deslocamentos

ocorridos entre duas imagens. O campo de movimento obtido por fluxo ´otico ´e frequente-mente descrito no dom´ınio discreto atrav´es de um mapeamento vetorial conhecido como

vetores de deslocamento (Figura 2.13). Considere I(x, y, t) a intensidade da imagem no ponto (x, y) no tempo t, e suponha que o ponto se moveu para uma nova posi¸c˜ao dada

por (∆x,∆y) no intervalo ∆t. A Equa¸c˜ao . representa a busca do ponto (x, y) na nova imagem sendo ∆x, ∆y e ∆t as inc´ognitas a serem determinadas. Assumindo que

o movimento do ponto ´e relativamente pequeno, os m´etodos de fluxo ´otico diferenciais procuram resolver a Equa¸c˜ao . utilizando a expans˜ao pela s´erie de Taylor, resultando

3No presente trabalho, o m´etodo KLT(Kanade-Lucas-Tomasi) utilizado para estimar a velocidade de um aglomerado de ve´ıculos ´e baseado em fluxo ´otico.

(44)

frame (j) frame (j+1) campo de movimento

Figura 2.13: Ilustra¸c˜ao do campo de movimento obtido por fluxo ´otico. Fonte: Catalano et al. (2009)

na Equa¸c˜ao ..

I(x, y, t) = I(x + ∆x, y + ∆y, t + ∆t) (.)

I(x + ∆x, y + ∆y, t + ∆t) = I(x, y, t) + ∂I ∂x∆x +

∂I ∂y∆y +

∂I

∂t∆t +  (.)

Igualando as Equa¸c˜oes . e ., e eliminando o termo de alta ordem , tem-se

∂I ∂x∆x + ∂I ∂y∆y + ∂I ∂t∆t = 0 (.)

dividindo todos os termos por ∆t

∂I ∂x ∆x ∆t + ∂I ∂y ∆y ∆t + ∂I ∂t ∆t ∆t = 0 (.) que resulta em ∂I ∂xVx+ ∂I ∂yVy + ∂I ∂t = 0 (.)

onde Vx e Vy s˜ao os vetores de velocidade associados aos componentes x e y do ponto em

movimento e ∂I\∂x, ∂I\∂y e ∂I\∂t as derivadas parciais da imagem de intensidade em I(x, y, t).

A seguir, s˜ao apresentados resumidamente apenas alguns dos m´etodos de fluxo ´otico comumente utilizados para rastreamento de objetos:

(45)

par-tes e para cada parte ´e calculado o fluxo ´otico. ´E um m´etodo n˜ao iterativo que

assume um fluxo ´otico constante e local. Este m´etodo foi posteriomente aprimo-rado por Bouguet (2000) e Senst et al. (2012).

Horn-Schunck (HORN; SCHUNCK, 1981) Os vetores de velocidade da imagem s˜ao calculados a partir das derivadas espa¸co-temporal das intensidades na imagem. O

m´etodo considera que a ilumina¸c˜ao incidente ´e uniforme e que a reflex˜ao varia suavemente sem descontinuidades.

Alguns autores tais como Saxena et al. (2008) e Santoro et al. (2010) combinam

m´etodos de extra¸c˜ao de caracter´ısticas com fluxo ´otico para realizar o rastreamento de pontos de interesse em v´ıdeos. Um dos m´etodos mais conhecidos ´e o KLT

(Kanade-Lucas-Tomasi ) que ´e basicamente uma combina¸c˜ao de um extrator de caracter´ısticas proposta por Shi e Tomasi (1994) em conjunto com o m´etodo de fluxo ´otico Lucas-Kanade. Como

pode ser visto em Rodriguez et al. (2011) e He e Liu (2012), este m´etodo ´e comumente utilizado para estimar os vetores de fluxo de um aglomerado de objetos em movimento.

(46)

CAP´ITULO 3

CLASSIFICAC

¸ ˜

AO DO ESTADO DO TR ˆ

ANSITO

3.1 INTRODUC¸ ˜AO

A utiliza¸c˜ao de cˆameras de monitoramento de tr´afego nas estradas ´e uma realidade

presente em muitas cidades do mundo (BUCH et al., 2011). Entretanto, a maior parte destes sistemas s˜ao ainda operados por humanos que dedicam longos per´ıodos de tempo

a observar imagens capturadas do trˆansito. Sistemas inteligentes capazes de analisar de forma autom´atica as imagens e v´ıdeos capturados pelas cˆameras de monitoramento

urbano tem sido cada vez mais utilizados. As solu¸c˜oes tradicionais para tais sistemas produzem estat´ısticas atrav´es da detec¸c˜ao e contagem individual de ve´ıculos presentes

no trˆansito. Entretanto, estes sistemas comumente falham, especialmente em cenas de alto congestionamentos, por exemplo, por conta do aumento da oclus˜ao entre os ve´ıculos,

prejudicando assim a predi¸c˜ao correta da quantidade de ve´ıculos presentes na cena e a identifica¸c˜ao do real estado do trˆansito. M´etodos alternativos analisam o v´ıdeo de forma

global considerando o trˆansito como uma ´unica entidade – nuvem ou aglomerado de ve´ıculos que possuem um comportamento ´unico. Atrav´es da an´alise do comportamento

da nuvem de ve´ıculos, os m´etodos globais procuram extrair informa¸c˜oes relevantes tais como a densidade, velocidade, localiza¸c˜ao e sentido dos ve´ıculos presentes na cena,

favo-recendo a identifica¸c˜ao do real estado do trˆansito.

Este trabalho prop˜oe um m´etodo para classifica¸c˜ao do estado do trˆansito utilizando

uma abordagem baseada em contexto global. Para determinar o estado do trˆansito, optou-se por utilizar duas propriedades para classificar o trˆansito em trˆes n´ıveis de

con-gestionamento: baixo, m´edio e alto. Tais propriedades s˜ao representadas pela densidade m´edia da nuvem de ve´ıculos e sua respectiva velocidade m´edia. Considera-se que um

(47)

Subtração de Fundo Vídeo Modelo do plano de fundo Segmentação da Nuvem de Veículos Extração de Características Rastreamento da Nuvem de Veículos Estimação da Densidade Estimação da Velocidade Vetor de Características Classificação Preprocessamento Alto Médio Baixo Nível de Congestionamento

Figura 3.1: Diagrama de bloco do sistema proposto.

baixa. De outro modo, quando a densidade estiver baixa e a velocidade for alta, o sistema

consider´a que o trˆansito possui baixo congestionamento. Para medidas intermedi´arias, o sistema considera que o tr´afego ´e de m´edia congest˜ao.

O sistema proposto ´e ilustrado na Figura 3.1. Para determinar a densidade da nuvem de ve´ıculos, primeiramente ´e realizado um processo de subtra¸c˜ao de fundo

permi-tindo a segmenta¸c˜ao dos ve´ıculos em movimento. Em paralelo, para estimar a velocidade da nuvem de ve´ıculos, um processo de extra¸c˜ao de caracter´ısticas ´e utilizado. Atrav´es das

caracter´ısicas extra´ıdas, ´e realizado o rastreamento da nuvem de ve´ıculos. Em seguida, dadas a densidade m´edia dos ve´ıculos e sua respectiva velocidade m´edia, ´e constru´ıdo

um vetor de caracter´ısticas utilizado para treinar um algoritmo classificador. Ap´os o treinamento, o algoritmo realiza a predi¸c˜ao do estado do trˆansito, classificando-o em trˆes

n´ıveis de congestionamento: baixo, m´edio e alto.

Nas se¸c˜oes seguintes s˜ao descritos os procedimentos realizados em cada etapa do

(48)

Figura 3.2: Defini¸c˜ao da regi˜ao de interesse em uma ´area com maior concentra¸c˜ao de movimento.

3.2 DEFINIC¸ ˜AO DA REGI ˜AO DE INTERESSE

Na etapa de aquisi¸c˜ao do v´ıdeo, foi necess´ario definir uma regi˜ao de interesse (ROI - region of interest ) centrada na ´area com maior concentra¸c˜ao de movimento. A ROI

permite minimizar a presen¸ca de objetos pr´oximos ao trˆansito (e.g. ve´ıculos presentes em outras vias, etc . . . ). Esta restri¸c˜ao muitas vezes ´e necess´aria para que o c´alculo

da densidade considere apenas os ve´ıculos presentes de um determinado local da cena. Nos trabalhos de Chan e Vasconcelos (2005) e Derpanis e Wildes (2011) os autores

uti-lizaram um ROI de 48x48 pixels, por´em este tamanho n˜ao foi adequado para realizar a segmenta¸c˜ao e rastreamento da nuvem de ve´ıculos no presente trabalho. Para obter

me-lhores resultados, foi utilizado um ROI retangular1 de 190x140 pixels conforme a Figura 3.2.

3.3 SEGMENTAC¸ ˜AO DA NUVEM DE VE´ICULOS

A segmenta¸c˜ao da nuvem de ve´ıculos pode ser realizada atrav´es da subtra¸c˜ao de

fundo (JODOIN et al., 2012), fluxo ´otico (HE; LIU, 2012) e transformada de Fourier (HSU et al., 2011). No presente trabalho, o processo de subtra¸c˜ao de fundo foi selecionado por ser uma t´ecnica comumente utilizada para segmentar objetos em movimento (BOUWMANS,

1Uma alternativa poderia ser a utiliza¸ao de um ROI poligonal para delinear a via de trˆansito com maior precis˜ao. Por´em, para o conjunto de v´ıdeos utilizados no presente trabalho, um ROI retangular

(49)

2012). Primeiramente, foram avaliados cinco m´etodos recentes de subtra¸c˜ao de fundo com

a base de v´ıdeos ChangeDetection (descrita no Cap´ıtulo 4). O objetivo desta avalia¸c˜ao ´e identificar qual m´etodo possui o melhor desempenho e robustez considerando as varia¸c˜oes

clim´aticas e de luminosidade presentes em cenas de ambientes externos. Em cenas onde o tr´afego possui um alto congestionamento, muitos ve´ıculos podem ficar parados por um

longo per´ıodo de tempo. O m´etodo de subtra¸c˜ao de fundo precisa construir um modelo apropriado do plano de fundo e analisar o que deve (ou n˜ao) ser inclu´ıdo durante sua

atualiza¸c˜ao. Sombras, ajuste autom´atico de foco, instabilidade da cˆamera e plano de fundo dinˆamico tamb´em s˜ao alguns dos mais diversos desafios com os quais os algoritmos

de subtra¸c˜ao de fundo precisam lidar.

A Tabela 3.1 apresenta a rela¸c˜ao dos m´etodos avaliados neste trabalho com seus

respectivos autores. Neste trabalho, selecionou-se apenas o m´etodo que obteve o melhor desempenho nos testes realizados. A avalia¸c˜ao dos algoritmos ´e apresentada no Cap´ıtulo

4.

A Figura 3.3 ilustra o resultado da segmenta¸c˜ao dos ve´ıculos com o trˆansito em trˆes

estados distintos. Os v´ıdeos foram obtidos da base de v´ıdeos UCSD (descrita no Cap´ıtulo 5), onde cada v´ıdeo possui uma anota¸c˜ao informando o estado do trˆansito, condi¸c˜ao

meteorol´ogica, entre outras caracter´ısticas.

Tabela 3.1: Rela¸c˜ao dos m´etodos de subtra¸c˜ao de fundo avaliados neste trabalho.

M´etodo Autor(es) Informa¸c˜oes adicionais

Pixel-Based Adaptive Segmenter (PBAS)

Hofmann et al. (2012) N˜ao-param´etrico, estat´ıstico, multimodal

Fuzzy SOM Maddalena e Petrosino (2010) Neuro-Fuzzy, multimodal, um mapa de Kohonen 3x3 para cada pixel

Fuzzy Choquet Integral Baf et al. (2008a) Unimodal, atualiza¸c˜ao adapta-tiva e seleadapta-tiva do modelo do plano de fundo, utiliza in-forma¸c˜oes de cor e textura Adaptive SOM Maddalena e Petrosino (2008) Neural, multimodal, um mapa de

Kohonen 3x3 para cada pixel Multi-Layer Yao e Odobez (2007) Estat´ıstico, multimodal, utiliza

informa¸c˜oes de cor e textura, su-porte a sombras

(50)

Segmentação dos Veículos Imagem de entrada BAIXO Nível de Congestionamento MÉDIO ALTO

Figura 3.3: Resultado da segmenta¸c˜ao dos ve´ıculos com o trˆansito em trˆes estados distintos conforme anota¸c˜oes da base de v´ıdeos UCSD.

3.3.1 Estima¸c˜ao da Densidade de Ve´ıculos

A estima¸c˜ao da densidade de ve´ıculos ´e realizada ap´os o processo de subtra¸c˜ao de

fundo. A densidade ´e determinada pela contagem dos pixels n˜ao nulos da m´ascara de primeiro plano obtida durante a subtra¸c˜ao de fundo. Este procedimento ´e realizado a

cada quadro do v´ıdeo. As Figuras 3.4 e 3.5 ilustram o processo em quest˜ao. Foram utilizados trˆes v´ıdeos com o trˆansito em trˆes estados distintos conforme as anota¸c˜oes da

base de v´ıdeos UCSD. A Figura 3.4 apresenta a m´ascara de primeiro para cada estado do trˆansito e a Figura 3.5 apresenta a varia¸c˜ao da densidade ao longo de 40 quadros. A

escolha do m´etodo de subtra¸c˜ao de fundo ´e uma decis˜ao importante. Conforme descrito na Se¸c˜ao 3.3, o algoritmo de subtra¸c˜ao de fundo precisa construir um modelo adequado do

Referências

Documentos relacionados

La asociación público-privada regida por la Ley n ° 11.079 / 2004 es una modalidad contractual revestida de reglas propias y que puede adoptar dos ropajes de

Esses comportamentos são também vistos por Simmel como uma patologia porque, assim como ao avaro e ao pródigo, o dinheiro pode tornar-se um fim em si mesmo,

O fortalecimento da escola pública requer a criação de uma cultura de participação para todos os seus segmentos, e a melhoria das condições efetivas para

O presente questionário se configura em instrumental de pesquisa como parte de um estudo sobre a política de Educação Profissional em andamento no estado do Ceará, sob o

de professores, contudo, os resultados encontrados dão conta de que este aspecto constitui-se em preocupação para gestores de escola e da sede da SEduc/AM, em

Pensar a formação continuada como uma das possibilidades de desenvolvimento profissional e pessoal é refletir também sobre a diversidade encontrada diante

Na população estudada, distúrbios de vias aéreas e hábito de falar muito (fatores decorrentes de alterações relacionadas à saúde), presença de ruído ao telefone (fator

Os sete docentes do cur- so de fonoaudiologia pertencentes à FMRP publica- ram mais artigos em periódicos não indexados no ISI, ou seja, em artigos regionais e locais, tais como: