• Nenhum resultado encontrado

Nesta se¸c˜ao s˜ao descritos os trabalhos mais relevantes do estado da arte sobre reidenti- fica¸c˜ao de pessoas, esses trabalhos foram divididos em duas se¸c˜oes: abordagens baseadas em caracter´ısticas e abordagens baseadas em aprendizagem.

2.2.1

Abordagens Baseadas em Caracter´ısticas

Dada a ausˆencia de informa¸c˜ao biom´etrica, humanos fazem a reidentifica¸c˜ao de pessoas com base na detec¸c˜ao de partes salientes do corpo, buscando alguma correspondˆencia entre essas partes. Cheng et al. [9] prop˜oem um m´etodo utilizando Pictural Structures (PS) para estimar a pose e as partes do corpo, com a finalidade de criar uma assinatura para cada pessoa. A assinatura pode ser criada a partir de uma ou de m´ultiplas imagens de um indiv´ıduo. No primeiro caso, a assinatura ´e formada pela uni˜ao dos histogramas de cor no modelo HSV de cada parte do corpo e o deslocamento de cor por regi˜oes por meio do operador Maximally Stable Color Region (MSCR). No segundo caso, o objetivo ´e aprender um modelo chamado Custom Pictoral Structure (CPS) que captura a aparˆencia local das partes dos indiv´ıduos. Uma vez gerado o modelo, a assinatura ´e criada da mesma forma que no primeiro caso. Dadas duas assinaturas, a etapa de casamento (matching) entre elas ´e feita utilizando-se a fun¸c˜ao de distˆancia baseada em Bhattacharyya [6].

A maior desvantagem do m´etodo [9] ´e que ele n˜ao funciona adequadamente quando as pessoas est˜ao parcialmente obstru´ıdas por outras pessoas ou objetos, pois n˜ao ´e poss´ıvel detectar as principais partes salientes do corpo.

A baixa resolu¸c˜ao das imagens obtidas por meio das cˆameras ´e um problema comum enfrentado na ´area. Com a finalidade de criar uma assinatura humana que seja altamente discriminante, robusta a imagens de baixa resolu¸c˜ao e adequada a ambientes lotados, al´em das varia¸c˜oes de ilumina¸c˜ao e parˆametros de cˆamera, Bak et al. [4] prop˜oem uma assinatura denominada Mean Riemannian Covariance Grid (MRCG). Essa representa¸c˜ao ´e formada por um descritor local (por regi˜oes) chamado Mean Riemannian Covariance (MRC) baseado no descritor de covariˆancia [52], extra´ıdo em cada imagem que pertence ao rastreamento da pessoa. Cada imagem ´e dividida em forma de uma grade, depois ´e aplicado o descritor MRC para cada c´elula da grade e, em seguida, todas as c´elulas corres- pondentes em todas as grades s˜ao unidas para formar uma ´unica grade densa, resultando, desta forma, a assinatura MRCG para uma pessoa. Dadas duas assinaturas, o casamento entre elas ´e definido como a m´axima medida de similaridade que resulta do deslocamento de um descritor MRC de uma assinatura sobre a outra. A principal desvantagem do m´etodo [4] ´e a necessidade de se ter v´arias amostras de uma pessoa por cˆamera para cria¸c˜ao de uma assinatura que seja suficientemente robusta. Entretanto, essa condi¸c˜ao em cen´arios reais nem sempre ´e satisfeita.

2.2. Trabalhos Relacionados 9

Um m´etodo que trata de problemas de varia¸c˜ao de pose, oclus˜oes e ilumina¸c˜ao foi proposto por Martinel et al. [37]. Este m´etodo explora trˆes tipos de caracter´ısticas: locais, de forma e textura para criar uma assinatura discriminativa para cada indiv´ıduo. No primeiro tipo de caracter´ıstica, utiliza-se uma fun¸c˜ao de distribui¸c˜ao Gaussiana para calcular o Weighted Gaussian Color Histogram sobre as regi˜oes denominadas S de uma imagem projetada no espa¸co de cor HSV. Tais regi˜oes S foram extra´ıdas a partir dos pontos de interesse (key points) detectados por Scale Invariant Feature Transformation (SIFT) [33]. O segundo tipo de caracter´ıstica ´e extra´ıdo calculando-se a Pyramid of Histograms of Orientation Gradients (PHOG). Os PHOGs s˜ao extra´ıdos a partir de cada canal HSV e acumulados para formar uma matriz PHOG ∈ Rm×I, em que m ´e a dimens˜ao do vetor de caracter´ısticas e I ´e o n´umero de imagens. O terceiro tipo de caracter´ısticas ´e formado por Texture Features [17], extra´ıdas a partir de duas partes do corpo, superior e inferior. Finalmente, a uni˜ao dos trˆes tipos de caracter´ısticas forma a assinatura para cada imagem da pessoa. Dadas duas assinaturas, a fun¸c˜ao de distˆancia utilizada para fazer o casamento entre elas ´e formada pela soma dos resultados parciais de distˆancias entre os descritores Weighted Gaussian Color Histogram, Pyramid of Histograms of Orientation Gradients (PHOG) e Texture Features.

As caracter´ısticas de cor tˆem demostrado bom desempenho na maioria das bases de dados. No trabalho [37], as caracter´ısticas de cor est˜ao limitadas pelo n´umero de pontos de interesse detectados por SIFT [33]. Dessa forma, esse m´etodo n˜ao funciona apropria- damente em imagens com baixa resolu¸c˜ao ou com grandes regi˜oes de cor uniforme, pois poucos pontos de interesse seriam detectados e, consequentemente, as caracter´ısticas de cor n˜ao teriam um aporte significativo, mesmo que elas estejam visualmente presentes.

Um trabalho que calcula a medida de similaridade utilizando um m´etodo de re-ranking bidirecional baseado nas medidas de similaridade de conte´udo e contexto foi proposto por Qingming et al. [27]. A hip´otese dos autores ´e que, se duas imagens pertencem a uma mesma pessoa, elas deveriam ser similares em conte´udo (similaridade visual) e tamb´em similares em contexto (compartilhar os mesmos vizinhos mais pr´oximos em uma cole¸c˜ao de imagens dada). Para isso, eles constroem trˆes cole¸c˜oes de imagens, uma de teste, outra de galeria e outra chamada de “nova galeria” que ´e formada pela imagem original de consulta e por outras imagens da galeria original. Para calcular a similaridade por conte´udo, o trabalho realiza uma consulta a partir da cole¸c˜ao de teste sobre a galeria e uma consulta a partir de cada elemento da galeria sobre a “nova galeria”. Da mesma forma, para obter a similaridade de contexto, os vizinhos mais pr´oximos da imagem de consulta na galeria e de cada elemento da galeria na “nova galeria” s˜ao calculados. Finalmente, um modelo de re-ranking ´e proposto para calcular o resultado final a partir dos resultados parciais das similaridades de contexto e conte´udo. A vantagem do m´etodo [27] ´e que n˜ao utiliza vetores de caracter´ısticas ou assinaturas muito complexos nem m´etodos baseados

em aprendizagem.

2.2.2

Abordagens Baseadas em Aprendizagem

As abordagens baseadas em aprendizagem modelam os dados por meio de vetores de caracter´ısticas que geralmente descrevem informa¸c˜ao de cor e textura. Em [30, 32, 34, 35], por exemplo, as caracter´ısticas de cor s˜ao extra´ıdas a partir dos canais RGB, YCbCr e HSV. As caracter´ısticas de textura usam filtros de Gabor e Schmid. Ap´os a etapa de extra¸c˜ao, os vetores de caracter´ısticas s˜ao usados para treinar modelos discriminativos que permitem diferenciar entre indiv´ıduos de uma e de outra classe.

Um tipo de abordagem recorrente atualmente s˜ao os m´etodos de aprendizagem de m´etricas de distˆancia que s˜ao aprendidas a partir de simples amostras etiquetadas, for- necidas por diferentes pontos de vista de cˆameras. Uma vez que a m´etrica ´e aprendida, ela descreve a transi¸c˜ao entre duas cˆameras [18] e ´e usada para fazer o casamento entre uma imagem de consulta e as imagens na galeria (conjunto de imagens capturadas pelas cˆameras distribu´ıdas no ambiente).

Por exemplo, os m´etodos [18, 19] aprendem m´etricas de distˆancia a partir das imagens fornecidas por duas cˆameras diferentes. Este problema ´e formulado como um problema bin´ario (duas classes). Martin et al. [18] utilizam uma m´etrica de distˆancia chamada Large Margin Nearest Neighbor (LMNN) proposta em [55], a qual est´a focada principal- mente em melhorar a classifica¸c˜ao com k-Nearest Neighbors (k-NN). A ideia do LMNN ´e treinar a m´etrica de Mahalanobis de tal forma que os k-vizinhos mais pr´oximos sempre perten¸cam `a mesma classe, enquanto que os exemplos de diferentes classes sejam sepa- rados por uma grande margem. No caso do trabalho [19], o conjunto de treinamento ´e dado por um conjunto de pares de vetores da forma (xi, xj), os quais compartilham

a mesma etiqueta y. Tamb´em s˜ao definidos os conjuntos S = {(xi, xj)|y(xi) = y(xj)} e

D = {(xi, xj)|y(xi) 6= y(xj)} de pontos similares e dissimilares, respectivamente. A fun¸c˜ao

objetivo usada neste m´etodo ´e similar `a Large Margin Nearest Neighbor (LMNN) usada por [18]. Neste trabalho, tamb´em avaliamos o uso do LMNN combinados com t´ecnicas de recupera¸c˜ao de imagens por conte´udo.

Um trabalho similar a [18, 19] foi proposto por Liu et al. [32]. O m´etodo proposto aprende a similaridade entre as imagens de um par de cˆameras. Tais caracter´ısticas s˜ao projetadas em dois subespa¸cos segundo um par de imagens que perten¸cam ou n˜ao `a mesma pessoa. Esse trabalho est´a baseado na ideia de que as varia¸c˜oes de aparˆencia das imagens de uma mesma pessoa deveriam ser similares ap´os uma deforma¸c˜ao, enquanto que as aparˆencias de diferentes pessoas deveriam ser dissimilares ap´os a mesma deforma¸c˜ao.

Nos m´etodos [18, 19], a aprendizagem de m´etricas de distˆancia foi realizada a partir das imagens fornecidas por apenas dois pontos de vista de cˆameras diferentes. No en-

2.2. Trabalhos Relacionados 11

tanto, Lianyang et al. [35] consideram que aprender uma m´etrica de distˆancia apenas entre duas cˆameras ´e suscet´ıvel a sobreajustar o modelo devido ao uso de dados etique- tados de treinamento insuficientes. Devido a esse fato, Lianyang et al. [35] prop˜oem formular a reidentifica¸c˜ao de pessoas em uma rede de cˆameras como um modelo de apren- dizagem de m´etricas de distˆancia multitarefa, em que v´arias m´etricas s˜ao criadas para cada par de cˆameras. Dado que as m´etricas de distˆancia entre cada par de cˆamera s˜ao diferentes, por´em tamb´em relacionadas, elas s˜ao aprendidas adicionando regulariza¸c˜ao conjunta que alivia o sobreajuste do modelo. Especificamente, os autores prop˜oem um modelo Multi-task Maximally Collapsing Metric Learning (MtMCML) em que a fun¸c˜ao de distˆancia usada ´e a Mahalanobis. A fun¸c˜ao objetivo ´e convexa e tem um gradiente cont´ınuo Lipschitz.

Outro tipo de trabalho que envolve aprendizagem em reidentifica¸c˜ao de pessoas foi pro- posto por Chunxiao et al. [30], que usam aprendizagem n˜ao supervisionada para aprender quais caracter´ısticas s˜ao mais importantes nas imagens de cada indiv´ıduo. O m´etodo pro- posto ´e composto das seguintes etapas: primeiro, um conjunto de prot´otipos ´e selecionado a partir de um conjunto de imagens de treinamento n˜ao etiquetadas usando clustering ran- dom forest. Cada prot´otipo ´e composto por v´arias imagens que compartilham atributos similares de aparˆencia. Segundo, um classificador random forest foi treinado usando o con- junto de treinamento inicial no qual cada prot´otipo representa uma classe. Terceiro, para cada imagem de consulta, a importˆancia de cada caracter´ıstica ´e calculada de acordo com sua habilidade em discriminar diferentes prot´otipos; isso ´e obtido usando-se o classificador treinado na etapa anterior.

Por outro lado, dado que os m´etodos de learning-to-rank e supervised metric learning requerem v´arios exemplos de treinamento, a falta desses exemplos limita a escalabilidade do modelo em cen´arios reais. Chen et al. [34] prop˜oem um manifold ranking chamado MRank gerado pela grande quantidade de dados n˜ao etiquetados na galeria. Intuitiva- mente, uma imagem com rank alto ser´a atribu´ıdo a instˆancias da galeria pr´oximas `a ima- gem de consulta no espa¸co do manifold, enquanto que as instˆancias localmente pr´oximas s˜ao estimuladas a ter ranks similares. Inicialmente, o manifold ´e aproximado por um grafo constru´ıdo por k-nearest neighbour (k-NN). Cada vez que uma nova consulta ´e re- alizada, a matriz de distˆancias do grafo ´e aproximada para construir dois tipos de grafos Laplacianos que s˜ao usados para calcular o score da consulta.

Em [60], o problema de reidentifica¸c˜ao de pessoas ´e tratado como uma instˆancia de matching de grafo bipartido, em que as imagens capturadas por dois pontos de vista de cˆameras diferentes formam conjuntos independentes sobre os quais os matches s˜ao aprendidos. As mudan¸cas em aparˆencia s˜ao tratadas por fun¸c˜oes bases que codificam a coocorrˆencia de padr˜oes visuais entre imagens das duas cˆameras. As imagens s˜ao descritas de forma local usando SIFT-cor [60] para construir grandes dicion´arios visuais. Posterior-

mente, a partir do conjunto de treinamento, h´a o aprendizado de correspondˆencias entre as imagens de duas cˆameras utilizando Structured Prediction. O aprendizado de corres- pondˆencias ´e dado pela combina¸c˜ao ponderada de fun¸c˜oes bases Radial Basis Functions (RBF) e Latent Spatial Kernel.

O m´etodo [60] tem a desvantagem de aprender correspondˆencias para apenas duas cˆameras, al´em disso, o m´etodo necessita de um conjunto de imagens de treinamento a priori suficientemente grande.

Outro m´etodo baseado em aprendizagem foi proposto por Zhao et al. [61]. Esse m´etodo aprende filtros de n´ıvel m´edio para capturar padr˜oes visuais correspondentes a partes particulares do corpo de uma pessoa. Os filtros que s˜ao constru´ıdos devem possuir um equil´ıbrio entre poder de discrimina¸c˜ao e capacidade de generaliza¸c˜ao.

Cada imagem de treinamento foi caracterizada de forma densa sobre patches regulares de 10 × 10. Utilizando-se os vetores de caracter´ısticas de cada patch, uma correspondˆencia densa foi calculada entre uma imagem de treinamento obtida de uma cˆamera contra todas as outras imagens de treinamento obtidas de uma outra cˆamera. Ap´os o c´alculo da correspondˆencia, s˜ao selecionados os patches que possuem alto poder de discrimina¸c˜ao e generaliza¸c˜ao, os quais s˜ao aqueles que aparecem em uma percentagem intermedi´aria em toda a cole¸c˜ao, pois esses patches n˜ao s˜ao nem muito comuns para se confundir facilmente nem muito escassos para n˜ao generalizar. Em seguida, um cluster hier´arquico de patches ´e constru´ıdo para agrupar patches em subconjuntos com coerente aparˆencia visual. A partir do cluster, os filtros de n´ıvel m´edio s˜ao aprendidos de forma supervisionada. Foram criados exemplos de treinamento positivos formados pelos patches que pertencem a um mesmo n´o na ´arvore, enquanto que os exemplos negativos s˜ao formados pelos outros n´os restantes. Esses exemplos de treinamento positivos e negativos s˜ao utilizados para treinar um SVM linear [8] (filtro) para cada n´o. Dadas duas imagens obtidas de diferentes cˆameras, um conjunto de filtros ´e calculado para cada imagem. Para determinar se duas imagens pertencem `a mesma pessoa ou n˜ao, um modelo de matching das respostas dos filtros ´e utilizado.

Diferentemente da maioria das abordagens da literatura, Chunxiao et al. [31] focam seu trabalho no tratamento de ranked list de candidatos resultantes de uma consulta. Isso ´e importante em v´ıdeos de vigilˆancia e aplica¸c˜oes forenses, em que o usu´ario final deve analisar essa lista para decidir que candidato corresponde verdadeiramente `a pessoa da consulta. Dada uma ranked list, que ´e gerada com as primeiras imagens da galeria resultantes da consulta, o objetivo ´e aprender uma fun¸c˜ao post-rank para reordenar o rank inicial e melhorar a percentagem de acertos nas primeiras posi¸c˜oes. Inicialmente, o usu´ario seleciona uma imagem strong negative (imagens entre as melhores e com baixa similaridade visual `a imagem de consulta). Depois disso, pseudoexemplos positivos s˜ao criados usando regression forest, os quais s˜ao usados para construir um grafo que captura

Documentos relacionados