Trabalhos Relacionados - Uso de técnicas de recuperação de imagens para o problema de reidentif

Nesta se¸cão são descritos os trabalhos mais relevantes do estado da arte sobre reidentifica¸cão de pessoas, esses trabalhos foram divididos em duas se¸cões: abordagens baseadas em caracter´ısticas e abordagens baseadas em aprendizagem.

2.2.1 Abordagens Baseadas em Caracter´ısticas

Dada a ausência de informa¸cão biométrica, humanos fazem a reidentifica¸cão de pessoas com base na deteçcão de partes salientes do corpo, buscando alguma correspondência entre essas partes. Cheng et al. [9] propõem um m´etodo utilizando Pictural Structures (PS) para estimar a pose e as partes do corpo, com a finalidade de criar uma assinatura para cada pessoa. A assinatura pode ser criada a partir de uma ou de múltiplas imagens de um indiv´ıduo. No primeiro caso, a assinatura é formada pela união dos histogramas de cor no modelo HSV de cada parte do corpo e o deslocamento de cor por regiões por meio do operador Maximally Stable Color Region (MSCR). No segundo caso, o objetivo ´e aprender um modelo chamado Custom Pictoral Structure (CPS) que captura a aparˆencia local das partes dos indiv´ıduos. Uma vez gerado o modelo, a assinatura é criada da mesma forma que no primeiro caso. Dadas duas assinaturas, a etapa de casamento (matching) entre elas é feita utilizando-se a fun¸cão de distância baseada em Bhattacharyya [6].

A maior desvantagem do método [9] é que ele não funciona adequadamente quando as pessoas estão parcialmente obstru´ıdas por outras pessoas ou objetos, pois não é poss´ıvel detectar as principais partes salientes do corpo.

A baixa resolu¸cão das imagens obtidas por meio das câmeras é um problema comum enfrentado na área. Com a finalidade de criar uma assinatura humana que seja altamente discriminante, robusta a imagens de baixa resolu¸cão e adequada a ambientes lotados, além das varia¸cões de ilumina¸cão e parâmetros de câmera, Bak et al. [4] propõem uma assinatura denominada Mean Riemannian Covariance Grid (MRCG). Essa representa¸c˜ao é formada por um descritor local (por regi˜oes) chamado Mean Riemannian Covariance (MRC) baseado no descritor de covariância [52], extra´ıdo em cada imagem que pertence ao rastreamento da pessoa. Cada imagem é dividida em forma de uma grade, depois é aplicado o descritor MRC para cada célula da grade e, em seguida, todas as células correspondentes em todas as grades são unidas para formar uma única grade densa, resultando, desta forma, a assinatura MRCG para uma pessoa. Dadas duas assinaturas, o casamento entre elas é definido como a máxima medida de similaridade que resulta do deslocamento de um descritor MRC de uma assinatura sobre a outra. A principal desvantagem do método [4] é a necessidade de se ter várias amostras de uma pessoa por câmera para cria¸cão de uma assinatura que seja suficientemente robusta. Entretanto, essa condi¸cão em cenários reais nem sempre é satisfeita.

2.2. Trabalhos Relacionados 9

Um método que trata de problemas de varia¸cão de pose, oclusões e ilumina¸cão foi proposto por Martinel et al. [37]. Este método explora três tipos de caracter´ısticas: locais, de forma e textura para criar uma assinatura discriminativa para cada indiv´ıduo. No primeiro tipo de caracter´ıstica, utiliza-se uma fun¸cão de distribui¸cão Gaussiana para calcular o Weighted Gaussian Color Histogram sobre as regiões denominadas S de uma imagem projetada no espa¸co de cor HSV. Tais regi˜oes S foram extra´ıdas a partir dos pontos de interesse (key points) detectados por Scale Invariant Feature Transformation (SIFT) [33]. O segundo tipo de caracter´ıstica ´e extra´ıdo calculando-se a Pyramid of Histograms of Orientation Gradients (PHOG). Os PHOGs s˜ao extra´ıdos a partir de cada canal HSV e acumulados para formar uma matriz PHOG ∈ Rm×I, em que m ´e a dimensão do vetor de caracter´ısticas e I ´e o número de imagens. O terceiro tipo de caracter´ısticas é formado por Texture Features [17], extra´ıdas a partir de duas partes do corpo, superior e inferior. Finalmente, a união dos três tipos de caracter´ısticas forma a assinatura para cada imagem da pessoa. Dadas duas assinaturas, a fun¸cão de distância utilizada para fazer o casamento entre elas é formada pela soma dos resultados parciais de distâncias entre os descritores Weighted Gaussian Color Histogram, Pyramid of Histograms of Orientation Gradients (PHOG) e Texture Features.

As caracter´ısticas de cor têm demostrado bom desempenho na maioria das bases de dados. No trabalho [37], as caracter´ısticas de cor estão limitadas pelo número de pontos de interesse detectados por SIFT [33]. Dessa forma, esse método não funciona apropria- damente em imagens com baixa resolu¸cão ou com grandes regiões de cor uniforme, pois poucos pontos de interesse seriam detectados e, consequentemente, as caracter´ısticas de cor não teriam um aporte significativo, mesmo que elas estejam visualmente presentes.

Um trabalho que calcula a medida de similaridade utilizando um m´etodo de re-ranking bidirecional baseado nas medidas de similaridade de conteúdo e contexto foi proposto por Qingming et al. [27]. A hipótese dos autores é que, se duas imagens pertencem a uma mesma pessoa, elas deveriam ser similares em conteúdo (similaridade visual) e também similares em contexto (compartilhar os mesmos vizinhos mais próximos em uma cole¸cão de imagens dada). Para isso, eles constroem três cole¸cões de imagens, uma de teste, outra de galeria e outra chamada de “nova galeria” que é formada pela imagem original de consulta e por outras imagens da galeria original. Para calcular a similaridade por conteúdo, o trabalho realiza uma consulta a partir da cole¸cão de teste sobre a galeria e uma consulta a partir de cada elemento da galeria sobre a “nova galeria”. Da mesma forma, para obter a similaridade de contexto, os vizinhos mais próximos da imagem de consulta na galeria e de cada elemento da galeria na “nova galeria” são calculados. Finalmente, um modelo de re-ranking ´e proposto para calcular o resultado final a partir dos resultados parciais das similaridades de contexto e conteúdo. A vantagem do método [27] é que não utiliza vetores de caracter´ısticas ou assinaturas muito complexos nem métodos baseados

em aprendizagem.

2.2.2 Abordagens Baseadas em Aprendizagem

As abordagens baseadas em aprendizagem modelam os dados por meio de vetores de caracter´ısticas que geralmente descrevem informa¸cão de cor e textura. Em [30, 32, 34, 35], por exemplo, as caracter´ısticas de cor são extra´ıdas a partir dos canais RGB, YCbCr e HSV. As caracter´ısticas de textura usam filtros de Gabor e Schmid. Após a etapa de extra¸cão, os vetores de caracter´ısticas são usados para treinar modelos discriminativos que permitem diferenciar entre indiv´ıduos de uma e de outra classe.

Um tipo de abordagem recorrente atualmente são os métodos de aprendizagem de métricas de distância que são aprendidas a partir de simples amostras etiquetadas, fornecidas por diferentes pontos de vista de câmeras. Uma vez que a métrica é aprendida, ela descreve a transi¸cão entre duas câmeras [18] e é usada para fazer o casamento entre uma imagem de consulta e as imagens na galeria (conjunto de imagens capturadas pelas câmeras distribu´ıdas no ambiente).

Por exemplo, os métodos [18, 19] aprendem métricas de distância a partir das imagens fornecidas por duas câmeras diferentes. Este problema é formulado como um problema binário (duas classes). Martin et al. [18] utilizam uma métrica de distância chamada Large Margin Nearest Neighbor (LMNN) proposta em [55], a qual est´a focada principal- mente em melhorar a classifica¸c˜ao com k-Nearest Neighbors (k-NN). A ideia do LMNN ´e treinar a m´etrica de Mahalanobis de tal forma que os k-vizinhos mais pr´oximos sempre perten¸cam à mesma classe, enquanto que os exemplos de diferentes classes sejam sepa- rados por uma grande margem. No caso do trabalho [19], o conjunto de treinamento ´e dado por um conjunto de pares de vetores da forma (xi, xj), os quais compartilham

a mesma etiqueta y. Tamb´em s˜ao definidos os conjuntos S = {(xi, xj)|y(xi) = y(xj)} e

D = {(xi, xj)|y(xi) 6= y(xj)} de pontos similares e dissimilares, respectivamente. A fun¸c˜ao

objetivo usada neste método é similar `a Large Margin Nearest Neighbor (LMNN) usada por [18]. Neste trabalho, também avaliamos o uso do LMNN combinados com técnicas de recupera¸cão de imagens por conteúdo.

Um trabalho similar a [18, 19] foi proposto por Liu et al. [32]. O método proposto aprende a similaridade entre as imagens de um par de câmeras. Tais caracter´ısticas são projetadas em dois subespa¸cos segundo um par de imagens que perten¸cam ou não à mesma pessoa. Esse trabalho está baseado na ideia de que as varia¸cões de aparência das imagens de uma mesma pessoa deveriam ser similares após uma deforma¸cão, enquanto que as aparências de diferentes pessoas deveriam ser dissimilares após a mesma deforma¸cão.

Nos métodos [18, 19], a aprendizagem de métricas de distância foi realizada a partir das imagens fornecidas por apenas dois pontos de vista de câmeras diferentes. No en-

2.2. Trabalhos Relacionados 11

tanto, Lianyang et al. [35] consideram que aprender uma métrica de distância apenas entre duas câmeras é suscet´ıvel a sobreajustar o modelo devido ao uso de dados etiquetados de treinamento insuficientes. Devido a esse fato, Lianyang et al. [35] propõem formular a reidentifica¸cão de pessoas em uma rede de câmeras como um modelo de aprendizagem de métricas de distância multitarefa, em que várias métricas são criadas para cada par de câmeras. Dado que as métricas de distância entre cada par de câmera são diferentes, porém também relacionadas, elas são aprendidas adicionando regulariza¸cão conjunta que alivia o sobreajuste do modelo. Especificamente, os autores propõem um modelo Multi-task Maximally Collapsing Metric Learning (MtMCML) em que a fun¸c˜ao de distância usada é a Mahalanobis. A fun¸cão objetivo é convexa e tem um gradiente cont´ınuo Lipschitz.

Outro tipo de trabalho que envolve aprendizagem em reidentifica¸cão de pessoas foi proposto por Chunxiao et al. [30], que usam aprendizagem não supervisionada para aprender quais caracter´ısticas são mais importantes nas imagens de cada indiv´ıduo. O método proposto é composto das seguintes etapas: primeiro, um conjunto de protótipos é selecionado a partir de um conjunto de imagens de treinamento n˜ao etiquetadas usando clustering ran- dom forest. Cada prot´otipo é composto por várias imagens que compartilham atributos similares de aparˆencia. Segundo, um classificador random forest foi treinado usando o con- junto de treinamento inicial no qual cada protótipo representa uma classe. Terceiro, para cada imagem de consulta, a importância de cada caracter´ıstica é calculada de acordo com sua habilidade em discriminar diferentes protótipos; isso é obtido usando-se o classificador treinado na etapa anterior.

Por outro lado, dado que os m´etodos de learning-to-rank e supervised metric learning requerem vários exemplos de treinamento, a falta desses exemplos limita a escalabilidade do modelo em cenários reais. Chen et al. [34] prop˜oem um manifold ranking chamado MRank gerado pela grande quantidade de dados não etiquetados na galeria. Intuitiva- mente, uma imagem com rank alto ser´a atribu´ıdo a instâncias da galeria próximas à ima- gem de consulta no espa¸co do manifold, enquanto que as instˆancias localmente próximas s˜ao estimuladas a ter ranks similares. Inicialmente, o manifold ´e aproximado por um grafo constru´ıdo por k-nearest neighbour (k-NN). Cada vez que uma nova consulta ´e realizada, a matriz de distâncias do grafo é aproximada para construir dois tipos de grafos Laplacianos que s˜ao usados para calcular o score da consulta.

Em [60], o problema de reidentifica¸cão de pessoas é tratado como uma instância de matching de grafo bipartido, em que as imagens capturadas por dois pontos de vista de cˆameras diferentes formam conjuntos independentes sobre os quais os matches s˜ao aprendidos. As mudan¸cas em aparência são tratadas por fun¸cões bases que codificam a coocorrência de padrões visuais entre imagens das duas câmeras. As imagens são descritas de forma local usando SIFT-cor [60] para construir grandes dicionários visuais. Posterior-

mente, a partir do conjunto de treinamento, há o aprendizado de correspondências entre as imagens de duas cˆameras utilizando Structured Prediction. O aprendizado de corres- pondências é dado pela combina¸cão ponderada de fun¸c˜oes bases Radial Basis Functions (RBF) e Latent Spatial Kernel.

O método [60] tem a desvantagem de aprender correspondências para apenas duas câmeras, além disso, o método necessita de um conjunto de imagens de treinamento a priori suficientemente grande.

Outro método baseado em aprendizagem foi proposto por Zhao et al. [61]. Esse método aprende filtros de n´ıvel médio para capturar padrões visuais correspondentes a partes particulares do corpo de uma pessoa. Os filtros que são constru´ıdos devem possuir um equil´ıbrio entre poder de discrimina¸cão e capacidade de generaliza¸cão.

Cada imagem de treinamento foi caracterizada de forma densa sobre patches regulares de 10 × 10. Utilizando-se os vetores de caracter´ısticas de cada patch, uma correspondˆencia densa foi calculada entre uma imagem de treinamento obtida de uma câmera contra todas as outras imagens de treinamento obtidas de uma outra câmera. Após o cálculo da correspondência, s˜ao selecionados os patches que possuem alto poder de discrimina¸c˜ao e generaliza¸cão, os quais são aqueles que aparecem em uma percentagem intermediária em toda a cole¸c˜ao, pois esses patches n˜ao são nem muito comuns para se confundir facilmente nem muito escassos para n˜ao generalizar. Em seguida, um cluster hierárquico de patches ´e constru´ıdo para agrupar patches em subconjuntos com coerente aparˆencia visual. A partir do cluster, os filtros de n´ıvel m´edio são aprendidos de forma supervisionada. Foram criados exemplos de treinamento positivos formados pelos patches que pertencem a um mesmo nó na árvore, enquanto que os exemplos negativos são formados pelos outros nós restantes. Esses exemplos de treinamento positivos e negativos são utilizados para treinar um SVM linear [8] (filtro) para cada nó. Dadas duas imagens obtidas de diferentes câmeras, um conjunto de filtros é calculado para cada imagem. Para determinar se duas imagens pertencem à mesma pessoa ou n˜ao, um modelo de matching das respostas dos filtros é utilizado.

Diferentemente da maioria das abordagens da literatura, Chunxiao et al. [31] focam seu trabalho no tratamento de ranked list de candidatos resultantes de uma consulta. Isso é importante em v´ıdeos de vigilância e aplica¸cões forenses, em que o usuário final deve analisar essa lista para decidir que candidato corresponde verdadeiramente à pessoa da consulta. Dada uma ranked list, que ´e gerada com as primeiras imagens da galeria resultantes da consulta, o objetivo é aprender uma fun¸c˜ao post-rank para reordenar o rank inicial e melhorar a percentagem de acertos nas primeiras posi¸c˜oes. Inicialmente, o usu´ario seleciona uma imagem strong negative (imagens entre as melhores e com baixa similaridade visual à imagem de consulta). Depois disso, pseudoexemplos positivos são criados usando regression forest, os quais s˜ao usados para construir um grafo que captura

No documento Uso de técnicas de recuperação de imagens para o problema de reidentificação de pessoas (páginas 32-37)