Aprendizagem de M´ etricas de Distˆ ancia Large Margin Nearest

2.3 Conceitos Relacionados

2.3.4 Aprendizagem de M´ etricas de Distˆ ancia Large Margin Nearest

Nearest Neighbor (LMNN)

Os métodos de aprendizagem de métricas de distância objetivam aprender uma distância para o espa¸co de dados de entrada a partir de uma cole¸cão de pares de pontos similares e dissimilares que preservam a rela¸cão de distância entre os dados de treinamento [57].

De acordo com a disponibilidade dos dados, os métodos de aprendizagem de métricas de distância podem ser divididos em duas categorias: supervisionados e não supervisionados. Diferentemente da maioria dos algoritmos de aprendizagem supervisionados, em que os exemplos de treinamento são dados pelas etiquetas das classes, nos métodos de aprendizagem de métricas de distância, os exemplos de treinamento são dados como restri¸cões em dois tipos: restri¸cões equivalentes, em que os pares de pontos de dados pertencem à mesma classe e em restri¸cões não equivalentes, em que os pares de pontos de dados pertencem a differentes classes [57]. Além disso, os métodos de aprendizagem de métricas de distância supervisionados estão divididos em globais e locais. Os métodos globais aprendem a métricas de distância para satisfazer todos os pares de restri¸cões simultaneamente,

2.3. Conceitos Relacionados 21

enquanto os métodos locais aprendem as métricas de distância para satisfazer somente alguns pares de restri¸cões [57].

Um dos métodos de aprendizagem de métricas de distância supervisionados globais utilizados para o problema de reidentifica¸cão ´e Large Margin Nearest Neighbor (LMNN) [54], a qual está focada principalmente em melhorar a classifica¸c˜ao com k-Nearest Neighbors (kNN). A ideia do LMNN [54] é aprender a métrica de Mahalanobis de tal forma que os k-vizinhos mais pr´oximos sempre perten¸cam à mesma classe, enquanto que os exemplos de diferentes classes sejam separados por uma grande margem.

Sejam os pontos xi ∈ Rexj ∈ R. A distˆancia de Mahalanobis ´e estimada por

d2_M(xi, xj) = (xi− xj)TM (xi− xj) (2.16)

em que M 3 0 é uma matriz positiva semidefinida (não possue eigenvalores negativos). A fun¸cão objetivo original de LMNN [54] é dada por:

(M ) = (1 − µ)X j i d2_M(xi, xj) + µ X i,j i X l (1 − yil)[1 + d2M(xi, xj) − d2M(xi, xl)]+ (2.17)

em que o primeiro termo minimiza a distˆancia entre cada entrada xie seu target neighbors

xj, indicado pela rela¸c˜ao n˜ao sim´etrica j i, em que ambos compartilham a mesma

etiqueta. O segundo termo denota a quantidade pela qual o per´ımetro da vizinhan¸ca de (xi, xj) ´e invadido pelos pontos impostores xl, os quais est˜ao pr´oximos ao ponto de entrada

xi, mas n˜ao tˆem a mesma etiqueta que os pontos xi e xj; o termo [z]+ = max(z, 0) e

o valor µ = 0, 5 de acordo a [54]. Os pontos xl s˜ao considerados impostores se 1 +

d2_M(xi, xj) − d2M(xi, xl) > 0.

Para estimar a matriz M a fun¸c˜ao objetivo Equa¸c˜ao 2.17 pode ser minimizada por meio de gradiente descendente (gradient descent) [54]. A Figura 2.5 mostra o procedi- mento de aprendizagem da medida LMNN [54] em um cen´ario ideal com um exemplo de treinamento xi que tem a mesma etiqueta que seus vizinhos target neighbors e os imposto-

res de diferentes etiquetas que invadem um per´ımetro local definido pelos target neighbors. Durante a aprendizagem, os pontos impostores s˜ao expulsos para fora do per´ımetro e, depois da aprendizagem uma margem, ´e estabelecida uma fronteira entre o per´ımetro e os impostores.

ANTES

vizinhos mais próximos

margem margem target neighbor Etiqueta Similar Etiqueta Diferente Etiqueta Diferente DEPOIS

Figura 2.5: Ilustra¸cão gráfica do processo de aprendizagem do método LMNN [54]. Pontos no espa¸co antes do treinamento (esquerda) e pontos no espa¸co após o treinamento (di- reita). Figura adaptada de [54].

Cap´ıtulo 3

Metodologia

Neste cap´ıtulo, um método para abordar o problema de reidentifica¸cão de pessoas é apre- sentado, baseado na arquitetura dos sistemas de recupera¸cão de imagens por conteúdo (Content-Based Information Retrieval – CBIR). Conjecturamos que o problema de rei- dentifica¸cão de pessoas pode ser resolvido como um problema de busca de imagens por conteúdo, em que as imagens recuperadas deveriam pertencer a instâncias da mesma pessoa de consulta, vistas a partir de diferentes câmeras.

A motiva¸cão para o uso dessa abordagem reside no fato de que os métodos para solucionar os problemas de reidentifica¸cão de pessoas e CBIR são muito semelhantes, pois em geral, em ambos problemas, existem as etapas de extra¸cão de caracter´ısticas, cálculo de medida de similaridade e ranqueamento. Dessa forma, a solu¸cão do problema de reidentifica¸cão de pessoas pode ser implementada a partir da adapta¸cão da arquitetura básica de um sistema CBIR.

A Figura 3.1 ilustra a arquitetura para um sistema de reidentifica¸c˜ao de pessoas derivada a partir da arquitetura CBIR (ver Figura 2.3).

A arquitetura proposta está dividida em dois módulos: Interface e Processamento de Consultas. O primeiro contém as etapas de inser¸cão de dados, especifica¸cão da consulta e visualiza¸cão, enquanto o segundo contém as etapas de extra¸cão de fundo, extra¸cão de caracter´ısticas, compara¸cão por medida de distância e ranqueamento. Há também dois tipos de processamento ou funcionalidades: processamento offline e processamento online. As etapas que envolvem o processamento offline est˜ao denotadas por uma cor cinza unidas por setas tracejadas, enquanto que as etapas online tˆem uma cor azul unidas por setas cont´ınuas. As etapas que são compartilhadas pelos dois processos estão denotadas por uma borda azul.

Um dos benef´ıcios de tratar o problema de reidentifica¸cão de pessoas como um problema de CBIR é a utiliza¸cão de estruturas de indexa¸cão para melhorar a eficiência e a escalabilidade na busca em grandes bancos de dados.

Inserção de dados Especificação de _consulta Visualização Extração de fundo Extração de vetores de características Comparação por medida de distância Ranqueamento Interface

Módulo de processamento de consultas Padrão de consulta Imagens ranqueadas Vetores de características Câmeras Imagens

Figura 3.1: Arquitetura de um sistema de reidentifica¸c˜ao de pessoas derivada a partir da arquitetura t´ıpica de um sistema CBIR [51].

Dificilmente apenas um método de extra¸cão de caracter´ısticas é robusto às varia¸cões de aparência causadas por mudan¸cas em pontos de vista, pose e ilumina¸cão. Para isso, propomos empregar vários métodos de extra¸cão de caracter´ısticas de cor e textura que tiveram bom desempenho no cenário de CBIR e reidentifica¸cão. Além disso, propomos fazer a descrica¸cão de imagens decompostas em várias escalas, dado que um problema recorrente em reidentifica¸cão é a baixa resolu¸cão das imagen. Usualmente, no momento da captura das imagens, os indiv´ıduos ficam a diferentes distâncias das câmeras.

Para realizar a compara¸cão, utilizamos a medida de distância Euclideana e o método de aprendizagem de métricas de distˆancia Large Margin Nearest Neighbor (LMNN) [54]. Especificamente em reidentifica¸cão de pessoas, os métodos de aprendizagem de métricas

3.1. Processamento Offline 25

de distância aprendem a transi¸cão entre câmeras. Dessa forma, o método LMNN [54] se torna adequado em cenários reais, dado que depois que a distância é aprendida é muito efficiente fazer a compara¸cão.

Dado um método de descri¸cão e uma medida de distância, geramos uma lista ordenada resultante para cada consulta dada. Finalmente, utilizamos vários m´etodos de rank aggregation para combinar as listas ordenadas geradas para cada descritor e medida de distância de forma individual visando melhorar o desempenho final.

Na Figura 3.2, apresentamos um esquema que mostra as diferentes etapas de nossa abordagem, que ser˜ao detalhadas nas se¸c˜oes subsequentes deste cap´ıtulo.

3.1 Processamento Offline

Inicialmente, as etapas de deteçcão e rastreamento (m´odulo 1 na Figura 3.2) são realizadas a partir de um trecho de v´ıdeo capturado por cada câmera em um determinado tempo. Tais etapas geram uma ou várias imagens para cada pessoa detectada. Essas duas etapas estão fora do escopo deste trabalho, pois nossa arquitetura considera o cenário em que são realizadas buscas a partir da defini¸cão de imagens de pessoas como dados de entrada. O processamento offline ´e responsável por separar a região referente ao corpo da pessoa da região do fundo e extrair os vetores de caracter´ısticas que serão em seguida armazenados em uma base de dados.

1. Extra¸c˜ao de Fundo

Nesta etapa (módulo 2 na Figura 3.2), foram utilizadas as imagens binarizadas que mostram a área da silhueta da pessoa com valores de cinza 1 e a região de fundo com valor de cinza 0. Essas imagens foram disponibilizadas por [24] para os bancos de dados VIPER [16] e CAVIAR4REID [9]. Da mesma forma, os autores do trabalho [6] disponibilizaram imagens das silhuetas das pessoas para os bancos de dados i-LIDS [62] e ETHZ [13,45]. Porém, em algumas imagens do banco ETHZ [13, 45], as silhuetas não são exatas ou apresentam ru´ıdo. Para essas imagens, utilizamos uma biblioteca de extra¸cão de fundo disponibilizada por [48].

2. Extra¸c˜ao de Caracter´ısticas em Multiescala

Dado que pessoas podem estar a diferentes distâncias da câmera, uma análise em várias escalas é muito ´util. Neste trabalho, usamos a estrutura da image pyramid [1] para gerar uma sequência de cópias da imagem original com resolu¸cão e densidade reduzidas à metade (módulo 3 na Figura 3.2). Esta sequência é obtida de forma eficiente utilizando uma convolu¸cão da imagem original com um conjunto de fun¸cões Gaussianas (filtro passa-baixas).

Detecção e Rastreamento Extração de fundo Extração de características em multiescala Construção de vetores de características Base de dados D0, … ,Dn Comparação por medida de distância Ranqueamento por rank aggregation Imagens de saída . . . Dc,0, … ,Dc,n Trecho de video (câmera A) Imagem de consulta (câmera B) Processamento offline Processamento online D2,0, D2,1,...,D2,n D1,0, D1,1,...,D1,n D0,0, D0,1,...,D0,n 1 2 3 4 8 9 7 6 5 D2,0, D2,1,...,D2,n D1,0, D1,1,...,D1,n D0,0, D0,1,...,D0,n Extração de características em multiescala Extração de fundo Construção de vetores de características T L T L

Figura 3.2: Vis˜ao geral das etapas da abordagem proposta para reidentifica¸c˜ao de pessoas.

Dada uma imagem colorida I, esta ´e subamostrada em trˆes n´ıveis, I0, I1, e I2, sendo que o primeiro n´ıvel corresponde `a imagem original. Cada imagem ´e dividida em duas regi˜oes, superior (T) e inferior (L), usando o m´etodo descrito em [6].

No passo seguinte, é extra´ıdo um conjunto de caracter´ısticas de cor e textura a partir de cada imagem utilizando um conjunto de descritores D = {D1, D2, ..., D|D|} apresentados no Cap´ıtulo 2. Dessa forma, por exemplo para a imagem I, gera-se um conjunto v_I,DT ,L_i = {v₀T, v₀L, v₁T, vL₁, v₂T, vL₂} de vetores de caracter´ısticas em múltiplas escalas (escalas representadas pelos sub´ındices 0, 1 e 2) para cada região usando o descritor de caracter´ısticas Di.

3. Constru¸c˜ao de Vetores de Caracter´ısticas

Os vetores de caracter´ısticas v_I,DT ,L

i em multiescala extra´ıdos na etapa anterior s˜ao utilizados para construir dois vetores (m´odulo 4 na Figura 3.2): o primeiro, formado

3.1. Processamento Offline 27

pelos vetores {vT

0, v1T, vT2} e o segundo por {v0L, v1L, vL2}.

Diversas estrat´egias podem ser usadas para combinar vetores de caracter´ısticas em multiescala, algumas das quais s˜ao propostas em [47]. Neste trabalho, utilizamos uma abordagem que consiste em diretamente concatenar os conjuntos de vetores {vT

0, vT1, vT2} e {v0L, v1L, vL2} e posteriormente aplicar o procedimento de Análise de Componentes Principais (Principal Component Analysis - PCA) para reduzir a di- mensão do vetor e remover caracter´ısticas desnecessárias.

A Figura 3.3 ilustra o processo realizado para a constru¸cão do vetor de caracter´ısticas. Inicialmente, são detectadas as regi˜oes T e L na imagem. Em seguida, a imagem é decomposta em três escalas. A partir de cada escala, são geradas as caracter´ısticas as quais posteriormente são concatenadas.

Portanto, para cada imagem I, s˜ao criados |D| tipos de vetores de caracter´ısticas {vI,D1, vI,D2, ..., vI,D|D|}, os quais s˜ao armazenados na base dados.

Descomposição em

multiescala Concatenação de vetores Imagem de entrada T L T0 L0 L1 L2 T1 T2 T0 T1 T2 L0 L1 L2

Figura 3.3: Constru¸c˜ao de vetores de caracter´ısticas.

O procedimento de PCA é um método simples e não paramétrico de extra¸cão de informa¸cão relevante a partir de um conjunto de dados confusos [46]. Neste trabalho, utilizamos PCA para remover caracter´ısticas redundantes e desnecessárias (ru´ıdo) de cada base de dados utilizada, dado que os vetores de caracter´ısticas têm alta dimensionalidade. Utilizando PCA, evitamos degradar o desempenho por causa da dimensionalidade especialmente na etapa de aprendizagem do método LMNN [54].

Neste trabalho, calculamos o PCA utilizando Singular Value Decomposition (SVD) da matriz Xn,m = Un,n× Σm,n× Vm,mT (Equa¸c˜ao 3.1), em que Xn,m cont´em todos os m vetores

de caracter´ısticas de dimens˜ao n de uma base de dados em particular. Xm,n =        υ1,1 υ1,2 · · · υ1,n υ2,1 υ2,2 · · · υ2,n .. . ... . .. ... υn,1 υn,2 · · · υn,n        ×        1,1 01,2 · · · 01,n 02,1 2,2 · · · 02,n .. . ... . .. ... 0n,1 0n,2 · · · 0n,m        ×        υ1,1 υ1,2 · · · υ1,n υ2,1 υ2,2 · · · υ2,n .. . ... . .. ... υm,1 υm,2 · · · υm,m        (3.1) Em seguida, dado que cada valor da diagonal da matriz Σ representa a variˆancia, calculamos a nova dimens˜ao r selecionando o n´umero de autovalores (eigenvalues) que representam 99% da variˆancia total. Finalmente, projetamos Xn,m para gerar nossos

dados transformados Y (Equa¸c˜ao 3.2).

Yn,r = Xn,mT × Vm,r (3.2)

3.2 Processamento Online

O processamento online come¸ca quando o usu´ario especifica, por meio do módulo interface, uma imagem de consulta C. A imagem especificada segue as etapas de extra¸c˜ao de fundo, extra¸cão de caracter´ısticas em multiescala e constru¸cão de vetores de caracter´ısticas, da mesma forma que no processamento offline, por´em, esses descritores da imagem de consulta não são armazenados na base de dados (módulos 5, 6 e 7 na Figura 3.2). A seguir s˜ao apresentadas em detalhes as outras etapas relacionadas ao processamento online.

1. Compara¸c˜ao por Medida de Distˆancia

Seja vC,Di o vetor de caracter´ısticas extra´ıdo da imagem de consulta C utilizando o descritor de caracter´ısticas Di e seja vB,Di = {vB0, vB1, ..., vBn} (em que n = |vB,Di|) vetores de caracter´ısticas do tipo de descritor Di armazenados na base de dados no

processamento offline.

Nesta etapa (módulo 8 na Figura 3.2), utilizamos uma fun¸cão de distância para comparar o vetor de caracter´ısticas da imagem de consulta vC,Di com os vetores das imagens da base vB,Di. Mais formalmente, uma fun¸cão de distância é definida como ρ : vC× vB → R, em que R denota os números reais. Considera-se que ρ(x, y) > 0

para todos os pares (x, y) e ρ(x, y) = 0, se x = y. A distância ρ(vC,Di, vBi) em que vBi ∈ vB,Di é utilizada para calcular uma lista ordenada. As medidas de distâncias utilizadas neste trabalho foram a Euclidiana e distâncias aprendidas pelo método Large Margin Nearest Neighbor (LMNN) [54].

Uma lista ranqueada RC,Dide dimens˜ao n ´e gerada pelo vetor de caracter´ısticas vC,Di da imagem de consulta C utilizando a fun¸c˜ao de distˆancia ρ. A lista ranqueada

3.2. Processamento Online 29

RC,Di = {v1, v2, ...vn} pode ser definida como uma ordena¸c˜ao de acordo com a

medida de distˆancia dos elementos da base vB,Di, tal que, se vi ´e ranqueado antes do que vj, ent˜ao ρ(vC,Di, vi) < ρ(vC,Di, vj).

Dado o conjunto D de descritores, pode-se gerar o conjunto de listas ordenadas RC,D = {RC,D1, RC,D2, ..., RC,D|D|} para a imagem de consulta C.

2. Ranqueamento por Agrega¸c˜ao

Ap´os a gera¸c˜ao do conjunto de listas ordenadas RC,D para uma imagem de con-

sulta C, métodos de rank aggregation apresentados na Se¸c˜ao 2.3.2 são utilizados para combinar listas ordenadas geradas por diferentes tipos de descritores de caracter´ısticas e gerar uma nova lista, de forma que a eficácia da lista gerada seja maior do que a eficácia das duas listas iniciais (módulo 9 na Figura 3.2).

Mesmo considerando que os m´etodos de rank aggregation podem ser utilizados para combinar m listas ordenadas, em que m > 2. Neste trabalho, utilizamos os m´etodos de rank aggregation para combinar s´o duas listas ordenadas.

Mais formalmente, seja RC,D = {RC,D1, RC,D2, ..., RC,D|D|} o conjunto de listas

ordenadas para uma imagem de consulta C e o conjunto de descritores D. Seja = um m´etodo de rank aggregation, =(RC,Di, RC,Dj) = RC, em que RC ´e a lista

resultante. As imagens recuperadas nas primeiras posi¸c˜oes em RC s˜ao enviadas

como sa´ıdas para o módulo de interface de modo que sejam mostradas ao usuário. Na Tabela 3.1 apresentamos um exemplo com dados sintéticos para as listas indi- viduais RC,Di e RC,Dj, em que supomos que a imagem que deve ser corretamente

recuperada ´e a I1. Na lista ordenada RC,Di, a imagem I1 ficou na posi¸cão 5, enquanto que na lista RC,Dj ficou na posi¸cão 1. A combina¸cão dessas duas listas

utilizando o m´etodo Borda(RC,Di, RC,Dj) (Equa¸c˜ao [59]) resultou na terceira lista,

em que a imagem I1 foi colocada na primeira posi¸c˜ao.

Posi¸c˜ao 0 1 2 3 4 5 6 7 8 RC,Di I3 I9 I7 I2 I4 I1 I5 I6 I8

Medida de distˆancia 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

RC,Dj I8 I1 I4 I5 I7 I2 I6 I3 I9

Medida de distˆancia 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

Borda(RC,Di, RC,Dj) I1 I4 I7 I3 I2 I8 I5 I9 I6

Tabela 3.1: Exemplo da combina¸c˜ao de duas listas ordenadas utilizando o m´etodo de rank aggregation Borda (Equa¸c˜ao [59]).

Experimentos e Resultados

Nesta se¸c˜ao, apresentamos o protocolo experimental utilizado para realizar nossos experimentos e validar os resultados obtidos. Os experimentos realizados tˆem como objetivo investigar:

• Quais descritores de caracter´ısticas s˜ao mais apropriados para o problema de reidentifica¸c˜ao.

• Qual o impacto de se usarem vers˜oes multiescalas desses descritores. • Quais descritores s˜ao mais promissores a serem combinados.

• Quais t´ecnicas de rank aggregation s˜ao mais apropriadas para combinar descritores. • Qual o impacto do uso de diferentes medidas de distˆancia no desempenho dos des-

critores de caracter´ısticas e das t´ecnicas de rank aggregation.

4.1 Protocolo Experimental

Inicialmente, as bases de dados utilizadas nos experimentos são descritas. Em seguida, os experimentos realizados são divididos em uma série de etapas mostradas na Figura 4.1. As etapas de extra¸cão de fundo até a constru¸cão dos vetores de caracter´ısticas e sua inser¸cão na base de dados foram realizadas da mesma forma que o processamento offline descrito no Cap´ıtulo 3 (módulos de 1 a 4).

Em um cenário real de reidentifica¸cão de pessoas, a imagem de cada pessoa que aparece pela primeira vez no ambiente é associada à câmera em que foi capturada e é armazenada na base de dados. Depois disso, em um segundo momento, a imagem de uma pessoa que foi capturada por uma câmera dentro do ambiente é utilizada como imagem de consulta para o sistema.

4.1. Protocolo Experimental 31 Detecção de regiões Extração de características em multiescala D2,0, D2,1,...,D2,n D1,0, D1,1,...,D1,n D0,0, D0,1,...,D0,n Construção de vetores de características Base de dados D0, … ,Dn Extração de fundo Seleção aleatória de dados Galeria

1 Teste 1 ... GaleriaN Teste N

Análise de

correlação Análise de correlação

... Seleção de descritores D0 D1 . . . Dk Ranqueamento por rank aggregation tau acerto tau acerto 1 10 20 30 40 50 Cumulative Matching Characteristic (CMC) L T rank m at ch ing ra te % 1 20 40 60 80 1 00 6 2 1 3 4 5 7 8

Figura 4.1: Vis˜ao geral das etapas do protocolo experimental utilizado.

Nosso protocolo experimental visa simular essa situa¸cão selecionando dados de forma aleatória (Módulo 5) para construir uma cole¸cão de dados para a base de dados do sistema (conjunto galeria) e uma cole¸cão de consulta (conjunto de teste). As etapas restantes do protocolo são detalhadas nas se¸cões subsequentes deste cap´ıtulo (módulos 6 a 8).

As etapas do protocolo experimental, ilustrado na Figura 4.1, são integralmente realizadas utilizando a distância Euclidiana e, em um segundo momento, uma avalia¸cão utilizando distâncias geradas a partir da técnica LMNN [54] também é realizada.

4.1.1 Bases de Dados

Os experimentos foram realizados em quatro bases de dados p´ublicas e muito utilizadas no estado da arte: VIPER [16], CAVIAR4REID [9], i-LIDS [62] e ETHZ [13, 45].

A base de dados VIPER [16] contém imagens de 632 pessoas capturadas a partir de duas vistas de câmeras diferentes em um ambiente aberto. Essa cole¸cão de imagens é

considerada como a mais desafiadora pela comunidade devido à existência de apenas um exemplo por pessoa de cada uma das vistas de câmera. Além disso, as imagens apresentam importantes varia¸cões em aparência, ilumina¸cão e posi¸cão (a varia¸cão em posi¸cão na maioria das imagens é maior do que 90 graus). Todas as imagens dessa cole¸cão estão normalizadas a um tamanho de 128 × 48 pixels.

A base de dados i-LIDS [62] contém imagens de 119 pessoas com 2 até 5 exemplos para cada uma. Estas imagens foram capturadas por várias câmeras nos ambientes de um aeroporto. Além disso, estas imagens apresentam tamanhos diferentes e estão associadas a mudan¸cas principalmente em ilumina¸cão e oclusões.

A base de dados ETHZ [13,45] contém 8726 imagens de pessoas que foram capturadas em ambientes abertos utilizando uma câmera em movimento. As imagens estão divididas em três sequências (SEQ #1, #2 e #3) de 83, 35 e 28 pessoas com várias imagens de exemplo para cada pessoa. A base apresenta também imagens de tamanhos diferentes e varia¸cões em aparência, mudan¸cas de pose e ilumina¸cão. Neste trabalho, utilizamos a SEQ #1 dado que é mais dif´ıcil e contém maior quantidade de imagens.

A base de dados CAVIAR4REID [9] contém 1220 imagens de 70 pessoas com 5 a 10 imagens para cada uma. Estas imagens foram capturadas por várias câmeras em um cenário real e possuem grandes mudan¸cas em resolu¸cão. Os tamanhos m´ınimo e máximo são 17 × 39 e 72 × 144, respectivamente. Estas imagens também estão associadas a varia¸cões em ilumina¸cão, posi¸cões e aparência.

Em resumo, pode-se dizer que cada uma das bases utilizadas contém imagens que sofre- ram diferentes varia¸cões em aparência, ilumina¸cão e posi¸cão. Também foram capturadas em ambientes diferentes, tais como aeroportos, cenários urbanos e ambientes abertos. Ex- ceto pela base VIPER [16], que contém imagens com tamanho fixo, a maioria das bases

No documento Uso de técnicas de recuperação de imagens para o problema de reidentificação de pessoas (páginas 44-57)