• Nenhum resultado encontrado

Aprendizagem de M´ etricas de Distˆ ancia Large Margin Nearest

2.3 Conceitos Relacionados

2.3.4 Aprendizagem de M´ etricas de Distˆ ancia Large Margin Nearest

Nearest Neighbor (LMNN)

Os m´etodos de aprendizagem de m´etricas de distˆancia objetivam aprender uma distˆancia para o espa¸co de dados de entrada a partir de uma cole¸c˜ao de pares de pontos similares e dissimilares que preservam a rela¸c˜ao de distˆancia entre os dados de treinamento [57].

De acordo com a disponibilidade dos dados, os m´etodos de aprendizagem de m´etricas de distˆancia podem ser divididos em duas categorias: supervisionados e n˜ao supervisiona- dos. Diferentemente da maioria dos algoritmos de aprendizagem supervisionados, em que os exemplos de treinamento s˜ao dados pelas etiquetas das classes, nos m´etodos de apren- dizagem de m´etricas de distˆancia, os exemplos de treinamento s˜ao dados como restri¸c˜oes em dois tipos: restri¸c˜oes equivalentes, em que os pares de pontos de dados pertencem `a mesma classe e em restri¸c˜oes n˜ao equivalentes, em que os pares de pontos de dados per- tencem a differentes classes [57]. Al´em disso, os m´etodos de aprendizagem de m´etricas de distˆancia supervisionados est˜ao divididos em globais e locais. Os m´etodos globais apren- dem a m´etricas de distˆancia para satisfazer todos os pares de restri¸c˜oes simultaneamente,

2.3. Conceitos Relacionados 21

enquanto os m´etodos locais aprendem as m´etricas de distˆancia para satisfazer somente alguns pares de restri¸c˜oes [57].

Um dos m´etodos de aprendizagem de m´etricas de distˆancia supervisionados globais uti- lizados para o problema de reidentifica¸c˜ao ´e Large Margin Nearest Neighbor (LMNN) [54], a qual est´a focada principalmente em melhorar a classifica¸c˜ao com k-Nearest Neighbors (kNN). A ideia do LMNN [54] ´e aprender a m´etrica de Mahalanobis de tal forma que os k-vizinhos mais pr´oximos sempre perten¸cam `a mesma classe, enquanto que os exemplos de diferentes classes sejam separados por uma grande margem.

Sejam os pontos xi ∈ Rexj ∈ R. A distˆancia de Mahalanobis ´e estimada por

d2M(xi, xj) = (xi− xj)TM (xi− xj) (2.16)

em que M 3 0 ´e uma matriz positiva semidefinida (n˜ao possue eigenvalores negativos). A fun¸c˜ao objetivo original de LMNN [54] ´e dada por:

(M ) = (1 − µ)X j i d2M(xi, xj) + µ X i,j i X l (1 − yil)[1 + d2M(xi, xj) − d2M(xi, xl)]+ (2.17)

em que o primeiro termo minimiza a distˆancia entre cada entrada xie seu target neighbors

xj, indicado pela rela¸c˜ao n˜ao sim´etrica j i, em que ambos compartilham a mesma

etiqueta. O segundo termo denota a quantidade pela qual o per´ımetro da vizinhan¸ca de (xi, xj) ´e invadido pelos pontos impostores xl, os quais est˜ao pr´oximos ao ponto de entrada

xi, mas n˜ao tˆem a mesma etiqueta que os pontos xi e xj; o termo [z]+ = max(z, 0) e

o valor µ = 0, 5 de acordo a [54]. Os pontos xl s˜ao considerados impostores se 1 +

d2M(xi, xj) − d2M(xi, xl) > 0.

Para estimar a matriz M a fun¸c˜ao objetivo Equa¸c˜ao 2.17 pode ser minimizada por meio de gradiente descendente (gradient descent) [54]. A Figura 2.5 mostra o procedi- mento de aprendizagem da medida LMNN [54] em um cen´ario ideal com um exemplo de treinamento xi que tem a mesma etiqueta que seus vizinhos target neighbors e os imposto-

res de diferentes etiquetas que invadem um per´ımetro local definido pelos target neighbors. Durante a aprendizagem, os pontos impostores s˜ao expulsos para fora do per´ımetro e, de- pois da aprendizagem uma margem, ´e estabelecida uma fronteira entre o per´ımetro e os impostores.

ANTES

vizinhos mais próximos

margem margem target neighbor Etiqueta Similar Etiqueta Diferente Etiqueta Diferente DEPOIS

Figura 2.5: Ilustra¸c˜ao gr´afica do processo de aprendizagem do m´etodo LMNN [54]. Pontos no espa¸co antes do treinamento (esquerda) e pontos no espa¸co ap´os o treinamento (di- reita). Figura adaptada de [54].

Cap´ıtulo 3

Metodologia

Neste cap´ıtulo, um m´etodo para abordar o problema de reidentifica¸c˜ao de pessoas ´e apre- sentado, baseado na arquitetura dos sistemas de recupera¸c˜ao de imagens por conte´udo (Content-Based Information Retrieval – CBIR). Conjecturamos que o problema de rei- dentifica¸c˜ao de pessoas pode ser resolvido como um problema de busca de imagens por conte´udo, em que as imagens recuperadas deveriam pertencer a instˆancias da mesma pessoa de consulta, vistas a partir de diferentes cˆameras.

A motiva¸c˜ao para o uso dessa abordagem reside no fato de que os m´etodos para solucionar os problemas de reidentifica¸c˜ao de pessoas e CBIR s˜ao muito semelhantes, pois em geral, em ambos problemas, existem as etapas de extra¸c˜ao de caracter´ısticas, c´alculo de medida de similaridade e ranqueamento. Dessa forma, a solu¸c˜ao do problema de reidentifica¸c˜ao de pessoas pode ser implementada a partir da adapta¸c˜ao da arquitetura b´asica de um sistema CBIR.

A Figura 3.1 ilustra a arquitetura para um sistema de reidentifica¸c˜ao de pessoas deri- vada a partir da arquitetura CBIR (ver Figura 2.3).

A arquitetura proposta est´a dividida em dois m´odulos: Interface e Processamento de Consultas. O primeiro cont´em as etapas de inser¸c˜ao de dados, especifica¸c˜ao da consulta e visualiza¸c˜ao, enquanto o segundo cont´em as etapas de extra¸c˜ao de fundo, extra¸c˜ao de caracter´ısticas, compara¸c˜ao por medida de distˆancia e ranqueamento. H´a tamb´em dois tipos de processamento ou funcionalidades: processamento offline e processamento online. As etapas que envolvem o processamento offline est˜ao denotadas por uma cor cinza unidas por setas tracejadas, enquanto que as etapas online tˆem uma cor azul unidas por setas cont´ınuas. As etapas que s˜ao compartilhadas pelos dois processos est˜ao denotadas por uma borda azul.

Um dos benef´ıcios de tratar o problema de reidentifica¸c˜ao de pessoas como um pro- blema de CBIR ´e a utiliza¸c˜ao de estruturas de indexa¸c˜ao para melhorar a eficiˆencia e a escalabilidade na busca em grandes bancos de dados.

Inserção de dados Especificação de consulta Visualização Extração de fundo Extração de vetores de características Comparação por medida de distância Ranqueamento Interface

Módulo de processamento de consultas Padrão de consulta Imagens ranqueadas Vetores de características Câmeras Imagens

Figura 3.1: Arquitetura de um sistema de reidentifica¸c˜ao de pessoas derivada a partir da arquitetura t´ıpica de um sistema CBIR [51].

Dificilmente apenas um m´etodo de extra¸c˜ao de caracter´ısticas ´e robusto `as varia¸c˜oes de aparˆencia causadas por mudan¸cas em pontos de vista, pose e ilumina¸c˜ao. Para isso, propomos empregar v´arios m´etodos de extra¸c˜ao de caracter´ısticas de cor e textura que tiveram bom desempenho no cen´ario de CBIR e reidentifica¸c˜ao. Al´em disso, propomos fazer a descrica¸c˜ao de imagens decompostas em v´arias escalas, dado que um problema recorrente em reidentifica¸c˜ao ´e a baixa resolu¸c˜ao das imagen. Usualmente, no momento da captura das imagens, os indiv´ıduos ficam a diferentes distˆancias das cˆameras.

Para realizar a compara¸c˜ao, utilizamos a medida de distˆancia Euclideana e o m´etodo de aprendizagem de m´etricas de distˆancia Large Margin Nearest Neighbor (LMNN) [54]. Especificamente em reidentifica¸c˜ao de pessoas, os m´etodos de aprendizagem de m´etricas

3.1. Processamento Offline 25

de distˆancia aprendem a transi¸c˜ao entre cˆameras. Dessa forma, o m´etodo LMNN [54] se torna adequado em cen´arios reais, dado que depois que a distˆancia ´e aprendida ´e muito efficiente fazer a compara¸c˜ao.

Dado um m´etodo de descri¸c˜ao e uma medida de distˆancia, geramos uma lista orde- nada resultante para cada consulta dada. Finalmente, utilizamos v´arios m´etodos de rank aggregation para combinar as listas ordenadas geradas para cada descritor e medida de distˆancia de forma individual visando melhorar o desempenho final.

Na Figura 3.2, apresentamos um esquema que mostra as diferentes etapas de nossa abordagem, que ser˜ao detalhadas nas se¸c˜oes subsequentes deste cap´ıtulo.

3.1

Processamento Offline

Inicialmente, as etapas de detec¸c˜ao e rastreamento (m´odulo 1 na Figura 3.2) s˜ao realizadas a partir de um trecho de v´ıdeo capturado por cada cˆamera em um determinado tempo. Tais etapas geram uma ou v´arias imagens para cada pessoa detectada. Essas duas etapas est˜ao fora do escopo deste trabalho, pois nossa arquitetura considera o cen´ario em que s˜ao realizadas buscas a partir da defini¸c˜ao de imagens de pessoas como dados de entrada. O processamento offline ´e respons´avel por separar a regi˜ao referente ao corpo da pessoa da regi˜ao do fundo e extrair os vetores de caracter´ısticas que ser˜ao em seguida armazenados em uma base de dados.

1. Extra¸c˜ao de Fundo

Nesta etapa (m´odulo 2 na Figura 3.2), foram utilizadas as imagens binarizadas que mostram a ´area da silhueta da pessoa com valores de cinza 1 e a regi˜ao de fundo com valor de cinza 0. Essas imagens foram disponibilizadas por [24] para os bancos de dados VIPER [16] e CAVIAR4REID [9]. Da mesma forma, os autores do trabalho [6] disponibilizaram imagens das silhuetas das pessoas para os bancos de dados i-LIDS [62] e ETHZ [13,45]. Por´em, em algumas imagens do banco ETHZ [13, 45], as silhuetas n˜ao s˜ao exatas ou apresentam ru´ıdo. Para essas imagens, utilizamos uma biblioteca de extra¸c˜ao de fundo disponibilizada por [48].

2. Extra¸c˜ao de Caracter´ısticas em Multiescala

Dado que pessoas podem estar a diferentes distˆancias da cˆamera, uma an´alise em v´arias escalas ´e muito ´util. Neste trabalho, usamos a estrutura da image pyramid [1] para gerar uma sequˆencia de c´opias da imagem original com resolu¸c˜ao e densidade reduzidas `a metade (m´odulo 3 na Figura 3.2). Esta sequˆencia ´e obtida de forma eficiente utilizando uma convolu¸c˜ao da imagem original com um conjunto de fun¸c˜oes Gaussianas (filtro passa-baixas).

Detecção e Rastreamento Extração de fundo Extração de características em multiescala Construção de vetores de características Base de dados D0, … ,Dn Comparação por medida de distância Ranqueamento por rank aggregation Imagens de saída . . . Dc,0, … ,Dc,n Trecho de video (câmera A) Imagem de consulta (câmera B) Processamento offline Processamento online D2,0, D2,1,...,D2,n D1,0, D1,1,...,D1,n D0,0, D0,1,...,D0,n 1 2 3 4 8 9 7 6 5 D2,0, D2,1,...,D2,n D1,0, D1,1,...,D1,n D0,0, D0,1,...,D0,n Extração de características em multiescala Extração de fundo Construção de vetores de características T L T L

Figura 3.2: Vis˜ao geral das etapas da abordagem proposta para reidentifica¸c˜ao de pessoas.

Dada uma imagem colorida I, esta ´e subamostrada em trˆes n´ıveis, I0, I1, e I2, sendo que o primeiro n´ıvel corresponde `a imagem original. Cada imagem ´e dividida em duas regi˜oes, superior (T) e inferior (L), usando o m´etodo descrito em [6].

No passo seguinte, ´e extra´ıdo um conjunto de caracter´ısticas de cor e textura a partir de cada imagem utilizando um conjunto de descritores D = {D1, D2, ..., D|D|} apresentados no Cap´ıtulo 2. Dessa forma, por exemplo para a imagem I, gera-se um conjunto vI,DT ,Li = {v0T, v0L, v1T, vL1, v2T, vL2} de vetores de caracter´ısticas em m´ultiplas escalas (escalas representadas pelos sub´ındices 0, 1 e 2) para cada regi˜ao usando o descritor de caracter´ısticas Di.

3. Constru¸c˜ao de Vetores de Caracter´ısticas

Os vetores de caracter´ısticas vI,DT ,L

i em multiescala extra´ıdos na etapa anterior s˜ao utilizados para construir dois vetores (m´odulo 4 na Figura 3.2): o primeiro, formado

3.1. Processamento Offline 27

pelos vetores {vT

0, v1T, vT2} e o segundo por {v0L, v1L, vL2}.

Diversas estrat´egias podem ser usadas para combinar vetores de caracter´ısticas em multiescala, algumas das quais s˜ao propostas em [47]. Neste trabalho, utilizamos uma abordagem que consiste em diretamente concatenar os conjuntos de vetores {vT

0, vT1, vT2} e {v0L, v1L, vL2} e posteriormente aplicar o procedimento de An´alise de Componentes Principais (Principal Component Analysis - PCA) para reduzir a di- mens˜ao do vetor e remover caracter´ısticas desnecess´arias.

A Figura 3.3 ilustra o processo realizado para a constru¸c˜ao do vetor de carac- ter´ısticas. Inicialmente, s˜ao detectadas as regi˜oes T e L na imagem. Em seguida, a imagem ´e decomposta em trˆes escalas. A partir de cada escala, s˜ao geradas as caracter´ısticas as quais posteriormente s˜ao concatenadas.

Portanto, para cada imagem I, s˜ao criados |D| tipos de vetores de caracter´ısticas {vI,D1, vI,D2, ..., vI,D|D|}, os quais s˜ao armazenados na base dados.

Descomposição em

multiescala Concatenação de vetores Imagem de entrada T L T0 L0 L1 L2 T1 T2 T0 T1 T2 L0 L1 L2

Figura 3.3: Constru¸c˜ao de vetores de caracter´ısticas.

O procedimento de PCA ´e um m´etodo simples e n˜ao param´etrico de extra¸c˜ao de informa¸c˜ao relevante a partir de um conjunto de dados confusos [46]. Neste trabalho, uti- lizamos PCA para remover caracter´ısticas redundantes e desnecess´arias (ru´ıdo) de cada base de dados utilizada, dado que os vetores de caracter´ısticas tˆem alta dimensionali- dade. Utilizando PCA, evitamos degradar o desempenho por causa da dimensionalidade especialmente na etapa de aprendizagem do m´etodo LMNN [54].

Neste trabalho, calculamos o PCA utilizando Singular Value Decomposition (SVD) da matriz Xn,m = Un,n× Σm,n× Vm,mT (Equa¸c˜ao 3.1), em que Xn,m cont´em todos os m vetores

de caracter´ısticas de dimens˜ao n de uma base de dados em particular. Xm,n =        υ1,1 υ1,2 · · · υ1,n υ2,1 υ2,2 · · · υ2,n .. . ... . .. ... υn,1 υn,2 · · · υn,n        ×        1,1 01,2 · · · 01,n 02,1 2,2 · · · 02,n .. . ... . .. ... 0n,1 0n,2 · · · 0n,m        ×        υ1,1 υ1,2 · · · υ1,n υ2,1 υ2,2 · · · υ2,n .. . ... . .. ... υm,1 υm,2 · · · υm,m        (3.1) Em seguida, dado que cada valor da diagonal da matriz Σ representa a variˆancia, calculamos a nova dimens˜ao r selecionando o n´umero de autovalores (eigenvalues) que representam 99% da variˆancia total. Finalmente, projetamos Xn,m para gerar nossos

dados transformados Y (Equa¸c˜ao 3.2).

Yn,r = Xn,mT × Vm,r (3.2)

3.2

Processamento Online

O processamento online come¸ca quando o usu´ario especifica, por meio do m´odulo interface, uma imagem de consulta C. A imagem especificada segue as etapas de extra¸c˜ao de fundo, extra¸c˜ao de caracter´ısticas em multiescala e constru¸c˜ao de vetores de caracter´ısticas, da mesma forma que no processamento offline, por´em, esses descritores da imagem de con- sulta n˜ao s˜ao armazenados na base de dados (m´odulos 5, 6 e 7 na Figura 3.2). A seguir s˜ao apresentadas em detalhes as outras etapas relacionadas ao processamento online.

1. Compara¸c˜ao por Medida de Distˆancia

Seja vC,Di o vetor de caracter´ısticas extra´ıdo da imagem de consulta C utilizando o descritor de caracter´ısticas Di e seja vB,Di = {vB0, vB1, ..., vBn} (em que n = |vB,Di|) vetores de caracter´ısticas do tipo de descritor Di armazenados na base de dados no

processamento offline.

Nesta etapa (m´odulo 8 na Figura 3.2), utilizamos uma fun¸c˜ao de distˆancia para comparar o vetor de caracter´ısticas da imagem de consulta vC,Di com os vetores das imagens da base vB,Di. Mais formalmente, uma fun¸c˜ao de distˆancia ´e definida como ρ : vC× vB → R, em que R denota os n´umeros reais. Considera-se que ρ(x, y) > 0

para todos os pares (x, y) e ρ(x, y) = 0, se x = y. A distˆancia ρ(vC,Di, vBi) em que vBi ∈ vB,Di ´e utilizada para calcular uma lista ordenada. As medidas de distˆancias utilizadas neste trabalho foram a Euclidiana e distˆancias aprendidas pelo m´etodo Large Margin Nearest Neighbor (LMNN) [54].

Uma lista ranqueada RC,Dide dimens˜ao n ´e gerada pelo vetor de caracter´ısticas vC,Di da imagem de consulta C utilizando a fun¸c˜ao de distˆancia ρ. A lista ranqueada

3.2. Processamento Online 29

RC,Di = {v1, v2, ...vn} pode ser definida como uma ordena¸c˜ao de acordo com a

medida de distˆancia dos elementos da base vB,Di, tal que, se vi ´e ranqueado antes do que vj, ent˜ao ρ(vC,Di, vi) < ρ(vC,Di, vj).

Dado o conjunto D de descritores, pode-se gerar o conjunto de listas ordenadas RC,D = {RC,D1, RC,D2, ..., RC,D|D|} para a imagem de consulta C.

2. Ranqueamento por Agrega¸c˜ao

Ap´os a gera¸c˜ao do conjunto de listas ordenadas RC,D para uma imagem de con-

sulta C, m´etodos de rank aggregation apresentados na Se¸c˜ao 2.3.2 s˜ao utilizados para combinar listas ordenadas geradas por diferentes tipos de descritores de carac- ter´ısticas e gerar uma nova lista, de forma que a efic´acia da lista gerada seja maior do que a efic´acia das duas listas iniciais (m´odulo 9 na Figura 3.2).

Mesmo considerando que os m´etodos de rank aggregation podem ser utilizados para combinar m listas ordenadas, em que m > 2. Neste trabalho, utilizamos os m´etodos de rank aggregation para combinar s´o duas listas ordenadas.

Mais formalmente, seja RC,D = {RC,D1, RC,D2, ..., RC,D|D|} o conjunto de listas

ordenadas para uma imagem de consulta C e o conjunto de descritores D. Seja = um m´etodo de rank aggregation, =(RC,Di, RC,Dj) = RC, em que RC ´e a lista

resultante. As imagens recuperadas nas primeiras posi¸c˜oes em RC s˜ao enviadas

como sa´ıdas para o m´odulo de interface de modo que sejam mostradas ao usu´ario. Na Tabela 3.1 apresentamos um exemplo com dados sint´eticos para as listas indi- viduais RC,Di e RC,Dj, em que supomos que a imagem que deve ser corretamente

recuperada ´e a I1. Na lista ordenada RC,Di, a imagem I1 ficou na posi¸c˜ao 5, en- quanto que na lista RC,Dj ficou na posi¸c˜ao 1. A combina¸c˜ao dessas duas listas

utilizando o m´etodo Borda(RC,Di, RC,Dj) (Equa¸c˜ao [59]) resultou na terceira lista,

em que a imagem I1 foi colocada na primeira posi¸c˜ao.

Posi¸c˜ao 0 1 2 3 4 5 6 7 8 RC,Di I3 I9 I7 I2 I4 I1 I5 I6 I8

Medida de distˆancia 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

RC,Dj I8 I1 I4 I5 I7 I2 I6 I3 I9

Medida de distˆancia 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

Borda(RC,Di, RC,Dj) I1 I4 I7 I3 I2 I8 I5 I9 I6

Tabela 3.1: Exemplo da combina¸c˜ao de duas listas ordenadas utilizando o m´etodo de rank aggregation Borda (Equa¸c˜ao [59]).

Experimentos e Resultados

Nesta se¸c˜ao, apresentamos o protocolo experimental utilizado para realizar nossos expe- rimentos e validar os resultados obtidos. Os experimentos realizados tˆem como objetivo investigar:

• Quais descritores de caracter´ısticas s˜ao mais apropriados para o problema de rei- dentifica¸c˜ao.

• Qual o impacto de se usarem vers˜oes multiescalas desses descritores. • Quais descritores s˜ao mais promissores a serem combinados.

• Quais t´ecnicas de rank aggregation s˜ao mais apropriadas para combinar descritores. • Qual o impacto do uso de diferentes medidas de distˆancia no desempenho dos des-

critores de caracter´ısticas e das t´ecnicas de rank aggregation.

4.1

Protocolo Experimental

Inicialmente, as bases de dados utilizadas nos experimentos s˜ao descritas. Em seguida, os experimentos realizados s˜ao divididos em uma s´erie de etapas mostradas na Figura 4.1. As etapas de extra¸c˜ao de fundo at´e a constru¸c˜ao dos vetores de caracter´ısticas e sua inser¸c˜ao na base de dados foram realizadas da mesma forma que o processamento offline descrito no Cap´ıtulo 3 (m´odulos de 1 a 4).

Em um cen´ario real de reidentifica¸c˜ao de pessoas, a imagem de cada pessoa que aparece pela primeira vez no ambiente ´e associada `a cˆamera em que foi capturada e ´e armazenada na base de dados. Depois disso, em um segundo momento, a imagem de uma pessoa que foi capturada por uma cˆamera dentro do ambiente ´e utilizada como imagem de consulta para o sistema.

4.1. Protocolo Experimental 31 Detecção de regiões Extração de características em multiescala D2,0, D2,1,...,D2,n D1,0, D1,1,...,D1,n D0,0, D0,1,...,D0,n Construção de vetores de características Base de dados D0, … ,Dn Extração de fundo Seleção aleatória de dados Galeria

1 Teste 1 ... GaleriaN Teste N

Análise de

correlação Análise de correlação

... Seleção de descritores D0 D1 . . . Dk Ranqueamento por rank aggregation tau acerto tau acerto 1 10 20 30 40 50 Cumulative Matching Characteristic (CMC) L T rank m at ch ing ra te % 1 20 40 60 80 1 00 6 2 1 3 4 5 7 8

Figura 4.1: Vis˜ao geral das etapas do protocolo experimental utilizado.

Nosso protocolo experimental visa simular essa situa¸c˜ao selecionando dados de forma aleat´oria (M´odulo 5) para construir uma cole¸c˜ao de dados para a base de dados do sistema (conjunto galeria) e uma cole¸c˜ao de consulta (conjunto de teste). As etapas restantes do protocolo s˜ao detalhadas nas se¸c˜oes subsequentes deste cap´ıtulo (m´odulos 6 a 8).

As etapas do protocolo experimental, ilustrado na Figura 4.1, s˜ao integralmente rea- lizadas utilizando a distˆancia Euclidiana e, em um segundo momento, uma avalia¸c˜ao utilizando distˆancias geradas a partir da t´ecnica LMNN [54] tamb´em ´e realizada.

4.1.1

Bases de Dados

Os experimentos foram realizados em quatro bases de dados p´ublicas e muito utilizadas no estado da arte: VIPER [16], CAVIAR4REID [9], i-LIDS [62] e ETHZ [13, 45].

A base de dados VIPER [16] cont´em imagens de 632 pessoas capturadas a partir de duas vistas de cˆameras diferentes em um ambiente aberto. Essa cole¸c˜ao de imagens ´e

considerada como a mais desafiadora pela comunidade devido `a existˆencia de apenas um exemplo por pessoa de cada uma das vistas de cˆamera. Al´em disso, as imagens apresentam importantes varia¸c˜oes em aparˆencia, ilumina¸c˜ao e posi¸c˜ao (a varia¸c˜ao em posi¸c˜ao na maioria das imagens ´e maior do que 90 graus). Todas as imagens dessa cole¸c˜ao est˜ao normalizadas a um tamanho de 128 × 48 pixels.

A base de dados i-LIDS [62] cont´em imagens de 119 pessoas com 2 at´e 5 exemplos para cada uma. Estas imagens foram capturadas por v´arias cˆameras nos ambientes de um aeroporto. Al´em disso, estas imagens apresentam tamanhos diferentes e est˜ao associadas a mudan¸cas principalmente em ilumina¸c˜ao e oclus˜oes.

A base de dados ETHZ [13,45] cont´em 8726 imagens de pessoas que foram capturadas em ambientes abertos utilizando uma cˆamera em movimento. As imagens est˜ao divididas em trˆes sequˆencias (SEQ #1, #2 e #3) de 83, 35 e 28 pessoas com v´arias imagens de exemplo para cada pessoa. A base apresenta tamb´em imagens de tamanhos diferentes e varia¸c˜oes em aparˆencia, mudan¸cas de pose e ilumina¸c˜ao. Neste trabalho, utilizamos a SEQ #1 dado que ´e mais dif´ıcil e cont´em maior quantidade de imagens.

A base de dados CAVIAR4REID [9] cont´em 1220 imagens de 70 pessoas com 5 a 10 imagens para cada uma. Estas imagens foram capturadas por v´arias cˆameras em um cen´ario real e possuem grandes mudan¸cas em resolu¸c˜ao. Os tamanhos m´ınimo e m´aximo s˜ao 17 × 39 e 72 × 144, respectivamente. Estas imagens tamb´em est˜ao associadas a varia¸c˜oes em ilumina¸c˜ao, posi¸c˜oes e aparˆencia.

Em resumo, pode-se dizer que cada uma das bases utilizadas cont´em imagens que sofre- ram diferentes varia¸c˜oes em aparˆencia, ilumina¸c˜ao e posi¸c˜ao. Tamb´em foram capturadas em ambientes diferentes, tais como aeroportos, cen´arios urbanos e ambientes abertos. Ex- ceto pela base VIPER [16], que cont´em imagens com tamanho fixo, a maioria das bases

Documentos relacionados