Métodos baseados em classificadores do tipo ensemble

meio de técnicas do tipo ensemble (Duda et al., 2000). Ensembles podem ser considerados meta-classificadores uma vez que utilizam a saída de outros classificadores como entrada. Seu objetivo é combinar vários modelos de de- cisão diferentes na expectativa de que a fusão produza melhor performance. Observando-se que cada descritor é capaz de normalizar apenas um conjunto limitado de variações indesejadas e que nenhuma função de distância é global- mente adequada, espera-se que a combinação de representações e medidas de distância distintas levem a um maior poder discriminatório. A Figura 2.3 ilustra como essa técnica pode ser empregada.

Figura 2.3: Classificadores do tipo ensemble são uma possibilidade para reduzir o efeito da baixa representatividade de descritores faciais no Estado-da-Arte.

Com efeito, os métodos propostos por Wolf et al. (2008, 2010) e Seo e Milan- far (2011) demonstram a eficácia dessa abordagem. Nestes trabalhos, várias medidas de distância são tomadas em diferentes espaços de descritores para a formação de um novo vetor de características. Em seguida, esse vetor é proces- sado por um classificador do tipo Support Vector Machine (SVM; Cristianini e Shawe-Taylor, 2000) que irá decidir se as medidas de distância correspondem a um par de faces de mesma identidade ou não. Nesse caso, o SVM corres- ponde ao meta-classificador (ensemble). Estruturado dessa forma, o cálculo das distâncias é uma nova etapa de descrição. É importante notar que, ao con- trário do decisor por limiarização da equação↵_⌦2.1 , um classificador SVM exige treinamento, o que demanda a existência de uma base de dados apropriada.

2.2. CASAMENTO DE PARES Embora eficazes, métodos baseados em ensembles possuem a desvantagem de exigirem a combinação de um número grande de espaços de descritores. Na prática, a despeito das particularidades no funcionamento, diferentes descritores tendem a normalizar os mesmos tipos de variações. Isso implica em grande interseção no poder de representação dos mesmos. Assim, para que haja real vantagem no uso de ensembles, diversos descritores devem ser combinados, implicando em expressivo custo computacional já que as várias representações precisam ser extraídas para uma mesma imagem de face a cada execução.

De fato, apesar de introduzirem novos descritores (e.g., Three-Patch e Four-

Patch Local Binary Patterns) e métricas sofisticadas (e.g., One-Shot e Two-Shot Similarities), os trabalhos de Wolf et al. (2008, 2010) combinam 20 medidas de

distância para a obtenção de performance no Estado-da-Arte. Seo e Milanfar (2011), por sua vez, mesmo utilizando um novo descritor (Locally Adaptive

Regression Kernel), requer a combinação de 14 medidas de distância para atingir

performance levemente superior.

2.2.2 Métodos baseados em Aprendizagem de Métrica

É instrutivo notar que dois fatores principais determinam a eficácia da equa- ção↵_⌦2.1 como um decisor:

(1) A capacidade dos descritores de normalizar as imagens de faces em relação às variações circunstanciais durante a captura;

(2) A competência da métricad (u,v)em modelar a intuição de queudeve estar próximo (distante) devquando as identidades representadas forem iguais (diferentes).

A proposta de novos descritores bem como a evolução de representações tradicionais buscam atacar o fator 1. Métodos baseados em ensembles, por sua vez, pressupõem que tanto 1 quanto 2 estão no limite e a solução está em combinar modelos já existentes.

Como afirma Guillaumin et al. (2009), entretanto, poucos trabalhos no do- mínio de reconhecimento facial buscam melhorar o desempenho das métricas de distância em si (fator 2). Esse fato é particularmente curioso uma vez que muitas técnicas de Aprendizagem de Máquina podem ser utilizadas para esse fim (Xing et al., 2002; Davis et al., 2007; Kosinov e Pun, 2008; Weinberger e

CAPÍTULO 2. CONTEXTO E O ESTADO-DA-ARTE

Saul, 2009). A ideia fundamental consiste em explorar propriedades específicas

da métricad (u,v)e de uma base de dados formatada apropriadamente para

achar um mapeamento para um novo espaço métrico no qual a separabilidade induzida pela distância seja maior. Essa é uma ideia estabelecida conhecida como Metric Learning ou Aprendizagem de Métrica.

Com efeito, embora pouco explorada, técnicas recentes de Aprendizagem de Métrica desenvolvidas com foco em casamento de pares de faces, como

Logistic Discriminant Metric Learning (LDML; proposta por Guillaumin et al.,

2009) e Cosine Similarity Metric Learning (CSML; proposta por Nguyen e Bai, 2011), demonstram o potencial dessa abordagem na melhoria da precisão dos sistemas de reconhecimento facial. Além desses algoritmos, pensados com foco específico no problema em questão, outros métodos mais gerais como Information Theoretic Metric Learning (ITML; Davis et al., 2007) já foram reportados como eficazes (Guillaumin et al., 2009) nesse domínio.

As métricas de similaridade One-Shot Similarity (OSS; Wolf et al., 2009) e

Two-Shot Similarity (TSS; Wolf et al., 2010), a despeito de não implicarem em

transformação do espaço métrico, também podem ser consideradas métodos de Aprendizagem de Métrica na medida em que são definidas a partir de um modelo de aprendizagem supervisionado.

Apesar do foco dessa dissertação ser o modo casamento de pares, é importante mencionar que Aprendizagem de Métrica também pode ser empregada em outros modos. O algoritmo Large Margin Nearest Neighbor (LMNN; Wein- berger e Saul, 2009) é particularmente apropriado para identificação já que foi desenvolvido no contexto do k-Nearest Neighbors (k-NN ; Duda et al., 2000), o qual é o classificador prevalente nesse modo. Em seu trabalho, além de propor o LDML e o Marginalized k-NN (MkNN), Guillaumin et al. (2009) avalia o LMNN e o ITML nesse modo de operação e demonstra, de fato, a aplicabilidade deles.

No que se segue, os aspectos gerais do problema de Aprendizagem de Mé- trica são introduzidos no contexto do casamento de pares de faces. Em seguida, as técnicas LDML, CSML, ITML e as métricas OSS e TSS são descritas. Esses métodos foram escolhidos por representar o Estado-da-Arte dessa abordagem em reconhecimento facial no modo casamento de pares (Huang et al., 2007a). Para finalizar, é discutida a relação entre Aprendizagem de Métrica e métodos gerais de análise de discriminante como Linear Discriminant Analysis (LDA; Duda et al., 2000; Alipanahi et al., 2008).

2.2. CASAMENTO DE PARES Aspectos gerais

Seja_{P = {(u}i,vi,li)}_{i =1}N um conjunto deN pares de descritores faciaisui,vi2 Rn

anotados porli de tal forma que:

li =

8 < :

1 seui evi representam a mesma identidade

0 caso contrário

Para que a equação↵_⌦2.1 seja capaz de discernir apropriadamente os pares de descritores emP anotados comli= 0daqueles comli = 1, é razoável esperar

que: X 8i|li=1 d (ui,vi) ø X 8i|li=0 d (ui,vi) ↵ ⌦ 2.3 Embora seja possível que outliers invalidem essa condição, a equação↵_⌦2.3 provê uma boa aproximação para os requisitos necessários ao bom funcionamento do decisor da equação↵_⌦2.1 . Como exemplo, para a distância Euclidiana é fácil ver que a condição↵_⌦2.3 é respeitada na Figura 2.2a, enquanto é violada na Figura 2.2b.

Como a discussão da Seção 2.2 sugere, a condição↵_⌦2.3 não se verifica a priori

quando os dados do conjuntoP são obtidos em ambientes não-controlados.

Nesse caso, técnicas de Aprendizagem de Métrica podem ser utilizadas para achar uma transformação do espaço em que a distânciad (u,v)está definida para um novo espaço no qual↵_⌦2.3 seja, de fato, obedecida. Essa transformação é um mapeamentox ! f(x), comx 2 Rn_e_{f(x) 2 R}m_{, que define, implicitamente,}

um novo espaço métrico induzido por uma distânciad0(u,v),d (f(u),f(v)). A funçãof(x)é obtida de maneira supervisionada (aprendizado) a partir de uma base de dados (e.g.,P) considerando-se propriedades específicas ded (u,v).

Naturalmente, como em todo problema de aprendizagem, o espaço de busca para o mapeamento é infinito e, portanto, um viés deve ser introduzido pela parametrização def(x)(Abu-Mostafa et al., 2012). A escolha típica de muitas técnicas de Aprendizagem de Máquina, por simplicidade, é uma transformação linear. Ou seja,_{f(x) = T}t_x_com_{T 2 R}n£m_{. A diferença entre elas geralmente está}

CAPÍTULO 2. CONTEXTO E O ESTADO-DA-ARTE

Logistic Discriminant Metric Learning (LDML)

Esta técnica foi proposta por Guillaumin et al. (2009) e busca estimar indireta- mente a matriz de parâmetrosS 2 Rn£n_,_{S ¬ 0}_{(positiva definida; Horn e Johnson,}

2012) da métrica de Mahalanobis (ao quadrado). Embora não seja de aplica- ção exclusiva em casamento de pares de faces, LDML foi desenvolvida nesse contexto.

Observa-se que, no caso em queSé simétrica,S ¬ 0implica na existência de uma decomposiçãoT Tt comT 2 Rn£n (fatoração de Cholesky; Horn e Johnson, 2012) e, portanto, isso é equivalente a achar uma transformação linear para a distância Euclidiana: dS(u,v) = (u ° v)tS (u ° v) ↵ ⌦ 2.4 = (u ° v)tT Tt(u ° v) =∞∞Ttu ° Ttv∞∞2₂ = d(Ttu,Ttv)

Sé estimada indiretamente uma vez que LDML modela o problema através

de uma função de probabilidade definida utilizando↵_⌦2.4 . Seja:

p (l = 1|u,v;S,b),æ_{(b ° d}_S(u,v)) ↵_⌦2.5 ondeæ(z) =°1 + exp(°z)¢°1 é a função logística ebé um termo de bias. A Figu-

ra 2.4 mostra o comportamento deæ(z). É importante notar quepdepende de Suma vez que está definido em função dedS(u,v). Além disso, independente-

mente do valor deb,pcresce (decresce) rapidamente quandodS(u,v)diminui

(aumenta). Dessa forma, otimizar o comportamento dep em função deS é

equivalente a aumentar a separabilidade induzida pordS(u,v), caracterizando

a Aprendizagem de Métrica.

É possível mostrar que a equação ↵_⌦2.4 pode ser reescrita como um pro- duto escalar de vetores. Considere as seguintes identidades algébricas (Horn e Johnson, 2012):

(AB)t= BtAt ↵_⌦2.6

Tr£At§_{= Tr[A]} ↵_⌦2.7

Tr[ABC ] = Tr[BC A] ↵_⌦2.8

2.2. CASAMENTO DE PARES −60 −4 −2 0 2 4 6 0.5 1 z σ (z)

Figura 2.4: Comportamento da função logísticaæ_{(z) =}°_{1 + exp(°z)}¢°1.

Tr£AtB§= vec (A)tvec (B) vec (·) indica vetorização ↵_⌦2.9 De fato:

dS(u,v) = Tr£(u ° v)tS (u ° v)§

= Tr£(u ° v)tSt(u ° v)§ por↵_⌦2.6 e↵_⌦2.7

= Tr£St(u ° v)(u ° v)t§ por↵_⌦2.8

= std por↵_⌦2.9 ↵_⌦2.10

na qualsedsão as representações vetoriais (i.e., operadorvec (·)) das matrizes

Se(u ° v)(u ° v)t, respectivamente.

Substituindo↵_⌦2.10 na equação↵_⌦2.5 tem-se quepé um modelo de regressão logística (Abu-Mostafa et al., 2012) com parâmetrosbes:

p =°1 + exp°b ° std¢¢°1 ↵_⌦2.11 Logo, nada mais natural do que utilizar os métodos aplicáveis à regressão logística (e.g., estimação por máxima verossimilhança) para acharbes. O nome

Logistic Discriminant Metric Learning é justificado por essa conexão com a

regressão logística. Por completude, segue o problema de otimização do LDML: s§,b§= argmax

s,b

L (s, b; P ) ↵_⌦2.12

CAPÍTULO 2. CONTEXTO E O ESTADO-DA-ARTE

P, definida nesse caso por:

L (s, b; P )₌ N X i =1 lilnh°1 + exp°b ° stdi¢¢°1 i + (1 ° li)ln h 1 °°1 + exp°b ° stdi¢¢°1 i

ComoL é côncava, o problema de otimização↵_⌦2.12 pode ser resolvido exata e

eficientemente com algoritmos do tipo gradient ascent.

De posse des§_,b§_{, embora seja possível empregar diretamente}_d

S(u,v)como

medida de distância na forma da equação↵_⌦2.10 , Guillaumin et al. (2009) utiliza a função de probabilidade da equação↵_⌦2.11 como similaridade.

Guillaumin et al. (2009) reporta a eficácia do técnica LDML em melhorar a performance do reconhecimento facial no modo casamento de pares. En- tretanto, para que seja efetiva, a dimensionalidade dos descritores deve ser reduzida sob o risco de overfitting ou impossibilidade de resolver↵_⌦2.12 pela carga computacional elevada.

Cosine Similarity Metric Learning (CSML)

CSML é uma técnica de Aprendizagem de Métrica proposta por Nguyen e Bai (2011). Da mesma forma que LDML, foi pensada no contexto de casamento de pares de faces. Porém, ao invés da distância de Mahalanobis, baseia-se na métrica de cossenos: d (u,v) = 1 ° u t_v kuk2kvk2 ↵ ⌦2.13 Por simplicidade, CSML ignora o termo constante de ↵_⌦2.13 e considera somente o segundo termo, o qual define uma medida de similaridade ao invés de uma métrica de distância (o nome do método se dá por essa razão):

cs (u,v) = u

t_v

kuk2kvk2

↵ ⌦2.14 Apesar de lidar com uma similaridade, CSML é uma técnica legítima de Aprendizagem de Métrica uma vez que é trivial definir ↵_⌦2.13 em função de ↵

⌦2.14 . O objetivo é achar uma transformação linearT 2 Rn£m que aumente a separabilidade induzida pela similaridade de cossenos (e, por consequência, pela distância). CSML propõe o seguinte problema de otimização para alcançar esse objetivo: T§_{= argmax} T f (T ) ↵ ⌦2.15 18

2.2. CASAMENTO DE PARES com f (T ) = g(T ) ° h(T )e g (T ) = X 8i|li=1 cs°Ttui,Ttvi¢° Æ X 8i|li=0 cs°Ttui,Ttvi¢ h(T ) = ØkT ° T0k2F

A função f (T )é composta por termosg (T )eh(T )com propósitos bem dis- tintos. g (T )busca capturar o comportamento especificado pela condição↵_⌦2.3 no contexto de uma similaridade, ou seja:

X 8i|li=1 cs°Ttui,Ttvi¢¿ X 8i|li=0 cs°Ttui,Ttvi¢

O parâmetroÆfoi introduzido para controlar o balanceamento entre as classes li= 0eli= 1. Na prática, como indicado por Nguyen e Bai (2011), o valor deÆ

é fixado como a razão entre o número de amostras comli = 1e comli = 0. O

termoh(T ), por sua vez, tenta reduzir as chances de overfitting regularizando (Abu-Mostafa et al., 2012) a matriz de transformação. A ideia é penalizar a diferença entre a transformação computada e uma transformação inicialT0

(considerada como possuindo boas propriedades para o problema). Ou seja, a regularização induzT0como um prior paraT. No caso deh(T ), a diferença entre

as transformações é medida pela norma de Frobenius_k·kF (Horn e Johnson,

2012) e o grau de regularização é controlado pelo parâmetroØ, o qual é de

extrema importância para a eficácia do CSML.

Dada essa formulação, a questão que se impõe é como resolver o problema de otimização↵_⌦2.15 . f (T )não é uma função côncava (Boyd e Vandenberghe, 2004) e, portanto, não possui necessariamente apenas um máximo global. Adi- cionalmente, embora o parâmetroØseja crucial para a peformance do CSML,

sua escolha não é imediatamente óbvia e, na verdade, é parte do problema de otimização.

A estratégia proposta por Nguyen e Bai (2011) consiste em empregar dois passos de otimização guiados por validação cruzada. Inicialmente, a matriz

T0 e um intervalo com vários valores de Ø são fixados. Em seguida, várias

transformações são obtidas pela solução de↵_⌦2.15 para cada um dos valores deØutilizando algoritmos do tipo gradient ascent. Se a melhor transformação

possuir performance superior aT0, ela é definida como a nova matrizT0e os

CAPÍTULO 2. CONTEXTO E O ESTADO-DA-ARTE

formar os limites de um novo intervalo. O processo é repetido com a nova matrizT0e o novo intervalo deØ. Melhor ou pior, nesse caso, são definidos por

uma medida de performance extraída de um conjunto de controle (validação). Esse processo continua até que nenhuma nova transformação consiga melhor performance.

Embora a necessidade de especificar uma transformação inicialT0revele

um componente heurístico forte nessa técnica, Nguyen e Bai (2011) indicam através dos experimentos que, de fato, a transformação finalT§_{leva a uma}

performance mais elevada do que aquela obtida comT0. Assim, mesmo que

T0seja a matriz identidade (ou seja, nenhuma transformação), o uso de CSML

deve levar a um desempenho superior.

Uma fraqueza clara do método é a complexidade computacional da solução do problema de otimização. Várias execuções de algoritmos do tipo gradient

ascent são exigidas por conta da necessidade de ajuste do parâmetro de regu-

larizaçãoØ. Além disso, mesmo para uma única instância de execução, tanto f (T )quanto o gradiente de f (T )são funções de cômputo custoso, implicando em ineficiência das técnicas baseadas em gradient ascent.

Information Theoretic Metric Learning (ITML)

Dentre as técnicas apresentadas nesse Capítulo, ITML é a única que foi desen- volvida fora do domínio de reconhecimento facial (Davis et al., 2007). Apesar disso, ela também será descrita por conta do bom desempenho relatado por Guillaumin et al. (2009) no casamento de pares de faces.

Da mesma forma que LDML, este método busca achar a matrizS ¬ 0que

parametriza a função de distância de Mahalanobis. Sua formulação tenta estimarSde modo que a distância de Mahalanobis seja menor ou igual a um certo valorc para todos os pares de padrões considerados similares (classe positiva), enquanto é maior ou igual a um valorkpara os pares considerados não similares (classe negativa), com_{k > c}. Analogamente à CSML, a fim de evitar overfitting, ITML regulariza a estimativa deSpela introdução de um prior

S0. Isso é feito pelo emprego de conceitos de Teoria da Informação, dando

origem ao nome da técnica.

Antes de prosseguir, é instrutivo notar que a distribuição de probabilidade Normal multivariada é uma função da distância de Mahalanobis comS = ß°1

2.2. CASAMENTO DE PARES (Duda et al., 2000): p(x;µ,ß) =_K1 exp µ °1₂°x ° µ¢tß°1°x ° µ¢ ∂

Adicionalmente, a divergência Kullback-Leibler (Bishop, 2007), também conhecida como entropia relativa ou ganho de informação, definida como:

KL£p0(x)kp1(x)§= Z

p0(x)lnp0(x)

p1(x)dx

é uma excelente medida da diferença entre duas distribuiçõesp0e p1. Con-

sequentemente, sep0e p1fossem distribuições Normal de mesma média, a

divergência Kullback-Leibler entre elas mediria, indiretamente, a diferença entre as respectivas matrizes de covariância.

Motivado por essas observações e considerando a existência de um conjunto de pares de padrõesui,vi anotados porli= 1ouli= 0(comoP definido

na página 15), o método ITML propõe estimar a matriz de parâmetrosS da

distância de Mahalanobis pela solução do seguinte problema de otimização:

min S KL £ pSkpS0 § ↵ ⌦2.16 sujeito a dS(ui,vi) ∑ c seli= 1 dS(ui,vi) ∏ k seli= 0

no qualdS(u,v)é a distância de Mahalanobis parametrizada pela matrizS;c ek

são constantes tais quek > c;pS epS0 são distribuições Normal multivariadas

de mesma média (a escolha é arbitrária) com covariânciasS°1 _e_S°1

0 , respec-

tivamente. A matrizS0é o prior e deve possuir propriedades desejadas para

a solução. Por exemplo, caso seja de interesse que a matrizSfinal produza a menor alteração possível no espaço métrico, uma boa escolha paraS0é a matriz

identidade.

Naturalmente, na maior parte dos casos práticos, não é possível obedecer as restrições do problema↵_⌦2.16 dada a inseparabilidade natural das classes ou a existência de outliers. Por isso, ITML suaviza as restrições pela adição dos chamados “termos de folga” no mesmo espírito da versão soft margin do classificador SVM (Cristianini e Shawe-Taylor, 2000). Os detalhes dessa formulação (Davis et al., 2007), contudo, são omitidos por não adicionar novos

CAPÍTULO 2. CONTEXTO E O ESTADO-DA-ARTE conceitos à discussão.

Similarmente à técnica LDML, a solução da otimização proposta pelo ITML é extremamente custosa quando os padrões possuem alta dimensionalidade (e.g., 600 dimensões; Guillaumin et al., 2009). Além disso, de acordo com Guillaumin

et al. (2009), LDML apresenta performance levemente superior a ITML no

problema de casamento de pares de faces. Outra vantagem do algoritmo LDML sobre o ITML é a simplicidade conceitual. Enquanto o LDML é formulado em termos de um problema de aprendizagem bem compreendido (regressão logística), ITML evoca conceitos complexos de Teoria da Informação.

One-Shot Similarity (OSS) e Two-Shot Similarity (TSS)

OSS e TSS são técnicas fundamentalmente diferentes das anteriores. Não buscam transformar o espaço métrico com o objetivo de aumentar a separabilidade induzida por uma função de distância. Entretanto, por envolverem a definição de medidas de similaridade (que depois podem ser convertidas em distâncias) dependentes de modelos de aprendizagem supervisionados, essas técnicas são relevantes no contexto dessa dissertação. Adicionalmente, os trabalhos de Wolf

et al. (2008, 2010) demonstram que esses métodos são bastante eficazes na

tarefa de casamento de pares de faces.

A ideia básica é inspirada no problema de Single Sample Learning (Wolf

et al., 2009) e consiste em utilizar um conjunto de padrões que, garantidamente,

nunca serão encontrados pelo sistema (background samples) para a criação de um modelo discriminatório para as entradas. Concretamente, sejamuev dois padrões de teste. O conjuntoBSde background samples deve ser tal que u,v › BS. No domínio de reconhecimento facial, os padrões correspondem a descritores faciais.

Na OSS, definida pelo Algoritmo 2.1, Mu√ model({u},BS)cria um modelo

de classificação binário em queué o único padrão positivo eBSé o conjunto de padrões negativos. Por sua vez, s1√ score(v, Mu)computa o suporte de

vde acordo comMu. As linhas 3 e 4 executam o mesmo procedimento tro-

candouporv. Finalmente, a linha 5 dá o suporte médio como a medida de similaridade entreuev. O princípio fundamental é que seuevformam um

casamento, então ambos devem se aproximar mais um do outro do que deBS

conforme os modelos gerados, implicando em suportess1es2elevados. Caso

contrário, os modelos devem indicaruevcomo mais próximos deBSe, assim, 22

2.2. CASAMENTO DE PARES

os suportes gerados devem ser pequenos. A definição das funçõesmodel e

scor ecomplementam a especificação da OSS, mas as escolhas particulares são arbitrárias.

Algoritmo 2.1 One-Shot Similarity (OSS).

Entrada: padrões de testeu,v

Entrada: conjuntoBSde padrões nunca encontrados como entradas

Saída: medida de similaridadesentreuev

1: Mu√ model ({u},BS)

2: s1√ score (v, Mu)

3: Mv√ model ({v},BS)

4: s2√ score (u, Mv)

5: _{s √}1₂(s1+ s2)

Em tese, qualquer técnica de aprendizagem supervisionada pode ser empregada para criar os modelos e produzir os suportes. Por exemplo,model poderia retornar um classificador SVM escor epoderia computar a distância da entrada para o hiperplano definido pelo SVM. Embora essa seja uma instância possível da OSS, não é atraente por conta do custo computacional elevado. Idealmente, medidas de similaridade devem ser eficientes, o que significa que o algoritmo de aprendizagem deve ser simples. Por essa razão, originalmente Wolf et al. (2009) adota um modelo baseado na Linear Discriminant Analysis (Duda et al., 2000) e mostra que, nesse caso, o Algoritmo 2.1 resume-se à expressão:

ossLD A(u,v,BS) = ° u ° µBS¢tS+_W°v °u+µBS₂ ¢ ∞ ∞S+ W ° u ° µBS¢∞∞ + ° v ° µBS¢tS+_W°u °v+µBS₂ ¢ ∞ ∞S+ W ° v ° µBS¢∞∞ na qualS+

W eµBSsão parâmetros. O importante na definição deossLD A(u,v,BS)

é que tantoµBS quantoS_W+ podem ser computados deBSa priori independen-

temente deuev. Essa propriedade faz com que LDA seja, de fato, um modelo apropriado para a OSS.

A TSS possui o mesmo intuito da OSS. Entretanto, ao contrário desta, TSS usa apenas um modelo binárioMno qual os padrõesuevformam uma classe e o conjuntoBSforma outra. A similaridade é computada como a separação entre classes pelo modeloM. Esse comportamento é explicitado pelo Algoritmo 2.2. Como exemplo, se o modelo escolhido fosse o SVM, uma medida da separação poderia ser a margem.

CAPÍTULO 2. CONTEXTO E O ESTADO-DA-ARTE Algoritmo 2.2 Two-Shot Similarity (TSS).

Entrada: padrões de testeu,v

Entrada: conjuntoBSde padrões nunca encontrados como entradas

Saída: medida de similaridadesentreuev

1: _{M √ model ({u,v},BS)}

2: _{s √}separação entre classes através deM

Wolf et al. (2010) demonstrou a importância dessas técnicas ao atingir per- formance no Estado-da-Arte no problema de casamento de pares de faces com o uso combinado da TSS e da OSS.

É importante perceber que, na verdade, tanto a OSS quanto a TSS são meta- similaridades no sentido de que definem um framework pelo qual várias simila- ridades distintas podem ser especificadas.

Conexão com técnicas gerais de análise de discriminante

Nessa discussão de Aprendizagem de Métrica não se pode deixar de notar a conexão com técnicas gerais de análise de discriminante. De fato, muitos aspectos da caracterização dada ao problema na página 15 poderiam se aplicar

No documento Aprendizagem de Métrica baseada na Distância Euclidiana aplicada ao Reconhecimento de Faces (páginas 34-51)