Classiﬁcador - Verificação de Texto Manuscrito em Dispositivos Móveis

Esse estágio é realizado durante a tarefa de verificação e é inspirado em [28]. Para realizar a verificação/autenticação do usuário no sistema, o usuário deve prover uma amostra de assinatura ou de palavra (daquela que seja adequada para a autenticação em questão), além da identidade com a qual está querendo ser verificado.

Nessa situação, o sistema irá buscar o perﬁl dessa identidade, representado por P = {velocidadeP erfil, PH, PF}. Assim, dado uma amostra S =, cujas características já

foram extraídas, sendo representada por S = {caracV elocidadeS, HS, FS}, que se queria

1. Calcula a diferença entre a característica de velocidade da amostra S com a média correspondente calculada para o perﬁl P :

dif V elocidadeS = |caracV elocidadeS− velocidaP erfil|, (4.54)

onde |a| é o módulo de a tal que a ∈ R.

2. Considera cada subconjunto de histogramas do perﬁl Hi _{= [h}i

1, hi2, ..., hiM], com

1 ≤ i ≤ K, tal que K é o total de histogramas criados para cada amostra e M é o total de amostras, representando o grupo de histogramas com bi _{bins e o histograma}

correspondente da amostra S, hi S:

(a) Calcula o vetor coluna difAmostrai_{, de comprimento M, cujos elementos são}

dados por:

dif Amostrai_j = ||hiS, hij||, (4.55)

onde ||a, b|| representa a métrica/kernel de comparação entre os elementos a e b. O vetor difAmostra representa a diferença da amostra em questão com relação a todas as amostras do perﬁl P no nível i.

(b) Seleciona três valores especíﬁcos, em posições iguais ou diferentes, do vetor

dif Amostra, dados por:

minimoV aloriS = minimo{difAmostra1, dif Amostra2, ..., (4.56)

dif AmostraM}

maximoV aloriS = maximo{difAmostra1, dif Amostra2, ..., (4.57)

dif AmostraM}

valorARefi

S = difAmostra{posARefi

P}, (4.58)

onde minimoV alori

S representa o vizinho mais próximo da amostra S com

relação ao perﬁl P , maximoV alori

S, o vizinho mais distante e valorARefiS é

a comparação da amostra com a amostra considerada a “amostra de perﬁl” da seção anterior, cujo indicação é dada por valorARefi

(c) Normaliza os valores minimoV alori

S, maximoV aloriS, valorARefiS, obtidos

análise do perﬁl P : valorARefi′ S = valorARefi S valorARefi P (4.59)

minimoV alori′S = minimoV alor i S minimoV alori P (4.60) maximoV alori′ S = maximoV alor i S maximoV alori P (4.61)

3. Correspondentemente, para o conjunto de descritores de Fourier do perﬁl P , FP =

{F1 P, FP2, ..., FPM}, tal que FPm = [(FPx)m,(F y P)m], e os descritores correspondentes da amostra S, FS = [FSx, F y

P] adota-se os seguintes passos:

(a) Calcula difAmostra, de comprimento M, dado por:

dif Amostrax j = ||FSx,(FPx)j|| (4.62) dif Amostrayj = ||F y S,(F y P)j|| (4.63)

dif Amostra_j = difAmostrax

j + difAmostra y

j (4.64)

onde ||a, b|| representa uma métrica de comparação de a e b. O vetor difAmostra representa a diferença da amostra S com relação as amostras do perﬁl P , con- siderando as análises espectrais realizadas.

(b) Seleciona valorMinimoS, valorMaximoS e valorARefS de maneira análoga à

realizada nos histogramas, evidenciado nas Equações 4.56, 4.57 e 4.58.

(c) Normaliza os valores obtidos no item anterior pelos respectivos no perﬁl, con- forme evidenciado pelas equações 4.60, 4.61 e 4.59, obtendo valorMinimo′

valorM aximo′S e valorARef′S.

A intenção dessa estratégia, selecionar e realizar comparações com o vizinho mais próximo, o vizinho mais distante e com a amostra central do perfil (a quem tem a menor distância média em relação às outras amostras), é caracterizar a variabilidade dentro das amostras do perfil. O papel da normalização pelos valores do perfil, que caracterizam a sua variabilidade, é para permitir a utilização de um limiar de decisão único para o sistema na etapa de decisão, que será descrita mais a frente.

4.6.1 Combinação das características

Os valores calculados anteriormente são:

1. difV elocidade, referente à diferença da característica de velocidade da amostra com o perﬁl; 2. minimoV alori′ S, maximoV alori ′ S, valorARefi ′

S, representando a maior distância

de S em relação ao perﬁl P , menor distância e distância em relação à amostra central de P , respectivamente, normalizadas, para o i-ésimo nível de histogramas;

3. De forma correspondente ao item anterior, minimoV alor′_S_{, maximoV alor}′_S_,

valorARef′

S, calculados a partir da comparação dos descritores de Fourier da amos-

tra S em relação ao perﬁl P .

O próximo passo envolve combinar todos esses valores, de forma a obter uma única métrica que possa ser julgada na etapa de decisão, referenciada na seção subsequente. A abordagem que inspirou o classiﬁcador adotado [28], aplicava a técnica de Análise de Componentes Principais (PCA, do inglês, Principal Component Analysis). Assim, o vetor 3D obtido, correspondente às três distâncias calculadas para os descritores de Fourier e histogramas poderia ser reduzido para um único componente.

Para os histogramas, uma distância ﬁnal pode ser calculada por:

distanciaHisti S = ki1× minimoV alori ′ S+ ki2× maximoV alori ′ S+ ki3× (4.65) valorARefi′ S, onde ki

1, ki2, ki3 ∈ R e i representa o i-ésimo nível de histogramas. Esse conjunto de valo-

res é escolhido de forma a maximizar a variância do conjunto original de 3 componentes. Analogamente, pode-se calcular uma métrica única para os 3 componentes de distância obtidos com as comparações dos descritores de Fourier:

distanciaF ourierS = k1 × minimoV alor′S+ k2× maximoV alor′S+ k3× (4.66)

valorARef′S.

A ideia seria usar alguns perfis, amostras verdadeiras e falsificações e treinar um procedimento baseado em PCA que estime esses valores. Porém, após várias simulações, foi observado que não há grande variação nos valores dos coeficientes e que eles podem ser fixados sem perdas consideráveis de performance.

A esse ponto das análises, ainda existem 3 métricas como resultado da comparação da amostra S com o perﬁl P : difV elocidadeS, distanciaF ourierS e distanciaHisti re-

descritores de Fourier e a distância da comparação com os histogramas de nível i. Ainda é realizada uma combinação desses três valores para obter o valor ﬁnal.

A estratégia utilizada é uma combinação linear desses valores. Aqui, entretanto, é necessário citar que são analisadas duas formas de adotar a técnica, citadas abaixo:

1. “Abordagem completa”: nesse cenário, as informações obtidas de todos os níveis de histogramas, distanciaHisti_{, com 1 ≤ i ≤ K são combinadas em uma única métrica}

distanciaHist por média:

distanciaHist= 1 K K X i=1 distanciaHisti. (4.67)

2. ”Abordagem cascata”: nessa situação, cada valor distanciaHisti_{, 1 ≤ i ≤ K, é}

usado numa análise de vários níveis, como um espécie de cascata. Para o caso do Item 1 da lista anterior, a distância ﬁnal é dada por:

distanciaF inalS = k4× distanciaHistS+ k5× distanciaF ourierS+ k6× difV elocidadeS.

(4.68) Para a situação representada no Item 2 da lista subjacente, a distância ﬁnal é deﬁnida para cada um dos K níveis:

distanciaF inaliS = ki4×distanciaHistiS+ki5×distanciaF ourierS+ki6×difV elocidadeS.

(4.69) Detalhes sobre a estimação dos parâmetros serão explicitados no Capítulo 5. A pró- xima seção abordará maiores informações a respeito do uso dessas duas abordagens, a completa e a cascata, para a tarefa de decisão.

No documento Verificação de Texto Manuscrito em Dispositivos Móveis (páginas 74-78)