• Nenhum resultado encontrado

Pré-processamento dos intervalos de tempos observados na dinâmica de digitação (KeyStroke) de senhas curtas

N/A
N/A
Protected

Academic year: 2021

Share "Pré-processamento dos intervalos de tempos observados na dinâmica de digitação (KeyStroke) de senhas curtas"

Copied!
76
0
0

Texto

(1)UNIVERSIDADE FEDERAL DE SERGIPE CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO. Pré-Processamento dos Intervalos de Tempos Observados na Dinâmica de Digitação (KeyStroke) de Senhas Curtas. Murilo Alves Bezerra Júnior. SÃO CRISTÓVÃO/ SE 2013.

(2) UNIVERSIDADE FEDERAL DE SERGIPE CENTRO DE CIÊNCIAS EXATAS E TECNOLÓGICAS PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO. Murilo Alves Bezerra Júnior. Pré-Processamento dos Intervalos de Tempos Observados na Dinâmica de Digitação (KeyStroke) de Senhas Curtas. Dissertação apresentada ao Programa de PósGraduação em Ciência da Computação (PROCC) da Universidade Federal de Sergipe (UFS) como parte de requisito para obtenção do título de Mestre em Ciência da Computação.. Orientador: Prof. Dr. Jugurta Rosa Montalvão Filho Co-Orientador: Prof. Dr. Eduardo Oliveira Freire. SÃO CRISTÓVÃO/ SE 2013.

(3) ! ! ! ! ! ! ! ! ! ! !!! ! ! ! ! !!!!!!!!!FICHA!CATALOGRÁFICA!ELABORADA!PELA!BIBLIOTECA!CENTRAL! !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!UNIVERSIDADE!FEDERAL!DE!SERGIPE! !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! Bezerra Junior, Murilo Alves Pré-processamento dos intervalos de tempos observados na dinâmica de digitação (KeyStroke) de senha curtas / Murilo Alves Bezerra Junior ; orientador Jugurta Rosa Montalvão Filho. – São Cristóvão, 2013. 75 f. : il.. B574p. Dissertação (mestrado em Ciência Universidade Federal de Sergipe, 2013.. da. Computação). -. O 1. Ciência da computação. 2. Dinâmica da digitação. 3. Equalização de intervalos de tempo. 4. Biometria. I. Montalvão Filho, Jugurta Rosa, orient. II. Título CDU: 004.89. ! ! !.

(4) Murilo Alves Bezerra Júnior. Pré-Processamento dos Intervalos de Tempos Observados na Dinâmica de Digitação (KeyStroke) de Senhas Curtas. Dissertação apresentada ao Programa de PósGraduação em Ciência da Computação (PROCC) da Universidade Federal de Sergipe (UFS) como parte de requisito para obtenção do título de Mestre em Ciência da Computação.. BANCA EXAMINADORA. Prof. Dr. Jugurta Rosa Montalvão Filho, Orientador Universidade Federal de Sergipe (UFS). Prof. Dr. Eduardo Oliveira Freire, Co-Orientador Universidade Federal de Sergipe (UFS). Prof. Dr. Edward David Moreno Ordonez, Universidade Federal de Sergipe (UFS). Prof. Dr. Evandro Ottoni Teatini Salles, Universidade Federal do Espírito Santo (UFES).

(5) Pré-Processamento dos Intervalos de Tempos Observados na Dinâmica de Digitação (KeyStroke) de Senhas Curtas. Este exemplar corresponde à redação final da Dissertação de Mestrado, de Murilo Alves Bezerra Júnior para ser aprovado pela Banca examinadora.. São Cristóvão - SE, 27 de Setembro de 2013. ______________________________________ Prof. Dr. Jugurta Rosa Montalvão Filho Orientador. ______________________________________ Prof. Dr. Eduardo Oliveira Freire Co-Orientador. ______________________________________ Prof. Dr. Edward David Moreno Ordonez. ______________________________________ Prof. Dr. Evandro Ottoni Teatini Salles.

(6) Resumo Em 2006, um método foi proposto sobre o uso da equalização de intervalos de tempos, como forma de melhorar o desempenho de alguns métodos biométricos baseados em dinâmica de digitação (keystroke). Naquele artigo, pequenas bases de dados, com textos estáticos e livres, foram usadas para mostrar, em termos de taxas de erros, os ganhos quando a equalização era aplicada antes do uso de métodos clássicos. Em 2009, lançou-se uma base pública grande, correspondente a uma única senha hipotética curta, digitada por 51 voluntários, usada pelos autores do trabalho e, posteriormente, disponibilizada, publicamente, para novos experimentos. Nesta dissertação utilizou-se essa grande base pública, para a qual adapta-se a equalização de intervalos. Utilizando os mesmos métodos usados pelos proprietários da base experimental, obtém-se resultados que mostram, claramente, um notável ganho de desempenho para todos os métodos testados quando a equalização de intervalos é usada no pré-processamento dos dados. É observado também o desempenho no tocante ao tamanho da senha, e analisa-se a estabilização do padrão de digitação. Por fim, foi realizada a montagem de uma nova base, a partir da qual foi possível verificar e analisar o efeito produzido no ritmo de digitação do usuário devido à troca de caracteres da senha, bem como a influência do seu modo de digitação. Palavras-chave: Dinâmica da digitação; Equalização de intervalos de tempo; Biometria.. i.

(7) Abstract In 2006, a method was proposed concerning the use of time interval equalization to improve performances of some biometric methods based on typing dynamics (or keystroke). In the paper where that method was first proposed, relatively small databases were used for showing, in terms of error rates, the effect of time equalization applied as a preprocessing step before the use of classical methods. In 2009, a much larger large database for keystroke research was made publicly available, through the Internet. This database is based on a single hypothetical password, typed by 51 volunteers through 8 sessions (50 samples per session). In this dissertation, the preprocessing method is adapted to this large public database of short typing patterns. Thus, by using the same biometric detectors already used by the owners of the database, we obtain new experimental results which clearly show an outstanding performance gain when the equalization interval (preprocessing) is applied. It is also studied the performance gain as a function of the password length (in number of symbols), and the stability of typing pattern against changes in the order of typed symbol pairs. Finally, the last study was carried to a new database we acquired with both direct and inverted sequence of symbols, allows for the analysis of keyboard layout changes on biometric performances. Keywords: Dynamic of typing; Equalization time intervals; Biometrics.. ii.

(8) "A vida é, é uma coisa, que é mais fácil compreender a morte que compreender a vida, porque o rio vai pro mar, depois ele se transforma em chuva, depois ele volta ao rio. Os pais deixam os filhos, os filhos depois passam também a serem pais, e esse processo de crescer, nascer e morrer e voltar é a coisa mais bonita que a própria vida tem".. Participação de João Nogueira no programa "Ensaio" da TV Cultura no ano de 1992.. iii.

(9) Lista de Figuras 2.1. Ilustração da aquisição dos intervalos do tipo Down-Down (DD) durante a digitação da senha hipotética “.tie5Roanl”. . . . . . . . . . . . . . . . . . .. 2.2. Ilustração do significado dos tempos de retenção de tecla, tempos entre acionamentos consecutivos e entre liberação e acionamentos consecutivos. . . .. 4.1. 12. Ilustração da distribuição do intervalo do tipo Down-Down (DD) entre a digitação dos caracteres “t” e “i” da senha hipotética “.tie5Roanl”. . . . . . .. 4.2. 11. 27. Ilustração da aderência do intervalo do tipo Down-Down (DD) entre a digitação dos caracteres “t” e “i” da senha hipotética “.tie5Roanl” de um dado usuário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.3. 29. Ilustração da aderência do intervalo do tipo Down-Down (DD) entre a digitação dos caracteres “5” e “R” da senha hipotética “.tie5Roanl” de um dado usuário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.4. 30. Ilustração da aderência do intervalo do tipo Down-Down (DD) entre a digitação dos caracteres “a” e “n” da senha hipotética “.tie5Roanl” de um dado usuário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.5. Ilustração do aprendizado individual de cada característica da senha hipotética “.tie5”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.6. 32. Desempenho em termo de EER - (Killourhy e Maxion, 2009) - Intervalos H, DD, UD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.8. 31. Ilustração do aprendizado individual de cada característica da senha hipotética “Roanl”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.7. 31. 33. Desempenho em termo de EER - (Killourhy e Maxion, 2009) - Intervalos H, DD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. iv. 34.

(10) 4.9. Desempenho em termo de EER - (Montalvão e Freire, 2006) - Intervalos H, DD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 4.10 Desempenho em termo de EER - com Equalização - Intervalos H, DD . . .. 36. 5.1. Ilustração - Coleta dos dados da senha hipotética . . . . . . . . . . . . . .. 39. 5.2. Ilustração - Coleta dos dados da senha hipotética invertida . . . . . . . . .. 40. 5.3. Layout do teclado do equipamento utilizado - formato ABNT2 . . . . . . .. 40. 5.4. Média dos logaritmos dos intervalos de tempos DD do segmento de senha “.tie”, para senha hipotética normal e invertida do usuário 1 . . . . . . . . .. 5.5. Média dos logaritmos dos intervalos de tempos DD do segmento de senha “.tie”, para senha hipotética normal e invertida do usuário 2 . . . . . . . . .. 5.6. 43 44. Média dos logaritmos dos intervalos de tempos DD do segmento de senha “.tie”, para senha hipotética normal (digitação normal x digitação com 2 dedos) 47. 5.7. Média dos logaritmos dos intervalos de tempos DD do segmento de senha “.tie”, para senha hipotética invertida (digitação normal x digitação com 2 dedos) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. v. 48.

(11) Lista de Tabelas 1.1. Comparação das várias tecnologias biométricas . . . . . . . . . . . . . . .. 4. 3.1. Resultados da abordagem de (Killourhy e Maxion, 2009) . . . . . . . . . .. 17. 4.1. Resultados com intervalos H, DD e UD, sem equalização . . . . . . . . . .. 20. 4.2. Resultados com intervalos H e DD, sem equalização . . . . . . . . . . . .. 20. 4.3. Resultados com intervalos H e DD, com mesma equalização para todos os intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 21. 4.4. Resultados com intervalos H e DD, com equalização . . . . . . . . . . . .. 22. 4.5. Resultados com intervalos H e DD, sem equalização, com 100 amostras para geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.6. Resultados com intervalos H e DD, com mesma equalização para todos os intervalos, utilizando 100 amostras para geração dos templates . . . . . . .. 4.7. 23. Resultados com intervalos H e DD, sem equalização, com 50 amostras para geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.9. 23. Resultados com intervalos H e DD, com equalização, utilizando 100 amostras para geração dos templates . . . . . . . . . . . . . . . . . . . . . . . .. 4.8. 23. 24. Resultados com intervalos H e DD, com mesma equalização para todos os intervalos, utilizando 50 amostras para geração dos templates . . . . . . . .. 24. 4.10 Resultados com intervalos H e DD, com equalização, utilizando 50 amostras para geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . . .. 24. 4.11 Resultados com intervalos H e DD, sem equalização, com 10 amostras para geração dos templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 25. 4.12 Resultados com intervalos H e DD, com mesma equalização para todos os intervalos, utilizando 10 amostras para geração dos templates . . . . . . . . vi. 25.

(12) 4.13 Resultados com intervalos H e DD, aplicado ao pré-processamento proposto, utilizando 10 amostras para geração dos templates . . . . . . . . . . . . . .. 25. 4.14 Resultados com intervalos H e DD, sem equalização . . . . . . . . . . . .. 26. 4.15 Resultados com intervalos H e DD, com mesma equalização para todos os intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 26. 4.16 Resultados com intervalos H e DD, com equalização . . . . . . . . . . . .. 26. 4.17 Resultados dos EER dos intervalos H, DD e UD - sem equalização . . . . .. 33. 4.18 Resultados dos EER dos intervalos H e DD - sem equalização . . . . . . .. 34. 4.19 Resultados dos EER dos intervalos H e DD - com mesma equalização para todos os intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 4.20 Resultados dos EER dos intervalos H e DD - com equalização . . . . . . .. 36. 5.1. Resultados com intervalos H, DD, sem equalização – base (Killourhy e Maxion, 2009) – “.tie5Roanl” . . . . . . . . . . . . . . . . . . . . . . . . . .. 41. 5.2. Resultados com intervalos H, DD, sem equalização – nova base – “.tie5Roanl” 42. 5.3. Resultados do segmento de senha “.tie” na senha normal e invertida - usuário 1 42. 5.4. Resultados do segmento de senha “.tie” na senha normal e invertida - usuário 2 43. 5.5. Resultados do segmento de senha “.tie” com senha normal, modo de digitação normal e com 2 dedos . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.6. 46. Resultados do segmento de senha “.tie” com senha invertida, modo de digitação normal e com 2 dedos . . . . . . . . . . . . . . . . . . . . . . . . . .. vii. 46.

(13) Lista de Siglas FAR - False Acceptance Rate FRR - False Reject Rate EER - Equal Error Rate H - Hold DD - Down-Down UD - Up-Down. viii.

(14) Sumário 1. 2. 3. 4. Introdução. 1. 1.1. Problemática e Hipótese . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.2. Objetivos da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. 1.3. Organização da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . .. 6. Dinâmica da Digitação em Senhas Alfa-Numéricas Curtas 2.1. A Base de Dados utilizada . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. 2.2. Como a coleta foi realizada . . . . . . . . . . . . . . . . . . . . . . . . . .. 12. 2.3. Protocolo de Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. Pré-Processamento Adaptado à Senha Curta. 15. 3.1. A Abordagem de (Killourhy e Maxion, 2009) . . . . . . . . . . . . . . . .. 17. 3.2. A Abordagem de (Montalvão e Freire, 2006) . . . . . . . . . . . . . . . .. 18. Resultados a partir da base “.tie5Roanl”. 19. 4.1. Validação do Pré-Processamento Proposto . . . . . . . . . . . . . . . . . .. 20. 4.2. Influência do Número de Amostras de Treinamento . . . . . . . . . . . . .. 22. 4.3. Influência do Uso dos Tempos: {H} e {DD} . . . . . . . . . . . . . . . .. 25. Teste de Aderência da Log-Normalidade . . . . . . . . . . . . . . . . . . .. 27. 4.5. Influência do Caractere na Senha . . . . . . . . . . . . . . . . . . . . . . .. 30. 4.6. Influência do Comprimento da Senha no EER . . . . . . . . . . . . . . . .. 32. 4.4. 5. 8. Resultados a partir de novas bases de dados. 38. 5.1. Ferramenta desenvolvida para coleta das novas bases de dados . . . . . . .. 38. 5.2. Novas Bases de Dados e seus Protocolos . . . . . . . . . . . . . . . . . . .. 39. ix.

(15) 6. 5.3. Influência da Troca da Posição dos Caracteres . . . . . . . . . . . . . . . .. 41. 5.4. Influência do Modo de Digitação . . . . . . . . . . . . . . . . . . . . . . .. 45. Conclusões e Trabalhos Futuros. 49. Referências. 51. A Artigo Submetido. 55. x.

(16) Capítulo 1 Introdução A segurança dos Sistemas de Informação tem, em sua essência, um problema em estabelecer uma associação entre um indivíduo e uma identidade, o qual pode ser dividido em duas grandes áreas: autenticação e identificação. A identificação é a forma com que o usuário fornece sua identidade única ao sistema, enquanto que a autenticação é o processo pelo qual o usuário estabelece a validação de sua identidade (Bosworth, Hoyt e Hutt, 2002), ou seja, a autenticação é a prova da identificação. Os processos de autenticação, conforme observado em Computer Security Handbook e (Bosworth, Hoyt e Hutt, 2002), assumem três formas básicas que podem ser fusionadas para aumentar a confiabilidade no processo de autenticação: • Autenticação por propriedade: algo que o usuário possua como uma chave ou cartão magnético;. • Autenticação por conhecimento: algo que o usuário saiba, como por exemplo, uma senha;. • Autenticação por característica: alguma característica comportamental ou fisiológica do usuário.. De acordo com o Biometrics Journal of The International Biometrics Society, os termos biométrico e biometria têm sido utilizados, desde o início do século XX, para identificar o campo de desenvolvimento de métodos matemáticos e estatísticos aplicáveis à análise de problemas das ciências biológicas. 1.

(17) 2 O termo biometria tem sido utilizado, também, para identificar a área em que a tecnologia é utilizada para identificar indivíduos, a partir das características biológicas. Embora já seja tema de trabalhos científicos, há mais de um século, a biometria é uma área que está despertando grande atenção da comunidade científica atualmente. Trata-se da identificação de indivíduos a partir das suas características biológicas, ou seja, por partes de seu corpo e/ou por padrões comportamentais. Tal identificação pode ser realizada por vários aspectos distintos, tais como a impressão digital (um dos meios de identificação mais antigos), a análise da íris, da retina, a geometria da mão, o reconhecimento facial, da voz, pela caligrafia, pela dinâmica da digitação, etc. Numa rápida abordagem dos meios de identificação, têm-se: • Impressão Digital: Os sistemas biométricos que utilizam a identificação digital anali-. sam pequenas marcas na imagem do dedo, que são as terminações e bifurcações dos sulcos, conhecidas por minutiae (minúcias). A imagem de impressão digital é obtida por um dispositivo específico. Alguns sistemas utilizam também a distância entre os sulcos ou os poros nos dedos. A qualidade da imagem pode ser afetada por sujeira, ressecamento da pele, idade, sexo, raça ou até pela forma com que a pessoa interage com o equipamento.. • Íris: A identificação através da íris corresponde à análise do anel colorido que circunda a pupila do olho, uma vez que a estrutura ocular de cada indivíduo é única.. • Retina: A identificação através do scanning de retina é baseada no padrão de vasos sanguíneos existentes no interior do glóbulo ocular. Algumas pessoas possuem resistência a esse tipo de identificação, pois é necessário que um feixe de luz incida diretamente no fundo do olho. • Geometria da mão: A partir da imagem digitalizada da mão do indivíduo, são mensuradas formas e proporções métricas entre dedos e palma. O seu leitor pode ser um scanner (digitalizador) convencional de escritório. • Face: A identificação pela face envolve captura de fotos do rosto. Em seguida, técnicas de visão computacional podem ser usadas para sobrepor e comparar diversos marcos da face, como por exemplo, a posição dos olhos, do nariz e/ou da boca. Outras técnicas.

(18) 3 mais custosas (do ponto de vista computacional) também são propostas na literatura, tais como aquelas baseadas em Eigenfaces. Ainda sistemas sofisticados de detecção facial podem utilizar o calor produzido pelo fluxo de sangue sob a face. • Voz: Neste caso, o sinal de voz é digitalizado e processado. O processamento deve enfatizar o timbre da voz, que é usado como parâmetro individual. O ambiente de operação do sistema pode influir significativamente no resultado da identificação. • Caligrafia: Os sistemas biométricos que utilizam a escrita analisam a grafia da pessoa,. levando em consideração aspectos como a velocidade da escrita e a pressão sobre o papel (sensor).. • Dinâmica da Digitação: Os sistemas biométricos que estudam o padrão comporta-. mental da dinâmica como as teclas são pressionadas. O termo é originário do inglês “KeyStroke Dynamics”.. Uma característica humana qualquer pode ser utilizada em termos dos seguintes parâmetros (Jain, Ross e Prabhakar, 2004): 1. Universalidade - UNIV: cada pessoa tem sua característica. 2. Singularidade - SING: distinção que separa os pontos biométricos individualmente a partir de outro. 3. Permanência - PERM: mede quanto o equipamento biométrico resiste ao envelhecimento. 4. Colectabilidade - COLEC: facilidade de aquisição para a medição. 5. Desempenho - DESEMP: precisão, velocidade e robustez da tecnologia utilizada. 6. Grau de aceitabilidade - ACEITA: aprovação de uma tecnologia. 7. Evasão - EVA: facilidade de uso de um substituto. A tabela 1.1, mostra uma comparação entre os meios biométricos existentes em termos desses parâmetros, (Jain, Ross e Prabhakar, 2004):.

(19) 4 Tabela 1.1: Comparação das várias tecnologias biométricas Comparação das várias tecnologias biométricas (A = Alta, M = Média, B = Baixa) Biometria:. UNIV SING. PERM. COLEC DESEMP. ACEITA EVA. Face. A. B. M. A. B. A. B. Impressão Digital. M. A. A. M. A. M. A. Geometria da mão. M. M. M. A. M. M. M. Íris. A. A. A. A. A. B. A. Retina. A. A. A. B. A. B. A. Caligrafia. B. B. B. A. B. A. B. Voz. M. B. B. M. B. A. B. Dinâmica da Digitação. M. B. B. A. B. A. M. Analisando o contexto, observa-se claramente na dinâmica da digitação, classificada na literatura como sendo parte da “biometria comportamental”, a existência de um problema para o qual a modelagem estatística é apropriada, em que cada sinal biométrico, coletado e/ou medido, pode ser visto como uma amostra de uma variável aleatória (Albuquerque, Fortes e Finamore, 2008). O keystroke é uma modalidade da biometria comportamental, através da qual um indivíduo pode ser identificado ou ter sua identidade verificada pelo seu padrão rítmico de utilização de um teclado. Sabendo que existem sistemas que são capazes de verificar se a senha que o usuário digita é ou não correta, há também sistemas que são capazes de verificar se quem está digitando a senha deseja fraudar o sistema. Por mais que o impostor conheça a senha, o ritmo de sua digitação não será o mesmo do usuário verdadeiro e, desta forma, o impostor não conseguirá fraudar o sistema de autenticação (Monrose et al., 2000). Basicamente existem duas maneiras principais de trabalhar com a dinâmica da digitação em relação à informação alvo. A primeira utiliza uma senha fixa para todos os usuários do sistema e a segunda usa senhas diferentes por pessoa, ou seja, na primeira abordagem (senha fixa), existe uma senha única, ou um texto único, para todos os usuários do sistema, e já na segunda abordagem (senhas diferentes), cada usuário pode escolher uma senha para obter acesso ao sistema..

(20) 1.1 Problemática e Hipótese. 5. A nossa opção pelo uso da dinâmica da digitação foi motivada pela publicação relativamente recente de uma base pública (Killourhy e Maxion, 2009), que usa senha fixa, composta por amostras de 51 voluntários, sendo utilizada pelos autores do trabalho e, posteriormente, disponibilizada publicamente para novos experimentos. Uma variante da abordagem (Montalvão e Freire, 2006) é o foco principal desta dissertação, na qual é observado, também, o desempenho quanto ao tamanho da senha, analisando-se o tempo que uma pessoa leva para se acostumar com a senha, ou seja, o tempo para estabilização do seu padrão de digitação. Por fim, em decorrência do aprofundamento do estudo e da criação de uma nova base, foi possível verificar e analisar o efeito produzido no ritmo de digitação do usuário devido a troca de caracteres da senha, bem como a influência do seu modo de digitação.. 1.1. Problemática e Hipótese. Dentro do contexto do grupo de trabalho intitulado BioChaves — Integração de Sinais Biométricos na Identificação de Indivíduos — é estudada a modelagem probabilística dos intervalos de tempos observados na dinâmica da digitação (KeyStroke) aplicados a senhas curtas, como uma contribuição para o melhoramento das taxas de autenticação/verificação, sem a necessidade do uso de longos textos digitados como condição para o uso da biometria. Para identificação e verificação, através da dinâmica da digitação, muitos métodos utilizam os dados brutos coletados. Existem várias bases públicas para testes e comparativos de desempenho. Um mapeamento dessas bases está descrito em (Giot, El-Abed e Rosenberger, 2011). Dentro deste escopo, tem-se, por hipótese, que o uso de uma estratégia de equalização de intervalos de tempos está em plena sintonia com o padrão comportamental existente nos intervalos do padrão de digitação, levando a melhorias notáveis de desempenho dos sistemas biométricos em termos de autenticação/verificação. Esta afirmação baseia-se na observação recorrente de que as distribuições de probabilidade muito desequilibradas das variáveis aleatórias que modelam tais intervalos reduzem o desempenho da maioria dos algoritmos ingênuos (ingênuos no sentido de que eles não incorporam qualquer tipo de compensação explícita ou implícita desse viés de distribuição), logo a equalização de intervalos de tem-.

(21) 1.2 Objetivos da Dissertação. 6. pos proposta pode ser um bloco de construção útil, e praticamente sem custo em sistemas biométricos baseados keystroke, devido à sua simplicidade.. 1.2. Objetivos da Dissertação. O objetivo desta dissertação é realizar um estudo comportamental, probabilístico, dos intervalos de tempos observados em digitação de senhas curtas (texto fixo composto por até 10 caracteres). Tal estudo tem por finalidade a identificação de qual modelo representa melhor o padrão existente na digitação de uma senha curta e/ou texto fixo. Adicionalmente, o impacto dessa modelagem sobre a verificação biométrica de identidade é estudado empiricamente.. 1.3. Organização da Dissertação. Esta dissertação está organizada em 6 capítulos e suas respectivas seções, os quais estão distribuídos da seguinte forma: • O capítulo 1 apresenta uma introdução sobre biometria e o foco deste trabalho, é com-. posto pelas seguintes seções: problemática e hipótese, objetivos e organização desta dissertação;. • o capítulo 2 apresenta uma contextualização sobre a dinâmica da digitação em senhas alfa-numéricas curtas, e é composto pelas seguintes seções: a base de dados utilizada; como a coleta da base de dados foi obtida e o protocolo de experimento aplicado para coleta da base pública; • o capítulo 3: pré-processamento adaptado a senhas curtas, foco desta dissertação, é. composto pelas seguintes seções: a abordagem de (Killourhy e Maxion, 2009); a abordagem de (Montalvão e Freire, 2006);. • o capítulo 4 apresenta os resultados a partir da base “.tie5Roanl”, e é composto pelas. seguintes seções: validação do pré-processamento proposto, influência do número de amostras de treinamento, influência do uso dos tempos: H, DD e UD, teste de aderência da log-normalidade, influência dos caracteres na senha, influência do comprimento da senha no EER;.

(22) 1.3 Organização da Dissertação. 7. • o capítulo 5 apresenta os resultados a partir de novas bases de dados, e é composto pelas seguintes seções: ferramenta desenvolvida para coleta das novas bases de dados;. novas bases de dados e seus protocolos; influência da troca da posição dos caracteres; influência do modo de digitação; • o capítulo 6 apresenta as conclusões e os possíveis trabalhos futuros; • o capítulo 7 é apresentada uma lista de Referências Bibliográficas cuidadosamente selecionada, contendo todo o material que foi consultado ao longo desta dissertação.. • e, finalmente, no apêndice A é elencado a submissão gerada durante a concepção desse trabalho, bem como a cópia do artigo..

(23) Capítulo 2 Dinâmica da Digitação em Senhas Alfa-Numéricas Curtas A biometria computacional é o ramo da ciência da computação que estuda as medidas físicas dos seres vivos, no intuito de identificar ou autenticar indivíduos, através dos traços físicos característicos e únicos (Vigliazzi, 2003) ou, alternativamente, através de comportamentos ou reflexos que também possuam traços individuais e estáveis (behavioural biometrics). Em síntese, os métodos biométricos são mecanismos automatizados de reconhecimento e/ou verificação da identidade de uma pessoa, com base em alguma característica fisiológica, comportamental ou física do indivíduo. A maioria dos sistemas de segurança baseados em sinais biométricos exigem hardwares de aquisição de dados específicos. No entanto, há algumas exceções a esta regra, como a dinâmica de digitação, ou keystroke. Nesta forma específica de biometria comportamental, os métodos de reconhecimento buscam extrair características estáveis da forma como uma pessoa digita ou pressiona as teclas de um teclado. A tecnologia original remonta aos tempos em que telegrafistas experientes conseguiam identificar o remetente de uma mensagem, codificada em Morse, apenas pelo ritmo de chaveamento telegráfico desse remetente (Peacock, Ke e Wilkerson, 2004). Desde 1980, pesquisadores como (Gaines et al., 1980), (Umphress e Williams, 1985), (Bleha, 1988) e (Bleha, Slivinsky e Hussien, 1990) têm estudado o uso de padrões de digitação na identificação e na autenticação biométrica, e os resultados destes trabalhos mostraram que os padrões dinâmicos são suficientemente estáveis e discriminantes, ao ponto de permitir 8.

(24) 9 seu uso em aplicações cotidianas de biometria computacional. As principais características utilizadas em autenticação/identificação de usuários, com base em sua dinâmica de digitação são: • a latência entre a liberação de uma tecla e o acionamento da próxima, consecutivamente, também referenciado com a sigla UD, do inglês: Up-Down;. • a latência entre dois acionamentos de teclas consecutivos, também referenciado com a sigla DD, do inglês: Down-Down;. • tempo de retenção de cada tecla, cuja sigla usual é H, do inglês: Hold, duração do keystroke (tempo de espera).. Muitos métodos adotados atualmente se distinguem, principalmente, no tratamento que dão a esses sinais brutos (adquiridos como séries de intervalos em segundos). Assim, as estratégias apresentadas nesses métodos concorrentes vão desde o simples uso da média (Urtiga e Moreno, 2011) e da covariância desses intervalos de tempos (Araújo et al., 2005), até o uso das transformações não-lineares de espaços vetoriais providas pelas redes neurais artificiais (Obaidat e Sadoun, 1997). Em (Giot, El-Abed e Rosenberger, 2009), são propostos vários experimentos (GREYC), incluindo uma base de dados pública e algoritmos para testes comparativos entre estratégias de autenticação biométrica pela dinâmica de digitação. Essa base pública foi recentemente usada em experimentos na antecipação rápida de desempenho de sistemas biométricos (Giot, Ninassi e Rosenberger, 2012). Uma revisão bastante detalhada (recomendável) da aplicação do keystroke na detecção de intrusões é apresentada em (Pisani e Lorena, 2011). Outros resultados recentes ainda podem ser vistos em (Balagani et al., 2011) e (Zhong, Deng e Jain, 2012). Um estudo detalhado da análise dos fatores envolvidos no processo de aquisição encontra-se em (Giot, Ninassi e Rosenberger, 2012) e uma reflexão criteriosa sobre os poucos trabalhos a nível global, que utilizam inferências estatísticas como comparativos da sua eficiência, pode ser vista em (Killourhy e Maxion, 2011). Em (Montalvão e Freire, 2006), um estudo detalhado da natureza aleatória dos intervalos de tempos observados em dinâmica da digitação conduziu a um método de pré-processamento que, quando aplicado em conjunto com métodos de reconhecimento propostos por.

(25) 2.1 A Base de Dados utilizada. 10. outros autores, melhorou significativamente seus respectivos desempenhos. Esse pré-processamento, nomeado como time interval equalization, ou equalização de intervalos de tempos (análogo à equalização de histogramas de níveis em imagens representadas por bitmaps (Gonzalez e Wood, 2002)), foi apresentado de forma geral para ser aplicado tanto a textos digitados livremente (ex: em mensagens de email), como a textos fixos, isto é, sentença fixa composta por algumas palavras. Nesta dissertação, esse método é adaptado a uma única sequência curta de símbolos, como senhas e/ou texto fixo, e o seu desempenho é avaliado através de evidências empíricas extraídas de experimentos com a base pública de dados (Killourhy e Maxion, 2009), sendo esta composta por 400 entradas de cada um dos 51 digitadores voluntários, totalizando 20.400 amostras de dinâmicas de digitação da mesma senha hipotética curta. A exemplo do que foi feito em (Montalvão e Freire, 2006), aqui também usam-se os mesmos métodos de reconhecimento biométrico previamente utilizados em (Killourhy e Maxion, 2009). Assim, através de experimentos com e sem time interval equalization, são evidenciados os ganhos associados a esse pré-processamento proposto. Por fim, um programa foi desenvolvido e uma pequena base de dados montada para análises adicionais, bem como relata-se um estudo sobre a dependência / independência das variáveis aleatórias atreladas a cada caractere.. 2.1. A Base de Dados utilizada. Considere um cenário no qual a senha de um usuário de longa data vem sendo comprometida por um impostor. O usuário genuíno assume ser o único a conhecer, utilizar e digitar sua senha, enquanto que um impostor faz uso desta. Em uma situação típica de autenticação via senha alfa-numérica, o ritmo de digitação pode ser usado para dificultar a fraude. Isto é, mesmo conhecendo a senha, um impostor pode ser detectado por um desvio acima do normal na dinâmica de digitação dessa senha. Com base nesse cenário possível de aplicação da biometria baseada em keystroke (Killourhy e Maxion, 2009), foi coletada uma base de amostras fornecidas por 51 voluntários, usada pelos autores do trabalho e, posteriormente, disponibilizada publicamente para novos experimentos. A senha hipotética dessa base pública é “.tie5Roanl”, e a base tem as seguintes características:.

(26) 2.1 A Base de Dados utilizada. 11. • composta por amostras de 51 usuários distintos, sendo 30 do sexo masculino e 21 do sexo feminino;. • cada usuário digitou a referida senha 400 vezes, em 8 grupos (ou seções biométricas) de 50 cada;. • registraram-se os intervalos de tempos de retenção de tecla, H - (Hold), os intervalos de tempos entre acionamentos consecutivos, DD - (Down-Down), e os intervalos de tempos entre liberação e acionamento consecutivos, UD - (Up-Down). Ilustra-se, na Figura 2.1, como é o processo de aquisição dos intervalos de tempos do tipo DD. Ilustrações análogas poderiam ser usadas para as aquisições dos intervalos H e UD, de tal forma que cada instância de digitação da senha provê, simultaneamente, três séries de intervalos.. Figura 2.1: Ilustração da aquisição dos intervalos do tipo Down-Down (DD) durante a digitação da senha hipotética “.tie5Roanl”.. Em outras palavras, pode-se ver o gesto da digitação como a combinação paralela de três fontes aleatórias de intervalos de tempos, como ilustrado na Figura 2.2, que indica como os tempos dos tipos H, UD e DD são capturados ao longo da linha de tempo..

(27) 2.2 Como a coleta foi realizada. 12. Figura 2.2: Ilustração do significado dos tempos de retenção de tecla, tempos entre acionamentos consecutivos e entre liberação e acionamentos consecutivos.. Ressalta-se apenas que a digitação do caractere “R” da senha “.tie5Roanl” é compreendido pelo apertar das teclas <shift> e o caractere <R>, sendo os tempos do tipo H, UD e DD, a junção das respectivas teclas.. 2.2. Como a coleta foi realizada. Para se obter detalhes da metodologia de coleta de dados, vide (Killourhy e Maxion, 2009). Segue aqui um breve resumo da metodologia. Foi construído um aparelho de coleta de dados KeyStroke que consiste em: 1. um computador convencional laptop com o sistema operacional Windows XP; 2. aplicação em software para coleta das latências dos tempos mensuradas (H, DD e UD); 3. um temporizador externo de referência para as teclas associadas à senha hipotética. O software desenvolvido apresenta a senha hipotética a ser digitada. Conforme o usuário digita a senha sugerida, o software verifica quanto à corretividade da mesma, ou seja, caso o.

(28) 2.3 Protocolo de Experimentos. 13. usuário cometa um erro de digitação, o aplicativo solicita a digitação novamente desta senha. Desta forma, gravaram-se 50 digitações desta mesma senha, digitadas corretamente, em cada sessão. O software registrou os eventos (keydown e keyup), sendo, assim, possível adquirir os tempos H, DD e UD. Um relógio de referência externo foi utilizado para gerar marcas de tempo de alta precisão. O relógio de referência tem uma precisão de até 200 microssegundos (usando um gerador de função para simular teclas pressionadas em intervalos fixos). Foram recrutados 51 indivíduos (digitadores) de dentro de uma comunidade universitária. Todos os indivíduos digitaram a mesma senha e cada pessoa digitou-a 400 vezes ao longo de 8 seções (50 repetições em cada sessão). Eles esperaram pelo menos um dia entre as sessões, para capturar algumas das variações do dia-a-dia de digitação. A senha “.tie5Roanl” foi escolhida para ser representante de uma senha de 10 caracteres fortes, ou seja, uma senha forte tem pelo menos oito caracteres, não contém um nome real ou de empresa, nem forma uma palavra completa, e é constituída por caracteres de, pelo menos, três destas quatro categorias: letras maiúsculas, minúsculas, números e símbolos do teclado.. 2.3. Protocolo de Experimentos. O protocolo de (Killourhy e Maxion, 2009) foi reproduzido fielmente. Isto é: 1. um dos 51 indivíduos da base é escolhido por experimento como o indivíduo alvo (ou autêntico possuidor da senha), e os demais são tomados como impostores que também conhecem (indevidamente) essa senha; 2. na fase de treinamento, o algoritmo utiliza, como base, as primeiras 200 repetições do indivíduo alvo, sendo este parte de um público masculino e feminino, das mais diversas idades. Constrói-se, então, um modelo – ou um template 1 – de comportamento desse indivíduo; 3. na fase de teste, são utilizadas as outras 200 repetições restantes do indivíduo alvo como tentativas genuínas de autenticação; 1. Template é a representação das informações extraídas das amostras biométricas fornecidas pelo indivíduo. no seu processo de cadastramento (Oliveira, 2011).

(29) 2.3 Protocolo de Experimentos. 14. 4. finalmente, como tentativas de autenticação dos impostores, são utilizadas as primeiras 5 repetições de cada um dos 50 demais indivíduos. Embora 200 repetições sejam uma quantidade excessiva de dados, do ponto de vista prático de treinamento de uma aplicação real (preocupação que foi mencionada e justificada pelos autores (Killourhy e Maxion, 2009)), foi mantido esse mesmo protocolo por duas razões: • inicialmente porque o objetivo, a priori, no primeiro conjunto de experimentos, é mostrar, comparativamente, o ganho proporcionado pela equalização dos intervalos, e esse. número exagerado de amostras de treinamento favorece esse feito, por fornecer medidas de erros relativamente estáveis. • além disso, a reprodução rigorosa do protocolo usado (Killourhy e Maxion, 2009) foi mantida para permitir a conferência dos resultados esperados (no caso sem o pré-processamento)..

(30) Capítulo 3 Pré-Processamento Adaptado à Senha Curta Numa adaptação da notação usada em (Montalvão e Freire, 2006), cada amostra de dinâmica de digitação é representada como um vetor, xS = [xS (1) xS (2) · · · xS (NS )], com NS intervalos de tempos positivos, em segundos, e o índice S representa a fonte aleatória. desses intervalos. Nesta adaptação de modelo, assume-se a existência de 2 fontes, a saber: S ∈ {H, DD}, relativas aos tempos de retenção de tecla e tempos entre acionamentos con-. secutivos, respectivamente. Vale notar que descartaram-se os intervalos {U D}, que podem. assumir valores negativos e, por consequência, não podem ser modelados com distribuições Log-Normais, ou seja, não sendo possível realizar a equalização conforme observa-se no decorrer deste capítulo. Assumindo que os intervalos são instâncias de duas variáveis aleatórias contínuas, XH e XDD , com distribuições aproximadamente log-normais (hipótese a ser testada novamente nesta dissertação, no contexto de senhas curtas e/ou textos fixos), temos, por consequência, que. YS = loge (XS ). (3.1). possui distribuição aproximadamente normal, para cada uma das duas fontes. Assim, usando a mesma aproximação usada em (Montalvão e Freire, 2006) para a integral definida da gaussiana, tem-se uma primeira possível equalização de tempos obtida como:. 15.

(31) 16. g(xS ) =. 1 1+. 1,7(loge (xS )−µy,S ) exp(− ) σy,S. (3.2). Em (Montalvão e Freire, 2006), onde apenas intervalos DD foram considerados, em bases de textos livres e fixos, os valores médios estimados para os parâmetros de média e desvio padrão foram µy,DD = −1, 56 e σy,DD = 0, 65, sem levar em conta quais eram as. teclas consecutivas cujos acionamentos geravam o intervalo de tempo. Claramente, essa foi uma opção de simplificação do modelo, em (Montalvão e Freire, 2006), que descartou a dependência entre teclas acionadas e intervalos medidos. Até então, duas importantes alterações na modelagem proposta em (Montalvão e Freire, 2006) são: • além dos intervalos de tempos do tipo DD (Down-Down), foram incluídos os intervalos de tempos de retenção H (Hold);. • no sentido de tirar o máximo de proveito dos poucos intervalos de tempos fornecidos. por uma senha curta e/ou um texto fixo, a dependência entre teclas acionadas e intervalos correspondentes não foi descartada. Isto é, sendo a senha (texto fixo) “.tie5Roanl” composta por 10 caracteres, sendo um deles maiúsculo, cada digitação desta senha gera 10 intervalos DD (contando com o SHIFT) e 11 intervalos H, numa sequência cuja ordem importa. Em outras palavras, as sequências de 21 intervalos DD e H, assim obtidos, são modeladas como processo estocástico, não mais como variáveis independentes.. Do ponto de vista de implementação, esta última alteração significa que cada par de teclas consecutivas – e.g. ‘.t’ ou ‘ti’ – deve ter seus próprios parâmetros µy,S,k e σy,S,k , que devem ser estimados separadamente, onde k representa o par de letras e/ou a letra do intervalo de tempo na senha e/ou no texto fixo. Logo, k ∈ {′ .t′ ,′ ti′ ,′ ie′ . . . ,′ ni′ } para S = DD e k ∈ {′ .′ ,′ t′ ,′ i′ . . . ,′ n′ ,′ i′ } para S = H.. O pré-processamento proposto está sustentado basicamente em duas abordagens: a abordagem de (Killourhy e Maxion, 2009) e a abordagem de (Montalvão e Freire, 2006). Nas seções a seguir observa-se um detalhamento sucinto dessas duas abordagens:.

(32) 17. 3.1 A Abordagem de (Killourhy e Maxion, 2009). 3.1. A Abordagem de (Killourhy e Maxion, 2009). O objetivo principal da abordagem de (Killourhy e Maxion, 2009) foi a coleta dos dados (conforme observou-se nas seções: 2.2 e 2.3, ou seja, a coleta das batidas das teclas - dinâmica do conjunto de dados), com o objetivo de desenvolver um processo de avaliação e a possibilidade de medição do desempenho de uma série de medidas de modo que os resultados possam ser comparados profundamente. Foram coletados dados de 51 indivíduos e cada um dos indivíduos repetiu a digitação 400 vezes. Há também nesta abordagem a implementação de 14 medidas de desempenho, todas da literatura de reconhecimento de padrões. Observa-se na tabela 3.1 os resultados obtidos para cada uma das 14 medidas de desempenho (distância). Tabela 3.1: Resultados da abordagem de (Killourhy e Maxion, 2009) Distância. EER. Manhattan (scaled). 0,096. Nearest Neighbor (Mahalanobis). 0,100. Outlier Count (z-score). 0,102. SVM (one-class). 0,102. Mahalanobis. 0,110. Mahalanobis (normed). 0,110. Manhattan (filter). 0,136. Manhattan. 0,153. Neural Network (auto-assoc). 0,161. Euclideana. 0,171. Euclideana (normed). 0,215. Fuzzy Logic. 0,221. K Means. 0,372. Neural Network (standard). 0,828. Nesta dissertação utilizou-se as três métricas destacadas, ou seja, a distância Euclideana, Manhattan e a distância de Mahalanobis..

(33) 3.2 A Abordagem de (Montalvão e Freire, 2006). 3.2. 18. A Abordagem de (Montalvão e Freire, 2006). Já na abordagem de (Montalvão e Freire, 2006), foi analisada uma equalização paramétrica de histogramas (intervalos de tempos DD) sobre o desempenho de algoritmos de verificação de usuário baseados em teclas. Três experimentos foram utilizados ao longo dessa análise: um clássico para os textos estáticos, um segundo, também proposto na literatura, tanto para textos estáticos como para textos arbitrários, e um para verificação baseado em texto arbitrário. As performances foram relatadas antes e depois das equalizações e os resultados corroboraram com a hipótese feita, de que a equalização dos intervalos de tempo, sem memória e não-linear, melhora o desempenho em termos de EER, apesar da sua simplicidade. Assim, foi proposto que a equalização atuasse como um bloco de construção útil e praticamente sem custo computacional relevante em sistemas biométricos baseados em keystroke. A equalização corresponde simplesmente a realizar uma transformação de cada intervalo de tempo Down-Down (DD) usando a Fórmula 3.2 e, para a abordagem de (Montalvão e Freire, 2006), com uma mesma média e uma mesma variância para toda a matriz de características (todos os intervalos de tempos DD)..

(34) Capítulo 4 Resultados a partir da base “.tie5Roanl” Assim como em (Killourhy e Maxion, 2009), empregaram-se três métodos “clássicos”, ou seja, os métodos de autenticação baseados nas distâncias Euclidiana, de Manhattan e de Mahalanobis (Duda, Hart e Stork, 2001), entre os vetores contendo os intervalos de tempo de uma tentativa de autenticação (genuína ou impostora) e o vetor template, obtido durante a fase de treino ou ajuste. No caso da distância de Mahalanobis, na fase de treino, também foi gerada a matriz de covariância associada ao template. Cada experimento realizado, independentemente, fornece uma grande quantidade de distâncias medidas entre amostra e template do indivíduo (ou usuário) alvo. Assim, dado um limiar de decisão, λ, pode-se computar erros de dois tipos, são eles: • erro de falso alarme, ou falsa rejeição: quando o usuário alvo digita a senha, mas a distância medida entre a amostra fornecida e o seu template é maior que λ.. • erro de falsa aceitação: quando um impostor digita a senha e a distância medida entre sua amostra de tempo e o template do usuário alvo é menor que λ.. Sendo assim, as frequências relativas de ocorrência desses dois erros são funções de λ, de tal forma que quando uma cresce a outra decresce. No ponto de operação em que as duas se igualam encontra-se o que é chamado de taxa de erros iguais, ou Equal Error Rate (EER), que é uma medida comumente usada na avaliação de sistemas biométricos.. 19.

(35) 20. 4.1 Validação do Pré-Processamento Proposto. 4.1. Validação do Pré-Processamento Proposto. Nesta dissertação, os desempenhos de cada método são comparados através do EER. Reproduzindo os experimentos realizados (Killourhy e Maxion, 2009), com intervalos de tempos em segundos, obtém-se os resultados indicados na Tabela 4.1, que também apresenta o intervalo de 95% de confiança para esses EER médios, medidos ao longo dos experimentos com os 51 indivíduos. Vale observar que, apenas nestes experimentos de referência, utilizam-se os 3 tipos de intervalos: H, DD e UD. Tabela 4.1: Resultados com intervalos H, DD e UD, sem equalização Distância. EER. Intervalo de confiança (95 %). Euclideana. 0,170. Manhattan. 0,153. ± 0,026. Mahalanobis. 0,110. ± 0,025 ± 0,018. O segundo conjunto de experimentos consistiu na remoção dos intervalos do tipo UD, como forma de estabelecer uma referência de desempenho sem equalização de intervalos, mas com, apenas, os intervalos H e DD. Os desempenhos obtidos são apresentados na Tabela 4.2. Tabela 4.2: Resultados com intervalos H e DD, sem equalização Distância. EER. Intervalo de confiança (95 %). Euclideana. 0,167. Manhattan. 0,138. ± 0,026. Mahalanobis. 0,110. ± 0,023 ± 0,018. Embora a intenção deste experimento fosse estabelecer uma referência para comparação, nota-se, com surpresa, que a simples remoção dos intervalos UD parece promover um leve ganho de desempenho para as distâncias Euclideana e de Manhattan. No entanto, esse ganho não deve ser aceito como evidência suficiente contra o uso dos intervalos UD, levando-se em conta os intervalos de confiança dessas medidas. Em todo caso, o mínimo que se pode concluir é que os intervalos do tipo UD também não contribuem, nesses experimentos, para diminuir o EER, ou seja, mesmo no caso da distância de Mahalanobis, em que o EER não.

(36) 21. 4.1 Validação do Pré-Processamento Proposto. sofreu alteração com a retirada dos intervalos UD, esta não influenciou na estimação dos parâmetros da matriz de covariância. No terceiro conjunto de experimentos, o pré-processamento (equalização) é feito sem levar em consideração a dependência entre teclas acionadas e intervalos. Em outras palavras, a mesma média µY = −2, 05 e o mesmo desvio-padrão, σY = 0, 66, recalculados a partir da matriz de características do experimento em questão, foram aplicados à equalização de todos os intervalos DD e H. Com exceção da inclusão dos intervalos do tipo H, isto corresponde ao tratamento proposto em (Montalvão e Freire, 2006), para textos livres ou compostos por várias palavras (não-curtos). Os resultados obtidos são apresentados na Tabela 4.3. Tabela 4.3: Resultados com intervalos H e DD, com mesma equalização para todos os intervalos Distância. EER. Intervalo de confiança (95 %). Euclideana. 0,132. Manhattan. 0,109. ± 0,013. Mahalanobis. 0,119. ± 0,013 ± 0,014. Nota-se que, embora esse não seja o tratamento mais adequado às sequências curtas (como as senhas), houve, ainda assim, um ganho significativo de desempenho em termos de EER, quando são usadas as distâncias Euclideana e de Manhattan. O quarto conjunto de experimentos corresponde ao foco principal desta dissertação. Nele, foram estimados os parâmetros µy,S,k e σy,S,k para cada par de teclas acionadas, no caso dos intervalos DD, e para cada tecla, no caso dos intervalos H. Em seguida, os intervalos em segundos foram transformados, usando a equação 3.2, em medidas adimensionais Y , com distribuições quase uniformes entre 0 e 1. Essas medidas Y , substituíram então os tempos em segundos X, nas tabelas de dados. A essa substituição de X por Y , nas tabelas de dados experimentais, chamamos de pré-processamento dos intervalos de tempos. Após o pré-processamento, usamos os métodos de treinamento e comparação precisamente como em (Killourhy e Maxion, 2009), sem nenhuma alteração. Assim, os resultados apresentados na Tabela 4.4 refletem apenas o impacto do pré-processamento proposto, isto é, da equalização dos intervalos conforme descrito no capítulo 3..

(37) 22. 4.2 Influência do Número de Amostras de Treinamento Tabela 4.4: Resultados com intervalos H e DD, com equalização Distância. EER. Intervalo de confiança (95 %). % de melhora em relação aos resultados sem equalização. Euclideana. 0,073. Manhattan. 0,074. Mahalanobis. 0,073. 4.2. ± 0,018. 56,28%. ± 0,017. 33,63%. ± 0,020. 46,37%. Influência do Número de Amostras de Treinamento. Após os resultados promissores observados, surgem perguntas do tipo: “Como seriam os resultados caso o vetor dos templates, obtido na fase de treino ou ajuste, fosse gerado com menos amostras”? Para buscar respostas a essa pergunta, foram realizados experimentos com o intuito de observar os resultados alcançados por cada abordagem estudada até então, ou seja, experimentos realizados em (Killourhy e Maxion, 2009), o tratamento proposto em (Montalvão e Freire, 2006) onde uma única média µY e um único desvio padrão σY são calculados, e o pré-processamento proposto nesta dissertação, onde os parâmetros µy,S,k e σy,S,k são estimados para cada par de símbolos (caracteres) consecutivos, intervalos DD e para cada tecla, intervalos H. Ressaltando-se apenas que nos experimentos contidos nesta seção, não serão contempladas as taxas referentes à distância de Mahalanobis, visto que a mensuração da mesma será distorcida (fato este decorrente do número de amostras, na fase de treino, ser insuficiente para o cálculo da matriz de covariância, ou seja, o fato da dimensão do espaço ser 21 x 21 e o fato destes experimentos ter o número de amostras inferior a 100, torna inviável uma estimação adequada dos parâmetros da matriz de covariância). Têm-se na sequência os resultados obtidos utilizando apenas 100 amostras para geração do template, fase de treinamento, contra as 200 utilizadas anteriormente. Reavaliando o desempenho original, visto em (Killourhy e Maxion, 2009), alterando apenas a base dos templates, na fase de treino, observam-se os resultados na Tabela 4.5. Continuando os experimentos de geração de um novo template com apenas 100 amostras, os intervalos de tempos foram processados seguindo as abordagens apresentadas em (Montalvão e Freire, 2006), onde é realizado um pré-processamento, com equalização “fixa”,.

(38) 23. 4.2 Influência do Número de Amostras de Treinamento. Tabela 4.5: Resultados com intervalos H e DD, sem equalização, com 100 amostras para geração dos templates Distância. EER. Intervalo de confiança (95 %). Euclideana. 0,208. Manhattan. 0,192. ± 0,028 ± 0,026. mesma µY e um mesmo σY , e esta obteve os resultados apresentados na Tabela 4.6. Tabela 4.6: Resultados com intervalos H e DD, com mesma equalização para todos os intervalos, utilizando 100 amostras para geração dos templates Distância. EER. Intervalo de confiança (95 %). Euclideana. 0,172. Manhattan. 0,147. ± 0,033 ± 0,031. A mesma parametrização para geração dos templates foi utilizada seguindo a abordagem foco desta dissertação, onde, nesta, há um pré-processamento com µy,S,k e σy,S,k variáveis, obtendo os resultados indicados na Tabela 4.7. Tabela 4.7: Resultados com intervalos H e DD, com equalização, utilizando 100 amostras para geração dos templates Distância. EER. Intervalo de confiança (95 %). % de melhora em relação aos resultados sem equalização. Euclideana. 0,097. Manhattan. 0,101. ± 0,021 ± 0,023. 53,36% 47,39%. Numa rápida análise, concernente aos resultados obtidos neste conjunto de experimentos, observa-se que, com uma redução de 50% nas amostras usadas para a geração dos templates, há uma degradação no desempenho de todos os métodos, porém, o pré-processamento proposto mantém um desempenho relativamente melhor em termos de EER. Realizando um novo conjunto de experimentos, utilizando apenas 50 amostras para geração dos templates, contra as 100 utilizadas anteriormente, observam-se os resultados seguindo a proposta apresentada em (Killourhy e Maxion, 2009), na Tabela 4.8..

(39) 24. 4.2 Influência do Número de Amostras de Treinamento. Tabela 4.8: Resultados com intervalos H e DD, sem equalização, com 50 amostras para geração dos templates Distância. EER. Intervalo de confiança (95 %). Euclideana. 0,252. Manhattan. 0,238. ± 0,028 ± 0,027. Reavaliando o desempenho do pré-processamento, proposto em (Montalvão e Freire, 2006), para apenas 50 amostras na geração dos templates, obtiveram-se os resultados indicados na tabela 4.9. Tabela 4.9: Resultados com intervalos H e DD, com mesma equalização para todos os intervalos, utilizando 50 amostras para geração dos templates Distância. EER. Intervalo de confiança (95 %). Euclideana. 0,216. Manhattan. 0,191. ± 0,039 ± 0,038. Aplicando o pré-processamento proposto, observam-se os resultados na Tabela 4.10, com os templates sendo gerados com apenas 50 amostras. Constata-se um resultado melhor em termos de EER, quando comparado com os resultados obtidos em (Killourhy e Maxion, 2009) e (Montalvão e Freire, 2006). Tabela 4.10: Resultados com intervalos H e DD, com equalização, utilizando 50 amostras para geração dos templates Distância. EER. Intervalo de confiança (95 %). % de melhora em relação aos resultados sem equalização. Euclideana. 0,137. Manhattan. 0,139. ± 0,030 ± 0,031. 45,63% 41,59%. Portanto, o pré-processamento proposto tem um melhor desempenho em termos de EER, quando aplicados a tempos observados em digitação de senhas curtas. Com o intuito de demostrar a eficiência com poucas amostras, foram aplicados os três métodos discutidos, utilizando apenas 10 amostras, ou seja, 5% das amostras utilizadas na.

(40) 25. 4.3 Influência do Uso dos Tempos: {H} e {DD}. fase de treino em relação ao primeiro teste, vistos na seção 4.1, e os resultados desse experimento são apresentados nas Tabelas: 4.11, 4.12 e 4.13. Tabela 4.11: Resultados com intervalos H e DD, sem equalização, com 10 amostras para geração dos templates Distância. EER. Intervalo de confiança (95 %). Euclideana. 0,399. Manhattan. 0,390. ± 0,035 ± 0,036. Tabela 4.12: Resultados com intervalos H e DD, com mesma equalização para todos os intervalos, utilizando 10 amostras para geração dos templates Distância. EER. Intervalo de confiança (95 %). Euclideana. 0,369. Manhattan. 0,341. ± 0,055 ± 0,053. Tabela 4.13: Resultados com intervalos H e DD, aplicado ao pré-processamento proposto, utilizando 10 amostras para geração dos templates Distância. EER. Intervalo de confiança (95 %). % de melhora em relação aos resultados sem equalização. Euclideana. 0,296. Manhattan. 0,290. ± 0,048 ± 0,047. 25,81% 25,64%. Reavaliando todas as abordagens, observa-se que todas as distâncias tiveram uma piora nas taxas de EER, fato este decorrente da geração dos templates bem mais frágeis.. 4.3. Influência do Uso dos Tempos: {H} e {DD}. Outra possível pergunta seria: “Qual dos intervalos utilizados possui um melhor desempenho, uma melhor contribuição nos resultados obtidos até então, intervalos H ou os intervalos DD”? Ressalta-se que o desempenho dos intervalos UD foram descartados, por serem capazes de assumir valores negativos e, por consequência, não poderem ser modelados com distribuições Log-Normais..

(41) 26. 4.3 Influência do Uso dos Tempos: {H} e {DD}. Na Tabela 4.14, observam-se os resultados obtidos para os intervalos separadamente, H e DD, segundo método utilizado em (Killourhy e Maxion, 2009). Tabela 4.14: Resultados com intervalos H e DD, sem equalização Intervalos H. Intervalos DD. Distância. EER. Intervalo de confiança (95 %). EER. Intervalo de confiança (95 %). Euclideana. 0,170. 0,174. Manhattan. 0,160. ± 0,031. ± 0,047. Mahalanobis. 0,161. ± 0,027. 0,153. ± 0,029. 0,172. ± 0,026 ± 0,018. Na Tabela 4.15, pode-se observar o resultado obtido em (Montalvão e Freire, 2006), ou seja, mesma média e o mesmo desvio-padrão para os intervalos H e DD. Aplicando o pré-processamento proposto, constatam-se, na Tabela 4.16, os resultados obtidos para os intervalos H e DD respectivamente. Tabela 4.15: Resultados com intervalos H e DD, com mesma equalização para todos os intervalos Intervalos H. Intervalos DD. Distância. EER. Intervalo de confiança (95 %). EER. Intervalo de confiança (95 %). Euclideana. 0,159. 0,208. Manhattan. 0,153. ± 0,030. ± 0,027. Mahalanobis. 0,152. ± 0,103. 0,233. ± 0,029. 0,190. ± 0,027 ± 0,035. Tabela 4.16: Resultados com intervalos H e DD, com equalização Intervalos H. Intervalos DD. Distância. EER. Intervalo de confiança (95 %). EER. Intervalo de confiança (95 %). Euclideana. 0,147. 0,131. Manhattan. 0,144. ± 0,029. ± 0,021. Mahalanobis. 0,137. ± 0,028. 0,125. ± 0,029. 0,135. ± 0,023 ± 0,017. Nota-se que o uso de intervalos H leva a desempenhos superiores, quando comparados aos obtidos usando os intervalos DD, quando uma equalização única para todos os intervalos.

(42) 4.4 Teste de Aderência da Log-Normalidade. 27. de tempo é aplicada (ver Tabela 4.15). Isso pode ser justificado pelo fato da média µy estar favorecendo a equalização dos tempos de retenção, H, em detrimento da equalização dos tempos DD. Em todo caso, ressalta-se que a agregação desses dois intervalos leva a um desempenho superior, conforme verificou-se nas Tabelas: 4.2, 4.3 e 4.4.. 4.4. Teste de Aderência da Log-Normalidade. Em análise estatística é comum se estimar parâmetros de uma determinada distribuição (média, variância, mediana, etc.) a partir de amostras aleatórias. Este tipo de procedimento inferencial é muito usado no teste de hipóteses relativas a distribuições. Um teste de hipóteses é um método para verificar se os dados são compatíveis com alguma hipótese, podendo, muitas vezes, sugerir a não-validade desta.. Figura 4.1: Ilustração da distribuição do intervalo do tipo Down-Down (DD) entre a digitação dos caracteres “t” e “i” da senha hipotética “.tie5Roanl”.. Esses testes podem ser feitos segundo duas metodologias: • Testes Paramétricos: são os testes conduzidos em situações onde se sabe ou se assume modelo particular de distribuição para representar os dados, definido por parâmetros..

(43) 4.4 Teste de Aderência da Log-Normalidade. 28. • Testes Não Paramétricos: são conduzidos sem assumir qualquer forma particular para modelo hipotético que explica a distribuição dos dados.. Como o pré-processamento proposto é baseado na log-normalidade dos dados, podese observar, na Figura 4.1, um gráfico real do logaritmo do intervalo DD - caracteres “ti”, onde, no eixo horizontal, representa-se o logaritmo dos tempos brutos em segundos, e o eixo vertical, a frequência. Verifica-se que a distribuição assemelha-se a uma gaussiana. No sentido de se comparar à distribuição de intervalos associada aos caracteres e pares de caracteres (dados), com uma função ideal (log-normal), objetivando validar a sua lognormalidade, optou-se pelo uso do teste de Kolmogorov-Smirnov, dentre vários possíveis, onde este é usado para determinar se duas distribuições de probabilidade diferem uma da outra ou se uma das distribuições de probabilidade difere da distribuição em hipótese, neste caso, log-normal, com base em amostras finitas. O nome do teste é uma referência aos matemáticos russos Andrey Kolmogorov e Vladimir Ivanovich Smirnov. O teste baseia-se na comparação da curva da frequência cumulativa dos dados com a função de distribuição teórica em hipótese. A estatística do teste é calculada através da máxima diferença entre ambas. A magnitude da diferença estabelece-se, probabilisticamente, segundo a lei de probabilidade dessa estatística. Se os dados experimentais afastam-se significativamente do que é esperado, segundo a distribuição em hipótese, então, as curvas obtidas devem encontrar-se igualmente afastadas, e por um raciocínio análogo, se a aderência ao modelo hipotético é admissível, as curvas devem ter um afastamento máximo pequeno. Utilizando o histograma apresentado na Figura 4.1, nos dados DD, com o intuito de testar a distribuição através do teste de aderência de Kolmogorov-Smirnov, tem-se: assumindo que o histograma na Figura 4.1, do logaritmo dos intervalos DD, é similar a uma curva gaussiana, ou normal, conclui-se que a distribuição dos intervalos DD é log-normal. Pode-se observar, na Figura 4.2, que a linha tracejada, correspondente à probabilidade acumulada de uma variável aleatória normal idealizada, é similar à linha cheia, correspondente à probabilidade acumulada da variável aleatória que representa o logaritmo dos tempos. Para as distribuições presentes na Figura 4.2, a estatística de Kolmogorov-Smirnov indicou uma aderência de 0, 0904, sendo o intervalo de confiança (95%) igual a 0, 0960..

Referências

Documentos relacionados

A teoria das filas de espera agrega o c,onjunto de modelos nntc;máti- cos estocásticos construídos para o estudo dos fenómenos de espera que surgem correntemente na

No sentido de verificar a estabilidade do efeito corona, foram preparadas 2 amostras de tecido engomado de algodão para cada tempo de tratamento corona (1 a 25 min.), sendo que

autor, as manifestações populares carnavalescas como os cordões, ranchos e blocos eram estratégias e artimanhas utilizadas pelos populares como meio de resistência,

Os instrutores tiveram oportunidade de interagir com os vídeos, e a apreciação que recolhemos foi sobretudo sobre a percepção da utilidade que estes atribuem aos vídeos, bem como

O contrato-programa para 2009 continuará a incluir os seguintes programas específicos: melhoria da resposta na área dos Cuidados Continuados Integrados - Unidades de

Pag.. para aprimoramento dos processos, etc. Observou-se que, quando as pessoas sentem-se parte integrante dos processos e da empresa, elas procuram participar mais,

Desde o início da previdência no Brasil, ou seja, do final do século XIX, com esboços de seguros, até a Constituição de 1934 e o então já sistema tripartite, os vários

*No mesmo dia, saindo da sala do segundo ano, fomos a sala do primeiro ano, quando entramos os alunos já estavam em sala, depois de nos acomodarmos a professora pediu que