Experimentos - Códigos de vizinhança para representação de imagens binárias e suas aplicações

O sistema de aprendizagem que obteve melhor desempenho foi a rede MLP. O número de unidades de processamento da primeira camada é o mesmo do tamanho do vetor de entrada, a depender do descritor escolhido. A saída desejada é a classificação do elemento de entrada entre uma das 10 possíveis classes. Logo, a saída da rede também tem tamanho 10. A dimensão da camada do meio foi escolhida empiricamente: 300 unidades de processamento em uma única camada escondida. O algoritmo de aprendizagem usado nos experimentos é o Resilient Propagation, que demonstrou ter uma convergência mais rápida do que o Back Propagation (PRASAD; SINGH; LAL, 2013). As redes foram treinadas usando como critério de parada 10 épocas sem melhoras do erro de validação.

O banco MNIST tem 60.000 imagens para treino e 10.000 para teste. Durante a apren- dizagem foi usado o método validação cruzada 10-fold. Os dados de treino foram estra- tificados para garantir uma distribuição equilibrada entre as classes. Ou seja, no final as 60.000 imagens de treino ficaram divididas em 10 subconjuntos de 6.000 e as 10.000 de teste foram usadas exclusivamente para esse fim. Como esperado todos testes foram executados 10 vezes. Em cada rodada um subconjunto diferente dos 10 foi usado como validação, enquanto os outros 9 como treino. Os erros apresentados nessa seção são a mé-

Capítulo 6. RECONHECIMENTO DE CARACTERES 62

dia dos 10 testes e seus intervalos de confiança foram construídos com nível de confiança 0, 95.

Todos os descritores aqui descritos foram combinados para formar nosso classificador final. A combinação dos classificadores realizou-se usando uma nova rede MLP. Essa tática obteve resultados superiores sobre os métodos comuns, como voto majoritário. A entrada desta rede nada mais é do que o resultado das demais, que foram alimentadas pelos descritores. A saída das redes têm tamanho 10, já que elas tentam classificar os elementos entre 10 classes. A entrada da rede de combinação tem tamanho 10 × 𝑚, onde

𝑚 é o número de classificadores a serem agregados. Dito isso, entende-se que o vetor de

entrada é a concatenação das saídas dos classificadores. A rede de combinação tem as demais configurações iguais aos outros classificadores, como tamanho das camadas do meio e saída, algoritmo de aprendizagem e critério de parada.

Tabela 2 – Média dos erros e suas margens de erro para os descritores CEO, CES, MZ e AB. A linha Total mostra o erro encontrado pro conjunto de testes inteiro, enquanto as linhas 1 a 9 mostram os erros para cada dígito específico de teste.

Dígito CEO CES MZ AB

0 2, 83 ± 0, 33 7, 49 ± 0, 52 4, 19 ± 0, 40 8, 50 ± 0, 55 1 11, 77 ± 0, 59 15, 87 ± 0, 67 7, 91 ± 0, 50 3, 81 ± 0, 35 2 15, 00 ± 0, 69 20, 19 ± 0, 77 7, 97 ± 0, 52 19, 70 ± 0, 77 3 18, 88 ± 0, 76 21, 43 ± 0, 80 6, 67 ± 0, 49 10, 69 ± 0, 60 4 11, 16 ± 0, 62 12, 02 ± 0, 64 7, 61 ± 0, 52 13, 51 ± 0, 68 5 25, 28 ± 0, 90 35, 13 ± 0, 99 8, 78 ± 0, 59 19, 38 ± 0, 82 6 6, 21 ± 0, 48 8, 95 ± 0, 57 4, 78 ± 0, 43 13, 34 ± 0, 68 7 14, 22 ± 0, 68 13, 70 ± 0, 66 9, 09 ± 0, 56 11, 18 ± 0, 61 8 26, 13 ± 0, 87 31, 64 ± 0, 92 17, 34 ± 0, 75 23, 89 ± 0, 85 9 15, 76 ± 0, 71 17, 15 ± 0, 74 16, 13 ± 0, 72 22, 21 ± 0, 81 Todos 14, 61 ± 0, 22 18, 17 ± 0, 24 9, 04 ± 0, 18 14, 43 ± 0, 22

O resultado específico de cada descritor pode ser encontrado nas Tabelas 2 e 3. Observa-se que o desempenho individual da maioria destes não é bom, mesmo assim a combinação dos descritores gera um classificador mais forte. Várias combinações foram testadas, os resultados encontram-se na Tabela 4. Quanto mais classificadores agrupados, melhor é o resultado.

Esta melhora de resultado só é possível porque os classificadores individuais não erram os mesmos exemplos, logo, a união os torna mais fortes. A análise de diversidade apresentada na Seção 6.3 ajuda na escolha de quais descritores devem compor o modelo final. Uma seleção errada pode acarretar em má performance ou taxas de erros maiores do que seria possível alcançar com outra configuração. Uma prova de que os classificadores individuais cometem erros diferentes é a diferença de desempenho por dígitos. Por exemplo,

Capítulo 6. RECONHECIMENTO DE CARACTERES 63

Tabela 3 – Média dos erros e e suas margens de erro para os descritores AH, AM e IAZ. A linha Total mostra o erro encontrado pro conjunto de testes inteiro, enquanto as linhas 1 a 9 mostram os erros para cada dígito específico de teste.

Dígito AH AM IAZ 0 3, 68 ± 0, 37 6, 96 ± 0, 50 69, 11 ± 0, 91 1 2, 21 ± 0, 27 3, 81 ± 0, 35 55, 70 ± 0, 91 2 8, 88 ± 0, 55 15, 90 ± 0, 71 74, 57 ± 0, 84 3 4, 61 ± 0, 41 7, 79 ± 0, 52 67, 84 ± 0, 91 4 5, 12 ± 0, 44 10, 05 ± 0, 59 60, 82 ± 0, 97 5 10, 47 ± 0, 64 17, 71 ± 0, 79 71, 45 ± 0, 94 6 7, 01 ± 0, 51 11, 53 ± 0, 64 65, 53 ± 0, 95 7 5, 88 ± 0, 45 10, 77 ± 0, 60 71, 90 ± 0, 87 8 10, 76 ± 0, 62 20, 02 ± 0, 79 93, 91 ± 0, 47 9 11, 02 ± 0, 61 19, 43 ± 0, 77 65, 97 ± 0, 92 Todos 6, 87 ± 0, 16 12, 23 ± 0, 20 69, 46 ± 0, 29

enquanto CEO é melhor em classificar o dígito 5, CES é melhor em classificar o dígito 8, para ambos os números o resultado foi melhor no classificador que combina os dois.

Outra observação válida é sobre a dificuldade de classificar certo conjunto de dígitos. Como exemplo vamos usar o classificador combinado CES, CEO, MZ, AH, AB e AM. Através de sua matriz de confusão, Tabela 5, e confirmado pelos resultados detalhados, Tabela 4, encontramos padrões de erros. O classificador confunde mais os dígitos 5 com 3, 9 com 8 e 7, entre outros.

Atualmente o melhor resultado divulgado para a base MNIST usando MLP pertence à (CIRESAN et al., 2010), com taxa de erro 0, 35%. O melhor resultado geral faz uso da

rede neural convolucional e pertence a (CIRESAN; MEIER; SCHMIDHUBER, 2012), com taxa

de erro 0, 23%. O menor taxa de erro obtida usando Código de Vizinhança é de 4, 84% e pertence ao grupo CES, CEO, MZ e AH.

Capítulo 6. RECONHECIMENTO DE CARACTERES 64

Tabela 4 – Média dos erros e seus intervalos de confiança para diferentes conjuntos de descritores. Cada coluna representa uma combinação de descritores, e as linhas mostram suas taxas de erro com intervalos de confiança.

Dígito CES, CEO CEO, MZ, AB CES, CEO, MZ CEO, MZ, AH, AB 0 2, 19 (0, 29) 1, 86 (0, 27) 1, 62 (0, 25) 1, 62 (0, 25) 1 8, 02 (0, 50) 2, 84 (0, 31) 4, 90 (0, 40) 2, 24 (0, 27) 2 13, 99 (0, 67) 5, 26 (0, 43) 5, 56 (0, 44) 4, 05 (0, 38) 3 18, 02 (0, 75) 8, 58 (0, 55) 6, 13 (0, 47) 3, 25 (0, 35) 4 10, 31 (0, 60) 11, 11 (0, 62) 6, 67 (0, 49) 10, 44 (0, 60) 5 24, 24 (0, 89) 15, 98 (0, 76) 8, 35 (0, 57) 12, 89 (0, 70) 6 5, 96 (0, 47) 10, 27 (0, 61) 3, 72 (0, 38) 9, 13 (0, 58) 7 13, 92 (0, 67) 9, 31 (0, 56) 8, 03 (0, 53) 8, 12 (0, 53) 8 22, 49 (0, 83) 19, 02 (0, 78) 12, 34 (0, 65) 16, 81 (0, 74) 9 15, 18 (0, 70) 16, 78 (0, 73) 14, 43 (0, 69) 16, 00 (0, 72) Todos 13, 29 (0, 21) 9, 92 (0, 19) 7, 15 (0, 16) 8, 30 (0, 17)

Dígito CES, CEO, MZ, AH CES, CEO, MZ, AH, AB CES, CEO, MZ, AH, AB, AM CES, CEO, MZ, AH, AB, AM,

IAZ 0 1, 32 (0, 23) 1, 44 (0, 24) 1, 40 (0, 23) 1, 29 (0, 22) 1 1, 89 (0, 25) 2, 20 (0, 27) 2, 09 (0, 26) 2, 13 (0, 27) 2 3, 41 (0, 35) 3, 68 (0, 36) 3, 37 (0, 35) 3, 45 (0, 35) 3 3, 13 (0, 34) 3, 41 (0, 35) 3, 07 (0, 34) 3, 10 (0, 34) 4 4, 45 (0, 41) 3, 31 (0, 35) 3, 14 (0, 34) 3, 08 (0, 34) 5 7, 68 (0, 55) 10, 71 (0, 64) 5, 00 (0, 45) 4, 83 (0, 45) 6 5, 33 (0, 45) 6, 53 (0, 49) 5, 54 (0, 46) 2, 72 (0, 33) 7 5, 32 (0, 43) 7, 46 (0, 51) 7, 71 (0, 52) 11, 61 (0, 62) 8 8, 03 (0, 54) 12, 74 (0, 66) 8, 74 (0, 56) 11, 42 (0, 63) 9 8, 59 (0, 55) 11, 44 (0, 62) 10, 93 (0, 61) 13, 33 (0, 66) Todos 4, 84 (0, 13) 6, 18 (0, 15) 5, 06 (0, 14) 5, 68 (0, 14)

Capítulo 6. RECONHECIMENTO DE CARACTERES 65

Tabela 5 – Matriz de confusão com valores proporcionais dos acertos e erros por classe. Resultado extraído de um teste com os descritores CES, CEO, MZ, AH, AB e AM. As colunas correspondem ao verdadeiro dígito da imagem enquanto as linhas são relativas às classificações escolhidas pelo classificador. Por exemplo, 98, 3% das vezes o dígito 0 foi corretamente classificado. 0, 3% das vezes foi erroneamente confundido com o dígito 2, 0, 1% com 5, e assim por diante.

0 1 2 3 4 5 6 7 8 9 0 0,983 0,001 0,000 0,000 0,000 0,004 0,006 0,001 0,006 0,001 1 0,000 0,979 0,004 0,000 0,002 0,000 0,003 0,004 0,006 0,001 2 0,003 0,005 0,974 0,006 0,000 0,002 0,001 0,015 0,013 0,006 3 0,000 0,000 0,002 0,966 0,000 0,015 0,001 0,003 0,010 0,009 4 0,000 0,000 0,001 0,000 0,974 0,000 0,002 0,004 0,002 0,014 5 0,001 0,000 0,001 0,011 0,000 0,952 0,005 0,004 0,009 0,007 6 0,007 0,002 0,002 0,001 0,005 0,006 0,942 0,004 0,012 0,003 7 0,001 0,002 0,003 0,006 0,002 0,000 0,001 0,914 0,004 0,046 8 0,004 0,010 0,010 0,005 0,005 0,016 0,027 0,005 0,915 0,027 9 0,001 0,001 0,003 0,005 0,012 0,006 0,012 0,046 0,023 0,886

7 CONCLUSÃO E TRABALHOS FUTUROS

Nesta dissertação, foi apresentada a Codificação de Vizinhança, uma forma de represen- tar imagens binárias introduzida por (TSANG; TSANG; DYCK, 1999). Diferente da versão original, cujos códigos gerados tinham 4 funções que correspondem às direções norte, sul, leste e oeste, essa abordagem trabalha com a versão completa do Código de Vizinhança, que possui 8 funções, introduzida por (CARVALHO et al., 2010).

Foram propostas melhorias em algumas aplicações, como compressão para armazena- mento e operadores morfológicos. As taxas de compressão alcançadas superam as obtidas por (CARVALHO et al., 2010). A versão implementada ainda não alcança o estado da arte JBIG2, porém, ainda há espaço para melhorias. A compressão realizada é do tipo sem perdas e implementar a versão com perdas é uma opção para trabalhos futuros.

Os operadores morfológicos apresentados superam as limitações das funções apontadas por (CARVALHO et al., 2012). Apesar de terem sido apresentados apenas alguns operadores,

outros podem ser implementados derivando dos mais básicos. Exemplo de operadores que podem ser implementados, baseados nos que já foram apresentados: preenchimento de regiões, extração de componentes conectados, casco convexo e espessamento.

Foi sugerida uma série de descritores para reconhecimento de caracteres manuscritos baseados nos Códigos de Vizinhança. Algumas configurações montadas alcançam o índice de reconhecimento obtido em (TSANG; TSANG; DYCK, 1999). Vale salientar que no presente trabalho a base MNIST usada é uma versão atualizada e ampliada daquela praticada em (TSANG; TSANG; DYCK, 1999). De qualquer forma, novos descritores podem ser projetados visando melhorar as taxas obtidas. Além do reconhecimento de caracteres manuscritos, outros sistemas de reconhecimento podem ser desenvolvidos usando apenas os Códigos de Vizinhança.

Atualmente, o Código de Vizinhança é exclusivo para imagens binárias. Um dos pos- síveis trabalhos futuros é a adaptação do código para trabalhar com imagens em tons de cinza. Dado a natureza do código, este será um desafio.

REFERÊNCIAS

BARNHURST, K. G.; NERONE, J. The form of news. A history, 2001.

BARNI, M. Document And Image Compression. 1st. ed. [S.l.]: CRC Press, 2006.

CARVALHO, T. B. A. de; TENóRIO, D. J.; REN, T. I.; CAVALCANTI, G. D. C.; JYH, T. I. Neighborhood coding for bilevel image compression and shape recognition.

ICASSP, 2010.

CARVALHO, T. de; SIBALDO, M.; TENORIO, D.; TSANG, I.; CAVALCANTI, G.; TSANG, I. Neighborhood coding for image representation and neighborhood operations. In: Systems, Man, and Cybernetics (SMC), 2012 IEEE International Conference on. [S.l.: s.n.], 2012. p. 2345–2349.

CIRESAN, D. C.; MEIER, U.; GAMBARDELLA, L. M.; SCHMIDHUBER, J. Deep big simple neural nets excel on handwritten digit recognition. CoRR, abs/1003.0358, 2010. Disponível em: <http://arxiv.org/abs/1003.0358>.

CIRESAN, D. C.; MEIER, U.; SCHMIDHUBER, J. Multi-column deep neural networks for image classification. CoRR, abs/1202.2745, 2012. Disponível em: <http://arxiv.org/abs/1202.2745>.

COX, T. F.; COX, M. A. A. Multidimensional scaling. 2nd. ed. [S.l.]: Chapman and Hall/CRC, 2000.

CRUZA, R. M. O.; CAVALCANTI, G. D. C.; TSANG, I. R.; SABOURIN, R. Feature representation selection based on classifier projection space and oracle analysis. Expert

Systems with Applications, v. 40, p. 3813–3827, 2013.

FILHO, O. M.; NETO, H. V. Processamento Digital de Imagens. 1st. ed. Rio de Janeiro: Brasport, 1999.

GIACINTO, G.; ROLI, F. Design of effetive neural network ensembles for image classification purposes. Image and Vision Computing, v. 19, p. 699–707, 2001.

GONZALEZ, R. C.; WOODS, R. E. Digital Image Processing. 3rd. ed. [S.l.]: Prentice Hall, 2012.

HERK, M. van. A fast algorithm for local minimum and maximum filters on rectangular and octagonal kernels. Pattern Recognition Letters, v. 13, p. 517–521, 1992.

HUFFMAN, D. A. A method for the construction of minimum-redundancy codes.

Proceeding of the IRE, v. 40, p. 1098–1101, 1952.

IMAGEMAGICK. 2015. Http://www.imagemagick.org/.

IMPEDOVO, S.; LUCCHESE, M. G.; PIRLO, G. Optimal zoning design by genetic algorithms. IEEE Transactions on Systems, Man, and Cybernetics, Part A, v. 36, p. 833–846, 2006.

JäHNE, B. Digital Image Processing. Upper Saddle River, NJ, USA: Springer, 2005. ISBN 0-13-336165-9.

REFERÊNCIAS 68

KAVANLLIERATOU, E.; SGARBAS, K.; FAKOTAKIS, N.; KOKKINAKIS, G. Handwritten word recognition based on structureal characteristics. In International

conference on document analysis and recognition, p. 562–567, 2003.

LECUN, Y.; CORTES, C.; BURGES, C. J. C. The MNIST database of handwritten

digits. 2018. Http://yann.lecun.com/exdb/mnist/.

MALTONI D. MAIO, A. J. S. P. D. FVC2000 database for Fingerprint Verification

Competition. 2009. Http://bias.csr.unibo.it/fvc2000/download.asp.

MARCHAND-MAILLET, S.; SHARAIHA, Y. M. Binary Digital Image Processing: A

Discrete Approach. Orlando, FL, USA: Academic Press, Inc., 2000. ISBN 0-12-470505-7.

MATHERON, G. Random Sets and Integral Geometry. New York: John Wiley & Sons Inc, 1975.

PRASAD, N.; SINGH, R.; LAL, S. P. Comparison of back propagation and resilient propagation algorithm for spam classification. In: 2013 Fifth International Conference

on Computational Intelligence, Modelling and Simulation. [S.l.: s.n.], 2013. p. 29–34.

ISSN 2166-8523.

RICHARD, R. MPEG-7 Core Experiment CE-Shape-1 Test Set. 2015. Http://www.dabi.temple.edu/ shape/MPEG7/dataset.html.

SERRA, J. Image Analysis and Mathematical Morphology. Orlando, FL, USA: Academic Press, Inc., 1983. ISBN 0126372403.

SERRA, J. Introduction to mathematical morphology. Comput. Vision Graph. Image

Process., Academic Press Professional, Inc., San Diego, CA, USA, v. 35, n. 3, p. 283–305,

set. 1986. ISSN 0734-189X. Disponível em: <http://dx.doi.org/10.1016/0734-189X(86) 90002-2>.

SERRA, J. Image analysis and mathematical morphology: Theoretical advances. Academic Press, 1988. (Image Analysis and Mathematical Morphology). ISBN 9780126372410. Disponível em: <https://books.google.com.br/books?id=BpdTAAAAYAAJ>.

STERNBERG, S. R. Grayscale morphology. Comput. Vision Graph. Image Process., Academic Press Professional, Inc., San Diego, CA, USA, v. 35, n. 3, p. 333–355, set. 1986. ISSN 0734-189X. Disponível em: <http://dx.doi.org/10.1016/0734-189X(86)90004-6>.

SUCHENWIRTH, R. Binary image compression challenge. 2008. Http://wiki.tcl.tk/12314.

TSANG, I. J.; TSANG, I. R.; DYCK, D. V. Image coding using neighbourhood relations.

Pattern Recognition Letters, v. 20, p. 1279–1286, 1999.

TSANG, I. R.; TSANG, I. J. Image analysis and recognition: Third international conference, iciar 2006, póvoa de varzim, portugal, september 18-20, 2006, proceedings, part i. In: . Berlin, Heidelberg: Springer Berlin Heidelberg, 2006. cap. Pattern Recognition Using Neighborhood Coding, p. 600–611. ISBN 978-3-540-44893-8. Disponível em: <http://dx.doi.org/10.1007/11867586_56>.

TSANG, I. R.; TSANG, I. J. Neighbourhood vector as shape parameter for pattern recognition. IJCNN, p. 3204–3209, 2006.

REFERÊNCIAS 69

WITTEN, I. H.; CLEARY, J. G. Arithmetic coding for data compression.

No documento Códigos de vizinhança para representação de imagens binárias e suas aplicações (páginas 62-70)