Restauração digital de imagens coloridas de documentos históricos

(1)

“Restauração Digital de Imagens Coloridas de Documentos Históricos”

Por

Edward Roe

Tese de Doutorado

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

(2)

CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Edward Roe

“RESTAURAÇÃO DIGITAL DE IMAGENS COLORIDAS DE DOCUMENTOS HISTÓRICOS"

ORIENTADOR: Prof.Carlos Alexandre Barros de Mello

RECIFE, 2015

Este trabalho foi apresentado à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Doutor em Ciência da Computação.

(3)

Catalogação na fonte

Bibliotecária Jane Souto Maior, CRB4-571

R698r Roe, Edward

Restauração digital de imagens coloridas de documentos históricos / Edward Roe. – Recife: O Autor, 2015.

162 f.: il., fig., tab.

Orientador: Carlos Alexandre Barros de Mello.

Tese (Doutorado) – Universidade Federal de Pernambuco. CIn, Ciência da computação, 2015.

Inclui referências e apêndice.

1. Processamento de imagens. 2. Processamento de

documentos. I. Mello, Carlos Alexandre Barros de (orientador). II. Título.

(4)

título “Restauração Digital de Imagens Coloridas de Documentos Históricos” orientada pelo Prof. Carlos Alexandre Barros de Mello e aprovada pela Banca Examinadora formada pelos professores:

______________________________________________ Profa. Judith Kelner

Centro de Informática/UFPE

______________________________________________ Prof. Silvio de Barros Melo

Centro de Informática / UFPE

_______________________________________________ Profa. Veronica Teichrieb

Centro de Informática / UFPE

_______________________________________________ Prof. Marcelo Walter

Instituto de Informática /UFRGS

_______________________________________________ Prof. Pedro Puntoni

Departamento de História/ USP

Visto e permitida a impressão. Recife, 27 de fevereiro de 2015.

___________________________________________________

Profa. Edna Natividade da Silva Barros

Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

AGRADECIMENTOS

Ao concluir esse trabalho, gostaria de demonstrar meu reconhecimento e gratidão, agradecendo a pessoas que contribuíram de alguma forma para que isso se tornasse possível.

À Minha família, particularmente meus pais, Auta Colatrello e Joseph Edward e minha esposa Clara, pelo amor, incentivo e apoio.

Ao meu orientador, Prof. Carlos Alexandre, pela condução, conselhos e paciência durante todo o doutorado.

Aos Professores que compuseram a banca examinadora: Pedro Puntoni (USP), Veronica Teichrieb (UFPE), Judith Kelner (UFPE), Marcelo Walter (UFRGS) e Silvio Melo (UFPE), com agradecimento especial aos três últimos que também compuseram a banca de defesa de proposta.

Ao programa de Pós-Graduação do Centro de Informática da Universidade de Federal de Pernambuco, pela oportunidade de desenvolver esta Tese.

Aos meus amigos, colegas de trabalho e ao CESAR, Centro de Estusdos e Sistemas Avançados do Recife, pelo apoio.

(6)

RESUMO

Esta Tese apresenta três novos algoritmos para restauração digital de imagens coloridas de documentos antigos, colaborando com soluções econômicas para preservação digital, proporcionando maior democratização e facilidade no acesso aos documentos em museus, bibliotecas e acervos em geral e abrindo possibilidades no uso das imagens em e-books, além de alcançar economia no processo de impressão. Para cada algoritmo, novas técnicas foram desenvolvidas como uma equalização local que elimina artefatos causados pela degradação do papel; um novo filtro bilateral, que reduz ruídos preservando bordas e a criação de critérios para definir qualidade visual em imagens de documentos contendo elementos gráficos. Dos algoritmos propostos, dois têm como finalidade obter uma versão binarizada da imagem e o terceiro visa a restauração digital de cartões postais antigos. Nos três casos, o documento pode apresentar diversos tipos de degradações causadas pela ação do tempo. O primeiro é um novo algoritmo de binarização voltado para imagens de documentos históricos que podem apresentar níveis acentuados de degradações. O método proposto faz uso da equalização local da imagem e uma extensão da diferença entre Gaussianas, o XDoG. A binarização é alcançada através de três passos: remoção de artefatos causados pela ação do tempo, através da equalização local e binarização, com o algoritmo de Otsu. O segundo combina equalização global e o operador de detecção de bordas, XDoG, para a binarização do texto. O passo final combina os resultados dos dois passos anteriores, efetuando em seguida a remoção de artefatos remanescentes. O segundo algoritmo foi desenvolvido para binarização de imagens de documentos históricos contendo, além de texto, elementos gráficos. Os objetivos deste método são: aperfeiçoar o processo de binarização, de forma que a qualidade visual dos elementos gráficos seja mantida e proporcionar economia de tinta no processo de impressão em preto e branco. O método utiliza um filtro bilateral para remover ruídos, preservando as bordas e a equalização local para remover degradações causadas pelo tempo e problemas de iluminação. O terceiro algoritmo propõe uma forma automática para restauração digital de imagens de cartões postais coloridos antigos, empregando técnicas combinadas de equalização de imagem, segmentação do fundo, realce das cores e remoção de manchas. Para realçar as cores, a degradação geral do documento é considerada como um problema de iluminação, permitindo a aplicação de algoritmos de constância de cores.

Palavas-chave: Processamento de Imagens Coloridas. Realce de Cores. Constância de Cores.

(7)

ABSTRACT

This Thesis presents three new algorithms for digital restoration of color images of old documents, collaborating with economical solutions for digital preservation and for greater democracy and ease of access to documents in museums, libraries and archives in general, opening possibilities for the use of images in e-books, also achieving economy in the printing process. For each of the algorithms, new techniques were developed as a local equalization, which eliminates images artifacts caused by the paper degradation, a new bilateral filter, that reduces noise while preserving edges and the creation of criteria for defining visual quality of document images containing graphic elements. Two of these methods convert the image to bi-level, while the third aims a color restoration of old postcards. In all three cases, the document may have various types of degradation caused by time. The first thresholding algorithm is suitable for color images of degraded historical documents. The proposed method makes use of local image equalization and an extension to the standard difference of Gaussians, the XDoG. The binarization is achieved after three main steps: the first step removes undesirable degradation artifacts using a local image equalization and Otsu binarization algorithm. The second step uses global image equalization and XDoG edge detection operator to binarize the text. The final step combines the two images generated by the previous steps, performing a cleanup to remove remaining degradations artifacts and fix possible missing text or area, to produce the final result. The second algorithm proposes a new binarization method for color images of historical document containing graphical elements. The objectives of this method are: to improve the binarization process, such that the visual quality of the drawings is not lost in the final bi-level image; to provide economy of ink in the printing process. The proposal uses a new bilateral-like filter, to remove noise but preserving edges, and a local image equalization algorithm to enhance edges, remove aging degradations and illumination artifacts. The third algorithm proposes an automatic system for the restoration of digital images of vintage colored postcards, employing the combined techniques of image equalization, background segmentation based on edge detection (using an extension of the standard difference of Gaussians filter), color enhancement, and noisy spots removal. Equalization and background segmentation are used to make easier the background spot removal. To enhance colors, the overall document degradation is regarded as an illumination problem, thereby allowing the use of color constancy algorithms.

Keywords: Color Image Processing. Color Restoration. Color Constancy. Binarization. Image Restoration. Old Documents. Visual Quality.

(8)

LISTA DE FIGURAS

Figura 1. Principais etapas para um sistema automático para processamento de imagens de documentos. ... 23 Figura 2. (a) imagem original, (b) resultado da binarização pelo algoritmo de Bersen

(BERNSEN, 1986) e (c) resultado da binarização pelo algoritmo de Sauvola (SAUVOLA e PIETAKSINEN, 2000). ... 25 Figura 3. (a) imagem original, (b) conversão em tons de cinza pela média dos canais R, G e B,

(c) conversão considerando o canal B no sistema de cores HSB e (d) conversão através da Equação 1. ... 26 Figura 4. Exemplo de remoção de ruído através da aplicação de um filtro digital. (a) imagem

original e (b) resultado da aplicação do filtro da mediana. ... 27 Figura 5. Exemplos de inclinação em imagens de documentos. (a) a imagem toda está

inclinada e (b) o texto foi originalmente escrito com uma inclinação. ... 28 Figura 6. (a) Imagem original e (b) imagem segmentada (as diferentes cores indicam as

diferentes linhas de texto e as caixas envolvem as palavras extraídas). ... 29 Figura 7. (a) detalhe da imagem original, (b) e (c) exemplos de binarização onde os caracteres

'e' e 'n' não ficaram definidos e (d) outro exemplo mostrando boa definição dos caracteres 'e' e 'n'. ... 30 Figura 8. Exemplos de vizinhanças do pixel: (a) 4 vizinhos verticais e horizontais, (b) 4

vizinhos nas diagonais e (c) 8 vizinhos combinando (a) com (b). ... 31 Figura 9. Vizinhança maior composta por (a) 24 e por (b) 48 pixels. ... 31 Figura 10. Abordagens para tratar situações de borda da imagem a ser filtrada, em todas as

alternativas apresentadas, uma margem M, ao redor da imagem, é criada com espessura igual a (W-1)/2, onde W é a dimensão da janela de filtragem. (a) M é preenchida com uma cor única, (b) valores dos pixels da borda da imagem são repetidos em M, (c) pixels da imagem são refletidos em M e (d) pixels das bordas opostas são copiados em M. ... 32 Figura 11. Algumas situações de borda para uma janela 3×3, em vermelho, centrada no pixel

a ser filtrado Pi. (a) situação mais crítica onde Pi se situa em uma quina da imagem, (b) e

(c) situações onde um lado da janela de filtragem fica totalmente fora da imagem e (d) a janela de filtragem está totalmente dentro da imagem. ... 33 Figura 12. Exemplo de uma imagem I sendo filtrada utilizando uma janela H resultando em

uma nova imagem I´ (BURGER e BURGE, 2008). ... 34 Figura 13. Cálculo de mediana com uma janela 3×3. Os nove valores da janela são ordenados

e o novo valor, do pixel sendo filtrado, é o localizado na posição central, que no exemplo é o 3. ... 35 Figura 14. Exemplos de documentos apresentando manchas de foxing. ... 39 Figura 15. Imagens exibindo problemas de iluminação durante o processo de aquisição. A

linha superior contém imagens com sombras geradas enquanto a linha inferior contém exemplos de iluminação não uniforme. ... 39 Figura 16. Problemas em documentos causados pela cola de fitas adesivas aplicadas. ... 40 Figura 17. Exemplos de documentos exibindo interferência da tinta, presente no verso dos

documentos, que se tornou visível na frente desses documentos. ... 41 Figura 18. Enrugamentos e ondulações causadas pela umidade do ambiente e locais de

armazenamento. ... 42 Figura 19. Danos causados pelo manuseio inadequado dos documentos. Nas imagens, os

documentos foram dobrados. ... 43 Figura 20. Detalhes mostrando várias formas de problemas com o envelhecimento das cores

presentes (a) em fotografias, (b) mapas e (c) cartões postais. ... 43 Figura 21. Esquema do método proposto por Stanco et al. ... 44 Figura 22. Exemplos de curvas de mapeamento tonal. ... 47

(9)

Figura 23. Resultado da restauração. (a) detalhe mostrando uma mancha de foxing (b) imagem após a restauração e (c) imagem após aprimoramento do fundo. ... 48 Figura 24. Exemplo de página onde as cores do fundo foram restauradas. (a) imagem original

e (b) imagem após restauração. ... 48 Figura 25. Detalhe de página com degradações no fundo e interferência frente-verso. (a)

imagem original e (b) imagem após restauração. ... 49 Figura 26. Exemplo de página onde as cores do fundo foram restauradas. (a) imagem original

e (b) imagem após restauração. ... 49 Figura 27. Exemplo do de resultado do algoritmo de Otsu aplicado a uma imagem de

documento degradado: (a) imagem original e (b) resultado obtido... 51 Figura 28. Exemplo do de resultado do algoritmo de Niblack aplicado a uma imagem de

documento degradado: (a) imagem original e (b) resultado obtido... 52 Figura 29. (a) Imagem original de um documento com sinais de degradações e (b) a imagem

de contraste obtida utilizando o máximo e mínimo local. ... 52 Figura 30. Detecção de pixels de com alto contraste, da Figura 29(a), através do algoritmo de

Otsu (OTSU, 1978). ... 53 Figura 31. Exemplo do de resultado do algoritmo de Su, Lu e Tan (SU; LU; TAN, 2010)

aplicado a uma imagem de documento degradado: (a) imagem original e (b) resultado obtido. ... 54 Figura 32. Detalhes de resultados da binarização com diferentes valores de c, incrementado de

forma logarítmica. ... 56 Figura 33. Instabilidade da binarização medida variando o passo em c e normalizada pelo log

do passo. A forma da curva, e consequentemente o local do mínimo, depende muito pouco do passo escolhido. ... 57 Figura 34. Exemplo do de resultado do algoritmo de Howe aplicado a uma imagem de

documento degradado: (a) imagem original e (b) resultado obtido... 58 Figura 35. A vizinhança do pixel utilizada para extrair o contraste estrutural. ... 59 Figura 36. (a) imagem original e (b) imagem de contraste estrutural. ... 59 Figura 37. Exemplo do de resultado do algoritmo de Valizadeh e Kabir (VALIZADEH e

KABIR, 2012) aplicado a uma imagem de documento degradado: (a) imagem original e (b) resultado obtido. ... 61 Figura 38. (a) imagem original, (b) imagem de contraste de (a) e (c) sua versão binarizada, (d)

é a imagem de contraste normalizada e (e) sua versão binarizada. ... 62 Figura 39. (a) imagem original, (b) SC, (d) SCnorm, (f) SCcomb, (c), (e) e (g) são as respectivas

versões binarizadas pelo algoritmo de Otsu. ... 63 Figura 40. Reconstrução: (a) imagem original, (b) imagem forte, (c) imagem fraca e (d)

imagem reconstruída (resultado final). ... 64 Figura 41. Exemplo do de resultado do algoritmo de Arruda e Mello (ARRUDA e MELLO,

2014) aplicado a uma imagem de documento degradado: (a) imagem original e (b) resultado obtido. ... 65 Figura 42. Teste de acuidade de Snellen e o mínimo ângulo de resolução. ... 66 Figura 43. Exemplo do de resultado do algoritmo de Mesquita et al. (MESQUITA; MELLO;

ALMEIDA, 2014) aplicado a uma imagem de documento degradado. (a) imagem original e (b) resultado obtido. ... 68 Figura 44. Exemplo da aplicação do algoritmo gray world: (a) imagem original e (b) resultado

da aplicação do algoritmo. ... 70 Figura 45. Exemplo da aplicação do algoritmo white patch: (a) imagem original e (b)

resultado do algoritmo. ... 71 Figura 46. Fluxo do método de binarização de documentos antigos. ... 72

(10)

Figura 47. Exemplo do efeito da aplicação da equalização local sobre imagens de documentos degradados: (a) imagem original, (b) versão em tons de cinza da imagem original a fim de comparação e (c) resultado da equalização local aplicada à imagem original com N=3. ... 75 Figura 48. (a) Detalhe de uma imagem de documento degradado e (b) resultado da

equalização local, com N=3, exibindo como a mancha foi removida, mas ainda preservando o conteúdo. ... 75 Figura 49. Exemplos mostrando como a posição da janela Weq determina a formação de

bordas. As janelas verdes geram bordas enquanto as vermelhas não. A imagem original é a da esquerda e o resultado da equalização, na direita. O quadriculado não faz parte das imagens e servindo para melhor visualização de cada pixel. ... 76 Figura 50. Janela Weq com N maior gera bordas mais espessas. ... 76

Figura 51. Efeito do tamanho N, da janela utilizada na equalização local, sobre a espessura das bordas resultantes. O quadriculado não faz parte de imagem original, serve para representar os pixels da imagem. A parte inferior serve para ilustrar como áreas pretas, assim como as brancas, não sofrem alterações: (a) imagem original, (b) equalização local com N = 3, (c) equalização local com N = 5, (d) equalização local com N = 7, (e) equalização local com N = 9 e (f) equalização local com N = 11. ... 77 Figura 52. Efeito da dimensão N da janela e da espessura do traço (a) na geração de bordas

(b). ... 78 Figura 53. Exemplos de como a dimensão N da janela de varredura afeta a espessura das

bordas resultantes da aplicação da equalização local: (a) N = 3, (b) N = 5 e (c) N = 7. ... 78 Figura 54. Exemplo da aplicação da equalização local no tratamento de interferência de tinta

do verso. ... 79 Figura 55. Exemplos da aplicação da equalização na remoção de sombras geradas por

iluminação inadequada durante o processo de aquisição da imagem. ... 79 Figura 56. Exemplos da aplicação da equalização na remoção de artefatos causados pela ação

da cola de fitas adesivas aplicadas sobre o papel. ... 80 Figura 57. Comparação entre algoritmos de detecção de bordas com a equalização local. Para

melhor comparação com a equalização local, os resultados dos operadores foram complementados para melhor visualização: (a) imagem original, (b) equalização local com N = 5, (c) Canny (CANNY, 1986), (d) operador de Sobel (SOBEL, 1990), (e) diferença de Gaussianas (DoG) (MARR e HILDRETH, 1980) e (f) operador de Roberts (ROBERTS, 1965). ... 81 Figura 58. (a) imagem original de documento obtido com iluminação inadequada, (b)

resultado do algoritmo de Otsu aplicado diretamente à imagem (a), (c) resultado da equalização local aplicada em (a) e (d) resultado do algoritmo de Otsu aplicado em (c).82 Figura 59. (a) imagem original de documento com danos causados pela cola de fitas adesivas,

(b) resultado do algoritmo de Otsu aplicado diretamente à imagem (a), (c) resultado da equalização local aplicada em (a) e (d) resultado do algoritmo de Otsu aplicado em (c).83 Figura 60. (a) equalização global e (b) versão em tons de cinza da imagem original (Figura 59

(a)) a fim de comparação com a equalização global. ... 84 Figura 61. (a) Detalhe exibindo o resultado da aplicação do filtro XDoG, (b) resultado da

aplicação da Equação 62 no resultado BXDoG, (c) resultado limpo do Otsu (d) resultado do

passo F. ... 85 Figura 62. (a) resultado da equalização local - as setas vermelhas apontam para áreas vazadas

que deverm ser preenchidas no resultado final, (b) resultado após a aplicação do XDoG exibindo áreas não preenchidas, (c) resultado da combinação das imagens e (d) o resultado da binarização Otsu da imagem combinada... 86

(11)

Figura 63. Padrões utilizados, em preto, para remoção de imperfeições nos resultados da binarização. Cada quadrado corresponde a um pixel. ... 87 Figura 64. (a) tipos de imperfeições encontrada nos resultados e (b) após a eliminação dessas

imperfeições. ... 87 Figura 65. (a) imagem original, (b) resultado da equalização local - as setas vermelhas

apontam para áreas vazadas que deveriam estar preenchidas, (c) maior área branca contínua encontrada (exibida em laranja), (d) áreas vazadas não marcadas como fundo (exibidas em verde), (e) resultado da equalização global (f) resultado da combinação das imagens (d) e (e) onde as áreas verdes em (d) são preenchidas por pixels correspondentes de (e) e (g) aplicação de algoritmo de Otsu na imagem. ... 88 Figura 66. (a) imagem original, (b) resultado do passo F e (c) após o passo G. ... 88 Figura 67. Exemplo mostrando os resultados dos passos do método proposto: (a) Imagem

original, (b) equalização local, (c) primeira binarização Otsu, (d) limpeza da binarização Otsu, (e) equalização global, (f) XDoG aplicado, (g) combinação das imagens em (d) e (f), (h) limpeza, (i) combinação das imagens para preenchimento de lacunas deixadas pela equalização local e (j) resultado final. ... 89 Figura 68. Imagens de documentos utilizadas nos experimentos comparativos do projeto

ProHist. ... 90 Figura 69. Imagens de documentos utilizadas nos experimentos comparativos do DIBCO. ... 91 Figura 70. Outros exemplos de resultados do método proposto: linha superior com imagens

originais de documentos do projeto ProHist e, linha inferior, resultados da aplicação do método proposto. ... 93 Figura 71. Exemplo de documento que não apresenta bons resultados com o algoritmo

proposto. (a) imagem original e (b) resultado obtido. ... 94 Figura 72. Exemplos de documentos e cartões postais com elementos gráficos. ... 95 Figura 73. Fluxo do algoritmo para binarização de documentos com elementos gráficos. A

bifurcação assinalada com '*' indica escolha do usuário para valores de brilho e contraste. Os passos do algoritmo são os mesmos para qualquer um dos dois caminhos; apenas os resultados são diferentes. ... 95 Figura 74. (a) imagem original com cores desbotadas e aparência geral amarronzada e (b), o

resultado da aplicação do algoritmo gray world. ... 97 Figura 75. Exemplos do efeito do ajuste do brilho e contraste sobre a imagem original. (a) bri

= -2 e ctr = 0,95 e (b) bri = -45 e ctr = 1,2. ... 98 Figura 76. (topo) A imagem original tem seus ruídos realçados (abaixo) após a aplicação do

gray world. ... 98

Figura 77. (a) Representação de uma região de borda em uma imagem com ruído (o degrau mais alto representa uma região mais clara) e (b) o resultado da aplicação de um filtro bilateral sobre (a). ... 99 Figura 78. Detalhe de ruídos e manchas em uma imagem de um documento exibindo o efeito

de variar o valor da distância de referência entre cores Dc. (a) imagem original, (b) Dc = 5, (c) Dc = 10 e (d) Dc = 30. Note como as bordas do texto permanecem nítidas nas imagens (b) e (c), mas já perdem nitidez na imagem (d). Em todos os casos Niter = 5 e W

= 5. ... 101 Figura 79. Exemplo mostrando a diferença dos resultados variando o tamanho da janela W.

Em todos os exemplos Niter = 5 e Dc = 30 e nos resultados da coluna da direita o valor de

Dc foi reduzido pela metade. (a) Imagem original, (b) W = 1 sem decrementar Dc, (c) W

= 1 decrementando Dc, (d) W = 5 sem decrementar Dc, (e) W = 5 decrementando Dc, (f)

W = 10 sem decrementar Dc e (g) W = 10 decrementando Dc. ... 102

Figura 80. (a) imagem original, (b) com Dc inalterada a cada iteração (c) com Dc sendo reduzida à metade a cada iteração. Em (b) e (c) W = 5 e Dc = 20. ... 103

(12)

Figura 81. Comparação de resultados obtidos a partir da Figura 78(a) com Dc = 30, Niter = 5 e

W = 5. (a) Dc sem alterações e (b) Dc decrementado a cada iteração. ... 103

Figura 82. Comparação de resultados obtidos a partir da Figura 78 variando o tamanho W da janela. Ambas foram obtidas com Niter = 5 e Dc = 10, sendo Dc decrementada a cada

iteração. (a) W = 5 e (b) W = 15. ... 103 Figura 83. Exemplo da aplicação da equalização local: (a) imagem original e (b) após a

equalização. ... 104 Figura 84. Efeito do primeiro ajuste do brilho e contraste sobre a imagem com equalização

local: (a) bri =-2 e ctr = 0,95 e (b) bri = -45 e ctr = 1,2. ... 105 Figura 85. Efeito do segundo ajuste do brilho e contraste: (a) resultado da equalização local

(b) após o ajuste do brilho para -90 e contraste para 1,5. ... 105 Figura 86. Exemplo do efeito das variações do brilho e contraste em imagem contendo tanto

elementos gráficos como texto. (a) imagem original, (b) resultado da equalização local, (c) bri =-2 e ctr = 0,95 e (d) bri = -45 e ctr = 1,2. Tanto (c) quanto (d) tiveram os mesmos valores para o segundo ajuste para o brilho e contraste: bri =-90 e ctr = 1,5. . 106 Figura 87. Exemplo como baixos valores do brilho e contraste realçam bordas mesmo em

imagens de documentos degradados pela ação do tempo: (a) imagem original e (b) resultado com bri = -2 e ctr = 0,95. ... 106 Figura 88. Comparação entre algoritmos de detecção de bordas e o método proposto, todos

aplicados em uma imagem resultante do filtro bilateral proposto. Para melhor visualização para a comparação, os resultados dos operadores foram complementados: (a) imagem original após o filtro bilateral com Niter = 5 e Dc = 40 sendo decrementada, (b) resultado do método proposto com bri = -2, ctr = 0.95, (c) Canny (CANNY, 1986), (d) operador de Sobel (SOBEL, 1990), (e) diferença de Gaussianas (DoG) (GOMES e VELHO, 1994) e (f) operador de Roberts (ROBERTS, 1965). ... 107 Figura 89. Imagens de documentos utilizadas no teste com OCR. (a) IMG1 e (b) IMG2. .... 109 Figura 90. Resultados de 8 algoritmos de binarização: (a) imagem original, (b) em tons de

cinza, (c) Roe e Mello (ROE e MELLO, 2013), (d) Mesquita et al. (MESQUITA et al., 2015), (e) Howe (HOWE, 2013), (f) Arruda e Mello (ARRUDA e MELLO, 2014), (g) Valizadeh e Kabir (VALIZADEH e KABIR, 2012), (h) Otsu (OTSU, 1978), (i) Su, Lu e Tan (SU; LU; TAN, 2010), (j) Niblack (NIBLACK, 1986), (k) método proposto com bri = -15 e ctr = 1,15 e (l) método proposto com bri = -45 e ctr = 1,55. ... 111 Figura 91. Resultados de 8 algoritmos de binarização: (a) imagem original, (b) em tons de

cinza, (c) Roe e Mello (ROE e MELLO, 2013), (d) Mesquita et al. (MESQUITA et al., 2015), (e) Howe (HOWE, 2013), (f) Arruda e Mello (ARRUDA e MELLO, 2014), (g) Valizadeh e Kabir (VALIZADEH e KABIR, 2012), (h) Otsu (OTSU, 1978), (i) Su, Lu e Tan (SU; LU; TAN, 2010), (j) Niblack (NIBLACK, 1986), (k) o método proposto com

bri = -15 e ctr = 1,15 e (l) o método proposto com bri = -45 e ctr = 1,55. ... 112

Figura 92. Exemplos de cartões postais do século XIX utilizados. ... 114 Figura 93. Fluxo do método de restauração de imagens de cartões postais antigos. ... 115 Figura 94. Exemplo de aplicação da equalização local em uma imagem: (a) imagem em tons

de cinza e (b) resultado após a equalização local. ... 116 Figura 95. Exemplo mostrando a importância da equalização local antes da aplicação do filtro

XDoG para detecção de bordas: (a) filtro XDoG aplicado sem a equalização local, (b) filtro DoG aplicado após a equalização local. e (c) filtro XDoG aplicado após a equalização local. ... 117 Figura 96. Resultado da segmentação. ... 118 Figura 97. Texto na região do fundo é preservado após o processo de segmentação. (a)

(13)

branco e (b) Todos os pixels das regiões em branco, após a segmentação, são preservados. ... 118 Figura 98. Exemplo comparando a imagem original com a mesma imagem após o

preenchimento da região de fundo com a cor mais frequente. (a) Imagem original e (b) imagem com a região de fundo preenchida. ... 119 Figura 99. Diferentes tons de marrom, devido a processos de envelhecimento, em cartões

postais com a mesma idade. ... 121 Figura 100. Resultados da aplicação do white patch retinex exibindo como imagens com

diferentes colorações, devido ao processo de envelhecimento, podem resultar em diferentes cores onde a cor branca era a esperada (as margens dos cartões). (a) imagens originais e (b) imagens com suas cores restauradas. ... 121 Figura 101. Imagens mostrando como algoritmos resultam em cores diferentes para o

background. (a) imagem original, (b) white patch, (c) retinex implementado no ImageJ (ImageJ) e (d) algoritmo proposto. ... 122 Figura 102. Exemplos de mapas de regiões claras (lightMap) que servem como guia no

processo de remoção de manchas de foxing. ... 124 Figura 103. Resultado da busca por manchas. (a) Detalhe de um cartão postal exibindo

manchas e (b) manchas encontradas são exibidas em branco. ... 124 Figura 104. Exemplo de borda de tolerância adicionada à mancha de foxing detectada. (a)

Detalhe de uma mancha, (b) mapa de mancha sem tolerância, (c) com borda de tolerância e (d) com tolerância incorporada. ... 125 Figura 105. Exemplo do filtro híbrido da mediana 3×3. As medianas dos vizinhos das

diagonais (em azul) assim como dos vizinhos horizontais e verticais (em vermelho), incluindo o pixel atual (em verde), são calculadas separadamente. As duas medianas resultantes e o pixel atual são utilizados para se calcular a terceira mediana que será o novo valor para o pixel em questão. ... 126 Figura 106. HMF sendo aplicado à uma mancha (pixels em amarelo). O pixel corrente está

marcado em verde e seus vizinhos utilizados pelo HMF estão marcados em vermelho e azul. Os vizinhos marcados com um 'X' não são considerados porque pertencem à região da mancha ainda não filtrada. Pixels em cinza são os já filtrados e que podem ser utilizados pelo HMF. (a) primeiro pixel sendo filtrado (em verde) e os pixels não considerados como vizinhos marcados com um 'X' e (b) Mesma mancha que em (a) após alguns pixels serem filtrados (em cinza). ... 126 Figura 107. Artefatos introduzidos durante a filtragem. Estes artefatos podem ser evitados

considerando apenas vizinhos em áreas claras (b) como mostrado em (d). (a) mancha de

foxing, (b) mapa lightAreas, (c) artefatos introduzidos e (d) mancha de foxing reduzida.

... 127 Figura 108. Principais passos do algoritmo proposto para restauração digital de uma imagem

de um cartão postal antigo: (a) Equalização local, (b) Filtro XDoG, (c) Segmentação do fundo e (d) Fundo preenchido, (e) Realce de cores, (f) mapa de áreas claras, Detecção de manchas de foxing, (h) Resultado após aplicação do HMF. ... 128 Figura 109. Exemplo mostrando o resultado da aplicação do método proposto. (a) Imagem

original e (b) resultado do algoritmo aplicado à imagem original. ... 130 Figura 110. Aplicação do método proposto em outro tipo de imagem. O método proposto

pode ser utilizado como pré-processamento na binarização de imagens coloridas de documentos. (a) Detalhe de imagem de documento antigo com degradações por envelhecimento e (b) a mesma imagem após a aplicação do método proposto com ajustes de parâmetros. ... 132 Figura 111. Resultados preliminares do algoritmo de redução de cores, com as imagens

(14)

com 71.828 cores e (b) resultado da redução com 16 cores; (c) imagem original com 225.449 cores e (d) resultado com 32 cores; (e) imagem original com 155.774 cores e (d) resultado com 24 cores. ... 136 Figura 112. Resultados preliminares da combinação da equalização local com resultados do

algoritmo proposto na Seção 5.2. ... 137 Figura 113. Tela a aplicação na opção de binarização de documentos históricos. ... 147 Figura 114. Tela a aplicação na opção de binarização de documentos históricos com

elementos gráficos.Observe a possibilidade de entrada dos parâmetros pelo usuário. .. 147 Figura 115. Tela a aplicação na opção de restauração de cartões postais. ... 148 Figura 116. Detalhe mostrando a três formas possíveis de visualização nas opções de

binarização de documentos: (a) documento original, (b) resultado da binarização sobreposto à imagem original e (c) resultado da binarização. ... 148 Figura 117. Exemplos de resultados do método proposto: linha superior com imagens

originais de documentos do projeto ProHist e, linha inferior, resultados da aplicação do método proposto. ... 149 Figura 118. (coluna da esquerda) Imagens coloridas originais do H-DIBCO 2010 e do DIBCO

2011 e (coluna da direita) resultados do método proposto. ... 150 Figura 119. (coluna da esquerda) Imagens originais, coloridas e em tons de cinza do DIBCO

2013 e (coluna da direita) os resultados do método proposto. ... 151 Figura 120. Resultados variando o brilho e contraste: (a) imagem original, (b) resultado com

bri = -2 e ctr = 0,95 e (c) resultado com bri = -45 e ctr = 1,5. ... 152

Figura 121. Resultados com variação do brilho e contraste: (a) imagem original, (b) resultado com bri = -2 e ctr = 0,95 e (c) resultado com bri = -45 e ctr = 1,2. ... 153 Figura 122. Resultados variando o brilho e contraste: (a) imagem original, (b) resultado com

Figura 123. Resultados variando o brilho e contraste: (a) imagem original, (b) resultado com

Figura 124. Exemplo mostrando o resultado da aplicação do método proposto. (a) Imagem original e (b) Resultado do algoritmo aplicado à imagem original. ... 158 Figura 125. Exemplo mostrando o resultado da aplicação do método proposto. (a) Imagem

original e (b) Resultado do algoritmo aplicado à imagem original. ... 159 Figura 126. Exemplo mostrando o resultado da aplicação do método proposto. (a) Imagem

original e (b) Resultado do algoritmo aplicado à imagem original. ... 160 Figura 127. Resultados preliminares do algoritmo de redução de cores, com as imagens

originais na coluna da esquerda e os resultados na coluna da direita. (a) imagem original com 184.405 cores e (b) resultado da redução com 32 cores; (c) imagem original com 236.438 cores e (d) resultado com 32 cores; (e) imagem original com 237.309 cores, (f) resultado com 32 cores; (g) imagem original com 38.205 cores e (h) resultado com 32 cores. ... 161 Figura 128. Resultados preliminares da combinação da equalização local com resultados do

(15)

LISTA DE TABELAS

Tabela 1. Parâmetro utilizados no algoritmo de Stanco et al (STANCO, RAMPONI e

TENZE, 2004). 48

Tabela 2. Avaliação dos resultados do método proposto e outros 7 algoritmos de binarização utilizando medidas padrões de análise de binarização. 92 Tabela 3. Parâmetros para o algoritmo utilizados nos experimentos. 108 Tabela 4. Resultados da aplicação do OCR ABBYY FineReader 11 sobre a imagem IMG1 e

resultados de 7 algoritmos para comparação com o algoritmo proposto. 109 Tabela 5. Resultados da aplicação do OCR ABBYY FineReader 11 sobre a imagem IMG2 e

resultados de 7 algoritmos para comparação com o algoritmo proposto. 110 Tabela 6. Resultados comparando a consumo de tinta através do APFill (APFill). 110 Tabela 7. Parâmetros dos algoritmos e seus valores utilizados. 129 Tabela 8. Parâmetros do algoritmo e os valores adotados. 132

(16)

LISTA DE ABREVIATURAS E SIGLAS

CIE Comissão Internacional de Iluminação (Commission Internationale de l'Eclairage)

DIBCO Concurso de Binarização de Imagem de Documento (Document Image

Binarization Contest)

DPI Pixels por Polegada (Dots Per Inch)

HMF Filtro da Mediana Híbrido (Hybrid Median Filter) ITU International Telecommunications Union

JPEG Grupo Conjunto de Epecialistas em Fotografia (Joint Photographic Experts

Group)

MPM Misclassification Penalty Metrics

NRM Negative Rate Metric

OCR Reconhecimento Óptico de Caracteres (Optical Character Recognition) Pixel Elementos da Imagem (Picture Element)

PROHIST Projeto Processamento de Imagens de Documentos Históricos PSNR Razão Sinal-Ruído de Pico (Peak Signal-to-Noise Ratio) RF Filtro Racional (Rational Filter)

RGB Vermelho Verde Azul (Red Green Blue)

(17)

SUMÁRIO 1 Introdução ... 18 1.1 Problema e motivação ... 18 1.2 Objetivos ... 20 1.3 Contribuições da tese ... 21 1.4 Estrutura da tese ... 21 2 Conceitos básicos ... 22

2.1 Sistema de processamento automático de imagens de documentos ... 22

2.1.1 Digitalização ... 23

2.1.2 Binarização ... 24

2.1.3 Pré-processamento ... 26

2.1.4 Segmentação ... 28

2.1.5 Reconhecimento ... 30

2.2 Representação da imagem e vizinhança do pixel ... 30

2.3 Filtragem digital de imagens ... 33

2.4 Medidas de avaliação de algoritmos de binarização ... 35

3 Problemas comuns de degradação em documentos antigos ... 38

3.1 Manchas de foxing ... 38

3.2 Iluminação inadequada ... 39

3.3 Fitas adesivas e etiquetas ... 40

3.4 Interferência frente-verso ... 40

3.5 Ondulações e enrugamentos do papel ... 41

3.6 Manuseio e acondicionamento inadequado ... 42

4 3.7 Cores desbotadas ... 43

Estado da arte... 44

4.1 Correção de amarelamento e foxing em livros antigos ... 44

4.2 Binarização de documentos antigos ... 50

4.2.1 Algoritmo de binarização de otsu ... 50

4.2.2 Algoritmo de binarização de niblack ... 51

4.2.3 Algoritmo de binarização de su, lu e tan ... 52

4.2.4 Binarização de documentos com ajuste automático de parâmetros ... 54

4.2.5 Algoritmo de binarização de valizadeh e kabir ... 58

4.2.6 Binarização de imagens de documentos degradados baseada na combinação de imagens de contraste ... 61

4.2.7 Algoritmo de binarização baseado na percepção de objetos à distância ... 65

4.3 Restauração de cores ... 69

4.3.1 Gray world ... 69

4.3.2 White patch ... 70

4.3.3 Gray world com desvio padrão ponderado ... 71

5 Algoritmos propostos para binarização de imagens de documentos ... 72

5.1 Novo algoritmo para binarização de imagens coloridas de documentos antigos 72 5.1.1 Passo A - equalização local ... 73

5.1.2 Passo B - binarização com algoritmo de otsu ... 82

5.1.3 Passo C - equalização global da imagem... 83

5.1.4 Passo D - detecção de bordas utilizando diferença de gaussianas estendida . 84 5.1.5 Passo E - combinando os resultados dos passos b e d ... 85

5.1.6 Passo F - remoção de ruído da imagem gerada no passo e ... 85

(18)

5.1.8 Experimentos e resultados ... 90

5.1.9 Conclusões ... 93

5.2 Binarização de documentos gráficos com preservação da qualidade visual . 94 5.2.1 O algoritmo proposto ... 95

5.2.2 Restauração das cores ... 96

5.2.3 Filtragem bilateral ... 98

5.2.4 Equalização local e binarização ... 104

5.2.5 Experimentos e resultados ... 107

5.2.6 Conclusões ... 113

6 Restauração de imagens de cartões postais antigos ... 114

6.1 Método proposto ... 114

6.1.1 Segmentação do fundo ... 115

6.1.2 Recuperação de cores desbotadas ... 120

6.1.3 Detecção de manchas de foxing ... 123

6.1.4 Experimentos e resultados ... 129 6.1.5 Conclusões ... 131 7 Conclusão ... 132 7.1 Contribuições técnicas ... 133 7.2 Publicação de artigos ... 134 7.3 Trabalhos futuros ... 134 Referências ... 139

Apêndice A − Telas da aplicação ... 147

Apêndice B − Resultados obtidos pelo algoritmo da Seção 5.1 ... 149

Apêndice C − Resultados obtidos pelo algoritmo da Seção 5.2 ... 152

(19)

1 INTRODUÇÃO

1.1 PROBLEMA E MOTIVAÇÃO

O patrimônio formado por documentos, fotografias, livros, mapas, cartas, cartões postais e outros artefatos antigos, cujo meio de armazenamento é o papel, é enorme e inestimável. Guardados e mantidos durante séculos, em bibliotecas, museus e coleções particulares, nas mais diversas localidades, são parte importante da cultura e história de todos os povos do mundo. Por esse motivo, esforços consideráveis têm sido empregados ao longo dos anos para preservar esse tipo de patrimônio, particularmente pela fragilidade do papel, o qual é alvo de uma gama de fatores que podem danificá-lo, algumas vezes, de forma irreparável (como a umidade, reações químicas que ocorrem no papel ou nas tintas utilizadas, micro-organismos como fungos e bactérias além de insetos como traça, cupim e formiga).

Durante anos, o microfilme foi uma alternativa encontrada para permitir um maior acesso e preservar a informação presente nos documentos, livros e outros registros históricos (Do Microfilme à imagem digital, 1997). Apesar das vantagens e avanços do microfilme, sua utilização fica restrita à visualização, sem permitir uma forma prática de restauração do documento registrado ou de fácil divulgação ou cópia.

Os interesses no acesso a esses documentos são os mais diversos possíveis. Historiadores têm interesse natural em estudar o conteúdo dos documentos; geógrafos e cartógrafos têm interesse na descrição (seja por mapas ou por texto) das variações ocorridas nos terrenos e estruturas geográficas ao longo do tempo; cientistas da informação têm interesse em analisar o conteúdo memorial dos documentos; arquitetos podem ter interesse em observar características históricas de estruturas antigas através de plantas baixas; museólogos trabalham na preservação dos documentos físicos; sociólogos estudam as mudanças ocorridas na sociedade, descritas através de cartas e registros; editoras, muitas vezes, colocam em seus livros (didáticos, por exemplo) ilustrações e mapas antigos. Pensar em todas essas aplicações apenas com acesso a microfilmes ou documentos originais é inviável já que levaria, muitas vezes, à necessidade de acesso ao arquivo físico o que aumentaria seu grau de degradação.

Através da digitalização desse legado artístico, cultural e histórico, utilizando scanners ou câmeras digitais, e a aplicação de técnicas de processamento e análise de imagens, um enorme leque de possibilidades surgiu que permitem uma maior divulgação a fim de preservar esta herança para as gerações futuras. A aplicação de estratégias de preservação através de documentos digitais é uma prioridade, pois sem elas não existiria garantia de acesso,

(20)

confiabilidade e integridade dos documentos a longo prazo (ARELLANO, 2004). Entre as vantagens da restauração digital de documentos, podemos citar:

• O processo de restauração não é definitivo e o original sofre poucas alterações, apenas devido ao processo de aquisição da imagem, não da restauração propriamente dita; • O processo pode, em alguns casos, ser automatizado, permitindo um grande número

de restaurações serem realizadas com economia de tempo, espaço físico e pessoal especializado;

• O custo financeiro de restaurações virtuais é menor que o de restaurações físicas; • Documentos binarizados geram arquivos menores gerando economia de espaço em

armazenamento assim como são transmitidos com maior velocidade;

• Novas técnicas podem ser testadas e ajustadas imediatamente e de forma paralela entre vários grupos e institutos de pesquisa.

Outra utilidade prática da restauração digital é a possibilidade da aplicação das imagens a ferramentas de reconhecimento óptico de caracteres (Optical Character Recognition - OCR) (PAVLIDIS e MORI, 1992) (MELLO; OLIVEIRA; DOS SANTOS, 2012) que, de outra forma, poderiam ter desempenho insatisfatório devido à baixa qualidade da imagem do documento, como exemplificado no próximo capítulo.

Apesar dos avanços na área de restauração digital, não se chegou a resultados ótimos, principalmente quando as condições do documento estão bastante prejudicadas pela ação do tempo, dificultando e às vezes impossibilitando uma restauração e ou obtenção de informações presentes no documento.

Outra característica que tem recebido menor atenção diz respeito a elementos gráficos presentes em muitos desses documentos, como desenhos e gravuras em cartões postais, selos, ideogramas e logomarcas. As soluções encontradas até o momento, para binarização de documentos com a presença de elementos gráficos, não apresentaram resultados satisfatórios e, algumas vezes, quase eliminam a possibilidade de visualização desses elementos nos resultados gerados.

Juntando-se ao problema da restauração de elementos gráficos e de documentos com alto grau de degradação, tem os documentos coloridos, onde a recuperação das cores ainda é uma área com poucas soluções apresentadas. Nesse caso, a restauração pode trazer de volta uma aparência mais próxima da original, além de eliminar, ou reduzir de forma considerável, elementos de degradação do tempo como manchas, sem comprometer o aspecto visual do documento.

(21)

Alterações em imagens podem eventualmente, almejar um efeito contrário ao da restauração, como, por exemplo, simular o envelhecimento causado pela ação do tempo (BANDEIRA e WALTER, 2010). No entanto, a modelagem do envelhecimento de documentos não é o foco deste trabalho.

1.2 OBJETIVOS

O objetivo desta Tese de Doutorado é a definição e implementação de uma aplicação para restauração digital de imagens de diversos tipos de documentos antigos que podem apresentar os problemas mais comuns de degradação devido à ação do tempo. A aplicação deverá ser capaz de receber como entrada imagens de documentos com texto manuscrito ou impresso, com ou sem gravuras e coloridas ou não. Os problemas a serem abordados são:

• manchas de foxing;

• manchas causadas por cola de fita adesiva; • interferência da tinta do verso do papel;

• problemas de iluminação inadequada durante o processo de aquisição; • ondulações e enrugamentos do papel;

• problemas causados por manuseio indevido; • degradação de cores.

Temos então como objetivos específicos:

• Propor uma nova forma de minimizar problemas causados por diversas formas de degradações presentes em documentos antigos, mas preservando elementos como texto, desenhos e gravuras;

• Propor novas formas de binarização de documentos, preservando seu conteúdo seja textual ou gráfico;

• Propor uma nova abordagem ao problema de binarização, visando não só o reconhecimento do texto, mas também a preservação da qualidade visual de ilustrações;

• Em consonância com o objetivo anterior, propomos conceituar o que se caracteriza como a qualidade visual de um documento;

(22)

• Propor soluções de restauração para documentos pouco abordados na literatura, mas de grande importância para a preservação da história;

• Propor melhorias nos métodos atuais de correção de cor de forma que possam ser automatizados e aplicados ao problema de documentos antigos (especificamente, cartões postais).

1.3 CONTRIBUIÇÕES DA TESE

Como contribuições, três algoritmos foram propostos: dois para binarização de imagens coloridas de documentos históricos com acentuado nível de degradações, onde um deles abrangendo também elementos gráficos, como gravuras, presentes no documento, garantindo economia no processo de impressão e com possibilidades de uso em e-books. Um terceiro algoritmo foi proposto para a restauração digital de cartões postais coloridos. No desenvolvimento dos algoritmos foram propostos também um novo filtro bilateral, uma forma de remover problemas de degradação presentes no documento e uma técnica de realce das cores recuperando o branco original. Além das novas técnicas, artigos científicos foram publicados. O trabalho também colabora com soluções econômicas para preservação digital e para uma maior democratização e facilidade no acesso aos documentos em museus, bibliotecas etc. Mais detalhes sobre as contribuições desta Tese estão nos Capítulos 5 e 6.

1.4 ESTRUTURA DA TESE

Nos próximos capítulos, são detalhados os aspectos de importância para a Tese, os problemas atacados e os métodos propostos para a solução desses problemas. No Capítulo 2, são apresentados conceitos básicos sobre processamento de imagens relevantes para melhor entendimento das técnicas apresentadas assim como as medidas utilizadas nas avaliações dos métodos propostos. O Capítulo 3 apresenta os problemas mais comuns que surgem em documentos antigos e que serão atacados nessa Tese. No Capítulo 4, o estado da arte, relativo às técnicas importantes que compõem a restauração digital de documentos é apresentado. No Capítulo 5 os métodos propostos para binarização de documentos históricos e binarização de documentos com a presença de elementos gráficos, são detalhados e seus resultados apresentados. O Capítulo 6 apresenta um método proposto para a restauração de antigos cartões postais coloridos. O Capítulo 7 finaliza com as conclusões, seguido das referências bibliográficas e apêndices onde mais resultados obtidos são apresentados.

(23)

2 CONCEITOS BÁSICOS

Neste capítulo, conceitos básicos são apresentados. A ideia é fornecer informações necessárias para o entendimento dos próximos capítulos desta Tese.

2.1 SISTEMA DE PROCESSAMENTO AUTOMÁTICO DE IMAGENS DE DOCUMENTOS

Esta seção apresenta uma visão geral de um sistema usual de processamento automático de imagens de documentos e, por ser o foco deste trabalho, destaca a importância da restauração digital dessas imagens, particularmente da binarização. Notadamente, nem todo sistema segue os passos apresentados aqui, dependendo do tipo de imagem e da aplicação.

Um sistema usual para processamento automático de imagens digitais de documentos possui várias etapas e, em geral, o objetivo final é o reconhecimento dos caracteres (PARKER, 2011) que possibilita a conversão de uma imagem de documento em um arquivo de texto editável. Esta conversão, em formato textual, torna possível operações comuns aos arquivos dessa natureza, como buscas por palavras chave, por exemplo. Tais operações não seriam tarefas triviais no formato de uma imagem além de, em muitos casos, o conteúdo do texto ser mais importante que a apreciação visual. Outra vantagem do formato textual é a redução considerável no tamanho dos arquivos para armazenamento.

Como dito anteriormente, um sistema automático para processamento de documentos não é trivial e requer várias etapas, sendo as principais listadas a seguir:

• digitalização • binarização;

• pré-processamento; • segmentação; • reconhecimento.

(24)

Figura 1. Principais etapas para um sistema automático para processamento de imagens de documentos.

Fonte: imagem confeccionada pelo autor.

2.1.1 Digitalização

A captura da imagem digital é feita por dispositivos de leitura de dados analógicos que a transforma em dados digitais. Os dispositivos mais conhecidos e utilizados para a digitalização são os scanners e as câmeras digitais.

O funcionamento de um scanner é semelhante ao da fotocopiadora de mesa: o documento a ser digitalizado fica sobre uma superfície de vidro enquanto é varrido por uma luz, que é então refletida em uma superfície fotossensível, composta por milhares de células fotodetectoras, denominada dispositivo de carga acoplada (CCD de Charge-coupled Device). A resolução do scanner é medida em pontos por polegadas (dpi - dots per inch), onde cada ponto se correlaciona com um foto-sensor do CCD. Quanto maior a quantidade de pontos, maior a exatidão da imagem digitalizada e maior o tamanho do arquivo digital a ser armazenado (em termos de dimensões e de espaço de armazenamento).

Nem sempre um scanner é indicado para a digitalização de documentos antigos, pois a luz incidente, durante o processo de digitalização, pode contribuir para aumentar a degradação do papel e/ou pigmentos presentes no documento. Outro problema com scanners aparece durante a digitalização de livros, que precisam ser posicionados abertos sobre mesas podendo comprometer a sua estrutura.

As câmeras digitais, como os scanners, possuem sensores CCD que atuam como um filme fotográfico, porém com uma resolução bastante acima das máquinas fotográficas tradicionais (analógicas) e são uma alternativa ao uso dos scanners, embora também apresentem outras particularidades que devem ser consideradas (como distância ao documento, distorções de lente, possibilidade de iluminação não uniforme etc.).

(25)

A digitalização de documentos, que é a obtenção de um arquivo digital que representa o documento, apresenta uma série de vantagens relacionadas à possibilidade de aplicação de técnicas de processamento de imagens, que permitem uma manipulação indireta do documento ajudando inclusive na preservação deste, já que possibilita minimizar manuseios desnecessários no documento físico. As imagens digitalizadas são armazenadas em dispositivos computacionais através de componentes específicos, como fitas magnéticas, discos rígidos, discos ópticos e cartões de memória.

2.1.2 Binarização

Binarização é o processo pelo qual uma imagem, colorida ou em tons de cinza, é convertida para apenas dois tons, geralmente, preto e branco (MELLO; OLIVEIRA; DOS SANTOS, 2012). Na sua forma mais simples, um valor de limiar, th, determina quais tons são convertidos para branco (tons com valores maiores que th) e quais são convertidos para preto (tons com valores iguais ou menores que th). Em imagens de documentos, o ideal é que toda tinta seja convertida para preto e o papel para branco. Esta forma mais simples, contudo, funciona bem apenas em casos ideais, quando a separação entre papel e tinta é bastante nítida. Essa raramente é a situação de documentos históricos, que apresentam uma série de problemas como a presença de manchas e ruídos, problemas de iluminação durante a digitalização, presença de fitas adesivas e interferência do conteúdo do verso do papel, etc. (como é detalhado no Capítulo 3 desta Tese). A binarização é uma etapa crítica, que pode comprometer todo o processo e, mesmo algoritmos mais recentes, alguns até específicos para documentos históricos, não obtêm resultados satisfatórios quando os documentos estão degradados pela ação do tempo. A Figura 2(a) exibe a imagem de um documento escurecido pela ação do tempo, diminuindo a distinção entre fundo e texto, além de ter manchas causadas por fitas adesivas aplicadas sobre o documento. A Figura 2(b) exibe o resultado da binarização através de um algoritmo universal (BERNSEN, 1986) onde partes que não deveriam ser consideradas como tinta (no caso, as manchas causadas pelas fitas adesivas) foram convertidas para preto. A Figura 2(c) mostra o resultado da binarização através de outro algoritmo (SAUVOLA e PIETAKSINEN, 2000) que obteve um melhor resultado em relação às manchas das fitas, mas por outro lado, parte do texto foi erroneamente considerada como papel e convertido para branco. Pelos resultados exibidos na Figura 2, é possível observar como a etapa de binarização é crucial para o sucesso do processo como um todo. Vale ressaltar que, apesar da binarização ser um problema bastante explorado, ele ainda é muito

(26)

pesquisado, principalmente, no domínio de documentos. Isso pode ser constatado através da competição DIBCO (Document Image Binarization COntest) (DIBCO 2009, 2009)(DIBCO 2011, 2011)(DIBCO 2013, 2013), ou sua versão para documentos manuscritos H-DIBCO, que ocorre anualmente ligada às principais conferências da área (H-DIBCO 2010, 2010)(H-DIBCO 2014, 2014).

Figura 2. (a) imagem original, (b) resultado da binarização pelo algoritmo de Bersen (BERNSEN, 1986) e (c) resultado da binarização pelo algoritmo de Sauvola (SAUVOLA e PIETAKSINEN, 2000).

(a) (b) (c)

Fonte: imagem do autor.

Uma característica importante e comum à grande maioria dos métodos de binarização é que eles operam apenas sobre imagens em tons de cinza, sendo então necessário, por parte do usuário (ou do próprio algoritmo), uma conversão prévia caso a imagem do documento seja colorida como a Figura 3(a). Um problema que surge é a escolha da melhor forma de conversão de imagens coloridas para imagens em tons de cinza. A Figura 3 exibe como diferentes métodos para converter uma imagem colorida em tons de cinza obtêm resultados diferentes e que podem influenciar no resultado final da binarização.

A Figura 3(b) foi obtida fazendo uma média direta dos canais R (red - vermelho), G (green - verde) e B (blue - azul) (FOLEY et al., 1995) da imagem original (Figura 3(a)), a Figura 3(c) foi obtida considerando o canal B (não confundir com o blue), que representa o canal de brilho (sem informações cromáticas) no sistema de cores HSB (BURGER e BURGE, 2008) e a Figura 3(d) foi obtida através da Equação 1 (GONZALEZ; WOODS; RICHARD, 2007), que utiliza coeficientes recomendados pelo ITU-BT.709 (ITU-R, 1995) para o sistema RGB.

(27)

Figura 3. (a) imagem original, (b) conversão em tons de cinza pela média dos canais R, G e B, (c) conversão considerando o canal B no sistema de cores HSB e (d) conversão através da Equação 1.

(a) (b)

(c) (d)

2.1.3 Pré-processamento

Pré-processamento envolve um conjunto de técnicas que visam remover ruídos, informações desnecessárias, corrigir problemas de inclinação da imagem e ressaltar as características de interesse, separando-as através da segmentação, a fim de melhorar a qualidade da imagem e reduzir problemas para os próximos passos.

Devido às características dos documentos históricos, é comum que o processo de binarização não consiga uma separação ideal entre o texto e o fundo do documento, considerando também elementos que, na verdade, são ruídos, manchas ou outros defeitos do documento. Nessa fase, o pré-processamento visa então minimizar esses elementos indesejáveis.

Vários métodos foram desenvolvidos para essa finalidade e, devido aos vários tipos de problemas diferentes que podem estar presentes no documento, comumente uma combinação desses métodos é aplicada. Alguns desses métodos são aplicações de filtros digitais. A Figura 4 ilustra a aplicação de um filtro digital para redução de ruído, nesse caso específico, o filtro da mediana (GONZALEZ; WOODS; RICHARD, 2007). O cuidado que se deve tomar ao aplicar métodos para a remoção de ruídos, é que esses métodos não causem danos ao

(28)

conteúdo da imagem. No exemplo da Figura 4, é possível perceber como as bordas do texto na Figura 4(b) perderam definição em consequência da aplicação do filtro da mediana. Isso pode ser claramente visto na palavra ‘the’ no canto inferior direito da imagem filtrada.

Figura 4. Exemplo de remoção de ruído através da aplicação de um filtro digital. (a) imagem original e (b) resultado da aplicação do filtro da mediana.

Um sério problema encontrado nesta fase é que em muitas vezes, a aplicação de filtros requer o conhecimento do tipo de ruído presente na imagem o que quase sempre não é possível.

Imagens de documentos podem ainda apresentar inclinações, tanto do documento completo, quanto das linhas de texto (que podem apresentar diferentes inclinações entre si). Este problema pode ter sido causado durante a digitalização, devido ao mal posicionamento do documento original, como pode ser uma característica do próprio documento (nos casos onde o texto pode ter sido escrito originalmente inclinado devido à falta de pautas no papel para guiar o texto, por exemplo). A Figura 5 exemplifica essas duas situações.

A fim de se obter melhores resultados na etapa de segmentação é importante que o texto esteja em linhas horizontais, uma pequena inclinação já pode ser suficiente para uma interpretação errada do layout do documento, comprometendo a segmentação e reconhecimento, já que alguns algoritmos precisam ser aplicados em linhas de texto completamente horizontais, como por exemplo, a análise de projeção (KANAI e BAGDANOV, 1998).

Para ser possível corrigir a inclinação é preciso primeiramente detectar o grau da inclinação e os métodos mais utilizados para esse fim são (MELLO; OLIVEIRA; DOS SANTOS, 2012): análise de projeção (KANAI e BAGDANOV, 1998), a transformada de Hough (DUDA e HART, 1972), agrupamento da vizinhança mais próxima (SMITH, 1995), correlação cruzada (YAN, 1993) e através da área do fundo (background) (MASCARO; CAVALCANTI; MELLO, 2010).

(29)

Figura 5. Exemplos de inclinação em imagens de documentos. (a) a imagem toda está inclinada e (b) o texto foi originalmente escrito com uma inclinação.

(a) (b)

Para documentos tipografados, o método definido em (BRODIC et al., 2014) utiliza momentos estatísticos para estimativa de uma inclinação única no documento. Para múltiplas inclinações em linhas de texto manuscritos de documentos, um método para estimação baseado em percepção visual pode ser encontrado em (MELLO; SANCHEZ; CAVALCANTI, 2011). Para a correção de inclinação em documentos manuscritos, o algoritmo em (KAPOOR; BAGAI; KAMAL, 2004) utiliza a projeção baseada na transformada de Radon.

2.1.4 Segmentação

Segmentação é o processo que identifica os elementos que compõem uma imagem, como textos e gráficos (no caso especifico de OCR, o interesse está no texto) e, em casos mais simples, pode ser feita por métodos como análise de projeção (KANAI e BAGDANOV, 1998) ou watershed (BEUCHER, 1991). Imagens de documentos antigos, contudo, oferecem desafios maiores devido aos seus problemas característicos (que são descritos detalhadamente no Capítulo 3 desta Tese).

Dependendo da aplicação, o resultado final de uma segmentação pode ser as linhas de texto e as imagens presentes ou, em vez das linhas, o detalhamento pode ser de palavras ou caracteres individuais. No caso de documentos impressos ou tipografados, o processo se torna mais simples devido ao espaçamento regular entre as linhas e entre caracteres. Já em documentos manuscritos, existem uma série de fatores que tornam o processo mais complexo como sobreposição entre textos de linhas diferentes, sobreposições de caracteres em uma

(30)

mesma palavra, falta de uniformidade entre linhas e entre palavras para citar alguns. Entre os algoritmos para segmentação de textos manuscritos existem o Hit and Deflect (CASEY e LECOLINET, 1996), Drop-Fall (CONGEDO et al., 1995), o proposto por Renaudin et al. (RENAUDIN; RICQUEBOURG; CAMILLERAP, 2007) e baseado em simulação de forças inerciais (MELLO; ROE; LACERDA, 2008)(ROE e MELLO, 2009)(FILHO e MELLO, 2013).

O método apresentado em (SANCHEZ et al., 2011) faz segmentação de linhas de texto em documentos manuscritos e extração de palavras. As linhas de texto são identificadas através do uso de mapas de transição os quais são binarizados, filtrados e esqueletizados. Os esqueletos são convertidos para grafos e heurísticas determinam se as linhas de texto se conectam ou não, conseguindo separar algumas. A Figura 6 apresenta um exemplo da aplicação do método. As cores diferentes indicam diferentes linhas de texto enquanto as palavras estão envoltas por bounding boxes.

Figura 6. (a) Imagem original e (b) imagem segmentada (as diferentes cores indicam as diferentes linhas de texto e as caixas envolvem as palavras extraídas).

(a) (b)

Uma vez segmentados, os caracteres são fornecidos como entrada para alguma ferramenta de reconhecimento, que por melhor que seja, vai ter seu sucesso fortemente dependente da qualidade dos caracteres fornecidos como entrada.

(31)

2.1.5 Reconhecimento

Esta é, comumente, a etapa final de um sistema automático de processamento de imagens de documentos. Esse processo busca identificar e reconhecer cada caractere segmentado presente no texto do documento. O processo de reconhecimento é uma classificação e consiste em receber um segmento que represente um caractere (ou um conjunto de caracteres) e identificá-lo como uma letra do alfabeto, ou outro símbolo catalogado, montando palavras a fim de formar o texto. Como as outras etapas, esta depende fortemente da qualidade dos resultados obtidos anteriormente e uma binarização inadequada pode criar novos problemas.

Figura 7. (a) detalhe da imagem original, (b) e (c) exemplos de binarização onde os caracteres 'e' e 'n' não ficaram definidos e (d) outro exemplo mostrando boa definição dos caracteres 'e' e 'n'.

(a) (b) (c) (d)

A Figura 7 mostra um exemplo onde o resultado da binarização pode comprometer o resultado do reconhecimento do caractere, como pode ser observado na Figura 7(b), onde o caractere 'e' poderia ser reconhecido erroneamente como um 'o' ou até não ser reconhecido. Na Figura 7(c), onde o caractere 'e' poderia ser reconhecido erroneamente como um 'c' e o caractere 'n' ser reconhecido como um 'a' ou, também neste caso, até não serem reconhecidos.

Vários classificadores podem ser utilizados para reconhecer caracteres em documentos, tais como o algoritmo dos k-vizinhos mais próximos (COVER e HART, 1967), redes neurais artificiais (CRUZ; CAVALCANTI; REN, 2010), máquinas de vetor-Suporte (HAYKIN, 2001)(NEVES et al., 2011)(NEVES; ZANCHETTIN; FILHO, 2012), por exemplo.

2.2 REPRESENTAÇÃO DA IMAGEM E VIZINHANÇA DO PIXEL

Uma imagem digital pode ser vista como uma matriz onde as coordenadas (x, y) identificam um ponto na imagem (x referente à coluna e y à linha) chamado de pixel. As vizinhanças de um ponto, mais comumente utilizadas em processamento digital de imagens, são as formadas por 4 ou 8 pixels mais próximos. Considerando um pixel p com coordenadas (x, y), sua vizinhança-4 pode possuir 4 vizinhos horizontais e verticais, cujas coordenadas são

(32)

(x+1, y), (x−1, y), (x, y+1) e (x, y−1) como mostrado na Figura 8(a), ou 4 vizinhos diagonais, cujas coordenadas são (x+1, y+1), (x−1, y−1), (x−1, y+1) e (x+1, y−1), mostrado na Figura 8(b). No caso da vizinhança-8, o pixel tem tanto os vizinhos verticais e horizontais, quanto os diagonais, como pode ser visto na Figura 8(c).

Figura 8. Exemplos de vizinhanças do pixel: (a) 4 vizinhos verticais e horizontais, (b) 4 vizinhos nas diagonais e (c) 8 vizinhos combinando (a) com (b).

(a) (b) (c)

Em várias situações se torna necessário considerar uma vizinhança maior, como os mostrados na Figura 9(a) e (b), por exemplo, quando se deseja um que um filtro de desfoque tenha uma maior atuação. Geralmente se utiliza vizinhança quadrada com dimensões ímpares para que o pixel sendo filtrado fique exatamente no centro da vizinhança.

Na maior parte dos processos de filtragem, o pixel em questão deve ser processado de forma a ser o centro da janela de filtragem, mas em situações de borda, nem sempre isso é possível.

Figura 9. Vizinhança maior composta por (a) 24 e por (b) 48 pixels.

(a) (b)

Situações de borda ocorrem quando o pixel a ser filtrado se situa em alguma borda da imagem, ou próximo dela, fazendo com que o número de vizinhos sendo considerados na filtragem fique reduzido e não balanceados igualmente em todas as direções.

(33)

extensão da imagem, ou seja, considerar mais pixels ao redor da imagem. Os pixels adicionados ao redor da imagem formam uma margem M com espessura igual a 𝑊−1

2 , onde W

é a dimensão da janela de filtragem. O que varia nesta solução é a forma como estes pixels extras são preenchidos e as formas mais comuns de preenchimento são:

• constante: preenchimento com um único valor determinado, podendo inclusive ser zero – Figura 10(a)

• repetição: valores das bordas da imagem original são repetidos para preencher a margem – Figura 10(b)

• reflexão: pixels das bordas são refletidos a fim de preencher as margens da extensão – Figura 10(c)

• cópia da borda oposta: pixels das bordas opostas são copiados, simulando uma imagem cilíndrica – Figura 10(d)

Figura 10. Abordagens para tratar situações de borda da imagem a ser filtrada, em todas as alternativas apresentadas, uma margem M, ao redor da imagem, é criada com espessura igual a (W-1)/2, onde W é a dimensão da janela de filtragem. (a) M é preenchida com uma cor única, (b) valores dos pixels da borda da

imagem são repetidos em M, (c) pixels da imagem são refletidos em M e (d) pixels das bordas opostas são copiados em M.

(a) (b)

(c) (d)

A Figura 10 exibe exemplos desses tipos de preenchimento quando extensões são adicionadas à imagem a ser filtrada.

(34)

nenhuma extensão na imagem, em vez disso, a dimensão da janela de filtragem deve se adaptar de acordo com a proximidade das bordas. Essa abordagem evita que artefatos sejam adicionados ao resultado da filtragem.

A Figura 11 ilustra o funcionamento dessa abordagem e o caso mais acentuado está ilustrado na Figura 11(a) onde a janela de filtragem 3 × 3 se torna uma janela 2 × 2. Em nenhuma dessas situações de borda, o pixel sendo filtrado fica na posição central da janela.

Figura 11. Algumas situações de borda para uma janela 3×3, em vermelho, centrada no pixel a ser filtrado Pi. (a) situação mais crítica onde Pi se situa em uma quina da imagem, (b) e (c) situações onde um lado da

janela de filtragem fica totalmente fora da imagem e (d) a janela de filtragem está totalmente dentro da imagem.

(a) (b)

(c) (d)

2.3 FILTRAGEM DIGITAL DE IMAGENS

Filtragem é uma das técnicas mais utilizadas para transformar a intensidade dos pixels de uma imagem digital a fim de corrigir, suavizar ou realçar determinadas características de uma imagem. Apesar de ser possível aplicar essas transformações no domínio das frequências, são apresentadas aqui apenas transformações no domínio espacial, contendo os pixels da imagem (GONZALEZ; WOODS; RICHARD, 2007), por serem estas as utilizadas nesta Tese. A filtragem digital de imagens pode ser classificada como linear ou não linear, dependendo da natureza das operações envolvidas no processo.

As técnicas de filtragem de imagens são transformações, pixel a pixel, que não dependem apenas do pixel sendo filtrado, mas também do valor dos pixels vizinhos. O processo de filtragem é feito utilizando matrizes, denominadas máscaras ou janelas, aplicadas