Binarização de imagens de documentos utilizando estimativa local de largura de traço

(1)

Pós-Graduação em Ciência da Computação

“BINARIZAÇÃO DE IMAGENS DE DOCUMENTOS UTILIZANDO ESTIMATIVA LOCAL DE LARGURA DE TRAÇO”

Por

LEANDRO HENRIQUE ESPÍNDOLA VIANA DE ALMEIDA Dissertação de Mestrado

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

RECIFE 2015

(2)

Universidade Federal de Pernambuco

CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

LEANDRO HENRIQUE ESPÍNDOLA VIANA DE ALMEIDA

“BINARIZAÇÃO DE IMAGENS DE DOCUMENTOS UTILIZANDO ESTIMATIVA LOCAL DE LARGURA DE TRAÇO"

ORIENTADOR: PROF. DR. CARLOS ALEXANDRE BARROS DE MELLO

RECIFE 2015

Este trabalho foi apresentado à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestra em Ciência da Computação.

(3)

Catalogação na fonte

Bibliotecário Jefferson Luiz Alves Nazareno CRB4-1758

A447b Almeida, Leandro Henrique Espíndola Viana de.

Binarização de imagens de documentos utilizando estimativa local de largura de traço./ Leandro Henrique Espíndola Viana de Almeida. – Recife: O Autor, 2015.

164 f.: fig.

Orientador: Carlos Alexandre Barros de Mello.

Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2015.

Inclui referências.

1. Processamento de imagens- Técnicas digitais. 2. Processamento eletrônico de dados- Documentação. 3. Binarização. I. Mello, Carlos Alexandre Barros de. (Orientador). II. Titulo.

005.45 CDD (22. ed.) UFPE-MEI 2015-128

(4)

Dissertação de Mestrado apresentada por Leandro Henrique Espíndola Viana de Almeida à Pós Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título “Binarização de Imagens de Documentos Utilizando Estimativa Local de Largura de Traço”, orientada pelo Prof. Carlos Alexandre Barros de Mello e aprovada pela Banca Examinadora formada pelos professores:

______________________________________________ Prof. Cleber Zanchettin

Centro de Informática/UFPE

______________________________________________ Prof. Byron Leite Dantas Bezerra

Escola Politécnica de Pernambuco / UPE

_______________________________________________ Prof. Carlos Alexandre Barros de Mello

Centro de Informática / UFPE

Visto e permitida a impressão. Recife, 3 de agosto de 2015.

___________________________________________________ Profa. Edna Natividade da Silva Barros

Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

Ao meu bisavô Alexandre Eugênio À minha avó Luiza Almeida (in memoriam).

(6)

Agradecimentos

Agradeço primeiramente à Deus por ter me dado força, sabedoria e confiança para enfrentar os desafios que surgiram ao longo deste trabalho.

À minha mãe, minha maior fonte de inspiração, não só por ser uma mulher inteligente e guerreira, mas também por ser a maior incentivadora de todos os meus projetos realizados até então, inclusive este trabalho.

À toda a minha família, que me dá o alicerce necessário para enfrentar meus medos, sempre colocando a Palavra de Deus à frente de todos os obstáculos que se apresentam. Para todos vocês, um enorme abraço carinhoso.

Ao meu orientador Prof. Dr. Carlos Alexandre Barros de Mello, que me guiou por este trabalho, desde a sua concepção, soube elogiar quando oportuno e, principalmente, soube cobrar quando eu fraquejei. Um verdadeiro exemplo de profissional focado, dedicado e atencioso. Sou profundamente grato por ter sido meu guia pelos últimos 4 anos, desde os tempos da graduação.

Aos meus amigos e amigas que se fizeram presentes, de uma forma ou de outra, durante essa caminhada: Fabiana Silva, Fagner Nascimento (grande mestre!) e Hallan Cosmo, e em especial para Davi Hirafuji, Hallison Cardoso e Shayane de Oliveira que compartilharam comigo algumas noites extras no CIn, fazendo trabalhos, compilando códigos e criando classificadores que reconhecem passarinhos como marcas de refrigerantes.

À Elzybeth Martins, pelas palavras de apoio quando os resultados não apareciam, por ter aguentado os momentos de nervosismo e tensão sem reclamar e por ter entendido as exigências feitas por este trabalho.

(7)

How I wish, how I wish you were here. We’re just two lost souls swimming in a fish bowl. Year after year. Running over the same old ground. What have we found? The same old fears. Wish you were here.

(8)

Resumo

Este trabalho apresenta um novo método de binarização para imagens de documentos. O algoritmo proposto utiliza operações morfológicas, estimativas de background, estimativas de largura de traço e imagens de contraste para realizar a classificação dos pixels. A estratégia de estimativa da largura de traço também é uma novidade proposta por este trabalho, desenvolvida a partir de análises de outras estratégias utilizadas na literatura e disposta a suprir deficiências identificadas nessas outras metodologias. O algoritmo foi avaliado a partir dos critérios utilizados em competições internacionais de binarização de imagens de documentos, e seu desempenho foi comparado com outras técnicas clássicas e recentes, escolhidas de acordo com a semelhança de suas estratégias em relação à técnica aqui proposta. Todas as imagens utilizadas no trabalho possuem um padrão ouro – ground truth – associado, para aferição dos resultados. A qualidade da estimativa da largura de traço também foi analisada junto a outras formas de estimativa encontradas nos algoritmos utilizados nos experimentos. A análise geral dos resultados demonstra que o algoritmo apresentou melhor desempenho em imagens de documentos manuscritos, e um desempenho compatível com os demais quando atuando sobre imagens de documentos tipografados. A estimativa da largura de traço apresentou desempenho superior às demais estratégias utilizadas na comparação. A partir dos resultados, foi feita uma análise de caso, identificando pontos fortes e deficiências do algoritmo proposto, e possíveis aprimoramentos são sugeridos, no intuito de dar continuidade aos estudos nessa área, seguindo com o desenvolvimento da técnica para obtenção de melhores resultados.

Palavras-chave: Processamento de imagens. Processamento de documentos. Limiarização. Binarização. Estimativa de largura de traço.

(9)

Abstract

This paper proposes a new binarization method for document images. The proposed algorithm uses morphological operations, background estimation, stroke width estimation and contrast images to perform pixel classification. The strategy for estimating the stroke width is also a new proposal of this work, developed from studies of other strategies used in the literature and willing to meet shortcomings identified in these other methodologies. The algorithm was evaluated based on criteria used in international competitions of document images binarization, and its performance was compared to other classic and recent techniques, chosen according to the similarity of their strategies regarding the technique described. All images used in this study have a ground truth image associated, for measuring the results. The quality of the estimated stroke width was also evaluated alongside with other forms of estimations found in the literature. Overall results show that the algorithm performed better with the handwritten document images, and it has a compatible performance compared to others, acting on typewritten document images. The stroke width estimation method has superior performance to other strategies used in the comparison. From the results, a case study was made, identifying strengths and weaknesses of the proposed algorithm, and possible solutions are proposed in order to continue their studies in this area, following the development of the technique for better results.

Keywords: Image processing. Document processing. Limiarization. Binarization. Stroke width estimation.

(10)

Lista de abreviações

DIBCO Document Image Binarization Contest

(Competição de binarização de imagens de documentos) PCA Principal Component Analysis

(Análise de Componentes Principais) SVM Support Vector Machine

(Máquina de Vetor de Suporte)

MMPCC Maximum Moment of Phase Congruency Covariance (Momento Máximo de Fase Congruente à Covariância LWPMA Locally Weighted Mean Phase Angle

(Ângulo de Fase Médio Localmente Ponderado) PSNR Peak Signal-to-Noise Ratio

(Razão Sinal-Ruído de Pico) DRD Distance-Reciprocal Distortion

(Distorção Recíproca à Distância) OCR Optical Character Recognition

(Reconhecimento Óptico de Caracteres MSE Mean Squared Error

(Erro Quadrado Médio) EDCB Esquerda-Direita-Cima-Baixo EDBC Esquerda-Direita-Baixo-Cima DEBC Direita-Esquerda-Baixo-Cima DECB Direita-Esquerda-Cima-Baixo

(11)

Lista de figuras

FIGURA 1.1: FLUXO DE ATIVIDADES COMUMENTE ASSOCIADAS AO PROCESSAMENTO DE UMA

IMAGEM DE DOCUMENTO... 24 FIGURA 1.2: (A) IMAGEM DE UM DOCUMENTO MANUSCRITO E BEM CONSERVADO. EM (B) O

RESULTADO DA BINARIZAÇÃO DO DOCUMENTO, APÓS A ANÁLISE DO HISTOGRAMA (C), UTILIZANDO COMO LIMIAR O VALOR INDICADO EM VERMELHO. ... 26 FIGURA 1.3:(A) IMAGEM DE UM DOCUMENTO QUE APRESENTA MANCHAS. O RESULTADO (B) DA

BINARIZAÇÃO NÃO FOI CAPAZ DE ELIMINAR A MANCHA, IMPOSSIBILITANDO A LEITURA DE ALGUMAS PARTES DO TEXTO, APESAR DA ANÁLISE DO HISTOGRAMA (C) TER ENCONTRADO UM PONTO DE SEPARAÇÃO ENTRE BACKGROUND E FOREGROUND. ... 28 FIGURA 1.4: EXEMPLOS DE PROBLEMAS ENCONTRADOS EM IMAGENS DE DOCUMENTOS.

MANCHAS, ILUMINAÇÃO NÃO UNIFORME E BAIXO CONTRASTE SÃO PROBLEMAS ENCONTRADOS COM FREQUÊNCIA EM IMAGENS DE DOCUMENTOS HISTÓRICOS. ... 29 FIGURA 1.5: EXEMPLO DO USO DA BINARIZAÇÃO COMO FORMA DE MELHORIA DA

VISUALIZAÇÃO DA IMAGEM ... 30 FIGURA 1.6: ETAPAS TÍPICAS DE UM SISTEMA DE RECONHECIMENTO AUTOMÁTICO DE CARACTERES ... 30 FIGURA 1.7:EXEMPLO DO USO DA BINARIZAÇÃO COMO FORMA DE COMPRESSÃO. A IMAGEM

(A), COM 24 BITS DE COR PARA CADA PIXEL POSSUI TAMANHO 1.81MB, ENQUANTO QUE A IMAGEM (B), COM APENAS 1 BIT DE COR, POSSUI 79,4 KB. AMBAS POSSUEM AS MESMAS DIMENSÕES. ... 31 FIGURA 2.1: EXEMPLO DAS VÁRIAS FORMAS DE APLICAÇÃO DA LIMIARIZAÇÃO SOBRE UMA IMAGEM. A IMAGEM ORIGINAL (A) DEPOIS DE LIMIARIZADA POR 3 LIMIARES (B), 2 LIMIARES (C) E 1 LIMIAR (D). A MEDIDA QUE O NÚMERO DE LIMIARES DIMINUI, A SEPARAÇÃO ENTRE OS ELEMENTOS DE TEXTO E O FUNDO AUMENTAM. A LIMIARIZAÇÃO ILUSTRADA EM (D) RECEBE O NOME PARTICULAR DE BINARIZAÇÃO. ... 35 FIGURA 2.2:(A) JANELA UNIDIMENSIONAL DE COMPRIMENTO 5 E (B) JANELA BIDIMENSIONAL DE

DIMENSÃO 4X11. ... 36 FIGURA 2.3: EXEMPLOS DE IMAGENS DE DOCUMENTOS (A) COM MANCHAS, (B)

BLEED-THROUGH, (C) BAIXO CONTRASTE E (D) ILUMINAÇÃO NÃO UNIFORME. ... 38 FIGURA 2.4: (A) IMAGEM ORIGINAL BINARIZADA E O EFEITO DA (B) EROSÃO, (C) DILATAÇÃO E (D) FECHAMENTO MORFOLÓGICO UTILIZANDO UM ELEMENTO ESTRUTURANTE QUADRADO DE TAMANHO 5. ... 39 FIGURA 2.5: EXEMPLO DA APLICAÇÃO DO GRADIENTE DE SOBEL 3X3 (SOBEL & FELDMAN,

1973) (A) IMAGEM ORIGINAL E O GRADIENTE (B) HORIZONTAL E (C) VERTICAL... 41 FIGURA 3.1: TIPOS DE OCORRÊNCIAS DE MANCHAS GERADAS A PARTIR DA DEGRADAÇÃO DO DOCUMENTO. C0 REPRESENTA O CONTEÚDO TEXTUAL, C1 REPRESENTA UM TIPO DE MANCHA. EM (A) REGIÃO DA MANCHA C1 NÃO SOBREPÕE A REGIÃO TEXTUAL C0. EM (B), AS REGIÕES SÃO VIZINHAS, MAS TAMBÉM NÃO SE SOBREPÕEM. EM (C), O CONTEÚDO TEXTUAL ESTÁ IMERSO EM UMA REGIÃO DE MANCHA. FIGURA RETIRADA DE (RABEUX, JOURNET, ET AL., 2013). ... 44

(12)

FIGURA 3.2: ORDEM DAS OPERAÇÕES EXECUTADAS PELA TÉCNICA SMART-BINARIZATION ... 49

FIGURA 3.3: FLUXO DE EXTRAÇÃO DAS REGIÕES DA IMAGEM QUE PODEM POSSUIR CARACTERES.

FIGURA RETIRADA DE (SEKI, ASANO E YASUE, 2013) ... 52 FIGURA 3.4: (A) IMAGEM PARCIAL DE UM CARACTERE E (B) A OCORRÊNCIA DE PSEUDO-CORES

DEVIDO AO PROCESSO DE DIGITALIZAÇÃO. (C) CORREÇÃO FEITA ATRAVÉS DE OPERAÇÕES MORFOLÓGICAS. FIGURA RETIRADA DE (SEKI, ASANO E YASUE, 2013). ... 53 FIGURA 3.5: RESULTADOS OBTIDOS PELO ALGORITMO PARA ALGUMAS IMAGENS. FIGURA

RETIRADA DE (SEKI, ASANO E YASUE, 2013). ... 54 FIGURA 3.6: (A) IMAGEM ORIGINAL E (B) RESULTADO DA APLICAÇÃO DO ALGORITMO MELHORANDO A APARÊNCIA VISUAL DA IMAGEM. FIGURA RETIRADA DE (FORNES, OTAZU E LLADOS, 2013). ... 56 FIGURA 3.7: FLUXO PARA DEFINIÇÃO DOS PIXELS LOCALIZADOS PRÓXIMO ÀS BORDAS DO TEXTO. ... 58 FIGURA 3.8: DECOMPOSIÇÃO DA IMAGEM DE UM DOCUMENTO NAS TRÊS CAMADAS SUGERIDAS

PELOS AUTORES. FIGURA RETIRADA DE (BARONIA E NAMBOODIRI, 2013). ... 60 FIGURA 3.9: EXEMPLOS DE UMA IMAGEM QUE APRESENTA O EFEITO INK-BLEED (A) E DA EXECUÇÃO DE UMA TÉCNICA EXISTENTE (HUANG, BROWN E XU, 2008)(B) E DO ALGORITMO PROPOSTO POR (BARONIA E NAMBOODIRI, 2013) (C). FIGURA RETIRADA DE(BARONIA E NAMBOODIRI, 2013). ... 63 FIGURA 3.10: (A) IMAGEM FORNECIDA COMO ENTRADA DO ALGORITMO E (B) RESULTADO DA BINARIZAÇÃO APÓS O PROCESSAMENTO DO ALGORITMO PROPOSTO, RETIRADA DE (NAFCHI, MOGHADDAM E CHERIET, 2013). ... 64 FIGURA 3.11: A PARTIR DA IMAGEM DE ENTRADA (FIGURA 3.10-A), É CRIADA (A) UMA IMAGEM

COM RUÍDO REDUZIDO E (B) UMA NORMALIZADA QUE CONSTITUEM, JUSTAS, A PRIMEIRA MÁSCARA, E AS ANÁLISES (C) MMPCC E (D) LWMPA PARA COMPOR A SEGUNDA MÁSCARA. FIGURA RETIRADA DE (NAFCHI, MOGHADDAM E CHERIET, 2013). ... 65 FIGURA 3.12: IMAGENS INTERMEDIÁRIAS GERADAS PELO ALGORITMO PARA REDUÇÃO DE RUÍDO

NA IMAGEM: (A) IMAGEM ORIGINAL. (B) BINARIZAÇÃO DE OTSU ORIGINAL. (C) IMAGEM COM RUÍDO REDUZIDO E NORMALIZADA. (D) BINARIZAÇÃO DE (C) USANDO OTSU. (E) IMAGEM COM RUÍDO REDUZIDO NÃO NORMALIZADA. (F) BINARIZAÇÃO DE (D) UTILIZANDO CONVEX HULL E (G) RESULTADO DA REDUÇÃO DE RUÍDO, GERADO A PARTIR DA COMBINAÇÃO DAS IMAGENS (E) E (F). FIGURA RETIRADA DE (NAFCHI ET. AL, 2013). ... 66 FIGURA 3.13: A PARTIR DA (A) IMAGEM ORIGINAL, É CRIADA (B) A MÁSCARA DE

RECONSTRUÇÃO, UTILIZANDO NIBLACK COM PARÂMETROS (W = 60, K = -0.2). CADA INPAINTING PRODUZ UM RESULTADO DIFERENTE (C) E (D). O (E) BACKGROUND ESTIMADO É GERADO A PARTIR DA EXTRAÇÃO DO MENOR VALOR DE CADA PIXEL NOS INPAINTINGS. A (F) NORMALIZAÇÃO É GERADA A PARTIR DA DIVISÃO DA IMAGEM ORIGINAL PELO BACKGROUND ESTIMADO. ... 69 FIGURA 3.14: (A) IMAGEM FORTEMENTE DEGRADADA PELO EFEITO DE BLEED-THROUGH E (B) O

RESULTADO DA BINARIZAÇÃO PELA TÉCNICA DESCRITA, RETIRADA DE (NTIROGIANNIS, GATOS E PRATIKAKIS, 2012)... 70 FIGURA 3.15: FLUXO DE EXECUÇÃO DO ALGORITMO DE (ARRUDA E MELLO, 2014). ... 72

(13)

FIGURA 3.16: DISTRIBUIÇÃO DAS METODOLOGIAS DE CÁLCULO DA LARGURA DO TRAÇO EM 63

ARTIGOS AVALIADOS NO ESTUDO DE (RAMÍREZ-ORTEGON, ROJAS E CUEVAS, 2013). ... 77 FIGURA 4.1: FLUXOGRAMA DE EXECUÇÃO DO ALGORITMO, ILUSTRANDO AS OPERAÇÕES

REALIZADAS DURANTE O PROCESSO. ... 78 FIGURA 4.2: (A-B) EXEMPLO DE IMAGENS RETIRADAS DO CONJUNTO DE TESTES DO DIBCO E

(C-D) SUAS ESTIMATIVAS INICIAIS DE BACKGROUND. ... 80 FIGURA 4.3: EXEMPLO DE AMOSTRAGEM REALIZADA EM ALGUMAS IMAGENS PARA ESTIMAR OS

PARÂMETROS DAS OPERAÇÕES MORFOLÓGICAS. EM (A) AS LARGURAS DOS CARACTERES VARIAM ENTRE 5 E 52 PIXELS. EM (B) A VARIAÇÃO OCORRE ENTRE 3 E 23. ... 81 FIGURA 4.4: EM (A) IMAGENS DA BASE DO DIBCO E (B) O RESULTADO DA OPERAÇÃO DE FECHAMENTO, UTILIZANDO COMO ELEMENTO ESTRUTURANTE UM CÍRCULO DE RAIO 23. OS COMPONENTES DE TEXTO DA IMAGEM FORAM COMPLETAMENTE REMOVIDOS ... 81 FIGURA 4.5: EM (A), AS IMAGENS APÓS O FECHAMENTO. EM (B), O RESULTADO DA APLICAÇÃO

DA DILATAÇÃO SOBRE (A). O ELEMENTO ESTRUTURANTE UTILIZADO FOI UM QUADRADO DE LADO 17. ... 82 FIGURA 4.6: RESULTADO DA REMOÇÃO DO BACKGROUND INICIAL (FIGURA 4.2) UTILIZANDO A DIVISÃO PIXEL A PIXEL, ARREDONDANDO O RESULTADO PARA O INTEIRO MAIS PRÓXIMO. . 84 FIGURA 4.7: EXEMPLO DE INSUCESSO DURANTE A REMOÇÃO DE BACKGROUND. A IMAGEM

ORIGINAL (A) E O RESULTADO DA REMOÇÃO DO BACKGROUND (B). MUITOS COMPONENTES DE TEXTO FORAM ELIMINADOS NO PROCESSO. EM (C) O RESULTADO ESPERADO DA BINARIZAÇÃO DA IMAGEM. ... 84 FIGURA 4.8: RESULTADO DA EXTRAÇÃO DE BORDAS, (A-B) UTILIZANDO MÉTODOS DE

CONTRASTE PROPOSTO POR (SU, LU E TAN, 2010) E (C-D) PELO ALGORITMO DE DETECÇÃO DE BORDAS DE CANNY (CANNY, 1986). ... 85 FIGURA 4.9: IRREGULARIDADES QUE PODEM OCORRER DURANTE O CÁLCULO DAS BORDAS A PARTIR DA IMAGEM BINARIZADA: CARACTERES PODEM APRESENTAR DESCONTINUIDADES, BORDAS MAL DEFINIDAS OU NÃO APRESENTAREM REGIÃO INTERNA. AS IMAGENS MAIS ESCURAS FORAM GERADAS PELO MÉTODO DE CONTRASTE DE (SU, LU E TAN, 2010). AS MAIS CLARAS FORAM GERADAS PELO DERIVADOR DE SOBEL (SOBEL E FELDMAN, 1973). ... 87 FIGURA 4.10: EXEMPLOS DE CARACTERES SEGMENTADOS QUE APRESENTAM FALHAS (EM PRETO) QUE INTERFEREM NO CÁLCULO DA LARGURA DO TRAÇO E (EM VERDE) A CORREÇÃO PROPOSTA NESTE TRABALHO. ... 88 FIGURA 4.11: (A-B) BORDAS EXTRAÍDAS A PARTIR DO MÉTODO DE CONTRASTE E (C-D) SEUS RESPECTIVOS AFINAMENTOS PRODUZIDOS POR (ZHANG E SUEN, 1984). ... 89 FIGURA 4.12: ANÁLISE DAS DISTÂNCIAS ENTRE PIXELS DE BORDA PARA AS IMAGENS DA FIGURA 4.10. EM VERMELHO, AS DISTÂNCIAS HORIZONTAIS, EM AZUL, AS DISTÂNCIAS VERTICAIS, E EM VERDE, RESPECTIVAMENTE, AS DISTÂNCIAS HORIZONTAIS QUE EXISTEM POR COMPLETO NA IMAGEM VERTICAL E AS DISTÂNCIAS VERTICAIS QUE EXISTEM POR COMPLETO NA IMAGEM HORIZONTAL. ... 89

(14)

FIGURA 4.13: ELIMINAÇÃO DOS PIXELS QUE NÃO POSSUEM COMPRIMENTOS VERTICAIS E

HORIZONTAIS NAS DUAS DIREÇÕES. EM VERDE, AS DISTÂNCIAS HORIZONTAL E VERTICAL DA FIGURA 4.12. EM CINZA, O RESULTADO DA COMBINAÇÃO DAS DUAS IMAGENS. ... 90

FIGURA 4.14: EXEMPLOS DE ESTIMATIVAS DE LARGURA APÓS A COMBINAÇÃO DAS DISTÂNCIAS.

EM (A) A ESTIMATIVA FOI CAPAZ DE RECONHECER TODA A REGIÃO INTERNA DO CARACTERE, SEM ERROS. EM (B), A REGIÃO INTERNA FOI RECONHECIDA, MAS UMA PARTE DA REGIÃO EXTERNA FOI ACEITA. EM (C), PRATICAMENTE TODA A REGIÃO DE BACKGROUND, QUE ESTAVA DENTRO DO CARACTERE FOI CONSIDERADO COMO INTEGRANTE DA PARTE INTERNA. ... 91 FIGURA 4.15: FLUXOGRAMA QUE REPRESENTA O COMPORTAMENTO DAS REGIÕES DA IMAGEM, QUANDO SUBMETIDAS A UMA VARREDURA DE PIXELS, SEJA NA DIREÇÃO VERTICAL OU HORIZONTAL. ... 91 FIGURA 4.16: VARREDURA NAS DIREÇÕES HORIZONTAL E VERTICAL. OS PONTOS EM VERMELHO

INDICAM A VARREDURA SOBRE O BACKGROUND DA IMAGEM. EM QUALQUER SENTIDO, A VARREDURA DEVE CRUZAR PONTOS DE BORDA (AMARELOS) E PONTOS DA REGIÃO INTERNA (AZUL), ANTES DE VOLTAR AO BACKGROUND. ... 92 FIGURA 4.17: VARREDURAS SOBRE OS CARACTERES PARA CORRIGIR AS FALHAS DOS

CARACTERES (B) E (C) DA FIGURA 4.14. (A) VERIFICANDO SE O FLUXO DA FIGURA 4.15 É OBEDECIDO PARA QUALQUER PIXEL DA ESQUERDA PARA A DIREITA, (B) DA DIREITA PARA A ESQUERDA. OS PIXELS QUE NÃO OBEDECEM AO FLUXO SÃO MARCADOS COMO BACKGROUND. EM (C) A COMBINAÇÃO DOS RESULTADOS. EXIBINDO SOMENTE OS RESULTADOS DA VARREDURA HORIZONTAL. ... 93 FIGURA 4.18: (A-B) CONTAGEM DAS DISTÂNCIAS HORIZONTAL (LINHAS VERMELHAS) E

VERTICAL (LINHAS AZUIS) PARA CADA UM DOS PIXELS DEFINIDOS COMO PIXELS INTERNOS. A MENOR DELAS SERÁ UTILIZADA COMO LARGURA DO TRAÇO PARA O PIXEL LOCALIZADO NO CRUZAMENTO DAS LINHAS. (C-D) DISTÂNCIAS QUE FORAM UTILIZADAS PARA DEFINIR A LARGURA DO TRAÇO PARA ESSAS LETRAS (EM VERMELHO, DISTÂNCIAS HORIZONTAIS, EM AZUL, DISTÂNCIAS VERTICAIS). ... 94 FIGURA 4.19: (A-B) VALORES DE DISTÂNCIA CALCULADOS PARA A REGIÃO INTERNA E (C-D)

EXTERNA DO CARACTERE. PARA MELHORAR A VISUALIZAÇÃO, AS DISTÂNCIAS FORAM NORMALIZADAS PARA A ESCALA DE 256 TONS DE CINZA... 94 FIGURA 4.20: MATRIZ DE LARGURA DE TRAÇOS CALCULADA PARA AS IMAGENS DA FIGURA 4.2.

CADA REGIÃO DO CARACTERE POSSUI SEU PRÓPRIO VALOR DE LARGURA. PARA O BACKGROUND DE CADA CARACTERE, É ATRIBUÍDO O VALOR MÉDIO DE SUAS LARGURAS. PARA O BACKGROUND DA IMAGEM É ATRIBUÍDA UMA MÉDIA DE TODAS AS LARGURAS CALCULADAS PARA OS CARACTERES. ... 95 FIGURA 4.21: EFEITO DA PERCEPÇÃO VISUAL NO COMPORTAMENTO DA IMAGEM. (A) COM APENAS DUAS CORES, DEPENDENDO DA DISTÂNCIA QUE O OBSERVADOR SE ENCONTRA DA IMAGEM, O CÉREBRO NÃO É CAPAZ DE PERCEBER TODOS OS DETALHES, E ACABA PERCEBENDO (B) UMA NOVA COR, INEXISTENTE NA IMAGEM ORIGINAL. ... 96 FIGURA 4.22: (A-B) BACKGROUND ESTIMADO NO INÍCIO DO PROCEDIMENTO E (C-D) REFINADO APÓS A ESTIMATIVA DA LARGURA DE TRAÇO. ... 97

(15)

FIGURA 4.23: MAPEAMENTO DOS TONS DE CINZA DISPONÍVEIS EM FUNÇÃO DOS TONS DE CINZA

ENCONTRADOS NA IMAGEM. QUANTO MAIS LONGE DO TOM NULO, MAIOR SERÁ O GANHO PARA OS COMPONENTES DE TEXTO DA IMAGEM. ... 98 FIGURA 4.24: REALCE APLICADO ÀS IMAGENS DA FIGURA 4.2, OBTIDO ATRAVÉS DA REMOÇÃO DO BACKGROUND DE FORMA REFINADA. ... 98 FIGURA 4.25: ESQUEMA DE JANELAMENTO UTILIZADO DURANTE O CÁLCULO DO CONTRASTE NORMALIZADO. AS JANELAS SÃO UTILIZADAS EM SENTIDO ANTI-HORÁRIO. ... 99 FIGURA 4.26: EXEMPLO DA INFLUÊNCIA DO JANELAMENTO NO CÁLCULO DO CONTRASTE. SE A

JANELA FOR MAL DIMENSIONADA (A) ELA IRÁ PERCORRER APENAS PONTOS DA REGIÃO INTERNA DO CARACTERE. NESTE TRABALHO, A JANELA É DIMENSIONADA EM FUNÇÃO DA LARGURA DO TRAÇO LOCAL (B), EVITANDO TAL PROBLEMA... 100 FIGURA 4.27: COMBINAÇÃO DAS JANELAS PARA O CÁLCULO DO CONTRASTE ESTRUTURAL. AS MÉDIAS DE CADA JANELA SÃO COMPARADAS ENTRE GRUPOS DE 4, DE ACORDO COM A EQUAÇÃO (6). ... 101 FIGURA 4.28: CONTRASTE OBTIDO A PARTIR DAS IMAGENS DA FIGURA 4.24. ... 103 FIGURA 4.29: EXEMPLO DE CLASSIFICAÇÃO COM PERDA DA INFORMAÇÃO DO TRAÇO DOS CARACTERES. DEVIDO À MÁSCARA (A) SE APRESENTAR MUITO PRÓXIMA DO RESULTADO ESPERADO, A CLASSIFICAÇÃO FINAL FOI PREJUDICADA (B). ... 104 FIGURA 4.30: AUMENTO DA REGIÃO DE PIXELS CANDIDATOS NA MÁSCARA, A PARTIR DO USO DE

OPERAÇÕES MORFOLÓGICAS SOBRE A IMAGEM DE CONTRASTE, PARA NÃO COMPROMETER A FASE DE CLASSIFICAÇÃO DOS PIXELS. ... 104 FIGURA 4.31: IMAGENS DE CONTRASTE DA FIGURA 4.28 APÓS O PROCEDIMENTO MORFOLÓGICO. ... 105 FIGURA 4.32: MÁSCARAS PRODUZIDAS A PARTIR DA BINARIZAÇÃO DA IMAGEM DE CONTRASTE

DILATADA DA FIGURA 4.31. ... 105 FIGURA 4.33: RESULTADO DA CLASSIFICAÇÃO ESTATÍSTICA, REALIZADA COM O AUXÍLIO DA MÁSCARA (FIGURA 4.32) E DA IMAGEM ORIGINAL (FIGURA 4.2). ... 108

FIGURA 4.34: EXEMPLO DE UM PROBLEMA DE CONECTIVIDADE. OS TRAÇOS HORIZONTAIS (INDICADOS EM VERMELHO) DAS LETRAS ‘T’ SERIAM EXCLUÍDOS, DEVIDO À DIFERENÇA DE PROPORÇÃO ALMEJADA DE LARGURA X ALTURA, OU SERIAM CONSIDERADOS COMO LETRAS À PARTE. ... 108 FIGURA 4.35: RESULTADO FINAL DA BINARIZAÇÃO DAS IMAGENS DA FIGURA 4.2, APÓS A REMOÇÃO DOS ARTEFATOS COM DIMENSÃO IRREGULAR ... 109 FIGURA 5.1: EXEMPLO DE IMAGENS UTILIZADAS NOS EXPERIMENTOS, QUE APRESENTAM

PROBLEMAS DIVERSOS: (A) BLEED-THROUGH, (B) BAIXO CONTRASTE, (C) MANCHAS OU (D) PROBLEMAS DE ILUMINAÇÃO. ... 111 FIGURA 5.2: GROUND TRUTH ASSOCIADO ÀS IMAGENS DA FIGURA 5.1 ... 111 FIGURA 5.3: MATRIZ DE PESOS UTILIZADA COMO REFERÊNCIA PARA O CÁLCULO DO DRDK. O PONTO 0, NO CENTRO DA MATRIZ É CONSIDERADO TAMBÉM A ORIGEM DAS COORDENADAS DA MATRIZ. POR ISSO A NOTAÇÃO NA EQUAÇÃO 5.4 PARA OS PONTOS (I,J) OBEDECE AO INTERVALO [-2,2]. ... 114

(16)

FIGURA 5.4: (A) IMAGEM DE TESTE (2009) E (B) GROUND TRUTH. IMAGENS PRODUZIDAS PELOS

ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E) ZHAO E KAMEL, (F) NIBLACK, (G) OTSU, (H) MESQUITA ET AL. E (I) SU ET AL. ... 118 FIGURA 5.5: (A) IMAGEM DE TESTE (2010) E (B) GROUND TRUTH. IMAGENS PRODUZIDAS PELOS

ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E) ZHAO E KAMEL, (F) NIBLACK, (G) OTSU, (H) MESQUITA ET AL. E (I) SU ET AL. ... 119 FIGURA 5.6: (A) IMAGEM DE TESTE (2011) E (B) GROUND TRUTH. IMAGENS PRODUZIDAS PELOS

ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E) ZHAO E KAMEL, (F) NIBLACK, (G) OTSU, (H) MESQUITA ET AL. E (I) SU ET AL. ... 121 FIGURA 5.7: (A) IMAGEM DE TESTE (2012) E (B) GROUND TRUTH. IMAGENS PRODUZIDAS PELOS ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E) ZHAO E KAMEL, (F) NIBLACK, (G) OTSU, (H) MESQUITA ET AL. E (I) SU ET AL. ... 123 FIGURA 5.8: (A) IMAGEM DE TESTE (2013) E (B) GROUND TRUTH. IMAGENS PRODUZIDAS PELOS

ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E) ZHAO E KAMEL, (F) NIBLACK, (G) OTSU, (H) MESQUITA ET AL. E (I) SU ET AL. ... 125 FIGURA 5.9: (A) IMAGEM DE TESTE (2009) E (B) GROUND TRUTH. IMAGENS PRODUZIDAS PELOS ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E) ZHAO E KAMEL, (F) NIBLACK, (G) OTSU, (H) MESQUITA ET AL. E (I) SU ET AL. ... 127 FIGURA 5.10: (A) IMAGEM DE TESTE (2011) E (B) GROUND TRUTH. IMAGENS PRODUZIDAS

PELOS ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E) ZHAO E KAMEL, (F) NIBLACK, (G) OTSU, (H) MESQUITA ET AL. E (I) SU ET AL. ... 129 FIGURA 5.11: (A) IMAGEM DE TESTE (2013) E (B) GROUND TRUTH. IMAGENS PRODUZIDAS PELOS ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E) ZHAO E KAMEL, (F) NIBLACK, (G) OTSU, (H) MESQUITA ET AL. ... 131 FIGURA 5.12: GRÁFICO QUE DEMONSTRA A QUANTIDADE DE TEMPO NECESSÁRIA PARA PROCESSAR O CONJUNTO DE IMAGENS DE TESTE UTILIZADO NESTE TRABALHO. ... 136 FIGURA 5.13: DISTRIBUIÇÃO PERCENTUAL DO TEMPO DE PROCESSAMENTO. O CONTRASTE

ESTRUTURAL E A CLASSIFICAÇÃO RESPONDEM POR 98% DO TEMPO TOTAL DO PROCESSAMENTO. ... 137 FIGURA 5.14:(A) IMAGEM DE BAIXO CONTRASTE RETIRADA DA BASE DE TESTES DO DIBCO 2013 (B), GROUND TRUTH ASSOCIADO E OS RESULTADOS PRODUZIDOS PELOS ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E),SU ET AL. (F) MESQUITA ET AL., (G) ZHAO E KAMEL, (H) NIBLACK E (I) OTSU. ... 140 FIGURA 5.15: (A) IMAGEM DE BAIXO CONTRASTE, COM OCORRÊNCIA DE MANCHAS EM TONS

SEMELHANTES AO TEXTO, RETIRADA DA BASE DE TESTES DO DIBCO 2011, (B) GROUND TRUTH ASSOCIADO E OS RESULTADOS PRODUZIDOS PELOS ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E), SU ET AL. (F) MESQUITA ET AL., (G) ZHAO E KAMEL, (H) NIBLACK E (I) OTSU. ... 142 FIGURA 5.16: (A) EXEMPLO DE IMAGEM DE DOCUMENTO IMPRESSO, RETIRADA DA BASE DE

TESTES DE 2009, APRESENTANDO MANCHAS PONTUAIS. (B) GROUND TRUTH ASSOCIADO E OS RESULTADOS PRODUZIDOS PELOS ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E), SU ET AL. (F) MESQUITA ET AL., (G) ZHAO E KAMEL, (H) NIBLACK E (I) OTSU. ... 144

(17)

FIGURA 5.17: (A) EXEMPLO DE IMAGEM DE DOCUMENTO MANUSCRITO, RETIRADA DA BASE DE

TESTES DE 2012, ILUSTRANDO O EFEITO BLEED-THROUGH. (B) GROUND TRUTH ASSOCIADO E OS RESULTADOS PRODUZIDOS PELOS ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E), SU ET AL. (F) MESQUITA ET AL., (G) ZHAO E KAMEL, (H) NIBLACK E (I) OTSU. ... 146 FIGURA 5.18: (A) EXEMPLO DE IMAGEM DE DOCUMENTO IMPRESSO, COM BACKGROUND IRREGULAR, RETIRADO DA BASE DE TESTES DE 2011. (B) GROUND TRUTH ASSOCIADO E OS RESULTADOS PRODUZIDOS PELOS ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E), SU ET AL. (F) MESQUITA ET AL., (G) ZHAO E KAMEL, (H) NIBLACK E (I) OTSU. ... 148 FIGURA 5.19: (A) EXEMPLO DE IMAGEM DE DOCUMENTO TIPOGRAFADO, RETIRADO DA BASE DE TESTES DE 2009. (B) GROUND TRUTH ASSOCIADO E OS RESULTADOS PRODUZIDOS PELOS ALGORITMOS (C) PROPOSTO, (D) ARRUDA E MELLO, (E), SU ET AL. (F) MESQUITA ET AL., (G) ZHAO E KAMEL, (H) NIBLACK E (I) OTSU. ... 150 FIGURA 5.20: (A) DEVIDO À ESTIMATIVA DO BACKGROUND IMPRECISA, HOUVE FALHA NA

CRIAÇÃO DA IMAGEM DE CONTRASTE (B) UTILIZADA PARA PRODUZIR A MATRIZ DE PIXELS INDICADORES (C), GERANDO FALHAS NO RESULTADO FINAL (D). ... 151 FIGURA 5.21: (A) EXEMPLOS DE IMAGENS DE DOCUMENTOS TIPOGRAFADOS E (B) MANUSCRITOS QUE APRESENTAM EFEITO BLEED-THROUGH QUE NÃO FORAM CORRETAMENTE BINARIZADAS PELO ALGORITMO PROPOSTO. ... 152 FIGURA 5.22: EXEMPLO DE IMAGEM QUE FOI PREJUDICADA PELAS OPERAÇÕES MORFOLÓGICAS

PROPOSTAS. DEVIDO AO CRESCIMENTO EXCESSIVO DAS REGIÕES DE CARACTERES, OCORRERAM FALHAS DE CLASSIFICAÇÃO NAS PROXIMIDADES DOS CARACTERES, COMPROMETENDO A QUALIDADE DO RESULTADO. ... 153 FIGURA 5.23: IMAGEM UTILIZADA NO COMPARATIVO DA ESTIMATIVA DE LARGURA DE TRAÇO,

(A). GROUND TRUTH ASSOCIADO (B). RESULTADOS OBTIDOS PELO ALGORITMO PROPOSTO, QUANDO UTILIZANDO A ESTIMATIVA DE LARGURA PROPOSTA (C), ESTIMATIVA A PRIORI (ZHAO E KAMEL, 1993) (D), ESTIMATIVA DE (NTIROGIANNIS, GATOS E PRATIKAKIS, 2009) (E) E DE (SU, LU E TAN, 2010) (F). ... 154

(18)

Lista de tabelas

TABELA 2.1: OPERADORES 3X3 UTILIZADOS PARA CALCULAR AS BORDAS DE UMA IMAGEM,

RETIRADA DE (MARQUES E VIEIRA, 1999). ... 40 TABELA 3.1: RESULTADOS OBTIDOS PELOS AUTORES. O DESVIO PADRÃO E OS VALORES MÁXIMO

E MÍNIMO DO F-SCORE FORAM IDÊNTICOS AO MELHOR RESULTADO POSSÍVEL (EM ITÁLICO). TABELA RETIRADA DE (RABEUX, JOURNET, ET AL., 2013). ... 46 TABELA 5.2: CLASSIFICAÇÃO DOS ALGORITMOS, DE ACORDO COM O MENOR VALOR DO

RANKING, AGRUPADOS DE ACORDO COM O TIPO DE IMAGEM FORNECIDA COMO ENTRADA. AS COLUNAS NUMÉRICAS REPRESENTAM O VALOR DO RANKING CALCULADO SEGUNDO OS CRITÉRIOS DO DIBCO 2014. ... 135 TABELA 5.3: DISTRIBUIÇÃO MÉDIA DO TEMPO GASTO EM CADA ETAPA, DURANTE O

PROCESSAMENTO DAS IMAGENS DA BASE 2013 DO DIBCO, UTILIZADA NESTE TRABALHO. ... 138 TABELA 5.4: IMPACTO DO TAMANHO DA JANELA NO TEMPO DE PROCESSAMENTO DA IMAGEM DE

CONTRASTE, EM SEGUNDOS. QUANTO MAIOR O TAMANHO DA JANELA, MAIS TEMPO GASTO PARA PROCESSAR O CONTRASTE. ... 138 TABELA 5.5: CLASSIFICAÇÃO DOS ALGORITMOS PARA A IMAGEM DA FIGURA 5.14, DE ACORDO COM OS CRITÉRIOS DE CLASSIFICAÇÃO DO DIBCO 2014. ... 141 TABELA 5.6: CLASSIFICAÇÃO DOS ALGORITMOS PARA A IMAGEM DA FIGURA 5.15, DE ACORDO COM OS CRITÉRIOS DE CLASSIFICAÇÃO DO DIBCO 2014. ... 143 TABELA 5.7: CLASSIFICAÇÃO DOS ALGORITMOS PARA A IMAGEM DA FIGURA 5.16, DE ACORDO COM OS CRITÉRIOS DE CLASSIFICAÇÃO DO DIBCO 2014. ... 146 TABELA 5.8: CLASSIFICAÇÃO DOS ALGORITMOS PARA A IMAGEM DA FIGURA 5.17, DE ACORDO COM OS CRITÉRIOS DE CLASSIFICAÇÃO DO DIBCO 2014. ... 148 TABELA 5.9: RANKING CALCULADO PELOS CRITÉRIOS DO DIBCO PARA A IMAGEM DA FIGURA

5.23... 155 TABELA 5.10: RESULTADO DA COMPARAÇÃO ENTRE OS MÉTODOS SELECIONADOS PARA

ESTIMATIVA DE LARGURA DO TRAÇO DAS IMAGENS. CADA MÉTODO DE ESTIMATIVA PRODUZIU SEU CONJUNTO DE RESULTADOS, E FORAM COMPARADOS COMO SE FOSSEM ALGORITMOS DISTINTOS, UTILIZANDO OS CRITÉRIOS DO DIBCO 2014. ... 155

(19)

Sumário

1 INTRODUÇÃO ...21

1.1 IMAGENS ...21

1.2 IMAGENS DIGITAIS ...21

1.3 PROCESSAMENTO DIGITAL DE IMAGENS DE DOCUMENTOS...23

1.4 MOTIVAÇÃO ...30

1.5 OBJETIVOS ...32

1.6 ESTRUTURA DO TRABALHO ...33

2 CONCEITOS BÁSICOS ...34

2.1 LIMIARIZAÇÃO, BINARIZAÇÃO E JANELAMENTO ...34

2.2 PROBLEMAS TÍPICOS EM IMAGENS DE DOCUMENTOS ...37

2.3 OPERAÇÕES MORFOLÓGICAS ...38

2.4 DETECÇÃO DE BORDAS ...40

3 TÉCNICAS PARA BINARIZAÇÃO E PROCESSAMENTO DE IMAGENS DE DOCUMENTOS ANTIGOS ...42

3.1 ALGORITMO DE PREDIÇÃO DA QUALIDADE DO RESULTADO DE ALGORITMOS DE BINARIZAÇÃO ...42

Treinamento ...44

Geração do modelo de predição ...45

Avaliação da qualidade do modelo ...45

Validação do modelo ...45

3.2 BINARIZAÇÃO ADAPTATIVA INTELIGENTE ...47

Limiarização local básica ...48

Limiarização local em pirâmide ...48

Smart-Binarization ...49

3.3 BINARIZAÇÃO ATRAVÉS DE CORREÇÃO DAS CORES DA IMAGEM ...51

3.4 PROCESSAMENTO DE CONTRASTE MULTIRESOLUÇÃO ...55

3.5 MELHORIA DA QUALIDADE E BINARIZAÇÃO AUTOMÁTICA...57

3.6 REDUÇÃO DE INK-BLEED UTILIZANDO SEPARAÇÃO EM CAMADAS ...60

3.7 PÓS-PROCESSAMENTO BASEADO EM ANÁLISE DE CARACTERÍSTICAS DE FASE E RUÍDO...63

(20)

3.8 UMA ABORDAGEM COMBINADA PARA BINARIZAÇÃO DE IMAGENS DE

DOCUMENTOS MANUSCRITOS ...67

3.9 BINARIZAÇÃO DE IMAGENS DE DOCUMENTOS A PARTIR DA COMBINAÇÃO DE IMAGENS DE CONTRASTE ...71

3.10 BINARIZAÇÃO DE IMAGENS DE DOCUMENTOS BASEADO NA PERCEPÇÃO DE OBJETOS À DISTÂNCIA ...74

3.11 ANÁLISE DE MÉTODOS DE ESTIMATIVA DE LARGURA DE TRAÇO ...76

4 NOVO ALGORITMO DE BINARIZAÇÃO DE IMAGENS DE DOCUMENTOS ...78

4.1 ESTIMATIVA DE BACKGROUND INICIAL ...79

4.2 REMOÇÃO DO BACKGROUND INICIAL ...83

4.3 DEFINIÇÃO DAS FRONTEIRAS DO FOREGROUND ...85

4.4 ESTIMATIVA DA LARGURA DO TRAÇO ...87

4.5 REFINAMENTO DO BACKGROUND ...96

4.6 REALCE DA IMAGEM ...97

4.7 IMAGEM DE CONTRASTE ...99

4.8 PREPARAÇÃO PARA A CLASSIFICAÇÃO DOS PIXELS DA IMAGEM ...103

4.9 CLASSIFICAÇÃO DOS PIXELS ...106

5 EXPERIMENTOS ...110

5.1 BASE DE DADOS ...110

5.2 METODOLOGIA...112

5.2.1 Critérios de Avaliação...112

5.2.2 Algoritmos para comparação ...114

5.2.3 Avaliação dos resultados ...115

5.2.4 Avaliação da qualidade da estimativa de largura do traço ...116

5.3 CONJUNTOS DE TESTE ...116

5.4 IMPLEMENTAÇÃO ...117

5.5 RESULTADOS ...117

5.5.1 Análise Subjetiva ...118

5.5.2 Análise Objetiva ...133

5.5.3. Avaliação da qualidade da estimativa de largura do traço ...153

5.6 CONSIDERAÇÕES ...155

6 CONCLUSÕES ...156

6.1 TRABALHOS FUTUROS ...158

Investigação sobre a estimativa de background ...158

(21)

Melhor forma de classificação dos pixels ...159

Buscar inovações para pré-processamento da imagem ...159

Melhorar a etapa de pós-processamento ...159

(22)

1 INTRODUÇÃO

Este capítulo apresenta o tema ao leitor, trazendo as motivações que impulsionaram o desenvolvimento deste trabalho, além dos objetivos perseguidos. Também é apresentada a estrutura textual deste documento, de forma superficial.

1.1 IMAGENS

Imagens, de uma forma geral, fazem parte do cotidiano da humanidade já há muitos anos. Imagens foram representadas como ilustrações encravadas nas pedras, pelos homens das cavernas; foram utilizadas pelos Egípcios para representar e eternizar seus rituais; pelos navegantes que desenvolveram suas cartas de navegação para representar o mundo num papel, e assim, obter sua orientação. Imagens foram, também, fruto de inspiração para grandes pintores, eternizando rostos até então desconhecidos. Imagens serviram para registrar momentos da história humana, e que até hoje nos ajudam a entender um pouco mais do que ocorreu em épocas passadas não muito distantes.

De forma mais ampla, imagens são figuras, uma forma de recordar e armazenar uma informação visual. Um exemplo bastante familiar no nosso cotidiano são as fotografias. Utilizamos fotografias o tempo todo, para criar uma recordação permanente de nossas experiências visuais. Ao olharmos para uma fotografia, dispensamos a necessidade de descrever lugares que estivemos, ou de falar sobre pessoas que conhecemos, ou de relatar experiências que vivemos, pois tudo pode estar escrito em uma fotografia, em uma imagem (EFFORD, 2000).

1.2 IMAGENS DIGITAIS

As imagens, por muito tempo, eram apenas elementos pictóricos, criados a partir do talento de um pintor ou desenhista, que serviam apenas para o propósito de representar, de forma física, eventos, lugares ou pessoas. Não existia forma de processamento automático, nem métodos de preservação ou filtragem.

Com o desenvolvimento dos computadores, as imagens passaram pelo processo de digitalização. Agora, o homem possuía uma nova forma de representar a informação contida

(23)

na imagem, não mais dependendo de elementos físicos, como papel, pedra ou tecido. A imagem poderia ser digitalizada, representada e armazenada de forma aceitável em um dispositivo eletrônico. A digitalização, claro, impõe, tanto para a música quanto para a imagem, o efeito da quantização, que nada mais é do que a representação de um sinal contínuo através de um conjunto discreto de pontos, mas essa é uma pequena deficiência diante das enormes vantagens que viriam junto com o desenvolvimento das imagens digitais.

Pode-se entender uma imagem digital como uma representação discreta de um dado contínuo do mundo real, como uma paisagem, que contém informações de cor e de localização espacial. Toda imagem digital convencional pode ser entendida como a quantidade de luz capturada por um conjunto de sensores distribuídos em um plano cartesiano a partir de um sinal contínuo que provocou a excitação dos sensores (SOLOMON e BREKON, 2011).

Por se tratar de uma representação discreta num plano cartesiano, a caracterização em 2D da imagem logo é associada à ideia da representação matricial, onde a largura da imagem seria associada à quantidade de colunas da matriz, e a altura da imagem estaria ligada à quantidade de linhas. Neste caso, cada elemento da matriz seria a unidade fundamental da imagem, rotineiramente chamada de pixel (GONZALEZ e WOODS, 2010). Um pixel ocuparia uma posição no espaço bidimensional da imagem, e estaria associado a uma informação relativa à quantidade de luz que foi absorvida pelos sensores de luz que ocupavam exatamente aquela posição, no momento da captura da imagem.

No caso mais simples, um pixel contém apenas uma informação de cor, que representaria a presença ou ausência de luz, caracterizando uma imagem em tom de cinza. Numa representação mais complexa, um único pixel teria atrelado a si um conjunto de números. A conversão entre esse conjunto de números e a imagem que é devidamente exibida como resultado é feita através de um mapa de cores, onde cada número do conjunto é representante de um componente de cor associado (SOLOMON e BREKON, 2011).

Apesar de não necessitar de armazenamento físico, a imagem digital precisa ser armazenada de alguma forma no dispositivo eletrônico. E a forma de armazenamento é o primeiro problema encontrado durante o tratamento de imagens digitais. Considere, como exemplo, armazenar, digitalmente, uma folha de papel com 210 x 297 mm de dimensões, digitalizada utilizando uma resolução de 200 dpi e 256 tons de cinza. Se nenhum tipo de compressão for utilizado, a imagem digital possuirá cerca de 1.700 pixels de largura por 2.400 pixels de altura, e ocupará cerca de 4 MB de espaço em disco (MELLO, 2002). Para

(24)

armazenar um livro de 500 páginas como essa seriam necessários pelo menos 2 GB de espaço em disco, algo que, há dez anos era impensável.

Com a evolução dos computadores, criou-se a necessidade de se investigar as imagens digitais com mais detalhes, analisando seu conteúdo de forma a excluir tudo o que é irrelevante para a completa compreensão do conteúdo presente na imagem. Abriu-se espaço para o processamento digital de imagens.

1.3 PROCESSAMENTO DIGITAL DE IMAGENS DE DOCUMENTOS

O processamento digital de imagens concentra seus esforços em duas áreas de atuação importantes: melhoria da disposição dos dados da imagem para transmissão, armazenamento e representação automática por um computador, e o aprimoramento de informações pictóricas para interpretação humana ou classificação automática (MARQUES e VIEIRA, 1999). Em ambos os casos, é necessário classificar as informações contidas na imagem de maneira correta e eficiente, buscando-se sempre destacar a informação presente na imagem.

A motivação inicial para o desenvolvimento de melhores técnicas para processamento digital de imagens surgiu a partir do programa espacial da NASA, na década de 60, para corrigir distorções nas imagens obtidas da superfície lunar (EFFORD, 2000). Hoje, mais de meio século depois, é possível encontrar processamento digital de imagens nas mais diversas áreas, como medicina, exercícios militares, gestão de tráfego, etc.

Dependendo do que se deseja extrair como informação útil a partir da imagem, diversas operações podem ser utilizadas. No caso particular de imagens de documentos, foco deste trabalho, a informação útil corresponde ao conteúdo textual presente na imagem. Normalmente, o que se espera obter a partir do processamento de uma imagem de um documento é o seu conteúdo textual, para que ele possa ser lido por um indivíduo, ou processado automaticamente por algum sistema computadorizado, através, por exemplo, de um reconhecedor óptico de caracteres.

A transposição do conteúdo textual de uma imagem de um documento para o formato de texto tende a ser um processo difícil. O processo de transposição manual é lento, custoso e pouco confiável. Efetuar tal operação automaticamente é o objetivo dos reconhecedores de caracteres, referenciados como ferramentas de reconhecimento óptico de caracteres - Optical

Character Recognition (OCR). Neste caso, o problema ganha em complexidade, pois se faz

(25)

ajustes de parâmetros para realizar a digitalização do documento, visando minimizar a ocorrência de problemas, como má iluminação, contraste inadequado, etc. (MELLO, 2002).

No que se diz respeito à estratégia para realizar a disposição do conteúdo textual, existem diversas técnicas de análise de imagens de documentos para extração do conteúdo textual. Normalmente, o procedimento para extrair o conteúdo textual de uma imagem de documento é composto por diversas etapas, cada uma delas sendo composta por diversas operações de processamento de imagem. Em geral, para uma imagem de documento, as etapas de processamento estão divididas de acordo com o fluxograma da Figura 1.1. Cada etapa tem sua devida importância para o sucesso do procedimento.

Figura 1.1: Fluxo de atividades comumente associadas ao processamento de uma imagem de documento

Normalmente, a captura da imagem digital é feita por meio de digitalizadores ópticos como scanners ou câmera digitais. Esses dispositivos realizam a captura em duas etapas: aquisição e digitalização. A aquisição da imagem corresponde ao processo de conversão de uma cena real tridimensional em uma imagem analógica, processo conhecido como transdução optoeletrônica. Em seguida, o sinal analógico obtido na saída do dispositivo de aquisição é submetido a uma discretização espacial, referenciada como amostragem de sinal, para que o sinal analógico (contínuo) possa ser representado e armazenado por um dispositivo computacional (discreto) (MARQUES e VIEIRA, 1999).

Por ser a etapa inicial do procedimento, a captura da imagem é muito importante, pois caso ocorram problemas nesta etapa, dificilmente eles serão sanados em etapas posteriores, já que normalmente os parâmetros de digitalização não são conhecidos (GONZALEZ e WOODS, 2010).

Aquisição da

imagem

Limiarização

Pré-processamento

Segmentação

do documento

Extração de

características

Classificação

(26)

Para tal, um processo fundamental nessa análise é a operação de limiarização, que consiste, em poucas palavras, em um método de classificação das informações contidas na imagem, utilizando-se limiares de classificação, que separam os pontos da imagem em grupos, que mais tarde podem ser interpretados adequadamente. A forma de limiarização mais comum é a binarização, que separa os objetos presentes na imagem, dos elementos de fundo, dividindo, assim, os pontos da imagem em dois conjuntos disjuntos. Em geral nesse tipo de classificação, os objetos de interesse, referenciados neste trabalho como pertencentes ao

foreground da imagem, são marcados com a cor preta e representam elementos de texto,

enquanto os objetos secundários na imagem, indicados como pertencentes ao background da imagem são marcados com a cor branca (MELLO, SANTOS e OLIVEIRA, 2012).

Uma limiarização correta, entretanto, pode levar ao sucesso da extração do conteúdo textual, além de servir para outros propósitos. Imagens bem limiarizadas permitem que os elementos do texto, linhas, palavras e letras, sejam segmentados com maior facilidade. Também é possível que a tarefa de classificação seja simplificada, já que o elemento de texto não trará consigo nenhum ruído que possa interferir na classificação do elemento.

Além das facilidades durante o tratamento da extração do conteúdo textual, uma boa limiarização também ajuda na hora de armazenar a imagem digital em um dispositivo eletrônico. Uma imagem limiarizada necessita de bem menos espaço em disco do que uma imagem comum, mesmo que não seja feito nenhum tipo de compressão sobre ela.

Uma imagem de documento bem limiarizada também oferece uma melhor forma de leitura para aquele que observa o documento. Se a limiarização for capaz de eliminar o conteúdo de ruído presente na imagem, a leitura do documento, por parte de um observador humano, é muito mais suave e instantânea, sem deixar margem para interpretação.

Limiarizar uma imagem de maneira eficiente, porém, não é uma tarefa trivial. A dificuldade maior reside em se encontrar o limiar ideal para classificar todos os elementos presentes na imagem de maneira correta, mesmo que estes objetos estejam sujeitos a ruídos diversos. Além disso, existe a dificuldade em se determinar o que é, de fato, importante na imagem. Em outras palavras, encontrar quais são os objetos de interesse na imagem. Dependendo da imagem, o conceito de objeto pode ser totalmente diferente.

A forma mais primária de se efetuar uma limiarização de uma imagem de documento se dá através da escolha de um ponto de corte, chamado de limiar de corte. Nessa abordagem, todos os tons que estiverem acima do limiar são considerados como da cor branca (pertencem ao background da imagem), enquanto que os que estiverem abaixo do tom são considerados

(27)

elementos de texto (foreground) e são marcados com o tom preto, e a operação de limiarização recebe o nome particular de binarização. A escolha do limiar geralmente é feita através da análise do histograma da imagem. O histograma de uma imagem apresenta, num plano cartesiano, a distribuição de cores, ou tons de cinza, encontrados na imagem. O eixo das

abscissas do plano representa um tom de cinza disponível na imagem, enquanto que o eito das ordenadas representa a quantidade de ocorrências daquele tom na imagem (Figura 1.2).

Figura 1.2: (a) Imagem de um documento manuscrito e bem conservado. Em (b) o resultado da binarização do

documento, após a análise do histograma (c), utilizando como limiar o valor indicado em vermelho.

(a) (b)

(c)

É de se esperar que, em uma imagem de documento, os tons mais escuros do histograma sejam provenientes dos elementos de texto (foreground) presentes na imagem, enquanto que os tons mais claros correspondam ao papel utilizado (background). Numa situação desse tipo, a escolha do limiar de separação é facilitada, e o resultado da binarização normalmente é bem sucedido.

(28)

Observando a Figura 1.2, é possível perceber que, apesar das diferenças de tom na escrita utilizada no documento original, com letras mais claras do que outras, existe uma grande diferença entre a quantidade de tons claros, em relação aos tons escuros. Neste caso, a escolha do limiar se torna mais simples, já que existe uma divisão evidente no histograma, sobre a distribuição dos elementos de background e foreground.

Mas, no caso de imagens de documentos, nem sempre o comportamento da Figura 1.2 é verificado. Documentos estão sujeitos a ruídos, sejam em decorrência do seu uso cotidiano enquanto papel, efeitos de uma má digitalização, entre diversos outros. Nesses casos, a análise de histograma muitas vezes não produz o resultado esperado (Figura 1.3).

Assim como existem diversas técnicas que analisam histogramas para determinar pontos de corte de tom na imagem, existem diversas outras técnicas que utilizam diferentes estratégias para tentar resolver o problema da limiarização (MELLO, SANTOS e OLIVEIRA, 2012). Além da análise de histograma, existem: algoritmos baseados na análise de Entropia (SHANNON, 1948), como o algoritmo de (PUN, 1981) e (JOHANNSEN e BILLIE, 1982); algoritmos iterativos, como o de (RIDLER e CALVARD, 1978); algoritmos baseados em lógica difusa (Fuzzy algorithm) como o algoritmo C-Means (JAWAHAR, BISWAS e RAY, 2000); algoritmos adaptativos, como os algoritmos de (YAN e YANG, 2000) e (MILYAEV, BARINOVA, et al., 2013) entre outras técnicas que surgem a cada dia (SEZGIN e SANKUR, 2004).

Só há espaço para tantas estratégias diferentes porque o problema da limiarização de imagens de documentos ainda não foi solucionado definitivamente. Um fato que complica bastante o problema é a natureza incerta do tipo de documento a ser processado. A única informação conhecida, para um algoritmo que se propõe a processar imagens de documentos, é que a imagem do documento contém algum elemento de texto, geralmente de cor mais escura do que o papel. Qualquer outra informação sobre o documento deve ser observada no ato do processamento.

(29)

Figura 1.3: (a) Imagem de um documento que apresenta manchas. O resultado (b) da binarização não foi capaz

de eliminar a mancha, impossibilitando a leitura de algumas partes do texto, apesar da análise do histograma (c) ter encontrado um ponto de separação entre background e foreground.

(a) (b)

(30)

Documentos podem conter manchas, devido ao seu uso enquanto papel. Essas manchas não podem ser removidas, pois muitas vezes não é possível se replicar o documento original, dado o seu valor histórico, por exemplo. Também é possível que problemas apareçam durante a digitalização do documento, ocasionando problemas de iluminação na imagem digital (Figura 1.4).

Mesmo que fosse possível modelar matematicamente um conjunto de ruído como, por exemplo, uma mancha encontrada em um documento, como fazer com que essa modelagem matemática represente todas as possíveis manchas que podem aparecer em um ou em vários documentos ao mesmo tempo? Parece uma tarefa impossível, dado a complexidade do problema. Por isso os esforços para conseguir algoritmos que sejam capazes de produzir bons resultados, a partir de imagens de documentos de qualquer tipo (Figura 1.4) estão cada vez mais presentes nos trabalhos recentes da literatura. Esta dissertação se inclui nesta área.

Figura 1.4: Exemplos de problemas encontrados em imagens de documentos. Manchas, iluminação não

(31)

1.4 MOTIVAÇÃO

Diversas aplicações podem fazer uso do processamento de imagens digitais. Uma imagem de documento bem binarizada oferece uma melhor forma de leitura para aquele que observa o documento (Figura 1.5). Se a limiarização for capaz de eliminar o conteúdo de ruído presente na imagem, a leitura do documento, por parte de um observador humano, é muito mais suave e instantânea, sem deixar margem para interpretação.

Figura 1.5: Exemplo do uso da binarização como forma de melhoria da visualização da imagem

Uma aplicação bastante comum no mercado e que tem a binarização como passo fundamental é o reconhecimento óptico de caracteres. Este sistema normalmente é constituído de três etapas: binarização, segmentação e classificação (Figura 1.6).

(32)

Neste caso, a binarização é uma parte fundamental no sistema, pois ela é a operação responsável por eliminar o background da imagem e preservar o conteúdo textual sem comprometer as demais etapas do processo. Se esse objetivo for alcançado, as etapas de segmentação e classificação certamente encontrarão menores dificuldades em alcançar seus objetivos.

Além das facilidades durante o tratamento da extração do conteúdo textual, uma boa binarização também pode ser utilizada como método de compressão de arquivos de imagem em um computador eletrônico. Considerando como exemplo um bitmap, de dimensões 1091 x 581 pixels, ilustrado na Figura 1.7. Se esse bitmap for salvo utilizando-se 24 bits de cor para cada pixel, ocupará 1,81 MB de espaço em disco, apesar de a imagem conter apenas tons de cinza. Caso esse mesmo bitmap seja binarizado, mantendo as mesmas dimensões e o mesmo formato, mas agora necessitando apenas de 1 bit de cor para cada pixel, o seu tamanho em disco é reduzido para 79,4 KB. Por possuir apenas duas cores, o bitmap binarizado possui muito menos informação do que a imagem original, apesar de ser capaz de manter, dependendo da qualidade da binarização, a informação textual.

Figura 1.7: Exemplo do uso da binarização como forma de compressão. A imagem (a), com 24 bits de cor para

cada pixel possui tamanho 1.81MB, enquanto que a imagem (b), com apenas 1 bit de cor, possui 79,4 KB. Ambas possuem as mesmas dimensões.

(a) (b)

Outra aplicação importante e muito utilizada no cotidiano atualmente é o reconhecimento de códigos de barra, especialmente em dispositivos móveis. Com a agitação das cidades grandes, operações simples, como efetuar pagamentos de boletos, tornam-se cada vez mais uma perda de tempo. A sociedade moderna exige eficiência em tudo, e já não é mais tolerável enfrentar filas em bancos e caixas eletrônicos a fim de se efetuar pagamentos, quando tal operação pode ser realizada diretamente pelo smartphone. Através de aplicativos leitores de códigos de barra que identificam o valor a ser pago, o usuário realiza o pagamento direto na sua conta, sem a necessidade de enfrentamento de filas, ou mesmo de se deslocar de

(33)

um lugar para o outro. Numa aplicação como essa, não é aceitável que uma leitura de código demore, ou que ela seja feita de forma incorreta. E o algoritmo deve ser robusto para tolerar os problemas que possam surgir durante a leitura de um código de barras, sem que isso traga prejuízo ao seu desempenho. Neste caso, a binarização também é peça chave, uma vez que é responsável por eliminar o ruído que pode aparecer na etapa da leitura e preservar somente o código de barras para que sua leitura possa ser feita com o mínimo de erro possível.

Considerando o vasto campo de aplicações de processamento de imagens que se utilizam da binarização como uma etapa intermediária ou final, fica evidente a importância da binarização como uma etapa fundamental para o sucesso de qualquer técnica que lide com imagens de documentos. Mais especificamente no tratamento de imagens de documentos no intuito de se efetuar o reconhecimento automático, a extração de seu conteúdo textual e o armazenamento em disco das imagens dos documentos.

1.5 OBJETIVOS

Este trabalho tem como objetivo principal propor um novo algoritmo de binarização de imagens de documentos, a partir do que foi observado na literatura recente, e utilizando conceitos e ideias aplicadas em diversas técnicas já existentes, de forma a contribuir para os estudos nesta área, além de oferecer uma forma alternativa de binarização que pode ser avaliada em estudos futuros.

Para isso, é necessária uma análise de algumas situações inerentes ao problema da binarização de imagens de documentos, considerando as principais características desse grupo particular de imagens, levando-se em conta alguns problemas encontrados nessas imagens, bem como estratégias desenvolvidas na literatura para minimizar tais problemas. Também devem ser consideradas as estratégias de comparação de resultados mais frequentemente utilizadas nos trabalhos da área, de forma a manter a coerência dos resultados.

Um objetivo secundário deste trabalho é propor uma nova forma de estimativa de largura de traço para imagens de documentos manuscritos e tipografados, que seja adaptativa e automática em relação ao tipo de documento que esteja sendo processado, não necessite de nenhuma iteração do usuário, ou parâmetro externo, e que seja capaz de produzir um resultado que seja o mais fiel possível ao verdadeiro valor do traço utilizado no texto presente na imagem, levando em consideração a resolução da imagem.

(34)

1.6 ESTRUTURA DO TRABALHO

Este trabalho está estruturado em cinco capítulos. No Capítulo 1, apresenta-se uma visão geral da área de processamento digital de imagens além das motivações e objetivos da pesquisa. No Capítulo 2, temos a apresentação de conceitos básicos inerentes à área de processamento digital de imagens que são frequentemente utilizados neste trabalho. Todos os elementos apresentados neste capítulo são utilizados ou mencionados, em algum momento durante este trabalho. No Capítulo 3, apresentamos algumas técnicas consagradas na literatura recente, que servem como binarização ou etapas de processamento de imagens em geral. Algumas dessas técnicas atuam sobre problemas que são bastante frequentes em imagens de documentos. O Capítulo 4 faz a apresentação do algoritmo proposto para binarização de imagens de documentos, utilizando uma estimativa de largura de traço também proposta neste trabalho. No Capítulo 5, é feita uma comparação dos resultados obtidos pela técnica proposta em relação às outras técnicas apresentadas neste trabalho, seguindo as métricas utilizadas para tal, além da avaliação da qualidade da estimativa de largura de traço proposta, em relação às outras estratégias dispostas na literatura. O Capítulo 6 encerra o trabalho, apresentando as conclusões obtidas a partir deste estudo e as sugestões para melhorias sobre a técnica proposta.

(35)

2 CONCEITOS BÁSICOS

Neste capítulo, são introduzidos alguns conceitos utilizados ao longo deste trabalho. Todos os itens descritos neste capítulo descrevem operações e formas de representação que foram utilizadas de alguma forma no algoritmo proposto.

2.1 LIMIARIZAÇÃO, BINARIZAÇÃO E JANELAMENTO

Uma operação de extrema importância para o processamento digital de imagens e foco principal deste trabalho é a operação de limiarização de uma imagem. A limiarização classifica os pixels da imagem em conjuntos, que podem ser interpretados de maneira adequada, a depender do objetivo pelo qual se propõe a limiarização. Dependendo da quantidade de limiares utilizados, os pixels são classificados em diversos conjuntos, e cada elemento do conjunto possui uma característica em comum a todo o resto, seja ela qual for.

Um objetivo de uma limiarização, por exemplo, pode ser separar, em uma imagem de um documento, quais os pixels que pertencem ao foreground, e que, por tanto, devem conter alguma informação textual, e quais os pixels que pertencem ao background (o papel), que normalmente são descartados. Uma forma de efetuar essa separação bastante simples é se definir um, ou mais de um valor de intensidade limiar que servirá de parâmetro de comparação com os pixels da imagem. Esta classificação, porém, é uma das possíveis interpretações que uma limiarização pode ter.

Tomando como exemplo a imagem da Figura 2.1, é possível melhorar a visualização da imagem, aumentando a separação entre os tons de cinza dos pixels da imagem. Esse resultado pode ser obtido através do uso da limiarização da imagem. Dependendo da quantidade de limiares que são aplicados na imagem, a separação entre os tons de cinza dos elementos de foreground e background vai aumentando, e os elementos textuais vão ficando mais evidentes. Em contrapartida, à medida que reduzimos a quantidade de limiares utilizados, aumentamos a complexidade do problema, já que vai se tornando mais difícil aplicar um limiar que seja capaz de identificar, unicamente, todo o conteúdo textual da imagem.

(36)

Figura 2.1: Exemplo das várias formas de aplicação da limiarização sobre uma imagem. A imagem original (a)

depois de limiarizada por 3 limiares (b), 2 limiares (c) e 1 limiar (d). A medida que o número de limiares diminui, a separação entre os elementos de texto e o fundo aumentam. A limiarização ilustrada em (d) recebe o nome particular de binarização.

(a) (b)

(c) (d)

A equação (1) representa uma forma específica de limiarização, utilizando um único valor para limiarizar toda a imagem.

(1)

Na equação (1), g(x, y) é o valor de intensidade do pixel na imagem limiarizada que será produzida, f(x, y) é o valor de intensidade do pixel na imagem original e T é o valor do limiar. Como a função g(x, y) só possui dois valores possíveis para a intensidade do pixel, a limiarização é denominada binarização e a imagem resultante é, de fato, em preto e branco.

Quando o valor do limiar T é uma constante aplicada por toda a imagem, o processo é conhecido como binarização global. Em geral, a binarização global não é adequada, pois é comum no caso de imagens de documentos, por exemplo, ocorrerem variações nos níveis de cinza dos objetos e do fundo, além de estarem sujeitas à iluminação não uniforme, ruídos,

(37)

entre outros fatores (PEDRINI e SCHWARTZ, 2008). Nesses casos, pode ser mais eficaz mudar o valor do limiar de acordo com suas características locais. Nesse caso, o processo é chamado de binarização local ou binarização adaptativa. O uso de um método de binarização local geralmente envolve operações de janelamento. A escolha do limiar utilizado normalmente depende das características encontradas na análise local. Neste caso, para cada novo conjunto local é calculado um novo limiar T, que é utilizado para classificar os pixels da imagem, como no caso da binarização global.

Aplicar um janelamento sobre uma imagem significa aplicar uma técnica ou avaliar certas características da imagem apenas sobre um conjunto específico de pixels, repetindo o processo várias vezes até que todos os pixels da imagem tenham sido analisados. Por percorrer a imagem várias vezes, é comum na literatura esta operação ser denominada de

janelamento deslizante ou janela deslizante. A operação de janelamento é bastante utilizada

em binarizações locais, que geralmente utilizam características de vizinhança para determinação do limiar local. A principal vantagem do janelamento é obter informações a respeito da imagem de forma local, diminuindo a influência de ruídos presentes na imagem durante a coleta de informações dos pixels.

As janelas utilizadas para percorrer a imagem podem ser unidimensionais ou

bidimensionais (Figura 2.2), e o número de pixels dentro da janela é indicado através da

dimensão da janela. As janelas unidimensionais possuem apenas uma dimensão (N), que indica a quantidade de pixels que estão dentro da janela em uma mesma linha. Já as janelas bidimensionais possuem duas dimensões (M x N), que indicam a quantidade de linhas e colunas que compõem a janela. Neste caso, se o número de linhas for igual ao número de colunas (M = N = k), a janela é dita como janela quadrada, de dimensão k.

Figura 2.2:(a) Janela unidimensional de comprimento 5 e (b) janela bidimensional de dimensão 4x11.

(38)

Normalmente, o processamento em janela é utilizado para extrair informações a respeito da vizinhança de algum pixel. Por isso, é importante definir, para cada janela, a posição do pixel central da janela, que corresponde ao pixel que irá assumir o valor observado pela análise da janela. A posição do pixel central, apesar de frequentemente associada ao centro geométrico da forma da janela, não necessariamente precisa estar nesta posição. De fato, não necessita sequer estar dentro da janela (ZHAO e KAMEL, 1993).

2.2 PROBLEMAS TÍPICOS EM IMAGENS DE DOCUMENTOS

Idealmente, as imagens de documentos devem apresentar background uniforme. Isso, porém, não é regra, uma vez que documentos antigos, por exemplo, estão sujeitos ao desgaste causado pelo tempo e pelas circunstâncias de uso. Como se isso não bastasse, o próprio evento de digitalização pode introduzir artefatos na imagem, que acabam acrescentando dificuldades durante o processo de análise da imagem.

Neste trabalho, foram utilizadas imagens retiradas da base de testes do DIBCO –

Documento Image Binarization Contest (NTIROGIANNIS, GATOS e PRATIKAKIS, 2014)

entre os anos de 2009 a 2013. Todas as imagens apresentam algum tipo de problema comum a imagens de documentos antigos. Apesar de serem de simples reconhecimento a olho nu, a presença desses elementos de ruído torna a tarefa de separação entre background e foreground muito mais complicada. As imagens de teste da edição 2014 não foram utilizadas por não estarem disponíveis até o encerramento desta dissertação.

Os problemas encontrados nas imagens utilizadas neste trabalho podem ser concentrados em 4 classes: (a) imagens com manchas de background, (b) imagens que sofrem influência da tinta do verso da folha (efeito bleed-through), (c) imagens com baixo contraste, e (d) imagens com problemas de iluminação. A Figura 2.3 apresenta algumas imagens que demonstram a ocorrência desses efeitos.

(39)

Figura 2.3: Exemplos de imagens de documentos (a) com manchas, (b) bleed-through, (c) baixo contraste e (d)

iluminação não uniforme.

(a) (b)

(c) (d)

2.3 OPERAÇÕES MORFOLÓGICAS

A morfologia matemática utilizada no processamento de imagens vem para suprir uma deficiência dos métodos de processamento de imagem, que tem como principal característica a sua linearidade. Por exemplo, em operações de filtragem, normalmente é possível reverter determinadas características da imagem, desde que seja conhecido o filtro que foi aplicado inicialmente, sendo possível desfazer o efeito da filtragem inicial. Apesar de bastante úteis, as abordagens lineares não conseguem lidar com determinados problemas de processamento de imagens, como por exemplo, detectar regiões que possuem uma forma específica, como um círculo, ou quadrados.

Para esses problemas, foi desenvolvida uma teoria completa utilizando-se transformações não lineares baseadas na forma dos núcleos utilizados. Tais operações são definidas como operações morfológicas, e utilizam operadores morfológicos para realizar procedimentos irreversíveis na imagem, que estão atrelados à forma como os pixels se organizam na imagem. O objetivo principal da operação morfológica é extrair informações relativas à geometria e a topologia de um elemento desconhecido, no caso, a imagem avaliada, utilizando informações obtidas a partir de um elemento conhecido, no caso, o elemento estruturante (GONZALEZ e WOODS, 2010).