Um algoritmo de limiarização para imagens de documentos baseado na percepção de objetos a distância.

(1)

Pós-Graduação em Ciência da Computação

“Um algoritmo de limiarização para imagens de

documentos baseado na percepção de objetos a

distância”

Por

Rafael Galvão de Mesquita

Dissertação de Mestrado

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

(2)

UNIVERSIDADE FEDERAL DE PERNAMBUCO

CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

RAFAEL GALVÃO DE MESQUITA

“UM ALGORITMO DE LIMIARIZAÇÃO PARA IMAGENS DE

DOCUMENTOS BASEADO NA PERCEPÇÃO DE OBJETOS A

DISTÂNCIA"

ESTE TRABALHO FOI APRESENTADO À PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO DO CENTRO DE INFORMÁTICA DA UNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITO PARCIAL PARA OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIA DA COMPUTAÇÃO.

ORIENTADOR(A): PROF. DR. CARLOS ALEXANDRE BARROS DE MELLO

(3)

Catalogação na fonte

Bibliotecária Jane Souto Maior, CRB4-571

Mesquita, Rafael Galvão de

Um algoritmo de limiarização para imagens de documentos baseado na percepção de objetos a distância. / Rafael Galvão de Mesquita. - Recife: O Autor, 2013.

xi, 73 p.: fig., tab.

Orientador: Carlos Alexandre Barros de Mello.

Dissertação (mestrado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2013.

Inclui bibliografia e apêndice.

1. Processamento de imagem. 2. Visão computacional. 3. Inteligência computacional. I. Mello, Carlos Alexandre Barros de (orientador). II. Título.

(4)

Dissertação de Mestrado apresentada por Rafael Galvão de Mesquita à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título “Um Algoritmo de Limiarização para Imagens de Documentos Baseado na Percepção de Objetos a Distância” orientada pelo Prof. Carlos Alexandre Barros de Mello e aprovada pela Banca Examinadora formada pelos professores:

______________________________________________ Prof. George Darmiton da Cunha Cavalcanti

Centro de Informática / UFPE

______________________________________________ Prof. Herman Martins Gomes

Departamento de Sistemas e Computação / UFCG

_______________________________________________ Prof. Carlos Alxandre Barros de Mello

Centro de Informática / UFPE

Visto e permitida a impressão. Recife, 27 de fevereiro de 2013

___________________________________________________

Profa. Edna Natividade da Silva Barros

Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

Agradecimentos

Agradeço primeiramente a Deus. Agradeço também aos meus pais, por todo o investimento, tempo e atenção dedicados à minha educação e formação básica. Agradeço à minha tia Giselle e à minha avó Geny, também pelo apoio e dedicação na minha educação básica. Agradeço a toda a minha família e amigos. Agradeço à minha namorada, Juliana, pelo apoio nas horas de lazer.

Um agradecimento especial ao professor Dr. Carlos Alexandre Barros de Mello pela orientação de excelente qualidade e grande dedicação ao trabalho desenvolvido. Agradeço também aos meus professores da graduação e pós-graduação pelos ensinamentos. Finalmente, e não com menos importância, agradeço aos meus professores dos tempos de colégio.

(6)

(7)

Resumo

Esta dissertação apresenta um novo algoritmo para binarização de imagens de documentos que sofrem de alguns tipos de degradação. O método proposto é baseado na ideia de que pela diferença absoluta entre um documento e seu background é possível enfatizar regiões de texto ao mesmo tempo em que regiões degradadas são atenuadas. Assim, para simular o background de uma imagem de documento este trabalho busca inspiração em alguns aspectos do sistema visual humano e na maneira como percebemos objetos distantes. O algoritmo proposto utiliza a noção de acuidade visual humana definida por Snellen para avaliar o quão longe uma imagem de documento deve estar de um observador de forma que a região de texto e pequenos detalhes não sejam mais percebidos, restando assim somente seu background. Para simular o modo como percebemos uma imagem distante, duas operações morfológicas de fechamento são aplicadas em série, e, em seguida, a imagem é redimensionada de forma que ela corresponda ao tamanho da imagem que seria formada na retina de um observador. Finalizando, um esquema composto pelo algoritmo de agrupamento kmeans e pelo método de limiarização de Otsu também é proposto como parte do algoritmo. O método proposto foi testado em duas bases de imagens de documentos (uma pretencente à competição DIBCO – Document Image Binarization Contest - e outra pertencente ao projeto ProHist) contendo diversos tipos de degradação. Foram realizados quatro experimentos quantitativos e o método proposto obteve o melhor resultado em dois deles. Além disso, este trabalho também propõe uma melhoria no modo de avaliação da binarização de imagens de documentos proposta pelos organizadores da DIBCO, de forma selecionar o método de melhores resultados no caso geral.

Palavras-chave: Processamento de Imagens Documentos Históricos, Limiarização,

(8)

Abstract

This dissertation presents a new algorithm to binarize images of documents affected by several types of degradation. The proposed method is based on the idea that by the absolute difference between a document and its background it is possible to emphasize text regions while degraded regions are attenuated. Thus, to simulate the background of the image of a document, this work gets inspiration in some aspects of the human visual system and on the way we perceive distant objects. The proposed algorithm uses Snellen’s visual acuity notion to evaluate how far the image of a document must be from an observer so that the text regions and small details are not perceived anymore, remaining just the background. To simulate the way we perceive an image that is distant from us, two closing morphological operations are applied in series and the image is downsized in a way that it matches the size of the image that would be formed on the retina of the observer. In conclusion, a schema composed of kmeans clustering algorithm and Otsu’s thresholding method is also proposed as part of the algorithm. The proposed method has been tested on two distinct datasets (one from DIBCO – Document Image Binarization Contest – and another from ProHist Project) of images of degraded documents. Four quantitative experiments were executed and the proposed method achieved the best result in two of them. We also propose an improvement in the way thresholding algorithms are evaluated as established by DIBCO organizers.

Keywords: Historical Document Image Processing, Thresholding, Image Segmentation, Visual

(9)

Sumário

1 INTRODUÇÃO ... 1

1.1 PROCESSAMENTO DIGITAL DE IMAGENS ... 1

1.2 PROCESSAMENTO DE IMAGENS DE DOCUMENTOS HISTÓRICOS ... 5

1.3 MOTIVAÇÃO ... 7

1.4 OBJETIVOS ... 9

1.5 ESTRUTURA DA DISSERTAÇÃO ... 9

2 CONCEITOS BÁSICOS DE PROCESSAMENTO DIGITAL DE IMAGENS ... 11

2.1 MORFOLOGIA MATEMÁTICA ... 11 2.1.1 DILATAÇÃO ... 15 2.1.2 EROSÃO ... 15 2.1.3 ABERTURA ... 18 2.1.4 FECHAMENTO ... 20 2.2 EQUALIZAÇÃO DE HISTOGRAMA ... 21

2.3 DETECÇÃO DE BORDAS POR MÁSCARAS DE SOBEL ... 24

3 ALGORITMOS DE LIMIARIZAÇÃO ... 28

3.1 MÉTODOS BASEADOS EM CLUSTERIZAÇÃO ... 28

3.1.1 OTSU ... 28

3.1.2 K-MEANS ... 29

3.2 MÉTODOS BASEADOS EM ENTROPIA ... 30

3.2.1 MELLO ... 31 3.3 MÉTODOS LOCAIS ... 32 3.3.1 NIBLACK ... 32 3.3.2 SAUVOLA ... 32 3.3.3 BERNSEN ... 32 3.4 SU ... 33 3.5 KAMEL ... 34 4 ALGORITMO PROPOSTO ... 35

4.1 CÁLCULO DA DISTÂNCIA SIMULADA ... 35

4.2 CÁLCULO DO TAMANHO DA IMAGEM DISTANTE ... 37

4.3 PRIMEIRO PASSO DOALGORITMO PROPOSTO ... 38

4.4 SEGUNDO PASSO DOALGORITMO PROPOSTO ... 39

5 EXPERIMENTOS E ANÁLISE DE RESULTADOS ... 45

5.1 AVALIAÇÃO SUBJETIVA ... 45

5.2 EXPERIMENTOS COM A BASE DE IMAGENS DO DIBCO2011 ... 45

5.3 EXPERIMENTOS COM A BASE DE IMAGENS DO PROJETO PROHIST ... 48

6 CONCLUSÕES E TRABALHOS FUTUROS ... 53

6.1 CONTRIBUIÇÕES ... 53

6.2 TRABALHOS FUTUROS ... 54

REFERÊNCIAS BIBLIOGRÁFICAS ... 56

(10)

Lista de Figuras

FIGURA 1.1ETAPAS DE UM SISTEMA DE PROCESSAMENTO DIGITAL DE IMAGENS (ADAPTADO DE [8]) ... 2

FIGURA 1.2EXEMPLOS DE IMAGENS DE DOCUMENTOS COM DIVERSOS EFEITOS DE DEGRADAÇÃO.(A) E (B) RETIRADOS DE [19] E (C) E (D) RETIRADOS DE [20] ... 6

FIGURA 1.3ALGORITMOS CLÁSSICOS DE LIMIARIZAÇÃO APLICADOS A IMAGENS DE DOCUMENTOS HISTÓRICOS.(A)IMAGEM ORIGINAL EM TONS DE CINZA,(B) IMAGEM BINARIZADA PELO ALGORITMO DE OTSU,(C) IMAGEM BINARIZADA PELO ALGORITMO DE SAUVOLA E (D) IMAGEM BINARIZADA PELO ALGORITMO DE KAPUR ... 8

FIGURA 2.1DIFERENTES REPRESENTAÇÕES DE UMA IMAGEM DIGITAL (ADAPTADO DE [8]).(A)REPRESENTAÇÃO DE UMA IMAGEM COMO UMA MATRIZ DE INTENSIDADES E (B) IMAGEM REPRESENTADA GRAFICAMENTE COMO UMA SUPERFÍCIE ... 12

FIGURA 2.2EXEMPLO DE ELEMENTOS ESTRUTURANTES ... 13

FIGURA 2.3ILUSTRAÇÃO DA TRANSLAÇÃO DE UM CONJUNTO B POR PELO ELEMENTO ‘Z’(ADAPTADA DE [8]) ... 14

FIGURA 2.4ILUTRAÇÃO DA REFLEXÃO DE UM CONJUNTO A(ADAPTADA DE [8]) ... 15

FIGURA 2.5EXEMPLO DE DILATAÇÃO EM UMA IMAGEM BINÁRIA.(A)IMAGEM ORIGINAL,(B) ELEMENTO ESTRUTURANTE E (C) IMAGEM DILATADA ... 16

FIGURA 2.6EXEMPLO DE DILATAÇÃO UTILIZANDO IMAGENS DE DOCUMENTOS.(A)IMAGEM ORIGINAL,(B) IMAGEM ORIGINAL COM AS CORES COMPLEMENTADAS,(C) DILATAÇÃO DA IMAGEM (B) COM UM ELEMENTO ESTRUTURANTE EM FORMATO DE DISCO DE RAIO 2 E (D) COMPLEMENTAÇÃO DAS CORES DA IMAGEM (C)... 16

FIGURA 2.7 EXEMPLO DE APLICAÇÃO DE EROSÃO: A) CONJUNTO ORIGINAL; B) ELEMENTO ESTRUTURANTE; C) RESULTADO DA APLICAÇÃO DO ELEMENTO ESTRUTURANTE ILUSTRADO EM (B) AO CONJUNTO EM (A); D) ELEMENTO ESTRUTURANTE; E) RESULTADO DA APLICAÇÃO DO ELEMENTO ESTRUTURANTE ILUSTRADO EM (D) AO CONJUNTO EM (A).ADAPTADA DE [8] ... 17

FIGURA 2.8EXEMPLO DE EROSÃO UTILIZANDO IMAGENS DE DOCUMENTOS.(A)IMAGEM ORIGINAL,(B) IMAGEM (A) ERODIDA COM UM ELEMENTO ESTRUTURANTE EM FORMATO DE DISCO DE RAIO 2,(C) IMAGEM ORIGINAL COM CORES COMPLEMENTADAS E (D) EROSÃO DA IMAGEM (C) COM ELEMENTO ESTRUTURANTE EM FORMA DE DISCO DE RAIO 2. ... 18

FIGURA 2.9DEMONSTRAÇÃO DA OPERAÇÃO MORFOLÓGICA DE FECHAMENTO, ADAPTADA DE [8].(A)ELEMENTO ESTRUTURANTE SENDO APLICADO NA FRONTEIRA DO OBJETO,(B) ELEMENTO ESTRUTURANTE E (C) RESULTADO DA OPERAÇÃO, ONDE A LINHA TRACEJADA REPRESENTA A FRONTEIRA ORIGINAL, ENQUANTO QUE A LINHA CONTÍNUA REPRESENTA A FRONTEIRA APÓS APLICAÇÃO DA OPERAÇÃO DE ABERTURA ... 19

FIGURA 2.10EXEMPLO DE APLICAÇÃO DA OPERAÇÃO DE ABERTURA.(A)IMAGEM ORIGINAL E (B) RESULTADO DA ABERTURA ... 20

FIGURA 2.11ILUSTRAÇÃO DA OPERAÇÃO MORFOLÓGICA DE FECHAMENTO.(A)SINAL BIDIMENSIONAL REPRESENTANDO UMA LINHA DA IMAGEM;(B) APLICAÇÃO DA OPERAÇÃO MORFOLÓGICA DE FECHAMENTO E (C) SINAL APÓS A APLICAÇÃO DO FECHAMENTO. ADAPTADA DE [8] ... 22

FIGURA 2.12APLICAÇÃO DA OPERAÇÃO MORFOLÓGICA DE FECHAMENTO COM ELEMENTO ESTRUTURANTE EM FORMA DE DISCO DE RAIO IGUAL A 4 PIXELS.(A)IMAGEM ORIGINAL,(B) IMAGEM COMPLEMENTAR,(C) IMAGEM APÓS APLICAÇÃO DA OPERAÇÃO DE FECHAMENTO,(D) NOVA COMPLEMENTAÇÃO APÓS APLICAÇÃO DO FECHAMENTO ... 23

FIGURA 2.13APLICAÇÃO DA EQUALIZAÇÃO DE HISTOGRAMA.(A)IMAGEM ORIGINAL,(B)HISTOGRAMA DE (A),(C)IMAGEM (A) APÓS EQUALIZAÇÃO DE HISTOGRAMA E (D) HISTOGRAMA DE (A) EQUALIZADO ... 24

FIGURA 2.14OPERADORES DE SOBEL NAS DIREÇÕES VERTICAL (A) E HORIZONTAL (B) ... 26

FIGURA 2.15DETECTOR DE BORDAS UTILIZANDO MÁSCARAS DE SOBEL:(A) IMAGEM ORIGINAL,(B) MAGNITUDE DO GRADIENTE UTILIZANDO AS MÁSCARAS NAS DIREÇÕES VERTICAL E HORIZONTAL E (C) RESULTADO DA LIMIARIZAÇÃO DA IMAGEM (B) ... 27

FIGURA 3.1ILUSTRAÇÃO DO ALGORITMO K-MEANS.PRIMEIRA LINHA:(COLUNA DA ESQUERDA)PONTOS VERDES SIMBOLIZAM OS DADOS, E AS CRUZES SIMBOLIZAM OS CENTROS DE CADA GRUPO;(COLUNA DO MEIO) CADA PONTO É DESIGNADO AO GRUPO (VERDE OU AZUL) DE CENTRO MAIS PRÓXIMO;(COLUNA DA DIREITA) OS CENTROS DE CADA GRUPO SÃO ATUALIZADOS DE ACORDO COM AS MÉDIAS DOS PONTOS DOS SEUS RESPECTIVOS GRUPOS.SEGUNDAS E TERCEIRAS LINHAS:REPETIÇÃO DOS PASSOS DO ALGORITMO, ATÉ A CONVERGÊNCIA. ... 30

FIGURA 3.2REGIÕES DE VIZINHANÇA UTILIZADAS NO ALGORITMO DE KAMEL.ADAPTADO DO TRABALHO DE KAMEL [39] ... 34

FIGURA 4.1MÍNIMO ÂNGULO DE RESOLUÇÃO E O TESTE DE ACUIDADE VISUAL DE SNELLEN ... 36

FIGURA 4.2ILUSTRAÇÃO DA IMAGEM FORMADA NA RETINA ... 38

FIGURA 4.3ILUSTRAÇÃO DO ALGORITMO PROPOSTO:(A) IMAGEM ORIGINAL;(B) IMAGEM APÓS FECHAMENTO DUPLO;(C) IMAGEM DE TAMANHO DIMINUÍDO (ZOOM);(D) IMAGEM DE VOLTA AO SEU TAMANHO ORIGINAL, SIMULANDO UMA IMAGEM VISTA À DISTANCIA;(E) DIFERENÇA ABSOLUTA ENTRE A IMAGEM ANTERIOR E A IMAGEM ORIGINAL;(F) PIXELS COM CORES ABAIXO DE 10 CONVERTIDOS PARA BRANCO;(G) COMPLEMENTO DA IMAGEM ANTERIOR (EXCETO PARA PIXELS BRANCOS);(H) EQUALIZAÇÃO DO HISTOGRAMA DE (G);(I) IMAGEM GERADA PELO ALGORITMO K-MEANS APLICADO À (H);(J) IMAGEM GERADA PELO MÉTODO DE OTSU APLICADO À (H);(K) IMAGEM FINAL (COMBINAÇÃO ENTRE AS IMAGENS GERADAS PELOS MÉTODO DE OTSU E K-MEANS) ... 41 FIGURA 4.4RECONSTRUÇÃO POR MEIO DA COMBINAÇÃO DO ALGORITMO DE K-MEANS COM O MÉTODO DE OTSU;(A) IMAGEM OBTIDA

(11)

FIGURA 4.5ILUSTRAÇÃO DA COMPARAÇÃO ENTRE DUAS IMAGENS PELA MEDIDA DRD PARA DECIDIR SE A COMBINAÇÃO IRÁ OCORRER OU NÃO;(A) IMAGEM ORIGINAL,(B) IMAGEM RESULTANTE DO PRIMEIRO PASSO DO ALGORITMO,(C) IM_OTSU E (D) IM_KMEANS. ... 43 FIGURA 5.1IMAGENS PR6(A) E PR7(C) UTILIZADAS NO DIBCO2011 OS SEUS RESPECTIVOS RESULTADOS ((B) E (D)) OBTIDOS PELO

MÉTODO DE MELHOR RESULTADO DA COMPETIÇÃO ... 49 FIGURA 5.2IMAGEM ORIGINAL COM CARACTERES RASURADOS,(B) SIMULAÇÃO DO BACKGROUND E (C) RESULTADO FINAL ... 52 FIGURA 6.1(ESQUERDA)IMAGEM COM DIFERENÇA DE ILUMINAÇÃO E (DIREITA) SEGMENTAÇÃO APÓS APLICAÇÃO DO ALGORITMO

PROPOSTO NESTE TRABALHO ... 54 FIGURA 6.2(ESQUERDA)IMAGEM ORIGINAL E (DIREITA) IMAGEM SEGMENTADA ... 55

(12)

Lista de Tabelas

TABELA 1RESULTADO DOS EXPERIMENTOS UTILIZANDO AS IMAGENS E SEGUINDO A FORMA DE AVALIAÇÃO DO DIBCO2011 ... 49 TABELA 2RESULTADO DOS EXPERIMENTOS UTILIZANDO AS IMAGENS DO DIBCO2011 E SEGUINDO A FORMA DE AVALIAÇÃO PROPOSTA

NESTE TRABALHO ... 50 TABELA 3RESULTADOS DOS EXPERIMENTOS UTILIZANDO AS IMAGENS DO PROJETO PROHIST E A FORMA DE CLASSIFICAÇÃO DO DIBCO

2011 ... 51 TABELA 4RESULTADOS DOS EXPERIMENTOS UTILIZANDO AS IMAGENS DO PROJETO PROHIST E A FORMA DE CLASSIFICAÇÃO PROPOSTA

(13)

Lista de Siglas e Abreviações

OCR Optical Character Recognition (Reconhecimento Ótico de Caracteres).

DIR Document Image Retrieval (Recuperação de Imagens de Documentos)

DRD Distance Reciprocal Distortion

PSNR Peak Signal To Noise Ratio

MPM DIBCO RGB LMS CMY YCbCr HSI JPEG PDF MAR RAM

Misclassification Penalty Metric Document Image Binarization Contest Red, Green and Blue

Long, Middle and Short wavelengths Cyan, Magenta and Yellow

Luma, blue component and red component differences Hue, Saturation and Intensity

Joint Photographic Experts Group Portable Document Format Minimum Angle of Resolution Random-Access Memory

(14)

1 Introdução

Apesar de estarmos vivendo uma era de grandes avanços tecnológicos, em que uma grande quantidade de dados é armazenada de maneira digital, podemos afirmar que o papel é ainda hoje um dos meios mais utilizados para armazenamento e distribuição de informação [1], [2], [3]. Isto é verdade pelo fato de o papel possibilitar (i) a navegação flexível através de documentos, (ii) leitura e escrita simultâneas e (iii) a possibilidade de realizar anotações, dentre outras características como sua leveza e independência de fonte de energia [1], [3]. Além disso, como durante um longo período da história da humanidade os meios de armazenamento digitais inexistiam ou eram bastante inacessíveis, é possível encontrar hoje uma imensa quantidade de documentos de alto valor histórico e cultural em bibliotecas, museus e arquivos pessoais ou governamentais em formato de papel.

No entanto, o uso do papel possui algumas desvantagens. Dentre elas, podemos citar a dificuldade na busca por um termo específico, a sua fragilidade, e o espaço físico necessário para armazenamento em grandes quantidades [4]. Outro fato importante é que o manuseio e a armazenagem de documentos de forma inadequada, além dos próprios efeitos do envelhecimento, podem levar o papel a sofrer os efeitos de diversos tipos de degradação [5], [6]. Além disso, a divulgação de um documento se torna bastante restrita quando este está disponível apenas em bibliotecas, ou arquivos em geral. Nesse contexto, o armazenamento em meio digital e a disponibilização de documentos via Web surgem como alternativas bastante interessantes e vêm ganhando um crescente interesse nos últimos anos [6]. Isso ocorre porque assim é possível prevenir que o papel perca suas características originais e por possibilitar mecanismos que facilitem o acesso a esses documentos. Assim, sistemas envolvendo processamento digital de imagens são essenciais para possibilitar o armazenamento e a interação dos usuários com os documentos armazenados.

1.1 Processamento Digital de Imagens

A Figura 1.1 ilustra as diversas etapas normalmente encontradas em um sistema de processamento de imagens. É importante mencionar que nem todas as etapas devem necessariamente ser seguidas em todos os sistemas, e que existem variações na literatura em relação a essa visão, principalmente em relação ao nível de granularidade, como na abordagem utilizada em [7], por exemplo.

(15)

Inicialmente, na etapa de aquisição, a imagem é capturada por meio de um dispositivo e é posteriormente digitalizada, para que seja capaz de ser armazenada e representada em um computador. A etapa de digitalização envolve dois processos: a amostragem e a quantização. De forma resumida, a amostragem é responsável por colher amostras igualmente espaçadas ao longo do plano bidimensional representativo da imagem, transformando a informação de espaço do universo contínuo para o discreto. Em seguida, no processo denominado de quantização, os valores de intensidade em cada um dos pontos amostrados são discretizados [8].

Figura 1.1 Etapas de um sistema de processamento digital de imagens (adaptado de [8])

A etapa de filtragem e realce é aplicada de forma a melhorar a qualidade da imagem de acordo com a necessidade de uma determinada aplicação. Uma das técnicas de realce mais aplicadas, que será explicada com maiores detalhes neste trabalho é a equalização de histograma, que tem como objetivo tornar a distribuição dos níveis de cinza da imagem mais uniforme [7].

Em seguida, temos a área de restauração de imagens, que tem como objetivo melhorar a qualidade da imagem, de maneira similar à área de realce, só que de acordo com um conceito objetivo de degradação. Quando se fala de realce, deve-se entender que se trata de um conceito subjetivo de melhoria de qualidade [8].

(16)

O processamento de imagens coloridas é uma área que busca utilizar as informações de cores na imagem como base para realizar uma operação contida em alguma das demais áreas. Assim, um sistema de processamento de imagens pode utilizar informações de cores como auxílio no entendimento de uma cena de modo semelhante como nós humanos fazemos. Diversos sistemas de cores, que são representações matemáticas tridimensionais, podem ser utilizados. Dentre eles podemos citar os modelos RGB, LMS, CMY, YCbCr e o HSI [7], [9].

A área de processamento multirresolução tem como objetivo a análise de imagens em mais de uma resolução, para que características que não são tão bem percebidas em uma determinada resolução possam ganhar destaque em uma resolução diferente. Assim, imagens em baixa resolução podem ser suficientes para a análise de objetos grandes, ou de alto contraste, enquanto que imagens de alta resolução podem ser utilizadas na análise de objetos pequenos, ou de baixo contraste. Uma abordagem simples dentro da análise de multirresolução e útil em diversas areas é a estrutura piramidal de imagens [8], [10], [11], [12].

As técnicas de redução do espaço requerido por imagens digitais para armazenamento ou transmissão são estudadas dentro da área de compressão de imagens. Mesmo com o crescente aumento da tecnologia nos últimos anos, a questão do espaço ocupado por uma imagem torna-se um problema mais em evidência com o advento da Internet e a necessidade de transmissão de imagens via rede. Se estendermos um pouco a questão e pensarmos em vídeos ao invés de imagens, a necessidade de bons mecanismos de compressão de imagens torna-se ainda maior [7], [8]. Um dos métodos mais utilizados para compressão de imagens digitais é o JPEG, que busca eliminar informações menos relevantes, ou menos perceptíveis pelo sistema visual humano, para reduzir o espaço ocupado pela imagem [9]. Já o PDF é um formato utilizado para encapsulamento de documentos contendo texto e imagem, cujo objetivo é permitir o fácil compartilhamento, leitura e impressão de documentos, independentemente do ambiente utilizado pelo usuário [9].

O processamento morfológico de imagens, que tem como base a morfologia matemática, consiste em uma metodologia de análise ou processamento de imagens utilizando operadores que se baseiam em um formato (forma, estrutura) pré-definido de um objeto (abstrato ou concreto) para produzir um determinado resultado. Os operadores fundamentais da morfologia matemática são a dilatação e a erosão, e a partir de combinações desses

(17)

operadores é possível a construção de outros operadores mais complexos, que podem ser utilizados, por exemplo, para filtragem e extração de características [9].

O processo de segmentação de uma imagem digital pode ser entendido como a separação da imagem em seus objetos constituintes, ou até como a separação do conjunto de objetos presentes do fundo da imagem, a depender do contexto. Por esta explicação, pode-se perceber que o conceito de segmentação em muitos casos é subjetivo, já que não se sabe a priori o que se deseja segmentar, ou o nível de granularidade requerido na segmentação. Em aplicações envolvendo processamento de imagens de documentos, por exemplo, é comum que o objetivo da segmentação seja separar regiões contendo figuras, tabelas, gráficos ou texto. Em um nível maior de granularidade, a depender de cada caso específico, pode ser necessário que dentro da região de texto exista uma nova etapa de segmentação visando separar o texto em linhas, as linhas em palavras ou até mesmo as palavras em caracteres [9][5]. No entanto, em alguns casos, dentro da área de processamento de documentos, o objetivo é apenas separar as regiões de texto do background da imagem. Essa situação normalmente é referenciada como limiarização ou binarização de documentos, e é bastante complexa quando se trata de documentos antigos e/ou degradados. Assim, a limiarização pode ser encarada como uma forma de segmentação, ou uma aproximação de uma segmentação [13], já que diferentes regiões da imagem são separadas de acordo com um limiar de intensidade. Como este trabalho propõe um método de limiarização para imagens de documentos degradados, uma revisão da literatura abordando diversos métodos de limiarização, específicos para imagens de documentos ou não, é apresentada no Capitulo 3.

Na etapa de representação e descrição, as regiões segmentadas na etapa anterior, que contém apenas dados primários em forma de pixels, são convertidas para uma representação mais adequada para o processamento subsequente. Além disso, também pode ser executado um processo de descrição que visa à extração ou seleção de características que permitam uma melhor discriminação entre as classes de objetos presentes na imagem [7], [8].

Concluindo, a etapa de reconhecimento de objetos envolve a interpretação das características extraídas na etapa anterior, atribuindo um rótulo aos objetos presentes na imagem. Assim, essa etapa está relacionada à atribuição de significado à imagem ou a partes dela. Nessa etapa, as Redes Neurais Artificiais [14] e diversas outras técnicas de aprendizagem de máquina podem ser utilizadas.

(18)

1.2 Processamento de Imagens de Documentos Históricos

Imagens de documentos históricos, que podem ter sido tipografados ou manuscritos, pertencem a uma classe específica de imagens de documentos que podem se diferenciar bastante de outros tipos de documentos como jornais, artigos científicos ou revistas [5], [9]. Isso acontece porque esse tipo de documento pode sofrer o efeito de diversos tipos de degradação como consequência do envelhecimento do papel ou por más condições de armazenamento. Além disso, em muitos casos, esses documentos não apresentam um padrão de escrita como acontece com jornais e revistas, onde os tamanhos dos caracteres, o alinhamento e a distância entre as linhas são bem definidos. No caso de documentos manuscritos, além do fato de não existir um padrão bem definido, o escritor ainda possui a liberdade de fazer rasuras ou adicionar anotações com diferentes inclinações, o que em muitos casos resulta na sobreposição de outras regiões de texto [5]. Dentre diversos efeitos de degradação que comumente ocorrem em imagens de documentos históricos e que tornam a limiarização desse tipo de documento uma tarefa bastante complicada, podemos citar [2]:

 Grandes variações de tonalidades ao longo do documento provocadas por condições inapropriadas durante a digitalização;

 Manchas;

 Marcas de dobras;  Marcas de fita adesiva;

 Sujeira em função do manuseio;  Tinta desbotada e

 Rasuras.

A Figura 1.2 ilustra alguns dos efeitos de degradação aqui citados.

As características de imagens de documentos históricos aqui apresentadas dificultam bastante uma limiarização bem sucedida. Assim, diversas aplicações de processamento de imagens de documentos, como ferramentas de optical character recognition (OCR) ou de document image retrieval (DIR), que normalmente requerem imagens binarizadas, podem alcançar resultados insatisfatórios em imagens de documentos antigos ou degradados [15], [16].

(19)

Sistemas de OCR, por exemplo, executam diversos processos antes do reconhecimento do texto em si [17], [18]. Geralmente, a digitalização é a primeira etapa a ser executada, que gera uma imagem digital representada em tons de cinza, de acordo com a explicação apresentada sobre a etapa de aquisição, na seção anterior. Logo a seguir, acontece a conversão dos tons de cinza da imagem para preto e branco por meio de alguma técnica de limiarização.

a) b)

c) d)

Figura 1.2 Exemplos de imagens de documentos com diversos efeitos de degradação. (a) e (b) retirados de

(20)

Em seguida, pode ser necessária a execução de alguns procedimentos para melhorar a qualidade do documento, como correção da inclinação e remoção de ruído. A próxima etapa a ser executada normalmente tem o objetivo de segmentar o documento, quando elementos de texto e figura vão ser separados, podendo ocorrer ainda outra etapa de segmentação dentro das regiões de texto para que linhas, palavras e caracteres sejam identificados separadamente [21].

Somente após essas etapas é que irá acontecer de fato o reconhecimento dos caracteres. No entanto, um resultado de baixa qualidade na etapa de limiarização pode inviabilizar ou prejudicar a execução das etapas posteriores. Analisando a Figura 1.3, que ilustra resultados de algoritmos clássicos de limiarização aplicados a uma imagem de documento com diferentes tonalidades (em decorrência de diferentes níveis de iluminação durante a digitalização), é possível entender porque isso acontece: caracteres podem se fundir, podem ser quebrados em diversas partes ou até mesmo desaparecer totalmente, impossibilitando o reconhecimento até mesmo por humanos [22], [23]. Além disso, mesmo em casos onde apenas o armazenamento de documentos em formato digital é necessário e a priori não se deseja executar uma ferramenta de OCR a limiarização pode ser extremamente importante para fins de economia de espaço.

1.3 Motivação

Como mencionado anteriormente, o armazenamento de documentos em meio digital auxilia na sua preservação, uma vez que o contato direto com os mesmos é evitado. Além disso, existe um grande ganho na questão do acesso aos documentos, já que em formato digital os mesmos podem ser disponibilizados na Internet. No entanto, devido ao grande espaço necessário para que grandes acervos sejam armazenados, em muitos casos é necessário que as imagens sejam binarizadas após sua digitalização. Assim, um algoritmo de binarização com bons resultados em imagens de documentos antigos possui uma grande importância com consequências que atingem aspectos culturais e sociais.

Um algoritmo de binarização eficiente também aumenta a taxa de acerto de outras etapas de um processamento automático de documentos. Por exemplo, a segmentação de linhas e de palavras [6] é, geralmente, aplicada a imagens em preto-e-branco, assim como a estimativa de inclinação em imagens de documentos [24]. Após essas etapas, de pré-processamento de imagens de documentos, a própria classificação para reconhecimento automático de caracteres pode ser aplicada a imagens em duas cores dos caracteres [25].

(21)

a) b)

c) d)

Figura 1.3 Algoritmos clássicos de limiarização aplicados a imagens de documentos históricos. (a) Imagem original em tons de cinza, (b) imagem binarizada pelo algoritmo de Otsu, (c) imagem binarizada pelo algoritmo de Sauvola e (d) imagem binarizada pelo algoritmo de Kapur

(22)

Além disso, como ainda existem muitos problemas de processamento de imagens e visão computacional em aberto, onde o desenvolvimento de algoritmos baseados em conceitos de percepção visual pode representar uma contribuição relevante para a área.

1.4 Objetivos

A partir do exposto, o objetivo principal deste trabalho é o desenvolvimento de um novo algoritmo de binarização de imagens de documentos históricos degradados. Esse novo algoritmo baseia-se em conceitos de percepção visual, sendo um segundo objetivo a modelagem de conceitos de percepção visual (especificamente percepção de objetos a distância) através de algoritmos e técnicas de processamento digital de imagens.

Como objetivos específicos, podemos citar:

 Contribuir com o estado-da-arte de uma área ainda sem solução ótima e de grande aplicabilidade;

 Modelar computacionalmente conceitos de percepção visual, mais especificamente a percepção de objetos distantes;

 Contribuir com a aplicação de novas ideias de percepção visual na área de processamento digital de imagens e visão computacional;

 Desenvolver algoritmos que podem melhorar o processamento de documentos antigos, tendo, assim, um caráter social bem estabelecido;

 Definir uma nova forma de avaliação de algoritmos de binarização de imagens de documentos.

1.5 Estrutura da Dissertação

Este trabalho encontra-se estruturado em cinco capítulos. Neste Capítulo 1, apresenta-se uma visão geral sobre processamento de imagens e, de forma mais específica, sobre processamento de imagens de documentos, além dos objetivos da pesquisa. No Capítulo 2, os conceitos básicos de processamento de imagens utilizados no algoritmo proposto são detalhados. O Capítulo 3 aborda o estado da arte na área de limiarização de documentos e apresenta os algoritmos necessários para entendimento do método proposto e as técnicas usadas para comparação e avaliação do nosso método. No Capítulo 4, apresenta-se o novo

(23)

algoritmo de limiarização de imagens de documentos degradados. O Capítulo 5 apresenta os experimentos realizados, além dos resultados obtidos e das análises sobre os mesmos. Propomos aqui também uma nova forma de analisar os resultados obtidos, diferente da que é usada na literatura. O Capítulo 6 finaliza a dissertação com as conclusões, contribuições e sugestões para trabalhos futuros.

(24)

2 Conceitos Básicos de Processamento Digital de

Imagens

Podemos definir uma imagem como uma função para mapear um vetor de duas

dimensões em ( ) , onde S é definido como a grade da imagem, u é a posição na

grade S, f(u) representa o valor de intensidade na posição u, e K é o conjunto de valores possíveis para f(u). Assim, um pixel é definido como o par cartesiano (u, f(u)), ou seja, o vetor formado

pela posição u e seu valor de intensidade f(u) associado. K é definido como , onde V

representa o número de tons de cinza e p o número de bandas na imagem. No caso de uma imagem RGB colorida, por exemplo, temos p=3. Vale ressaltar que este trabalho utiliza imagens monocromáticas (ou em tons de cinza), que possuem apenas uma banda (p = 1) [9].

Uma imagem é dita digital quando seus pixels assumem apenas valores discretos, ou seja,

e , onde . Assim, uma imagem em tons de cinza de 8 bits possui

. Apesar de imagens binárias serem apenas um caso particular de imagens

monocromáticas em que , esse trabalho utiliza a convenção de referenciar imagens em

que como imagem em tons de cinza, enquanto que imagens onde são

referenciadas como imagens binárias [9]. A Figura 2.1 ilustra duas formas básicas de se representar uma imagem, de acordo com os conceitos aqui apresentados. A Figura 2.1 (a) utiliza o modo mais usual de se representar uma imagem, em que o nível de cinza em cada ponto no espaço bidimensional que define a imagem é proporcional ao valor da intensidade f nesse ponto. Já a Figura 2.1 (b) utiliza uma representação gráfica tridimensional, onde os eixos x e y determinam a localização espacial, enquanto que o terceiro eixo representa os valores de f (intensidade) em função de x e y. Os tons preto, cinza e branco foram utilizados somente para facilitar a visualização [8].

2.1 Morfologia Matemática

A teoria da morfologia matemática foi criada em 1964, em Paris, por George Matheron e Jean Serra, com o objetivo de desenvolver novos métodos para solucionar problemas de processamento de imagens. A ideia geral da teoria consiste em extrair informações e realizar processamentos com base na forma dos objetos presentes, baseados em duas operações básicas: dilatação e erosão. A partir dessas duas operações é possível criar diversos outros operadores com diferentes finalidades. Por esse motivo, a morfologia matemática é considerada uma teoria construtiva. Dentre as diversas áreas beneficiadas pela análise de imagens por meio de

(25)

operadores morfológicos podemos citar a medicina, a biologia, a metalurgia, a síntese de textura, a microscopia e a automação industrial [7][9].

a)

b)

Figura 2.1 Diferentes representações de uma imagem digital (adaptado de [8]). (a) Representação de uma imagem como uma matriz de intensidades e (b) imagem representada graficamente como uma superfície

A morfologia matemática utiliza a teoria dos conjuntos para representar a estrutura dos objetos em uma imagem e foi inicialmente concebida para ser aplicada a imagens binárias, onde normalmente os objetos são representados por pixels pretos (valor 0), enquanto que o fundo é

(26)

também podem ser aplicadas a imagens em tons de cinza. Mais informações sobre morfologia matemática aplicada a imagens monocromáticas podem ser encontradas em [7] e [8].

Um operador morfológico é um mapeamento entre a imagem A e um conjunto de pixels B, denominado elemento estruturante. Assim, a escolha do elemento estruturante é essencial dentro da morfologia matemática, já que uma mesma operação morfológica aplicada à mesma imagem com elementos estruturantes diferentes produz resultados diferentes [7], [8]. A Figura 2.2 ilustra exemplos de diferentes elementos estruturantes, em que os pontos pertencentes ao elemento são representados pelas regiões sombreadas enquanto que o a região com um “O” indica a origem do elemento estruturante. Vale salientar que a origem não necessariamente precisa coincidir com o centro gravitacional da imagem, apesar de essa abordagem ser comumente utilizada.

Figura 2.2 Exemplo de elementos estruturantes

A seguir são apresentados alguns conceitos básicos necessários para o entendimento dos operadores morfológicos aqui utilizados [7], [8]:

 A união entre dois conjuntos A e B é o conjunto de todos os elementos pertencentes a A, a B ou a A e B.

o | (2.1)

 A interseção entre dois conjuntos A e B, é o conjunto de pixels pertencentes a ambos os conjuntos

o | (2.2)

(27)

o ( ) | (2.3)  O complemento de A é o conjunto de todos os pixels que não pertencem a A,

definido como:

o |

 A reflexão de um conjunto A, denotada como Â, pode ser definida como:

o Â = { | } (2.4)

A translação e reflexão são bastante utilizadas na morfologia matemática para formular operações baseadas nos elementos estruturantes. De acordo com a definição de translação utilizada acima, afirma-se que se B é o conjunto de pixels que representa uma região em uma

imagem, então ( ) é o conjunto de pontos em B cujas coordenadas foram alteradas de ( )

para ( ). Já a reflexão Â de um conjunto A pode ser entendida como uma operação

que modifica as coordenadas do conjunto original de (x,y) para (-x,-y). Esses conceitos podem ser visualizados nas Figuras 2.3 e 2.4.

(28)

Figura 2.4 Ilutração da reflexão de um conjunto A (adaptada de [8])

2.1.1 Dilatação

A operação de dilatação da imagem B pelo elemento estruturante A corresponde ao conjunto de todas as translações, z, de Â na imagem B, de forma que Â e B se sobreponham por pelo menos um elemento. Em outras palavras, o elemento estruturante refletido percorre toda a imagem e, a cada iteração, se existir sobreposição entre quaisquer pixels ativos do elemento estruturante e da imagem, o pixel de saída na imagem fica ativo e, caso contrário, fica inativo [7][8]. Podemos definir a dilatação como:

|( ) (2.5)

A operação de dilatação faz com que os objetos de uma imagem expandam, de acordo com o formato e tamanho do elemento estruturante utilizado. A Figura 2.5 ilustra um exemplo dessa operação em uma imagem binária, enquanto que a Figura 2.6 ilustra um exemplo de aplicação em uma imagem de documento. É importante salientar que no caso da Figura 2.6 foi necessária a execução de uma operação de complementação das cores da imagem antes da dilatação para que os objetos da imagem se tornassem brancos e o background se tornasse preto. Como podemos notar, algumas regiões dos caracteres foram recuperadas, porém regiões de ruído também foram enfatizadas.

2.1.2 Erosão

A erosão de uma imagem binária A por um elemento estruturante B é o conjunto de todos os elementos de B transladados por z que estão contidos em A. Em outras palavras, o elemento

(29)

vizinhança do pixel de origem estiverem sobrepostos por pixels ativos na imagem, o pixel de saída fica ativo e, caso contrário, fica inativo. Essa operação pode ser definida matematicamente da seguinte forma [8]:

| ( ) (2.6)

a)

b)

c)

Figura 2.5 Exemplo de dilatação em uma imagem binária. (a) Imagem original, (b) elemento estruturante e (c) imagem dilatada

a)

b)

c) d)

Figura 2.6 Exemplo de dilatação utilizando imagens de documentos. (a) Imagem original, (b) imagem original com as cores complementadas, (c) dilatação da imagem (b) com um elemento estruturante em formato de disco de raio 2 e (d) complementação das cores da imagem (c)

(30)

mostra duas operações de erosão sendo aplicadas com diferentes elementos estruturantes a um mesmo conjunto enquanto que a Figura 2.8 mostra uma operação de erosão aplicada à uma imagem de documento. Analisando a Figura 2.8 (b) podemos notar que algumas partes dos caracteres foram recuperadas (como no traço vertical da letra “D” e na letra “O”), mas, da mesma forma que na imagem da figura 2.6 (c), podemos notar que pequenos ruídos foram intensificados. É importante salientar que na Figura 2.8 as regiões pretas (caracteres e ruído) são tratadas como sendo o fundo da imagem na operação de erosão, e por isso elas têm seus tamanhos aumentados. Também é importante utilizar esses dois exemplos para frisar que as operações de dilatação e erosão são duais em relação à reflexão e à complementação de conjuntos. Isto pode ser demonstrado matematicamente das seguintes formas [8]:

( ) (2.7) e ( ) (2.8) a) b) c) d) e)

Figura 2.7 Exemplo de aplicação de erosão: a) conjunto original; b) elemento estruturante; c) resultado da aplicação do elemento estruturante ilustrado em (b) ao conjunto em (a); d) elemento estruturante; e) resultado da aplicação do elemento estruturante ilustrado em (d) ao conjunto em (a). Adaptada de [8]

(31)

a) b)

Figura 2.8 Exemplo de erosão utilizando imagens de documentos. (a) Imagem original, (b) imagem (a) erodida com um elemento estruturante em formato de disco de raio 2, (c) imagem original com cores complementadas e (d) erosão da imagem (c) com elemento estruturante em forma de disco de raio 2.

Assim, como indicado pela Equação 2.7, o complemento da erosão de B por A é igual à dilatação do complemento de B pela reflexão de A. Isso pode ser notado comparando as Figuras 2.8 (b) e 2.6 (d), que são iguais. Também é importante salientar que, como o elemento estruturante utilizado foi um círculo com a origem no seu centro de massa, a sua reflexão é igual ao próprio elemento.

2.1.3 Abertura

A partir da combinação das operações de dilatação e erosão muitos outros operadores podem ser construídos. A operação de abertura, por exemplo, é definida como a erosão de uma imagem A por um elemento estruturante B, seguido da dilatação do resultado obtido pelo mesmo elemento estruturante. Formalmente, esta operação é definida pela seguinte fórmula:

( ) (2.9)

A operação de abertura é capaz de eliminar ruído do tipo pimenta, pequenas protuberâncias e saliências finas, romper os istmos e suavizar o contorno de um objeto [8], [13]. A Figura 2.9 ilustra a interpretação geométrica desta operação. Se imaginarmos um disco (elemento estruturante B) rolando por dentro de um objeto (imagem de entrada da operação A), a fronteira do resultado da operação seria determinada pelos pontos mais distantes que B alcança na fronteira de A [8].

(32)

lado igual a 6 pixels. Como podemos notar, diferentemente do ocorrido com as operações de dilatação e erosão, as regiões ruidosas dos caracteres não foram intensificadas. Isso acontece uma vez que a operação de dilatação diminui as regiões pretas que cresceram nesses pixels ruidosos durante a erosão. Já as regiões pretas que cresceram nas regiões dos caracteres não são afetadas da mesma forma pela erosão, uma vez que na operação de dilatação essas regiões cresceram e foram conectadas à outras regiões de mesmo tom.

Figura 2.9 Demonstração da operação morfológica de fechamento, adaptada de [8]. (a) Elemento estruturante sendo aplicado na fronteira do objeto, (b) elemento estruturante e (c) resultado da operação, onde a linha tracejada representa a fronteira original, enquanto que a linha contínua representa a fronteira após aplicação da operação de abertura

a) b)

(33)

a) b)

Figura 2.10 Exemplo de aplicação da operação de abertura. (a) Imagem original e (b) resultado da abertura

2.1.4 Fechamento

A operação de fechamento é definida como sendo a dilatação de uma imagem A por um elemento estruturante B, seguido da erosão do resultado obtido pelo mesmo elemento estruturante. O fechamento morfológico é propício para eliminar ruído do tipo sal e pequenos buracos ou concavidades, fundir separações estreitas entre objetos e preencher lacunas no contorno [7], [13]. Formalmente, esta operação é definida pela seguinte fórmula:

( ) (2.10)

O operador de fechamento possui uma interpretação geométrica similar à operação de abertura. Podemos assumir uma imagem como uma superfície tridimensional, em que a largura e altura da imagem são representadas em um plano bidimensional enquanto que os valores de intensidade dos pixels são interpretados como os valores de altura desse plano. Nesse contexto, a operação de fechamento pode ser vista como se empurrássemos o elemento estruturante de cima para baixo, contra a superfície da curva. Assim, o resultado da operação seria composto pelas regiões da curva tocadas pelo elemento estruturante ou pelas regiões mais próximas da curva alcançadas pelo elemento estruturante. A Figura 2.11 exibe essa interpretação aplicada a apenas uma linha da imagem, para fins de simplicidade. A Figura 2.11 (a) exibe o sinal original, a Figura 2.11 (b) apresenta a aplicação do operador de fechamento enquanto que a Figura 2.11 (c) mostra o resultado final da operação.

A Figura 2.12 ilustra uma aplicação da operação de fechamento em uma imagem de documento, utilizando um elemento estruturante em forma de disco de raio igual a 4 pixels. Foi necessário que a imagem fosse invertida antes da aplicação do fechamento para que o objeto a ser tratado (texto) fosse representado no tom branco. Como é possível notar, algumas regiões de pequenas aberturas nos caracteres foram recuperadas (por exemplo, a primeira letra f da ultima

(34)

2.2 Equalização de Histograma

O histograma de uma imagem corresponde à distribuição dos seus níveis de cinza, e normalmente é representado por um gráfico indicando a quantidade de pixels na imagem correspondente a cada tom de cinza, provendo assim uma descrição global da aparência da imagem em termos de distribuição de tons de cinza [7]. Formalmente, podemos afirmar que o histograma de uma imagem digital com níveis de cinza definidos dentro do intervalo [0,L-1] é

uma função discreta ( ) , onde é o k-ésimo nível de cinza e é a quantidade de

pixels na imagem com esse nível de cinza [8]. Assim, diversas informações sobre uma imagem podem ser obtidas através da análise do seu histograma, tais como o valor médio, a variância e o desvio padrão dos seus tons de cinza. Além disso, também é possível afirmar se a imagem possui alto ou baixo contraste, caso os seus histogramas possuam escalas de níveis de cinza concentradas ou esparsas, respectivamente [7].

a)

(35)

Figura 2.11 Ilustração da operação morfológica de fechamento. (a) Sinal bidimensional representando uma linha da imagem; (b) aplicação da operação morfológica de fechamento e (c) sinal após a aplicação do fechamento. Adaptada de [8]

c)

a)

(36)

A equalização de histograma é um método que tem como objetivo alterar os níveis de cinza na imagem para que eles apareçam com uma distribuição mais uniforme, aumentando o contraste da imagem. Para equalizar o histograma de uma imagem é necessário:

1. Calcular o histograma da imagem

2. Normalizar o histograma: ( ) ⁄_{( )}, onde M e N representam as

dimensões da imagem

3. Calcular a função de distribuição acumulada de probabilidade: ∑ ( )

4. Multiplicar os valores acumulados pelo tom de cinza máximo (L-1) e

arredondar o resultado, obtendo

5. Mapear os valores dos níveis de cinza originais para

c)

d)

Figura 2.12 Aplicação da operação morfológica de fechamento com elemento estruturante em forma de disco de raio igual a 4 pixels. (a) Imagem original, (b) imagem complementar, (c) imagem após aplicação da operação de fechamento, (d) nova complementação após aplicação do fechamento

(37)

a) b)

c)

d)

Figura 2.13 Aplicação da equalização de histograma. (a) Imagem original, (b) Histograma de (a), (c) Imagem (a) após equalização de histograma e (d) histograma de (a) equalizado

2.3 Detecção de Bordas por Máscaras de Sobel

Podemos afirmar que a detecção de bordas, i.e. o limite ou a fronteira entre duas regiões com tons de cinza relativamente distintos, é de extrema importância em processamento digital de imagens. Isso acontece por que as bordas delimitam os objetos ou regiões de interesse na imagem. Assim, um filtro de aguçamento pode ser utilizado de forma a salientar transições de intensidade de uma imagem, ao mesmo tempo em que as regiões de baixa frequência são atenuadas. Esse efeito pode ser alcançado a partir da diferenciação da imagem no domínio do espaço [7], [8].

(38)

direção em que ocorrem as maiores variações nos níveis de cinza para um dado local. O vetor gradiente de uma imagem na posição (x,y) pode ser calculado da seguinte forma:

[ ] [ ⁄ ⁄ ] (2.11)

A magnitude do vetor gradiente, que expressa a intensidade ou taxa de variação dos níveis de cinza na direção do vetor é calculado como:

( ) √ (2.12)

Como estamos trabalhando no contexto de imagens digitais, onde trabalhamos com funções discretas, as derivadas podem ser definidas em termos de simples diferenças entre os pixels. Uma das formas de efetuar uma aproximação discreta do gradiente, definida por Sobel, utiliza os valores do gradiente nas direções x e y da seguinte forma:

( ( ) ( ) ( )) ( ( )

( ) ( )) (2.13)

( ( ) ( ) ( )) ( ( )

( ) ( )) (2.14)

As Equações 2.13 e 2.14 podem ser implementadas utilizando as máscaras de filtragem definidas nas Figuras 2.14 (a) e 2.14 (b), respectivamente. Assim, a aplicação das máscaras das Figuras 2.14 (a) e 2.14(b) ocorre por meio da convolução das máscaras pela imagem. O processo de convolução é executado movendo a máscara pela imagem (casando o pixel central da máscara como cada pixel da imagem) e calculando a soma dos produtos entre cada pixel da imagem com o pixel referente na máscara. Ao término, o pixel central é atualizado na imagem resultante com o valor obtido. É importante salientar que, de acordo com a definição de convolução, a máscara deve ser rotacionada em 180 graus antes da operação.

Assim, o cálculo da magnitude do gradiente resulta em uma imagem onde as regiões de alta frequência são intensificadas, enquanto que as regiões de baixa frequência de níveis de cinza

(39)

definição sobre que pixels de fato pertencem a regiões de borda ou não. Uma forma simples e comumente utilizada para se determinar as bordas dentro deste contexto é utilizar uma simples operação de limiarização, em que os pixels que estiverem acima de um determinado valor são classificados como borda (valor 1), enquanto que o restante não (valor 0). A Figura 2.15 ilustra a aplicação de um detector de bordas utilizando máscaras de Sobel. A Figura 2.15 (b) ilustra a magnitude do gradiente (uma normalização foi executada para facilitar a visualização) da imagem original (Figura 2.15 (a)), enquanto que a Figura 2.15 (c) ilustra o resultado da limiarização da imagem da magnitude do gradiente para definição dos pontos de borda. O valor do limiar foi definido como 3 vezes o valor médio dos pixels na imagem apenas para ilustração.

a)

b)

(40)

a) b)

c)

Figura 2.15 Detector de bordas utilizando máscaras de Sobel: (a) imagem original, (b) magnitude do

gradiente utilizando as máscaras nas direções vertical e horizontal e (c) resultado da limiarização da imagem (b)

(41)

3 Algoritmos de Limiarização

Uma pesquisa foi conduzida em por Sezgin e Sankur [26] e o desempenho de 40 algoritmos de binarização foi avaliado utilizando imagens de documentos. Para conduzir os experimentos, o conjunto de imagens ground truth foi construído utilizando diferentes tipos e tamanhos de fontes e, em seguida, os modelos de degradação de Baird [27] foram utilizados para simular imagens de documentos degradados. Os algoritmos utilizados foram classificados em 6 diferentes categorias: (i) métodos baseados na análise do histograma, (ii) métodos baseados em clusterização, (iii) métodos baseados em entropia, (iv) métodos baseados nos atributos dos objetos, que buscam por similaridades entre a imagem original e a imagem binarizada, (v) métodos espaciais, que utilizam a distribuição de tons de cinza e a dependência entre os pixels de uma vizinhança, e (vi) métodos locais, que utilizam um valor de limiar para cada região de vizinhança pré-definida na imagem. Os algoritmos das classes (ii), (iii) e (vi) utilizados nos experimentos são apresentados a seguir, além de outros dois algoritmos específicos para imagens de documento degradados.

3.1 Métodos Baseados em Clusterização

3.1.1 Otsu

Uma das formas de se tratar um problema de binarização consiste na aplicação de um algoritmo de clusterização utilizando os níveis de cinza dos pixels da imagem. Podemos, por exemplo, considerar a presença de apenas duas classes (texto e background) e que cada pixel pertence a apenas uma classe, de acordo com o seu valor de tom de cinza. No trabalho de Otsu [28] é proposto um método que minimiza a soma ponderada da variância intra-classe e, ao mesmo tempo, maximiza a variância entre classes. A ideia se baseia no fato de que as classes com limiares bem estabelecidos devem ser distintas com relação aos valores de intensidade dos seus pixels e que, inversamente, um limiar que alcança o melhor nível de separação entre as classes seria o limiar ótimo.

(42)

possua intensidade i como ⁄ . Sabendo que as probabilidades de que um pixel seja

atribuído às classes e (considerando um limiar igual a K) são, respectivamente:

( ) ∑ (3.1)

e

( ) ∑ ( ) (3.2)

Sabendo-se ainda que os valores das intensidades médias dos pixels atribuídos às classes e

e a média global da imagem são, respectivamente:

( ) ⁄ ( )∑ (3.3)

( ) ⁄ ( )∑ (3.4)

e

∑

(3.5)

A variância entre classes ( ( )) e variância total ( ) podem ser definidas como:

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

( ) (3.6)

e

∑ ( )

(3.7)

Assim, o algoritmo de Otsu consiste em buscar o limiar t que maximize ( ) ( )⁄ .

3.1.2 K-means

Outro algoritmo de clusterização tradicional em reconhecimento de padrões que pode ser utilizado em um problema de binarização é o algoritmo de k-means [29], que usualmente é utilizado para binarizar imagens de documentos utilizando duas classes (k=2). O algoritmo funciona da seguinte forma:

1. Os centros de cada cluster são inicializados 2. Enquanto o algoritmo não convergir

2.1. Cada ponto é atribuído ao cluster com centro mais próximo 2.2. Os centros de cada cluster são atualizados

(43)

centros não forem modificados ao longo de uma iteração; e (iii) a forma de calcular a distância entre dois pontos também varia. Neste trabalho, por exemplo, foi utilizada a distância euclidiana. A Figura 3.1 ilustra o funcionamento do kmeans com dois grupos em um conjunto de dados bidimensional.

Figura 3.1 Ilustração do algoritmo k-means. Primeira linha: (coluna da esquerda) Pontos verdes simbolizam os dados, e as cruzes simbolizam os centros de cada grupo; (coluna do meio) cada ponto é designado ao grupo (verde ou azul) de centro mais próximo; (coluna da direita) os centros de cada grupo são atualizados de acordo com as médias dos pontos dos seus respectivos grupos. Segundas e terceiras linhas: Repetição dos passos do algoritmo, até a convergência.

3.2 Métodos Baseados em Entropia

Alguns algoritmos de binarização utilizam a entropia, ou seja, a quantidade média de informação presente em uma fonte para calcular um valor de limiar para uma imagem. Se em uma fonte de informação existe um total de n possíveis símbolos s que ocorrem com probabilidade p(s), então a entropia dessa fonte pode ser calculada sobre o histograma da imagem como [30]:

(44)

Dessa forma, podemos interpretar uma imagem como sendo uma fonte de informação em que cada tom de cinza corresponde a um símbolo s e, assim, podemos utilizar seu valor de entropia para calcular um limiar. O algoritmo de Kapur [31] considera o background e o foreground como fontes de informação distintas e o valor de limiar é definido como o valor que maximiza a soma das entropias de ambas as fontes. Já o algoritmo de Johannsen [32] define um limiar t como sendo o valor que minimiza a soma das entropias para os valores abaixo e acima de t.

3.2.1 Mello

Um algoritmo para binarizar imagens de documentos históricos baseado na entropia de Tsallis [33] foi proposto por Mello [34]. Esse método inicialmente classifica a imagem analisada em uma de três classes gerais de imagens de documentos de acordo com o valor da entropia da distribuição dos tons de cinza da imagem (H), como definido na Equação 3.9.

 Classe 1 ( ): documento com poucas regiões de texto, ou com regiões de texto desgastadas

 Classe 2 ( ): documento comum, com aproximadamento 10% de regiões de texto

 Classe 3 ( ): documento com mais regiões de tinta do que o normal (bordas pretas ou interferência frente-verso)

Assim, a entropia final será definida como

(3.10)

∑ ( ) (3.11)

∑ ( ) (3.12)

onde mb e mw são constantes multiplicativas definidas para cada classe, e são as

entropias dos pixels abaixo e acima do limiar t, que é definido como sendo o tom mais frequente

presente. e são os percentuais de tons de cinza abaixo e acima do limiar t,

respectivamente. Assim, diferentes valores para os parâmetros , mb e mw são definidos para

(45)

3.3 Métodos Locais

Os métodos locais de binarização, em geral, funcionam da seguinte forma: Um tamanho de janela retangular é definido e, para cada pixel da imagem, um limiar é calculado de acordo com as características dos pixels dentro dessa região.

3.3.1 Niblack

O método de limiarização local de Niblack [35] determina o limiar baseado na média m e no desvio padrão de regiões da imagem. Assim, o limiar é calculado como ( ) ( ) ( ) para cada região da imagem, onde b é um peso pré-definido. Por ser um método local, pode alcançar melhores resultados do que algoritmos globais, já que limiares diferentes podem ser calculados para diferentes regiões, mas, por outro lado, algoritmos dessa classe tendem a ser lentos e caso o tamanho de cada região não seja definido corretamente os resultados podem ser insatisfatórios.

3.3.2 Sauvola

Sauvola [36] propôs uma melhoria do método de Niblack [35] específica para imagens de documentos com manchas e problemas de iluminação. De acordo com a modificação proposta o valor do limiar dentro de cada região da imagem é calculado como

( ) ( ) ( ( ) ⁄ ) , (3.8)

onde R e k são iguais à 128 e 0,5, respectivamente. Esses valores foram sugeridos por Sauvola [36] e foram utilizados nos experimentos desta dissertação.

3.3.3 Bernsen

Bernsen [37] propôs um método local em que o limiar é calculado como a média entre o

maior ( ) e o menor ( ) valor de tom de cinza dentro de cada região da imagem

definida pela janela. No entanto, caso o contraste ( ) ( ) ( ) seja menor

que um limiar de contraste pre-definido, então toda a região da vizinhança é definida como pertencente à mesma classe, à depender do valor do limiar. Os valores utilizados nesta dissertação para o tamanho da janela e o limiar do contraste foram, respectivamente, 31 x 31 e

(46)

3.4 Su

Su [38] apresentou um algoritmo para binarização de documentos históricos. O método é dividido em três etapas: (i) construção de uma imagem de contraste e (ii) detecção de pixels de alto contraste e (iii) limiarização. No primeiro passo, uma imagem de contraste é produzida com o intuito de acentuar as diferenças entre pixels vizinhos, facilitando a separação entre regiões de texto e de background. O segundo passo consiste na detecção de pixels de alto contraste, que normalmente se encontram próximos às bordas dos caracteres. Concluindo, a terceira etapa segmenta a imagem utilizando limiarização local.

A imagem de contraste é calculada com base em máximos e mínimos locais, como a seguir:

( ) ( ) ( )

( ) ( ) (3.13)

onde ( ) e ( ) referem-se aos valores máximo e mínimo de intensidade dentro de

uma região de vizinhança. No trabalho de Su [38] foi utilizada uma janela quadrada de tamanho

3. O termo representa um número positivo, porém infinitamente pequeno, que é adicionado

caso o máximo local seja zero. Em seguida, a imagem de contraste, que tende a possuir um padrão bimodal, é utilizada para a detecção de pixels de alto contraste a partir da binarização com o algoritmo de Otsu.

A binarização final é aplicada com base em duas observações. Primeiro, pixels de regiões de texto devem estar localizados próximos aos pixels de alto contraste e, segundo, as intensidades da maioria dos pixels de texto devem ser menores ou próximas da intensidade média dos pixels de alto contraste dentro da vizinhança. Assim, um dado pixel é definido como pertencente ou não a uma região de texto de acordo com a Equação 3.14:

( ) { ( ) ( ( ) (

_{⁄ ))}

(3.14)

onde e são calculados como:

∑ ( ) ( ( ))

(3.15)

(47)

onde I se refere à imagem original, E representa a imagem binarizada com a detecção dos pixels de alto contraste, em que ( ) é igual à 0 caso o pixel seja detectado como de alto contraste, e

representa ao número de pixels de alto contraste na vizinhança.

3.5 Kamel

Kamel [39] propôs uma técnica cuja ideia principal consiste na comparação do tom de cinza do pixel processado (ou do pixel referente na imagem original após uma suavização, caso a imagem original seja ruidosa) com as médias locais em quatro regiões de vizinhança. As regiões de vizinhança são definidas com a dimensão de ( ) ( ) pixels, estando W pixels distantes do pixel processado. Assim, se o tom de cinza de um dado pixel i estiver ao menos T níveis abaixo da média de cada região de vizinhança, então o pixel atual é classificado como pertencente à região de texto. Maticaticamente, esta técnica pode ser descrita da seguinte forma:

( ) { ⋁ [(( ( ) ( )) ) ( ( ( ) ( )) )]

(3.17)

onde ( ) representa a média dos pixels dentro da região i, e g é a imagem original e ( )

é a imagem binária resultante. Nesta dissertação, o valor de W foi definido como sendo a distância mais frequente entre as bordas da imagem de contraste, de forma a estimar a largura dos traços dos caracteres. Já o valor de T foi definido com base nos valores de máximo, mínino e médio dentro de cada janela, como sugerido no trabalho de Yang e Yan [40]. A Figura 3.1 ilustra as regiões de vizinhança para um dado pixel.