Binarização de documentos com ajuste automático de parâmetros

3 Problemas comuns de degradação em documentos antigos

4.2 Binarização de documentos antigos

4.2.4 Binarização de documentos com ajuste automático de parâmetros

O método proposto por Howe (HOWE, 2013) baseia-se em três estratégias relacionadas entre si. Primeiro, ele define a binarização como uma rotulação de pixels que minimiza uma função de energia global, inspirada por um modelo de campo aleatório de Markov (LELORE e BOUCHARA, 2009). Em segundo lugar, se baseia no Laplaciano das intensidades da imagem para formular o termo fidelidade de dados dessa energia a fim de distinguir a tinta do fundo. Isso garante uma invariância crucial para diferenças no contraste e na intensidade global. Em terceiro lugar, descontinuidades de borda são incorporadas ao termo de suavidade da função de energia global (Equação 34).

𝜀𝐼(𝐵) = � ��𝐿0𝑥𝑦�1 − 𝐵𝑥𝑦� + 𝐿1𝑥𝑦� 𝑛 𝑦=0 𝑚 𝑥=0 + � � 𝐶𝑥𝑦ℎ �𝐵𝑥𝑦 ≠ 𝐵𝑥+1,𝑦� 𝑛 𝑦=0 𝑚−1 𝑥=0 + � � 𝐶𝑥𝑦𝑣 �𝐵𝑥𝑦 ≠ 𝐵𝑥,𝑦+1� 𝑛−1 𝑦=0 𝑚 𝑥=0 (34)

onde 𝐵_𝑥𝑦 ∈ {0, 1} é o valor do rótulo (fundo ou tinta, respectivamente) do pixel na posição (x, y). 𝐿1_𝑥𝑦é o custo para atribuir o rótulo 1 ao pixel na posição (x, y) e 𝐶_𝑥𝑦𝑣 e 𝐶_𝑥𝑦ℎ são os custos de uma rotulação incorreta entre 𝐵_𝑥𝑦 e seu vizinho a vertical e horizontal, respectivamente. Os valores de 𝐿0_𝑥𝑦 e 𝐿1_𝑥𝑦 devem ser invariantes em relação à variações da iluminação local da imagem, por esta razão são calculados a partir do Laplaciano das intensidades dos tons de cinza da imagem, como indicado nas Equações 35 e 36:

𝐿0𝑥𝑦 = ∇2𝐼𝑥𝑦 (35)

𝐿1𝑥𝑦 = �−∇

2_𝐼

𝑥𝑦, 𝑠𝑒 𝐼𝑥𝑦 ≤ 𝜇𝑥𝑦𝑟 + 2𝜎𝑥𝑦𝑟

𝜙, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 (36) onde ∇2𝐼_𝑥𝑦representa o operador Laplaciano aplicado à intensidade da imagem 𝐼_𝑥𝑦. O uso do desvio padrão 𝜎_𝑥𝑦𝑟 e da média local 𝜇_𝑥𝑦𝑟 , considerando pixels próximos e ponderados por uma Gaussiana de raio r, garante que apenas pixels mais prováveis de serem fundo serão considerados como tal. Na Equação 44, ϕ é um valor negativo suficientemente grande em valores absolutos.

De acordo com a Equação 34, 𝐶_𝑥𝑦𝑣 e 𝐶_𝑥𝑦ℎ devem ter valores atribuídos de modo que descontinuidades sejam toleradas para pixels de borda (em descontinuidades entre tinta e fundo) e penalizadas para pixels que não sejam de borda. Assim, 𝐶_𝑥𝑦𝑣 e 𝐶_𝑥𝑦ℎ têm valores atribuídos de acordo com a imagem de bordas 𝐸_𝑥𝑦, que é gerada utilizando um detector de bordas de Canny (CANNY, 1986):

𝐶𝑥𝑦ℎ = � 0, 𝑠𝑒 𝐸𝑥𝑦∧ �𝐼𝑥𝑦< 𝐼𝑥+1,𝑦� 0, 𝑠𝑒 𝐸𝑥+1,𝑦∧ (𝐼𝑖𝑗 ≥ 𝐼𝑥+1,𝑦) 𝑐, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 (37) 𝐶𝑥𝑦𝑣 = � 0, 𝑠𝑒 𝐸𝑥𝑦∧ �𝐼𝑥𝑦 < 𝐼𝑥,𝑦+1� 0, 𝑠𝑒 𝐸𝑥,𝑦+1∧ (𝐼𝑥𝑦 ≥ 𝐼𝑥,𝑦+1 𝑐, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 ) (38)

O algoritmo descrito inclui seis parâmetros, dos quais apenas dois influenciam fortemente a binarização e requerem diferentes valores para diferentes tipos de imagens. Os

outros quatro parâmetros exercem menor influência nos resultados e podem ser deixados como constantes, com consequências desprezíveis nas imagens testadas (HOWE, 2013).

Encontrar então, valores automáticos para os dois parâmetros importantes, é justificativa suficiente para a criação de um método automático que possa ser aplicado para tal fim (HOWE, 2013).

Dois dos parâmetros menos importantes aparecem na Equação 36: r e ϕ. O valor de r deve ser grande o bastante para englobar ao menos poucos pixels do fundo, então deve ser escolhido um valor maior que a espessura do traço do texto. Já o parâmetro ϕ pode ser qualquer valor significativamente negativo, ou seja, um valor grande em termos absolutos. Nenhuma tentativa foi feita para otimizar esses parâmetros e em todos os experimentos foram usados os valores r=20 e ϕ=−500, para imagens com tons de cinza variando entre 0 e 255 (HOWE, 2013). Os outros parâmetros menos importantes são dois dos três que controlam o algoritmo de Canny (CANNY, 1986), o limiar mais baixo 𝑡_𝑙𝑜 e o raio 𝜎_𝐸 (o algoritmo de Canny primeiro aplica uma suavização na imagem, com um filtro Gaussiano de raio 𝜎_𝐸, para depois encontrar bordas no gradiente da imagem através de um procedimento de histerese com dois limiares 𝑡_ℎ𝑖 e 𝑡_𝑙𝑜).

Os dois parâmetros importantes são c, das Equações 37 e 38 e o limiar 𝑡_ℎ𝑖 do algoritmo de Canny. O limiar alto de Canny, 𝑡_ℎ𝑖, tem um papel particularmente importante em imagens que apresentam o problema da tinta passando para o outro lado do papel, já que esta tinta tende a ter bordas menos proeminentes.

Figura 32. Detalhes de resultados da binarização com diferentes valores de c, incrementado de forma logarítmica.

c = 5,00 c = 7,33 c = 10,7 c = 15,7 c = 23,1 c = 33,8

c = 49,6 c = 72,7 c = 106 c = 156 c = 229 c = 336

A Figura 32 exibe detalhes da binarização para valores crescentes de c. Quando o valor de c é muito baixo, a binarização se parece como uma simples operação de sinal no Laplaciano (GONZALEZ; WOODS; RICHARD, 2007) da imagem e com muito ruídos. À medida que o valor de c cresce, a quantidade de ruído diminui. Em um intervalo de valores intermediários de c, a binarização se torna estável e com poucas alterações à medida que o valor de c cresce. Valores altos fazem com que a binarização se torne instável, novamente, à medida que grande componentes de tinta desaparecem. Howe utiliza essa estabilidade para escolher o valor para c.

Para visualizar a estabilidade de c, Howe definiu a instabilidade normalizada da binarização ξν(c) em termos de ∆(𝐵𝑐, 𝐵𝜈𝑐) (Equação 39), a fração de pixels que mudam de rótulos entre dois valores de c que diferem de um fator ν como definida na Equação 40:

Δ(𝐵, 𝐵′_{) = � �(𝐵} 𝑥𝑦 ≠ 𝐵𝑥𝑦′ ) 𝑛 𝑦=0 𝑚 𝑥=0 (39) 𝜉𝜐(𝑐) = Δ(𝐵 𝑐_{, 𝐵}𝜐𝑐₎ 𝑛𝑚(ln(𝜐𝑐) − ln(𝑐)) (40) onde 𝐵_𝑥𝑦𝑐 é o rótulo da binarização do pixel na posição (x, y) usando a penalidade c. O operador booleano ≠ resulta em 0 ou 1. A Figura 33 mostra que a forma geral da curva de instabilidade é uma propriedade intrínseca da imagem e não depende do valor exato escolhido para ν.

Figura 33. Instabilidade da binarização medida variando o passo em c e normalizada pelo log do passo. A forma da curva, e consequentemente o local do mínimo, depende muito pouco do passo escolhido.

Fonte: HOWE, 2013.

Howe observou também que a forma da curva se assemelha a forma da curva formada pelos valores de 1 − 𝑓, onde 𝑓 é o valor da medida F-Measure para cada valor de c, e

concluiu que procurando pelo mínimo curva, entre os dois picos observados na Figura 33, também teria os melhores valores para F-Measure. Nos experimentos foram utilizados dois pontos por oitava, ou ν = 1,19 aproximadamente.

Howe percebeu também que a abordagem da região de estabilidade pode ser aplicada também para o outro parâmetro importante, o limiar 𝑡_ℎ𝑖 do algoritmo de Canny. Os valores de

c e 𝑡_ℎ𝑖 são calculados de forma sequencial, ou seja, o algoritmo calcula o melhor valor de c para cada valor de 𝑡_ℎ𝑖 e então escolhe o melhor par (c, 𝑡_ℎ𝑖) que gere a maior estabilidade para 𝑡ℎ𝑖.

A Figura 34(b) exibe um resultado obtido pelo algoritmo proposto por Howe.

Figura 34. Exemplo do de resultado do algoritmo de Howe aplicado a uma imagem de documento degradado: (a) imagem original e (b) resultado obtido.

(a) (b)

Fonte: imagem do autor.

No documento Restauração digital de imagens coloridas de documentos históricos (páginas 55-59)