• Nenhum resultado encontrado

Binarização de documentos com ajuste automático de parâmetros

3 Problemas comuns de degradação em documentos antigos

4.2 Binarização de documentos antigos

4.2.4 Binarização de documentos com ajuste automático de parâmetros

O método proposto por Howe (HOWE, 2013) baseia-se em três estratégias relacionadas entre si. Primeiro, ele define a binarização como uma rotulação de pixels que minimiza uma função de energia global, inspirada por um modelo de campo aleatório de Markov (LELORE e BOUCHARA, 2009). Em segundo lugar, se baseia no Laplaciano das intensidades da imagem para formular o termo fidelidade de dados dessa energia a fim de distinguir a tinta do fundo. Isso garante uma invariância crucial para diferenças no contraste e na intensidade global. Em terceiro lugar, descontinuidades de borda são incorporadas ao termo de suavidade da função de energia global (Equação 34).

𝜀𝐼(𝐵) = � ��𝐿0𝑥𝑦�1 − 𝐵𝑥𝑦� + 𝐿1𝑥𝑦� 𝑛 𝑦=0 𝑚 𝑥=0 + � � 𝐶𝑥𝑦ℎ �𝐵𝑥𝑦 ≠ 𝐵𝑥+1,𝑦� 𝑛 𝑦=0 𝑚−1 𝑥=0 + � � 𝐶𝑥𝑦𝑣 �𝐵𝑥𝑦 ≠ 𝐵𝑥,𝑦+1� 𝑛−1 𝑦=0 𝑚 𝑥=0 (34)

onde 𝐵𝑥𝑦 ∈ {0, 1} é o valor do rótulo (fundo ou tinta, respectivamente) do pixel na posição (x, y). 𝐿1𝑥𝑦é o custo para atribuir o rótulo 1 ao pixel na posição (x, y) e 𝐶𝑥𝑦𝑣 e 𝐶𝑥𝑦ℎ são os custos de uma rotulação incorreta entre 𝐵𝑥𝑦 e seu vizinho a vertical e horizontal, respectivamente. Os valores de 𝐿0𝑥𝑦 e 𝐿1𝑥𝑦 devem ser invariantes em relação à variações da iluminação local da imagem, por esta razão são calculados a partir do Laplaciano das intensidades dos tons de cinza da imagem, como indicado nas Equações 35 e 36:

𝐿0𝑥𝑦 = ∇2𝐼𝑥𝑦 (35)

𝐿1𝑥𝑦 = �−∇

2𝐼

𝑥𝑦, 𝑠𝑒 𝐼𝑥𝑦 ≤ 𝜇𝑥𝑦𝑟 + 2𝜎𝑥𝑦𝑟

𝜙, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 (36) onde ∇2𝐼𝑥𝑦representa o operador Laplaciano aplicado à intensidade da imagem 𝐼𝑥𝑦. O uso do desvio padrão 𝜎𝑥𝑦𝑟 e da média local 𝜇𝑥𝑦𝑟 , considerando pixels próximos e ponderados por uma Gaussiana de raio r, garante que apenas pixels mais prováveis de serem fundo serão considerados como tal. Na Equação 44, ϕ é um valor negativo suficientemente grande em valores absolutos.

De acordo com a Equação 34, 𝐶𝑥𝑦𝑣 e 𝐶𝑥𝑦ℎ devem ter valores atribuídos de modo que descontinuidades sejam toleradas para pixels de borda (em descontinuidades entre tinta e fundo) e penalizadas para pixels que não sejam de borda. Assim, 𝐶𝑥𝑦𝑣 e 𝐶𝑥𝑦ℎ têm valores atribuídos de acordo com a imagem de bordas 𝐸𝑥𝑦, que é gerada utilizando um detector de bordas de Canny (CANNY, 1986):

𝐶𝑥𝑦ℎ = � 0, 𝑠𝑒 𝐸𝑥𝑦∧ �𝐼𝑥𝑦< 𝐼𝑥+1,𝑦� 0, 𝑠𝑒 𝐸𝑥+1,𝑦∧ (𝐼𝑖𝑗 ≥ 𝐼𝑥+1,𝑦) 𝑐, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 (37) 𝐶𝑥𝑦𝑣 = � 0, 𝑠𝑒 𝐸𝑥𝑦∧ �𝐼𝑥𝑦 < 𝐼𝑥,𝑦+1� 0, 𝑠𝑒 𝐸𝑥,𝑦+1∧ (𝐼𝑥𝑦 ≥ 𝐼𝑥,𝑦+1 𝑐, 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟á𝑟𝑖𝑜 ) (38)

O algoritmo descrito inclui seis parâmetros, dos quais apenas dois influenciam fortemente a binarização e requerem diferentes valores para diferentes tipos de imagens. Os

outros quatro parâmetros exercem menor influência nos resultados e podem ser deixados como constantes, com consequências desprezíveis nas imagens testadas (HOWE, 2013).

Encontrar então, valores automáticos para os dois parâmetros importantes, é justificativa suficiente para a criação de um método automático que possa ser aplicado para tal fim (HOWE, 2013).

Dois dos parâmetros menos importantes aparecem na Equação 36: r e ϕ. O valor de r deve ser grande o bastante para englobar ao menos poucos pixels do fundo, então deve ser escolhido um valor maior que a espessura do traço do texto. Já o parâmetro ϕ pode ser qualquer valor significativamente negativo, ou seja, um valor grande em termos absolutos. Nenhuma tentativa foi feita para otimizar esses parâmetros e em todos os experimentos foram usados os valores r=20 e ϕ=−500, para imagens com tons de cinza variando entre 0 e 255 (HOWE, 2013). Os outros parâmetros menos importantes são dois dos três que controlam o algoritmo de Canny (CANNY, 1986), o limiar mais baixo 𝑡𝑙𝑜 e o raio 𝜎𝐸 (o algoritmo de Canny primeiro aplica uma suavização na imagem, com um filtro Gaussiano de raio 𝜎𝐸, para depois encontrar bordas no gradiente da imagem através de um procedimento de histerese com dois limiares 𝑡ℎ𝑖 e 𝑡𝑙𝑜).

Os dois parâmetros importantes são c, das Equações 37 e 38 e o limiar 𝑡ℎ𝑖 do algoritmo de Canny. O limiar alto de Canny, 𝑡ℎ𝑖, tem um papel particularmente importante em imagens que apresentam o problema da tinta passando para o outro lado do papel, já que esta tinta tende a ter bordas menos proeminentes.

Figura 32. Detalhes de resultados da binarização com diferentes valores de c, incrementado de forma logarítmica.

c = 5,00 c = 7,33 c = 10,7 c = 15,7 c = 23,1 c = 33,8

c = 49,6 c = 72,7 c = 106 c = 156 c = 229 c = 336

A Figura 32 exibe detalhes da binarização para valores crescentes de c. Quando o valor de c é muito baixo, a binarização se parece como uma simples operação de sinal no Laplaciano (GONZALEZ; WOODS; RICHARD, 2007) da imagem e com muito ruídos. À medida que o valor de c cresce, a quantidade de ruído diminui. Em um intervalo de valores intermediários de c, a binarização se torna estável e com poucas alterações à medida que o valor de c cresce. Valores altos fazem com que a binarização se torne instável, novamente, à medida que grande componentes de tinta desaparecem. Howe utiliza essa estabilidade para escolher o valor para c.

Para visualizar a estabilidade de c, Howe definiu a instabilidade normalizada da binarização ξν(c) em termos de ∆(𝐵𝑐, 𝐵𝜈𝑐) (Equação 39), a fração de pixels que mudam de rótulos entre dois valores de c que diferem de um fator ν como definida na Equação 40:

Δ(𝐵, 𝐵′) = � �(𝐵 𝑥𝑦 ≠ 𝐵𝑥𝑦′ ) 𝑛 𝑦=0 𝑚 𝑥=0 (39) 𝜉𝜐(𝑐) = Δ(𝐵 𝑐, 𝐵𝜐𝑐) 𝑛𝑚(ln(𝜐𝑐) − ln(𝑐)) (40) onde 𝐵𝑥𝑦𝑐 é o rótulo da binarização do pixel na posição (x, y) usando a penalidade c. O operador booleano ≠ resulta em 0 ou 1. A Figura 33 mostra que a forma geral da curva de instabilidade é uma propriedade intrínseca da imagem e não depende do valor exato escolhido para ν.

Figura 33. Instabilidade da binarização medida variando o passo em c e normalizada pelo log do passo. A forma da curva, e consequentemente o local do mínimo, depende muito pouco do passo escolhido.

Fonte: HOWE, 2013.

Howe observou também que a forma da curva se assemelha a forma da curva formada pelos valores de 1 − 𝑓, onde 𝑓 é o valor da medida F-Measure para cada valor de c, e

concluiu que procurando pelo mínimo curva, entre os dois picos observados na Figura 33, também teria os melhores valores para F-Measure. Nos experimentos foram utilizados dois pontos por oitava, ou ν = 1,19 aproximadamente.

Howe percebeu também que a abordagem da região de estabilidade pode ser aplicada também para o outro parâmetro importante, o limiar 𝑡ℎ𝑖 do algoritmo de Canny. Os valores de

c e 𝑡ℎ𝑖 são calculados de forma sequencial, ou seja, o algoritmo calcula o melhor valor de c para cada valor de 𝑡ℎ𝑖 e então escolhe o melhor par (c, 𝑡ℎ𝑖) que gere a maior estabilidade para 𝑡ℎ𝑖.

A Figura 34(b) exibe um resultado obtido pelo algoritmo proposto por Howe.

Figura 34. Exemplo do de resultado do algoritmo de Howe aplicado a uma imagem de documento degradado: (a) imagem original e (b) resultado obtido.

(a) (b)

Fonte: imagem do autor.