METODOLOGIA - Binarização de imagens de documentos utilizando estimativa local de largura de tr

A metodologia utilizada para avaliar objetivamente a qualidade dos resultados obedece às regras estabelecidas de acordo com as regras da edição 2014 do DIBCO (NTIROGIANNIS, GATOS e PRATIKAKIS, 2014).

5.2.1 Critérios de Avaliação

Os critérios utilizados na edição de 2014 do DIBCO foram: (a) F-Measure; (b) pseudo

F-Measure; (c) PSNR; (d) DRD (Distance Reciprocal Distortion).

F-Measure

A medida F-Measure quantifica a relação entre os pixels pertencentes ao foreground corretamente classificados, os pertencentes ao texto que foram classificados como

background e os que pertenciam ao background e foram classificados como foreground de

acordo com a equação (13). Para um resultado ideal, o valor do F-Measure é 100.

(13)

TP = True Positive, ou pixels de foreground marcados como foreground; FP = False Positive, ou pixels de background marcados como foreground; FN = False Negative, ou pixels de foreground marcados como background;

Pseudo F-Measure

Esta medida foi introduzida em (NTIROGIANNIS, GATOS e PRATIKAKIS, 2013), e utiliza pseudo-medidas, utilizando a mesma equação da medida F-Measure. Tais medidas utilizam pesos em função da distância em relação ao contorno dos caracteres do ground truth.

No caso do pseudo-recall, os pesos são normalizados de acordo com a largura do traço local. No caso da pseudo-precisão, os pesos são calculados dentro de uma área crescente, dentro do

background do ground truth, levando em conta a largura do traço do componente de foreground mais próximo. Dentro desta área, os pesos são sempre maiores que a unidade,

enquanto que na sua região externa, os pesos são unitários.

PSNR (Peak Signal-to-Noise Ratio – Razão Sinal-Ruído de Pico)

A medida PSNR indica a similaridade entre duas imagens. Quanto maior o seu valor, mais idênticas serão as imagens, como mostra a equação (14). A medida é calculada sobre o valor do erro médio quadrático (MSE – Mean Squared Error).

(14)

O valor C representa a diferença entre background e foreground das imagens. M e N correspondem à altura e largura da imagem, respectivamente, e I e I’ são as imagens a serem comparadas.

DRD (Distance-Reciprocal Distortion Metric)

A medida DRD é utilizada para medir a distorção visual de uma imagem binária de um documento (LU, KOT e SHI, 2004). A medida está relacionada com a percepção visual do olho humano, e mede a distorção de todos os pixels que apresentam alguma rotação, em relação ao ground truth, sendo calculada de acordo com a equação (15).

é a distorção do k-ésimo pixel, calculada utilizando-se uma matriz quadrada de pesos normalizada de tamanho cinco, como definido em (LU, KOT e SHI, 2004). O é obtido a partir da soma ponderada dos pixels dentro do bloco, na imagem do ground truth, que estão em posições diferentes na imagem avaliada, segundo a equação (16).

(16)

NUBN é o número de blocos quadrados de tamanho 8 não uniformes no ground truth. GT é a imagem do ground truth, B é a imagem avaliada e W é a matriz de pesos utilizada

como referência (Figura 5.3).

Figura 5.3: Matriz de pesos utilizada como referência para o cálculo do DRDk. O ponto 0, no centro da matriz é

considerado também a origem das coordenadas da matriz. Por isso a notação na Equação 5.4 para os pontos (i,j) obedece ao intervalo [-2,2].

5.2.2 Algoritmos para comparação

Para estabelecer um ambiente de competição que fizesse uso das regras estabelecidas no DIBCO, foram selecionados seis algoritmos com características distintas. Otsu (OTSU, 1979) e Niblack (NIBLACK, 1986), dois algoritmos considerados como clássicos, e presentes na maioria dos trabalhos da literatura recente. Os algoritmos de (SU, LU e TAN, 2010) e (ZHAO e KAMEL, 1993) foram escolhidos por serem trabalhos que se utilizam da largura do traço como passo fundamental para a qualidade do seu resultado. Em particular, o trabalho de Su serviu como ponto de partida para o desenvolvimento deste trabalho. Os algoritmos de (ARRUDA e MELLO, 2014) e (MESQUITA, MELLO e ALMEIDA, 2014) foram escolhidos por serem trabalhos recentemente publicados, posicionando os resultados obtidos por este trabalho na literatura atual.

A implementação dos algoritmos de Otsu, Niblack, Su e Zhao foi feita em C++, com o uso da biblioteca OpenCV (BRADSKI e KAEHLER, 2008). A implementação dos algoritmos de Arruda e Mesquita foi fornecida pelos próprios autores, feita em MATLAB. O cálculo das medidas de desempenho de todos os algoritmos foi realizado utilizando o software oficial do DIBCO, fornecido pelos organizadores do evento, também desenvolvido em MATLAB.

5.2.3 Avaliação dos resultados

A avaliação dos resultados considera o desempenho obtido pelos algoritmos utilizando-se as medidas estabelecidas na Seção 5.2.1 deste trabalho e utiliza o mesmo critério de classificação utilizado no DIBCO 2014 (NTIROGIANNIS, GATOS e PRATIKAKIS, 2014).

Inicialmente, cada algoritmo é avaliado junto ao ground truth, para que os indicadores de qualidade do resultado do algoritmo sejam produzidos. Quando todos os algoritmos tiverem seus indicadores, para cada medida apresentada na Seção 5.2.1 deste trabalho, os algoritmos serão ordenados, levando-se em consideração o desempenho do algoritmo em relação aos demais na medida em questão. A posição que o algoritmo ocupa nessa lista ordenada corresponde ao seu ranking, associado à medida. Como são utilizadas quatro medidas (Seção 5.2.1 deste trabalho) para cada imagem são estabelecidos quatro rankings para o algoritmo. A soma de todos os rankings obtidos pelo algoritmo em todas as imagens de teste utilizadas oferece o score, que representa o seu desempenho na avaliação segundo a equação (17).

(17)

K é o número de imagens utilizadas na comparação, L é o número de medidas

utilizadas e é o i-ésimo método de binarização utilizado como teste. Após o cálculo do

score, os algoritmos são ordenados de acordo com o menor valor do score, e assim, define-se

a posição do método no concurso. O menor score possível para um algoritmo em uma imagem é 4.

5.2.4 Avaliação da qualidade da estimativa de largura do traço

A estimativa de largura de traço proposta por este trabalho foi comparada com outras estimativas disponíveis na literatura. O intuito desta comparação foi demonstrar que o método proposto para estimar a largura do traço oferece ganho ao algoritmo que o utiliza, sem que nenhum ajuste de parâmetros ou etapas preliminares.

Para efetuar a avaliação, a etapa de estimativa de largura do traço do algoritmo proposto foi substituída por outras metodologias bastante utilizadas na literatura: largura de traço constante fornecida a priori (ZHAO e KAMEL, 1993); largura de traço calculada a partir da imagem (SU, LU e TAN, 2010); largura de traço estimada pixel a pixel (NTIROGIANNIS, GATOS e PRATIKAKIS, 2009). Cada forma de cálculo da largura de traço, quando combinada com o algoritmo proposto nesse trabalho, produz uma imagem binarizada diferente daquela que utiliza a estimativa aqui proposta. Assim, cada combinação é considerada como um algoritmo diferente. Ao final do procedimento, as imagens são classificadas, de acordo com os critérios do DIBCO, e a classificação final define a melhor forma de estimativa de largura de traço para este conjunto de imagens dentre as estimativas utilizadas.

No documento Binarização de imagens de documentos utilizando estimativa local de largura de traço (páginas 113-117)