CLASSIFICAÇÃO DOS PIXELS - Binarização de imagens de documentos utilizando estimativa local de

O processo de classificação dos pixels da imagem original é semelhante ao método proposto por (SU, LU e TAN, 2010). A máscara obtida a partir do processamento da imagem de contraste serve para identificar quais os pixels da imagem original que são candidatos a serem regiões de foreground. Cada pixel também tem o seu próprio valor de largura de traço, obtido através da matriz de largura de traços, calculada anteriormente. As bordas da imagem são tratadas utilizando-se reflexão.

O processo de classificação toma cada pixel da imagem, e determina estatisticamente se aquele pixel é ou não um pixel de foreground, utilizando a máscara como referência, e a imagem original como fonte de dados, seguindo um janelamento que obedece ao tamanho do traço estabelecido na matriz de largura de traços.

Um janelamento inicial é feito sobre a imagem original (I) e sobre a máscara (E). O tamanho da janela pode variar entre a largura do traço e o dobro de seu valor, dependendo das características do documento. Os resultados apresentados neste trabalho utilizam o tamanho da janela com o dobro da largura do traço calculado para o pixel. Dentro da janela, é calculado o tom médio e o desvio padrão do tom de todos os pixels, na imagem original, que foram marcados como candidatos à foreground na máscara, de acordo com a equação (11).

Como podemos notar na equação (11), é possível entender que a média e o desvio somente são calculados para os pixels que, efetivamente, foram marcados como pixels candidatos à foreground. A máscara, então, serve como indicador sobre quais os pixels da imagem original serão utilizados para determinar os limites estatísticos utilizados na classificação da janela. (11)

Nesse ponto já é possível entender a importância da qualidade da máscara para a efetividade do algoritmo. Caso um ponto de texto não seja indicado como candidato à

foreground na máscara, dificilmente ele será classificado corretamente no resultado final,

ressaltando o impacto da qualidade da máscara no resultado final.

Com a média e o desvio padrão da janela, que foi dimensionada de acordo com a largura do traço estabelecida para aquele pixel, é possível determinar se o pixel pertence ao

background ou ao foreground, utilizando a regra de classificação da equação (12).

(12)

Na equação (12), é o número mínimo de candidatos que deve existir dentro da janela para que o pixel seja tratado como um pixel de foreground. Neste trabalho, o número mínimo de pixels dentro da janela deve ser pelo menos, equivalente à largura do traço calculado para aquele determinado pixel, já que é impossível que um pixel faça parte do caractere, mas não esteja rodeado de, pelo menos, uma quantidade de pixels capaz de suprir a largura do traço calculado para aquele ponto. é o contador de pontos de foreground encontrados na máscara.

Caso a equação (12) se verifique como verdadeira, o pixel é marcado como texto, e por tanto, foreground. Do contrário, ele é considerado como integrante do background. Entretanto, devido, principalmente, à introdução de ruído causada pelas operações morfológicas realizadas sobre a imagem de contraste, alguns pontos de background serão erroneamente classificados como foreground neste passo (Figura 4.33), criando regiões de erro na imagem, comprometendo o resultado final. Para diminuir a ocorrência desses pontos, efetua-se uma varredura final sobre a imagem resultante da classificação estatística, buscando-se regiões conectadas que possuam largura ou altura menor do que a largura mínima estipulada para o traço dos caracteres da imagem.

Figura 4.33: Resultado da classificação estatística, realizada com o auxílio da máscara (Figura 4.32) e da

imagem original (Figura 4.2).

Esse critério de eliminação se baseia no fato de que, dado que a largura mínima de um caractere do foreground é conhecida, nenhum componente conectado da imagem deve ter largura menor do que este valor. Isso porque parte-se do pressuposto que todas as regiões conectadas nesta imagem são elementos de texto, logo, devem obedecer à regra da largura mínima. O critério da altura segue raciocínio semelhante, apesar de não ser tão razoável aceitar que uma letra qualquer seja escrita com altura igual ao próprio traço. Esse limite se deve ao fato de que, em alguns casos, especialmente no caso de documentos manuscritos, eventualmente existem componentes integrantes de uma letra maior, mas que, devido à forma da escrita do autor, acaba sendo separado do resto da letra (Figura 4.34) sendo considerada, para todos os efeitos de processamento, uma região à parte, por tanto, uma letra à parte. Nestes casos, a altura da letra deve corresponder, no mínimo, à largura do traço, já que esses casos correspondem a uma situação hipotética onde o autor escreve na vertical, ao invés da horizontal.

Figura 4.34: Exemplo de um problema de conectividade. Os traços horizontais (indicados em vermelho) das

letras ‘T’ seriam excluídos, devido à diferença de proporção almejada de largura x altura, ou seriam considerados como letras à parte.

Após a varredura, algumas regiões que antes foram marcadas como foreground são corrigidas. O resultado, porém, não é capaz de eliminar todos os problemas, uma vez que o critério de eliminação depende da largura do traçado calculado para o pixel. E em alguns casos, essa largura é pequena demais, ou pelo menos pequena em relação ao artefato, o que ocasiona a persistência desses elementos no resultado final (Figura 4.35).

Figura 4.35: Resultado final da binarização das imagens da Figura 4.2, após a remoção dos artefatos com

5 EXPERIMENTOS

Este capítulo apresenta alguns experimentos que foram realizados durante este trabalho, avaliando a qualidade do resultado do algoritmo proposto, através de uma análise quantitativa e qualitativa dos seus resultados, em comparação com outras técnicas, tradicionais e recentes, da literatura. Além disso, apresentamos a base de imagens utilizada para os experimentos, os critérios utilizados, e os resultados obtidos, agrupados de acordo com o contexto do teste.

No documento Binarização de imagens de documentos utilizando estimativa local de largura de traço (páginas 107-111)