ALGORITMO DE PREDIÇÃO DA QUALIDADE DO RESULTADO DE ALGORITMOS

preocupação em identificar, sobre uma imagem de um documento antigo, tudo aquilo que é relevante para o leitor, geralmente associado ao conteúdo do texto, e todos os demais efeitos que surgem devido à degradação do documento.

3.1 ALGORITMO DE PREDIÇÃO DA QUALIDADE DO RESULTADO DE ALGORITMOS DE BINARIZAÇÃO

O trabalho realizado em (RABEUX, JOURNET, et al., 2013) procura estimar o resultado da aplicação de um algoritmo sobre uma imagem de documento, sem necessariamente aplicar o algoritmo sobre a imagem, podendo assim indicar se o resultado será ou não satisfatório, e assim escolher o algoritmo que irá produzir o melhor resultado, quando aplicado à imagem em questão. A abordagem utiliza um conjunto de características estatísticas definidas pelos autores para definir um modelo de predição capaz de estimar o valor da medida F-score do algoritmo, caso o seu resultado fosse comparado ao ground truth da imagem. Com este resultado, a técnica é capaz de identificar qual algoritmo é capaz de produzir a melhor imagem, quantitativamente, sem necessariamente aplicar todos os algoritmos envolvidos no teste.

Para atingir tal objetivo, os autores definem características específicas para avaliar a qualidade da imagem do documento, de acordo com o nível de degradação do documento que gerou a imagem, os níveis de tinta presentes e a qualidade do background correspondente. Para tanto, os autores supõem que toda imagem de documento pode ser modelada como uma composição de três camadas: foreground, background e camada de degradação. Ainda

segundo os autores, a camada de degradação se comporta como um componente conectado com níveis de cinza diferentes das outras duas camadas. Para se separar tais camadas, são estabelecidos dois limiares na escala de cinza, utilizando-se algum algoritmo de classificação.

Para avaliar a qualidade da binarização, são propostas características estatísticas, extraídas a partir do histograma de tons de cinza. As estatísticas utilizadas são média, variância e assimetria (skewness). As estatísticas são computadas, tanto para a imagem inteira, quanto para as camadas previamente limiarizadas, a fim de caracterizar a distribuição estatística de cada uma das camadas do documento.

Para representar a relação entre os histogramas, são introduzidas outras duas características, que representam a distância entre o background, foreground e a camada de degradação, calculadas sobre uma imagem de 256 tons de cinza. Por fim, os autores definem outra característica que representa a quantidade relativa de pixels da camada de degradação, em relação aos pixels do foreground.

Como todas as características estatísticas foram extraídas a partir do histograma, a informação espacial dos pixels não está presente em nenhuma delas, sendo necessário definir novas características que indicam o nível de deformação espacial da imagem do documento, baseado nos componentes 4-conectados de cada camada em separado. Em seguida, os componentes do foreground e da camada de degradação são avaliados.

Os autores identificam três possíveis casos de ocorrências de manchas que podem ocorrer em uma imagem de documento. Caso os pixels de tinta e os de degradação não estejam conectados (Figura 3.1-a), o caractere produzido pela binarização não deve ser afetado pela região de degradação. Sendo assim, essa configuração pode indicar que o resultado final irá conter vários pontos degradados marcados como texto. Para isso, é definida uma característica para representar a quantidade de componentes conectados da camada de degradação que não estão conectados a nenhum componente do foreground.

Caso exista um tipo de conexão entre um componente do foreground e o da camada de degradação (Figura 3.1-b e Figura 3.1-c), o resultado final da binarização pode alterar a forma da região de tinta, resultando em uma deformação no caractere de texto. Sendo assim, os autores definem uma característica que representa a quantidade de componentes conectados da camada de tinta que podem ser alterados pelos componentes da camada de degradação, gerando uma região de tinta deformada nas regiões de periferia do caractere.

Finalmente, a partir da definição dos componentes de tinta que podem ser alterados pelos componentes degradados, os autores definem uma terceira característica para representar o percentual de área de tinta deformada da imagem do documento que pode ser gerada a partir dos componentes da camada degradada que estão conectados aos componentes do foreground.

Figura 3.1: Tipos de ocorrências de manchas geradas a partir da degradação do documento. C0 representa o

conteúdo textual, C1 representa um tipo de mancha. Em (a) região da mancha C1 não sobrepõe a região textual

C0. Em (b), as regiões são vizinhas, mas também não se sobrepõem. Em (c), O conteúdo textual está imerso em

uma região de mancha. Figura retirada de (RABEUX, JOURNET, et al., 2013).

Com todas as características definidas, os autores representam cada imagem como sendo um vetor de 18 características. A partir da análise desse vetor, é possível avaliar a qualidade da imagem do documento e definir qual o método mais indicado para ser aplicado sobre a imagem.

A definição dessas características, porém, serve apenas de apoio para se alcançar o real objetivo do trabalho, que é estimar a qualidade do resultado da aplicação de um algoritmo de binarização. O processo de predição pode ser dividido em quatro etapas: (a) treinamento, (b) geração do modelo de predição, (c) avaliação da qualidade do modelo e (d) validação do modelo.

Treinamento

Além do vetor de características da imagem, é necessário preparar uma base de treinamento para o classificador que fará a predição do resultado da binarização. Para tal, é necessário definir uma base de imagens de documentos, cada imagem com seu ground truth correspondente, que é utilizada como base de treinamento. Sobre essa base, são aplicados todos os algoritmos que estão disponíveis para o classificador, e todos os seus resultados são comparados com o ground truth da imagem, a fim de se obter o F-score da execução do algoritmo.

Geração do modelo de predição

Para gerar o modelo de predição, os autores utilizam um modelo de regressão linear multivariada step wise (THOMPSON, 1978), no intuito de selecionar as melhores características para serem utilizadas na predição do algoritmo de binarização. A saída deste passo é uma função linear que retorna um valor de F-score para qualquer imagem de documento, a partir do seu vetor de entrada. O F-score retornado, entretanto, não é calculado diretamente utilizando-se o ground truth, já que a entrada da função é constituída apenas da imagem a ser binarizada. Seu valor é estimado, a partir dos valores utilizados na etapa de treinamento e a partir das características extraídas da imagem avaliada.

Avaliação da qualidade do modelo

Uma vez gerado, o modelo de predição deve ser avaliado estatisticamente, a fim de se determinar a sua qualidade e sua capacidade de prever corretamente os resultados futuros. Para avaliar a qualidade do modelo, são utilizadas ferramentas estatísticas que fornecem dados confiáveis sobre este aspecto. O coeficiente de determinação R (0 < R² < 1) é utilizado para determinar a proporção da variabilidade do conjunto utilizado como base e fornece uma medida sobre a aptidão do modelo para possíveis entradas futuras. O valor-p (p-value) também é calculado para cada característica envolvida no teste. O modelo será aceito se as duas grandezas estiverem dentro de uma faixa estabelecida, sugerida pelos autores. Caso o modelo não seja aceito, um novo treinamento deve ser realizado.

Validação do modelo

Se o modelo for aceito, ele precisa ser validado. Os autores utilizam validação cruzada, utilizando 90% das imagens de amostras como treinamento, e os 10% restantes para avaliação. Para tanto, a etapa de treinamento e a etapa de avaliação são executadas várias vezes, 100 no total dos autores, para cada partição do conjunto. As médias das medidas de avaliação de todos os conjuntos são combinadas numa única média, que também deve atender às regras de validação.

Uma vez validado, o modelo é capaz de predizer qual algoritmo, dentre os disponíveis para treinamento, irá produzir o melhor resultado, quando aplicado sobre uma imagem de documento, levando-se em conta apenas os resultados quantitativos obtidos pela

avaliação, deixando de lado possíveis resultados qualitativos. Em outras palavras, o algoritmo é capaz de identificar, previamente, se o resultado da binarização será bom ou ruim, apenas avaliando o comportamento do algoritmo observado nas imagens de treinamento e utilizando- se das características da imagem.

O método proposto pelos autores apresenta resultados interessantes quando comparado com outras técnicas de estimação. Por exemplo, quando comparado com o método de (LU, SU e TAN, 2010) (Tabela 3.1), o algoritmo apresenta uma ligeira melhora (1,6%) na estimativa média dos F-Score’s das imagens utilizadas como teste, obtendo melhores resultados globais, já que o desvio padrão foi idêntico ao obtido a partir da estimativa utilizando o ground truth de cada imagem. O erro médio, segundo os autores, foi de 0,9%, com desvio padrão de 2%, que constituem resultados interessantes, considerando a economia do custo computacional envolvido, especialmente se a quantidade de algoritmos de binarização envolvidos for muito grande, possibilitando a aplicação da técnica na escolha automática de algoritmos de binarização para imagens documentos.

Tabela 3.1: Resultados obtidos pelos autores. O desvio padrão e os valores máximo e mínimo do F-score foram

idênticos ao melhor resultado possível (em itálico).

F-Score Média Desvio Padrão Valor Mínimo Valor Máximo Seleção ótima 0,913 0,04 0,77 0,96 Lu 0,891 0,12 0,21 0,95 Seleção automática 0,906 0,04 0,77 0,96

Fonte: Retirada de (RABEUX, JOURNET, et al., 2013).

Percebe-se que a proposta do artigo é muito interessante, permitindo a sua aplicação em um vasto campo de aplicações. Uma das principais vantagens é ser capaz de identificar, com uma boa precisão, segundo os resultados obtidos pelos autores, a qualidade do resultado do algoritmo, sem necessariamente executar o mesmo sobre a imagem. Isso pode trazer um ganho vital de tempo em aplicações, por exemplo, de OCR, que utilizam métodos de binarização dispostos em cadeia, no intuito de se obter uma binarização que produza uma sequência de caracteres que seja possível de se segmentar. Não haveria, neste caso, necessidade de se executar todos os algoritmos disponíveis e de se tentar segmentar todas as imagens geradas, oferecendo um ganho real de tempo para a execução da aplicação. Outra

vantagem é a sua escalabilidade, já que o número de algoritmos disponíveis para avaliação não é fator de entrada para o método. Ou seja, quanto mais métodos de binarização estiverem disponíveis, provavelmente melhor será a qualidade do resultado oferecido pelo algoritmo, já que ele poderá escolher, entre mais opções, aquele que oferece o resultado mais conveniente.

Por outro lado, a complexidade do algoritmo é um empecilho. A dificuldade em se estimar os limiares iniciais de separação das camadas é um passo fundamental e de extrema importância para a qualidade do resultado, já que uma má separação das camadas de

foreground, background e camada degradada irá ter influencia direta em todas as

características utilizadas para a classificação das imagens e, por consequência, impacto direto no resultado da predição, comprometendo a análise. Outra dificuldade consiste no gerenciamento do modelo de predição, que depende de uma etapa de treinamento e avaliação. Se o conjunto de imagens não for expressivo, a qualidade da predição não será tão boa, já que haverá características que, por não serem representativas no conjunto de treinamento, não serão levadas em conta nas imagens de teste. Além disso, as etapas de treinamento e validação são custosas, pois se faz necessário executar cada algoritmo sobre cada imagem disponível na base e calcular para cada imagem resultado, todas as medidas e características definidas no artigo a cada teste da validação, isso sem garantias de que o conjunto de imagens é um conjunto adequado e que o modelo é aceitável.

No documento Binarização de imagens de documentos utilizando estimativa local de largura de traço (páginas 43-48)