• Nenhum resultado encontrado

Como mencionado anteriormente, o Reconhecimento Óptico de Caracteres (OCR) faz uso de metodologias diferentes para lidar com impressão de máquina e texto ma-

nuscrito e, na última década, vários trabalhos foram realizados propondo diferentes métodos para viabilizar a análise de documentos e permitir a separação dos tipos de textos encontrados neles. Apresentamos a seguir alguns desses trabalhos.

Segundo Silva et al. [4], a maioria dos estudos na área tem em comum as seguintes etapas: pré-processamento, segmentação do texto, extração de características e a classificação em impresso ou manuscrito. A Figura 3.2 [4] ilustra essas etapas:

Figura 3.2: Etapas para classificação de tipos de textos

No método apresentado por estes autores, após operações de pré-processamento e extração de componentes conectados, foram utilizadas regras de classificação basea- das em características extraídas de retângulos envoltórios contendo os dois tipos de textos. As características extraídas foram: Desvio da Largura, Desvio da Altura, Desvio da Área, Densidade, Variância da Projeção Vertical, Maior Diferença Encon- trada na Projeção Horizontal, Distribuição de Pixels, Divisão da Linha Inferior de Pixels pela Largura, Soma das Divisões de Pixels de Cada Linha pela Largura, Di- visão do Maior Contorno Vertical pela Altura e Divisão da Soma dos Comprimentos dos Contornos Verticais pela Área. O treinamento foi feito com uma base de dados pública (AIM off-line Database 3.0 ) e com outra criada como parte do trabalho. A classificação, foi feita com a ajuda da ferramenta WEKA1.

O sistema desenvolvido foi testado em duas bases de imagens, aplicando a técnica K-fold Cross Validation2. Em uma das bases, com K=10, os resultados apurados foram: 97,55% de acurácia média na classificação de palavras impressas; 98,09% de acurácia média na classificação de palavras manuscritas. Na outra base, com K=3, os resultados obtidos foram: 97,17% de acurácia média na classificação de palavras impressas; 99,46% de acurácia média na classificação de palavras manuscritas. Koyama et al. [22] propõem um método para distinguir entre manuscritos e im- pressos sem necessidade de localizar posições de caractere ou linhas de texto. A

1Ferramenta GPL composta por uma coleção de algoritmos de aprendizagem de máquina. É

utilizada nas tarefas de mineração de dados e desenvolvida pela University of Waikato, New Zealand, em linguagem Java.

técnica é chamada SDLFD (Spectrum-Domain Local Fuctuation Detection) e tra- balha transformando áreas do documento em domínios de frequência para extrair características incluindo flutuações causadas pela escrita manual. Uma Rede Neural Perceptron Multicamadas (MLP) é utilizada para aprender os padrões ordenados de segmentos com caracteres impressos e os desníveis de segmentos escritos a mão. O treinamento é feito a partir de um banco de imagens distribuído pela AIST (Ad- vanced Industrial Science and Technology) com mais de 1,2 milhões de imagens de caracteres isolados. Para textos baseados em alfabeto, a taxa de acerto foi de 99,7 %. O método mostrou-se também robusto quanto a mudanças na resolução de digitalização.

Sarkar et al. [23] apresentam uma abordagem que classifica os pixels de uma ima-

gem de documento de acordo com o tipo de marcação. Para isso, um módulo

segmentador primeiro divide uma imagem de entrada em fragmentos, algumas vezes rompendo componentes conectados. Cada fragmento é, então, classificado por um classificador multiestágio treinado e que leva em conta características do fragmento, bem como a sua vizinhança. Características relevantes para a discriminação são escolhidas automaticamente entre as centenas de medições. O sistema é treinável a partir de imagens de exemplo no qual cada pixel em primeiro plano tem um rótulo “campo verdade”. A principal distinção deste método é o nível de precisão alcançado na classificação de fragmentos no nível do componente sub-conectado, ao invés de grandes grupos agregados, tais como palavras ou linhas de texto. Esta abordagem também é mais ampla quanto a classificação que realiza sendo o treinamento feito para detectar texto manuscrito, texto impresso, gráficos e ruídos.

De forma semelhante ao trabalho de Silva et al. [4], Shirdhonkar e Kokare [3] segmentam o texto em pedaços menores que ele denomina patches ou “fragmen- tos” e, em seguida, extraem de cada o seguinte conjunto de características: Altura, Largura, Proporção entre altura e largura, Densidade, Percentual de texto acima, Comprimento médio e Transição Horizontal e Vertical. O trabalho faz uma com- paração entre a classificação inferida a partir do modelo utilizado Redes Neurais (RN) e utilizando Máquina de Vetores Suporte (MVS)3. Os resultados experimen- tais encontrados demonstraram que a taxa de classificação para MVS foi superior a RN.

Xujun Peng et al. [24] propõem em seu trabalho a utilização de uma Árvore Multi- Estruturada Classificadora para identificar anotações e textos sobrepostos em docu- mentos impressos. No modelo, cada nó da árvore estruturada é um aprendiz binário fraco. Ao contrário da Árvore de Decisão normal que considera apenas um subcon- junto de dados de treinamento em cada nó e é suscetível a overfitting4, o modelo

3Categoria das Redes Neurais alimentadas adiante, ou seja, redes cujas saídas dos neurônios de

uma camada alimentam os neurônios da camada posterior, não ocorrendo a realimentação.

4Acontece quando a arvore memoriza os padrões de treino e perde assim a capacidade de gene-

fortalece a árvore utilizando pesos diferentes para cada nó com dados de treina- mento. Esta abordagem traz como inovação a identificação de textos sobrepostos. Os testes foram realizados com 82 documentos de escritório com diversas anotações e correções manuscritas dos quais 54 foram utilizados no processo de treinamento. Em seus experimentos o autor faz uma comparação dos resultados do seu método com os obtidos através de uma árvore de de decisão normal e uma rede neural. Ele observa ainda que, como existe um desequilíbrio nos dados de entrada, as Redes Neu- rais backpropagation não identificam textos manuscrito e sobrepostos muito bem e tendem a concentrar-se na classe majoritária (texto impresso) perdendo informação sobre as classes minoritárias (texto manuscrito e texto sobreposto).

Recentemente, Jayant et al. [25], apresentaram um método para extrair as zonas de texto manuscritas e impressas a partir de imagens de documentos ruidosos com con- teúdo misto. O método utiliza recursos baseados em Segmentos Adjacentes Triplos (SAT) que codificam características locais de formato do texto. O SAT é um caso particular da técnica k-Adjacent Segments (kAS) proposto inicialmente por Ferrari et al. [26]. Nessa proposta, primeiro são construídos dois dicionários de caracterís- ticas de formatos extraídos a partir de um conjunto de documentos manuscritos e impressos, respectivamente. Em seguida, os histogramas normalizados das palavras dos dicionários de cada zona segmentada são calculados e usados para treinar um classificador do tipo Máquina de Vetores Suporte (MVS). A abordagem apresentou- se robusta quanto ao ruído de fundo e as características SAT são invariantes em escala, translação e rotação de texto.

Documentos relacionados