Caracterização de Algoritmos de Segmentação de Dígitos Manuscritos

(1)

Felipe Calliari Ribas

Caracteriza¸

c˜

ao de Algoritmos de

Segmenta¸

c˜

ao de D´ıgitos Manuscritos

Disserta¸cão apresentada ao Programa de Pós-Gradua¸cão em Informática da Pontif´ıcia Universidade Católica do Paraná como requisito parcial para obten¸cão do t´ıtulo de Mestre em Informática.

Curitiba 2010.

(2)

Felipe Calliari Ribas

Caracteriza¸

c˜

ao de Algoritmos de

Segmenta¸

c˜

ao de D´ıgitos Manuscritos

Disserta¸cão apresentada ao Programa de Pós-Gradua¸cão em Informática da Pontif´ıcia Universidade Católica do Paraná como requisito parcial para obten¸cão do t´ıtulo de Mestre em Informática.

´

Area de concentra¸cão: Ciência da Com-puta¸cão.

Orientador:

Profo_{. Dr}o_{. Alceu de Souza Britto Jr.}

Co-orientador:

Profo. Dro. Luiz Eduardo Soares de Oliveira

Curitiba 2010.

(3)

Dados da Catalogação na Publicação Pontifícia Universidade Católica do Paraná Sistema Integrado de Bibliotecas – SIBI/PUCPR

Biblioteca Central

Ribas, Felipe Calliari

R482c Caracterização de algoritmos de segmentação de dígitos manuscritos / 2010 Felipe Calliari Ribas ; orientador, Alceu de Souza Britto Jr. ; co-orientador,

Luiz Eduardo Soares de Oliveira. – 2010. xi, 68 f. : il. ; 30 cm

Dissertação (mestrado) – Pontifícia Universidade Católica do Paraná, Curitiba, 2010

Bibliografia: f. 66-68

1. Sistemas de reconhecimento de padrões. 2. Processamento de imagens - Técnicas digitais. 3. Algoritmos de computador. I. Britto Júnior, Alceu de Souza, 1966-. II. Oliveira, Luiz Eduardo Soares de. III. Pontifícia Universidade Católica do Paraná. Programa de Pós-Graduação em Informática. IV. Título.

CDD 20. ed. – 005.1

(4)

(5)

Agradecimentos

Agrade¸co a meus pais Romy Jos´e Ribas e Ana Maria Calliari Ribas, por terem investido em minha educa¸c˜ao e apoiado minhas escolhas, o que com certeza foi essencial para o sucesso deste trabalho.

Agrade¸co a meus orientadores, Prof. Dr. Alceu de Souza Britto Jr. e Prof. Dr. Luiz Eduardo Soares de Oliveira, pelo ensino, suporte, paciˆencia e amizade durante esses anos.

Agrade¸co a Pontif´ıcia Universidade Católica do Paraná, por ter me concedido a bolsa de estudos, valorizando assim meu esfor¸co durante a gradua¸cão.

Agrade¸co tamb´em a todos que souberam compreender os momentos em que estive ocupado me dedicando `a este trabalho.

(6)

Sum´

ario

Agradecimentos . . . i

Sum´ario . . . ii

Lista de Figuras . . . iv

Lista de Tabelas . . . viii

Lista de Abreviaturas . . . ix Resumo . . . x Abstract . . . x 1 Introdu¸cão 1 1.1 Defini¸cão do Problema . . . 4 1.2 Objetivo . . . 6 1.3 Justificativa . . . 7 1.4 Proposta . . . 7 1.5 Contribui¸cão . . . 8 1.6 Organiza¸cão . . . 8 2 Estado da Arte 9 2.1 Segmenta¸cão . . . 9 2.2 Algoritmos de Segmenta¸cão . . . 12 2.2.1 Fujisawa et al . . . 12 2.2.2 Shi e Govindaraju . . . 15 2.2.3 Oliveira et al . . . 17 2.2.4 Chen e Wang . . . 18 2.2.5 Yu e Yan . . . 20 2.2.6 Pal et al . . . 21 2.2.7 Elnagar e Alhajajj . . . 23 2.2.8 Lei et al . . . 26 2.2.9 Suwa e Naoi . . . 27 2.2.10 Sadri et al . . . 29 2.2.11 Britto et al . . . 31

(7)

3 Metodologia Proposta 35

3.1 Sele¸c˜ao dos Algoritmos . . . 35

3.2 Cria¸c˜ao da Base de Dados . . . 37

3.3 Defini¸cão dos Critérios de Avalia¸cão . . . 41

3.4 Implementa¸c˜ao dos M´etodos . . . 44

3.5 Resumo . . . 45 4 Resultados Experimentais 46 4.1 Fujisawa et al . . . 47 4.2 Shi e Govindaraju . . . 49 4.3 Oliveira et al . . . 50 4.4 Chen e Wang . . . 51 4.5 Pal et al . . . 53 4.6 Elnagar e Alhajajj . . . 54

4.7 Avalia¸c˜ao e Compara¸c˜ao dos Resultados . . . 56

5 Conclus˜ao 64 5.1 Trabalhos Futuros . . . 65

(8)

Lista de Figuras

1.1 Etapas b´asicas de um sistema de reconhecimento. . . 2 1.2 Exemplo de imagem de entrada para um Sistema de Reconhecimento de

D´ıgitos Manuscritos, a qual corresponde à um Cheque Bancário. . . 2 1.3 Imagens resultantes de cada uma das três sub-etapas da Segmenta¸cão.

1 - Binariza¸cão; 2 - Busca pelo campo de interesse; 3 - Segmenta¸cão da string . . . 3 1.4 Exemplos de pares de d´ıgitos e seus caminhos ótimos de segmenta¸cão. . 4 1.5 Caractere sólido, imagem do contorno e do esqueleto, respectivamente. 5 1.6 Exemplos de manuscritos delimitados e não-delimitados. . . 6 2.1 Imagem contendo dois d´ıgitos conectados e os quatro caminhos de

seg-menta¸cão encontrados na tentativa de segmentá-los. . . 10 2.2 Exemplo onde a combina¸cão de 4 caminhos de segmenta¸cão geraram um

grafo com 15 sub-imagens e 16 hipóteses de segmenta¸cão (o caminho destacado no grafo, representa a melhor hipótese). . . 10 2.3 Dezena “38” e as representa¸cões de seu vale mais profundo (profundidade

Pv) e sua colina mais alta (altura Ac). . . 11

2.4 Imagem original à esquerda. À direita imagem esqueletizada com os respectivos pontos de caracter´ıstica do esqueleto (pontos finais e pontos de interseçcão) . . . 11 2.5 Imagem contendo dois d´ıgitos, “5” e “7”, compostos por três CCs C1,

C2 e C3). . . 12

2.6 a) Imagem de Entrada; b) Contorno Superior; c) Contorno Inferior. Sombreados no contorno, os pontos selecionados para cada coordenada x. Figura adaptada de [FNK92] . . . 13 2.7 Linhas verticais mostrando a distˆancia horizontal dos ciclos (Imagem

original `a esquerda). . . 14 2.8 Exemplos de pontos de curvatura e respectivos pontos opostos. [SG97] 16 2.9 (a) Imagem Original, (b) Pontos de curvatura `a direita, (c) D´ıgitos

seg-mentados. [SG97] . . . 16 2.10 Pontos de (a) contorno e (b) perfil. Figura adaptada de [OLBS00] . . . 17

(9)

2.11 (a) Imagem Original. (b) Esqueleto dos D´ıgitos. (c) Esqueleto do Fundo.

Imagem adaptada de [CW00] . . . 18

2.12 Cinco poss´ıveis tipos de conex˜ao, segundo Chen et al [CW00]. . . 19

2.13 (a) Imagem contendo tra¸co-ligador, (b) identifica¸cão do tra¸co, (c) ima-gem após a remo¸cão do mesmo. [CW00] . . . 20

2.14 Diferentes padr˜oes estruturais que representam as poss´ıveis mudan¸cas morfol´ogicas no contorno da imagem. [YY01] . . . 21

2.15 Espa¸cos (“Reservat´orios”) criados pela conex˜ao entre os d´ıgitos, e suas respectivas bases. Adaptada de [BCP03] . . . 22

2.16 Regiões da imagem são utilizadas para determinar o melhor reservatório. Adaptada de [BCP03] . . . 22

2.17 Exemplos de segmenta¸cão incorreta gerada pelo método proposto. [BCP03] 23 2.18 Imagens das fases do método de segmenta¸cão: imagem original, imagem esqueletizada, imagem segmentada e imagem restaurada. [EA03] . . . . 24

2.19 Modelos utilizados na extra¸c˜ao de caracter´ısticas. Pontos Finais (e1;e2), pontos de ramifica¸c˜ao (b1;b2;b3;b4) e pontos de cruzamento (c1;c2). [EA03] . . . 24

2.20 Conex˜oes com ponto em comum. [EA03] . . . 25

2.21 Conex˜oes com segmento em comum. [EA03] . . . 25

2.22 Conex˜oes suaves. [EA03] . . . 25

2.23 Conex˜oes com tra¸co-ligador. [EA03] . . . 26

2.24 Na esquerda temos uma imagem exemplificando um ponto de colina e na direita um ponto de vale. . . 26

2.25 Contorno inferior e superior de uma cadeia de d´ıgitos conectados. [LLDF04] 27 2.26 Par de d´ıgitos e suas diferentes representa¸c˜oes. (a) Imagem original, (b) Imagem do esqueleto, (c) Representa¸c˜ao de grafo no contorno da imagem. [SN04] . . . 28

2.27 Tipos de conexão: (a) Conexão em um ponto, (b) Conexão em um segmento, (c) Conexão múltipla, (d) Conexão com tra¸co-ligador. [SN04] 28 2.28 (a) Imagem pré-processada, (b) Esqueleto do plano frontal, (c) Plano de fundo (pixels brancos fora do objeto composto por pixels pretos, (d) proje¸cão do perfil superior, (e) proje¸cão do perfil inferior, (f) esqueleto superior do plano de fundo, (g) esqueleto inferior do plano de fundo. [SSB07] . . . 29

2.29 Casos nos quais provavelmente um reconhecedor de d´ıgitos isolados co-meteria erro sem a ajuda de informa¸c˜oes de contexto. Por exemplo, (a) poderia ser facilmente reconhecido como 020, (b) como 101, (c) como 01 e (d) como 10. [SSB07] . . . 30

(10)

2.30 Esquema de funcionamento do método. [Bri01] . . . 32 3.1 Exemplos de imagens geradas pelo algoritmo de gera¸cão automática.

[OBJS05] . . . 37 3.2 Na esquerda, exemplo de imagem da base de dados contendo os d´ıgitos

“65”. À direita a imagem depois de tra¸cado seu “caminho ótimo de segmenta¸cão”. . . 38 3.3 Exemplo de arquivo de informa¸cões referente a imagem da base exibida

na Figura 3.2 . . . 38 3.4 Exemplo de imagem contendo tra¸co-ligador, classificada alternativamente

como tipo 1. . . 39 3.5 Tipos de conex˜ao utilizados para a classifica¸c˜ao da nossa base de dados. 39 3.6 Exemplos de imagens removidas da base de dados. Classe “16” e “10”

respectivamente. . . 40 3.7 D´ıgito “1”, com e sem “perna”, respectivamente. . . 40 3.8 Gr´afico da distribui¸c˜ao da Base de Dados de acordo com os tipos de

conexão. . . 40 3.9 Imagens da classe 33, seus caminhos ótimos de segmenta¸cão e duas

hipóteses. Sendo a primeira hipótese incorreta e a segunda correta. . . 41 4.1 Desempenho obtido pelo método para cada um dos tipos de conexão. . 47 4.2 Quantidade média de caminhos de segmenta¸cão gerados pelo algoritmo,

para cada tipo de conexão. . . 48 4.3 Tempo médio necessário para o algoritmo encontrar os caminhos de

seg-menta¸cão de cada imagem, exibidos de acordo com o tipo de conexão. . 48 4.4 Desempenho obtido pelo método para cada um dos tipos de conexão. . 49 4.5 Tempo médio necessário para o algoritmo encontrar os caminhos de

seg-menta¸cão de cada imagem, exibidos de acordo com o tipo de conexão. . 50 4.6 Desempenho obtido pelo método para cada um dos tipos de conexão. . 50 4.7 Quantidade média de caminhos de segmenta¸cão gerados pelo algoritmo,

para cada tipo de conexão. . . 51 4.8 Tempo médio necessário para o algoritmo encontrar os caminhos de

seg-menta¸cão de cada imagem, exibidos de acordo com o tipo de conexão. . 51 4.9 Quantidade média de caminhos de segmenta¸cão gerados pelo algoritmo,

para cada tipo de conexão. . . 52 4.10 Desempenho obtido pelo método para cada um dos tipos de conexão. . 52 4.11 Tempo médio necessário para o algoritmo encontrar os caminhos de

seg-menta¸cão de cada imagem, exibidos de acordo com o tipo de conexão. . 53 4.12 Desempenho obtido pelo método para cada um dos tipos de conexão. . 54

(11)

4.13 Tempo médio necessário para o algoritmo encontrar os caminhos de seg-menta¸cão de cada imagem, exibidos de acordo com o tipo de conexão. . 54 4.14 Desempenho obtido pelo método para cada um dos tipos de conexão. . 55 4.15 Tempo médio necessário para o algoritmo encontrar os caminhos de

seg-menta¸c˜ao de cada imagem, exibidos de acordo com o tipo de conex˜ao. . 56 4.16 Comparativo das taxas de acerto dos algoritmos implementados. . . 58 4.17 Exemplo de imagem que nenhum algoritmo segmentou corretamente.

(a) Original. (b) [OLBS00], (c) [SG97], (d) [FNK92], (e) [BCP03], (f) [CW00], (g) [EA03] . . . 59 4.18 Exemplo onde apenas o algoritmo proposto por Oliveira et al segmentou

corretamente. (a) Original. (b) [OLBS00], (c) [SG97], (d) [FNK92], (e) [BCP03], (f) [CW00], (g) [EA03] . . . 60 4.19 Exemplo onde apenas o algoritmo proposto por Shi e Govindaraju

seg-mentou corretamente. (a) Original. (b) [OLBS00], (c) [SG97], (d) [FNK92], (e) [BCP03], (f) [CW00], (g) [EA03] . . . 61 4.20 Exemplo onde apenas o algoritmo proposto por Fujisawa et al segmentou

corretamente. (a) Original. (b) [OLBS00], (c) [SG97], (d) [FNK92], (e) [BCP03], (f) [CW00], (g) [EA03] . . . 61 4.21 Exemplo onde apenas o algoritmo proposto por Pal et al segmentou

corretamente. (a) Original. (b) [OLBS00], (c) [SG97], (d) [FNK92], (e) [BCP03], (f) [CW00], (g) [EA03] . . . 62 4.22 Exemplo onde apenas o algoritmo proposto por Chen e Wang segmentou

corretamente. (a) Original. (b) [OLBS00], (c) [SG97], (d) [FNK92], (e) [BCP03], (f) [CW00], (g) [EA03] . . . 62 4.23 Exemplo onde apenas o algoritmo proposto por Elnagar e Alhajajj

seg-mentou corretamente. (a) Original. (b) [OLBS00], (c) [SG97], (d) [FNK92], (e) [BCP03], (f) [CW00], (g) [EA03] . . . 63

(12)

Lista de Tabelas

2.1 Tabela comparativa dos m´etodos. O desempenho corresponde ao repor-tado pelos autores. . . 34 4.1 Tabela contendo quantidade de caminhos de segmenta¸c˜ao, tempo de

processamento, taxa de acerto de acordo com nossos testes e o acerto informado pelos autores. . . 56 4.2 Detalhamento das quantidades de acerto dos algoritmos. . . 58 4.3 Detalhamento das quantidades de acerto das imagens que foram

(13)

Lista de Abreviaturas

AG Algoritmo Gen´etico

ASCII American Standard Code for Information Interchange CC Componentes Conectados

CG Centro de Gravidade

CEDAR Center of Excellence for Document Analysis and Recognition DDR2 Double Data Rate 2

Gb Giga Bytes

HMM Hidden Markov Model k-NN k-Nearest Neighbors

Mb Mega Bytes

MLP Multi-Layer Perceptron

NIST National Institute of Standards and Technology RAM Random Access Memory

SD19 Base de dados NIST de formul´arios e caracteres manuscritos SVM Support Vector Machine

(14)

Resumo

Este trabalho apresenta um estudo comparativo de algoritmos de segmenta¸cão de pares de d´ıgitos manuscritos onde diferentes tipos de conexões são considerados. O objetivo principal consiste em coletar estat´ısticas detalhadas sobre os algoritmos de modo que em um trabalho futuro seja poss´ıvel desenvolver um sistema de segmenta¸cão que combine muitos algoritmos, levando em considera¸cão os casos em que cada um possui melhor desempenho, para assim obter taxas de acerto melhores do que as que são alcan¸cadas por algoritmos únicos.

O método de avalia¸cão estabelece um critério justo de compara¸cão de seus de-sempenhos, o que é um diferencial deste trabalho em rela¸cão a outros. Resultados interessantes foram obtidos, os quais mostram que um algoritmo que possui a melhor taxa de acerto geral da segmenta¸cão não é necessariamente o melhor para todos os tipos de conexão.

Analisando os resultados deste estudo nós observamos que seria poss´ıvel obter uma melhora de até 34,33% na taxa de acerto da segmenta¸cão se fosse desenvolvido um sistema ideal de combina¸cão de algoritmos de segmenta¸cão. Com esses resultados conclu´ımos que um sistema que combine algoritmos de segmenta¸cão de pares de d´ıgitos manuscritos, é uma idéia promissora à ser desenvolvida em trabalhos futuros.

Palavras-Chave: Segmenta¸c˜ao, D´ıgitos Manuscritos, Compara¸c˜ao de Algorit-mos.

(15)

Abstract

This work presents a comparative study of segmentation algorithms for hand-written digit pairs where different types of connections were considered. The main goal consists in collecting detailed statistics about the algorithms so in a future work would be possible to develop a segmentation system that combines many algorithms, taking into account cases where each one has better performance, thereby achieving better segmentation rates than those achieved by single algorithms.

The evaluation method provides a fair protocol for the comparison of their per-formance, which is a differential of this work compared to others. Interesting results were obtained, which show that an algorithm that has the best overall correct segmen-tation rate is not necessarily the best for all connection types.

Analyzing the results of this study we observed that it would be possible to ob-tain an improvement of up to 34.33% in accuracy rate in the segmentation if it would possible to develop a system with a perfect combination of segmentation algorithms. With these results we conclude that a system to combine segmentation algorithms for handwritten digit pairs is a promising idea to be developed in future works.

(16)

Cap´ıtulo 1

Introdu¸

c˜

ao

Diversas atividades do dia a dia utilizam documentos manuscritos, dentre elas podemos citar o reconhecimento de envelopes postais, processamento automático de cheques bancários e formulários diversos, bem como a indexa¸cão de documentos históricos. Essas atividades tem muito a ganhar com a utiliza¸cão de sistemas automatizados de reconhecimento de manuscritos. Esse tipo de sistema pode trazer diversos benef´ıcios à sociedade, como por exemplo aumentar a velocidade do processamento de informa¸cões, proporcionar maior sigilo para documentos de acesso restrito e a possibilidade de subs-tituir o trabalho humano pela máquina em atividades que são repetitivas e cansativas demais para o homem.

Reconhecimento de manuscritos é uma área de pesquisa bem antiga e que é bastante ativa. Porém, mesmo com a grande explora¸cão dessa área, ela continua sendo muito atrativa devido à constante e rápida evolu¸cão da tecnologia, o que proporciona que os sistemas possam assumir um n´ıvel de complexidade cada vez maior em busca de um melhor desempenho. Principalmente nos dias de hoje com vários tipos de do-cumento migrando para o formato digital, existem muitas aplica¸cões para sistemas de reconhecimento de manuscritos. Isso se deve à necessidade de muitos documentos pre-cisarem existir em forma de papel, seja por praticidade em atividades do dia a dia, por questões legais ou até mesmo documentos antigos que possuem conteúdo impor-tante e precisam ser mantidos por muito tempo, criando então, a necessidade de serem processados e indexados.

Diversos autores sugerem diferentes estruturas para a constru¸cão de sistemas de reconhecimento de d´ıgitos manuscritos, mas de modo geral, podemos exemplificar a arquitetura desse tipo de sistema pelas seguintes etapas: aquisi¸cão da imagem, pré-processamento, segmenta¸cão dos d´ıgitos, reconhecimento e pós-pré-processamento, como podemos observar na Figura 1.1.

A primeira etapa visa obter a imagem a ser processada, o que dependendo do tipo de sistema, pode representar diferentes processos como: capturar uma imagem

(17)

Figura 1.1: Etapas b´asicas de um sistema de reconhecimento.

com uma câmera de v´ıdeo, digitalizar uma imagem com equipamento espec´ıfico ou até simplesmente realizar a leitura de um arquivo já contendo a imagem em formato digital.

Figura 1.2: Exemplo de imagem de entrada para um Sistema de Reconhecimento de D´ıgitos Manus-critos, a qual corresponde `a um Cheque Banc´ario.

Podemos classificar os sistemas de reconhecimento de manuscritos de acordo com o método de entrada utilizado, em dois tipos: on-line e off-line. On-line é o método que realiza a captura em tempo de execu¸cão, utilizando para isso, hardware espec´ıfico, como mesas digitalizadoras ou canetas sens´ıveis à pressão. Já sistemas off-line, são os que processam um manuscrito que foi previamente digitalizado e já esta armazenado em formato de arquivo. No primeiro método, pode-se utilizar além da imagem em si, outras informa¸cões adicionais da escrita, como: pontos de in´ıcio e fim, velocidade, pressão da caneta, dentre outros. Essas informa¸cões podem ser utilizadas para aumentar o desempenho do algoritmo de segmenta¸cão. Porém em muitos casos, não é poss´ıvel utilizar um equipamento on-line, como no processamento automático de cheques ou envelopes postais.

(18)

Já a segunda etapa aplica algoritmos visando eliminar da imagem os compo-nentes que não são importantes, os quais podem prejudicar a segmenta¸cão e o reco-nhecimento, como ru´ıdos oriundos da captura da imagem, além de texturas e marcas d’água que possam estar presentes no fundo da mesma.

Por sua vez, a etapa de segmenta¸cão, pode ser sub-dividida basicamente em três partes: binariza¸cão da imagem, busca pelo campo a ser processado e segmenta¸cão da string.

A binariza¸cão visa separar na imagem o que é informa¸cão importante (texto), do plano de fundo, o qual pode conter outras informa¸cões que não puderam ser removidas pelo pré-processamento realizado na imagem. Após esta etapa teremos uma imagem binária (imagem contendo apenas duas cores, geralmente preto e branco) onde todas as informa¸cões de interesse serão exibidas por pixels pretos e os demais componentes da imagem serão transformados em pixels brancos. Tendo a imagem binarizada, é necessário localizar o campo a ser processado. Essa busca pode ser realizada de mui-tas formas, desde algoritmos simples que utilizam apenas a localiza¸cão do campo a ser reconhecido até o uso de algoritmos de IA (Inteligência Artificial) que analisam caracter´ısticas que diferenciam o campo de interesse dos demais. Tendo encontrado o campo de interesse, é necessário então realizar a segmenta¸cão da string (cadeia de caracteres), fase essa que é o foco deste trabalho. Esta etapa recebe como entrada a imagem contendo a string e realiza a separa¸cão dos caracteres, no caso deste trabalho, d´ıgitos. Ou seja, teremos após esta fase, várias imagens, cada uma contendo apenas um d´ıgito.

Figura 1.3: Imagens resultantes de cada uma das três sub-etapas da Segmenta¸cão. 1 - Binariza¸cão; 2 - Busca pelo campo de interesse; 3 - Segmenta¸cão da string

Após a segmenta¸cão, as imagens dos caracteres isolados são enviados para a etapa de reconhecimento, a qual é responsável por transformar uma imagem contendo um único componente, em um caracter ASCII. De posse do resultado do reconheci-mento, este passa para a etapa de pós-processareconheci-mento, a qual visa corrigir erros que possam ter ocorrido em etapas anteriores. Diferentes tipos de processamento podem existir nesta etapa. Para exemplificar, podemos citar a análise com dicionário de con-texto, ou seja, tendo um sistema para reconhecimento de palavras manuscritas, por exemplo, pode-se utilizar um dicionário contendo todas as poss´ıveis palavras (desde

(19)

um pequeno grupo, até um dicionário completo de determinado idioma) e com isso, detectar e corrigir pequenos erros da segmenta¸cão.

Resumindo ainda mais estas etapas, podemos falar que este tipo de sistema pro-cessa uma imagem de entrada (Figura 1.2) de modo à transformá-la em uma sequência de caracteres ASCII contendo a informa¸cão de interesse contida na mesma.

O escopo deste trabalho, s˜ao os algoritmos de segmenta¸c˜ao de pares de d´ıgitos manuscritos.

1.1 Defini¸

c˜

ao do Problema

A segmenta¸cão é considerada a fase mais cr´ıtica em sistemas de reconhecimento de d´ıgitos manuscritos, isso se dá tanto pela complexidade desta fase, quanto ao fato de ser na maioria dos casos crucial, pois um erro nessa fase geralmente acarreta um erro no reconhecimento.

Esta etapa vem sendo pesquisada há muito tempo e diversos algoritmos já foram desenvolvidos. O objetivo da segmenta¸cão é dividir a imagem de entrada em regiões que possuam uma e apenas uma entidade completa. No caso do reconhecimento de d´ıgitos manuscritos, essa entidade seria um d´ıgito. Então, para dividir uma imagem contendo uma cadeia de d´ıgitos em imagens de d´ıgitos isolados, precisamos encontrar os chamados “caminhos de segmenta¸cão” (Figura 1.4), que nada mais são que “cortes” que se realizados na imagem dividem a mesma, fazendo com que cada uma passe a ter apenas um d´ıgito.

Figura 1.4: Exemplos de pares de d´ıgitos e seus caminhos ´otimos de segmenta¸c˜ao.

A escolha da melhor abordagem para a segmenta¸cão de d´ıgitos depende de um conjunto de variáveis, as quais necessitam de um profundo estudo para análise de qual pode ser mais eficaz para cada caso. Casei et al [CL96] propõem a classifica¸cão dos métodos de segmenta¸cão em dois tipos: segmenta¸cão impl´ıcita e expl´ıcita. Basica-mente, a segmenta¸cão expl´ıcita, é aquela realizada antes do reconhecimento, tipo este correspondente a todos os algoritmos que serão abordados neste projeto. Já a seg-menta¸cão impl´ıcita é realizada simultaneamente com o reconhecimento, sendo então a segmenta¸cão, o resultado do mesmo. Cita-se como exemplo de segmenta¸cão impl´ıcita

(20)

o m´etodo baseado em modelos ocultos de Markov (HMM) proposto por Britto et al [BSBS03].

Como mencionado no parágrafo anterior, para escolha do método de segmenta¸cão devemos levar em considera¸cão vários fatores. O primeiro é o tipo de imagem de en-trada. As representa¸cões mais comuns são: caracteres sólidos binários, esqueleto da imagem, imagem em n´ıvel de cinza e contorno. Chama-se de imagem binária a imagem contendo apenas duas cores, uma para o plano frontal (no caso o d´ıgito) e outra para o fundo, de maneira geral utiliza-se: preto e branco, respectivamente. Caractere sólido entende-se por um caractere não vazado. Como representa¸cões não-sólidas podemos citar esqueleto e contorno da imagem.

Figura 1.5: Caractere s´olido, imagem do contorno e do esqueleto, respectivamente.

Imagens coloridas dificilmente são utilizadas para este tipo de aplica¸cão, de-vido à maior complexidade de processamento. De modo que até o momento nenhum método proposto demonstrou um ganho em desempenho que justificasse esta comple-xidade. Desta maneira, de modo geral transforma-se as imagens coloridas para uma das representa¸cões citadas anteriormente antes de realizar o processamento. Por outro lado, a transforma¸cão para uma maneira muito simplificada, como a imagem binária, dependendo do caso, pode resultar em uma imagem com qualidade insuficiente para uma boa segmenta¸cão. Existem também métodos que utilizam mais de uma repre-senta¸cão [AYV98].

Outro ponto crucial dos métodos de segmenta¸cão são as caracter´ısticas utili-zadas. Ou seja, para descobrir os poss´ıveis caminhos de segmenta¸cão, é necessário extrair da imagem algumas caracter´ısticas, as quais quando analisadas, forne¸cam in-forma¸cões que possam ajudar na localiza¸cão dos poss´ıveis caminhos de segmenta¸cão. Como exemplos de caracter´ısticas podemos citar: rela¸cão entre largura e altura da ima-gem, espessura do tra¸co, pontos de máximo e m´ınimo no contorno da imaima-gem, perfil da imagem, densidade de pixels em cada região da imagem (supondo uma divisão da mesma em várias regiões), pontos de conexão e pontos terminais ambos no esqueleto da imagem, dentre diversas outras caracter´ısticas existentes.

O tipo de documento a ser tratado também é um fator importante na escolha do método a ser utilizado. Devemos levar em conta o n´ıvel de degrada¸cão que a imagem dos d´ıgitos pode vir a apresentar, a variabilidade de fontes a ser considerada e o fato de podermos ter que tratar de manuscritos não delimitados. Manuscritos delimitados

(21)

são imagens nas quais existem áreas determinadas para a escrita, como por exemplo, formulários nos quais cada caractere tem um espa¸co pré-determinado. A diferen¸ca entre caracteres delimitados e não delimitados é representada pela Figura 1.6, na qual a sequência de d´ıgitos 04618-003 correspondente a um código de endere¸camento postal, é considerada uma sequência de d´ıgitos manuscritos delimitados. Já o restante do texto é dito não-delimitado, pois não possui nenhuma marca¸cão limitando o posicionamento dos caracteres.

Figura 1.6: Exemplos de manuscritos delimitados e n˜ao-delimitados.

Não se deve esquecer também de observar se o método a ser escolhido é invari-ante as distor¸cões que os documentos em questão podem vir a apresentar. Distor¸cões estas que podem ser inclina¸cões, rota¸cões, dentre outras.

Diante de tamanha variabilidade encontrada nos diferentes casos onde se pode aplicar um sistema para reconhecimento de manuscritos, e também da diversidade de métodos existentes, a escolha da estratégia a ser utilizada em cada caso acaba se tornando também um problema. Baseado nesta dificuldade, fundamentamos este projeto, pois com ele pretendemos obter argumentos para a escolha do método a ser utilizado.

1.2 Objetivo

O objetivo principal deste trabalho é realizar um estudo comparativo de métodos de segmenta¸cão de pares de d´ıgitos manuscritos, buscando caracterizar os tipos de conexão em que cada método apresenta melhor desempenho.

J´a como objetivos espec´ıficos podemos citar:

• Defini¸cão de um protocolo experimental para compara¸cão dos métodos de seg-menta¸cão.

• Rotula¸c˜ao da base de dados de acordo com o tipo de conex˜ao existente em cada imagem.

(22)

• Compara¸cão dos métodos de acordo com suas caracter´ısticas de funcionamento e desempenho obtido, dados esses que serão necessários em um trabalho futuro de desenvolvimento de um sistema de sele¸cão dinâmica de algoritmos de seg-menta¸cão.

1.3 Justificativa

Mesmo com toda pesquisa envolvida neste tema, os algoritmos de segmenta¸cão ainda estão longe da perfei¸cão e são, na maioria dos casos, os responsáveis pela maior parte dos erros ocorridos em sistemas de reconhecimento de manuscritos. Por isso, con-sideramos a caracteriza¸cão de métodos de segmenta¸cão visando uma futura combina¸cão dos mesmos, um estudo bem fundamentado e de valor cient´ıfico, visto que poderemos apenas combinando algoritmos já existentes, otimizar o desempenho final da fase de segmenta¸cão. Outro ponto que justifica e valoriza este trabalho está na dificuldade de se realizar compara¸cões entre os algoritmos de segmenta¸cão existentes, devido a falta de um padrão para realiza¸cão dos testes. Neste trabalho, realizamos uma compara¸cão entre os diferentes algoritmos de forma justa, pois os testes foram realizados utilizando para todos os algoritmos testados, a mesma base de dados e os resultados avaliados com uma mesma rede neural.

1.4 Proposta

O foco deste trabalho é a segmenta¸cão de pares de d´ıgitos conectados. Esta decisão foi baseada nos dados mostrados por Wang et al [WGS00], pois nesse artigo, os autores fazem uma análise e concluem que 85% dos casos de conexão encontrados cor-respondem a pares de d´ıgitos conectados. Para realizar a avalia¸cão dos algoritmos, foi utilizada uma base sintética de d´ıgitos conectados proposta por Oliveira et al [OBJS05]. Esta base é dita “sintética”, pois foi gerada automaticamente com base em imagens de d´ıgitos isolados da base NIST. Como esta base possui uma quantidade muito grande de imagens, foi utilizada uma parte dela, parte esta que contém 79.466 imagens. Em uma primeira etapa estas imagens fora classificadas visualmente de acordo com o tipo de conexão existente. Foram então implementados e avaliados 6 diferentes algoritmos de segmenta¸cão e para dizer se os algoritmos obtiveram sucesso na segmenta¸cão de cada imagem, foi utilizado o classificador proposto por Oliveira [SO03], o qual se baseia em uma rede neural MLP(Multi Layer Perceptron). Os algoritmos foram avaliados tanto em rela¸cão ao desempenho global da segmenta¸cão, como em rela¸cão ao desempenho espec´ıfico para cada tipo de conexão.

(23)

1.5 Contribui¸

c˜

ao

A principal contribui¸cão deste trabalho é a caracteriza¸cão de diferentes algorit-mos de segmenta¸cão, a qual foi realizada considerando uma caracter´ıstica do próprio problema, que é o conhecimento a priori do tipo de conexão. Esta caracteriza¸cão é uma etapa fundamental para que os algoritmos possam ser utilizados em um sistema de sele¸cão dinâmica de algoritmos de segmenta¸cão onde o critério de escolha seria o tipo de conexão encontrado na imagem de entrada. Além dessa contribui¸cão, que motivou nosso projeto, outras contribui¸cões secundárias foram alcan¸cadas. Dentre elas, cita-se o fato de os algoritmos terem sido avaliados sobre as mesmas condi¸cões experimentais, o que gerou uma compara¸cão justa entre os mesmos. Essa compara¸cão era uma neces-sidade para evolu¸cão das pesquisas na área, visto que compara¸cões existentes utilizam diferentes bases de dados e métodos de avalia¸cão, tornando-as tendenciosas. Podemos comentar também a classifica¸cão visual da base de dados, pois mais de 79 mil imagens foram classificadas visualmente de acordo com o tipo de conexão, e esta base de dados poderá ser utilizada em trabalhos futuros.

1.6 Organiza¸

c˜

ao

Esta disserta¸cão de mestrado está organizada em cinco cap´ıtulos. Neste pri-meiro cap´ıtulo foi apresentada uma introdu¸cão ao tema proposto. O Cap´ıtulo 2 traz algumas defini¸cões que são citadas neste trabalho, como segmenta¸cão, classificador, e vários tipos de caracter´ısticas utilizadas pelos algoritmos, além de um apanhado ge-ral com os principais métodos de segmenta¸cão que foram pesquisados, dentre estes estão os que selecionamos para utilizar em nosso trabalho de caracteriza¸cão, todos os métodos contém uma breve análise de suas particularidades e desempenho reportados pelos respectivos autores. No Cap´ıtulo 3 é descrita a metodologia adotada para o de-senvolvimento do trabalho. Já no Cap´ıtulo 4 são exibidos os resultados obtidos ao longo deste trabalho, juntamente com a análise comparativa dos mesmos. Por último, no Cap´ıtulo 5, apresentamos a conclusão bem como os trabalhos futuros.

(24)

Cap´ıtulo 2

Estado da Arte

Neste cap´ıtulo apresentamos com mais detalhes a segmenta¸cão de d´ıgitos ma-nuscritos. Essa é uma etapa muito importante em sistemas de reconhecimento de d´ıgitos manuscritos e é o foco deste trabalho. Nas se¸cões seguintes, além do conceito de segmenta¸cão, são descritos alguns dos principais métodos existentes na literatura, destacando suas particularidades e comparando os desempenhos obtidos nos testes re-alizados pelos autores.

2.1 Segmenta¸

c˜

ao

Em sistemas de reconhecimento de manuscritos, a etapa de pré-processamento da imagem influencia diretamente a fase de segmenta¸cão. E a segmenta¸cão acaba por influenciar o reconhecimento, pois em casos de imagens mais complexas o pré-processamento muitas vezes não consegue eliminar totalmente os ru´ıdos e componentes não desejados da imagem, como texturas presentes no fundo ou marcas d’água. Já o reconhecimento é prejudicado quando a fase de segmenta¸cão falha, enviando nesses casos ao classificador, imagens contendo mais de um d´ıgito ou contendo apenas algumas partes de um d´ıgito. O algoritmo base utilizado pela etapa de reconhecimento (Figura 1.1) em um sistema de reconhecimento de manuscritos é chamado de classificador. Este algoritmo pode ser por exemplo, uma rede neural, um SVM, dentre outros.

O objetivo da segmenta¸cão é processar uma imagem de entrada contendo um ou mais caracteres e dividi-la em várias imagens, de forma que cada uma contenha apenas um caractere. Para realizar essa divisão da imagem, o algoritmo busca os prováveis “caminhos de segmenta¸cão”, esses nada mais são que “cortes” realizados na imagem visando dividi-la. Alguns métodos de segmenta¸cão optam por uma estratégia conhecida por over-segmentation ou sobre-segmenta¸cão, a qual consiste em gerar mais “caminhos de segmenta¸cão” do que o necessário, e depois disso com a ajuda de um classificador, escolher a melhor hipótese de segmenta¸cão. Na Figura 2.2 é exibido um grafo que

(25)

representa as 16 hipóteses de segmenta¸cão que foram geradas pela combina¸cão dos quatro caminhos representados na Figura 2.1.

Figura 2.1: Imagem contendo dois d´ıgitos conectados e os quatro caminhos de segmenta¸c˜ao encon-trados na tentativa de segment´a-los.

Figura 2.2: Exemplo onde a combina¸cão de 4 caminhos de segmenta¸cão geraram um grafo com 15 sub-imagens e 16 hipóteses de segmenta¸cão (o caminho destacado no grafo, representa a melhor hipótese).

O problema de se utilizar um método baseado em over-segmentation é que para cada sub-imagem gerada, é necessária uma chamada ao classificador, e estas chamadas são computacionalmente caras. No exemplo da imagem acima, necessitar´ıamos de 15 chamadas ao classificador para avaliar qual seria a melhor dentre as 16 hipóteses de segmenta¸cão.

Para calcular a quantidade de hipóteses de segmenta¸cão, pode-se utilizar a equa¸cão 2.1, na qual n é o número de sub-imagens formadas quando a imagem é segmentada por todos os caminhos de segmenta¸cão encontrados. No caso do exemplo acima ter´ıamos n = 5.

(26)

De acordo com a classifica¸cão proposta por Casei et al [CL96], os métodos de segmenta¸cão podem ser divididos em dois tipos, segmenta¸cão impl´ıcita e expl´ıcita. A segmenta¸cão expl´ıcita é aquela realizada antes do reconhecimento e que utiliza carac-ter´ısticas da imagem para determinar os pontos que serão utilizados para segmenta-la. Para exemplificar essas caracter´ısticas utilizadas, podemos citar: informa¸cões de cur-vatura no tra¸cado, pontos de máximo e m´ınimo locais (também chamados de colina e vale)(Figura 2.3), pontos no esqueleto (Figura 2.4), perfil da imagem, dentre outras. Já a segmenta¸cão impl´ıcita é realizada simultaneamente com o reconhecimento, sendo então a segmenta¸cão, nada mais que o resultado do mesmo. Esse tipo de algoritmo de-termina o caminho de segmenta¸cão de forma arbitrária, geralmente cortando a imagem verticalmente de ponta à ponta, não utilizando nenhum tipo de caracter´ıstica utilizada na segmenta¸cão expl´ıcita. Podemos citar como exemplo de segmenta¸cão impl´ıcita o método baseado em modelos ocultos de Markov (HMM) proposto por Britto et al [BSBS03]. A grande desvantagem desse tipo de método é o maior custo computacio-nal, pois é necessário um grande número de chamadas ao classificador.

Figura 2.3: Dezena “38” e as representa¸c˜oes de seu vale mais profundo (profundidade Pv) e sua colina

mais alta (altura Ac).

Figura 2.4: Imagem original à esquerda. À direita imagem esqueletizada com os respectivos pontos de caracter´ıstica do esqueleto (pontos finais e pontos de interseçcão)

A segmenta¸cão é necessária pois a maior parte dos classificadores utilizados em sistemas de reconhecimento classifica apenas d´ıgitos de forma isolada, ou seja, não consegue classificar uma imagem se esta possuir dois ou mais d´ıgitos conectados. Exis-tem também na literatura, métodos para o reconhecimento de manuscritos nos quais a segmenta¸cão não é necessária e pares de d´ıgitos conectados são enviados diretamente

(27)

ao classificador, como exemplo deste tipo de método temos o proposto por Choi e Oh [CO99], o qual utiliza um classificador que possui 100 classes na sa´ıda (00 à 99). Como problemas deste tipo de método temos: a dificuldade de treinar um classificador com tão alto número de classes e que possua bom desempenho, além do alto custo computacional do mesmo.

A maioria dos métodos de segmenta¸cão utiliza o conceito de Componentes Co-nectados (CCs) em seu algoritmo. Um CC nada mais é que um conjunto de pixels nos quais a partir de qualquer ponto, é poss´ıvel chegar a qualquer outro ponto, per-correndo somente pontos deste mesmo conjunto, isto é, se não existir pelo menos um caminho entre quaisquer dois pontos deste conjunto não podemos dizer que estes pontos pertencem ao mesmo CC.

Figura 2.5: Imagem contendo dois d´ıgitos, “5” e “7”, compostos por trˆes CCs C1, C2 e C3).

Veremos nas se¸cões seguintes que alguns métodos realizam remo¸cão dos cha-mados “Tra¸cos-Ligadores”. Esse tipo de tra¸co aparece em algumas imagens de d´ıgitos conectados e se caracterizam por serem tra¸cos que não pertencem a nenhum dos d´ıgitos da imagem. Estes são originários do modo de escrita de determinadas pessoas, as quais por descuido proveniente da velocidade da escrita, acabam por deslizar a caneta sobre o papel produzindo um tra¸co que liga dois d´ıgitos consecutivos e não pertence a nenhum dos mesmos.

Esta se¸cão apresentou uma explana¸cão geral sobre a segmenta¸cão de d´ıgitos manuscritos e alguns conceitos principais.

2.2 Algoritmos de Segmenta¸

c˜

ao

Um grande número de algoritmos de segmenta¸cão existe na literatura atual-mente. Nesta se¸cão apresentamos vários destes algoritmos, descrevendo seu funciona-mento básico, terminando com uma tabela comparativa das caracter´ısticas dos mesmos.

2.2.1 Fujisawa et al

Fujisawa et al [FNK92] propõem um método de segmenta¸cão baseado em reco-nhecimento, ou seja, o algoritmo utiliza um classificador para selecionar uma dentre as hipóteses de segmenta¸cão geradas.

(28)

Basicamente o algoritmo num primeiro passo identifica através de persegui¸cão de contorno, todos os componentes conectados (CCs) presentes na imagem. Então estes CCs são classificados em d´ıgitos isolados ou d´ıgitos conectados, através de dois limiares baseados na largura comum de d´ıgitos isolados. Caso todos os CCs sejam classificados como d´ıgitos isolados, então a segmenta¸cão não é necessária.

Figura 2.6: a) Imagem de Entrada; b) Contorno Superior; c) Contorno Inferior. Sombreados no contorno, os pontos selecionados para cada coordenada x. Figura adaptada de [FNK92]

Quando o algoritmo encontra um CC correspondente a d´ıgitos conectados, é necessária então a segmenta¸cão, para isso, o contorno é dividido horizontalmente em duas partes: contorno superior e contorno inferior, conforme mostrado na Figura 2.6. Esta separa¸cão é feita com base nos ponto mais a esquerda da imagem e no ponto mais a direita. Analisando individualmente cada uma das partes (superior e inferior) do contorno, para algumas coordenadas x podem existir mais de um ponto. Então é aplicada uma opera¸cão, sobre cada um dos contornos, que faz com que para cada coordenada x exista apenas um ponto no contorno. Para isso, sempre que existir mais de um ponto, é selecionado o ponto mais baixo ou mais alto, para cada um dos contornos superior e inferior, respectivamente. O resultado desta opera¸cão é representado pela parte sombreada do contorno dos d´ıgitos, na imagem 2.6. As coordenadas y dos pontos obtidos do contorno superior, são representadas pela fun¸cão Hu(x), e as obtidas do

contorno inferior representadas pela fun¸c˜ao Hl(x). Com essas fun¸c˜oes, determina-se a

largura vertical do tra¸co para cada coordenada x (H(x)), de acordo com a equa¸c˜ao 2.2.

H(x) = |Hu(x) − Hl(x)| (2.2)

A largura vertical é então comparada com um limiar, visando encontrar as poss´ıveis regiões de toque. Para limitar a região de busca, o autor sugere que seja determinado um intervalo [X1, X2] onde seja mais provavel que esteja a área de toque. Para as regiões que possuem conexão entre dois ciclos fechados (“loops”), é re-alizado um tratamento diferenciado. O algoritmo extrai os contornos destes ciclos e divide a imagem verticalmente, separando os ciclos existentes em dois grupos: perten-centes ao d´ıgito da esquerda ou ciclos pertenperten-centes ao d´ıgito da direita. Para que este

(29)

algoritmo seja válido, a seguinte condi¸cão deve ser satisfeita: existe uma distância ho-rizontal (Figura 2.7) m´ınima entre os ciclos que pertencem ao grupo da esquerda e os ciclos que pertencem ao grupo da direita. Esta distância m´ınima é dada por um limiar pré-determinado. Caso a distância seja menor do que o limiar, então o CC é tratado como sendo um único componente, o qual possui mais de um ciclo. Poderia ser, por exemplo, o d´ıgito 8. Porém se a distância for maior que o limiar, então ali existe uma região de conexão e os pontos são comparados com pontos obtidos do contorno externo, para se chegar aos pontos de segmenta¸cão candidatos. Os caminhos de segmenta¸cão são gerados através da liga¸cão de pares de pontos de segmenta¸cão com segmentos de reta.

Figura 2.7: Linhas verticais mostrando a distˆancia horizontal dos ciclos (Imagem original `a esquerda).

Depois de encontrados os caminhos de segmenta¸cão candidatos, a imagem é seg-mentada utilizando-se todos eles (técnica conhecida como “segmenta¸cão em excesso”). Os componentes conectados (CCs) obtidos após a segmenta¸cão, são então colocados em uma lista ordenada de acordo com o posicionamento dos mesmos em rela¸cão à coordenada x da imagem original. Tendo esta lista formada, é então criado um grafo com as possibilidades de segmenta¸cão da imagem, podendo ter desde todos os CCs correspondendo à elementos isolados, até vários componentes consecutivos (segundo a ordem anterior) constituindo um só componente. Para determinar qual o caminho do grafo de hipóteses representa a melhor segmenta¸cão que pode ser obtida com base nos pontos gerados, é utilizada uma fun¸cão de classifica¸cão do CC. Esta fun¸cão adota três compara¸cões de medidas de tamanho dos CCs em rela¸cão à alguns limiares. Cada compara¸cão pode retornar três tipos de resultado: Componente precisa ser agrupado; componente precisa ser segmentado ou componente indefinido. Então se realiza uma “vota¸cão” sobre os resultados fornecidos por cada uma das compara¸cões. O resultado mais votado é utilizado como sendo o ideal. Os autores propuseram também uma se-gunda maneira de realizar o teste, tentando reconhecer cada um dos componentes do grafo de hipóteses. Depois, de acordo com os escores de reconhecimento, avalia-se qual dos caminhos possui maior probabilidade de reconhecimento.

(30)

A avalia¸cão do algoritmo foi realizada sobre base de dados própria do autor, contendo 46 classes, sendo essas as que mais aparecem nos d´ıgitos conectados obtidos pelos autores com aux´ılio de um formulário. Para cada uma das classes foram utilizados 20 exemplos. Contabilizando assim 920 imagens de teste. Vale lembrar que esta base de dados não possui casos de conexão múltipla. O resultado obtido foi uma taxa de acerto de 95% com 5% de rejei¸cão.

Como limita¸cões deste método podemos citar os casos nos quais o algoritmo falha ao determinar a largura do tra¸co vertical. Outra limita¸cão que deve ser destacada é que o algoritmo não consegue segmentar casos de conexão múltipla (d´ıgitos que se tocam em mais de um ponto) nem cadeias numéricas contendo três ou mais d´ıgitos conectados. Um ponto negativo do algoritmo é a necessidade de determina¸cão manual de alguns limiares, os quais poderiam necessitar de uma redefini¸cão caso a base de dados utilizada para testar o algoritmo fosse substitu´ıda por outra.

Como ponto positivo podemos citar a ausência de algoritmos de alta complexi-dade e custo computacional, como esqueletiza¸cão ou opera¸cões morfológicas. Podemos citar também, apesar da alta taxa de rejei¸cão (5%), que a taxa de erro é nula para este algoritmo, o que é de extrema importância para um caso de aplica¸cão do algoritmo na solu¸cão de problema real.

2.2.2 Shi e Govindaraju

Shi e Govindaraju [SG97] propõem um método que se diferencia dos tradicionais por não determinar os pontos de segmenta¸cão unicamente pelo tra¸co que conecta os pares de d´ıgitos, mas por identificar regiões com potencial para serem utilizadas como pontos de segmenta¸cão. Essas regiões são determinadas basicamente pela análise da trajetória do tra¸cado dos d´ıgitos. A tarefa de busca do ponto de segmenta¸cão ou do tra¸co-ligador não pode ser considerada trivial, principalmente devido à largura do tra¸co não ser uniforme. A esqueletiza¸cão seria uma boa solu¸cão para este problema, entretanto não foi utilizada devido ao alto custo computacional deste tipo de algoritmo. De acordo com os autores, métodos heur´ısticos poderiam ser utilizados, porém apesar da eficiência, sua precisão é limitada. Os autores informam também que evi-taram o uso de Histogramas verticais, pois, segundo eles, estes são muito propensos a erro. Eles propõem então a utiliza¸cão de informa¸cões do tra¸co, como dire¸cão, pontos de curvatura e pontos finais. Estas informa¸cões são obtidas da representa¸cão de contorno em forma de cadeia de códigos.

Essa cadeia de códigos que representa o contorno da imagem, além das coorde-nadas do ponto, a inclina¸cão e a curvatura, também possui o tipo do ponto, o ponto oposto correspondente (Figura 2.8) e outro ponto calculado a partir do ponto oposto, o qual é utilizado para calcular a largura do tra¸co e para a reconstru¸cão das imagens

(31)

Figura 2.8: Exemplos de pontos de curvatura e respectivos pontos opostos. [SG97]

dos caracteres segmentados.

Os autores puderam observar através de um estudo dos pontos de toque e dos tra¸cos-ligadores entre dois d´ıgitos, que o contorno faz curvaturas significantes à direita (Figura 2.9), em cada ponto de toque. O método utilizado para encontrar os pontos de curvatura à direita, utiliza para isso a espessura do tra¸co e o vetor normal. Depois de encontrados esses pontos de curvatura, é utilizado um limiar (o qual deve ser obtido experimentalmente), para determinar se a curvatura é ou não significante.

Figura 2.9: (a) Imagem Original, (b) Pontos de curvatura `a direita, (c) D´ıgitos segmentados. [SG97]

Os pontos significantes de curvatura à direita, junto com seus pontos opostos correspondentes, dividem o contorno em peda¸cos. Estes peda¸cos são então classificados como pertencentes ao d´ıgito da esquerda ou da direita. A maneira mais fácil de realizar a classifica¸cão é utilizando uma linha de decisão. Esta é uma vertical, centralizada na imagem, a qual divide a imagem em duas partes de igual tamanho. Então se o centro de massa de determinado peda¸co do contorno se encontra à esquerda da linha, este pertence ao d´ıgito da esquerda, senão ao da direita. Porém este método falha se os d´ıgitos possu´ırem uma diferen¸ca muito grande de largura. Devido a este motivo outra maneira de determinar a linha de decisão é proposta, a qual utiliza o histograma vertical da imagem.

Na Figura 2.9 podemos visualizar a imagem original, os pontos de curvatura encontrados e o resultado da segmenta¸c˜ao.

O método proposto foi testado sobre uma base contendo 1966 imagens do CEDAR, base esta que contém pares de d´ıgitos conectados. Os autores exploram apenas a segmenta¸cão de pares de d´ıgitos conectados, não tratando cadeias de três ou mais d´ıgitos conectados. O método obteve 78% de acerto na segmenta¸cão. Se para os

(32)

casos em que existe um tra¸co-ligador for adicionado um classificador, para auxiliar na tomada de decisão da segmenta¸cão, então a taxa de acerto obtida é de 80,5%. A ne-cessidade de determinar experimentalmente o ângulo para que uma curvatura à direita seja considerada “significante” é um ponto negativo deste método.

2.2.3 Oliveira et al

Oliveira et al [OLBS00] propõem um novo método de segmenta¸cão para d´ıgitos manuscritos, baseado no método proposto por Fenrich [Fen91]. O método utiliza uma combina¸cão de dois tipos de caracter´ısticas estruturais e foi desenvolvido para ser utili-zado em um sistema de segmenta¸cão baseado em reconhecimento. O algoritmo recebe como entrada uma imagem binária dos d´ıgitos. Como resultado o algoritmo fornece uma lista com os melhores caminhos de segmenta¸cão e o número de d´ıgitos a serem segmentados.

O contorno e o perfil encontram-se entre as caracter´ısticas mais comumente encontradas na literatura. S˜ao ent˜ao extra´ıdos os m´ınimos locais do contorno (Figura 2.10a) e do perfil da imagem (Figura 2.10b).

Figura 2.10: Pontos de (a) contorno e (b) perfil. Figura adaptada de [OLBS00]

O algoritmo busca rela¸cões entre todos os pontos encontrados na tentativa de agrupá-los de modo que sejam formadas várias hipóteses de segmenta¸cão. Para avaliar as várias hipóteses, foi utilizada uma rede neural treinada com uma base de dados contendo 8500 imagens de d´ıgitos manuscritos isolados. O melhor experimento de aprendizagem resultou em uma taxa de 99,9% no treinamento e 98,5% no teste.

O sistema proposto foi então testado sobre 900 imagens de d´ıgitos conectados, extra´ıdas de 2000 imagens de cheques bancários brasileiros. Vale lembrar que o algo-ritmo só se aplica a pares de d´ıgitos conectados. A melhor hipótese de segmenta¸cão é determinada pelo maior valor de produto dos escores dos elementos segmentados que compõem a hipótese. Estes escores são atribu´ıdos pela rede neural. Em uma primeira analise visual dos resultados conclui-se que 98,5% dos d´ıgitos foram corretamente seg-mentados. Em um segundo momento, o algoritmo foi avaliado com o uso de uma rede

(33)

neural para classificar os d´ıgitos segmentados. Nesta segunda avalia¸cão, a taxa de acerto foi de 90,8%. Dentre o percentual de erro de 9,2% verificou-se que 1,5% era erro de segmenta¸cão, e 7,7% era erro de reconhecimento. Esse erro referente à segmenta¸cão pode ser diminu´ıdo se a rede neural for treinada com d´ıgitos provenientes da sa´ıda de um algoritmo de segmenta¸cão, e não apenas d´ıgitos naturalmente isolados.

A técnica de segmenta¸cão desenvolvida em [OLBS00] possui um algoritmo sim-ples e com poucas regras. O algoritmo atingiu bons resultados e realizou uma boa segmenta¸cão na maioria dos d´ıgitos conectados, mesmo para aqueles em que os d´ıgitos estavam sobrepostos ou inclinados.

Como ponto negativo deste algoritmo, podemos destacar o fato de que na mai-oria dos casos este irá gerar mais de uma hipótese de segmenta¸cão. Para escolher a melhor dentre as hipóteses, seria necessário o uso de um classificador, como uma rede neural. Porém o uso de classificador para sele¸cão da melhor hipótese é um processo computacionalmente caro.

2.2.4 Chen e Wang

Chen e Wang [CW00] propõem uma abordagem para segmenta¸cão de cadeias de pares de d´ıgitos conectados. Esta abordagem visa à segmenta¸cão tanto de d´ıgitos simplesmente conectados, quanto d´ıgitos com múltiplas conexões. O método combina caracter´ısticas tanto do primeiro plano da imagem (d´ıgito propriamente dito) como do plano de fundo. Os pontos de segmenta¸cão são obtidos com a análise dos esque-letos da imagem, esqueleto dos d´ıgitos e do fundo (Figura 2.11). Vários caminhos de segmenta¸cão são gerados e os tra¸cos-ligadores removidos.

Figura 2.11: (a) Imagem Original. (b) Esqueleto dos D´ıgitos. (c) Esqueleto do Fundo. Imagem adaptada de [CW00]

Grande parte dos métodos encontrados na literatura apresenta dificuldade para segmentar d´ıgitos com conexão múltipla ou d´ıgitos com conexão simples que possuem

(34)

uma grande área de toque. Segundo os autores, este método conduz a bons resultados nesses casos, se comparado a outros métodos existentes.

As conexões entre d´ıgitos são classificadas pelos autores em cinco tipos (Fi-gura 2.12). De modo geral, os algoritmos que trabalham com o plano de fundo ou plano principal, ambos isoladamente, segmentam com sucesso conexões dos tipos 1 e 2. Porém apresentam dificuldade com conexões dos tipos 3, 4 e 5. Por isso neste método, caracter´ısticas de ambos os planos são extra´ıdas, pois se espera com isso, melhorar o desempenho em rela¸cão aos demais métodos que utilizam apenas um dos tipos de caracter´ıstica.

Figura 2.12: Cinco poss´ıveis tipos de conex˜ao, segundo Chen et al [CW00].

Os pontos de caracter´ısticas extra´ıdos dos esqueletos da imagem são: pontos de bifurca¸cão, de curvatura e terminais. O algoritmo combina então essas caracter´ısticas extra´ıdas tanto dos d´ıgitos como do fundo, para gerar os poss´ıveis caminhos de seg-menta¸cão.

´

E feita uma classifica¸cão dos caminhos de segmenta¸cão, utilizando-se uma fun¸cão de mistura de probabilidades Gaussianas. Esta fun¸cão foi obtida com base em 823 imagens da base NIST SD191_{. Então se a probabilidade Gaussiana do caminho de}

segmenta¸cão melhor classificado for maior que um valor pré-determinado, este é tido como o melhor caminho de segmenta¸cão. Caso contrário, este caminho é rejeitado.

Após a identifica¸cão de todos os poss´ıveis caminhos de segmenta¸cão é feita a remo¸cão dos tra¸cos-ligadores quando os mesmos existem. Esses tra¸cos são caracteriza-dos por dois caminhos de segmenta¸cão com mesmo in´ıcio e fim, além disso, algumas

1

(35)

heur´ısticas devem ser satisfeitas para que esse tipo de tra¸co seja realmente caracte-rizado. A Figura 2.13 ilustra uma imagem contendo tra¸co-ligador, sua identifica¸cão através dos caminhos de segmenta¸cão com in´ıcio e fim em comum e a imagem final após removido o tra¸co.

Figura 2.13: (a) Imagem contendo tra¸co-ligador, (b) identifica¸cão do tra¸co, (c) imagem após a remo¸cão do mesmo. [CW00]

Para testar o desempenho do método foram utilizadas 4500 cadeias de dois d´ıgitos, destas, 4178 foram extra´ıdas da base NIST SD19, as 322 imagens restantes foram coletadas pelos próprios autores. No experimento foram separadas 832 imagens para determinar a fun¸cão de mistura de probabilidades Gaussianas, e o restante uti-lizado para testar o algoritmo de segmenta¸cão. Das imagens utilizadas no teste, 8% foram rejeitadas, e se considerarmos somente as imagens aceitas, é obtida uma taxa de acerto de 95,7%. As principais razões causadoras de rejei¸cão foram: quando o centro do caminho de segmenta¸cão está muito deslocado em rela¸cão ao centro da imagem ou quando a largura de um dos d´ıgitos separados é muito maior que do outro.

Como pontos positivos do método podemos citar o bom desempenho em alguns casos espec´ıficos que dificilmente são segmentados por outros métodos presentes na literatura, como por exemplo, conexões nas quais a área de toque é muito grande, ou imagens com mais de dois pontos de conexão. Além da boa capacidade de remo¸cão dos tra¸cos-ligadores. O principal ponto negativo do método é o número muito alto de cami-nhos de segmenta¸cão gerados, os quais aumentam bastante o tempo de processamento e impossibilitam o uso do mesmo em aplica¸cões reais.

2.2.5 Yu e Yan

Yu e Yan [YY01] desenvolveram um método capaz de segmentar cadeias de d´ıgitos, ou seja, cadeias que podem possuir mais de dois d´ıgitos. O método funciona segmentando a cadeia em várias sub-cadeias de dois d´ıgitos e processando cada uma delas separadamente.

(36)

de caracter´ısticas estruturais na imagem de bordas suavizada. Um ponto estrutural é o ponto que define uma mudan¸ca morfológica no contorno. São definidos 16 diferentes padrões de pontos estruturais (Figura 2.14). A imagem é dividida em quatro regiões. Durante a análise dos pontos estruturais é levado em conta além do padrão do ponto, a região que este se encontra. Também são extra´ıdas caracter´ısticas das concavidades da imagem. Com base nestas caracter´ısticas foram constru´ıdos diversos modelos, os quais são representados por sequências de pontos estruturais. Então com esses modelos são constru´ıdas as diversas heur´ısticas.

Figura 2.14: Diferentes padr˜oes estruturais que representam as poss´ıveis mudan¸cas morfol´ogicas no contorno da imagem. [YY01]

Para construir os modelos foram utilizadas 600 imagens da base NIST. O con-junto de teste era constitu´ıdo de 3287 imagens de cadeias constitu´ıdas de dois d´ıgitos, para as quais, a taxa de segmenta¸cão alcan¸cada foi de 94,8%. Para as 256 imagens restantes, as quais eram constitu´ıdas de três d´ıgitos, a taxa de segmenta¸cão correta foi de 84,7%. Para os testes de desempenho foi utilizado um k -NN otimizado, de modo que se ambos os d´ıgitos segmentados são reconhecidos por este k -NN, então a segmenta¸cão é considerada correta. Os autores enfatizam que podem existir casos em que uma boa segmenta¸cão possa ter sido classificada como incorreta devido a um erro de classifica¸cão do d´ıgito por parte do k -NN.

O uso do k -NN pode ser visto como um ponto negativo deste método, visto a quantidade e disposi¸cão dos pontos utilizados pode o deixar computacionalmente caro, além de precisar armazenar todos os dados utilizados no treinamento e também não fornecer uma sa´ıda probabil´ıstica.

2.2.6 Pal et al

Pal et al [BCP03] propõem um algoritmo de segmenta¸cão livre de reconheci-mento (não utiliza um classificador para a valida¸cão dos pontos de segmenta¸cão). O

(37)

algoritmo se baseia na idéia principal de que se dois d´ıgitos se tocam, é formado entre eles um grande espa¸co, chamado pelos autores de “reservatório” (Figura 2.15). Os pontos de segmenta¸cão tendem a estar na base destes reservatórios. Sendo assim, te-mos uma redu¸cão da área de busca dos pontos, o que contribui para um menor esfor¸co computacional.

Figura 2.15: Espa¸cos (“Reservat´orios”) criados pela conex˜ao entre os d´ıgitos, e suas respectivas bases. Adaptada de [BCP03]

Para iniciar a busca pelos pontos de segmenta¸cão, é necessário determinar o melhor reservatório. Para isso, a imagem é dividida em regiões, como mostra a Figura 2.16. É também calculado o Centro de Gravidade (CG) de cada um dos reservatórios existentes na imagem. O maior reservatório que possuir o seu CG na região vm da ima-gem, é então chamado de “Melhor Reservatório”. O algoritmo realiza alguns cálculos utilizando a posi¸cão da base do “Melhor Reservatório” e as coordenadas das regiões da imagem e determina a posi¸cão da área de toque, que pode ser: superior, central ou inferior.

Figura 2.16: Regiões da imagem são utilizadas para determinar o melhor reservatório. Adaptada de [BCP03]

De acordo com a região de toque, o algoritmo determina quais reservatórios serão utilizados na busca pelos pontos de segmenta¸cão. Para essa busca, o método utiliza caracter´ısticas como: quantidade de reservatórios, suas posi¸cões em rela¸cão à

(38)

Bounding Box do componente, seus tamanhos e formas, centro de gravidade, posi¸cão relativa e padrão morfológico da área de conexão. Também são utilizadas carac-ter´ısticas extra´ıdas dos ciclos fechados, são elas: posi¸cão, centro de gravidade e a razão AlturadoCiclo

AlturadoComponente.

Dependendo do tipo de conexão existente, o caminho de segmenta¸cão gerado pode ser de dois tipos: uma curva ou um segmento de reta. O caminho em forma de curva é utilizado quando a área de conexão se encontra entre dois ciclos fechados, de modo que esse caminho é realizado em uma posi¸cão central em rela¸cão aos ciclos. Nos demais casos, um segmento de reta é utilizado.

Como pontos positivos deste método, podemos apontar o funcionamento in-dependente da inclina¸cão da imagem, suporte a conexões simples e múltiplas e a não utiliza¸cão de algoritmos de alto custo computacional, como por exemplo, esqueletiza¸cão da imagem. Outro ponto positivo é o fato do método gerar sempre apenas uma hipótese de segmenta¸cão, descartando assim o uso de algoritmos mais complexos, como SVM ou Redes Neurais para a escolha da melhor hipótese de segmenta¸cão.

Figura 2.17: Exemplos de segmenta¸c˜ao incorreta gerada pelo m´etodo proposto. [BCP03]

Um diferencial deste algoritmo é que antes de tentar segmentar ele classifica os d´ıgitos da imagem em isolados ou conectados. Esta classifica¸cão possui uma taxa de acerto de 98,81%. Como problemas deste algoritmo temos o fato de não conseguir segmentar imagens que contenham falha no contorno do d´ıgito em um ponto que cons-titua a parede de um reservatório e também o fato de suportar apenas cadeias de dois d´ıgitos. Dois exemplos de segmenta¸cão incorreta deste algoritmo podem ser observados na Figura 2.17. Os autores testaram o método sobre uma base de dados contendo 2250 pares de d´ıgitos conectados extra´ıdos de cheques bancários franceses. Neste teste, o algoritmo alcan¸cou 94,8% de acerto com uma taxa de rejei¸cão de 3,4%.

2.2.7 Elnagar e Alhajajj

Elnagar e Alhajajj [EA03] propõem um método para segmenta¸cão de pares de d´ıgitos simplesmente conectados. O método utiliza caracter´ısticas de esqueleto e contorno para encontrar os poss´ıveis pontos de segmenta¸cão. Para determinar os pontos com maior potencial, o método utiliza heur´ısticas baseadas no posicionamento destes pontos com rela¸cão aos pontos de máximo e m´ınimo locais.

(39)

Antes da extra¸cão dos pontos de caracter´ısticas a imagem é normalizada quanto à inclina¸cão, linha de base e tamanho. Quanto ao tamanho, a imagem é redimensio-nada para 30 x 60 pixels, independente do fato de ter dimensões originais maiores ou menores que estas. Após este processamento inicial a imagem é então esqueletizada (Figura 2.18). O processo de esqueletiza¸cão da imagem é caro computacionalmente, porém, os autores justificam seu uso argumentando que de posse de uma imagem com tra¸cos uniformes (neste caso, tra¸co com um pixel de espessura), a extra¸cão de carac-ter´ısticas torna-se mais simples.

Figura 2.18: Imagens das fases do m´etodo de segmenta¸c˜ao: imagem original, imagem esqueletizada, imagem segmentada e imagem restaurada. [EA03]

Para a extra¸cão de caracter´ısticas são utilizadas máscaras de tamanho 3x3 (Fi-gura 2.19). Estas máscaras são deslizadas sobre a imagem em todas as suas rota¸cões múltiplas de π

2. Desta forma são então obtidos os pontos finais, pontos de ramifica¸cão e

de cruzamento. Outro ponto é encontrado obtendo-se o ponto mais alto do histograma do eixo y. Depois de encontradas as caracter´ısticas, é então utilizado um processo de remo¸cão de ru´ıdo, também baseado em uma máscara 3x3. Este processo visa à remo¸cão dos pontos de caracter´ısticas redundantes.

Figura 2.19: Modelos utilizados na extra¸c˜ao de caracter´ısticas. Pontos Finais (e1;e2), pontos de ramifica¸c˜ao (b1;b2;b3;b4) e pontos de cruzamento (c1;c2). [EA03]

(40)

conectados. As conex˜oes simples foram classificadas em quatro tipos:

Figura 2.20: Conex˜oes com ponto em comum. [EA03]

1. Conexão com ponto em comum (Figura 2.20): conexão onde os d´ıgitos compar-tilham um ponto. Ocorre geralmente em pontos de ramifica¸cão ou cruzamento, no esqueleto da imagem.

2. Conexão com segmento em comum (Figura 2.21): neste tipo os d´ıgitos com-partilham parte de um tra¸co (contorno) da imagem. É identificado por uma combina¸cão de pontos de ramifica¸cão e/ou cruzamento.

Figura 2.21: Conex˜oes com segmento em comum. [EA03]

3. Conexão suave (Figura 2.22): é a conexão onde os d´ıgitos compartilham um tra¸co, ou seja, a conexão é tão suave que não é encontrado nenhum ponto de caracter´ıstica na região de toque.

Figura 2.22: Conex˜oes suaves. [EA03]

4. Conex˜ao com Tra¸co-Ligador (Figura 2.23): tipo onde os d´ıgitos se conectam por um tra¸co ”extra”presente na imagem, de modo que este tra¸co precisa ser removido. Este tra¸co pode ser identificado pelos pontos de caracter´ısticas.

Os pontos de segmenta¸cão são então escolhidos de acordo com algumas heur´ısticas que basicamente analisam os posicionamentos dos pontos de caracter´ısticas encontrados com rela¸cão a mais alta colina e o mais profundo vale encontrado na imagem (Figura 2.24).

(41)

Figura 2.23: Conex˜oes com tra¸co-ligador. [EA03]

Figura 2.24: Na esquerda temos uma imagem exemplificando um ponto de colina e na direita um ponto de vale.

No caso espec´ıfico de conexões suaves (Figura 2.22), o algoritmo não conse-gue encontrar os pontos de caracter´ısticas e conseqüentemente não determina nenhum caminho de segmenta¸cão.

Embora tenha sido desenvolvido para tratar de conexões simples, os autores afirmam que o algoritmo é capaz de segmentar casos de conexão múltipla se estes pontos de conexão se encontrarem próximos um ao outro.

O m´etodo foi testado com imagens da base CEDAR, base NIST 19 e imagens de propriedade dos autores. Os testes resultaram em uma taxa de acerto de 96%.

Como limita¸cões deste método podemos citar o fato de não conseguir segmen-tar casos de conexão suave. Além disso, o algoritmo utiliza processos computacio-nalmente caros, como esqueletiza¸cão e deslizamento de máscaras para a extra¸cão de caracter´ısticas. Um ponto positivo do método é que com a utiliza¸cão das máscaras propostas para encontrar os pontos de segmenta¸cão, a implementa¸cão do algoritmo se torna simples e é poss´ıvel realizar uma implementa¸cão paralela para reduzir o tempo de processamento.

2.2.8 Lei et al

Lei et al [LLDF04] propõem um método baseado no conceito de sobre-segmenta¸cão e reconhecimento. Método este que realiza um pré-processamento para normaliza¸cão do tamanho, suaviza¸cão do contorno e uma opera¸cão morfológica de fechamento, esta visando resolver o problema de peda¸cos quebrados e ru´ıdos. Antes de iniciar a seg-menta¸cão da imagem, o método decide se a mesma é de d´ıgito isolado ou conectado, assim como em Pal et al [BCP03], através de um limiar aplicado ao resultado de um

(42)

classificador de d´ıgitos isolados.

Para identificar os poss´ıveis pontos de segmenta¸cão é realizada uma análise do contorno interno e externo, divididos em superior e inferior (Figura 2.25), além de proje¸cões de histograma. A divisão do contorno em superior e inferior é realizada à partir dos pontos extremos esquerdo e direito da imagem, assim como é feito no método proposto por Fujisawa et al [FNK92]. O resultado ótimo da segmenta¸cão é determinado pela máxima probabilidade de reconhecimento. Visando a diminui¸cão do número de caminhos de segmenta¸cão a serem testados é utilizada uma condi¸cão de poda, tendo assim uma consequente redu¸cão do tempo de processamento.

Figura 2.25: Contorno inferior e superior de uma cadeia de d´ıgitos conectados. [LLDF04]

Este método foi testado pelos autores em 3359 exemplos da base NIST SD19, e atingiu uma taxa de acerto de 97,72% (sem rejei¸cão), em cadeias de dois d´ıgitos. Para cadeias de três d´ıgitos o acerto foi de 93,33%, para os 525 exemplos testados. Vale ressaltar que as imagens utilizadas sempre possu´ıam os três d´ıgitos conectados, o que pode-se considerar um fato de aumento da complexidade em rela¸cão a testes realizados por outros autores, os quais contém entre as imagens, casos em que apenas dois d´ıgitos se tocam.

Podemos destacar como ponto interessante do algoritmo a condi¸cão de poda utilizada no grafo contendos as hipóteses de segmenta¸cão, pois o teste das hipóteses é uma etapa que penaliza métodos baseados em sobre-segmenta¸cão. Como ponto ne-gativo, temos o fato do algoritmo utilizar uma opera¸cão morfológica durante o pré-processamento, opera¸cão esta que eleva o custo computacional do método.

2.2.9 Suwa e Naoi

Suwa e Naoi [SN04] propõem um algoritmo capaz de segmentar tanto d´ıgitos com conexão simples, quanto d´ıgitos com conexão múltipla. O algoritmo proposto trabalha apenas com pares de d´ıgitos e segmenta inclusive casos em que há um tra¸co ligador, utilizando para a identifica¸cão e remo¸cão dos tra¸cos ligadores, o método proposto por Elnagar et al [EA03].

Antes da segmenta¸cão o algoritmo executa um pré-processamento, o qual rea-liza remo¸cão de ru´ıdos, suaviza¸cão e corre¸cão de inclina¸cão. Após isso é rearea-lizada a