Introdução ao Reconhecimento de Palavras Manuscritas

(1)

Introduc¸˜ao ao Reconhecimento de Palavras Manuscritas

Luciana R. Veloso e Francisco Madeiro

Resumo— O avanço do conhecimento, a expansão da memória e a comunicaç ão estão entre os benef´ıcios proporcionados pela escrita, que constitui-se em um dos objetos da área de processa- mento de documentos. Dentre os desenvolvimentos relacionados a esta área, podem ser citados: sistemas de reconhecimento de caracteres manuscritos, de assinaturas, de numerais manuscritos, de palavras manuscritas e sistemas de filtragem frente-verso. Este artigo apresenta uma introdução ao reconhecimento de palavras manuscritas. São abordadas etapas importantes do sistemas de reconhecimento: pré-processamento, segmentaç ão e classificaç ão.

O artigo aborda, ainda, técnicas utilizadas para o propósito do reconhecimento, com destaque para os modelos de Markov escondidos, as redes neurais artificiais e os métodos h´ıbridos.

Palavras-Chave— Processamento de documentos, reconheci- mento de manuscritos, reconhecimento de palavras manuscritas, processamento digital de imagens, reconhecimento de padr˜oes.

I. I

NTRODUC

¸ ˜

AO

Avanços da civilização devem-se à escrita, que foi desenvol- vida com o prop ósito de expandir a memória humana e facilitar a comunicação. Dentre as tecnologias que contribu´ıram para a expansão da escrita, podem ser citadas: a imprensa, a máquina de datilografar, o computador e as tecnologias da informação e da comunicação, como os processadores de texto e os serviços de e-mail. Ressalte-se, entretanto, que, apesar da polularização de alguns recursos tecnológicos (computadores, palmtops, tablets), há situações em que caneta e papel são mais convenientes que um teclado [1] – é o caso, por exemplo, de estudantes em uma sala de aula, os quais continuam armazenando as informações (texto, equações e gráficos) por meio da caneta e do papel.

Os sistemas de reconhecimento de manuscritos são particu- larmente úteis nas situações em que o papel e o instrumento escrevente são utilizados, permitindo aos computadores trans- formarem uma linguagem representada em sua forma espacial ou marcas gráficas em uma representação simb ólica.

Há duas abordagens para o problema de reconhecimento de manuscritos: hol´ıstica ou anal´ıtica. A primeira trata as palavras como entidades únicas, indivis´ıveis, e procura reconhecê-las como um todo [2] e constitui-se na opção preferida quando a aplicação possui um vocabulário pequeno. A segunda utiliza unidades de sub-palavras, tais como caracteres ou pseudo- caracteres, para o prop ósito de reconhecimento, sendo apropri- ada em aplicações práticas que requerem grandes vocabulários.

De todo modo, qualquer que seja a abordagem utilizada, os sistemas de reconhecimento s˜ao complexos e necessitam de

Luciana Ribeiro Veloso, Universidade Federal de Campina Grande (UFCG), Campina Grande, PB, Brasil. Francisco Madeiro, Escola Polit´ecnica de Pernambuco (POLI), Universidade de Pernambuco (UPE), Recife, PE, Brasil.

E-mails: veloso@dee.ufcg.edu.br e madeiro@poli.br

várias técnicas. Em geral, sistemas off-line de reconhecimento de manuscritos possuem os seguintes módulos básicos: pré- processamento, segmentação de palavras, extração de carac- ter´ısticas e classificação, conforme se observa na Figura 1.

Fig. 1. Diagrama de blocos de um sistema geral de reconhecimento de palavras manuscritas.

Detalham-se, a seguir, os m´odulos b´asicos de um sistema off-line de reconhecimento de palavras manuscritas. A aborda- gem concentra-se, principalmente, nos sistemas que utilizam a abordagem anal´ıtica.

II. P

RE

´ -

PROCESSAMENTO

Técnicas de pré-processamento levam à redução da va- riabilidade entre as classes de objetos ou entre escritores diferentes. Nesta etapa, a imagem é geralmente limpa de ru´ıdo e dos erros causados pelo processo de digitalização.

A normalização, que constitui-se em uma fase importante do pré-processamento, tem como objetivo reduzir as variações observadas em diferentes amostras da mesma palavra, escrita pela mesma pessoa em instantes distintos ou por diferentes escritores, tais como:

•

Angulo de inclinação vertical dos caracteres (slope ou ˆ slant). ´ E muito comum encontrar em documentos ma- nuscritos palavras ou numerais com diferentes ângulos de inclinação. O ângulo de inclinação vertical dos caracteres

é definido como o ângulo entre o eixo correspondente à direção média dos caracteres, calculada como a média dos ângulos de inclinação de cada letra que comp õe a palavra, e o eixo vertical [3]. Nesse cenário, as técnicas mais simples assumem que a inclinação é uniforme para todas as letras que comp õem a palavra, realizando uma correção global. Há, no entanto, técnicas que trabalham isolando segmentos de palavra e efetuam a correção individual de cada segmento [4], [5], [6], [7], [3], [8], [9], [10].

•

Inclinação da linha de base da escrita (Skew). O ângulo

da linha de base da escrita ´e o ˆangulo entre a linha

de base definida pelo contorno inferior da palavra e a

(2)

linha horizontal de referência. De modo geral, os métodos de correção de linha de base podem ser globais ou locais [10], [11].

•

Largura do traçado do caractere. A largura do traçado varia devido a fatores como o instrumento de escrita uti- lizado, a pressão aplicada, o tipo de papel e a inclinação do instrumento de escrita. Pode ser eliminada por meio de esqueletização ou extração de contornos [12], [13], [14], [15], [16], [17], por exemplo.

Um conceito importante é o de linhas de base (baselines), que são linhas imaginárias que dividem a palavra em três regiões: ascendente, descendente e central [18], [19], [11], [10], [20], conforme mostrado na Figura 2. No reconheci- mento de palavras manuscritas, elas, bem como as regiões ascendente, central e descendente, são usadas, geralmente, nas etapas de segmentação e extração de caracter´ısticas. Por exemplo, na extração de caracter´ısticas de palavras, elas são utilizadas para detectar os traços ascendentes e descendentes.

Fig. 2. Linhas de base.

(a) (b)

Fig. 3. Correção da inclinaç ão das letras da palavra. (a) imagem original, (b) imagem normalizada.

(a) (b)

Fig. 4. Normalização da inclinaç ão da linha de base das palavras. (a) imagem original, (b) imagem normalizada.

As Figuras 3 e 4 ilustram o resultado das operações de normalização do ângulo de inclinação vertical dos caracteres e de normalização da inclinação da linha de base das palavras

III. S

EGMENTAC

¸ ˜

AO DE PALAVRAS EM CARACTERES

Uma poss´ıvel técnica de reconhecimento de palavras con- siste em realizar uma segmentação das mesmas em caracteres, seguida pelo reconhecimento dos caracteres como s´ımbolos válidos do alfabeto e, finalmente, pelo casamento entre as sequências de caracteres identificados e palavras de um di- cionário (Figura 5). A variedade de estilos e a grande ambi- guidade encontrada na escrita cursiva tornam complexo o re-

conhecimento autom´atico de manuscritos. ´ E muito desafiador segmentar as palavras em letras.

Fig. 5. Forma intuitiva de reconhecimento de palavras manuscritas: (a) palavra manuscrita; (b) separação dos segmentos; (c) reconhecimento do primeiro segmento; (d) análise do segundo segmento; e) sobresegmentaç ão do segundo segmento.

A dificuldade supracitada pode ser entendida observando a Figura 6: as partes destacadas nas imagens (a), (b), (c) e (d) correspondem respectivamente a (m, rv, ui e n). Na Figura 6(a), o traçado do caractere que está circulado não necessita ser segmentado, pois pertence a um único caractere. O mesmo não acontece na imagem (c), que contém dois caracteres circulados.

Fig. 6. Exemplos de palavras manuscritas.

Segmentar uma palavra em caracteres é uma operação que decomp õe a imagem de uma palavra formada por uma sequência de caracteres em sub-imagens de caracteres ou pseudo-caracteres [21]. Segmentar corretamente uma palavra manuscrita, sem a informação a priori sobre a quantidade e o rótulo dos caracteres, levando em conta os problemas provocados pela ambiguidade dos caracteres na escrita cursiva,

é uma tarefa extremamente dif´ıcil. Para solucionar tais proble- mas, uma das estratégias utilizadas na literatura é realizar a segmentação baseada no reconhecimento. Nessa estratégia, o algoritmo de segmentação divide a imagem em segmentos, ou pedaços da palavra original, gerando uma lista de hip óteses de segmentação (sobre-segmentação). Cada segmento idealmente consiste de um caractere ou parte de um caractere. O processo de classificação determina a melhor maneira de concatenar os segmentos de forma a representar palavras contidas em um léxico. Os resultados apresentados na literatura mostram que este tipo de abordagem produz bons resultados. Entretanto, devido ao grande n úmero de hip ótese geradas e à necessidade do classificador discriminar os diferentes padrões gerados (caracteres, pseudo-caracteres e caracteres conectados), essa estratégia está associada a um alto custo computacional. Nessa abordagem, a segmentação pode ser expl´ıcita ou impl´ıcita.

Nos métodos expl´ıcitos, a segmentação é realizada antes

do classificador, produzindo sub-imagens de caracteres ou

pseudo-caracteres. Em contraste, nos m´etodos impl´ıcitos, a

segmentação é incorporada ao processo de classificação e é

realizada simultaneamente com a classificac¸˜ao.

(3)

A Figura 3 ilustra o resultado do processo de segmentac¸˜ao expl´ıcita baseada no reconhecimento.

Fig. 7. Resultado do processo de segmentac¸˜ao expl´ıcita baseada no reconhecimento.

Uma segunda estratégia de segmentação é a livre do reco- nhecimento, que fornece ao classificador uma única hip ótese de sequência de caracteres. Entretanto, devido aos proble- mas supracitados, essa estratégia é utilizada, geralmente, na segmentação de palavras manuscritas redigidas em que há uma clara delimitação do começo e término do traçado do caractere.

Diversos algoritmos foram propostos para a segmentação expl´ıcita baseado no reconhecimento. Eles normalmente le- vam em consideração informações provenientes do primeiro e segundo plano da imagem. Dentre as diversas informações utilizadas, destacam-se: a localização dos m´ınimos locais do contorno ou do esqueleto da palavra, a localização dos traços relativamente horizontais (traços de ligação entre caracteres), análise do perfil de contorno e caracter´ısticas de concavidade do traçado da imagem.

A análise dos traços de ligação entre os caracteres permite a localização dos pontos de segmentação de palavras em carac- teres quando o escritor utiliza pequenos traços relativamente horizontais para separar um caractere do outro. Entretanto, tal informação não é suficiente para a determinação da fronteira entre caracteres fortemente conectados. Nesse caso, a litera- tura recomenda a utilização das informações provenientes da análise dos m´ınimos locais e das concavidades do traçado dos caracteres para a realização da segmentação. Visando obter um melhor desempenho na segmentação, independente do tipo de manuscrito, muitos sistemas realizam a segmentação baseada numa combinação dessas informações. O principal problema nessa estratégia é o elevado n úmero de poss´ıveis pontos de segmentação gerados, com a possibilidade de obter mais de um ponto de segmentação para a mesma fronteira entre caracteres sucessivos, o que acarretaria uma sobrecarga no sistema, haja vista que o classificador deve avaliar cada sub-imagem gerada e suas poss´ıveis combinações caso o sistema permita. Para evitar tal carga de processamento e uma poss´ıvel degradação no sistema, utiliza-se um conjunto de regras heur´ısticas que trabalham na redução dos poss´ıveis pontos de segmentação. A Figura 8 ilustra o resultado da união dos pontos de segmentação gerados por algoritmos de segmentação, e o resultado final ap ós o processo de avaliação desses pontos por um conjunto de regras heur´ısticas no sistema de reconhecimento de manuscritos desenvolvido por Veloso [22].

IV. E

XTRAC

¸ ˜

AO DE

C

ARACTER

´

ISTICAS

O desempenho de qualquer algoritmo de classificação e/ou reconhecimento depende da representação dos padrões a serem classificados, ou seja, das caracter´ısticas ou primitivas que são extra´ıdas dos padrões da imagem [23], [20]. Essas carac- ter´ısticas devem preservar as informações que são pertinentes

(a) (b)

Fig. 8. (a) união dos pontos de segmentação produzidos pela combinação dos resultados dos algoritmos de segmentação e (b) resultado final do processo de segmentação após a etapa de pós-segmentação.

e úteis para a classificação e, ao mesmo tempo, eliminar as informações irrelevantes e desnecessárias [24], [23], [20]. Na definição do conjunto de caracter´ısticas é importante conside- rar alguns aspectos básicos [25]:

•

As caracter´ısticas devem ser preferencialmente in- sens´ıveis à rotação, translação e variações de tamanho da escrita;

•

A extrac¸˜ao das caracter´ısticas deve ser de baixo custo computacional;

•

As caracter´ısticas devem ser independentes umas das outras.

Além disso, as caracter´ısticas devem destacar as diferenças entre os objetos de classes distintas (interclasse) enquanto mi- nimizam as poss´ıveis variações da mesma classe (intraclasse).

Existem vários tipos de caracter´ısticas que são utiliza- das para descrever os padrões em sistemas de reconheci- mento de manuscritos. Em geral, essas caracter´ısticas contêm informações sobre a estrutura dos caracteres ou pseudo- caracteres ou fornecem informações estat´ısticas sobre o padrão em análise. As caracter´ısticas estat´ısticas são provenientes da análise das distribuições estat´ısticas da representação da imagem (binária, n´ıvel de cinza, contornos ou esqueleto), tais como zoneamento, momentos, histogramas de projeção e de transição do contorno, retangularidade e circularidade. Carac- ter´ısticas estruturais são informações provenientes da análise das propriedades topológicas e geométricas dos padrões, como concavidades, traços T e X, ângulo de inclinações dos traços dos caracteres, direções do traçado do caracteres, interseções dos segmentos e loops.

O tipo de caracter´ısticas estruturais mais utilizado em siste-

mas de reconhecimento de manuscritos ´e o das caracter´ısticas

perceptivas [22], [20], [26], inspiradas no processo de leitura

humano, que as utiliza para identificar palavras manuscri-

tas. Caracter´ısticas perceptivas contêm informações sobre a

localização e tamanho de laços (loops), traços ascendentes e

trac¸os descendentes, os quais s˜ao facilmente percebidos pelo

olho humano. Entretanto, tais caracter´ısticas n˜ao fornecem

nenhuma informação quando as imagens analisadas contêm

caracteres que n˜ao possuam trac¸os ascendentes, descendentes

ou loops, como os caracteres ”m”e ”n”, s´o para citar dois

caracteres como exemplos. Segundo Grandidier [27], mais de

50% das sub-imagens em seu conjunto de treino s˜ao caracte-

rizados pela ausˆencia desse tipo de caracter´ısticas, correspon-

dendo a caracteres que são escritos sem a utilização de traços

ascendentes, descendentes e loops. Outras caracter´ısticas es-

truturais bastante estudadas na literatura especializada s˜ao

as globais e as direcionais. Caracter´ısticas globais contˆem

(4)

informações globais sobre o traçado da imagem, tais como sua localização e forma (retangular ou circular). As caracter´ısticas direcionais analisam regiões do fundo da imagem e foram inspiradas num procedimento de rotulação proposto por Parker [12]. Neste método, para cada pixel do fundo da imagem, é verificado em cada uma das quatro direções principais (norte, sul, leste, oeste) se existe um pixel pertencente ao contorno na direção analisada, conforme é ilustrado na Figura 9.

Muitos pesquisadores têm explorado a combinação de di- versos conjuntos de caracter´ısticas com objetivo de realçar as propriedades que diferem um caractere do outro [28], [29], [30], [31]. Entretanto, o aumento do n úmero de caracter´ısticas torna o sistema mais complexo, custa um maior tempo de treinamento e pode reduzir sua capacidade de generalização.

Recentemente, pesquisadores têm aplicado técnicas de seleção de caracter´ısticas para reduzir a complexidade dos classi- ficadores e melhorar seu desempenho [28], [29], [32] Al- guns trabalhos na literatura têm investigado a utilização de mecanismos de zoneamento ou métodos de decomposição regional acoplados às técnicas de extração de caracter´ısticas, com o objetivo de tornar a representação dos caracteres mais eficiente e, assim, melhorar o desempenho dos sistemas de reconhecimento, aumentando a taxa de reconhecimento [20], [33].

Fig. 9. Exemplo do processo de rotulac¸˜ao utilizado pelo extrator de caracter´ısticas direcionais.

V. R

ECONHECIMENTO

O objetivo de um sistema de reconhecimento é a classificação. A tarefa do classificador é identificar a classe à qual a imagem analisada pertence, com base nas caracter´ısticas extra´ıdas da mesma. Várias estratégias de classificação po- dem ser utilizadas no reconhecimento off-line de manus- critos, como, por exemplo, casamento de padrões, técnicas estat´ısticas, técnicas estruturais e redes neurais. Esquemas h´ıbridos, de múltiplos classificadores, também têm sido pes- quisados [34], [1], [24], [35], [36], [37], [38], [37], [39], [26], [28]. Resultados interessantes têm sido obtidos com o uso de conjuntos de classificadores (ensemble classifiers) [40], [41], [42], [31], [39], os quais podem ser obtidos por meio da variação do conjunto de treino, das caracter´ısticas ou parâmetros e arquiteturas do classificador base.

Em diversos sistemas de reconhecimento, podem ser identi- ficadas duas etapas: a de treinamento e a classificação propri- amente dita. A primeira consiste, por exemplo, em obter um conjunto representativo de padrões para as palavras que cons- tituem um conjunto de treinamento do sistema. A segunda, por exemplo, consiste em realizar o reconhecimento com base em

critérios de similaridade entre os padrões obtidos da palavra a ser classificada (reconhecida) e os padrões de referência previamente gerados na etapa de treinamento. Neste caso, estamos falando de reconhecimento com base em casamento de padrões. Se a técnica de reconhecimento for uma rede neural artificial, a etapa de treinamento consiste em usar um conjunto de treino para ajustar os pesos da rede neural (NN, neural network) que será utilizada para o prop ósito de classificação.

As estratégias de aprendizagem podem ser classificadas em dependente ou independente do escritor. Técnicas de aprendizagem consideradas como independentes do escritor constroem seus modelos por treinamento a partir de um conjunto de amostras de palavras manuscritas de diversos escritores, enquanto as técnicas de aprendizagem dependentes do escritor utilizam apenas amostras de palavras redigidas pelo mesmo escritor para a construção de seus modelos [43].

A seguir s˜ao abordados alguns m´etodos de reconhecimento de palavras manuscritas.

A. Redes Neurais Artificiais

As redes neurais artificiais são compostas de muitos elemen- tos simples (neurônios), interconectados por meio de ligações (pesos), em geral de acordo com uma arquitetura. A ideia de aprendizagem em uma rede neural é implementada por meio da modificação dos pesos. Quanto à forma de aprendizagem, os algoritmos utilizados durante a fase de treinamento de redes neurais [44] podem ser classificados em duas categorias:

algoritmos supervisionados e algoritmos n˜ao-supervisionados.

As redes que utilizam algoritmo de treinamento supervisio- nado recebem informação externa sobre a que classe pertence cada padrão de entrada utilizado na fase de treinamento. De posse dessa informação, os pesos das unidades de processa- mento são modificados de forma a se obter o desempenho desejado, ou seja, uma classificação satisfatória. Um dos algoritmos de treinamento supervisionado mais utilizados é o algoritmo backpropagation ou algoritmo de propagação retroativa de erros, que descreve a metodologia de modificação dos pesos na rede neural denominada perceptron multicama- das [44], [45].

Uma caracter´ıstica marcante da aprendizagem supervisio- nada ´e a presenc¸a de um supervisor externo. O supervisor

é simplesmente o elemento que detém o conhecimento do problema a ser solucionado pela rede, ou seja, ele conhece o mapeamento entrada-sa´ıda. O supervisor fornece à rede um conjunto de exemplos entrada-sa´ıda. Em outras palavras, a resposta desejada (resposta correta) é fornecida à rede pelo supervisor. Essa resposta desejada representa a ação ótima a ser executada pela rede. Nesse contexto, os parâmetros da rede são ajustados de forma a minimizar o sinal erro, definido como a diferença entre a resposta real, apresentada pela rede, e a resposta desejada, fornecida pelo supervisor.

Na aprendizagem n˜ao-supervisionada ou auto-

organizativa [44], [45], n˜ao existe um supervisor externo

para orientar o processo de aprendizagem. Nos algoritmos

de treinamento n˜ao-supervisionado, portanto, nenhuma

informação externa referente às classes a que pertencem os

(5)

dados de treinamento é dispon´ıvel à rede. As modificações efetuadas nos pesos são realizadas com base apenas na observação de erros internos. O principal objetivo do algoritmo de treinamento não-supervisionado é capturar as regularidades estat´ısticas dos dados de entrada, ou seja, desenvolver a habilidade de promover representações internas eficientes das caracter´ısticas dos padrões de entrada. Um exemplo de rede que utiliza aprendizagem não-supervisionada são os mapas auto-organizáveis de Kohonen (SOM, Self- organizing Maps) [46].

O perceptron multicamadas (MLP, multi-layer perceptron) foi usado em [47], com um l´exico de 746 palavras, levando a uma taxa de reconhecimento de 83,92%. Estrat´egias fuzzy para o treinamento de redes neurais, com vetores de caracter´ısticas de 120 componentes, foram consideradas em [48].

Côté et al. [10] desenvolveram um sistema de reconheci- mento de palavras manuscritas que possui arquitetura inspirada no sistema de leitura humano e em concepções perceptuais. No reconhecimento, uma rede neural com três camadas identifica a imagem da palavra utilizando as caracter´ısticas extra´ıdas por intermédio de sucessivos ciclos perceptuais. Uma técnica de casamento fuzzy identifica a correspondência entre as zonas na imagem de entrada e letras nas palavras do léxico. A sa´ıda do módulo de reconhecimento é uma lista de palavras candidatas dispostas em ordem decrescente de ativação.

B. Modelos de Markov Escondidos

Um modelo de Markov escondido é um processo estocástico gerado por dois mecanismos inter-relacionados. Um canal de Markov básico tem um n úmero finito de estados e um conjunto de funções aleatórias, cada função aleatória associada a cada um dos estados. Para cada instante de tempo discreto,

é assumido que o processo está em algum estado e uma sequência de observação é gerada por uma função aleatória correspondendo ao estado corrente. O canal de Markov básico escolhe o estado de acordo com uma matriz de probabilidade de transição. O observador vê somente a sa´ıda (observações) da função densidade de probabilidade (fdp) associada a cada estado e não pode observar os estados do canal de Markov básico; da´ı o termo modelo de Markov escondido [49].

Os HMMs tˆem sido amplamente utilizados em sistemas de reconhecimento de palavras manuscritas [50], [23], [51], [52], [19], [53], [54], [55], [56], [25], [57], [58], [36], [59], [60], [61], [62], [63], [64].

Gillies [52] foi um dos primeiros a utilizar HMM em um sistema de reconhecimento de palavras manuscritas com segmentação impl´ıcita. O método usa operações morfológicas, quantização vetorial e HMM de densidade discreta esquerda- direita, em que é constru´ıdo um modelo para cada letra. Os modelos de letras individuais são combinados em modelos para cada palavra no léxico. Os conjuntos de treinamento e de teste consistem em 2.662 e 296 imagens de palavras cursivas, respectivamente, e foram extra´ıdos de blocos de endereços manuscritos do correio americano. As taxas de reconhecimento obtidas para as 10 primeiras palavras foi de 72,6% a 90,5%

para o l´exico de 100 palavras e para o l´exico de 1.000 palavras foi de 51,0% a 80,1%.

Yacoubi et al. [19] propuseram uma técnica de reconheci- mento de palavras manuscritas para um vocabulário amplo, usando HMM. O modelo foi testado em uma base de imagens de nomes de cidades francesas. A taxa de reconhecimento obtida para um léxico de 1.000 palavras foi de 88,9%.

O sistema de reconhecimento de palavras manuscritas pro- posto por Chen et al. [55] utiliza HMM de duração variável com densidade cont´ınua (Continuous Density Variable Dura- tion Hidden Markov Model - CDVDHMM). Um algoritmo de segmentação separa todos os caracteres conectados e ga- rante que cada caractere será segmentado em no máximo cinco partes. O CDVDHMM define as 26 letras do alfabeto como 26 estados diferentes. Na fase de treinamento, grupos consecutivos de segmentos são identificados como estados, e uma mistura de Gaussianas é utilizada para modelar as probabilidades de s´ımbolos para cada estado.

No sistema de reconhecimento de palavras manuscritas de Kundu et al. [25], a palavra é previamente segmentada em caracteres. Quatorze caracter´ısticas são extra´ıdas, relativas à forma (n úmeros de junções X e T, n úmero de loops, dentre outras) e à distribuição dos pixels. Os vetores de caracter´ısticas são transformados em s´ımbolos, usando quantização vetorial, e as 26 letras do alfabeto são identificadas com estados do HMM. Na etapa de reconhecimento, cada letra da palavra é classificada por comparação com os s´ımbolos do dicionário do quantizador vetorial, de acordo com o critério da m´ınima distância. O reconhecimento é feito utilizando o algoritmo de Viterbi.

Bunke et al. [57] apresentaram um sistema com HMM capaz de se adapatar ao estilo de escrita de diferentes escri- tores. Nas fases de treinamento e de teste foram utilizadas palavras manuscritas de cinco indiv´ıduos distintos. O vetor de caracter´ısticas foi codificado por um quantizador vetorial, um HMM foi treinado pelo algoritmo de Baum-Welch e o reconhecimento feito utilizando o algoritmo de Viterbi.

Kessentini et al. [64] apresentam um sistema de reconheci- mento de manuscritos utilizando uma abordagem multi-stream com HMM. Dois conjuntos de caracter´ısticas são extra´ıdos do contorno inferior e superior da palavra através de uma janela deslizante. Cada modelo do 2-stream é treinado independente- mente utilizando o algoritmo de Baum Welch. O último passo

´e o reconhecimento, que utiliza um algoritmo modificado de Viterbi, o qual decodifica dois modelos stream em paralelo de acordo com o formalismo multi-stream.

C. Abordagens H´ıbridas

Uma abordagem multi-vista foi apresentada por Oliveira Jr.

[26] para o reconhecimento de palavras manuscritas. Nela, h´a

três módulos. O primeiro realiza uma pseudo-segmentação de

radical que divide as palavras em duas regi˜oes e seu vetor

de caracter´ısticas ´e composto por caracter´ısticas perceptivas

e geom´etricas. As palavras analisadas s˜ao reconhecidas por

redes neurais multicamadas (MLP). O segundo ´e composto por

uma pseudo-segmentação fixa, três extratores de caracter´ısticas

(perceptivas, direcionais e topol´ogicas) e classificadores neu-

rais. O último módulo realiza uma pseudo-segmentação

vari´avel, para extrair as mesmas caracter´ısticas anteriormente

(6)

descritas do sistema, embora usando uma representação por alfabetos de s´ımbolos. O classificador utilizado é um HMM com uma topologia esquerda-direita.

Em outros trabalhos, Rigoll et al. [36], [59] realizaram comparações de sistemas de reconhecimento de palavras ma- nuscritas baseados em HMMs, utilizando técnicas de mo- delamento discreto e h´ıbrido. Nas abordagens h´ıbridas, são realizadas associações de HMMs e redes neurais. As redes neurais são utilizadas como um quantizador vetorial para um HMM discreto, ou para calcular a função densidade de probabilidade para um HMM cont´ınuo.

Kim et al. [61] utilizaram para o reconhecimento de pa- lavras manuscritas uma estratégia h´ıbrida de classificadores baseada em HMM e redes neurais. O reconhecimento com segmentação expl´ıcita é realizado pelo HMM, enquanto o reconhecimento hol´ıstico é realizado por redes neurais. Esses dois classificadores são combinados utilizando uma estratégia de multiplicação.

D. Uma Avaliac¸˜ao de Desempenho

O desempenho de alguns sistemas citados neste artigo é apresentado nas Tabelas I e II, em que TR é a taxa de reconhecimento e NV é o n úmero de palavras no vocabulário.

Os sistemas foram avaliados usando diferentes bases de da- dos e, consequentemente, muitas vezes possuem vocabulários distintos. Comparar o desempenho dos sistemas por meio de suas taxas de reconhecimento é imprudente. A dificuldade do sistema não reside apenas no tamanho do vocabulário mas também na similaridade entre as palavras do vocabulário, a aplicação à qual se destina e se o sistema é ou não dependente do escritor. De uma maneira geral, quanto maior o vocabulário em questão, menores são as taxas de reconhecimento.

VI. C

OMENTARIOS FINAIS

´

O reconhecimento de palavras manuscritas é um problema relevante da área de processamento de documentos e, como consequência, tem recebido atenção da comunidade cient´ıfica da área. Há duas abordagens para o reconhecimento de pala- vras manuscritas: hol´ıstica ou anal´ıtica. Geralmente, quando a aplicação requer um pequeno léxico, utiliza-se a abordagem hol´ıstica; caso contrário, é prefer´ıvel utilizar a abordagem anal´ıtica.

Um sistema genérico de reconhecimento de palavras manus- critas é composto por etapas: pré-processamento, segmentação, extração de caracter´ısticas e classificação (reconhecimento).

As etapas de pré-processamento e segmentação podem ou não ser utilizadas, dependendo da complexidade do problema a ser tratado.

Devido à existência de letras amb´ıguas e ileg´ıveis, é dif´ıcil segmentar a palavra em caracteres completos. A solução é realizar o reconhecimento utilizando a abordagem hol´ıstica ou utilizar a etapa de segmentação para quebrar a palavra em segmentos, que podem ser caracteres completos ou pedaços de caracteres.

Várias técnicas de extração de caracter´ısticas e de classificação têm sido propostas na literatura. Dentre as técnicas utilizadas no reconhecimento de palavras manuscritas,

TABLE I

DESEMPENHO DE ALGUNS SISTEMAS DE RECONHECIMENTO DE MANUSCRITOS.

Sistema ClassificadorNV TR (%) Base de

dados Gader et

al. [47]

NN 746 83,92 nomes de

cidades (CEDAR) (Inglˆes) Gader e

Mohamed [50]

HMM 100 89,3 nomes de

cidades (CEDAR) (Inglˆes) Gillies

[52]

HMM 1000 80,1 nomes de

cidades ameri- canas (Inglˆes) Yacoubi

et al. [19]

HMM 1000 88,9 nomes de

cidades francesas (Francˆes) Chen et

al. [55]

CDVDHMM 1000 59,6 nomes de

cidades, nomes de pessoas, nomes de estados ameri- canos (Inglˆes) Gilloux et

al.[56]

HMM 27 79,0 valores

por extenso em cheques banc´ario (Francˆes) Bunke et

al. [57]

HMM 150 98,4 palavras

manus- critas (Inglês) Côté et al.

[10]

HMM e

Fuzzy

32 73,6 valores

por extenso em cheques banc´ario (Inglˆes)

os modelos de Markov escondidos (HMMs) têm ocupado um lugar de destaque. Há outras alternativas para o reconheci- mento, como é o caso de métodos baseados em quantização vetorial e em redes neurais artificiais.

A

GRADECIMENTOS

Os autores expressam os agradecimentos ao Conselho Na- cional de Desenvolvimento Cient´ıfico e Tecnol´ogico (CNPq) pelo apoio financeiro.

R

EFERENCIAS

ˆ

[1] Plamondon, R. and Srihari, S. N., “On-Line and Off-Line Handwriting Recognition: A Comprehensive Survery,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.22, No.1, pp. 63–84, January 2000.

(7)

TABLE II

DESEMPENHO DE ALGUNS SISTEMAS DE RECONHECIMENTO DE MANUSCRITOS(CONTINUAC¸ ˜AO).

Sistema ClassificadorNV TR (%) Base de

dados Rigoll et

al.[58]

HMM 1000 98,30 palavras

manus- critas (Inglˆes) Guillevic

e Suen [60]

HMM- KNN

30 86,7 valores

por extenso em cheques banc´ario (Inglˆes) Kim et

al.[61]

HMM- MLP

32 92,2 valores

por extenso em cheques banc´ario (Inglˆes) Arica et

al. [62]

HMM 1000 90,8 palavras

manus- critas (Inglˆes) Koch et

al. [65]

MLP 1000 67,8 palavras

manus- critas (Francˆes) Koerich et

al. [63]

HMM 1000 91,0 nomes de

cidades (Francˆes) Kessentini

et al. [64]

HMM 1000 42,6 palavras

manus- critas (Inglˆes) Shetty et

al. [66]

campos randˆomicos condicio- nais

300 80,0 palavras

manus- critas (Inglˆes)

[2] Koerich, A. L., Sabourin, R. and Suen, C. Y., “Large Vocabulary Off-line Handwriting Recognition: A survey,” Pattern Analysis and Applications, vol. 6, pp. 97–121, 2003.

[3] Buse, R., Liu, Z.-Q. and Caelli, T. , “A Structural and Relational Approach to Handwritten Word Recognition,” IEEE Transactions on Systems, Man and Cybernetics - Part B: Cybernetics, Vol. 27, No. 5, pp.

847–861, October 1997.

[4] El-Yacoubi, A., Gilloux, M., Sabourin, R. and Suen, C. Y., “Uncons- trained Handwritten Word Recognition using Hidden Markov Models,”

IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993.

[5] Bozinovic, R. M., and Shihari, S. N., “Off-Line Cursive Script Word Recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.11, No.1, pp. 68–83, January 1989.

[6] Kim, G. and Govindaraju, V., “A Lexicon Driven Approach to Handwrit- ten Word Recognition for Real-Time Applications ,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19, No. 4, pp. 366–

379, April 1997.

[7] Kim, G. and Govindaraju, V. , “Handwritten Phrase Recognition as Applied to Street Name Images,” Pattern Recognition, Vol. 31, No. 1, pp. 41–51, 1998.

[8] Ding, Y., Kimura, F., Miyake, Y. and Shridhar, M., “Accuracy Improve- ment of Slant Estimation for Handwritten Words,” Proceedings of the International Conference on Pattern Recognition - ICPR’00, pp. 527–

530, 2000.

[9] Slav´ık, P. and Govindaraju, V., “Equivalence of Different Methods for Slant and Skew Corrections in Word Recognition Applications,” IEEE

Transactions on Pattern Analysis and Machine Intelligence, Vol.23, No.3, pp. 323–326, March 2001.

[10] Cˆot´e, M., Lecolinet, E., Cheriet, M. and Suen, C. Y. , “Automatic Reading of Cursive Scripts Using a Reading Model and Perceptual Con- cepts,” International Journal on Document Analysis and Recognition, Vol. 1, pp. 3–17, 1998.

[11] Senior, A. W. and Robinson, A. J. , “An Off-Line Cursive Handwri- ting Recognition System,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 3, pp. 309–321, March 1998.

[12] Parker, J. R., Algorithms For Image Processing and Computer Vision.

Wiley Computer Publishing, 1997.

[13] Facon, J., Morfologia Matem´atica: Teoria e Exemplos., Universit´aria, Ed. PUC-PR, 1996.

[14] Frucci, M. and Marcelli, A. , “Contour Pixel Classification for Charac- ter Skeletonization,” Proceedings of the First Brazilian Symposium of Document Image Analysis, pp. 141–152, November 1997.

[15] Borgefors, G., Ramella, G. and Baja, G. S. , “Using Binary Pyramids to Create Multi-resolution Shape Descriptors,” Proceedings of the First Brazilian Symposium of Document Image Analysis, pp. 129–140, No- vember 1997.

[16] Gonzalez, R. C. and Woods, R. E. , Digital Image Processing, Addison- Wesley, Ed., 1992.

[17] Lam, L. and Suen, C. Y. , “An Evaluation of Parallel Thinning Algorithms for Character Recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 17, No. 9, pp. 914–919, 1995.

[18] El Yacoubi, A., “Modélisation Markovienne de L’ Écriture Manuscrite Application à la Reconnaissance des Adresses Postales,” Thesis, Uni- versite De Rennes 1, 1996.

[19] El-Yacoubi, A., Gilloux, M., Sabourin, R. and Suen, C. Y., “An HMM-Based Approach for Off-Line Unconstrained Handwritten Word Modeling and Recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 21, No. 8, pp. 752–760, August 1999.

[20] Freitas, C., El-Yacoubi, A., Bortolozzi, F. and Sabourin, A., “Bra- zilian Bank Check Handwritten Legal Amount Recognition,” Anais do Simpósio Brasileiro de Computaç ão Gráfica e Processamento de imagens- SIBGRAPI’2000, 2000.

[21] Casey, R.G. and Lecolinet E. , “A Survey of Methods and Strategies in Character Segmentation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 18, No. 7, pp. 690–706, 1996.

[22] Veloso, L. R., “Sistema de Reconhecimento de Palvras Manuscritas Dependente do Usu´ario,” Tese de Doutorado, Universidade Federal de Campina Grande, UFCG, Brasil, marc¸o 2009.

[23] Mohamed, M. A. and Gader, P., “Generalized Hidden Markov Models - Part I: Theoretical Frameworks,” IEEE Transactions on Fuzzy Systems, vol. 8, no. 1, pp. 67–81, 2000.

[24] Kim, J. H., Kim, K. K., Nadal, C. and Suen, C., “A methodology of Combining HMM and MLP Classifiers for Cursive Word Recognition,”

Proceedings of the International Conference on Pattern Recognition - ICPR’00, pp. 319–322, 2000.

[25] Kundu, M. and Bahl, P., “Recognition of handwritten script: A hidden markov model based approach,” Relat´orio T´ecnico, 1988.

[26] Oliveira Jr., J. J., “Reconhecimento de Palavras Manuscritas Usando An´alise Multi-Vistas,” Tese de Doutorado, Universidade Federal de Campina Grande, 2006.

[27] Grandidier, F., Sabourin, R., El-Yacoubi, A., Gilloux, M. and Suen, C., “Influence of Word Length on Handwriting Recognition,” 1999.

[Online]. Available: citeseer.ist.psu.edu/grandidier99influence.html [28] Nunes, C. M., Britto, Ad. S., Jr.; Kaestner, C. A. A.; Sabourin, R., “An

Optimized Hill Climbing Algorithm for Feature Subset Selection: Eva- luation on Handwritten Character Recognition,” in Ninth International Workshop on Frontiers in Handwriting Recognition, 2004.

[29] Oliveira, L. S., Sabourin, R., Bortolozzi, F. and Suen, C. Y. , “A Metho- dology for Feature Selection Using Multi-Objective Genetic Algorithms for Handwritten Digit String Recognition,” International Journal of Pattern Recognition and Artificial Intelligence, vol. 17, pp. 903–930, 2003.

[30] Morita, M., Oliveira, L.S. and Sabourin, R., “Geração Automática de Conjuntos de Classificadores Através da Seleção de Caracter´ısticas não Supervisionada,” IEEE Latin America Transactions, vol. 3, no. 5, pp.

50–56, 2005.

[31] Oliveira, L. S., Morita, M. and Sabourin, R., “Feature Selection for Ensembles Applied to Handwriting Recognition,” International Journal on Document Analysis and Recognition, vol. 8, no. 4, pp. 262–279, 2006.

[32] Kim, J. H., Kim, K. K. and Suen, C. Y., “An HMM-MLP Hybrid Model for Cursive Script Recognition,” Pattern Analysis and Applications, vol. 3, pp. 314–324, 2000.

(8)

[33] Li, Z.C., Suen, C.Y., Guo, J., “A Regional Decomposition Method for Recognizing Handprinted Characters,” IEEE Transactions on Systems, Man, and Cybernetics, pp. 998–1010, 1995.

[34] Xu, L., Krzyzak, A. and Suen, C.,Y., “Methods of Combining Multiple Classifiers and Their Applications to Handwriting Recognition,” IEEE Transactions on Systems, Man, and Cybernetics, Vol.22, No.3, pp. 418–

435, May/June 1992.

[35] Suen, C., Kim, J., Kim, K., Xu, Q. and Lam, L., “Handwriting Recogni- tion - The Last Frontiers,” Proceedings of the International Conference on Pattern Recognition - ICPR’00, pp. 1–10, September 2000.

[36] Brakensiek, A., Kosmala, A., Willet, D., Wang, W. and Rigoll G.,

“Performance Evaluation of a New Modeling Technique for Handwriting Recognition Using Identical On-Line and Off- Line Data,” Proceedings of the V International Conference on Document Analysis and Recogni- tion - ICDAR’99, Bangalore, India, 1999.

[37] Dehghan, M., Faez, K., Ahmadi, M. and Shridhar, M., “Off-Line Unconstrained Farsi Handwritten Word Recognition Using Fuzzy Vector Quantization and Hidden Markov Word Models,” Proceedings of the International Conference on Pattern Recognition - ICPR’00, pp. 351–

354, September 2000.

[38] Knerr, S. and Augustian, E., “A Neural Network-Hidden Markov Model Hybrid for Cursive Word Recognition,” Proceedings of the International Conference on Pattern Recognition - ICPR’98, Vol. 2, pp. 1518–1520, 1998.

[39] Ko A., Sabourin R., Britto Jr. A. and Oliveira L. S., “Pairwise Fusion Matrix for Combining Classifiers,” Pattern Recognition, vol. 40, no. 8, pp. 2198–2210, 2007.

[40] Oliveira, L. S. Sabourin, R., Bortolozzi, F. and Suen, C. Y., “Feature Selection for Ensembles: A Hierarchical Multi-Objective Genetic Al- gorithm Approach,” in In Proc. of 7 th International Conference on Document Analysis and Recognition, Edinburgh-Scotland, 2003. IEEE Computer Society, 2003, pp. 676–680.

[41] Morita, M., Oliveira, L. S. and Sabourin, R., “Unsupervised Feature Selection for Ensemble of Classifiers,” in In 9th International Workshop on Frontiers in Handwriting Recognition, 2004, pp. 81–86.

[42] Liu, C.-L. and Marukawa, K., “Normalization Ensemble for Handwritten Character Recognition,” International Workshop on Frontiers in Hand- writing Recognition,, vol. 0, pp. 69–74, 2004.

[43] Srihari, S. N., Xu, A. and Kalera, M., “Learning Strategies and Clas- sification Methods for Off-Line Signature Verification,” International Workshop on Frontiers in Handwriting Recognition, vol. 0, pp. 161–

166, 2004.

[44] Haykin, S., Neural Networks - A Comprehensive Foundation. Upper Saddle River, New Jersey 07458: Prentice-Hall, Inc., 1999.

[45] Beale, R. and Jackson, T., Neural Computing: An Introduction. Bristol and Philadelphia: Institute of Physics Publishing, 1990.

[46] Kohonen, T., Self-Organization and Associative Memory (3rd ed). Ber- lin: Springer-Verlag, 1989.

[47] Gader, P., Whalen, M., Ganzberger, M. and Hepp, D. , “Handprinted Word Recongition on a NIST Data Set,” Machine Vision and Applica- tion, Vol.8, pp. 31–40, 1995.

[48] Gader, P., Mohamed, M. and Chiang, J.-H. , “Comparison of Crisp and Fuzzy Character Neural Networks in Handwritten Word Recognition,”

IEEE Transactions on Fuzzy Systems, Vol. 3, No. 3, pp. 357–363, August 1995.

[49] Rabiner, L. R. and Schafer, R. W., Digital Processing of Speech Signals.

Upper Saddle River, New Jersey: Prentice-Hall, 1978.

[50] Mohamed, M. A. and Gader, P, “Handwritten Word Recognition Using Segmentation-Free Hidden Markov Modeling and Segmentation-Based Dynamic Programming Techniques,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 18, No. 5, pp. 548–554, May 1996.

[51] Mohamed, M. A. and Gader, P., “Generalized Hidden Markov Models - Part II: Application to Handwritten Word Recognition,” IEEE Transac- tions on Fuzzy Systems, vol. 8, no. 1, pp. 82–94, 2000.

[52] Gillies, A.M., “Cursive Word Recognition Using Hidden Markov Mo- dels,” Proceedings of the Advanced Technology Conference - United States Postal Service, Vol. 1, 1992.

[53] Chen, M.-Y., Kundu, A., Zhou, J. and Srihari, S. N., “Off-Line Hand- written Word Recognition Using Hidden Markov Models,” Proceedings of the Advanced Technology Conference - United States Postal Service, Vol. 1, 1992.

[54] Chen, M.-Y., Kundu, A. and Zhou, J., “Off-Line Handwritten Word Recognition Using Hidden Markov Model Type Stochastic Network ,”

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.16, No. 5, pp. 481–496, May 1994.

[55] Chen, M.-Y., Kundu, A. and Srihari, N. , “Variable Duration Hidden Markov Model and Morphological Segmentation for Handwritten Word Recognition,” IEEE Transactions on Image Processing, Vol. 4, No. 12, pp. 1675 – 1687, December 1995.

[56] Gilloux, M., Leroux, M. and Bertille, J.-M. , “Strategies for Hanwritten Words Recognition Using Hidden Markov Models,” Proceedings of the International Conference on Document Analysis and Recognition - ICDAR’93, pp. 299–304, 1993.

[57] Bunke, H., Roth, M. and Schukatt-Talamazzini, E.G., “Off-line Cursive Handwriting Recognition using Hidden Markov Models,” Relatório Técnico, IAM-94-008, Institut für Informatik und angewandle Mathe- matic, Universität Bern, 1994.

[58] Wang, W., Brakensiek, A., Kosmala and Rigoll G. , “HMM Based High Accuracy Off-Line Cursive Handwriting Recognition by a Baseline Detection Error Tolerant Feature Extraction Approach,” Proceedings of the IWFHR, Amsterdam, The Netherlands, 2000.

[59] Brakensiek, A., Rottland, A., Kosmala, A., and Rigoll G. , “Off-Line Handwriting Recognition Using Various Hybrid Modeling Techniques and Character N-Grams,” Proceedings of the IWFRH, Amsterdam, The Netherlands, 2000.

[60] Guillevic, D. and Suen, C. Y., “HMM Word Recognition Engine,”

Proceedings of the IV International Conference on Document Analysis and Recognition - ICDAR’97, Ulm , Germany, pp. 544–547, 1997.

[61] Kim, G., and Kim, S. , “Feature Selection Using Genetic Algorithms for Handwritten Character Recognition,” Proceedings of the International Workshop on Frontiers in Handwriting Recognition, Amsterdam, The Netherlands, 2000.

[62] Arica, N. and Yarman-Vural, F. T., “Optical Character Recognition for Cursive Handwriting,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 6, pp. 801–813, 2002.

[63] Koerich, A. and Sabourin, R. and Suen, C. Y., “Fast Two-Level HMM Decoding Algorithm for Large Vocabulary Handwriting Recognition,”

in Proc. Ninth Workshop Frontiers in Handwriting Recognition, 2004, pp. 232–237.

[64] Kessentini, Y., Paquet, T. and Benhamadou, A., “A Multi-stream Appro- ach to Off-Line Handwritten Word Recognition,” in ICDAR ’07: Pro- ceedings of the Ninth International Conference on Document Analysis and Recognition (ICDAR 2007) Vol 1. Washington, DC, USA: IEEE Computer Society, 2007, pp. 317–321.

[65] Koch, G., Paquet, T. and Heutte, L., “Combination of Contextual Information for Handwritten Word Recognition,” in Proceedings of the Ninth International Workshop on Frontiers in Handwriting Recognition.

Washington, DC, USA: IEEE Computer Society, 2004, pp. 468–473.

[66] Shetty, S., Srinivasan, H. and Srihari, S., “Handwritten Word Re- cognition Using Conditional Random Fields,” in Proceedings of the Ninth International Conference on Document Analysis and Recognition (ICDAR 2007) Vol 2. Washington, DC, USA: IEEE Computer Society, 2007, pp. 1098–1102.