Avaliação de Conjuntos de Características no
Reconhecimento de Palavras Manuscritas
José Josemar de Oliveira Júnior
Dissertação cie Mestrado submetida à Coordenação dos Cursos de Pós-Graduação em Engenharia Elétrica da Universidade Fede-ral de Campina Grande como parte dos requisitos necessários para obtenção do grau de Mestre em Ciências no Domínio da Engenharia Elétrica .
Área de Concentração: Processamento da Informação
João Marques de Carvalho, Ph.D. Orientador
Robert Sabourin, Ph.D. Cd-orientador
Cinthia Obladen de Almendra Freitas, D. Sc. Co-orientadofa
Campina Grande, Paraíba, Brasil
DIGITALIZAÇÃO:
SISTEMOTECA - UFCG
048a Oliveira Júnior, José Josemar de
2002 Avaliação de conjuntos de características no reconhecimento de palavras manuscritas/José Josemar de Oliveira Júnior. - Campina Grande: UFCG, 2002.
68 p.: il.
Dissertação (Mestrado em Engenharia Elétrica) - UFCG/CCT/DEE Inclui Bibliografia
1.Reconhecimento de palavras manuscritas 2. Extração de características 3. Redes neurais 4. Modelos escondidos de Markov I.Título
AVALIAÇÃO DE CONJUNTOS DE CARACTERÍSTICAS NO R E C O N H E C I M E N T O DE P A L A V R A S M A N U S C R I T A S
JOSE JOSEMAR DE O L I V E I R A J U N I O R
Dissertação Aprovada em 26.04.2002
PROF. JOÃO M A R Q U E S DE C A R V A L H O , Ph.D., UFPB Orientador
PROFa. C I N T H I A O B L A D E N DE A L M E N D R A FREITAS, Dr., PUC-PR Co-Orientadora
PROF. ROBERT SABOURIN, Dr., Visitante da PUC-PR Co-Orientador (Ausente, enviando parecer por escrito)
P R o 1-. R < > \ E I M A R C O S DE M O R A E S , Dr., UFPB Componente da Banca
il
PROF. FRANCISCO M A R C O S DE ASSIS, Dr., UFPB Componente da Banca
CAMPINA GRANDE - PB Abril - 2 0 0 2
D e d i c a t ó r i a
Dedico este trabalho a m e m ó r i a da m i n h a m ã e , M a r i a da Salete e a minha avó. Gentila, por sempre ter lutado pelos meus sonhos como se fossem seus.
A g r a d e c i m e n t o s
A g r a d e ç o , primeiramente a Deus, pelo dom da vida e por ter conseguido concluir este trabalho.
Ao Prof. J o ã o Marques, que me despertou o interesse pela pesquisa, sempre me incentivando c acreditando no meu potencial.
Ao Prof. Robert Sabourin, pelas s u g e s t õ e s e pelo interesse; neste trabalho.
À Profa. C i n t h i a Freitas, por sua receptividade durante m i n h a estada na P U C - P R . pelo incentivo nos momentos difíceis e pelas valiosas discussões.
À Luciana Veloso, pela amizade de tantos anos, pelas horas de estudo compartil-hadas e pela análise e cessão de seus programas.
À V â n i a e Suzete, pelas conversas do cotidiano, que tornavam os dias mais alegres. Aos v o l u n t á r i o s , que cederam suas escritas, bem como a todas as pessoas que me auxiliaram na coleta das amostras: Á l v a r o , A n a Luísa, A n a K a r i n a , a Profa. Maria J o s é Ribeiro, entre outros.
Aos amigos do mestrado, Madhavan, Towar, Felipe, Sérgio, Hallyson, Netto, Flávio e C h r i s t i a n , pela amizade e pelo companheirismo.
À todos do L A P S / U F C G , em especial à Rinaldo pela p a c i ê n c i a e a todos que fazem o L A R D O C / P U C - P R , principalmente ao Prof. Jacques Facon.
À C O P E L E na pessoa do Prof. A n t ô n i o Marcos e seus funcionários. Ângela,, Marcos, Pedro e Eleonora, pela disponibilidade constante.
Ao C N P q e à C A P E S , que deram o suporte financeiro para o desenvolvimento do trabalho.
Enfim, a todos que de algum modo c o n t r i b u í r a m para a realização deste trabalho.
" É melhor tentar e falhar, que preocupar-se e ver a vida passar:
E melhor tentar, ainda que em vão, que sentar-se fazendo nada a t é o final: Eu prefiro na chuva caminhar, que em dias tristes em casa me esconder: Prefiro ser feliz, embora louco que cm conformidade viver"
Resumo
Este trabalho apresenta, urna avaliação comparativa de conjuntos de c a r a c t e r í s t i c a s utilizados no reconhecimento de palavras manuscritas. O principal objetivo 6 determi-nar um conjunto ó t i m o de c a r a c t e r í s t i c a s que representem as palavras referentes aos nomes dos meses do ano e extender as conclusões obtidas para outras aplicações. Neste i n t u i t o foi desenvolvido u m sistema classificador neural de referência,, que 6 usado na d e t e r m i n a ç ã o do desempenho das c a r a c t e r í s t i c a s avaliadas. Três tipos de c a r a c t e r í s t i -cas s ã o analisadas: c a r a c t e r í s t i c a s perceptivas, direcionais e t o p o l ó g i c a s . A avaliação mostra que considerando os conjuntos de forma, isolada, o conjunto de c a r a c t e r í s t i c a s perceptivas produz os melhores resultados para o d i c i o n á r i o em q u e s t ã o . Estes resul-tados s ã o melhorados quando os conjuntos de c a r a c t e r í s t i c a s e o sistema de referência são combinados com outro classificador, numa abordagem h í b r i d a , obtendo uma laxa de reconhecimento m é d i a de 90.4%.
A b s t r a c t
This work presents a comparative evaluation of different feature sets used for hand-w r i t t e n hand-word recognition. The main goal is to determine an o p t i m u m feature set to represent the h a n d w r i t t e n names for the months of the year in Brazilian Portuguese language and to extend the conclusions obtained to other applications. For that pur-pose a baseline neural classifier was developed and used to determine the performance of the analysed feature sets. Three kinds of features are evaluated: perceptual, d i -rectional and topological. The evaluation shows that taken isolatedly. the perceptual feature set produces the best results for the lexicon used. These results can be i m -proved combining the feature sets and the baseline' system w i t h other classifier, in a h y b r i d approach, t h a t obtained an average recognition rate of 90.4%.
Conteúdo
1 I n t r o d u ç ã o 1 1.1 M o t i v a ç ã o 2 1.1.1 Definição do d i c i o n á r i o 3 1.2 Objetivos da d i s s e r t a ç ã o 3 1.3 O r g a n i z a ç ã o do texto 4 2 T é c n i c a s d e E x t r a ç ã o d e C a r a c t e r í s t i c a s . 5 2.1 Abordagem holística 0 2.2 Abordagem a n a l í t i c a 8 2.2.1 P r i m i t i v a s globais 8 2.2.2 P r i m i t i v a s baseadas na d i s t r i b u i ç ã o dos pixels 92.2.3 P r i m i t i v a s g e o m é t r i c a s e t o p o l ó g i c a s 10 2.3 R e v i s ã o bibliográfica 10 2.4 C o n c l u s ã o 22 3 D e s c r i ç ã o d o S i s t e m a d e R e f e r ê n c i a 23 3.1 A q u i s i ç ã o 24 3.1.1 C a r a c t e r i z a ç ã o da base de dados 25 3.2 P r é - p r o c e s s a m e n t o 27 3.2.1 N o r m a l i z a ç ã o da i n c l i n a ç ã o m é d i a dos caracteres da palavra . 28
3.2.2 N o r m a l i z a ç ã o do declive da palavra 29
3.2.3 S u a v i z a ç ã o 30 3.2.4 A n á l i s e dos resultados 32
C O N T E Ú D O i x 3.3 E x t r a ç ã o de c a r a c t e r í s t i c a s ,33 3.3.1 C a r a c t e r í s t i c a s perceptivas (P) 3 1 3.3.2 C a r a c t e r í s t i c a s direcionais ( D ) 37 3.3.3 C a r a c t e r í s t i c a s t o p o l ó g i c a s ( T ) 38 3.4 Classificador neural 39 3.4.1 Redes neurais 39 3.4.2 C a r a c t e r i z a ç ã o do classificador utilizado 42 3.5 C o n c l u s ã o 44 4 T e s t e s E f e t u a d o s e R e s u l t a d o s O b t i d o s 45 4.1 Testes efetuados com o sistema de referência 4G
4.1.1 A n á l i s e dos conjuntos isolados . . . " 4G 4.1.2 A n á l i s e da c o m b i n a ç ã o de conjuntos 50 4.2 Testes efetuados com o sistema de Freitas [1] e abordagens h í b r i d a s . . 54
4.3 Resultados descritos na l i t e r a t u r a 58
4.4 C o n c l u s ã o 59
5 C o n c l u s ã o 60 5.1 C o n t r i b u i ç õ e s 61
Lista de Figuras
2.1 Definição cie cavidades e exemplo da g e r a ç ã o de imagens de c a r a c t e r í s
-ticas ( e x t r a í d a de Gader et alli [2]) 12 2.2 P a d r õ e s utilizados no conjunto de c a r a c t e r í s t i c a s direcionais ( e x t r a í d a
de Gader et alli [2]) 12 2.3 Imagem do caractere e a imagem de c a r a c t e r í s t i c a obtida para a d i r e ç ã o
horizontal ( e x t r a í d a de Gader et alli [3]) 13 2.4 Exemplos dos histogramas de t r a n s i ç ã o do contorno nas direções
hori-zontal e vertical ( e x t r a í d a de Yacoubi [4]) 15 2.5 Exemplos da d e t e r m i n a ç ã o de letras chaves e de c a r a c t e r í s t i c a s de vale
( e x t r a í d a de C ô t é [6]) 18
3.1 R e p r e s e n t a ç ã o em diagrama de blocos do sistema de referência
desen-volvido 24 3.2 Amostras da base de dados de meses do ano do L A P S U F C G 25
3.3 T i p o s de escrita segundo a classificação de Tappert (extraída, de Tappcrt
et al. [7]) 26 3.4 R e p r e s e n t a ç ã o gráfica do cálculo da nova coordenada ( / ' , / ) da imagem
rotacionada 30 3.5 M á s c a r a s utilizadas rio processo de s u a v i z a ç ã o - primeiro procedimento. 31
3.6 M á s c a r a s utilizadas no processo de s u a v i z a ç ã o - segundo procedimento. 31 3.7 Resultado do p r é - p r o c e s s a m e n t o aplicado à palavra a g o s t o , (a) imagem
original e (b) imagem p r é - p r o c e s s a d a 32
L I S T A D E F I G U R A S x i
3.8 Resultado do p r é p r o r . e s s a m e n t o aplicado à palavra d e z e m b r o , (a) i m
-agem original e (b) im-agem pré-processacla 32 3.9 Resultado do p r é - p r o c e s s a m e n t o aplicado à palavra m a i o . (a) imagem
original e (b) imagem p r é - p r o c e s s a d a 33 3.10 Exemplo do processo de s e g m e n t a ç ã o i m p l í c i t a utilizado 34
3.11 Exemplo do processo de d e t e c ç ã o das zonas da palavra 35
3.12 Exemplo da d e t e c ç ã o das direções de abertura 37 3.13 Exemplo da d i v i s ã o em zonas realizada no conjunto de c a r a c t e r í s t i c a s
t o p o l ó g i c a s 1 39
3.14 Modelo do n e u r ô n i o utilizado em redes neurais 40 3.15 A r q u i t e t u r a de uma rede neural com t r ê s camadas 42
4.1 Exemplos de erros de classificação, (a) palavra j a n e i r o classificada como fevereiro, (b) palavra j u l h o classificada como junho, (c) palavra m a i o classificada como agosto, (d) palavra f e v e r e i r o classificada, como julho
Lista de Tabelas
2.1 Quadro resumo das principais c a r a c t e r í s t i c a s utilizadas nos sistemas re-visados. R F - R o t u l a ç ã o do Fundo da imagem; D T - Direção dos T r a ç o s ; CP - C a r a c t e r í s t i c a s Perceptivas; CE - C a r a c t e r í s t i c a s Estruturais e DP
- D i s t r i b u i ç ã o dos Pixels 21
3.1 D i s t r i b u i ç ã o dos tipos de escrita nos subconjuntos da base de dados
utilizada 27 3.2 C o n v e n ç ã o usada para r o t u l a ç ã o de pixels no conjunto de c a r a c t e r í s t i c a s
direcionais 38
4.1 Taxa de reconhecimento m é d i a o b t i d a por classe para cada conjunto de
c a r a c t e r í s t i c a s 47 4.2 M a t r i z de confusão paia o conjunto RN-P 49
4.3 M a t r i z de confusão para o conjunto R N - D 49 4.4 M a t r i z de confusão para o conjunto R N - T 50 4.5 Taxa de reconhecimento m é d i a o b t i d a usando diferentes e s t r a t é g i a s de
c o m b i n a ç ã o dos conjuntos 52 4.6 M a t r i z de confusão para a melhor c o m b i n a ç ã o dos conjuntos RN-P e
R N - D 52 4.7 M a t r i z de confusão para a melhor c o m b i n a ç ã o dos conjuntos RN-P e
R N - T rj3
4.8 M a t r i z de confusão para a melhor c o m b i n a ç ã o dos conjuntos R.N-1) c
R N - T 53
L I S T A D E T A B E L A S x i i i
4.9 M a t r i z de confusão o b t i d a pelo sistema de Freitas [ 1 | 55 4.10 Taxa de reconhecimento m é d i a obtida usando diferentes c o m b i n a ç õ e s de
M E M e RNs 56 4.11 M a t r i z de confusão para a c o m b i n a ç ã o MEM, RN-P e RN-D 57
Capítulo 1
Introdução
No contexto atual, com os avanços na c o m u n i c a ç ã o e l e t r ô n i c a ocorre a necessidade de disponibilizar a i n f o r m a ç ã o de uma forma cada vez mais r á p i d a . Neste enfoque, documentos em papel parecem relíquia de u m p e r í o d o distante, principalmente quando se fala em documentos manuscritos. P o r é m este p r é - j u l g a n i e n t o é falho, uma vez que o papel como meio de i n f o r m a ç ã o continua tendo diversas vantagens sobre outros meios:
• Papel é u m meio padronizado, que n ã o t ê m problemas de interface entre o escritor e o leitor;
• Papel é altamente p o r t á t i l e seu transporte é bem estabelecido, embora seja mais lento que a t r a n s f e r ê n c i a e l e t r ô n i c a de documentos;
• A escrita de u m recado, de u m e n d e r e ç o ou o preenchimento de um formulário à m ã o n ã o necessita de p r é - c o n d i ç õ e s especiais, a menos da habilidade do escritor, da necessidade do papel e de algum instrumento de escrita.
Por outro lado, na era da i n f o r m a ç ã o tecnológica, as vantagens dos computadores e a sua superioridade no armazenamento, t r a n s f e r ê n c i a e processamento de textos, dados e i n f o r m a ç õ e s n ã o pode ser d e s p e r d i ç a d a [8|. Para resolver isso surgem os sistemas de leitura a u t o m á t i c a cuja tarefa principal é servir como ponte entre <> mundo do papel e da escrita convencional e o mundo dos computadores c do processamento eletrônico.
1.1 M o t i v a ç ã o 2
Hoje em dia, as principais aplicações dos sistemas de leitura manuscrita podem ser encontradas em grandes o r g a n i z a ç õ e s , onde um grande n ú m e r o de documentos similares t e m de ser processados de maneira eficiente. Exemplos bem conhecidos dessas aplicações s ã o a leitura de e n d e r e ç o s postais, de cheques b a n c á r i o s e de formulários. Eni muitas dessas aplicações os pesquisadores iniciaram explorando a i n f o r m a ç ã o n u m é r i c a , para em seguida adicionar i n f o r m a ç õ e s em r e l a ç ã o aos caracteres do alfabeto, com o i n t u i t o inicial de melhorar os resultados do reconhecimento n u m é r i c o , e depois para extrair i n f o r m a ç õ e s a l f a b é t i c a s adicionais.
Como u m subconjunto destes sistemas, o reconhecimento de palavras manuscritas t ê m por objetivo investigar o problema da leitura a u t o m á t i c a de palavras cursivas. Para isso, o texto manuscrito precisa ser localizado, e x t r a í d o e separado em palavras isoladas. U m a vez segmentado o texto em palavras, se estabelece o problema, de qual seria a melhor forma de representar estas palavras considerando a grande variação existente entre elas quando provenientes de escritores diferentes.
1.1 M o t i v a ç ã o
U m a forma correta de representar os dados é o ponto de p a r t i d a de qualquer sistema de reconhecimento de p a d r õ e s . Apesar dos esforços j á realizados, no problema do reconhecimento de documentos, mais especificamente no problema do reconhecimento de palavras manuscritas, n ã o existe u m conjunto de c a r a c t e r í s t i c a s ou um modelo m a t e m á t i c o consolidado.
Na l i t e r a t u r a , diversos sistemas apresentados descrevem diferentes tipos de carac-t e r í s carac-t i c a s para represencarac-tar os dados [9, 10]. Concarac-tudo, c o m p a r a ç õ e s de conjuncarac-tos usando u m sistema de referência, como ferramenta de avaliação, é necessário para responder a uma q u e s t ã o fundamental: Q u a l o m e l h o r t i p o de c a r a c t e r í s t i c a p a r a r e p r e s e n -t a r p a l a v r a s m a n u s c r i -t a s n u m a d a d a a p l i c a ç ã o ?
Alguns autores | 1 , 11, 9] tem tentado incorporar o conhecimento existente sobre o processo de leitura humano em seus sistemas, justificando que a e x p l o r a ç ã o de uma possível dualidade homem-com|mtador tem sido aplicada em outras á r e a s com sucesso,
1.2 O b j e t i v o s d a d i s s e r t a ç ã o 3
por exemplo, no reconhecimento da fala. Mas o u t r a q u e s t ã o surge: A i n t r o d u ç ã o d o c o n h e c i m e n t o r e l a t i v o à l e i t u r a h u m a n a n o m o d e l a m e n t o de s i s t e m a s de r e c o n h e c i m e n t o de p a l a v r a s m a n u s c r i t a s é r e a l m e n t e e f i c i e n t e e n e c e s s á r i o ? A s o l u ç ã o dessas q u e s t õ e s 6 o ponto de p a r t i d a deste trabalho, p o r é m é necessário definir a a p l i c a ç ã o que d a r á suporte à essa investigação.
1.1.1 Definição do dicionário
Como as palavras manuscritas s ã o p a d r õ e s bastante complexos devido á grande va-riedade de estilos de escrita, a i n v e s t i g a ç ã o desse problema só é t r a t á v e l quando si1 provê u m d i c i o n á r i o de palavras v á l i d a s . O d i c i o n á r i o é determinado pelo d o m í n i o da a p l i c a ç ã o .
A a p l i c a ç ã o escolhida para este trabalho foi o reconhecimento das palavras que representam os nomes dos meses do ano. Este é u m problema importante pois constitui um sub-problema do reconhecimento de datas cm cheques b a n c á r i o s . Embora esta a p l i c a ç ã o possua u m d i c i o n á r i o l i m i t a d o de 12 classes, h á palavras muito semelhantes e/ou com mesma t e r m i n a ç ã o , o que pode afetar o desempenho global do sistema de reconhecimento: J a n e i r o , Fevereiro, M a r ç o , A b r i l , M a i o , Junho. Julho. Agosto. S e t e m b r o , O u t u ò r o , Novembro e D e z e m ò r o .
i
1.2 O b j e t i v o s da d i s s e r t a ç ã o
O objetivo principal deste trabalho é determinar um conjunto de c a r a c t e r í s t i c a s que representem adequadamente as palavras do d i c i o n á r i o em q u e s t ã o e apresentar o sis-tema de referên-desenvolvido no decorrer das atividades de pesquisa, que é usado para. avaliar diferentes conjuntos de c a r a c t e r í s t i c a s . As técnicas empregadas em cada etapa do sistema, que vão desde a aquisição a t é o reconhecimento propriamente dito, pas-sando pela definição dos diferentes conjuntos de c a r a c t e r í s t i c a s , t a m b é m serão descri-tas. Por fim, os resultados obtidos s ã o apresentados e avaliados procurando deste modo t i r a r conclusões que possam ajudar a responder às q u e s t õ e s anteriormente formuladas
1.3 O r g a n i z a ç ã o d o t e x t o •I
e sugerir u m conjunto ó t i m o de c a r a c t e r í s t i c a s adaptadas à a p l i c a ç ã o em q u e s t ã o e que possam ser estendidas para outras aplicações no d o m í n i o do reconhecimento de palavras manuscritas.
1.3 O r g a n i z a ç ã o do t e x t o
A o r g a n i z a ç ã o do texto desta d i s s e r t a ç ã o 6 feita como se segue:
O c a p í t u l o 2 apresenta um estudo sobre as técnicas de e x t r a ç ã o de c a r a c t e r í s t i c a s sugeridas na l i t e r a t u r a , bem como uma revisão bibliográfica dos esquemas de represen-t a ç ã o de c a r a c represen-t e r í s represen-t i c a s urepresen-tilizados em diversos sisrepresen-temas.
O c a p í t u l o 3 c o n t é m uma descrição de cada etapa que c o m p õ e o sistema de re-ferência desenvolvido neste trabalho. S ã o apresentados a base de dados utilizada, os algoritmos usados no p r é p r o c e s s a m e n t o e a definição dos conjuntos de c a r a c t e r í s t i -cas a serem avaliados. T a m b é m é apresentada uma i n t r o d u ç ã o às redes neurais e a c a r a c t e r i z a ç ã o do classificador utilizado.
O c a p í t u l o 4 apresenta os resultados experimentais obtidos considerando os conjun-tos de c a r a c t e r í s t i c a s de maneira isolada e em conjunto. T a m b é m s ã o apresentados os resultados obtidos considerando uma abordagem h í b r i d a de classificação. O c a p í t u l o é c o n c l u í d o com uma c o m p a r a ç ã o do sistema implementado com outros desenvolvidos para o mesmo d i c i o n á r i o .
O c a p í t u l o 5 c o n t é m a c o n c l u s ã o do trabalho e suas principais c o n t r i b u i ç õ e s . Pro-postas de trabalhos futuros t a m b é m s ã o sugeridas no final do c a p í t u l o .
Capítulo 2
Técnicas de Extração de
Características
O desempenho de qualquer algoritmo de classificação e/ou reconhecimento depende, em grande parte, da r e p r e s e n t a ç ã o escolhida, ou seja, das c a r a c t e r í s t i c a s ou primitivas que s ã o e x t r a í d a s da entrada |12, 13]. O objetivo da etapa de e x t r a ç ã o de c a r a c t e r í s -ticas é reduzir a variabilidade intraclasses e aumentar o poder discriminante entre as classes consideradas. Estas c a r a c t e r í s t i c a s devem, tanto quanto possível, resumir as i n f o r m a ç õ e s que s ã o pertinentes e úteis para a classificação e ao mesmo tempo eliminar as i n f o r m a ç õ e s irrelevantes e desnecessárias.
Deste modo, na definição do conjunto de c a r a c t e r í s t i c a s é i m p o r t a n t e considerar alguns critérios básicos [14]:
• As c a r a c t e r í s t i c a s devem sen- preferencialmente insensíveis à r o t a ç ã o , t r a n s l a ç ã o e v a r i a ç õ e s de tamanho;
• As c a r a c t e r í s t i c a s devem ser de baixo custo computacional:
• As c a r a c t e r í s t i c a s devem ser independentes umas das outras, garantindo a u t i -lização eficiente da i n f o r m a ç ã o contida no vetor de c a r a c t e r í s t i c a s .
E m r e l a ç ã o ao reconhecimento de palavras manuscritas, as c a r a c t e r í s t i c a s são definidas geralmente em função da e s t r a t é g i a de reconhecimento adotada, que pode
2 . 1 A b o r d a g e m h o l í s t i c a 6
ser a n a l í t i c a ou holística [9]. Quando a abordagem é holística. a palavra é reconhecida como u m a unidade única, indivisível, sendo o conjunto de c a r a c t e r í s t i c a s e x t r a í d o da palavra como u m todo. Por outro lado, quando a abordagem é analítica,, a identidade da palavra é determinada a t r a v é s da identificação dos caracteres independentemente, de modo que as c a r a c t e r í s t i c a s s ã o obtidas a p a r t i r dos segmentos que c o m p õ e m a palavra em q u e s t ã o .
As e s t r a t é g i a s holísticas geralmente justificam as c a r a c t e r í s t i c a s utilizadas por meio de estudos psicológicos sobre o processo de leitura, humano. Por sua vez, as e s t r a t é g i a s a n a l í t i c a s u t i l i z a m c a r a c t e r í s t i c a s adaptadas dos sistemas de reconhecimento de carac-teres n u m é r i c o s isolados. A seguir, é apresentado um resumo dessas abordagens e das principais c a r a c t e r í s t i c a s que elas u t i l i z a m .
2.1 A b o r d a g e m h o l í s t i c a
O processo de leitura humano tem sido objeto de diversos estudos que buscam o seu modelamento a fim de i n c o r p o r á l o nos sistemas de reconhecimento de palavras. A l -guns trabalhos [15, 11] apresentam conclusões m u i t o interessantes sobre este processo, descritas a seguir:
• E m u m primeiro nível, as pessoas u t i l i z a m os ascendentes (d.k.l.h.t.b) e descen-dentes (q,y,j,g,p), sendo a letra / uni caso especial, pois possui ambas as carac-t e r í s carac-t i c a s ;
• As consoantes possuem uma maior i m p o r t â n c i a no processo de leitura, do que as vogais, sendo possível ler ou reconhecer unia palavra sem a presença, dessas letras
(handwriting = hndwrtng);
• O processo de leitura das vogais (a,e,i,o) n ã o apresenta confusões entre as mes-mas, p o r é m a letra u requer mais i n f o r m a ç õ e s para ser diferenciada das letras w ou m ;
2 . 1 A b o r d a g e m h o l í s t i c a 7
• A p r i m e i r a e a ú l t i m a letras de uma palavra s ã o m u i t o importantes no processo de reconhecimento;
• Palavras curtas para serem lidas requerem mais i n f o r m a ç õ e s no linal das mesmas;
• O final das palavras, a barra de corte da letra í e o ponto da letra i deterioram o processo de reconhecimento quando s ã o mal interpretados;
• U m a letra é confundida geralmente com o u t r a que tenha mais primitivas do que com aquelas que possuem menos. Por exemplo, / é mais confundido com / do que o inverso;
• As palavras s ã o reconhecidas por seu comprimento, contorno exterior e letras no inicio e no fim da palavra.
Estudos psicológicos t a m b é m sugerem que a leitura é feita usando codificações das formas das palavras a p a r t i r de u m conhecimento prévio do leitor |9|. De modo que palavras escritas em m i n ú s c u l o , por serem mais irregulares, s ã o mais fáceis de 1er do que palavras em caixa alta. T a m b é m é previsto que o desempenho do reconhecimento é degradado quando a forma da palavra e s t á corrompida.
Esses resultados indicam que as c a r a c t e r í s t i c a s que melhor se adequam a uma re-p r e s e n t a ç ã o h o l í s t i c a das re-palavras s ã o as c a r a c t e r í s t i c a s estruturais de alto nível, como j u n ç õ e s e pontos finais, bem como as c a r a c t e r í s t i c a s perceptivas, baseadas na p e r c e p ç ã o do olho humano, como pontos isolados, laços, ascendentes, descendentes, junções T e estimativas do comprimento da palavra.
A p a r t i r disso, Madhvanath |9] classifica as c a r a c t e r í s t i c a s em t r ê s níveis, de acordo com sua compatibilidade em relação à r e p r e s e n t a ç ã o holística:
• Nível baixo - c a r a c t e r í s t i c a s estruturais altamente localizadas como a d i s t r i b u i ç ã o da d i r e ç ã o dos t r a ç o s ;
• Nível i n t e r m e d i á r i o - c a r a c t e r í s t i c a s que p e r m i t e m u m maior nível de a b s t r a ç ã o da imagem, incluindo j u n ç õ e s , pontos finais, concavidades e t r a ç o s horizontais e diagonais;
2.2 A b o r d a g e m a n a l í t i c a 8
• Nível alto - c a r a c t e r í s t i c a s perceptivas tais como ascendentes, descendentes, laços e comprimento da palavra.
Apesar de ser uma f o r m u l a ç ã o bastante interessante, a u t i l i z a ç ã o da abordagem h o l í s t i c a só se justifica em aplicações com d i c i o n á r i o s pequenos devido ao menor n ú m e r o de confusão entre as classes, pela dificuldade de o b t e n ç ã o de modelos individuais para cada palavra, a l é m da necessidade de uma base de dados de treinamento de grande d i m e n s ã o .
2.2 A b o r d a g e m a n a l í t i c a
Na abordagem a n a l í t i c a , as palavras s ã o identificadas a p a r t i r de uniões de segmentos, que representam caracteres isolados ou partes de caracteres. Nesta abordagem, são utilizadas c a r a c t e r í s t i c a s adaptadas do reconhecimento de caracteres n u m é r i c o s . A classificação clássica feita por diversos autores [ 1 , 10], dividem estas c a r a c t e r í s t i c a s em t r ê s tipos distintos: primitivas globais, primitivas baseadas na d i s t r i b u i ç ã o dos pixels e primitivas g e o m é t r i c a s e t o p o l ó g i c a s . Essas categorias s ã o analisadas a seguir.
2.2.1 Primitivas globais
Essa categoria inclui c a r a c t e r í s t i c a s e x t r a í d a s de todos os pontos pertencentes a um r e t â n g u l o , o qual circunscreve o segmento de palavra em q u e s t ã o . Elas representam a imagem como u m todo, e n ã o refletem propriedades locais, g e o m é t r i c a s ou topológicas de uma região específica.
Geralmente, essas c a r a c t e r í s t i c a s s ã o obtidas por meio de transformadas globais e e x p a n s õ e s em séries, que d e c o m p õ e m a imagem em urna c o m b i n a ç ã o linear de funções de base, buscando extrair c a r a c t e r í s t i c a s invariantes a o p e r a ç õ e s como r o t a ç ã o e t r a n s l a ç ã o . Os m é t o d o s mais explorados tem sido a transformada e série de Pourier. a transformada de Walsh, a transformada de Hadainard, entre outros.
T r a n s f o r m a ç õ e s e e x p a n s õ e s cm série possuem grande facilidade de i m p l e m e n t a ç ã o e alta sensibilidade às d i s t o r ç õ e s e variações de estilo, o que prejudica o poder
discri-2.2 A b o r d a g e m a n a l í t i c a 9
minante das c a r a c t e r í s t i c a s obtidas.
2.2.2 Primitivas baseadas na distribuição dos pixels
As c a r a c t e r í s t i c a s desse grupo s ã o e x t r a í d a s a partir da d i s t r i b u i ç ã o e s t a t í s t i c a dos pontos que formam a imagem do segmento, produzindo u m conjunto de d i m e n s ã o reduzida. As c a r a c t e r í s t i c a s mais empregadas s ã o citadas a seguir:
• C a r a c t e r í s t i c a s d e z o n e a m e n t o : 0 r e t â n g u l o que c o n t é m o segmento da palavra é d i v i d i d o em várias regiões, sobrepostas e n ã o sobrepostas, denomi-nadas zonas. As c a r a c t e r í s t i c a s usadas para reconhecer o caractere refletem as densidades de pontos nessas regiões.
• M o m e n t o s e s t a t í s t i c o s : Os momentos e s t a t í s t i c o s dos pixels pretos em relação a u m ponto de referência escolhido no segmento, t a l como o centro de gravidade ou u m a o u t r a coordenada do sistema, s ã o usados como c a r a c t e r í s t i c a s .
• C a r a c t e r í s t i c a s loci: Para cada pixel branco do fundo da imagem, um conjunto de vetores verticais e horizontais s ã o gerados e o conjunto de c a r a c t e r í s t i c a s é dado pelo n ú m e r o de interseções que esses vetores fazem com os contornos que formam o segmento.
• D i s t â n c i a s e c r u z a m e n t o s : A c a r a c t e r í s t i c a de cruzamento é obtida do n ú m e r o de vezes que o caractere é cortado por segmentos de linha t r a ç a d o s cm direções específicas. As d i s t â n c i a s entre os pontos que formam o caractere e esses pon-tos específicos na imagem (por exemplo, os ponpon-tos que determinam o limite do r e t â n g u l o que c o n t é m o caractere), formam u m outro conjunto de c a r a c t e r í s t i c a s .
U m a considerável t o l e r â n c i a à s d i s t o r ç õ e s c ás pequenas v a r i a ç õ e s de estilos é ob-servada nas t r ê s ú l t i m a s c a r a c t e r í s t i c a s descritas. Para estes grupos existe uma certa dificuldade de i m p l e m e n t a ç ã o , mas por outro lado, essas técnicas provem alta, veloci-dade de processamento.
2.3 R e v i s ã o b i b l i o g r á f i c a 10
2.2.3 Primitivas geométricas e topológicas
Essa categoria é c o n s t i t u í d a por c a r a c t e r í s t i c a s que descrevem aspectos importantes da geometria e da topologia do desenho do caractere, podendo representar assim pro-priedades globais ou locais do caractere, tais como:
• S e g m e n t o s de r e t a e de l i n h a s c u r v a s : Neste caso, s ã o e x t r a í d o s t r a ç o s verti-cais, horizontais e diagonais, bem como convexidades e concavidades apresentados pela geometria do caractere.
• P o n t o s finais, i n t e r s e ç õ e s de l i n h a s e c a v i d a d e s : Estas c a r a c t e r í s t i c a s s ã o representativas da topologia do caractere, e incluem a r e p r e s e n t a ç ã o de pontos finais, interseções de t r a ç o s e a d e t e r m i n a ç ã o do n ú m e r o de buracos contidos no segmento em a n á l i s e .
Estas c a r a c t e r í s t i c a s apresentam uma alto grau de complexidade, o eme as tornam difíceis de serem e x t r a í d a s . Entretanto uma vez implementadas, permitem ao sistema uma grande velocidade de processamento. Elas possuem alta t o l e r â n c i a em relação à possíveis d i s t o r ç õ e s e variações de estilos presentes na imagem.
As classificações mostradas nesta seção ajudam a compreender as diferentes inter-p r e t a ç õ e s das imagens que inter-podem ser feitas inter-pelo extrator de c a r a c t e r í s t i c a s deinter-pendendo da abordagem de reconhecimento utilizada.
2.3 R e v i s ã o b i b l i o g r á f i c a
Nas seções anteriores foi feita uma tentativa de classificação das diferentes c a r a c t e r í s -ticas utilizadas no reconhecimento de palavras manuscritas. P o r é m a maior parte dos autores formam conjuntos unindo tipos distintos de c a r a c t e r í s t i c a s , procurando assim uma melhor r e p r e s e n t a ç ã o da palavra. Deste modo, esta seção tem por objetivo descre-ver alguns dos diferentes esquemas de e x t r a ç ã o de c a r a c t e r í s t i c a s encontrados em uma seleção dos principais sistemas de reconhecimento de palavras disponíveis na literatura.
2.3 R e v i s ã o b i b l i o g r á f i c a 1 1
Gader et alli [2] utiliza dois conjuntos de c a r a c t e r í s t i c a s , ü primeiro é formado pelas c a r a c t e r í s t i c a s obtidas pela análise de cavidades e o segundo engloba aquelas, denominadas de c a r a c t e r í s t i c a s de valor de d i r e ç ã o , o qual 6 obtido a partir de p a d r õ e s que p r o v ê m i n f o r m a ç ã o direcional sobre o t r a ç a d o da palavra.
Cavidades s ã o definidas como regiões do fundo da imagem delimitadas pelos traços de u m caractere no m í n i m o em t r ê s lados. Existem seis tipos de cavidades: leste, oeste, norte, sul, central e laços, rotuladas de acordo com a d i r e ç ã o de suas aberturas. U m laço é u m a região fechada, completamente delimitada, pelos t r a ç o s que c o m p õ e m o caractere enquanto u m a cavidade central (falso laço) é uma região aberta que e s t á cercada por t r a ç o s em todos os lados.
Nesse trabalho, as cavidades s ã o determinadas utilizando morfologia m a t e m á t i c a . O resultado das o p e r a ç õ e s morfológicas na imagem p r é - p r o c e s s a d a 6 a criação de seis imagens b i n á r i a s , uma para cada t i p o de cavidade, chamadas de imagens de carac-t e r í s carac-t i c a s , conforme moscarac-tra a Figura 2.1. As imagens de c a r a c carac-t e r í s carac-t i c a s juncarac-tamencarac-te com a imagem de entrada p r é - p r o c e s s a d a s ã o utilizadas para a a t r i b u i ç ã o de valores n u m é r i c o s à s c a r a c t e r í s t i c a s usando divisão em zonas. Cada imagem é dividida, em 15 zonas, cujos cantos esquerdos superiores pertencem ao conjunto {(linha, coluna) \linha — 4 x i,coluna = 4 x j , i = 0 , 1 4,,y = 0 , 1 , 2 } . É i m p o r t a n t e ressaltar que na etapa de p r é - p r o c e s s a m e n t o as imagens s ã o normalizadas em tamanho 24 x 16. Desta forma, para cada imagem de c a r a c t e r í s t i c a s e imagem de entrada, p r é - p r o c e s s a d a o b t é m - s e 15 valores, contando o n ú m e r o de pixels ativos em cada zona. Estes valores são linearmente escalonados entre 0 e 1 e armazenados num vetor de c a r a c t e r í s t i c a s com d i m e n s ã o 105.
Os valores de d i r e ç ã o fornecem i n f o r m a ç õ e s sobre as o r i e n t a ç õ e s dos t r a ç o s nas zonas utilizando o contorno e o esqueleto da imagem. Os valores n u m é r i c o s destas c a r a c t e r í s t i c a s s ã o obtidos a t r a v é s da contagem do n ú m e r o de ocorrência, dos p a d r õ e s ilustrados na F i g u r a 2.2, em cada uma das quinze; zonas, utilizadas no cálculo das c a r a c t e r í s t i c a s de cavidades. O resultado é u m conjunto de c a r a c t e r í s t i c a s de direção composto por 60 valores.
2.3 R e v i s ã o b i b l i o g r á f i c a 12
Center Cavities
2
STROKE HOUIMAGE IMAGE CENTER NORTH SOUTH CAVITY CAVITY CAVITY IMAGE MAGE IMAGE
Á
EAST CAVITY IMAGE WEST CAVITY IMAGEFigura 2.1: Definição de cavidades e exemplo da g e r a ç ã o de imagens de c a r a c t e r í s t i c a s ( e x t r a í d a de Gader et alli [2]). 0 0 0 0 1 I 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0
Figura 2.2: P a d r õ e s utilizados no conjunto de c a r a c t e r í s t i c a s direcionais (extraída, de Gader et alli [2]).
2.3 R e v i s ã o b i b l i o g r á f i c a 13
E m outro trabalho [3], Gader "A ailí utilizam um vetor de c a r a c t e r í s t i c a s com 120 elementos que representam c a r a c t e r í s t i c a s de barra codificando as informações dire-cionais. O i t o imagens de c a r a c t e r í s t i c a s s ã o geradas, correspondendo às direções: leste, nordeste, norte e noroeste para regiões do fundo da imagem (background) e para o con-torno dos caracteres (foreground). Na imagem de c a r a c t e r í s t i c a s , para cada ponto da imagem em análise é associado u m valor inteiro que representa o comprimento do traço do caractere eme passa pelo ponto em uma determinada d i r e ç ã o , conforme pode ser ob-servado na F i g u r a 2.3. O vetor cie c a r a c t e r í s t i c a s é calculado a p a r t i r das imagens de c a r a c t e r í s t i c a s usando a s o b r e p o s i ç ã o de zonas. As zonas utilizadas t ê m uni tamanho aproximado de h/3 x w/2, com h e w representando a largura e a a l t u r a da imagem, respectivamente. Os cantos esquerdos superiores e s t ã o localizados nas posições aprox-imadas { ( r , c)\r = 0, h/6, 2/i/G, 3/t/6, 4 / i / 6 e c = 0, w/4, 2w/4}. Os valores em cada zona da imagem de c a r a c t e r í s t i c a s s ã o somados e normalizados para um intervalo entre 0 e 1. Desta forma, o vetor de c a r a c t e r í s t i c a s possui uma d i m e n s ã o de 15 x 8 = 120.
. . í í i i í i i í i i i i i . 1 1 í i i í i i í i i i i i . l i í . . . . . . í i i i . . . í i i i i . . í i i i i i . i i i i i i i i i i i i i i i í i i i i i i i 1 1 1 1 . . 1 1 í i i . . .T I í i i i i i i i í i i i i i i i í i i i i i i i í i i i i i i i i i i i i i i i í í í í í í . . í . . í . . í . . í . . í . . 1 1 . 1 1 . i i i i i i í i i i i i 1 1 . í i i í i i í i i í i i í i i í i i i i i í i i i S ü i S . , . « í t 6 6 t . . . 7 7 7 7 7 7 7 . . . t l l l t t l l . . . . . . . 9 9 9 9 9 9 9 9 9 . . . . . .íeieieieismeieieie . . . . . . I S S t S . . 4 4 4 4 . , . . . 4 4 4 4 . . . 4 4 4 4 . . . .1414141414141414141414141414 I(i$ieiei6i6i6i6ieieiei6i6i6iei6 16161616161616161616161616161616 16161616161616161616161616161616 1414141414141414141414141414 . . . 4 4 4 4 4 4 4 4 . S S 5 5 S 4 4 4 4 . 4 4 4 4 S 5 5 5 5 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 .2 1 5 5 5 5 5 4 4 4 4 4 4 4 4
Figura 2.3: Imagem do caractere e a imagem de c a r a c t e r í s t i c a o b t i d a para a direção horizontal ( e x t r a í d a de Gader et. alli [3]).
No sistema desenvolvido por Gillies [16], o primeiro passo na d e t e c ç ã o das carac-t e r í s carac-t i c a s é a l o c a l i z a ç ã o da região cencarac-tral da palavra. Escarac-ta região corresponde a uma faixa horizontal, onde s ã o encontradas as letras m i n ú s c u l a s , tais como e, c e a. As letras ascendentes, descendentes e m a i ú s c u l a s , geralmente, possuem partes dos seus t r a ç o s em
2.3 R e v i s ã o b i b l i o g r á f i c a 14
regiões acima e abaixo da região central. U m a série de o p e r a ç õ e s morfológicas é u t i -lizada para r o t u l a r cada pixel na imagem de acordo com seu valor de p e r t i n ê n c i a nos t r a ç o s , buracos e concavidades, localizados acima, abaixo e dentro da região central.
Yacoubi et alli [4] u t i l i z a dois conjuntos de c a r a c t e r í s t i c a s . O primeiro conjunto é formado por c a r a c t e r í s t i c a s globais, como laços, t r a ç o s ascendentes e descendentes. Os t r a ç o s ascendentes e descendentes s ã o representados por seus tamanhos relativos à altura da zona superior e inferior da palavra, respectivamente. Os laços são represen-tados de v á r i a s maneiras, de acordo com sua localização em cada uma. das três zonas (superior, central e inferior), e seus tamanhos relativos ao tamanho de cada zona. A localização dos laços centrais em relação aos t r a ç o s ascendentes e descendentes den-tro do segmento é considerada para p e r m i t i r uma melhor d i s c r i m i n a ç ã o entre algumas letras, tais como b e d ou entre p e q.
O segundo conjunto de c a r a c t e r í s t i c a s é obtido por uma a n á l i s e bidimensional do histograma de t r a n s i ç ã o do contorno, para cada segmento nas direções horizontal e vertical. A p ó s u m a fase de filtragem, as frequências presentes nos histogramas podem ser 2. 4 ou 6. E n i cada histograma, o objetivo é sua parte1 central, representando a parte estável do segmento. Nesta parte central é determinado o n ú m e r o da t r a n s i ç ã o dominante (2, 4 ou 6). Cada par de n ú m e r o s da t r a n s i ç ã o dominante é representado por um s í m b o l o diferente. A p ó s a c r i a ç ã o de algumas subclasses por análise dos segmentos, esta r e p r e s e n t a ç ã o conduz a uni conjunto de 14 s í m b o l o s . A Figura 2.4 mostra três exemplos dessa codificação: as letras B , C e O, cujos pares de n ú m e r o s de t r a n s i ç õ e s dominantes s ã o (6,2), (4,2) e (4,4), s ã o codificadas-por s í m b o l o s chamados de B, C e O, respectivamente.
Nos sistemas propostos por Chen et alli [17, 18), s ã o utilizados um conjunto de 35 c a r a c t e r í s t i c a s ( c a r a c t e r í s t i c a s globais e locais) para identificar os segmentos. As c a r a c t e r í s t i c a s globais s ã o e x t r a í d a s dos segmentos da imagem, enquanto as c a r a c t e r í s -ticas locais representam c a r a c t e r í s t i c a s dos t r a ç o s que c o m p õ e m os caracteres. As c a r a c t e r í s t i c a s de momentos (três primeiros momentos) s ã o utilizadas para capturai a i n f o r m a ç ã o da forma global da palavra. C a r a c t e r í s t i c a s g e o m é t r i c a s e topológicas são
2.3 R e v i s ã o b i b l i o g r á f i c a 15
E
rs —33] [Si
Figura 2.4: Exemplos cios histogramas de t r a n s i ç ã o do contorno nas direções horizontal e vertical ( e x t r a í d a de Yacoubi [4]).
utilizadas para capturar as i n f o r m a ç õ e s da forma da palavra em â m b i t o global e local. Neste sentido, os buracos, j u n ç õ e s X e o n ú m e r o de interseções do t r a ç a d o da leira com linhas i m a g i n á r i a s que passam pelo centro de gravidade do caractere nas direções horizontal e vertical s ã o as c a r a c t e r í s t i c a s utilizadas. Algumas dessas c a r a c t e r í s t i c a s são ú t e i s quando e s t ã o associadas com i n f o r m a ç õ e s de zonas. Para capturar as carac-t e r í s carac-t i c a s de zonas, o segmencarac-to é enquadrado num r e carac-t â n g u l o , e a seguir 6 dividido em t r ê s zonas verticais de acordo com a densidade dos segmentos. As c a r a c t e r í s t i c a s de zonas s ã o utilizadas principalmente para capturar a localização vertical das informações t o p o l ó g i c a s : n ú m e r o de j u n ç õ e s T , n ú m e r o de pontos finais e o n ú m e r o de segmentos de t r a ç o s em cada zona.
A l é m das c a r a c t e r í s t i c a s citadas, outras s ã o obtidas da d i s t r i b u i ç ã o dos pixels pre-tos, formando dois conjuntos. No primeiro conjunto s ã o contados os n ú m e r o s de pixels
valores. No segundo conjunto e s t ã o as c a r a c t e r í s t i c a s que informam a d i s t r i b u i ç ã o de pixels em t o d a a v i z i n h a n ç a das zonas. Por fim, t ê m - s e as c a r a c t e r í s t i c a s de linhas de referência, que s ã o utilizadas principalmente para capturar as relações entre os seg-mentos. Estas ú l t i m a s c a r a c t e r í s t i c a s s ã o de extrema i m p o r t â n c i a , desde que n ã o é garantido que os segmentos obtidos sejam caracteres completos, o que pode provocar a e x i s t ê n c i a de segmentos de caracteres que s ã o similares a outros segmentos de ca-racteres distintos, quando considerados isoladamente. Sendo assim, antes do algoritmo pretos em nove zonas. As c a r a c t e r í s t i c a s s ã o obtidas por urna c o m b i n a ç ã o linear destes
2.3 R e v i s ã o b i b l i o g r á f i c a L6
cie s e g m e n t a ç ã o ser aplicado, a imagem da palavra é d i v i d i d a em t r ê s zonas verticais, de acordo com o perfil de p r o j e ç ã o vertical. A seguir, as c a r a c t e r í s t i c a s de linhas de referência s ã o calculadas para cada segmento em cada zona como:
!Jmax{(x) é o n ú m e r o m á x i m o de pixels ativos nas linhas da zona n , //,„,„ ( o ) é o n ú m e r o m í n i m o de pixels ativos nas linhas da zona a, rows(cy) é o n ú m e r o total de linhas na zona. Calcula-se F„. Fm e Fi representado as c a r a c t e r í s t i c a s de linha de referência calculadas nas regiões superior, central e inferior, respectivamente.
K u n d u et alli [19] em u m de seus trabalhos, gera u m vetor de c a r a c t e r í s t i c a s com 14 elementos. As c a r a c t e r í s t i c a s e x t r a í d a s s ã o c a r a c t e r í s t i c a s da forma ( n ú m e r o s de j u n ç õ e s X e T , n ú m e r o de laços, dentre outras) e c a r a c t e r í s t i c a s de d i s t r i b u i ç ã o dos pixels. N u m outro trabalho, K u n d u et alli [20] utilizou outras quatorze c a r a c t e r í s t i c a s . As primeiras t r ê s c a r a c t e r í s t i c a s s ã o baseadas em momentos centrais, sendo portanto independentes de t r a n s l a ç ã o , r o t a ç ã o , o r i e n t a ç ã o e do tamanho dos caracteres. A quarta, q u i n t a e sexta c a r a c t e r í s t i c a s são, respectivamente, o n ú m e r o de laços, o n ú m e r o de j u n ç õ e s T e o n ú m e r o de j u n ç õ e s X na imagem. A s é t i m a c a r a c t e r í s t i c a é baseada na r a z ã o entre a a l t u r a e a largura das letras. Algumas letras, por exemplo i e j . possuem pontos isolados que podem ser utilizados como pistas durante a etapa de reconhecimento. Por isso, a oitava c a r a c t e r í s t i c a é o n ú m e r o de pontos isolados. A nona e a d é c i m a c a r a c t e r í s t i c a s s ã o o n ú m e r o de intercessões do t r a ç a d o da letra com linhas i m a g i n á r i a s que passam pelo seu centro de gravidade nas direções horizontal e vertical. As ú l t i m a s c a r a c t e r í s t i c a s s ã o o n ú m e r o de s e m i c í r c u l o s presentes na imagem do caractere nas direções norte, sul, leste e oeste. Todas as c a r a c t e r í s t i c a s foram normalizadas para u m intervalo de 0 a 1, garantindo assim que nenhuma c a r a c t e r í s t i c a tenha u m peso maior do que outra.
Bunke et alli [5] u t i l i z a c a r a c t e r í s t i c a s baseadas nos n ó s e nas bordas do esqueleto da imagem a ser reconhecida (bordas s ã o t r a ç o s formados por pixels com dois vizinhos e nós s ã o pixels com u m , t r ê s ou quatro vizinhos). Portanto, a p ó s o esqueleto da imagem
2.3 R e v i s ã o b i b l i o g r á f i c a 17
ser obtido, s ã o e x t r a í d a s as bordas do grafo do esqueleto da imagem. A seguir, cada borda é transformada n u m vetor de c a r a c t e r í s t i c a s de comprimento fixo.
U m t o t a l de dez c a r a c t e r í s t i c a s s ã o utilizadas para descrever uma borda. As primeiras quatro c a r a c t e r í s t i c a s descrevem a localização espacial da borda. 0 grafo da imagem é dividido em quatro zonas horizontais. As c a r a c t e r í s t i c a s J\ à f4 são definidas como a percentagem de pixels da borda encontrados nas quatro zonas. A quinta c a r a c t e r í s t i c a ( /5) é uma c a r a c t e r í s t i c a b i n á r i a que indica se uma borda, é inci-dente a nodo de grau u m ou n ã o . A medida de curvatura 6 a sexta c a r a c t e r í s t i c a /',;. definida como a r a z ã o entre a d i s t â n c i a euclidiana entre dois pontos finais da borda da imagem e seu comprimento. As c a r a c t e r í s t i c a s f- â fw c o n t ê m mais detalhes sobre a curvatura das bordas.
C ô t é et alli [6] em seu sistema utiliza t r ê s tipos de c a r a c t e r í s t i c a s : p r i m á r i a s , se-c u n d á r i a s e de vales. As se-c a r a se-c t e r í s t i se-c a s p r i m á r i a s s ã o utilizadas para detese-ctar letras chaves no corpo da palavra. As letras chaves s ã o os componentes conectados que pos-suem t r a ç o s nas regiões ascendentes e descendentes. Os componentes conectados que possuem laços em seu corpo s ã o t a m b é m considerados como sendo letras chaves. Ca-r a c t e Ca-r í s t i c a s s e c u n d á Ca-r i a s (b-loops, d-loops, ou as baCa-rCa-ras T ) s ã o condicionais, poCa-rque são apenas detectadas na presença, de c a r a c t e r í s t i c a s p r i m á r i a s . As c a r a c t e r í s t i c a s de vale com cavidade para cima e/ou para baixo s ã o e x t r a í d a s do fundo da imagem. Os vales de cavidade para cima e de cavidade para baixo são componentes conectados do fundo da imagem e x t r a í d o s entre os contornos superior e inferior da palavra,. A Figura 2.5 ilustra as c a r a c t e r í s t i c a s utilizadas.
Wang et alli [21] apresentaram u m sistema, de reconhecimento de palavras manuscritas que u t i l i z a u m a t é c n i c a de e x t r a ç ã o de c a r a c t e r í s t i c a s tolerante ao erro de d e t e c ç ã o da linha de base. Neste sistema, o m é t o d o de e x t r a ç ã o de c a r a c t e r í s t i c a s realiza a codificação em zonas, em que a imagem é d i v i d i d a em zonas horizontais, cor-respondendo à s regiões ascendentes, descendentes e ao corpo principal da palavra. A região do corpo principal da palavra é d i v i d i d a em duas partes. Desta forma, a palavra é divida em 4 regiões horizontais. É produzido um vetor de c a r a c t e r í s t i c a s para cada
2.3 R e v i s ã o b i b l i o g r á f i c a 18
F i g u r a 2.5: Exemplos da d e t e r m i n a ç ã o de letras chaves e de caracter ( e x t r a í d a de C ô t é [6]).
2.3 R e v i s ã o b i b l i o g r á f i c a 19
p o s i ç ã o i da janela deslizante, dado por:
fi = Í2, fiF
Com fj — f(zj), Zj sendo a y-ésima zona na d i r e ç ã o do topo para, a base e /(,:,•) representando alguma função de codificação, como por exemplo a percentagem de pixels pretos na zona.
Entretanto, a d i v i s ã o da palavra em zonas é realizada baseada na d e t e c ç ã o da linha, de base da palavra. Devido à grande v a r i a ç ã o de estilos de escrita, a d e t e c ç ã o precisa desta l i n h a de base é extremamente difícil. Os m é t o d o s de d e t e c ç ã o da linha de base são todos baseados em regras, que possuem sempre exceções devido às variações nas letras. E m muitos casos, a linha de base é adotada como sendo u m a linha horizontal. Entretanto, t a l s u p o s i ç ã o em alguns casos n ã o é aceitável. E m b o r a alguns algoritmos possam encontrar uma linha de base global com bastante p r e c i s ã o , eles ainda n ã o podem evitar erros locais na codificação por zonas. Devido a esta i m p r e c i s ã o na d e t e c ç ã o da linha de base, foi proposta uma modificação no m é t o d o de codificação de zona, por janela deslizante, visando d i m i n u i r a influência do erro na d e t e c ç ã o da linha de base sobre o vetor de c a r a c t e r í s t i c a s . O novo vetor de c a r a c t e r í s t i c a s gerado é dado por:
fe = (fl- . / l , / l+i / 2 ~ '
h,
f-2
• — Í / Í >h,
ft)-fj = f(zj), ff — f{zj) e fj = f{Zj~). A zona zj foi encontrada realizando um
deslocamento na l i n h a de base de duas posições para cima e aplicando o mesmo m é t o d o de d i v i s ã o por zona. A zona foi encontrada realizando procedimento similar, com deslocamento da linha de base de duas posições para baixo. Obviamente o vetor de
c a r a c t e r í s t i c a f e c o n t é m mais i n f o r m a ç õ e s sobrei a forma dos caracteres e possui um
maior poder de d i s c r i m i n a ç ã o do que o vetor de c a r a c t e r í s t i c a original / , . Desta forma,
a descrição da letra por f e pode ser mais tolerante a erros de d e t e c ç ã o ela linha de base.
Brakensiek et alli [22, 23] utiliza u n i vetor ele c a r a c t e r í s t i c a s composto por 11 ca-r a c t e ca-r í s t i c a s , sendo 8 c a ca-r a c t e ca-r í s t i c a s obtidas dos coeficientes da D C T (Discca-reU: Cosme
Tmnsform) e 3 c a r a c t e r í s t i c a s adicionais (altura, largura e o n ú m e r o ele t r a n s i ç õ e s de
2.3 R e v i s ã o b i b l i o g r á f i c a 20
Guillevic e Suen [24] u t i l i z a m c a r a c t e r í s t i c a s e x t r a í d a s do contorno da palavra (re-presentado pelo c ó d i g o de Freeman [25]), por unia janela deslizante que percorre a imagem da esquerda para direita. Para uma dada posição da janela deslizante uni ve-tor de c a r a c t e r í s t i c a s é e x t r a í d o . O elemento chave a ser determinado é o tamanho ou a largura da janela deslizante, bem como a s o b r e p o s i ç ã o das janelas. Nesse trabalho, a largura da janela deslizante foi fixada como sendo uma fração da a l t u r a do corpo principal da palavra ( d i s t â n c i a entre as linhas de base superior e inferior da palavra). A s o b r e p o s i ç ã o entre sucessivas janelas deslizantes foi fixada em 50%. Cada janela deslizante foi d i v i d i d a em regiões horizontais, correspondendo às regiões da palavra onde se encontram os t r a ç o s ascendentes e descendentes e a região central da palavra. A região central, onde e s t ã o localizados os caracteres que n ã o possuem t r a ç o s ascen-dentes e descenascen-dentes, foi t a m b é m d i v i d i d a em t r ê s regiões horizontais (parte superior do corpo, á r e a central do corpo, parte inferior do corpo). Para cada janela deslizante i, e para cada sub-janela j , calcula-se o n ú m e r o de pontos do contorno com valor de i n c l i n a ç ã o k com a horizontal, Count(i,j, k). Os pontos do contorno podem assumir quatro valores de i n c l i n a ç ã o (A;): 0, 1, 2 e 3 correspondendo à i n c l i n a ç ã o de 0, 45, 90 e 135 graus com r e l a ç ã o à horizontal do segmento formado pelo pixel, i e seu anterior, pixel i — 1, em que ambos pertencem ao contorno da imagem. Cada janela é repre-sentada por 20 c a r a c t e r í s t i c a s , pois para cada uma das 5 sub-janelas s ã o e x t r a í d a s 4 c a r a c t e r í s t i c a s de â n g u l o s . E m complemento às c a r a c t e r í s t i c a s de â n g u l o s ã o e x t r a í d a s c a r a c t e r í s t i c a s adicionais para as sub-janelas ascendentes e descendentes, as quais co-dificam as posições verticais m é d i a s dos pixels em r e l a ç ã o à posição da linha superior e inferior, respectivamente. Estas c a r a c t e r í s t i c a s ajudam a diferenciar as letras m i n ú s -culas que possuem t r a ç o s na sub-janela ascendente (descendente) da verdadeira letra ascendente (descendente).
Freitas [1] em seu trabalho utiliza inicialmente u m conjunto de c a r a c t e r í s t i c a s per-ceptivas para representar os segmentos da palavra. S ã o utilizados ascendentes, descen-dentes e laços fechados que s ã o representados pelo seu tamanho em relação ao corpo da palavra e pela sua i n f o r m a ç ã o posicionai em relação ao eixo horizontal e às zonas
2.3 R e v i s ã o b i b l i o g r á f i c a 21
da palavra. Como c a r a c t e r í s t i c a s complementares para representar segmentos que n ã o tenham essas c a r a c t e r í s t i c a s e para uma melhor r e p r e s e n t a ç ã o do corpo da palavra são e x t r a í d a s concavidades e convexidades, usando morfologia m a t e m á t i c a . Os pontos convexos s ã o determinados com o auxílio de uma família de 5 elementos estruturantes
(matrizes 7x3) e os pontos côncavos com uma família de 10 elementos estruturantes (matrizes 9x4). Ambos os procedimentos s ã o aplicados sobre o esqueleto cia, imagem original pelo processo de template rn.alch.imj. E n i seguida, é aplicado um procedimento de r o t u l a ç ã o para os pixels do fundo da á r e a correspondente à parte interna da, con-cavidade e/ou convexidade e x t r a í d a da imagem. A p ó s a r o t u l a ç ã o de todos os pixels da á r e a em q u e s t ã o , os r ó t u l o s s ã o contados e classificados.
A d e s c r i ç ã o dos diversos esquemas de e x t r a ç ã o apresentados nesta seção mostram a u t i l i z a ç ã o de diferentes tipos de c a r a c t e r í s t i c a s combinadas para a f o r m a ç ã o de conjun-tos representativos. A Tabela 2.1 apresenta u m quadro resumo dos principais tipos de c a r a c t e r í s t i c a s utilizados nos sistemas revisados. A sua análise mostra que cada autor define c a r a c t e r í s t i c a s diversas, geralmente direcionados para a sua a p l i c a ç ã o . Isto difi-culta uma c o n c l u s ã o bem fundamentada sobre qual é o conjunto mais representativo, o que corrobora para a m o t i v a ç ã o deste trabalho apresentada anteriormente.
Tabela 2.1: Quadro resumo das principais c a r a c t e r í s t i c a s utilizadas nos sistemas re-visados. R F - R o t u l a ç ã o do Fundo da imagem; D T - D i r e ç ã o dos T r a ç o s ; CP - Carac-t e r í s Carac-t i c a s PercepCarac-tivas; C E - C a r a c Carac-t e r í s Carac-t i c a s EsCarac-truCarac-turais e D P - D i s Carac-t r i b u i ç ã o dos Pixels.
Referências C a r a c t e r í s t i c a 12] [3] [161 [4] [17, 18] |19| [20] [5| |C| | 2 1 | [24] [11 R F X X X X D T X X X X X C P X X X X X X C E X X X X X X X D P X X X X X X I
2.4 C o n c l u s ã o 22
2.4 C o n c l u s ã o
A definição de c a r a c t e r í s t i c a s representativas no reconhecimento de palavras manuscritas é u m a tarefa difícil. Diversos pesquisadores tem tentado incorporar mo-delamentos em r e l a ç ã o ao processo de leitura humano, aliados à c a r a c t e r í s t i c a s já bem estabelecidas, como as utilizadas no reconhecimento de caracteres n u m é r i c o s .
A r e v i s ã o bibliográfica apresentada mostrou que os autores definem conjuntos de c a r a c t e r í s t i c a s diversos, geralmente direcionados para sua a p l i c a ç ã o , o que dificulta uma c o n c l u s ã o mais profunda em relação ao conjunto de c a r a c t e r í s t i c a s mais representativo para o problema do reconhecimento de palavras manuscritas.
Sendo assim, a p a r t i r dos estudos mostrados e afim de t i r a r conclusões em relação ao potencial das diversas c a r a c t e r í s t i c a s , foram definidos t r ê s diferentes conjuntos tomando por base a classificação de Madhvanath [9j. Portanto, s e r ã o avaliadas desde c a r a c t e r í s -ticas simples como o zoneamento a t é outras mais elaboradas como as perceptivas.
Na l i t e r a t u r a n ã o foi encontrada nenhuma ferramenta de a v a l i a ç ã o de desempenho para este t i p o de problema. A solução encontrada foi desenvolver uni sistema de referência e incorporando diferentes conjuntos previamente definidos, avaliar seus com-portamentos pela taxa de reconhecimento e pela análise de erros. Este sistema será descrito no p r ó x i m o c a p í t u l o .
Capítulo 3
Descrição do Sistema de Referência
Este c a p í t u l o traz uma descrição do sistema de referência desenvolvido para a avali-a ç ã o de p r i m i t i v avali-a s no reconhecimento de pavali-alavali-avravali-as mavali-anuscritavali-as, que é o objetivo deste trabalho. Este sistema tem como a p l i c a ç ã o o reconhecimento das palavras dos meses do ano.
A Figura 3.1 mostra uma r e p r e s e n t a ç ã o do sistema, em diagrama de blocos, cujas partes constituintes s ã o :
• A q u i s i ç ã o - Amostras de palavras obtidas de formulários específicos, que foram digitalizadas usando dispositivo de scanner. U m a base de dados com 6000 ima-gens foi c o n s t r u í d a para ser usada neste trabalho;
• P r é - p r o c e s s a m e n t o - Conjunto de algoritmos aplicados para e l i m i n a ç ã o do r u í d o e n o r m a l i z a ç ã o das imagens;
• E x t r a ç ã o de c a r a c t e r í s t i c a s - E s t r a t é g i a de s e g m e n t a ç ã o implícita, seguida por t r ê s diferentes conjuntos de c a r a c t e r í s t i c a s que extraem i n f o r m a ç õ e s globais da palavra;
• Classificador neural - Redes neurais utilizadas para a t r i b u i ç ã o de um valor de confiança à imagem em análise em r e l a ç ã o às 12 classes constituintes do problema.
A seguir, é feita uma descrição detalhada de cada u m desses blocos.
3 . 1 A q u i s i ç ã o 24
A q u i s i ç ã o Pré—processamento Características Características Extração de Extração de Classificador Classificador Neural Neural Reconhecidí Palavra
Figura 3.1: R e p r e s e n t a ç ã o em diagrama de blocos do sistema de referência desen-volvido.
3.1 A q u i s i ç ã o
O desenvolvimento de qualquer sistema de reconhecimento de p a d r õ e s necessita, de uma base de dados representativa das classes, para que o sistema possa ser c o n s t r u í d o e avaliado.
E m r e l a ç ã o à lingua portuguesa, existe unia base de dados criada no L A R D O C / P U C - P R que possui 2000 imagens de palavras dos meses do ano obtidas utilizando cheques de l a b o r a t ó r i o [26]. Esta base é d i v i d i d a em t r ê s conjuntos: treina-mento, com 1188 imagens, v a l i d a ç ã o com 408 imagens e teste com 402 imagens.
Para o desenvolvimento do sistema proposto neste trabalho especificamente, foi c o n s t r u í d a u m a nova base de dados que pudesse representar t ã o bem quanto possível os diferentes estilos de escrita presentes na região, no caso a cidade de Campina Cirande - P B . Isto foi feito coletando-se amostras do nome de cada m ê s , de um total de 500 escritores na maioria estudantes de ensino m é d i o e superior de i n s t i t u i ç õ e s p ú b l i c a s e privadas.
Para isso, foi aplicado u m formulário específico, em papel sulfite branco, onde; cada v o l u n t á r i o devia escrever uma ú n i c a vez o nome de'cada m ê s , sem que fosse imposta qualquer r e s t r i ç ã o quanto ao estilo de escrita. T a m b é m n ã o foi proposto nenhum mo-delo p r é v i o para o v o l u n t á r i o seguir, orientando-o apenas para que escrevesse da forma, mais n a t u r a l possível. Isto resultou em uma base de dados bastante h e t e r o g ê n e a , como ilustra a Figura 3.2 que c o n t é m algumas amostras retiradas desta base de dados. A p ó s a coleta dos formulários, os mesmos passaram pela etapa de d i g i t a l i z a ç ã o , em que foi utilizado u m scanner HP ScanJet 5200 C [27], disponível no L A P S / D E E / U F P B ajustado para u m a resolução de 200 d p i (dots per inch) com dois níveis de cinza. As
3 . 1 A q u i s i ç ã o 25
F i g u r a 3.2: Amostras da base de dados de meses do ano do L A P S U F C G .
imagens foram armazenadas em formato P C X e divididas em 12 conjuntos de arquivos, um para cada m ê s . E m seguida, a base foi d i v i d i d a de forma aleatória, em três con-juntos: treinamento, v a l i d a ç ã o e teste que possuem 3600, 1200 e 1200 imagens cada, respectivamente.
A seguir é feita uma c a r a c t e r i z a ç ã o da base de dados em relação à d i s t r i b u i ç ã o dos diferentes estilos de escrita nos t r ê s conjuntos.
3.1.1 C a r a c t e r i z a ç ã o da base de dados
Para caracterizar a base de dados foi feita uma análise com r e l a ç ã o aos estilos de escrita encontrados. Segundo Tappert [7] podemos classificar a escrita cursiva, em cinco categorias principais, conforme Figura 3.3:
1. Palavras em caracteres disjuntos contidos em r e t â n g u l o s p r é - i m p r e s s o s (caixa alta);
2. Palavras em caracteres disjuntos com e s p a ç a m e n t o regular:
ca-3 . 1 A q u i s i ç ã o 26
racteres;
4. Palavras em escrita cursiva pura, ou seja, todos os caracteres de unia palavra são conectados;
5. Palavras em escrita mista, ou seja, misturando os demais tipos de escrita.
Figura 3.3: Tipos de escrita segundo a classificação de Tappert ( e x t r a í d a de Tappert et al. [7]).
Freitas [1] considera que a categoria 3 insere-se na categoria 5. classificando as imagens em quatro grupos: Cursiva pura, caixa alta, caracteres disjuntos e mista. Seguindo esta classificação, a Tabela 3.1 apresenta a d i s t r i b u i ç ã o dos tipos de escrita presentes nas bases de treinamento, v a l i d a ç ã o e teste utilizadas neste trabalho.
O u t r o levantamento realizado foi a porcentagem de palavras com a primeira letra, m a i ú s c u l a , sendo determinado uni percentual de 32%, 29%) e 33% para os conjuntos de treinamento, v a l i d a ç ã o e teste, respectivamente.
Estes levantamentos mostram que as d i s t r i b u i ç õ e s dos estilos de escrita, é pratica-mente uniforme nos t r ê s conjuntos e que ocorre uma maior p r e d o m i n â n c i a da, escrita cursiva pura, p o r é m a parcela de palavras em escrita mista é bem represenl ativa, o que comprova a diversidade de estilos presentes na base de dados. 0 percentual de palavras com inicial m a i ú s c u l a t a m b é m é significativo, sendo este fator importante pois aponta que mesmo palavras de runa mesma classe produzem um nível de confusão elevado.
3.2 P r é - p r o c e s s a m e n t o 27
Tabela 3.1: D i s t r i b u i ç ã o dos tipos de escrita nos subconjuntos da base de dados u t i -lizada. T r e i n a m e n t o V a l i d a ç ã o T e s t e Cursiva pura 57 % 61 % 61 % Caixa alta 5 % 3 % 2 % Caracteres disjuntos 8 % 7 % 1 1 'X, M i s t a 30 % 28 % 26 %
3.2 P r é - p r o c e s s a m e n t o
O p r é - p r o c e s s a m e n t o é uma parte fundamental de qualquer sistema de reconhecimento de palavras. Seu objetivo principal é reduzir a grande v a r i a ç ã o observada em diferentes amostras da mesma palavra, escrita pela mesma pessoa em instantes distintos ou por diferentes escritores.
Neste trabalho foram empregadas as t é c n i c a s de p r é - p r o c e s s a m e n t o desenvolvidas por Veloso [28] que consistem de t r ê s etapas:
• N o r m a l i z a ç ã o da i n c l i n a ç ã o m é d i a dos caracteres da palavra;
• N o r m a l i z a ç ã o do declive da palavra;
• S u a v i z a ç ã o .
As etapas de n o r m a l i z a ç ã o s ã o necessárias pois os f o r m u l á r i o s n ã o forneciam l i -nhas de referência para o escritor, ocasionando a p r e s e n ç a de palavras com diferentes inclinações em r e l a ç ã o aos eixos horizontal e vertical. A etapa de s u a v i z a ç ã o tem como objetivo retirar da imagem original os pontos isolados (ruído) e reduzir os picos e buracos existentes no contorno da imagem, resultantes de problemas ocorridos durante a d i g i t a l i z a ç ã o das imagens ou ocasionados pelas o p e r a ç õ e s de n o r m a l i z a ç ã o .
A seguir, é feita u m a descrição das t é c n i c a s empregadas e unia análise1 dos seus resultados.
3.2 P r é - p r o c e s s a m e n t o 28
3.2.1 N o r m a l i z a ç ã o da inclinação m é d i a dos caracteres da
palavra
Para obter a n o r m a l i z a ç ã o da i n c l i n a ç ã o m é d i a dos caracteres da palavra é realizada inicialmente uma o p e r a ç ã o morfológica de abertura, no i n t u i t o de prevenir que traços relativamente horizontais interfiram na d e t e r m i n a ç ã o da i n c l i n a ç ã o das letras.
E m seguida, é calculado o perfil de p r o j e ç ã o inclinado (PPI) da imagem em dife-rentes â n g u l o s de i n c l i n a ç ã o , que variam de -60 a (i() graus em relação à vertical, com passo de 1 grau. O perfil de p r o j e ç ã o inclinado indica a quantidade de pixels prelos existentes em colunas inclinadas. O algoritmo utilizado para o cálculo do perfil cie p r o j e ç ã o inclinado, para uma imagem M x N é descrito a seguir:
Para cada pixel (i,j) da imagem; i = 1,2 M e j = 1,2 N. Para cada ângulo de inclinação (9).
1. Determine o novo valor v da coordenada j na imagem, corno sendo:
v = [j - ( A f - %).tan{9)\, (3.1)
em que o operador [.\ indica o inteiro mais próximo.
2. Se o valor do pixel em (i, v) for igual a 1, incremente a v-ésima coluna do 0-ésvino
perfil de projeção inclinado (PPI).
PPIe(v) = PPh(v) + 1; (3.2)
U m a vez obtidos os perfis é calculada a entropia associada a cada perfil cie projeção, segundo a E q u a ç ã o 3.3:
L
H9 = -Y,Pv{9)\ogPv(0); (3-3)
t»=l
sendo L o n ú m e r o de linhas do perfil de p r o j e ç ã o inclinado e P„ a probabilidade de um
pixel preto ser encontrado na coluna inclinada v.
O â n g u l o (a) que proporciona a menor entropia é considerado o â n g u l o de inclinação