• Nenhum resultado encontrado

Detecção de inclinação em imagens de documentos

N/A
N/A
Protected

Academic year: 2021

Share "Detecção de inclinação em imagens de documentos"

Copied!
74
0
0

Texto

(1)Universidade Federal de Pernambuco Centro de Inform´atica. P´os-gradua¸c˜ao em Ciˆencia da Computa¸c˜ao. ˜ DE INCLINAC ˜ EM IMAGENS DETECC ¸ AO ¸ AO DE DOCUMENTOS Ang´elica Alcoforado Mascaro ˜ DE MESTRADO DISSERTAC ¸ AO. Recife 09 de fevereiro de 2010.

(2) Universidade Federal de Pernambuco Centro de Inform´atica. Ang´elica Alcoforado Mascaro ˜ DE INCLINAC ˜ EM IMAGENS DE DOCUMENTOS DETECC ¸ AO ¸ AO. Trabalho apresentado ao Programa de P´ os-gradua¸ c˜ ao em Ciˆ encia da Computa¸ c˜ ao do Centro de Inform´ atica da Universidade Federal de Pernambuco como requisito parcial para obten¸ c˜ ao do grau de. Mestre em Ciˆ encia da Com-. puta¸ c˜ ao.. Orientador: Prof. Dr. George Darmiton da Cunha Cavalcanti Co-orientador: Prof. Dr. Carlos Alexandre Barros de Mello. Recife 09 de fevereiro de 2010.

(3) Mascaro, Angélica Alcoforado Detecção de inclinação em imagens de documentos / Angélica Alcoforado Mascaro. - Recife: O Autor, 2010. xiii, 59 folhas : il., fig., tab. Dissertação (mestrado) – Universidade Pernambuco. CIn. Ciência da computação, 2010.. Federal. de. Inclui bibliografia. 1. Ciência da computação. 2. Computação inteligente. 3. Processamento de imagens. I. Título. 004. CDD (22. ed.). MEI2010 – 0100.

(4)

(5) AGRADECIMENTOS. Obrigada aos professores George Darmiton e Carlos Mello pela excelente parceria na orienta¸c˜ao deste trabalho. Obrigada aos amigos pela companhia ao longo deste per´ıodo. Obrigada `a fam´ılia pelo apoio ao mestrado. E obrigada a Tiago por cada detalhe compartilhado nos u ´ltimos anos.. iii.

(6) I’m on the nightrain —GN’R.

(7) RESUMO. A digitaliza¸c˜ao de documentos contribui para a preserva¸c˜ao da informa¸c˜ao evitando a sua perda devido `a degrada¸c˜ao f´ısica do papel. Atualmente, Sistemas de Reconhecimento Autom´atico de Documentos s˜ao empregados para converter automaticamente a informa¸c˜ao contida nas imagens em texto edit´avel de forma r´apida e sem a necessidade da presen¸ca de um indiv´ıduo, tornando essa informa¸c˜ao pesquis´avel atrav´es, por exemplo, de palavras-chave. A inclina¸c˜ao em documentos ´e um problema freq¨ uente nesses sistemas e, em geral, ´e imposta durante a digitaliza¸c˜ao, quando o papel ´e posicionado com um ˆangulo diferente de 0 grau sobre o eixo do scanner. No caso de documentos manuscritos, a inclina¸c˜ao pode surgir durante a escrita do pr´oprio documento, principalmente quando o escritor n˜ao tem uma linha de pauta como guia. A corre¸c˜ao da inclina¸c˜ao ´e essencial para o bom desempenho desses sistemas de reconhecimento autom´atico. Este trabalho aborda o problema da detec¸c˜ao de inclina¸c˜ao em documentos impressos e manuscritos, trazendo uma revis˜ao dos principais m´etodos para detec¸c˜ao de inclina¸c˜ao. Dois novos algoritmos para detec¸c˜ao de inclina¸c˜ao que se baseiam na modelagem de um documento como um conjunto de objetos retangulares s˜ao apresentados: um destinado `a detec¸c˜ao do ˆangulo de um documento com caracteres impressos e outro destinado `a detec¸c˜ao de m´ ultipla inclina¸c˜ao em documentos manuscritos. O algoritmo para documentos impressos apresentado visa superar problemas comuns nas t´ecnicas j´a divulgadas na literatura, como o alto custo computacional e a vulnerabilidade `a presen¸ca de figuras, tabelas e ru´ıdo no documento. O desempenho dos algoritmos propostos ´e avaliado sobre v´arias bases de imagens contendo diversos tipos de documentos. Resultados experimentais comparando a t´ecnica proposta para documentos impressos com outros m´etodos cl´assicos mostram o desempenho superior em termos de taxa de acerto da detec¸c˜ao do ˆangulo de inclina¸c˜ao e em termos de tempo computacional da t´ecnica proposta. Experimentos com o algoritmo destinado `a detec¸c˜ao de m´ ultipla inclina¸c˜ao em texto manuscrito mostram que este av.

(8) vi. RESUMO. presentou resultados bastante satisfat´orios na detec¸c˜ao do ˆangulo de documentos reais escritos por v´arios indiv´ıduos. Palavras-chave:. Detec¸c˜ao de Inclina¸c˜ao em Documentos; Documentos Manuscritos;. Processamento de Imagens.

(9) ABSTRACT. Scanning documents contributes to preserving information, avoiding losses due to paper physical degradation. Nowadays, Automatic Document Recognition Systems are used to convert the information contained in images to editable text, in a fast way and without the presence of an individual. So this information can, for example, be searchable through keywords. Skew is a frequent problem in these systems and is commonly introduced during scanning, when the paper is aligned in a angle different of 0 degrees upon the scanner axis. In the case of handwritten documents, the skew can appear during writing, especially when the person does not have a baseline to be guided by. The skew correction is essential for the good performance of such automatic recognition systems. This work deals with the problem of skew estimation of printed and handwritten documents and brings a revision of the main methods of skew estimation. Two new algorithms for skew estimation are presented based on the idea that a document is formed by a set of rectangular objects: one for skew estimation of a document containing printed characters and another for multiple skew of handwritten documents. The algorithm for printed documents aims to overcome common problems in previous presented techniques, such as high computational cost and vulnerability in the presence of figures, tables and noise in the document. The performance of proposed algorithms is evaluated over several image datasets containing various document types. Experimental results comparing the proposed approach for printed documents with other classic methods, show that the proposed algorithm achieved better performance in terms of error detection rates of skew angle and in terms of computational cost. Experiments with the algorithm for multiple skew estimation of handwritten text show that it presented satisfactory results in the skew detection of real documents written by several individuals. Keywords: Document Skew Estimation; Handwritten Documents; Image Processing vii.

(10) ´ SUMARIO. Cap´ıtulo 1—Introdu¸c˜ ao. 1. 1.1. Contextualiza¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 1. 1.2. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 1.3. Organiza¸c˜ao da Disserta¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . .. 6. Cap´ıtulo 2—Revis˜ ao da Literatura. 7. 2.1. Introdu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 7. 2.2. T´ecnicas Baseadas em An´alise de Proje¸c˜ao . . . . . . . . . . . . . . . . .. 8. 2.3. T´ecnicas Baseadas na Transformada de Hough . . . . . . . . . . . . . . .. 11. 2.4. T´ecnicas Baseadas em Agrupamento de Vizinhos Mais Pr´oximos . . . . .. 12. 2.5. T´ecnicas Baseadas em Correla¸c˜ao-Cruzada . . . . . . . . . . . . . . . . .. 14. 2.6. T´ecnicas Baseadas em Paralelogramos. . . . . . . . . . . . . . . . . . . .. 16. 2.7. Outros M´etodos para Detec¸c˜ao de Inclina¸c˜ao . . . . . . . . . . . . . . . .. 16. 2.8. T´ecnicas para Detec¸c˜ao de Inclina¸c˜ao em Documentos Manuscritos . . .. 17. Cap´ıtulo 3—Algoritmos Propostos. 19. 3.1. Introdu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3.2. Novo Algoritmo para Estimativa de Inclina¸c˜ao em Imagens de Documentos 21. 3.3. 19. 3.2.1. An´alise da ´area do plano de fundo . . . . . . . . . . . . . . . . . .. 21. 3.2.2. Reduzindo o Espa¸co de Busca . . . . . . . . . . . . . . . . . . . .. 23. 3.2.3. Evitando a Interferˆencia de Ru´ıdo e de Separadores Verticais . . .. 27. Detec¸c˜ao de M´ ultipla Inclina¸c˜ao em Documentos Manuscritos . . . . . .. 30. 3.3.1. 33. Reduzindo o Espa¸co de Busca . . . . . . . . . . . . . . . . . . . .. Cap´ıtulo 4—Experimentos. 35. viii.

(11) ix. ´ SUMARIO. 4.1. Introdu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 35. 4.2. Testes com Documentos Impressos. . . . . . . . . . . . . . . . . . . . . .. 35. 4.2.1. Bases de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36. 4.2.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38. 4.2.3. Tempo Computacional . . . . . . . . . . . . . . . . . . . . . . . .. 44. Testes com Documentos Manuscritos . . . . . . . . . . . . . . . . . . . .. 46. 4.3.1. Bases de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . .. 46. 4.3.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 47. 4.3. Cap´ıtulo 5—Conclus˜ ao. 53. 5.1. Considera¸c˜oes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53. 5.2. Contribui¸c˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53. 5.2.1. Algoritmo para detec¸c˜ao de inclina¸c˜ao em documentos impressos .. 54. 5.2.2. Algoritmo para detec¸c˜ao de m´ ultipla inclina¸c˜ao em documentos. 5.3. manuscritos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 54. Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 55.

(12) LISTA DE FIGURAS. 1.1. Documento que sofreu degrada¸c˜ao f´ısica com o tempo. . . . . . . . . . .. 1.2. As etapas de um sistema de reconhecimento de documentos: captura; processamento da imagem; reconhecimento dos caracteres e gera¸c˜ao da sa´ıda.. 1.3. 1 2. (a) Um documento com inclina¸c˜ao global de 9 graus no sentido antihor´ario. (b) Um documento contendo linhas com inclina¸c˜ao diferentes. (c) Por¸c˜ao de texto com inclina¸c˜ao vari´avel dentro da linha. . . . . . . .. 2.1. ` esquerda um documento com 8◦ Exemplo de corre¸c˜ao da inclina¸c˜ao. A ` direita, o mesmo documento com a inclina¸c˜ao corrigida de inclina¸c˜ao. A (contendo 0◦ ).. 2.2. 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 8. a) Imagem com 0◦ e b) Imagem com 5◦ de inclina¸c˜ao no sentido antihor´ario. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2.3. Perfis de proje¸c˜ao das imagens da Figura 2.2. 9. 2.4. Algoritmo de Baird: apenas o ponto m´edio inferior do bouding box ´e projetado.. 2.5 2.6. . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10. Transforma¸c˜ao das coordenadas cartesianas para o plano de Hough. . . ´ Agrupamento em linhas do algoritmo de Avila e Lins: (a) detec¸c˜ao dos. 11. blocos dos componentes conexos e (b) constru¸c˜ao da linha imagin´aria.. 13. .. 2.7. Exemplo de imagem ruidosa que pode interferir na detec¸c˜ao de inclina¸c˜ao.. 2.8. C´alculo do ˆangulo de inclina¸c˜ao θ a partir do deslocamento que resulta em maior correla¸c˜ao entre as faixas.. 3.1 3.2. . . . . . . . . . . . . . . . . . . . . . .. (a) Uma imagem com −6◦ de ˆangulo de inclina¸c˜ao. (b) Paralelogramos. constru´ıdos a −6◦ . (c) Paralelogramos constru´ıdos a 1◦ .. . . . . . . . . .. 15 15. 20. (a) Uma imagem com +8◦ de ˆangulo de inclina¸c˜ao. (b) Paralelogramos. constru´ıdos a +8◦ . (c) Paralelogramos constru´ıdos a −2◦ .. x. . . . . . . . .. 21.

(13) LISTA DE FIGURAS 3.3. xi. (a) Um documento com scan lines desenhadas a 0◦ . (b) As scan lines desenhadas a um ˆangulo diferente de 0◦ . O n´ umero total de scan lines cresce com as linhas pequenas extras.. 3.4. . . . . . . . . . . . . . . . . . . .. 23. ◦. (a) Um documento digitalizado com um ˆangulo pr´oximo de 0 . (b) Varia¸c˜ao do tamanho da regi˜ao branca do documento sendo medida atrav´es do n´ umero de se¸c˜oes brancas, como foi proposto por Chou et al. (c) Varia¸c˜ao do tamanho da regi˜ao branca do documento sendo medida atrav´es da ´area. (d) Varia¸c˜ao do tamanho da regi˜ao branca do documento inclinado a +7◦ sendo medida atrav´es da ´area.. . . . . . . . . . . . . . . . . . . . . . . .. 3.5. Espa¸co pesquisado na busca pelos ˆangulos γ e δ.. . . . . . . . . . . . . .. 3.6. Exemplos de documentos com elementos n˜ao-textuais que podem atrapa-. 25 26. lhar a estimativa do ˆangulo de inclina¸c˜ao proposta por Chou et al. (a) Um cheque banc´ario brasileiro com ru´ıdo, componentes manuscritos e um carimbo (algumas informa¸c˜oes foram ocultadas para fins de preserva¸c˜ao de identidade). (b) Um documento contendo muitos separadores verticais. . 3.7. 29. Linha de texto manuscrito e um paralelogramo cobrindo uma aproxima¸c˜ao do seu formato retangular.. . . . . . . . . . . . . . . . . . . . . . . . . .. 3.8. Ascendentes e descendentes no texto.. . . . . . . . . . . . . . . . . . . .. 3.9. Exemplo de como ascendentes e descendentes podem atrapalhar a detec¸c˜ao. 30 30. correta da inclina¸c˜ao usando paralelogramos. A linha tracejada representa a correta inclina¸c˜ao do texto. . . . . . . . . . . . . . . . . . . . . . . . .. 31. 3.10 Exemplo de constru¸c˜ao dos paralelogramos sobre linhas manuscritas: (a) Um documento contendo linhas manuscritas com uma inclina¸c˜ao positiva, (b) paralelogramos constru´ıdos a 0◦ e (c) paralelogramos constru´ıdos a 4◦ .. 32. 3.11 Exemplo de c´alculo da altura do paralelogramo. A altura ´e calculada eliminando intervalos brancos causadas pela aplica¸c˜ao do limiar T.. . . .. 32. 3.12 Exemplo de segmenta¸c˜ao de linhas pelo m´etodo de Basu et al. . . . . . .. 33. 4.1. Exemplos de imagens da base sint´etica.. 37. 4.2. Parte de um documento da base com ru´ıdo sal e pimenta com densidade. . . . . . . . . . . . . . . . . . .. 0,01. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38.

(14) LISTA DE FIGURAS 4.3. xii. Exemplos da base composta por imagens reais de documentos digitalizados. (a) Um boleto banc´ario, (b) uma folha de pagamento, (c) um formul´ario (d) um cheque banc´ario brasileiro (dados do cliente e do banco foram ocultados para preserva¸c˜ao de indentidade). . . . . . . . . . . . . . . . .. 4.4. 39. Exemplos da base disponibilizada por Chou et al. (a) categoria Inglˆes, (b) categoria Chinˆes e Japonˆes, (c) categoria Figuras, (d) categoria Tabelas e (e) categoria Estrangeiro.. 4.5. . . . . . . . . . . . . . . . . . . . . . . . . . .. 40. Exemplo da corre¸c˜ao de imagens reais. (a) Um documento digitalizado da categoria “Formul´arios”. (b) Resultado da corre¸c˜ao de (a) atrav´es do ˆangulo encontrado pelo algoritmo de Chou et al. — o m´etodo de Chou et al. detectou uma inclina¸c˜ao de −17◦ . A t´ecnica proposta detectou 0◦ . (c). Um cheque banc´ario brasileiro. (d) Resultado da corre¸c˜ao de (c) atrav´es do ˆangulo encontrado pelo algoritmo de Chou et al. — o m´etodo de Chou et al. detectou uma inclina¸c˜ao de −17◦ , enquanto a t´ecnica proposta detectou 0, 3◦ .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 43. 4.6. Exemplos de imagens da base sint´etica manuscrita. . . . . . . . . . . . .. 47. 4.7. Exemplos das bases reais. Acima, trˆes exemplos da primeira base real. Abaixo, exemplos da base da competi¸c˜ao do ICDAR. . . . . . . . . . . .. 4.8. 48. Corre¸c˜ao da inclina¸c˜ao de um documento sint´etico. Em (a) um documento que cont´em m´ ultipla inclina¸c˜ao ao longo das linhas e em (b) o respectivo documento com as inclina¸c˜oes das linhas corrigidas.. 4.9. . . . . . . . . . . .. 50. Exemplos da corre¸c˜ao da inclina¸c˜ao da primeira base real. . . . . . . . .. 51. 4.10 Exemplos da corre¸c˜ao da inclina¸c˜ao da base do ICDAR. Em (b) um caso de falha devido ao erro na fase pr´evia de segmenta¸c˜ao: a regi˜ao envolvida pelo tracejado n˜ao foi segmentada. . . . . . . . . . . . . . . . . . . . . .. 52.

(15) LISTA DE TABELAS. 2.1. Classifica¸c˜ao dos principais algoritmos para detec¸c˜ao de inclina¸c˜ao. . . .. 18. 4.1. Distribui¸c˜ao das imagens em cada base . . . . . . . . . . . . . . . . . . .. 38. 4.2 4.3 4.4 4.5 4.6. ◦. Taxas de erros em graus ( ) das imagens da base sint´etica. x¯ representa o erro m´edio e s ´e o desvio padr˜ao . . . . . . . . . . . . . . . . . . . . . . .. 41. Varia¸c˜ao do limiar T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 41. ◦. Taxas de erros em graus ( ). Imagens da base sint´etica com ru´ıdo sal-epimenta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 42. Diferen¸ca para 0◦ . Imagens da base real. . . . . . . . . . . . . . . . . . .. 43. ◦. Taxas de erros em graus ( ). Imagens da base disponibilizada por Chou et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.7. 44. Ganho no tempo computacional (em %) usando o espa¸co de busca reduzido comparado com a t´ecnica de Chou et al. . . . . . . . . . . . . . . . . . .. 45. 4.8. ◦. Erro m´edio de estimativa em graus ( ) utilizando T =5% . . . . . . . . .. 47. 4.9. Varia¸c˜ao do limiar T. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 49. xiii.

(16) CAP´ITULO 1. ˜ INTRODUC ¸ AO. 1.1. ˜ CONTEXTUALIZAC ¸ AO. O papel ainda ´e um dos meios mais comuns para armazenamento e distribui¸c˜ao de informa¸c˜oes. No entanto, o papel ´e fr´agil e suscet´ıvel ao envelhecimento. A digitaliza¸c˜ao de documentos tˆem sido amplamente utilizada como forma de preserva¸c˜ao da informa¸c˜ao em formato eletrˆonico [1], evitando a perda das informa¸c˜oes contidas nesses acervos devido `a degrada¸c˜ao f´ısica do papel. A Figura 1.1 exibe um exemplo de documento que sofreu degrada¸c˜ao com o tempo. A digitaliza¸c˜ao tamb´em torna poss´ıvel o acesso a bibliotecas e acervos em meio digital — como a Internet — distribuindo a informa¸c˜ao de forma facilitada.. Figura 1.1 Documento que sofreu degrada¸c˜ao f´ısica com o tempo.. Al´em da vantagem de n˜ao sofrer com degrada¸c˜ao causada pelo tempo, as informa¸c˜oes 1.

(17) ˜ 1.1 CONTEXTUALIZAC ¸ AO. 2. passadas para um meio digital tamb´em ocupam menos espa¸co f´ısico. Informa¸c˜oes em meio digital podem ser armazenadas em v´arios tipos de m´ıdias, tais como CDs, DVDs e, tamb´em, v´arios tipos de armazenamento magn´eticos, como HDs, evitando a necessidade do grande espa¸co f´ısico ocupado por livros, documentos, relat´orios, etc. Al´em disso, arquivos em um computador s˜ao localizados mais facilmente do que um pequeno documento em uma grande biblioteca ou acervo. No entanto, na maioria das vezes deseja-se que a informa¸c˜ao contida em tais documentos seja pesquis´avel atrav´es, por exemplo, de palavras-chave. Ou seja, deseja-se que seja feita a extra¸c˜ao do texto da imagem. A extra¸c˜ao do texto pode ser feita manualmente atrav´es de um indiv´ıduo que transcreve a informa¸c˜ao contida nos documentos. No entanto, esse ´e um processo ´e lento. Sistemas de Reconhecimento Autom´atico de Documentos (SRAD) s˜ao empregados para converter automaticamente a informa¸c˜ao contida nas imagens em texto edit´avel de forma r´apida e sem a necessidade de um indiv´ıduo. A digitaliza¸c˜ao e posterior reconhecimento de documentos tamb´em s˜ao u ´teis para acelerar atividades que seriam custosas para serem realizadas manualmente e auxiliam organiza¸c˜oes que desejam automatizar algum processo. Sem um SRAD ´e necess´ario que um indiv´ıduo observe o texto de um documento e o digite no computador. Por exemplo, o uso de um SRAD acelera o processamento de cheques no banco, sem que seja necess´ario uma pessoa ler e digitar cada campo do cheque. A Figura 1.2 ilustra um esquema com as etapas de um SRAD. S˜ao elas:. Figura 1.2 As etapas de um sistema de reconhecimento de documentos: captura; processamento da imagem; reconhecimento dos caracteres e gera¸c˜ao da sa´ıda.. 1. Captura: o documento ´e digitalizado atrav´es de um scanner ou m´aquina fotogr´afica. 2. Processamento da Imagem: a imagem capturada ´e preparada para a fase de classifica¸c˜ao. Isto inclui, por exemplo, a convers˜ao da imagem para dois tons—.

(18) ˜ 1.1 CONTEXTUALIZAC ¸ AO. 3. binariza¸c˜ao — que converte para preto os pixels correspondentes `a tinta do papel e para branco os pixels do plano de fundo. Nesta fase tamb´em faz-se a an´alise de diagrama¸c˜ao (layout) da imagem, em que se realiza a identifica¸c˜ao e segmenta¸c˜ao das regi˜oes de interesse no documento. Nesta etapa ainda est˜ao inclusas a remo¸c˜ao de ru´ıdos atrav´es de filtros, a corre¸c˜ao da inclina¸c˜ao da imagem, etc. 3. Reconhecimento de Caracteres: tamb´em conhecida como fase de classifica¸c˜ao. Nesta fase ocorre a identifica¸c˜ao de cada caractere atrav´es de um classificador. Esses classificadores s˜ao popularmente conhecidos como ferramentas OCR (Optical Character Recognition) [2]. 4. Gera¸c˜ ao do Arquivo de Sa´ıda: os caracteres reconhecidos na etapa anterior s˜ao agrupados na ordem correta e enviados a um arquivo de sa´ıda. Nesses sistemas, a qualidade da imagem de entrada ´e crucial para o desempenho final. H´a uma variedade de aspectos que interferem no processo, como ru´ıdo e inclina¸c˜ao, que danificam a imagem e reduzem o desempenho do sistema. O ru´ıdo pode ocorrer devido `a degrada¸c˜ao do documento e devido ao processo de binariza¸c˜ao, que pode, por exemplo, converter para preto os pixels do plano de fundo caso o papel esteja sujo ou degradado. J´a a inclina¸c˜ao ´e um problema freq¨ uente e, em geral, ´e adquirida durante a digitaliza¸c˜ao, quando o documento ´e posicionado com um ˆangulo diferente de 0 grau sobre o eixo do scanner. A Figura 1.3(a) mostra um exemplo de documento digitalizado com inclina¸c˜ao. Para documentos manuscritos, a inclina¸c˜ao aparece n˜ao apenas devido `a fase de digitaliza¸c˜ao, mas tamb´em pode ser adquirida durante a escrita do documento, especialmente ´ o caso em que o escritor geralquando o escritor n˜ao tem uma linha base como guia. E mente n˜ao percebe que est´a escrevendo as linhas do texto com inclina¸c˜ao. Em geral, podemos observar trˆes tipos de inclina¸c˜ao em um documento: 1. Uma inclina¸c˜ao global, quando toda a ´area de texto possui a mesma inclina¸c˜ao (Figura 1.3(a)); 2. Uma inclina¸c˜ao m´ ultipla, quando certas ´areas de texto possuem inclina¸c˜oes distintas de outras ´areas de texto na imagem (Figura 1.3(b)); 3. Uma inclina¸c˜ao n˜ao-uniforme dentro de uma linha de texto, quando a orienta¸c˜ao “flutua”dentro de uma linha, i.e., uma linha se “entorta”em uma ou em ambas as extremidades, ou a linha cont´em um formato de “onda”(Figura 1.3(c))..

(19) ˜ 1.1 CONTEXTUALIZAC ¸ AO. 4. O primeiro caso citado ocorre em documentos impressos e manuscritos, enquanto que os dois u ´ltimos s˜ao mais comuns em documentos manuscritos. O foco desse trabalho est´a na identifica¸c˜ao dos dois primeiros casos. A corre¸c˜ao de inclina¸c˜ao tem um importante papel no pr´e-processamento da imagem, pois interfere nas etapas subseq¨ uentes. Uma pequena inclina¸c˜ao no documento pode interferir na an´alise da diagrama¸c˜ao e conseq¨ uentemente no restante do processo. Ou seja, fases importantes do processo, tais como segmenta¸c˜ao e classifica¸c˜ao, ficam prejudicadas. Para corre¸c˜ao da inclina¸c˜ao ´e necess´ario o uso de um algoritmo para estimar o ˆangulo da inclina¸c˜ao dos documentos. O desenvolvimento desse tipo de algoritmo ainda ´e uma ´area ativa no processamento de imagens e enfrenta desafios, tais como redu¸c˜ao do custo computacional e capacidade de lidar com diversos tipos de diagrama¸c˜oes e componentes n˜ao-textuais na imagem.. Figura 1.3 (a) Um documento com inclina¸c˜ao global de 9 graus no sentido anti-hor´ario. (b) Um documento contendo linhas com inclina¸c˜ao diferentes. (c) Por¸c˜ao de texto com inclina¸c˜ao vari´avel dentro da linha.. A corre¸c˜ao da inclina¸c˜ao para o caso de documentos manuscritos ´e ainda mais proble-.

(20) 1.2 OBJETIVO. 5. m´atica que o caso dos documentos impressos. O texto manuscrito n˜ao tem uma aparˆencia uniforme, mudando de pessoa para pessoa. Al´em disso, como ilustrado na Figura 1.3, ´e comum encontrar documentos contendo m´ ultipla inclina¸c˜ao ao longo das linhas de texto, isto ´e, um ˆangulo diferente para cada linha no documento ou mais de uma inclina¸c˜ao dentro de uma u ´nica linha. Esse problema torna a estimativa da inclina¸c˜ao mais dif´ıcil. 1.2. OBJETIVO. O principal objetivo deste trabalho ´e o desenvolvimento de algoritmos para detec¸c˜ao da inclina¸c˜ao de documentos impressos e manuscritos. As metas para atingir estes objetivos s˜ao: Estudo do estado-da-arte da ´area de algoritmos de detec¸c˜ao de inclina¸c˜ao de documentos impressos e manuscritos, com suas diferentes t´ecnicas e aplica¸c˜oes; Constru¸c˜ao de uma base de imagens impressas sint´etica com ˆangulos de inclina¸c˜ao conhecidos; Constru¸c˜ao de bases de imagens impressas reais; Constru¸c˜ao de uma base de imagens manuscritas sint´etica com ˆangulos de inclina¸c˜ao diferentes em cada linha; Constru¸c˜ao de bases de imagens manuscritas real, com texto escrito por diferentes indiv´ıduos; Evolu¸c˜ao da t´ecnica de detec¸c˜ao de inclina¸c˜ao baseada em paralelogramos [3] para a detec¸c˜ao mais robusta da inclina¸c˜ao de imagens impressas ruidosas e que contenham separadores verticais com redu¸c˜ao do tempo computacional; Compara¸c˜ao da t´ecnica proposta para documentos impressos com outros m´etodos cl´assicos da literatura; Desenvolvimento de um algoritmo para detec¸c˜ao de m´ ultipla inclina¸c˜ao em documentos manuscritos..

(21) ˜ DA DISSERTAC ˜ 1.3 ORGANIZAC ¸ AO ¸ AO. 1.3. 6. ˜ DA DISSERTAC ˜ ORGANIZAC ¸ AO ¸ AO. Este trabalho est´a organizado da seguinte forma: apresenta-se no Cap´ıtulo 2 uma revis˜ao do estado da arte da detec¸c˜ao de inclina¸c˜ao de documentos impressos e manuscritos; o Cap´ıtulo 3 apresenta uma metodologia para detec¸c˜ao da inclina¸c˜ao global de documentos impressos baseada na modelagem de um documento em um conjunto de paralelogramos. No Cap´ıtulo 3 apresenta-se ainda uma abordagem para identifica¸c˜ao da inclina¸c˜ao de linhas de documentos manuscritos contendo m´ ultipla inclina¸c˜ao. No Cap´ıtulo 4 exp˜oe-se diversos experimentos com a t´ecnica destinada a texto impresso abordada no Cap´ıtulo 3. Seus resultados s˜ao apresentados e comparados com os de outras t´ecnicas. O desempenho das t´ecnicas ´e avaliado em diversas bases de imagens, contendo documentos com diversos layouts, diversos tamanhos de fontes, presen¸ca de ru´ıdo e mistura entre regi˜oes de texto e figuras. A t´ecnica destinada a documentos manuscritos ´e testada sobre diferentes bases, contendo texto manuscrito de diferentes indiv´ıduos e diversos exemplos s˜ao expostos. Finalmente, ´e comentado no Cap´ıtulo 5 as t´ecnicas apresentadas no Cap´ıtulo 3 e discute os resultados obtidos nos experimentos..

(22) CAP´ITULO 2. ˜ DA LITERATURA REVISAO. 2.1. ˜ INTRODUC ¸ AO. Para resolver o problema da inclina¸c˜ao em imagens de documentos muito esfor¸co foi empregado para desenvolver t´ecnicas capazes de eliminar a inclina¸c˜ao presente na imagem. Sistemas de reconhecimento autom´atico de texto precisam de algoritmos de pr´eprocessamento para estimar e corrigir a inclina¸c˜ao das imagens a fim de alcan¸car uma alta taxa de acerto. Grande parte dos algoritmos que trabalham com estimativa de inclina¸c˜ao lidam com documentos contendo uma u ´nica inclina¸c˜ao na imagem. Apenas poucos trabalhos lidam com documentos com m´ ultiplas inclina¸c˜oes dada a complexidade do tema. Al´em disso, a detec¸c˜ao e corre¸c˜ao de inclina¸c˜ao de documentos manuscritos permanece pouco explorada. V´arios algoritmos foram desenvolvidos para estimar o ˆangulo de inclina¸c˜ao de documentos impressos digitalizados [4, 5]. Depois de estimar o ˆangulo de inclina¸c˜ao, um algoritmo de corre¸c˜ao deve ser utilizado para ajustar o documento, rotacionando-o [6]. A Figura 2.1 apresenta um exemplo da corre¸c˜ao da inclina¸c˜ao de um documento. Na Tabela 2.1 apresenta-se um resumo do estado-da-arte inicialmente constru´ıda por ´ Cattoni et al. [4], posteriormente complementada por Avila e Lins [7] e atualizada neste trabalho. Nela, ´e apresentada uma categoriza¸c˜ao dos principais algoritmos de detec¸c˜ao de inclina¸c˜ao separados em 8 classes, al´em das caracter´ısticas dos documentos testados pelos autores de cada t´ecnica. Para t´ecnicas testadas com v´arios tamanhos e estilos de fonte, diferentes diagrama¸c˜oes e presen¸ca de elementos gr´aficos, a tabela rotula as caracter´ısticas dos documentos como “documentos complexos”. Os m´etodos mais comuns s˜ao baseados em an´alise de proje¸c˜ao, transformada de Hough, agrupamento por vizinhos-mais-pr´oximos (nearest neighbor clustering) ou correla¸c˜ao-cruzada (cross-correlation). No entanto, t´ecnicas baseadas em outras estrat´egias tamb´em foram desenvolvidas. As se¸c˜oes a seguir exp˜oem as principais t´ecnicas desenvolvidas at´e o presente momento, comentando suas vantagens e limita¸c˜oes.. 7.

(23) ´ ´ ˜ 2.2 TECNICAS BASEADAS EM ANALISE DE PROJEC ¸ AO. 8. ` esquerda um documento com 8◦ de inFigura 2.1 Exemplo de corre¸c˜ao da inclina¸c˜ao. A ` direita, o mesmo documento com a inclina¸c˜ao corrigida (contendo 0◦ ). clina¸c˜ao. A. 2.2. ´ ´ ˜ TECNICAS BASEADAS EM ANALISE DE PROJEC ¸ AO. M´etodos baseados em an´alise de proje¸c˜ao assumem que uma imagem ´e formada por regi˜oes de texto organizadas em linhas paralelas. A detec¸c˜ao do ˆangulo ´e feita projetando essa regi˜ao de texto em v´arios ˆangulos e decidindo dentre esses qual a real inclina¸c˜ao do documento. Para cada ˆangulo testado, a quantidade de pixels pretos em cada linha ´e projetada e uma fun¸c˜ao objetivo ´e calculada para esse perfil de proje¸c˜ao. O ˆangulo escolhido ´e aquele que otimiza essa fun¸c˜ao objetivo, comumente chamada de fun¸c˜ao premium. As Figuras 2.2 e 2.3 ilustram a diferen¸ca no perfil de proje¸c˜ao de uma imagem com texto a 0◦ e com texto a 5◦ de inclina¸c˜ao. O perfil de proje¸c˜ao possui m´aximas amplitude e freq¨ uˆencia quando o texto est´a a 0◦ . M´etodos baseados em proje¸c˜ao assumem que o documento ´e predominantemente constitu´ıdo de linhas de texto e geralmente s˜ao vulner´aveis `a presen¸ca de outros elementos, como figuras, tabelas ou ru´ıdo. Evolu¸c˜oes na t´ecnica tentam eliminar componentes gr´aficos, mas assumem que o documento possui uma regi˜ao m´ınima de linhas paralelas de texto. Originalmente, a an´alise de proje¸c˜ao possui um grande custo computacional e os trabalhos publicados nessa linha tentam minimizar a quantidade de dados envolvidos na computa¸c˜ao do ˆangulo, ou tentam melhorar a estrat´egia de busca. O grau de precis˜ao.

(24) ´ ´ ˜ 2.2 TECNICAS BASEADAS EM ANALISE DE PROJEC ¸ AO. 9. Figura 2.2 a) Imagem com 0◦ e b) Imagem com 5◦ de inclina¸c˜ao no sentido anti-hor´ario.. Figura 2.3 Perfis de proje¸c˜ao das imagens da Figura 2.2. do ˆangulo pode ser controlado com a mudan¸ca do tamanho do intervalo entre os ˆangulos testados. Para avalia¸c˜oes mais precisas, maior tempo computacional ´e demandado para que mais ˆangulos possam ser testados. No trabalho de Postl [8], ´e utilizada uma outra abordagem para reduzir o volume de dados processados: os pontos a serem projetados s˜ao previamente filtrados por uma “grade”, e apenas alguns pontos nessa grade s˜ao usados para computar o perfil de proje¸c˜ao. Baird [9] propˆos uma t´ecnica para selecionar os pontos a serem projetados: inicialmente a imagem ´e rotulada em componentes conectados, em que os pixels com conectividade de 8 s˜ao agrupados em grupos de componentes. Para cada componente conectado,.

(25) ´ ´ ˜ 2.2 TECNICAS BASEADAS EM ANALISE DE PROJEC ¸ AO. 10. apenas o ponto m´edio da parte superior do menor retˆangulo contendo o componente (bounding box ) ´e projetado, como exemplificado na Figura 2.4. A an´alise da inclina¸c˜ao continua a partir da proje¸c˜ao desses prontos. A fun¸c˜ao objetivo a ser otimizada ´e calculada como a soma dos quadrados dos valores do perfil de proje¸c˜ao. Para acelerar a busca pelo ˆangulo, Baird propˆos um m´etodo iterativo: na primeira itera¸c˜ao todo o intervalo ´e percorrido com uma precis˜ao mais grosseira; a cada itera¸c˜ao posterior a busca ´e restrita a uma vizinhan¸ca do melhor ˆangulo at´e ent˜ao encontrado e o resolu¸c˜ao da busca ´e refinada, mas restringe seu intervalo de busca a no m´aximo ±15◦ . Baird afirma que seu m´etodo. funciona para uma variedade de layouts, incluindo tabelas, m´ ultiplos estilos e tamanhos de fontes.. Figura 2.4 Algoritmo de Baird: apenas o ponto m´edio inferior do bouding box ´e projetado.. Ciardiello el al. [10] propuseram filtrar a quantidade de dados a serem processados atrav´es da sele¸c˜ao de uma sub-regi˜ao no documento que contenha alta densidade de pixels pretos por linha e projetar essa regi˜ao. A fun¸c˜ao a ser maximizada para descobrir o ˆangulo real ´e o desvio m´edio quadr´atico do perfil projetado. A t´ecnica proposta por Li et al. [13], usa a transformada Wavelet [32] para decompor a imagem e encontrar o ˆangulo de inclina¸c˜ao atrav´es de an´alise de proje¸c˜ao. A influˆencia do filtro base Wavelet no resultado ´e avaliada variando entre as bases ”Daubechies“, ”Symlets“ e ”biortogonal“. A matriz com os coeficientes das sub-bandas horizontais ´e rotacionada em v´arios ˆangulos e, aquele ˆangulo que maximiza uma dada fun¸c˜ao objetivo, ´e admitido como o ˆangulo de inclina¸c˜ao do documento. Ishitani [12] propˆos uma t´ecnica baseada em mapas de transi¸c˜oes que s˜ao projetados horizontalmente. Essa pode ser considerada uma varia¸c˜ao da an´alise de proje¸c˜ao em que, ao inv´es de projetar a quantidade de pixels pretos em cada linha, a quantidade de transi¸c˜oes de preto para branco s˜ao projetadas. O trabalho de Ishitani lida com documentos contendo mistura de ´areas de texto, fotografias, figuras ou tabelas..

(26) ´ 2.3 TECNICAS BASEADAS NA TRANSFORMADA DE HOUGH. 11. ´ TECNICAS BASEADAS NA TRANSFORMADA DE HOUGH. 2.3. A transformada de Hough [32] ´e uma t´ecnica bastante utilizada para detec¸c˜ao de linhas em imagens e essa funcionalidade tˆem sido muito explorada por autores para detec¸c˜ao de inclina¸c˜ao em documentos. T´ecnicas baseadas na transformada de Hough, admitem que uma caracter´ıstica comum `as regi˜oes textuais ´e o alinhamento dos caracteres (lado-a-lado, formando uma linha) e o paralelismo das linhas de texto. A transformada converte coordenadas cartesianas (x, y) em curvas nas coordenadas polares (ρ,θ) utilizando a transforma¸c˜ao. ρ = xcos(θ) + ysen(θ) ( . ) e um vetor auxiliar ´e utilizado como acumulador para computar a quantidade de vezes que cada combina¸c˜ao de ρ e θ aparece na imagem (Figura 2.5). Pixels pretos alinhados (formando linhas) na imagem geram picos no plano de Hough e permitem identificar o ˆangulo (θ) dessas linhas, ou seja, a inclina¸c˜ao do documento.. Figura 2.5 Transforma¸c˜ao das coordenadas cartesianas para o plano de Hough.. A granularidade da busca pelo ˆangulo depende da resolu¸c˜ao do eixo θ, enquanto que a complexidade depende da quantidade de pontos a serem transformados e da resolu¸c˜ao de θ. M´etodos baseados na transformada de Hough s˜ao bastante populares pela robustez na detec¸c˜ao do ˆangulo de inclina¸c˜ao de linhas em uma imagem, mas demandam alto tempo e espa¸co computacional para encontrar o pico no plano de Hough. Al´em disso, a maioria das t´ecnicas desenvolvidas assumem que o documento cont´em uma regi˜ao m´ınima de texto impresso..

(27) ´ ´ 2.4 TECNICAS BASEADAS EM AGRUPAMENTO DE VIZINHOS MAIS PROXIMOS. 12. Devido a tais problemas, v´arios trabalhos baseados na transformada de Hough tentam melhorar a eficiˆencia computacional do algoritmo reduzindo a quantidade de pontos a serem mapeados para o plano de Hough. Essa redu¸c˜ao acontece selecionando subconjuntos representativos da imagem ou restringindo a an´alise a partes do documento. Le et al. [15] descreveram um algoritmo para identifica¸c˜ao da inclina¸c˜ao e tamb´em da orienta¸c˜ao (retrato ou paisagem) do documento. A detec¸c˜ao da orienta¸c˜ao ´e obtida dividindo a imagem em sub-regi˜oes e cada uma ´e classificada como contendo componentes textuais ou n˜ao-textuais. Em seguida, essas regi˜oes s˜ao classificadas como “retrato”ou “paisagem”de acordo com uma an´alise de proje¸c˜ao vertical e horizontal. A detec¸c˜ao de inclina¸c˜ao ´e realizada ent˜ao, aplicando a transformada de Hough aos pixels pretos da u ´ltima linha de cada componente conectado. Por utilizar-se de transforma¸c˜ao no plano de Hough e an´alise de componentes conectados, a t´ecnica de Le et al. sofre com alto custo computacional. Amin e Fischer [18] aplicaram transformada de Hough `a u ´ltima linha pertencente a blocos segmentados de texto e agrupam pixels em componentes conectados para reduzir o custo computacional. Singh et al. [6] elaboraram um estudo sobre a complexidade de m´etodos de detec¸c˜ao de inclina¸c˜ao baseados na transformada de Hough. Eles apresentam uma proposta de algoritmo para acelerar o c´alculo da transformada de Hough que seleciona apenas alguns pontos de contornos dos componentes conectados na imagem para aplica¸c˜ao da transformada. A transformada de Hough ´e eficiente mesmo em casos de imagens ruidosas. No entanto, a aplica¸c˜ao de etapas pr´evias utilizando algoritmos para extra¸c˜ao de componentes conectados (com a finalidade de reduzir a complexidade computacional da t´ecnica) torna a detec¸c˜ao de inclina¸c˜ao vulner´avel a ru´ıdo. Para as t´ecnicas descritas acima, os problemas inerentes ao uso da transformada permanecem, como a expectativa de haver texto no documento. 2.4. ´ ´ TECNICAS BASEADAS EM AGRUPAMENTO DE VIZINHOS MAIS PROXIMOS. Os m´etodos baseados em agrupamento de vizinhos-mais-pr´oximos formam uma outra categoria de m´etodos para detec¸c˜ao de inclina¸c˜ao que tamb´em explora os componentes textuais da imagem. M´etodos nessa categoria assumem que os caracteres em uma linha.

(28) ´ ´ 2.4 TECNICAS BASEADAS EM AGRUPAMENTO DE VIZINHOS MAIS PROXIMOS. 13. encontram-se alinhados e pr´oximos uns aos outros. T´ecnicas nessa categoria come¸cam o processo de detec¸c˜ao da inclina¸c˜ao atrav´es do agrupamento dos pixels pretos na imagem em componentes conectados para identifica¸c˜ao dos caracteres e, depois, agrupam esses caracteres em blocos maiores, de acordo com alguma caracter´ıstica de similaridade. Por fim, o ˆangulo de inclina¸c˜ao ´e calculado baseando-se em distˆancias e outros relacionamentos espaciais entre as linhas de texto. ´ O algoritmo de Avila e Lins [7] inicialmente busca os menores retˆangulos (blocos) que envolvem os caracteres e desenha linhas imagin´arias que acompanham as linhas de texto desses blocos, como exemplificado na Figura 2.6. Essas linhas s˜ao usadas para detectar ambas inclina¸c˜ao e orienta¸c˜ao (retrato/paisagem). Os principais passos desse algoritmo podem ser resumidos da seguinte forma: 1. Rotule os componentes conectados; 2. Para cada bloco B : (a) Localize o bloco N que ´e vizinho mais pr´oximo do bloco B ; (b) Agrupe uma linha de texto partindo dos blocos B e N ; (c) Detecte o ˆangulo de inclina¸c˜ao e a orienta¸c˜ao da linha de texto; (d) Detecte a orienta¸c˜ao cima-baixo da linha de texto; 3. Detecte a inclina¸c˜ao total do documento.. ´ Figura 2.6 Agrupamento em linhas do algoritmo de Avila e Lins: (a) detec¸c˜ao dos blocos dos componentes conexos e (b) constru¸c˜ao da linha imagin´aria.. Lu et al. [20] propuseram uma t´ecnica para estimar o ˆangulo de inclina¸c˜ao observando “corredores de pixels brancos”que percorrem o espa¸camento entre-linhas do texto..

(29) ´ ˜ 2.5 TECNICAS BASEADAS EM CORRELAC ¸ AO-CRUZADA. 14. A orienta¸c˜ao do documento ´e tamb´em detectada atrav´es da an´alise de ascendentes e descendentes. O algoritmo de Shivakumara e Kumar [2] detecta regi˜oes de texto na imagem com o agrupamento dos caracteres na imagem atrav´es do chamado “crescimento de bordas”(boundary-growing). Nessa t´ecnica os retˆangulos contendo os caracteres (bounding boxes) s˜ao expandidos em uma largura calculada a partir da altura m´edia dos caracteres. A intersec¸c˜ao dessas expans˜oes agrupam os caracteres em palavras. Linhas imagin´arias para encontrar o ˆangulo de inclina¸c˜ao s˜ao tra¸cadas seguindo os caracteres agrupados atrav´es de regress˜ao linear. Saragiotis e Papamarkos [22] utilizaram regras para filtrar os caracteres da imagem baseando-se no tamanho e em caracter´ısticas geom´etricas, como densidade de pixels pretos, ´area e propor¸c˜ao entre altura e largura dos componentes conectados. Dessa forma, apenas os caracteres s˜ao utilizados no c´alculo da inclina¸c˜ao e componentes que n˜ao representem texto, como componentes gr´aficos, devem ser eliminados. Em seguida, os caracteres s˜ao agrupados em palavras de acordo com a distˆancia entre eles para ent˜ao serem agrupados em linhas de texto. Linhas imagin´arias s˜ao tra¸cadas na base das linhas de texto atrav´es de regress˜ao linear. O ˆangulo de inclina¸c˜ao ´e calculado a partir dessas linhas. A novidade no trabalho de Saragiotis ´e a possibilidade de detectar mais de um ˆangulo na imagem, um ˆangulo diferente para cada grupo de palavras. T´ecnicas nesta categoria exigem a existˆencia de uma regi˜ao m´ınima de linhas de texto na imagem. Al´em disso, ´e importante ressaltar que a efetividade desse tipo de t´ecnica ´e dependente da qualidade da binariza¸c˜ao utilizada e do n´ıvel de ru´ıdo presente na imagem. Imagens ruidosas — como o exemplo da Figura 2.7 — podem sofrer interferˆencia durante a detec¸c˜ao da inclina¸c˜ao. J´a o custo computacional ´e associado `a etapa de detec¸c˜ao dos componentes conectados e n˜ao ´e necess´ario testar v´arios ˆangulos para encontrar a inclina¸c˜ao correta. 2.5. ´ ˜ TECNICAS BASEADAS EM CORRELAC ¸ AO-CRUZADA. As t´ecnicas baseadas em correla¸c˜ao partem do princ´ıpio que o texto sem inclina¸c˜ao possui uma estrutura horizontal homogˆenea. No geral, as t´ecnicas nessa categoria fazem a divis˜ao da imagem em faixas verticais e calculam alguma medida de correla¸c˜ao entre faixas adjacentes para encontrar o ˆangulo de inclina¸c˜ao do documento. Na t´ecnica descrita por Akiyama e Hagita [23], a imagem ´e dividida em diversas.

(30) ´ ˜ 2.5 TECNICAS BASEADAS EM CORRELAC ¸ AO-CRUZADA. 15. Figura 2.7 Exemplo de imagem ruidosa que pode interferir na detec¸c˜ao de inclina¸c˜ao.. faixas verticais de mesma largura e um perfil de proje¸c˜ao horizontal ´e computado para essas faixas. Calcula-se a correla¸c˜ao entre proje¸c˜oes adjacentes e, cada faixa ´e deslocada verticalmente at´e que a melhor correla¸c˜ao entre as faixas seja encontrada. Na Figura 2.8, F 1, F 2 e F 3 s˜ao as faixas verticais do documento, L ´e o deslocamento que atinge maior correla¸c˜ao. O ˆangulo de inclina¸c˜ao θ ´e calculado como o arco-tangente da raz˜ao entre o deslocamento m´edio e a largura da faixa.. Figura 2.8 C´alculo do ˆangulo de inclina¸c˜ao θ a partir do deslocamento que resulta em maior correla¸c˜ao entre as faixas.. Gatos et al. [25] propuseram a extra¸c˜ao da correla¸c˜ao das faixas verticais extra´ıdas de uma imagem pr´e-processada por um filtro de emba¸camento (smoothing) horizontal. A largura das faixas foi determinada experimentalmente sendo igualmente espa¸cadas e para cada faixa uma “assinatura”´e gerada, atribuindo valor 1 para linhas que contenham pelo menos 1 pixel preto. A seguir, a correla¸c˜ao ´e extra´ıda de um par de assinaturas. No trabalho desenvolvido por Avanindra [26], ao inv´es da correla¸c˜ao ser calculada para a imagem inteira, ela ´e calculada sobre pequenas regi˜oes selecionadas aleatoriamente, sem a necessidade de uma segmenta¸c˜ao pr´evia para distinguir as regi˜oes textuais de figuras..

(31) ´ 2.6 TECNICAS BASEADAS EM PARALELOGRAMOS. 16. Avanindra utilizou a amostragem de Monte Carlo para selecionar regi˜oes sobre as quais devem se realizar o c´alculo da correla¸c˜ao. T´ecnicas baseadas em correla¸c˜ao-cruzada geralmente exigem a existˆencia de uma regi˜ao m´ınima de texto para o bom funcionamento da t´ecnica, que garantem a homogeneidade horizontal da imagem e s˜ao sens´ıveis a diagrama¸c˜oes muito complexas. 2.6. ´ TECNICAS BASEADAS EM PARALELOGRAMOS. A t´ecnica baseada em paralelogramos foi recentemente introduzida por Chou et al. [3] e baseia-se na id´eia de que um documento ´e composto por uma combina¸c˜ao de componentes retangulares, tais como linhas de texto, figuras, tabelas, etc. A id´eia de Chou et al. ´e tra¸car linhas em v´arios ˆangulos e encontrar aquele que forma paralelogramos que melhor se adaptem aos componentes da imagem. A detec¸c˜ao de inclina¸c˜ao atrav´es do m´etodo dos paralelogramos ´e o foco deste trabalho, sendo detalhado nos cap´ıtulos seguintes. Um novo algoritmo baseado no m´etodo dos paralelogramos ´e apresentado na Se¸c˜ao 3.2 e foi publicado no Simp´osio Brasileiro de Computa¸c˜ao Gr´afica e Processamento de Imagens (SIBGRAPI 2008) [27]. A vantagem do uso de paralelogramos ´e a capacidade de lidar com diversos tipos de diagrama¸c˜oes, sendo independente tamb´em do idioma existente no texto, pois n˜ao se baseia na an´alise minuciosa de caracter´ısticas dos caracteres. Al´em disso, n˜ao exige a existˆencia de uma ´area m´ınima de texto plano, podendo encontrar a inclina¸c˜ao de documentos contendo pouco (ou nenhum) texto. Na Se¸c˜ao 3.3 uma modifica¸c˜ao da t´ecnica dos paralelogramos ´e apresentada para detec¸c˜ao de m´ ultiplas inclina¸c˜oes em imagens de documentos manuscritos. 2.7. ´ ˜ DE INCLINAC ˜ OUTROS METODOS PARA DETECC ¸ AO ¸ AO. Outros m´etodos s˜ao ainda divulgados na literatura sem que perten¸cam a uma das classes listadas anteriormente. Sauvola e Pietikainen [28] propuseram uma t´ecnica para detec¸c˜ao de inclina¸c˜ao tratando a imagem do documento como regi˜oes de textura e analisando a dire¸c˜ao do gradiente de sub-regi˜oes da imagem. Chen e Haralick [30] apresentaram um algoritmo em opera¸c˜oes morfol´ogicas de abertura e fechamento [32]. Uma opera¸c˜ao recursiva de fechamento com elementos estruturantes de 2x2 ou 3x3 pixels ´e executada com a finalidade de conectar caracteres, palavras.

(32) ´ ˜ DE INCLINAC ˜ EM DOCUMENTOS MANUSCRITOS 2.8 TECNICAS PARA DETECC ¸ AO ¸ AO. 17. e outros componentes. Aghajan et al. [31] propuseram uma interpreta¸c˜ao do problema de inclina¸c˜ao como um problema da determina¸c˜ao da dire¸c˜ao de ondas eletromagn´eticas. O algoritmo de Aghajan ´e capaz de detectar m´ ultiplos ˆangulos de inclina¸c˜ao na imagem, sendo robusto `a presen¸ca de f´ormulas ou diagramas no documento. 2.8. ´ ˜ DE INCLINAC ˜ EM DOCUMENTOS MATECNICAS PARA DETECC ¸ AO ¸ AO NUSCRITOS. Embora a detec¸c˜ao de inclina¸c˜ao de documentos impressos tenha sido vastamente explorada, a detec¸c˜ao de inclina¸c˜ao de documentos manuscritos continua pouco investigada. Chin et al. [33] investigaram algumas t´ecnicas, tais como a transformada de Hough e an´alise de proje¸c˜ao de histogramas, para determinar qual m´etodo ´e mais adequado para lidar com trechos de texto manuscrito. O autor concluiu que a transformada de Hough ´e o m´etodo mais eficaz para aplica¸c˜ao em documentos manuscritos, mas que t´ecnicas mais r´apidas podem ser empregadas na detec¸c˜ao da inclina¸c˜ao de manuscritos. Kapoor et al. [34] utilizaram a transformada de Radon confrontando-a com a transformada de Hough para an´alise da inclina¸c˜ao em palavras manuscritas de v´arios escritores diferentes. Analisou que a transformada de Hough detecta mais picos no plano de Hough mas que ´e mais custosa em termos de tempo computacional. Al´em disso, a transformada de Radon apresentou melhor desempenho sobre imagens com ru´ıdo. O trabalho de Kavallieratou et al. [35] apresenta um m´etodo baseado no perfil de proje¸c˜ao horizontal do documento e em sua distribui¸c˜ao de Wigner-Ville. O objetivo ´e lidar com documentos impressos e manuscritos simultaneamente e detectar um ˆangulo global na imagem. Roy et al. [36] propuseram uma abordagem para corre¸c˜ao da inclina¸c˜ao utilizando uma pr´evia segmenta¸c˜ao do texto manuscrito. Roy et al. avaliam algumas caracter´ısticas, tais como algumas distˆancias medidas dentro de um u ´nico caractere e distˆancia entre os caracteres e utiliza palavras Bangla como um estudo de caso de caracteres cursivos. O segundo m´etodo proposto por Postl em [37] calcula a transformada de Fourier bidimensional [32] da imagem do documento e analisa o espectro de potˆencia para calcular o ˆangulo de inclina¸c˜ao do documento..

(33) ´ ˜ DE INCLINAC ˜ EM DOCUMENTOS MANUSCRITOS 2.8 TECNICAS PARA DETECC ¸ AO ¸ AO. 18. Tabela 2.1 Classifica¸c˜ao dos principais algoritmos para detec¸c˜ao de inclina¸c˜ao.. M´ etodo. Proje¸c˜ao. Transformada de Hough. Autores Postl [8] Baird [9] Ciardiello et al. [10] Bagdanov e Kanai [11] Ishitani [12] Li et al. [13] Hinds et al. [14] Le et al. [15] Min et al. [16] Pal e Chaudhuri [17] Amin e Fischer [18] Vailaya et al. [19] Singh et al. [6] Pal e Chaudhuri [17]. Caracter´ısticas documentos complexos predominˆancia de regi˜oes textuais documentos complexos (revistas) documentos sem (ou pouco) texto documentos complexos v´arios layouts documentos complexos documentos complexos documentos com tabelas documentos complexos documentos complexos documentos complexos documentos contendo texto documentos complexos. ´ Avila e Lins [7] Lu et al. [20] Smith [21] Shivakumara e Kumar [2] Saragiotis e Papamarkos [22]. documentos documentos documentos documentos documentos. Akiyama e Hagita [23] Yan [24] Gatos et al. [25] Avanindra [26]. m´ ultiplas inclina¸c˜oes documentos contendo texto predominˆancia de texto mistura de texto e figuras mistura de texto e figuras, diver-. Chou et al. [3]. sos idiomas documentos complexos, diversos. Mascaro e Cavalcanti [27]. idiomas documentos complexos, diversos. Sauvola e Pietikainen [28] Sun e Si [29]. idiomas, presen¸ca de ru´ıdo documentos complexos documentos complexos, contendo. Agrupamento de vizinhos mais pr´oximos. Correla¸c˜ao-Cruzada. Paralelogramos. Gradiente. contendo texto contendo texto contendo texto contendo texto contendo texto com. texto e com intervalo entrelinhas maior que intervalo entreMorfologia SLIDE. Chen e Haralick [30] Aghajan et al. [31]. caracteres documentos complexos documentos com algumas regi˜oes n˜ao textuais.

(34) CAP´ITULO 3. ALGORITMOS PROPOSTOS 3.1. ˜ INTRODUC ¸ AO. O m´etodo proposto por Chou et al. [3] citado no Cap´ıtulo 2 como a t´ecnica que introduziu o m´etodo baseado em paralelogramos, baseia-se na id´eia de que um documento pode ser considerado uma combina¸c˜ao de objetos retangulares dispostos separadamente na imagem. Esse objetos retangulares s˜ao, por exemplo, as linhas de texto, as figuras, os separadores de um formul´ario ou tabela, etc. A id´eia do algoritmo de detec¸c˜ao de inclina¸c˜ao proposto por Chou et al. ´e construir paralelogramos em v´arios ˆangulos e decidir qual dentre eles melhor se adapta aos objetos na imagem. Para construir os paralelogramos, linhas paralelas s˜ao desenhadas sobre a imagem (as scan lines) em um dado ˆangulo θ tendo como referencial o eixo horizontal da imagem. Uma scan line ´e uma linha com um pixel de espessura que cruza a imagem em um ˆangulo da esquerda para a direita. A imagem ´e ainda verticalmente dividida em regi˜oes de tamanho fixo, chamadas slabs, conforme a Figura 3.1(a) exemplifica. Ao dividir a imagem em slabs, tamb´em se divide as scan lines formando as se¸c˜oes. Chou et al. sugerem o uso de um slab de 450 pixels de largura para imagens produzidas a uma resolu¸c˜ao de 300dpi. Como esperado, o slab mais `a direita pode ser menor que os demais (em uma leitura da esquerda para a direita), caso a largura da imagem n˜ao seja um valor m´ ultiplo do tamanho do slab. Na fase de constru¸c˜ao dos paralelogramos, cada se¸c˜ao ´e examinada em um determinado ˆangulo. Se essa section contiver pelo menos um pixel preto, ela ´e pintada de cinza, caso contr´ario, permanece branca. Sections cinza adjacentes formam os paralelogramos. As scan lines s˜ao tra¸cadas em diferentes ˆangulos e o tamanho da regi˜ao n˜ao coberta por paralelogramos ´e calculada. Como exposto na Figura 3.1(a)-(c), quando as linhas s˜ao tra¸cadas no mesmo ˆangulo da ˆ inclina¸c˜ao do documento, a regi˜ao branca no plano de fundo ´e maior. Angulos positivos rotacionam as linhas no sentido anti-hor´ario e ˆangulos negativos rotacionam as linhas no sentido hor´ario. 19.

(35) ˜ 3.1 INTRODUC ¸ AO. 20. Figura 3.1 (a) Uma imagem com −6◦ de ˆangulo de inclina¸c˜ao. (b) Paralelogramos constru´ıdos a −6◦ . (c) Paralelogramos constru´ıdos a 1◦ .. Dessa maneira, o ˆangulo que apresentar a maior regi˜ao branca ´e considerado o ˆangulo de inclina¸c˜ao do documento. A Figura 3.1(b) mostra as scan lines desenhadas a −6◦ ,. que ´e o mesmo ˆangulo de inclina¸c˜ao do documento (Figura 3.1(a)). Figura 3.1(c) mostra os paralelogramos com as scan lines a 1◦ . Como pode ser observado, a regi˜ao branca de fundo a −6◦ ´e maior que a +1◦ .. A Figura 3.2 apresenta mais exemplos da constru¸c˜ao de paralelogramos. Pode ser. observado que, quando o ˆangulo de inclina¸c˜ao est´a pr´oximo ao ˆangulo real, os paralelogramos se adaptam melhor aos componentes da imagem e a regi˜ao branca de plano de fundo ´e maior. O algoritmo de Chou et al., realiza uma busca completa por ˆangulos entre −15◦ e +15◦ ,. mas a maioria dos documentos digitalizados no dia-a-dia possuem uma pequena inclina¸c˜ao em torno de 0◦ . Esse algoritmo ´e ainda vulner´avel a ru´ıdo e a outros componentes, tais como grandes quantidades de barras verticais e componentes manuscritos que podem estar presentes na imagem. Essas duas caracter´ısticas mostram a necessidade de uma melhoria no algoritmo proposto por Chou et al. a qual ser´a apresentada na se¸c˜ao a.

(36) ˜ EM IMAGENS DE DOCUMENTOS21 3.2 NOVO ALGORITMO PARA ESTIMATIVA DE INCLINAC ¸ AO. Figura 3.2 (a) Uma imagem com +8◦ de ˆangulo de inclina¸c˜ao. (b) Paralelogramos constru´ıdos a +8◦ . (c) Paralelogramos constru´ıdos a −2◦ .. seguir. 3.2. ˜ EM IMAGENS NOVO ALGORITMO PARA ESTIMATIVA DE INCLINAC ¸ AO DE DOCUMENTOS. As modifica¸c˜oes no algoritmo de Chou et al. descritas nesta se¸c˜ao est˜ao relacionadas a trˆes aspectos: 1. Na forma de medir a regi˜ao branca (Se¸c˜ao 3.2.1); 2. Na forma de percorrer o espa¸co de busca pelo melhor ˆangulo de inclina¸c˜ao (Se¸c˜ao 3.2.2); 3. Uma modifica¸c˜ao para evitar a indesejada interferˆencia de ru´ıdo e de separadores verticais (Se¸c˜ao 3.2.3). 3.2.1. An´ alise da ´ area do plano de fundo. No algoritmo original de Chou et al., para detectar o ˆangulo de um documento calcula-se a maior ´area branca dentre os ˆangulos testados. Para medir o tamanho da regi˜ao branca em um dado ˆangulo θ, Chou et al. propuseram contar o n´ umero de se¸c˜oes brancas encontradas nesse ˆangulo θ. O c´alculo do tamanho da regi˜ao branca ´e realizado da seguinte maneira:.

(37) ˜ EM IMAGENS DE DOCUMENTOS22 3.2 NOVO ALGORITMO PARA ESTIMATIVA DE INCLINAC ¸ AO. Se um pixel preto for detectado em uma se¸c˜ao Ent˜ ao pule essa se¸c˜ao e mova para a pr´oxima Sen˜ ao incremente o contador de se¸c˜oes brancas de um. No entanto, quando o valor do ˆangulo aumenta (positiva ou negativamente), o n´ umero total de se¸c˜oes cobrindo a imagem ´e alterado, sendo um problema para o algoritmo. Como ilustrado na Figura 3.3(a), a 0◦ tem-se n scan lines, que coincide com o n´ umero de linhas na imagem. Na Figura 3.3(b), as scan lines s˜ao rotacionadas e o n´ umero total de scan lines agora ´e igual a n+a, sendo a ´e o n´ umero de scan lines extras. Para fazer uma avalia¸c˜ao justa, espera-se que o n´ umero total de se¸c˜oes permane¸ca constante para cada ˆangulo testado. Em outras palavras, se o total de se¸c˜oes em certo ˆangulo θ ´e 1.000, por exemplo, o total de se¸c˜oes deve ser 1.000 para todos os demais ˆangulos. Como mostrado na Figura 3.3(b), uma parte da imagem precisa ser ignorada para garantir que o total de se¸c˜oes permane¸ca constante. De forma que apenas a parte superior (ou inferior) da imagem deve ser considerada. Isso ´e um problema j´a que as partes desconsideradas podem conter componentes para ajudar na estimativa de inclina¸c˜ao do documento. Por outro lado, devido `a divis˜ao por slabs, mesmo ignorando a parte superior ou inferior, um n´ umero diferente de se¸c˜oes por ˆangulo ´e produzido. Isso ocorre porque na parte superior e inferior da imagem as linhas s˜ao menores que aquelas no meio do documento — representadas na Figura 3.3(b) pelas linhas pontilhadas. Por exemplo, na Figura 3.3(a) h´a 3 slabs, ent˜ao o n´ umero total de se¸c˜oes ´e 3 ∗ n. Na Figura 3.3(b). o n´ umero total ´e mudado por causa das linhas menores (linhas pontilhadas); algumas se¸c˜oes desaparecem e outras tˆem o tamanho reduzido. Outro problema com a abordagem de Chou et al. ´e o fato de que o procedimento de. contar o n´ umero de se¸c˜oes brancas atribui o mesmo peso para se¸c˜oes com n´ umero de pixels diferentes. Assim, se¸c˜oes pequenas contendo apenas uma pequena quantidade de pixels tˆem, na fase de an´alise, peso equivalente a se¸c˜oes com o tamanho completo do slab. Isso ocorre na parte inferior (ou superior) da imagem e tamb´em nas se¸c˜oes do u ´ltimo slab `a direita (novamente, considerando uma leitura da esquerda para a direita). Baseado nisso, ao inv´es de usar o n´ umero de se¸c˜oes brancas, uma alternativa mais eficiente para medir a regi˜ao branca ´e usada nesta disserta¸c˜ao (e publicada em [27]) avaliando a regi˜ao branca atrav´es da sua ´area. Assim, ao inv´es de contar o n´ umero de se¸c˜oes brancas, conta-se o n´ umero de pixels brancos (i.e., o n´ umero de pixels que n˜ao ´e coberto por paralelogramos)..

(38) ˜ EM IMAGENS DE DOCUMENTOS23 3.2 NOVO ALGORITMO PARA ESTIMATIVA DE INCLINAC ¸ AO. Figura 3.3 (a) Um documento com scan lines desenhadas a 0◦ . (b) As scan lines desenhadas a um ˆangulo diferente de 0◦ . O n´ umero total de scan lines cresce com as linhas pequenas extras.. Uma forma eficiente de medir essa ´area evitando a constru¸c˜ao da imagem com paralelogramos ´e dada por:. Se nb Ent˜ ao wc = wc + ss ( . ) Sabendo que nb significa que nenhum pixel preto foi detectado na se¸c˜ao em quest˜ao, wc ´e um contador que armazena o n´ umero de pixels brancos e ss ´e o tamanho da se¸c˜ao. Essa estrat´egia naturalmente atribui um peso `a se¸c˜ao proporcional ao seu tamanho. Um benef´ıcio de usar a ´area do plano de fundo ´e que n˜ao ´e necess´ario preocupar-se em fixar o n´ umero total de se¸c˜oes; essa informa¸c˜ao ´e preservada pela ´area total (n´ umero de pixels) do documento em todos os ˆangulos. Assim, a imagem inteira pode ser usada para estimar o ˆangulo e nenhuma regi˜ao precisa ser ignorada. 3.2.2. Reduzindo o Espa¸co de Busca. Para encontrar o ˆangulo de inclina¸c˜ao da imagem, Chou et al. propuseram varrer v´arios ˆangulos e escolher, dentre eles, aquele que apresentasse uma regi˜ao branca maior. Para isso, a busca pelo ˆangulo de inclina¸c˜ao correto ficou limitada ao intervalo [−15◦ ,+15◦ ]..

(39) ˜ EM IMAGENS DE DOCUMENTOS24 3.2 NOVO ALGORITMO PARA ESTIMATIVA DE INCLINAC ¸ AO. Usar um intervalo de busca ´e uma pr´atica comum em outras t´ecnicas [9, 38, 39, 30] sem perda na taxa de precis˜ao porque documentos digitalizados reais geralmente tˆem um ˆangulo de inclina¸c˜ao pequeno. Para reduzir o tempo de processamento, ao inv´es de procurar dentre todos os ˆangulos entre −15◦ e +15◦ , Chou et al. propuseram a seguinte estrat´egia: 1. Busque pelo melhor ˆangulo β entre [−15◦ ,+15◦ ] com um passo de 2◦ ; 2. Busque o melhor ˆangulo γ dentre os trˆes ˆangulos: β − 1, β e β + 1; 3. Finalmente, busque pelo melhor ˆangulo δ dentre [γ − 1,γ + 1] com um passo de 0, 1◦ . O melhor ˆangulo em cada passo acima ´e aquele que atinge o maior n´ umero de se¸c˜oes brancas (na nossa abordagem, seria a maior ´area branca) e δ ´e o ˆangulo de inclina¸c˜ao final estimado para o documento. Para exemplificar a significˆancia de um ˆangulo de 0, 1◦ na corre¸c˜ao de inclina¸c˜ao, um documento de tamanho A4 digitalizado a 300dpi difere 4 pixels a cada 0, 1◦ . Uma alternativa para acelerar o primeiro dos trˆes passos citados ´e observar a varia¸c˜ao no tamanho da regi˜ao branca calculada a cada ˆangulo. Esse tamanho cresce `a medida que o ˆangulo das scan lines aproxima-se da inclina¸c˜ao real do documento e decresce `a medida que o ˆangulo das scan lines se distancia da inclina¸c˜ao real. No entanto, esse comportamento desejado n˜ao ´e seguido quando o n´ umero de se¸c˜oes ´e utilizado para medir o tamanho da regi˜ao branca. Por outro lado, a ´area da regi˜ao branca ´e uma op¸c˜ao que apresenta esse comportamento desejado. Na Figura 3.4 ´e mostrado o comportamento da medida da regi˜ao branca no primeiro passo do algoritmo — quando se busca o ˆangulo β entre [−15◦ ,+15◦ ] com um passo de 2◦ . Na Figura 3.4(a) mostra-se um documento digitalizado com um ˆangulo de inclina¸c˜ao pr´oximo de 0◦ (algumas regi˜oes da imagem foram ocultadas para fins de preserva¸c˜ao de identidade). Na Figura 3.4(b) mostra-se o comportamento do contador de brancos ´ poss´ıvel observar que utilizando o n´ umero de se¸c˜oes brancas, proposto por Chou et al. E o m´etodo original de Chou et al. falhou, pois os ˆangulos pr´oximos de −15◦ e +15◦ tˆem. os maiores valores da curva. Isso ocorre devido ao tamanho e `a varia¸c˜ao no n´ umero de se¸c˜oes brancas, como discutido anteriormente. A Figura 3.4(c) apresenta o comportamento da varia¸c˜ao do tamanho da regi˜ao branca medida atrav´es da ´area, como ´e proposto aqui. Pode-se observar que, pr´oximo de 0◦ , o.

(40) ˜ EM IMAGENS DE DOCUMENTOS25 3.2 NOVO ALGORITMO PARA ESTIMATIVA DE INCLINAC ¸ AO. contador assume seu maior valor e decresce quando as scan lines se distanciam de 0◦ . A Figura 3.4(d) mostra a curva da medida da ´area branca do mesmo documento, agora inclinado em 7◦ . Pode-se observar que o pico da curva ocorre justamente em +7◦ . O comportamento da curva pode ser u ´til para parar a busca pelo ˆangulo β mais cedo. Em outras palavras, se for detectado que o contador de brancos est´a decrescendo, pode-se parar a busca pelo ˆangulo β e pular para o pr´oximo passo. Outro ponto a ser considerado nos casos reais ´e que a maioria dos documentos digitalizados possui um ˆangulo de inclina¸c˜ao pr´oximo de 0◦ . Assim, a proposta neste trabalho ´e come¸car a busca avaliando primeiramente o ˆangulo 0◦ e observar o comportamento da curva.. Figura 3.4 (a) Um documento digitalizado com um ˆangulo pr´oximo de 0◦ . (b) Varia¸c˜ao do tamanho da regi˜ao branca do documento sendo medida atrav´es do n´ umero de se¸c˜oes brancas, como foi proposto por Chou et al. (c) Varia¸c˜ao do tamanho da regi˜ao branca do documento sendo medida atrav´es da ´area. (d) Varia¸c˜ao do tamanho da regi˜ao branca do documento inclinado a +7◦ sendo medida atrav´es da ´area..

(41) ˜ EM IMAGENS DE DOCUMENTOS26 3.2 NOVO ALGORITMO PARA ESTIMATIVA DE INCLINAC ¸ AO. Definindo B(θ) como a medida da regi˜ao branca (no caso proposto: a ´area do plano de fundo) uma alternativa proposta neste trabalho para acelerar a busca pelo ˆangulo de inclina¸c˜ao ´e: testar inicialmente os ˆangulos 0◦ , +2◦ e −2◦ para verificar se B(0◦ ) ´e maior que B(+2◦ ) e B(−2◦ ). Se for maior, a busca por β encerra e 0◦ ´e atribu´ıdo a β. Caso contr´ario, a busca continua no sentido positivo ou negativo, de acordo com o ˆangulo (+2◦ ou −2◦ ) que apresentar maior ´area branca, com um passo de 2◦ . Nesse caso, a busca por. β encerra quando o valor de B(θ) come¸car a decrescer. A busca por γ ocorre de forma an´aloga `a proposta por Chou et al. pesquisando entre os trˆes ˆangulos β − 1, β e β + 1.. Por fim, a busca por δ ocorre entre o intervalo [γ − 0, 6◦ ; γ + 0, 6◦ ] com um passo de 0, 1◦ .. Diferentemente da busca por δ proposta de Chou et al., que pesquisa o intervalo. [γ − 1◦ , γ + 1◦ ], a busca pelo ˆangulo δ, na nova proposta, ´e acelerada pesquisando apenas. o intervalo [γ − 0, 6◦ ; γ + 0, 6◦ ]. Isso ´e feito para evitar a busca em ˆangulos que n˜ao est˜ao. pr´oximos ao pico, evitando redundˆancia.. Na Figura 3.5 apresenta-se um esquema com o espa¸co de busca percorrido durante a busca pelos ˆangulos γ e δ. Supondo que o ˆangulo γ escolhido seja β, o ˆangulo real de inclina¸c˜ao estar´a nas vizinhan¸cas de β, mas, numa distˆancia n˜ao maior que β ± 0, 5, pois. este espa¸co est´a mais pr´oximo aos outros ˆangulos do espa¸co de busca por γ. A proje¸c˜ao em cinza representa o intervalo coberto pelo ˆangulo β. Assim, n˜ao ´e necess´ario percorrer este espa¸co no u ´ltimo passo do algoritmo — a busca por δ. No entanto, para evitar interferˆencia de m´ınimos locais que poderiam ser causados por ru´ıdo, ao inv´es de usar o intervalo [γ − 0, 5◦ ; γ + 0, 5◦ ], prop˜oe-se utilizar o intervalo [γ − 0, 6◦ ; γ + 0, 6◦ ].. Figura 3.5 Espa¸co pesquisado na busca pelos ˆangulos γ e δ.. O algoritmo descrito acima ´e resumido da seguinte forma: 1. Busque pelo melhor ˆangulo dentre 0◦ ,2◦ ,−2◦ . Se B(0◦ ) > B(−2◦ ) e B(0◦ ) > B(+2◦ ).

Referências

Documentos relacionados

3 O presente artigo tem como objetivo expor as melhorias nas praticas e ferramentas de recrutamento e seleção, visando explorar o capital intelectual para

O PROGRAMA AGENTES LOCAIS DE INOVAÇÃO, por este Edital, torna público a Retificação do Edital 03/2011, a Lista de Convocados para Realização das Dinâmicas de Grupo e

An optimized set of loading (tension), frequency and number of cycles was obtained. Concerning the method validation, using modified T-test samples in fresh and humidity-aging

It can be concluded from the results obtained for the indoor air temperature and velocity distribution that the heat pump technology is a good option to promote thermal comfort

Para avaliar a toxicidade dos compostos in vitro utilizou-se testes colorimétricos (MTT) em formas tripomastigotas (cepa Y) e em macrófagos J774A.1, além de ensaios

A correlação significativa entre a presença de zona afótica na caverna e de riqueza total e de troglóbios (Tabela 1) pode se dever meramente ao fato de cavernas

F I G U R E 1   Schematic representation of the experiment undertaken to test different routes of oestradiol benzoate administration for cervical dilation prior to

O Design Thinking Canvas para jogos veio mostrar que é possível pensar em competitividade na concepção de artefatos, sem abrir mão da simplicidade, da