• Nenhum resultado encontrado

A digitalização dos textos foi feita manualmente, página a página, com o auxílio de uma multifuncional Hewlett-Packard DeskJet 3050- J610a, que já vem acompanhada de programa próprio para escaneamento, mas não disponibiliza software de reconhecimento ótico.

106

Por isso, adquiri o programa TopOCR 11.0 em versão paga107. O processo de digitalização precisou ser repetido algumas vezes, pois o software do scanner em algumas das etapas lia apenas duas ou três páginas quando mais de vinte já haviam sido escaneadas. Assim, optei por escanear os livros em blocos de dez páginas para que contratempos fossem evitados e houvesse maior agilidade na captura. Desta forma, os blocos de textos foram escaneados, salvos em arquivos no formato Portable Document Format (.pdf) e numerados sequencialmente, por exemplo, ―thecallpt1‖ (The call of the wild – português, parte 1). O número das páginas também foi retirado.

O escaneamento de materiais com outros elementos, tais como notas de rodapé, tabelas, ilustrações, etc., exige maior atenção e um processo adicional para que possam ser removidos caso não venham a ser utilizados na pesquisa e também pelo fato de que os concordanciadores e programas de alinhamento não reconhecem as imagens, o que pode vir a causar problemas de leitura, de acordo com Olohan (2004). A relação entre imagens e texto verbal é complexa, conforme O‘Sullivan (2006, p.114) e quanto mais as fronteiras entre elas forem tênues, maiores as dificuldades encontradas pelo tradutor. A teórica aponta que a leitura do tradutor pode estar atrelada a essa relação texto verbal e não-verbal de tal forma que as ilustrações estimulam o tradutor a criar, a explicitar elementos que estão nas entrelinhas textuais ou nas lacunas do texto-fonte.

As ilustrações não integram o escopo desta pesquisa, embora esteja ciente da sua complexidade e importância na literatura infantojuvenil. Assim, todas elas foram suprimidas conforme a captura dos textos ia sendo realizada. Ademais, não haveria parâmetros comparativos com os textos-fonte, visto que os textos obtidos no Project Gutenberg não possuem ilustrações e por não apresentarem informação acerca das edições dos textos-fonte que serviram como base para as traduções. Apenas a título de informação, dos três textos-alvo apenas dois apresentavam ilustrações: Chamado selvagem, com 22 ilustrações (uma na entrada de cada capítulo: 7 no total e outras 15 espalhadas no texto) e Viagens de Gulliver, com 16 ilustrações. Não havia tabelas ou gráficos em nenhum deles e somente um, Viagens de Gulliver, trouxe

107

O programa tem uma interface simples, de fácil manuseio e além de funcionar com scanners também propicia a captura de imagens através de câmera digital, embora tal recurso não tenha sido utilizado nesta pesquisa.

notas de rodapé108 referentes a itens culturais apresentadas apenas como notas do ―editor‖.

Na sequência, os arquivos escaneados foram abertos no programa Top OCR 11.0 para que fosse feito o reconhecimento dos caracteres. Entre as línguas disponibilizadas no programa encontra-se a língua portuguesa, não havendo especificação se a variante é brasileira ou europeia. De toda forma, o fato de estar disponibilizada é decisivo na geração de menos erros no que diz respeito a características específicas da nossa língua, tais como, o uso de acentos (circunflexo, agudo e til) e a cedilha. Neste caso é precisa atentar para a escolha da língua no software antes da realização do reconhecimento de caracteres. Uma das lacunas do programa é a falta de recursos como o que considera a hifenização, ou seja, no caso da separação de sílabas, o que pode ocasionar erros quando as palavras são quebradas de uma linha para outra, como veremos abaixo, além da ausência de opção para mudança de língua do menu, que está disponível apenas em língua inglesa. A figura a seguir fornece uma ideia das dificuldades encontradas na correção do material:

Figura 10 – Erros do reconhecimento ótico de caracteres

108

As quatro únicas notas figuram no capítulo I. A primeira esclarece que ―libras‖ refere-se à libra esterlina, moeda corrente na Inglaterra. A segunda, terceira e quarta são conversões de medidas: pés para polegadas, polegadas para pés e jardas para pés, respectivamente. Em todas elas há referência/conversão à medida usada pela cultura-alvo: metro.

O programa TopOCR 11.0 permite que a visualização dos textos seja feita lado a lado, o que facilita a correção dos caracteres diretamente no programa. Após a abertura do arquivo escaneado no menu da esquerda (File > Open), apenas um clique no botão <OCR> gerou o reconhecimento de caracteres na janela à direita. Em seguida, foi feito o Spell Check (correção ortográfica). As palavras sublinhadas são aquelas que o programa apontou como as que precisavam ser corrigidas. No entanto, há palavras não detectadas pelo programa que estão com problemas e outras que estão corretamente grifadas, mas foram destacadas. Como é possível verificar na figura muitos foram os erros de reconhecimento no trecho ilustrativo: 1 – as palavras com separação silábica tiveram as letras próximas ao hífen suprimidas ou reconhecidas incorretamente (ocipação – ocupação; guerre ros – guerreiros; hc mens - homens) ; 2 – letras foram suprimidas independentemente das palavras serem separadas silabicamente (h – há; qu – que; Shakespear – Shakespeare); 3 – houve falha no reconhecimento de palavras com grafia correta (Sarraceno e apreciados); 4 – o corretor ajustou palavras separadas transformando-as em outras (sentimos tos – sentimentos; intervém los – intervalos; 5 – caracteres foram reconhecidos indevidamente (hc mens – ―c‖ em vez de ―o‖); 6 – letra capitular, bem como o número do capítulo não foram reconhecidos (Nos – Ãos; III - 111).

É importante ressaltar que a ausência do recurso de hifenização influenciou parcialmente no reconhecimento dos caracteres e que algumas palavras com acento foram reconhecidas, outras não. Defendo que a qualidade da cópia do material a ser escaneado influencia diretamente nesta etapa. Quanto melhor a cópia, menores as possibilidades de erros. Alguns problemas citados e apresentados na página ilustrativa não ocorreram em outros trechos escaneados. A figura abaixo mostra apenas dois erros que ocorreram em uma página inteira: não reconhecimento de letras (―v‖ em vez de ―o‖) e de espaçamentos (Masocavaleiro cristãoconhecia os). No último caso a tipografia do texto não colaborou para o reconhecimento dos espaçamentos

Figura 11 – Reconhecimento ótico de caracteres com número menor de erros

A partir da observação dos erros de leitura do OCR pude verificar que não havia um padrão que facilitasse o uso do recurso de localização (Search) e substituição (Replace). Assim, os textos foram salvos em formato de texto (.txt) e posteriormente corrigidos de forma manual. A fase seguinte corresponde ao alinhamento dos textos.