• Nenhum resultado encontrado

Protótipo da Biblioteca Digital da FBAUP

5.6. D IGITALIZAÇÃO E FORMATO DOS DOCUMENTOS

Segundo (WITTEN, 2003, p. 58) “… a digitalização é o processo de reunir material de biblioteca e

convertê-lo em documento electrónico onde pode ser armazenado e manipulado num computador”. A Biblioteca Digital de Arte é constituída por documentos que, pela sua natureza,

estarão sujeitos a determinados condicionalismos principalmente o livro antigo, as gravuras e os documentos arquivísticos. A Biblioteca tem no seu regulamento um artigo que diz respeito ao fundo antigo de reservados e arquivo, no qual estabelece procedimentos e restrições à cópia e digitalização de obras (UNIVERSIDADE DO PORTO. FACULDADE DE BELAS ARTES, 2009). Sendo um dos nossos objectivos preservar os documentos para memória futura, consideramos que o facto de fotografarmos ou digitalizarmos todos os documentos, disponibilizando-os online evitaria o manuseamento dos originais. No entanto, a Biblioteca beneficia financeiramente com o serviço de digitalizações pelo que, o acesso sem restrições iria eliminar, por completo, esta contrapartida. Decidimos então, pelo menos nesta fase, definir algumas restrições de acesso em função de cada tipo de documento. De igual forma, não podemos esquecer que alguns documentos estão abrangidos pelos direitos de autor, não sendo possível o acesso público (cf. ponto 5.7).

Características dos documentos

Antes de iniciarmos o processo de digitalização procedemos a uma avaliação prévia, do estado de conservação dos documentos e definimos os critérios de acesso para o utilizador. Grande parte do livro antigo e documentos de arquivo estão em boas condições de conservação, sendo relativamente fácil a sua leitura, o que auxiliou o nosso trabalho de digitalização dos documentos. As gravuras, por seu turno, apresentam manchas de humidade e algumas

– P

rotótipo da Biblioteca Digital da FBAUP

colecções nomeadamente, os Passos da Paixão de Cristo necessitam urgentemente de intervenção dado o estado avançado de deterioração.

Etapas para a Digitalização

A digitalização passa por duas fases distintas a primeira, diz respeito ao “scanning”, copiar uma imagem ou texto em formato digital e a

segunda, o reconhecimento por OCR (Optical Character Recognition). Em regra o reconhecimento por OCR necessita de uma resolução mínima de 300 dpi para uma fonte tamanho 10 ou maior, e entre 400 a 600 dpi para fontes inferiores (WITTEN, 2003, p. 61). Depois de analisados os documentos, concluímos que a maioria dos textos era manuscrito, não permitindo o reconhecimento por OCR (Arquivo). Por outro lado, apesar de não impedir a leitura os livros apresentam

manchas e quebras o que dificultaria o processo, além de que, dependendo da época, tínhamos o problema de reconhecimento do tipo de letra utilizada para impressão. Neste sentido, preferimos digitalizar todos os documentos a cores, com uma resolução de 200 dpi e, em alguns casos 300 dpi (Gravuras). O facto de digitalizarmos documentos com uma resolução superior aumentava o tempo de abertura do objecto, não sendo este o nosso objectivo, por isso decidimo- nos por uma resolução intermédia.

Por outro lado, o reconhecimento por OCR implica o cumprimento de uma série de procedimentos “… image acquisition, cleanup, page analysis, recognition, checking, and saving.” (WITTEN, 2003, p. 63) o que, pelo menos para a apresentação do protótipo não estávamos em condições de realizar, principalmente o processo de limpeza do documento e a análise da página, o que envolvia um trabalho moroso de segmentação, por blocos de texto, para verificarmos qual a melhor forma de interpretação. Para colmatar essa falha resolvemos, pelo menos para o arquivo, anexar ficheiros com resumos dos livros (livros de actas e listas de matrículas) (ver: registo em http://hdl.handle.net/123456789/1284). Os documentos textuais, como as teses e dissertações ou pré-print são reconhecidos por OCR. Neste caso, o DSpace faz a extracção automática do texto sempre que se apresenta em formato PDF, WORD, HTML.

FIG. 24 – Exemplo de livro antigo. In Libert, L. - Traité elementaire et pratique du dessin et de la peinture

– P

rotótipo da Biblioteca Digital da FBAUP

Formatos de digitalização

Atendendo à especificidade da colecção a disponibilizar, impunha-se definir critérios de preservação dos objectos pelo que, para além da cópia pública, produzimos para todos os documentos duas cópias privadas que ficarão gravadas no DSpace e em DVD, respectivamente. Em relação aos documentos textuais mantivemos inclusive os originais em formato TIFF/JPG. Todos os documentos com dimensões reduzidas (formato A4) foram digitalizados com o livro aberto, já os livros com dimensões superiores ao formato A3 (aberto) foram digitalizados página a página. Os documentos com dimensões superiores a A3 foram fotografados. Por questões de limitação temporal, alguns registos apresentam apenas a capa, sumário, capítulos ou ainda as primeiras 24 páginas. Neste caso, associado ao objecto surge a seguinte descrição: Ex. Cópia pública [24 pág.].

PDF (Portable Document Format) – Todos os documentos textuais foram digitalizados em formato TIFF/JPEG, recortados e posteriormente anexados (Combined Files) em formato PDF. Na cópia pública inserimos uma marca d’água e, na cópia privada, o acesso por password (restricted

opening and editing using password).

TIFF (Tagged Image File Format) – Todos os documentos de imagem foram fotografados em formato TIFF, com alta resolução, que guardamos em DVD para efeito de preservação. Como o DSpace permite esconder alguns formatos do público em geral, aproveitamos essa facilidade para guardar uma cópia que ficará visível apenas para o administrador do sistema (ver exemplo registo gravura Virgem Maria anexo 15).

JPEG (Joint Pictures Expert Group) – Convertemos todas as imagens de formato TIFF para JPG com baixa resolução, para cópia pública.

MOV (Formato de conversão para vídeo) – Optamos pelo formato em questão porque, de todos os testes de compressão realizados, este era o único que ocupava menos espaço no servidor (cerca de 20 MB). Da mesma forma para os vídeos produzimos duas cópias, a primeira em alta resolução e que ficará gravada em DVD e a segunda comprimida. Como o DSpace permite a criação de colecções ou documentos com acesso restrito, foi possível contemplar no protótipo a colecção de vídeos para apoio às aulas, que de outra forma não estaria disponível, por se encontrar abrangida pelos direitos de autor. Neste caso restringimos a colecção apenas aos docentes da FBAUP (criação de Groups – ver ponto 5.8), que poderão ter acesso aos vídeos após validação no sistema. Os restantes utilizadores terão permissões para acesso à lista de vídeos na vista de resultados (ver descrição da técnica para compressão dos vídeos, anexo 16).

– P

rotótipo da Biblioteca Digital da FBAUP

Em suma, aplicamos três formas de restrição a documentos: por password (cópia privada),

colecção (restrito a docentes) e formato do objecto (TIFF). Para os documentos textuais

utilizamos uma impressora digital para a cópia; o Microsoft Picture Manager para recortar as imagens e melhorar a qualidade de visualização utilizando a função de correcção automática; e o Acrobat Professional para anexá-las num ficheiro PDF, inserir marcas d’água e, em alguns casos, incluir restrições de acesso por password. Salienta-se que a máquina utilizada para a digitalização dos documentos envia as imagens para o e-mail, em ficheiros individuais, que foram sendo descarregados, sucessivamente, e depois tratados informaticamente. Tratando-se de imagens foram fotografadas (NIKON D100) em formato TIFF, convertidas para JPG, com baixa resolução e posteriormente introduzida a marca d’água a partir do software GIMP. No total foram digitalizados 318 documentos, sendo que em média, foram necessários três quartos de hora para digitalizar, meia hora para descarregar, hora e meia para recortar e melhorar a imagem, 15 minutos para combinar ficheiros em PDF, inserir marca d’água e restrições por password e por

último “adicionar as bitstreams” ou seja, carregar os ficheiros para o DSpace, totalizando cerca

de 3 horas de trabalho por documento. No total foram dispensadas 954 horas para tratamento da colecção protótipo e digitalizadas cerca de 4953 imagens.

Tabela 15 - Processo de digitalização – quadro global

Tipo de

documento N. Reg. digitalizadas N.º imagens digitalização Formato Resolução mínima Pública Privada Condições de acesso

Postais 49 113 TIFF/JPG 200 DPI JPG

C/compressão (528KB) TIFF S/compressão (2MB) Público Livro 33 916 TIFF/JPG (anexado em PDF) 200 DPI PDF C/compressão PDF S/Compressão (2MB) Marca d' água Catálogos 42 1417 TIFF/JPG (anexado em PDF) 200 DPI PDF C/compressão PDF S/Compressão (2MB) Marca d' água Folhetos 22 50 JPG (anexado

em PDF) 200 DPI PDF C/compressão PDF S/ Compressão (2MB)

Público

Cartazes 12 12 TIFF/JPG 200 DPI JPG

C/compressão TIFF S/ Compressão (2MB)

Público

Revistas 15 363 TIFF/JPG 200 DPI PDF

C/compressão PDF S/ Compressão (2MB) Marca d' água Artigos / Teses e dissertações 0 PDF Público Arquivo 42 2062 PDF 200 DPI PDF C/compressão PDF S/ Compressão (2 MB) Marca d' água

Vídeos 10 0 MOV Restrito a

docentes da FBAUP

Gravuras 20 20 TIFF/JPG 300 DPI JPG

C/compressão (528 KB) TIFF S/compressão (2 MB) Marca d' água

– P

rotótipo da Biblioteca Digital da FBAUP