2.3 Digitalização de documentos arquivísticos
2.3.4 Recuperação de documentos e informações digitalizados
Planejar o método de recuperação dos documentos e informações digitalizados é tão importante quanto a definição de sua resolução, formato ou profundidade de cor. Um programa de digitalização somente trará resultados se a informação puder ser recuperada no
formato digital. Para tanto, expõe-se algumas alternativas que possibilitam recuperar a informação com rapidez e precisão.
Considerando que a digitalização será aplicada em determinado acervo, torna-se condição primordial que este conjunto de documentos seja parte integrante de uma política de gestão documental. A primeira consideração parte da adoção de um plano de classificação de documentos, instrumento que orienta a atividade de classificação de documentos agrupando- os em classes, subclasses e níveis subsequentes, atribuindo uma temporalidade de acordo com cada classe instituída. Isso repercute na definição do destino final dos documentos que pode ser a eliminação ou a guarda permanente, constituindo-se em um fator adicional para a definição dos conjuntos que terão prioridade na digitalização.
Quando não há a aplicação de atividades de gestão documental, como a classificação e avaliação, por exemplo, incorre-se na possibilidade de dispersão dos documentos. Consequentemente rompe-se a relação do documento com o seu contexto de produção, responsável por atribuir significado orgânico às informações. Ou seja, objetos digitais dissociados do seu contexto, mesmo que possam ser recuperados por algum mecanismo empírico de busca, dificilmente surtirão efeitos satisfatórios na resolução de tarefas e consecução de objetivos, seja para atividades administrativas ou funções culturais. Demais instrumentos de gestão documental também podem ser utilizados para recuperar a informação, como índices, tabelas de temporalidade, listagens, entre outros.
Quanto à tecnologia voltada para a recuperação de objetos digitalizados, destacam-se as ferramentas OCR11 (Reconhecimento Óptico de Caracteres) e ICR12 (Reconhecimento Inteligente de Caracteres). O OCR é utilizado para reconhecer caracteres em uma imagem (formada por um mapa de bits), facilitando a recuperação de termos e palavras que estão inseridos no documento digital. Torna-se vantajoso em documentos extensos ou com elevada densidade de dados e informações, casos em que a localização a olho nu representaria um gasto de tempo preponderante. Valle (2003, p.45) comenta que este recurso é utilizado “para texto tipografado ou impresso em alta qualidade, em que o tipo dos caracteres é bastante legível e regular. Na concepção de Willis (2001, p.28) o “OCR pode ser útil na automação da criação de páginas, indexação e processo de criação de resumos.”
Destaca-se que ao se adotar a funcionalidade do OCR, o software de reconhecimento dos caracteres deverá estar configurado para a língua portuguesa, caso contrário caracteres acentuados poderão não ser reconhecidos.
11 Do inglês Optical Character Recognition. 12
A segunda opção é o reconhecimento inteligente de caracteres (ICR), ferramenta que possibilita reconhecer caracteres manuscritos utilizando um sistema de “aprendizagem”, que identifica e agrega ao seu banco de dados os padrões de reconhecimento encontrados a cada novo documento. Valle (2003, p. 45) afirma que esta tecnologia “é utilizada para textos mais problemáticos como impressos matriciais, tipografias antigas, dactilografia e até mesmo manuscritos.” Isso permite indexar imagens digitais escritas manualmente, como documentos históricos, comentários e observações escritas em esboços de projetos, por exemplo.
As tecnologias do OCR e ICR apresentam funcionalidades que auxiliam na busca de dados e termos registrados nos representantes digitais, mas não permitem a recuperação de informações com mais complexidade ou subentendidas nos distintos contextos de produção. Dessa forma, retoma-se a ideia inicial de considerar a digitalização (e as respectivas alternativas de recuperação da informação) juntamente à gestão de documentos e informações, que dispõem dos instrumentos (plano de classificação, instrumentos de pesquisa, vocabulário controlado, etc.) que podem ser utilizados na recuperação dos objetos digitais.
Outra forma de identificação e recuperação das informações digitalizadas é através do uso de metadados. A citação de Nascimento et al. (2006), destacam esse contexto.
Os metadados possibilitam a administração eficaz do sistema de repositório dos objetos digitais e ajudam a limitar o acesso à propriedade intelectual da instituição. Informações de catalogação descritiva, facilitam para as pessoas localizarem aquilo que estão pesquisando num repositório. Porém, cada objeto requer um grande número de metadados para ser armazenado. (NASCIMENTO et al., 2006, p.37).
Nascimento et al. (2006) acrescentam que os metadados podem ser divididos em três categorias: descritivos - como criador/autor, título, data da criação, palavras-chave, etc.; - administrativos - como informações sobre a criação, controle de qualidade, direitos, etc.; e, - estruturais - descrevendo a estrutura interna do recurso digital e sua relação com suas partes. A utilização de padrões de metadados possibilita a recuperação da informação e compreensão das características técnicas do processamento da digitalização adotado. Os resultados podem ser mais efetivos, caso se adote padrões definidos internacionalmente, como destaca o CONARQ (2010, p. 17) citando as categorias dos metadados “metadados técnicos e o identificador do representante digital”.
Os metadados técnicos referem-se especificamente à captura digital, descrevendo e registrando o ambiente tecnológico (software e hardware), como, por exemplo, sistema
operacional, sistema de iluminação, etc., além das características físicas do documento, citando-se, por exemplo, o suporte, dimensão física original, entre outros.
Quanto ao identificador do representante digital, o CONARQ (2010, p.19) expõe que “deve-se utilizar um esquema para geração do identificador (file name) que não permita existir no acervo dois representantes digitais com identificadores iguais”. Acrescenta-se que o identificador seja unívoco, persistente, sucinto e consistentemente estruturado.
Portanto, para que a digitalização alcance resultados efetivos no acesso e/ou preservação da informação é fundamental estar associado a recursos de recuperação da informação, como instrumentos de gestão documental, recursos como OCR e ICR, além de metadados, garantindo que a informação transposta ao meio digital permaneça acessível quando necessário à resolução de determinada atividade.