• Nenhum resultado encontrado

Os métodos de busca baseada no conteúdo permitem a localização dos itens documentais através da investigação direta do conteúdo dos dados, ao contrário dos métodos vistos anteriormente, que se baseiam nos metadados.

ACESSO 74

As técnicas aplicáveis dependem da natureza dos documentos que compõem o acervo.

4.3.1 Conteúdo textual codificado

Chamamos de conteúdo textual codificado aquele em que o texto é representado em nível de caractere. Nesse tipo de informação, é possível fazer a busca por palavras ou frases, utilizando algoritmos clássicos de buscas em seqüência, listas invertidas, e árvores digitais.

A simples busca por seqüências de caracteres — o recurso que a maioria dos sistemas oferece como busca em texto-livre, apresenta os mesmos problemas dos vocabulários não controlados: termos sinônimos fazem com que parte a informação relevante não seja encontrada, e a polissemia provoca o retorno de respostas espúrias.

A busca textual, entretanto, pode ser associada a tesauros, à análise da informação

semântica latente. Esses métodos permitem, com mais precisão, que o usuário encontre os

documentos de seu interesse [DUMAIS 88].

4.3.2 Conteúdo de imagens de texto

Nas imagens de texto, não temos os caracteres codificados individualmente. Nesses casos, para fazer uma busca por palavras e frases, é preciso antes fazer uma interpretação do conteúdo da imagem, na tentativa de reconhecer os caracteres ali

desenhados. (Seção 3.2.3)

A conversão para caracteres, quando se deseja apresentar ao usuário o texto convertido, requer taxas de reconhecimento bastante elevadas, mas quando a conversão é utilizada apenas para fins de localização, não é necessária tanta precisão. Uma técnica denominada OCR sujo1 aplica a busca aproximada em seqüências ao texto parcialmente

reconhecido por um OCR. Uma vez localizadas as seqüências desejadas, apresenta-se ao usuário a imagem de varredura original, ao invés do texto com erros.

ACESSO 75

4.3.3 Conteúdo visual

Uma das aplicações mais interessantes da tecnologia digital em acervos iconográficos é a possibilidade de utilizar métodos de busca que interpretam diretamente o conteúdo das imagens, ao invés de simplesmente confiarem nos metadados a elas associados.

Esses métodos de busca extraem características que tanto podem corresponder às dimensões de percepção humana como cor, textura e forma, quanto ao resultado de operações matemáticas como médias, histogramas, transformadas espectrais, etc. Em seguida eles utilizando métodos estatísticos ou de inteligência artificial para classificar as imagens do acervo. O usuário faz a pesquisa especificando uma imagem chave, e o sistema retorna todos os itens similares a ela.

Métodos de busca baseado em conteúdo costumam ser mais bem sucedidos em acervos especializados, em que as características visuais das imagens provocam uma classificação significativa. Assim, em um acervo que contenha apenas moedas, as características de textura, forma e cor são bons classificadores, permitindo ao usuário localizar itens de interesse. Em acervos muito variados, entretanto, esses métodos são menos bem sucedidos, pois um grande número de imagens não relacionadas irá apresentar características extraídas similares.

Um outro fator que ajuda o sucesso desses métodos é a regularidade das imagens. Se em um acervo de moedas, as fotografias forem feitas com o mesmo fundo monocromático, sob condições de foco e iluminação similares, o conteúdo de interesse (a moeda) irá ser o fator mais expressivo de diferença entre as imagens, e a classificação tenderá a agrupar os itens similares. Se, ao contrário, as imagens tiverem fundos texturizados e distintos, ângulos de iluminação diversos, equilíbrios de cor muito variados, esses elementos tenderão a interferir na classificação.

A busca no conteúdo visual já é fornecida em alguns sistemas comerciais, com bons resultados em acervos especializados, respondendo a critérios simples e específicos (e.g., localizar todos os carros vermelhos de um acervo de automóveis). Estão sendo estudados métodos cada vez mais sofisticados, que irão permitir no futuro, fazer buscas muito mais interessantes, por elementos temáticos e estilísticos (e.g., localizar todas as fotografias em que aparece determinada pessoa, localizar todos os quadros de um determinado pintor, etc.) [DEL BIMBO 99].

ACESSO 76

4.4 Conclusões do capítulo

O impacto da tecnologia digital sobre o acesso provoca uma completa mudança de perspectiva na preservação dos acervos, já que se antes as duas dimensões eram ortogonais ou até opostas, agora elas se tornam cooperantes, e mesmo interdependentes.

Por isso, a implantação de projetos digitais em instituições de custódia documental vai além da simples aquisição de equipamentos e sistemas, e considerações de ordem tecnológica — é preciso se preparar para as inevitáveis questões que o novo instrumento de acesso ao acervo suscita: repriorização das atividades de indexação convencional , compatibilização dos antigos instrumentos de pesquisa com os novos, questões de cessão de imagens e controle de copyright, impactos políticos e econômicos dos novos serviços sobre a organização, etc.

À medida que as modernas técnicas de busca baseada no conteúdo — com possibilidades tão interessantes quanto encontrar um trecho de melodia assoviado, todas as fotografias em que aparece determinado rosto, ou todos os manuscritos que falam de determinado assunto (através de uma análise da linguagem natural, não de simples palavras- chave) — forem se transmutando de promessas de pesquisa em realidades aplicáveis, o cotidiano do profissional de acervos, e os modelos de interação consulente/documentos praticados hoje terão de ser profundamente revistos.

PRESERVAÇÃO 77

5 Preservação

Para efeitos de preservação, a maior vantagem dos dados digitais é sua perfeita replicabilidade, que se explica por sua natureza numérica. Enquanto os dados analógicos estão sujeitos às imperfeições do mundo físico, que impedem a fidelidade da replicação, cada cópia digital é um clone, indistinguível do original. Em teoria, poderíamos regenerar a informação digital de um suporte ao outro eternamente, à medida que os originais fossem envelhecendo, enquanto ruídos e atenuações impediriam a informação analógica de gozar desta mesma perenidade.

A prática, entretanto, demonstra que a preservação digital apresenta desafios formidáveis, muito maiores que os da preservação convencional, devido não apenas à fragilidade de suas mídias, mas também à obsolescência da tecnologia que permite interpretá- los [CONWAY 97].

Neste capítulo exploramos os três suportes da informação digital mais usados contemporaneamente: os discos rígidos, as fitas magnéticas e os discos ópticos. Oferecemos não apenas informações sobre sua confiabilidade e durabilidade, mas também recomendações para utilizá-los de forma correta e segura.

Descrevemos, em seguida, alguns procedimentos capazes de prolongar a vida útil dos materiais digitais, combatendo simultaneamente a obsolescência e o envelhecimento dos suportes.

Finalizamos com algumas considerações importantes sobre a segurança de sistemas e informações.

PRESERVAÇÃO 78

Documentos relacionados