• Nenhum resultado encontrado

A representação dos conceitos por termos de indexação: o uso de linguagem controlada

A INDEXAÇÃO POR ASSUNTOS APLICADA À ARQBASE: O USO DE IJNGUAGEM CONTRO LADA

4. A representação dos conceitos por termos de indexação: o uso de linguagem controlada

A última fase da indexação consiste na representação dos conceitos seleccionados através de uma linguagem documental, que permitirá determinar as rubricas que vão ser ponto de acesso na fase da pesquisa.

A opção face á linguagem a utilizar tem implicações, quer na própria indexação — fase de repre- sentação dos conceitos — quer na fase de recuperação da infonnação, ou seja, na pesquisa. Tecnicamente, consideram-se dois tipos de linguagem próprios para a indexação: a linguagem natural e a linguagem controlada. A primeira é aquela que é utilizada pelos próprios autores dos documentos, sendo por isso, uma linguagem livre, sem qualquer tipo de restrições ou controlo, a não ser nos casos em que a área temática da documentação já pressupõe uma terminologia ade- quada. A segunda é elaborada conscientemente com a finalidade específica de armazenar e recu- perar informação, pressupondo, por isso, um controlo do vocabulário utilizado e restringindo-o a um conjunto limitado de termos.

A ARQBASE não especifica qualquer tipo de linguagem para a indexação. Os pontos de acesso ao conteúdo são determinados a partir do resumo em texto livre (subcampo "assunto/conteúdo"), onde o indexador assinala palavras ou conjuntos de palavras entre os sinais de < >.

Apesar de não ser considerado qualquer vocabulário, especificamente concebido para a repre- sentação dos conceitos, também não se poderá falar em rigor do uso de linguagem natural.

19 Por exemplo, numa série de correspondência recebida, formada por 413 livros, com início em 1448 e extensiva até 1940, como é o caso da série "Próprias" do A.H.M.P., nenhum critério para a selecção dos conceitos pode ser objectivo.

O resumo é já o resultado da análise do conteúdo, sendo independente da linguagem dos próprios documentos. Preferimos, pois, dizer que a ARQBASE utiliza uma "linguagem não-controlada" para efeitos de indexação. A própria designação que utilizamos deixa perceber que o vocabulário de indexação não tem qualquer tipo de controlo terminológico. Assim, as palavras são usadas, indi- ferentemente, no singular ou no plural; podem empregar-se sinónimos ou quase-sinónimos, não havendo controlo sobre o número de termos equivalentes usados; as noções polissémicas não são distinguidas por nenhuma forma.

Tal linguagem, embora facilite e torne mais expedita a indexação pois não é gasto muito tempo na determinação e escolha dos termos — o que pode ser considerado uma vantagem — gera, no entanto, dificuldades no momento da pesquisa, fazendo então perder muito tempo e aumentando as possibilidades de acesso a documentação não relevante para as questões postas pelos utilizadores.

Como alternativa à linguagem não-controlada, decidimos aplicar à ARQBASE um vocabulário con- trolado, cujos "termos de indexação" representam os conceitos contidos nas séries arquivísticas, seleccionados após a identificação resultante da análise do conteúdo.

A identificação e selecção dos conceitos foi feita a partir dos resumos e de outros elementos da descrição arquivística (notas, por exemplo), existentes nas fichas do A.H.M.P. Aquando do tratamento documental dos fundos do Arquivo, a indexação fora feita paralelamente à descrição, tendo sido desenvolvida uma linguagem controlada, em actualização permanente, à medida que avançava o tratamento da documentação. Esta decisão foi tomada em virtude de se verificar a inexistência de qualquer tipo de instrumento de apoio à indexação ("thesaurus", lista de termos, léxico, etc.) passível de ser aplicado em Arquivos2". A linguagem elaborada incluía também

diversos termos que não representavam conceitos, mas que designavam, por exemplo, tipos documentais ou menções de responsabilidade contidos nas séries analisadas. Dado que a ARQBASE prevê subcampos específicos para a indicação de tais elementos e porque, na verdade, eles não deveriam fazer parte da linguagem de indexação, tivemos de proceder a uma revisão total do vocabulário, com o fim de excluir todos os termos não representativos do conteúdo ideológico. Por outro lado, houve também necessidade de conferir a indexação de cada registo incluído na base de dados, não só com vista a verificar a exactidão dos termos atribuídos, mas também para garantir a coerência na atribuição dos mesmos termos, a séries com conteúdo análogo-1. Por outro lado ainda, a revisão da linguagem foi necessária porque, a

partir da lista alfabética simples, de termos de indexação, desenvolvemos um vocabulário com a estrutura de um "thesaurus".

A criação de um vocabulário estruturado, isto é, com inclusão de relações semânticas entre os termos de indexação, acarreta um duplo benefício. Não só facilita a própria indexação, como também auxilia os utilizadores na medida em que sugere pistas para a pesquisa, graças à indi- cação das relações entre os termos. É, pois, um instrumento de apoio ao desenvolvimento das estratégias de pesquisa.

Criámos, portanto, uma lista de termos autorizados — que designamos por "lista de autoridade" — os quais constituem pontos de acesso à documentação tratada.

J" Recentemente, o Comité de Planification sur les Normes de Description, do Bureau Canadien des Archivistes editou uma obra da autoria de Elizabeth Black, dedicada ao controlo de autoridade em Arquivos, a qual representa um passo muito sig- nificativo face aos actuais trabalhos de normalização arquivística. Porém, nesta obra apenas sào contemplados os problemas relativos aos nomes de pessoas físicas e de colectividades, não sendo abordado o controlo de autoridade para aibricas de assunto. (Cf: BLACK, Elizabeth - Le Controle d'Autorité. Un Manuel Destiné aux Archivistes. [Ottawa], Bureau Canadien des Archivistes, 1991.)

21 Sobre esta questão, essencial para uma consistência da indexação, ver: MCCARTHY, Constance (o. c).

Tradicionalmente (ou seja, na literatura relativa às técnicas biblioteconómicas) o "controlo de autoridade' é considerado como um dispositivo inerente às funções de um catálogo e tem sido estudado e desenvolvido sobretudo no que concerne aos cabeçalhos a usar no catálogo de autores e títulos. Ele é concebido para gerir os pontos de acesso, estabelecendo-se uma forma única para cada rubrica, a qual constitui o cabeçalho autorizado. É ainda do âmbito do controlo de autori- dade a criação de remissivas para as formas não autorizadas e o registo das decisões tomadas face à escolha das rubricas de acesso22.

O principal objectivo do controlo de autoridade é, pois, manter consistência nos pontos de acesso à informação, seja num sistema manual, seja num sistema automatizado.

Apesar de a maior parte dos estudos sobre controlo de autoridade se dirigirem para os catálogos bibliográficos e, nomeadamente, para o controlo dos pontos de acesso na perspectiva da catalo- gação (aibricas de autores e tíailos), os fundamentos teóricos são os mesmos no caso das linguagens de indexação. Desenvolver uma linguagem de indexação controlada, não é mais do que aplicar os princípios do controlo de autoridade às rubricas de assuntos.

Nos anos 60 e 70, após a explosão dos sistemas de informação automatizados e as numerosas experiências de "indexação automática", que utiliza linguagens não-controladas, houve por parte de variados autores a tendência para considerarem que nos sistemas computorizados o controlo de autoridade não era necessário. Defendiam que as capacidades de pesquisa proporcionadas pelo computador dispensavam tal controlo23.

Porém, hoje em dia, e face à avaliação dos sistemas de informação, verifica-se que, embora haja mais custos de implantação de um sistema em que se desenvolve um trabalho de autoridade, os benefícios da linguagem controlada são suficientemente justificativos do seu uso, mesmo nos sistemas automatizados21.

De facto, um sistema de informação sem controlo nos pontos de acesso poderá ser bastante eficaz,em termos de pesquisa, mas não dá garantias ao utilizador de que ele recupera toda a informação existente e relevante para as suas questões.

Um dos graves problemas deste tipo de sistemas é que um utilizador não sabe quando deverá terminar uma pesquisa não sucedida. Poderão sempre existir ainda outros pontos de acesso que ele não "tentou", susceptíveis de recuperar a informação que pretende. Se, numa base de dados, um utilizador tenta localizar determinado(s) documento(s) e não o consegue fazer, o mais natural é que pense que, pura e simplesmente, ele(s) não existe(m) nessa base. A questão que se põe é,

22 Arlene Taylor define "trabalho cie autoridade" (authority work) como o processo de determinação da forma de um nome, título ou assunto, que será usado como cabeçalho num registo bibliográfico; determinação das remissivas necessárias; e determinação de relações desse cabeçalho com outros cabeçalhos de autoridade.

A mesma autora define "controlo de autoridade" como o processo que permite manter consistência nos cabeçalhos de um ficheiro bibliográfico, através da sua ligação a um "ficheiro de autoridade" (authority file). Este ficheiro de autoridade será constituído por um conjunto de "registos de autoridade" (authority records), os quais contêm as decisões tomadas no decurso do trabalho cie autoridade. (Cf.: TAYLOR, Arlene G. - Authority Files in Online Catalogs: an Investigation of Their

Value "Cataloging & Classification Quarterly", New York, 4 (3) Spring 1984, p. 1-17.)

A propósito, ver também; BURGER, Robert H. - Authority Control. The Creation, Use, Maintenance and Evaluation of Autho-

rity Records and Files. Littleton. Libraries Unlimited, 1985.

y Ver, por exemplo: SALTON, Gerard — A Comparison Between Manna! and Automatic Indexing Methods. "American Docu-

mentation", Washington, 20. Jan. 1969, p. 61-71; SVENONIUS, Elaine E. - An Experiment in Index Term Frequency. "Journal of the American Society for Information Science", Washington, 23 (2) Mar.-Apr. 1972, p. 109-121; JONES, Karen Sparck -

Automatic Indexing. "Journal of Documentation", London, 30 (4) Dec. 1974, p. 393-4.32; EREEDMAN, Maurice J.; MALINCO-

NICO, S. Michael, ed. lit. - The Nature and Future of the Catalog. Proceedings of the ALA's Information Science and Automa-

tion Division's 1975 and 1977Institutes on Catalog. Phoenix, Oryx Press, 1979 (vários capítulos).; SALTON, Gerard - Sugges- tions for Lihraty Network Design. "Journal of Library Automation", Chicago, 12, Mar. 1979. p. 39-52; VIEIRA, Simone Bastos - Indexação Automática e Manual: Revisão de Literatura. "Ciência da Informação". Brasília. \~ ( 1 ) Jan.-Jun. 1988. p. 43-57.

-' Ver historiai de experiências de avaliação de sistemas de recuperação de informação, neste mesmo estudo, capítulo 4. ponto 1.

porém, a de saber se ele esgotou todos os pontos de acesso criados para chegar à informação pretendida. Sem controlo de autoridade, esta questão fica em aberto, gerando-se o chamado "silêncio" da informação3.

Por outro lado, sabe-se que também é grave o problema do "ruído" nos sistemas baseados em linguagens não-controladas. Apesar de ser possível recuperar os documentos relevantes para resposta às questões dos utilizadores, geralmente verifica-se que o número de documentos recu- perados "a mais" (ou seja, não relevantes e, por isso, causadores do "aiído") obriga a uma inútil perda de tempo. Esta perda de tempo ocorre não só no momento da pesquisa no sistema de infor- mação, mas muitas vezes também na altura de consultar os documentos, pois em muitos casos só perante a documentação é que é possível determinar a sua não relevância face à questão colocada. Foi tendo em conta a vasta experiência no domínio da Biblioteconomia e dos sistemas de infor- mação automatizados, quanto ao uso de linguagens de indexação, bem como os resultados de diversos estudos de avaliação da eficácia* e da eficiência2" da recuperação da informação, que

decidimos optar por uma linguagem controlada2".