• Nenhum resultado encontrado

Análise dos êxitos e das falhas identificados a partir do teste

OS RESULTADOS DO TESTE DE AVALIAÇÃO

5. Análise dos êxitos e das falhas identificados a partir do teste

Do atrás exposto já verificámos que, embora em termos globais, a base de dados B se tenha revelado mais eficaz e mais eficiente, a base de dados A teve, em diversas situações, um melhor desempenho.

A partir de um exame atento dos elementos registados durante o teste, pudemos analisar as razões mais importantes dos êxitos e das falhas verificados em cada uma das bases de dados. BASE DE DADOS A

Êxitos

a) A principal razão, geradora de êxito nas pesquisas, foi o facto de o elemento "título" e todas as palavras suas componentes constituírem pontos de acesso. Embora nem sempre o título seja identificativo dos assuntos, o acesso através deste elemento permitiu uma maior revocação e a recuperação de registos que, de outra forma, não seriam recuperados.

Vejamos um exemplo:

— Numa questão sobre "forais", foram recuperados 20 registos relevantes, porque a palavra "foral" fazia parte dos títulos. Se assim não fosse, no acesso por assuntos não seriam recuperados tais registos, pois "foral" figura no campo referente ao título e no subcampo relativo à tipologia documental e não no subcampo "assunto/conteúdo".

b) Além dos títulos, todos os outros pontos de acesso (mesmo não sendo relativos ao conteúdo ideológico) permitem um aumento da capacidade de revocação, pois criam mais possibilidades de acesso à informação. É óbvio que, este aumento cia revocação se traduz, geralmente, numa diminuição da precisão (e, logo, num aumento do ruído).

c) É ainda de assinalar, como factor responsável pelos êxitos nas pesquisas, a existência de desenvolvidos resumos de conteúdo — onde se assinalaram os pontos de acesso — em cada uni- dade de descrição, os quais, embora redigidos em texto livre, são produto de uma análise bas- tante aprofundada.

Este aspecto é digno de realce, visto que esta prática não é muito comum nos Arquivos. Normal- mente, a descrição arquivística centra-se mais no registo dos elementos de identificação e nos caracteres físicos dos documentos, do que na análise do seu conteúdo.

Falhas

a) A razão fundamental, que contribuiu para a recuperação de registos não relevantes, foi a falta de precisão semântica da linguagem não-controlada. A sinonímia e a polissemia ocorrem

com muita frequência, não havendo forma de distinguir os vários significados dos termos homógrafos.

Apenas dois exemplos:

— Numa questão sobre o tema "honras" (significando circunscrição senhorial com privilégios e isenções) foram recuperados registos em que figurava a palavra "honra" no campo de título. Assim, além dos registos relevantes, foram também recuperados outros em que a palavra "honra" surgia no seguinte contexto: "...monumento em sua honra...".

— Numa questão sobre "bairros operários" foram recuperados registos referentes ao tema em causa, mas também muitos outros respeitantes a "bairros administrativos". Isto sucedeu pelo facto de a palavra "bairro" não ter precisão semântica.

b) Outra razão que justifica a recuperação de registos não relevantes, é o facto de, na linguagem não-controlada, serem usadas, sem qualquer critério, as formas singular e plural. A existência destas duas formas, levou a que, na pesquisa — para reduzir o número de interrogações à base de dados — utilizássemos a truncatura, sempre que possível. Com este dispositivo, numa só interrogação, são recuperados os registos cujos pontos de acesso figuram quer no singular, quer no plural. Porém, em diversas situações, a truncatura possibilitou a recuperação de registos não relevantes.

Vejamos também dois exemplos:

— Numa questão sobre "construção de casas", a utilização da truncatura, com a finalidade de pesquisar os termos "casa" e "casas" na mesma operação, originou a recuperação de registos refe- rentes a "casamento".

— Numa outra questão sobre "mercados", a truncatura, utilizada para o mesmo efeito, permitiu o acesso a registos sobre "mercadorias".

c) A falta de um campo apropriado para criar pontos de acesso por datas, também originou falhas na recuperação da informação.

Como já referimos, grande parte das questões envolvidas no teste implicavam uma limitação cronológica dos temas. A base de dados A apenas permite recuperar datas, desde que elas figurem nos respectivos campos ("data inicial" e "data final") ou sejam assinaladas entre <>, nos campos de preenchimento em texto livre.

Se, por exemplo, se pretender recuperar informação relativa ao século XV, um registo cujas datas extremas sejam, por hipótese, "1380-1600", não será recuperado.

d) O facto de, no léxico de pesquisa, não ser possível distinguir os pontos de acesso por assuntos, dos demais pontos de acesso, originou a recuperação de muitos registos repetidos, nas diversas interrogações relativas a uma mesma questão. Tais repetições implicam, obvia- mente, um maior gasto de tempo, na análise dos registos recuperados.

e) A falta de um vocabulário de indexação, onde1 estejam registados os pontos de acesso por

assuntos, implica, necessariamente, um maior número de interrogações à base de dados, face a cada questão, na tentativa de esgotar todos os pontos de acesso existentes, susceptíveis de recuperar informação relevante.

f) A inexistência de um dicionário de palavras vazias, ou seja, palavras a excluir automaticamente do léxico de pesquisa19, causa muitas vezes uma perda de precisão, sobretudo se for usada a taincatura.

Exemplo:

Se for usada a truncatura para recuperar informação relativa a "forais" (FORA$), com o objectivo de, na mesma interrogação, se recuperarem os registos em que a palavra figura no singular ou no plural, serão igualmente recuperados registos em que exista a palavra "fora", no campo de título, por exemplo. Se existisse um dicionário de palavras vazias, a palavra "fora" seria automatica- mente excluída do léxico de pesquisa.