• Nenhum resultado encontrado

A complementaridade das bases de dados

OS RESULTADOS DO TESTE DE AVALIAÇÃO

4. A complementaridade das bases de dados

Uma vez que, na análise global feita a partir dos valores das taxas de precisão e de ruído, verificámos a existência de 7 casos em que a base de dados A revelou melhor desempenho, e porque na análise comparativa dos resultados de cada questão — atrás apresentada e sintetizada nos quadros 18 e 19 — também a mesma base de dados se apresentou mais eficaz em variadas situações, decidimos proceder ao cálculo de mais duas medidas, com o fim de aprofundar a análise comparativa.

Trata-se do cálculo da taxa de coincidência ("overlap") e do ganho adicional ("incremental advan- tage"), que permitem avaliar comparativamente bases de dados1'.

Taxa de coincidência

Exprime a quantidade de documentos coincidentes e a quantidade de documentos divergentes, recuperados pelas bases de dados que se pretendem estudar comparativamente. É um bom indi- cador para comparar o desempenho de bases de dados, mesmo sem ter sido calculada a taxa de

13 Não analisámos o tempo gasto nas pesquisas, pois ele é função, sobretudo, do número de interrogações à base de dados Temos também consciência de que, as características do sistema informático, nomeadamente a velocidade do processador central e a capacidade de memória, têm influência no tempo dispendido nas pesquisas. A exagerada demora que ocorreu em certo tipo de pesquisas, especialmente nas que envolviam o uso de vários operadores booleanos, é um problema a analisar, sob o ponto de vista informático e não se relaciona com a linguagem de indexação.

' A maior eficiência só pode ser verificada, face ao processo de recuperação da informação. Numa análise de custos global, haveria que entrar em linha de conta também com os custos da entrada de dados, os quais, na base B, são sem dúvida mais elevados, pois a linguagem controlada requer mais tempo e maior esforço na indexação. De qualquer modo, a base de dados A também pressupõe um esforço considerável na elaboração dos resumos de conteúdo, pois há que proceder à aná- lise da documentação, da mesma forma que é feita na base B. Apenas são poupados o tempo e o esforço relativos à selec- ção dos conceitos e sua representação através dos descritores.

" Estas medidas foram já utilizadas por Richard Lytle na sua experiência de avaliação. (Cf.: LYTLE, Richard - o. c, p. 199-201)

revocação. A taxa de coincidência varia entre 0 e 1; se o seu valor for alto, significa que a maioria dos registos relevantes foram recuperados; se o seu valor for baixo, provavelmente, muitos registos relevantes ficaram por recuperar.

O seu cálculo obedeceu à seguinte fórmula:

n9 de reg. relev. recuperados nas duas bases de dados

ns de reg. relev. coincidentes nas duas bases de dados Medida do ganho adicional

Quantifica a vantagem (ou não) em juntar aos documentos recuperados por uma base de dados, os recuperados pela(s) outra(s) base(s) que se estuda(m) comparativamente.

O ganho adicional varia entre 0 (nenhum ganho adicional) e valores superiores a 1. O diagrama abaixo representa os registos considerados para o cálculo desta medida,

sendo os respectivos cardinais, os seguintes:

n = # (A \ B) = ns de registos recuperados pela base de dados A, mas não pela base

de dados B

(representa o ganho adicional por parte de B)

p = # (B \ A) = nu de registos recuperados pela base de dados B, mas não pela base

de dados A

(representa o ganho adicional por parte de A)

q = # (A D B) = na de registos recuperados pelas duas bases de dados

O ganho adicional calcula-se da seguinte forma:

n (ganho adicional pelo uso q + p da base de dados A)

p (ganho adicional pelo uso n + q da base de dados B)

Calculámos esta medida apenas relativamente aos registos relevantes recuperados. Para o efeito, entrámos em linha de conta com todos os registos "muito relevantes", "relevantes" e "pouco rele- vantes" recuperados, pois consideramos que todos eles contribuem com informação susceptível de responder a uma questão colocada e, portanto, representam ganho adicional.

Face aos resultados da taxa de coincidência calculada (ver Quadro 21), podemos verificar que, em média, mais de metade (54,1%) dos registos relevantes foram recuperados por ambas as bases de dados. No entanto, permanecem ainda 45,9%, que não foram recuperados pelas duas bases. Estes números são indicadores da capacidade de revocação16. De qualquer modo, para se medir,

com exactidão, esta capacidade, haveria que determinar, como já vimos, o número de registos relevantes existentes nas bases de dados. Mesmo que, por hipótese, a taxa de coincidência fosse de 100%, isso, só por si, não substituiria o cálculo da taxa de revocação, pois poderiam existir ainda outros registos relevantes, que ficavam por recuperar.

O "ganho adicional" ajuda ainda mais a comparar o desempenho das duas bases, pois permite avaliar qual delas apresenta maior capacidade de revocação e exprime a medida em que se traduz, de facto, a complementaridade entre as duas. Assim, se analisarmos os resultados do Quadro 22, podemos verificar que em 18 casos1", é maior o ganho adicional pelo uso da base de dados A,

associada à base de dados B; e, em 23 casos1", é superior o ganho adicional pela base de dados

B, associada à A. Em 7 questões não se verifica qualquer ganho adicional de parte a parte e, em outras 7 questões, o ganho adicional é igual para as duas bases.

Estes resultados permitem concluir que, apesar de, em termos globais, a base de dados B revelar, em cerca de dois terços das questões, um desempenho superior, a base de dados A proporcio- naria um significativo ganho adicional, quando associada aos resultados das mesmas questões, na base de dados B.

Podemos, pois, afirmar que as duas bases de dados se complementam, visto que só em 7 questões houve coincidência total nos registos relevantes recuperados. Na maioria dos casos, cada uma das bases contribuiu com algum ganho adicional para os resultados da outra. Daí que, o superior desempenho da base de dados B, tenha de ser encarado de uma forma relativa e não absoluta. Face a estes resultados, conclui-se que a combinação da linguagem controlada com a nào-contro- lada, numa mesma base de dados, se apresenta como o meio mais eficaz de conseguir um melhor desempenho. Além dos resultados obtidos com a pesquisa através dos descritores, poderão ainda recuperar-se mais registos se se proceder ã pesquisa em linguagem nâo-controlada. No caso da ARQBASE, esta linguagem permite o acesso aos vários campos da descrição. Não se trata, pois, de usar dois tipos de linguagens no acesso por assuntos, mas sim de procurar, através de palavras ou termos existentes nos diversos campos de cada registo, aceder a informação que, eventualmente, não seja recuperada por meio dos descritores.

O facto de apenas em 7 questões não se verificar qualquer ganho adicional, significa que é vantajoso dar ao utilizador as duas possibilidades de aceder ã informação — cie uma forma livre e através cie uma linguagem controlada. Assim, após a pesquisa por descritores, ele poderá ainda tentar obter mais informação utilizando, como pontos de acesso, palavras ou termos que considerar passíveis de representar a sua questão, ou escolhendo no léxico de pesquisa os pontos de acesso que achar adequados.

Fm nossa opinião, a linguagem não-controlada deverá ser uma possibilidade não excluída, mas sempre encarada como um complemento, ou melhor, um recurso, que pode traduzir-se em alguns ganhos, mas que acarreta também a recuperação de informação não relevante e de

"' No caso da avaliação efectuada por R. Lytle, os valores da taxa de coincidência e do ganho adicional, enquanto indicado- res da capacidade de revocação, permitiram confirmar o fraco desempenho dos dois métodos em análise.

17 A estes 18 casos deveriam associar-se mais duas questões, para as quais não foi possível calcular o ganho adicional, pelo facto de não terem sido recuperados quaisquer registos relevantes, pela base de dados II

1H A estes 23 casos dever-se-iam associar mais 3, para os quais também não foram recuperados registos relevantes, pela base de dados A e, portanto, não foi possível, igualmente, calcular o ganho adicional.

gasto de tempo e esforço, muitas vezes não recompensado. Apesar de tudo, os ganhos obtidos serão, em termos globais, compensadores do esforço e tempo dispendidos. Daí a razão de considerarmos importante manter as possibilidades actuais de pesquisa na ARQBASE. Porém, no que respeita ao acesso por assuntos, a linguagem controlada deverá substituir o método até agora usado, que consiste no estabelecimento dos pontos de acesso a partir de palavras ou frases do resumo de conteúdo.