• Nenhum resultado encontrado

Bases de dados, pesquisa bibliográficas e as estratégias de busca

2 A PRODUÇÃO DO CONHECIMENTO CIENTÍFICO, AS PESQUISAS BIBLIOGRÁFICAS E AS ESTRATÉGIAS DE BUSCA

2.2 Bases de dados, pesquisa bibliográficas e as estratégias de busca

Cunha (1989, p. 45) define bases de dados como “fontes de informação computadorizadas que podem ser pesquisadas num modo interativo ou conversacional através de um terminal de computador, telex ou mesmo um microcomputador”. Atualmente, as bases de dados estão disponíveis via Web e podem ser acessadas por computadores e celulares de marcas e formatos variados.

Cunha (1989) classifica as bases de dados em dois tipos: referenciais e fontes. As bases referenciais “são aquelas que contêm referências ou informações secundárias, que identificam as várias fontes primárias” (1989, p. 46), as quais correspondem às bases de dados bibliográficos e às bases de dados de diretórios. Em relação às bases de dados de fontes, o autor as define como “aquelas que

7 A nova ortografia recomenta o uso do hífen diante do prefixo meta quando o elemento seguinte

começa com a letra A, entretanto metanálise é considerada a forma oficial, grafia única presente no VOLP (Voc. Ort., Academia Bras. Letras, 2009). A elisão da letra a e a raiz met- com o mesmo significado de meta está registrada no Aurélio, no Houaiss (BACELAR, 2014).

contêm informação completa, as quais não requerem do usuário ir a outras fontes para obter respostas” (CUNHA, 1989, p. 47). O autor as classifica em numéricas ou de dados estatísticos, texto completo, de dicionários, de gráficos.

Na área da Saúde, destacam-se as bases de dados de evidências, que também podem ser de fontes primárias ou secundárias, nas quais podem ser recuperadas referências ou textos completos de revisões sistemáticas, ensaios clínicos, avaliações de tecnologias em Saúde, entre outros. As bases de dados de fontes primárias caracterizam-se por disponibilizar referências ou textos completos de trabalhos originais, o que demanda mais tempo na avaliação crítica dos trabalhos.

Bernardo, Nobre e Jatene (2004, p. 105) consideram fontes secundárias “quando as informações originais são reproduzidas, comentadas e avaliadas criticamente8, de acordo com a metodologia preconizada pela epidemiologia clínica”.

Ainda segundo Bernardo, Nobre e Jatene (2004, p. 106),

(...) as fontes primárias são mais úteis para localização de informações no desenvolvimento de trabalhos de pesquisa (...), enquanto as fontes secundárias servem para aplicação prática, economizando o tempo que seria gasto na seleção e avaliação crítica da qualidade das informações.

Lopes (2002a) observa que as bases de dados ampliaram a qualidade das buscas bibliográficas por disponibilizar vários pontos de acesso, permitindo, por exemplo, realizar buscas e recuperação nos títulos e resumos dos trabalhos com uso de linguagem natural; buscas com Sistemas de Organização do Conhecimento nos campos de descritor; buscas por autor, ano de publicação, títulos de periódicos, assim como busca com operadores de truncagem e proximidade. A autora considera que os sistemas contemplados nas bases de dados “possibilitam o planejamento de estratégias de busca com maior nível de complexidade envolvendo vários conceitos na mesma estratégia” (2002a, p. 60).

8Não entraremos nas especificidades relativas à avaliação crítica das revisões sistemáticas, pois

nosso foco é a busca e recuperação de trabalhos originais para elaboração das mesmas, assim como a busca e recuperação das revisões sistemáticas.

Como vimos, no nosso escopo, as bases de dados armazenam referências e/ou trabalhos completos e uma das formas de se ter acesso a essas informações é por meio da realização de pesquisas bibliográficas que Boccato define:

a pesquisa bibliográfica busca a resolução de um problema (hipótese) por meio de referenciais teóricos publicados, analisando e discutindo as várias contribuições científicas. Esse tipo de pesquisa trará subsídios para o conhecimento sobre o que foi pesquisado, como e sob que enfoque e/ou perspectivas foi tratado o assunto apresentado na literatura científica. Para tanto, é de suma importância que o pesquisador realize um planejamento sistemático do processo de pesquisa, compreendendo desde a definição temática, passando pela construção lógica do trabalho até a decisão da sua forma de comunicação e divulgação (BOCCATO, 2006).

Boccato (2006), com base em Salomon9 (2004), estabelece três etapas para a

realização de pesquisas bibliográficas:

1) a fase da preparação que corresponde à delimitação do tema, conhecimento da terminologia da área por meio de SOC, contato com pesquisadores da área, delimitação do período a ser pesquisado, seleção de fontes de informação, busca e recuperação nas bases de dados especializadas.

2) fase da realização: “compreende a realização do fichamento do documento localizado e obtido que, após o procedimento da leitura, será selecionado definitivamente para elaboração da redação do trabalho científico (BOCCATO, 2006. p. 268).

3) Fase da comunicação: “nessa etapa dar-se-á a redação do trabalho científico por meio do produto científico já determinado de acordo com os propósitos da pesquisa” (BOCCATO, 2006. p. 269).

Observa-se na primeira etapa proposta por Boccato (2006) que realizar uma pesquisa bibliográfica requer habilidades no uso dos SOC, como os tesauros, terminologias, listas de cabeçalhos de assunto; no uso de SRI que subjazem às bases de dados especializadas, assim como no registro, avaliação e sistematização

das estratégias de busca e fontes de informação utilizadas. Essas etapas fazem parte da construção do conhecimento científico, em especial, na Saúde Baseada em Evidências.

Um dos pontos centrais na recuperação de informação é o uso da linguagem na elaboração e aplicação de estratégias de buscas nas bases de dados especializadas, pois requer conhecimento sobre o funcionamento das bases de dados e dos sistemas de organização de conhecimento. Nesse contexto (LOPES, 2002a, p. 61) define estratégia de busca como uma “técnica ou conjunto de regras para tornar possível o encontro entre uma pergunta formulada e a informação armazenada em uma base de dados”. Lopes (2002a) cita Bates (1987, 1988) como a primeira autora a conceituar estratégia de busca teoricamente. Segundo Bates (198710, 198811), citada por Lopes (2002a, p. 62) estratégia de busca é o “estudo da

teoria, princípios e prática de planejar e executar táticas e estratégias de busca”. Lopes apresenta definições do dicionário Aurélio, versão eletrônica de 1996, para as palavras estratégia, busca e tática, para assim contribuir na conceituação de estratégia de busca.

A partir desses conceitos, pode-se inferir que, para alcançar a resposta pretendida pelo usuário de informação, faz-se necessária a execução de movimentos e operações táticas, ora restringindo os resultados alcançados, ora ampliando-os para obtenção de informações mais relevantes, conforme o pedido de busca demandando (LOPES, 2002a, p. 61).

Diante do exposto, uma estratégia de busca relaciona-se à ampliação e à restrição de resultados apontados por Lopes (2002a) ao mapeamento, seleção e uso de termos e conceitos ora genéricos, ora específicos, para se alcançar uma recuperação de informação com relevância, revocação e precisão. Avalia-se que o uso de termos mais genéricos ou mais específicos diz respeito:

 ao objetivo da pesquisa;

 à etapa da pesquisa: o início da pesquisa geralmente demanda a realização de estratégias de busca com termos e conceitos mais genéricos. À medida

10 BATES, Marcia J. How to use controlled vocabularies more effectively in online searching. Online,

v. 12, n. 6, p. 45-56, 1988.

que a pesquisa avança, a especificidade ganha contornos mais definidos o que são refletidos na linguagem de busca com a utilização de termos específicos;

 ao desenvolvimento do Domínio e consequentemente da respectiva

linguagem de especialidade. Quanto maior o maior o grau de especialização do domínio, mais especificidades serão representadas na linguagem;

 ao nível de conhecimento sobre o assunto pesquisado por parte dos usuários

(especialistas e bibliotecários).

Os SOC, em especial os tesauros e as listas de cabeçalhos de assuntos, podem ser utilizados de duas formas nas bases de dados:

1- SOC não integrado à base de dados: são utilizados na entrada do sistema, no momento da indexação do documento, por meio de digitação dos termos selecionados, em campo específico, como por exemplo o campo 650 do formato Machine Readable Cataloging (MARC); e na saída do sistema quando os usuários (especialistas e bibliotecários) utilizam o tesauro para consultar termos considerados adequados para recuperar documentos e informações sobre determinados assuntos. Essa forma de uso dos SOC gera as seguintes situações:

 é necessário que não haja erros de digitação e registro de um termo com formas tipográficas distintas (caixa alta, baixa), pois cada forma de registro de um mesmo termo gera uma entrada, e portanto disjunção dos documentos de mesmo assunto. Nesse contexto, Lopes (2002a, p. 61) cita o estudo de Bourne12 (1977) sobre o impacto dos erros ortográficos nas buscas on-line, no

qual o autor avalia que “a quantidade de erros de ortografia, formas variantes de palavras e mesmo erros ortográficos dos termos de indexação afetam consideravelmente os resultados de busca”.

 Todos os termos equivalentes considerados adequados dos pontos de vista semântico, morfológico e tipográfico deverão ser usados tanto na construção, das estratégias de busca para que se possa obter um resultado consistente.

12 BOURNE, C.P. Frequency and impact of spelling errors in bibliographic databases. Information Processing and Management, v. 13, p. 1-12, 1977.

2- SOC integrado à base de dados: quando um SOC é integrado a uma base de dados significa que ao utilizar um termo para busca serão recuperados documentos com o termo selecionado e termos equivalentes (que podem ser sinônimos, quase-sinônimos, deslocamentos genéricos e/ou variantes morfológicas e sintáticas), bem como os subordinados a ele na hierarquia. No caso da recuperação pelas hierarquias, algumas bases de dados possibilitam a restrição da recuperação somente com o termo desejado e não com os subordinados a ele (caso existam). PubMed e Embase são exemplos de bases que possuem essa funcionalidade.

Lopes (2002b) pontua as seguintes vantagens e desvantagens no uso de SOC e linguagem natural na busca e recuperação de informação em bases de dados:

Quadro 2 - Vantagens e desvantagens do uso de vocabulários controlados13

na busca e recuperação de informações em bases de dados especializadas

Vantagens Desvantagens

Controle total do vocabulário de indexação, minimizando os problemas de comunicação entre indexadores e usuários.

Custos: a produção e manutenção da base de dados terá despesas maiores com a equipe de indexadores. Será necessário ainda manter pessoal especializado na atualização do tesauro.

Com o uso de um tesauro e suas respectivas notas de escopo, os indexadores podem assinalar mais corretamente os conceitos dos documentos.

O vocabulário controlado poderá não refletir adequadamente os objetivos do produtor da base, caso esteja desatualizado.

continua

13 Lopes (2002b) utiliza o termo vocabulário controlado e não sistemas de organização do

conhecimento para refererir-se aos vários tipos de linguagem de organização e recuperação de informações, por isso o termo foi mantido nos quadros.

continuação

Vantagens Desvantagens

Se bem constituído, o vocabulário controlado poderá oferecer alta recuperação e relevância e, também, ampliar a confiança do usuário diante de um possível resultado negativo.

Um vocabulário controlado poderá se distanciar dos conceitos adequados para a representação das necessidades de informação dos usuários.

As relações hierárquicas e as remissivas do vocabulário controlado auxiliam tanto o indexador, quanto o usuário na identificação de conceitos relacionados.

Necessidade de treinamento no uso dos vocabulários controlados tanto para os intermediários, quanto para os usuários finais.

Redução no tempo de consulta à base, pois a estratégia de busca será mais bem elaborada com o uso do tesauro.

Desatualização do vocabulário controlado poderá conduzir a falsos resultados.

conclusão Fonte: LOPES (2002b, p. 47)

Quadro 3 - Vantagens e desvantagens do uso da linguagem natural na busca e recuperação de informações em bases de dados especializadas

Vantagens Desvantagens

Permite o imediato registro da informação em uma base de dados, sem necessidade de consulta a uma linguagem de controle.

Os usuários da informação, no processo de busca, precisam fazer um esforço intelectual maior para identificar os sinônimos, as grafias alternativas, os homônimos etc.

Processo de busca é facilitado com a ausência de treinamentos específicos no uso de uma linguagem de controle.

Haverá alta incidência de respostas negativas ou de relações incorretas entre os termos usados na busca (por ausência de padronização).

Termos de entrada de dados são extraídos diretamente dos documentos que vão constituir a base de dados.

Custos de acesso tendem a aumentar com a entrada de termos de busca aleatórios.

continuação

Vantagens Desvantagens

Temas específicos citados nos documentos podem ser encontrados.

Uma estratégia de busca que arrole todos os principais conceitos e seus sinônimos deve ser elaborada para cada base de dados (ex: nomes comerciais de substâncias químicas não ocorrem no Chemical Abstracts).

Elimina os conflitos de comunicação entre os indexadores e os usuários, pois ambos terão acesso aos mesmos termos.

Perda de confiança do usuário em uma possível resposta negativa.

conclusão Fonte: LOPES (2002b, p.48)

A partir das reflexões apresentadas aliadas à experiência de nove anos nos processos de busca e recuperação de informações em bases de dados especializadas na área da Saúde para produção do conhecimento científico do Departamento de Ortopedia e Traumatologia-DOT-FMUSP, consideram-se usuários os especialistas no Domínio, assim como os bibliotecários que fazem as buscas e recuperação das informações, sendo que para ambos os casos observa-se que há níveis de habilidade e compreensão no uso dos SOC e nas bases de dados. Do mesmo modo, considera-se que esses processos precisam ser planejados e registrados de forma sistematizada para que, além de recuperar informações e documentos para que conhecimentos sejam produzidos ou revisitados, também componham a metodologia dos trabalhos científicos. Observamos que se inicialmente a prioridade é apenas a recuperação dos documentos, o caminho percorrido para se chegar a eles – ou seja, a documentação do processo - muitas vezes fica em segundo plano e é frequentemente esquecido, tornando-o pouco reprodutível ou verificável. Isso ocorre em função da falta de consciência sobre a necessidade de planejamento e sistematização das ações de busca e recuperação de informações. A Saúde Baseada em Evidências reforça essa necessidade considerando um dos critérios fundamentais de avaliação dos trabalhos que é a reprodutibilidade.

Uma das formas de alcançar a reprodutibilidade no contexto de busca e recuperação de informações na Saúde Baseada em Evidências é com a construção de estratégias de busca sensível ou sensibilizada e a identificação e validação dos filtros de pesquisa (termos). As estratégias de busca sensibilizadas se caracterizam pela integração de vários equivalentes com o operador booleano OR (BRASIL, 2011). Os filtros de pesquisa referem-se a:

uma estratégia de busca predefinida tradicionalmente projetada para recuperar evidência de alta qualidade (por exemplo, a partir de ensaios clínicos randomizados, revisões sistemáticas) e / ou provas referentes a uma das áreas genéricas de interesse clínico (diagnóstico, prognóstico, etc). Filtros de pesquisa são um tipo de estratégia de busca desenvolvida através de um processo rigoroso com o objetivo de facilitar a recuperação ideal, ao longo das dimensões pré-definidas (por exemplo, sensibilidade14, precisão,

etc) (PETROVA15 et al., 2012, tradução nossa).

Isto posto, ressalta-se que verificamos na literatura algumas formas de identificação e validação de filtros de pesquisa como: por análise estatística de frequência de palavras em amostra de citações (Glanville, et al, 2006; Petrova et al., 2012); mapeamento manual de termos por meio de citações (VRIES et. al, 2011);

avaliação de filtros de pesquisa por especialistas por meio cheklist (Boynton et al., 1998) que resultou na criação do website InterTASC Information Specialists' Sub- Group Search Filter Resource-ISSG onde pode-se obter filtros validados para tipos de estudo, assim como submeter filtros para avaliação (GLANVILLE, et al., 2008).

14 Sensibilidade: número de artigos relevantes identificados por uma busca, como uma proporção do

número total de artigos relevantes. Também conhecido como “revocação” (PETROVA, et al., 2012, tradução nossa).

15 a predefined search strategy traditionally designed to retrieve high-quality evidence (eg, from

randomized controlled trials, systematic reviews) and/or evidence pertaining to one of the generic areas of clinical concern (diagnosis, prognosis, etc). Search filters are a type of search strategy done that has been developed through a rigorous process and makes claims to facilitating optimal retrieval, along predefined dimensions (eg, sensitivity, precision, etc) (PETROVA15 et al., 2012).

O ISSG Checklist para Avaliação de Filtro de Pesquisa é projetado para ser abrangente. Sua estrutura segue o ciclo de vida do processo envolvido no desenvolvimento de um filtro de pesquisa padrão ouro, seleção do termo de pesquisa, desenvolvimento de estratégia, testes e validação por meio de comparação com outros filtros. Pode levar algum tempo para ser concluído, pois deve fornecer uma visão clara sobre a qualidade e adequação de um filtro. O cheklist não é exclusivo. Ele não "rejeita" filtros de pesquisa que foram projetados informalmente ou não foram testados ou validados. Ele, no entanto, permite que bibliotecários e outros possam diferenciar facilmente entre filtros validados com base em provas e os de um projeto menos rigoroso (GLANVILLE16 et al., 2008, p. 360, tradução nossa).

Puga (2010) apresenta os seguintes exemplos de estratégias de busca sensibilizadas e filtros de pesquisa para os medicamentos penciclovir e oxcarbazepine e para epilepsia:

Quadro 4 - Exemplos de estratégias de busca sensibilizadas para EPLEPSY

REFRACTORY e para os medicamentos PENCICLOVIR,

OXCARBAZEPINE

Termos Estratégias de busca sensiblizadas EPLEPSY

REFRACTORY

("Epilepsy"[Mesh]) OR (Epilepsy) OR (Epilepsies) OR (Epileptic Seizures) OR (Epileptic Seizure) OR (Seizure, Epileptic) OR (Seizure Disorder) OR (Seizure Disorders) OR (Seizures, Epileptic) OR (Single Seizure) OR (Seizure, Single) OR (Seizures, Single) OR (Single Seizures) OR (Aura) OR (Auras) OR (Awakening Epilepsy) OR (Epilepsy, Awakening) OR (Epilepsy, Cryptogenic) OR (Cryptogenic Epilepsies) OR (Cryptogenic Epilepsy) OR (Epilepsies, Cryptogenic) OR (REFRACTORY EPILEPSY)

PENCICLOVIR ("penciclovir "[Substance Name]) OR (9-(4-hydroxy-3-hydroxymethylbut- 1-yl)guanine ) OR (Penciclovir Visfarm) OR (Visfarm brand of penciclovir) OR (penciclovir, monosodium salt) OR (penciclovir, monosodium salt, monohydrate) OR (BRL 39123) OR (BRL-39123) OR (Denavir) OR (Vectavir) OR (SB-CH brand of penciclovir) OR (Novartis brand of penciclovir)

OXCARBAZEPINE ("oxcarbazepine "[Substance Name]) OR (oxcarbazepine) OR (GP 47680) OR (Timox) OR (Desitin brand of oxcarbazepine) OR (Trileptal) OR (Novartis brand of oxcarbazepine).

Fonte: Puga (2010)

16 The ISSG Search Filter Appraisal Checklist is designed to be comprehensive. Its structure follows

the life cycle of the process involved in developing a search filter from gold standard identification, search term selection, strategy development, testing, and validation through to comparison with other filters. It may take time to complete but should provide clearer insight into the quality and suitability of a filter. The checklist is not exclusive. It does not ‘‘reject’’ search filters that have been designed informally or have not been tested or validated. It does,however, allow librarians and others to differentiate easily between evidence-based, validated filters and those of a less rigorous design (GLANVILLE16 et al., 2008, p. 360).

Como podemos verificar, os filtros de pesquisa correspondem a termos definidos segundo critérios preestabelecidos considerados aptos a recuperar informações e documentos em bases de dados especializadas na área da Saúde. Trata-se, portanto, de uma questão de uso de linguagem.

Nosso próximo capítulo apresenta as fundamentações teórico-metodológicas sobre Organização e Recuperação da Informação e Interoperabilidade e Mapeamentos entre Sistemas de Organização do Conhecimento no contexto da Web Semântica.