Coleta, tratamento e análise de dados

3 METODOLOGIA

3.1 Pesquisa quantitativa

3.1.1 Coleta, tratamento e análise de dados

A coleta de dados foi realizada em um único dia (06 de novembro de 2018), através de busca na base de dados ABCDM, para a obtenção de dados primários. A base de dados ABCDM pertence à Universidade de Brasília (UNB) e possui mais de 14 mil referências de artigos de periódicos brasileiros e portugueses das áreas de informação (Arquivologia, Biblioteconomia, Ciência da Informação, Documentação e Museologia), as quais cobrem artigos, artigos de revisão e relatos de pesquisa de 36 periódicos do Brasil e de Portugal, entre os anos de 1963 a 2017 (ao menos, à época da coleta dos dados). Além disso, a base também cobre as edições do Encontro Nacional de Pesquisa em Ciência da Informação (ENANCIB), considerado o mais importante evento dessas áreas no Brasil, desde o seu início em 1994 até 2017 (ao menos também à época da coleta dos dados).

A ABCDM foi escolhida em função: da sua cobertura, consistência e precisão; campos de entrada de dados; opções de navegação, de pesquisa e de salvar e exportar dados - todas características essenciais para a escolha de uma base de dados para uma pesquisa, congregadas por Andrés (2009). Como a base ABCDM ainda não está disponível de modo on-line, a extração de dados foi realizada diretamente em uma cópia da base fornecida para esta pesquisa35_.

Além disso, a ABCDM foi selecionada, em detrimento de outras bases de

35_{Buscas na ABCDM podem ser feitas pessoalmente na Faculdade de Ciência da}

Informação da UNB ou pelo endereço jleiro@unb.br; cópias da base podem ser obtidas com autorização do detentor dos direitos patrimoniais: Centro de Apoio ao Desenvolvimento Tecnológico da UNB, pelo endereço act@cdt.unb.br.

dados, por conseguir atender as demandas dessa pesquisa. Bases de dados, tais como a Web of Science (WoS), Scopus, Library and Information Science Abstracts (LISA), Library e Information Science & Technology Abstracts (LISTA), além do repositório E-Prints in Library & Information Science (e-Lis), não traduziam a produção científica das áreas de informação publicada nos periódicos brasileiros, pois abarcam poucos periódicos nacionais. Já a Base de Dados Referenciais de Artigos de Periódicos em Ciência da Informação (Brapci) e o Scientific Electronic Library Online (SciELO) não ofereciam formatos apropriados para exportação de dados que servissem aos objetivos desta pesquisa.

Assim, a busca na ABCDM foi da totalidade de artigos em autoria única36

publicados nos periódicos brasileiros das áreas de informação catalogados na base de dados, no espaço temporal de 2009 até 2017, os quais compuseram o universo dessa pesquisa. Acredita-se que essa delimitação de período de tempo refletiu o estado mais atual das áreas de informação nos periódicos brasileiros. Além disso, o ano de 2009 foi escolhido por ser o último ano em que a produção de artigos de periódicos em autoria única foi maior que a produção de artigos de periódicos em autoria múltipla, de acordo com Vilan Filho (2016). E, no caso específico deste estudo, foram investigados somente os artigos de periódicos, como unidade de análise, pois são considerados como unidade básica de pesquisa bibliométrica (GLÄNZEL, 2003). A análise dos artigos de periódicos foi realizada sob a ótica dos indicadores de produção e de impacto, também já apresentados.

Desse modo, foram coletados os dados referentes ao: (1) nome e ano de publicação dos periódicos; (2) título, palavras-chave, idioma e área dos artigos; e (3) nome, vínculo institucional, formação acadêmica e contato do autor (este último foi coletado não para fins de análise, mas para a realização da parte qualitativa desta pesquisa). Os dados importados da base de dados ABCDM foram salvos no formato .txt, os quais foram passados para o software Excel (editor de planilhas da Microsoft Office). Nos casos em que houve conflito ou ausência de informação, os artigos foram consultados diretamente nos periódicos on-line, para desfazer incertezas.

36_{A base de dados ABCDM está, atualmente, no CDS/ISIS (Computerized Documentation} System/Integrated Set of System - sistema de armazenamento e recuperação de informação, desenvolvido pela UNESCO), o qual oferece diversas facilidades de formatação e exportação de dados por meio de linguagem de recuperação que possibilita o uso de comandos lógicos. Assim, por conta dessa facilidade na seleção, foi possível que se fizesse o download de dados somente daqueles artigos em autoria única (AU).

Ainda para o esclarecimento de dúvidas e para obtenção de informações complementares a respeito dos autores também foi consultada a Plataforma Lattes, do CNPq37_.

Então, após os dados terem sido importados da base de dados ABCDM, salvos no formato .txt e passados para o software Excel, foi iniciado o processo de limpeza de dados. Primeiramente, foram removidos aqueles registros em duplicidade, publicados em periódicos portugueses e/ou com erro de catalogação (casos em que o artigo possuía, em verdade, mais de um autor). Dessa forma, dos 1713 registros originalmente coletados, restaram 1680 artigos.

Após, foi realizada a limpeza nos nomes das instituições, a fim de padronizá- los, dessa maneira, eliminando siglas; normalizando diferentes designações para uma mesma instituição; suprimindo vínculos institucionais a departamentos ou laboratórios e designando o autor para a instituição-mor. Nos casos de ausência de informação, de informação incompleta e/ou de informação contraditória averiguou-se o próprio artigo, se não resolvido, o Currículo Lattes, e, caso não resolvido, o site da instituição do pesquisador. Houve o cuidado de apurar a instituição conforme o ano de publicação do artigo.

Depois, foi feita a limpeza de dados nos nomes dos autores. A limpeza nos nomes dos autores tinha como objetivo corrigir os casos de homonímia e também padronizar os nomes daqueles autores que nem sempre grafam seus nomes da mesma forma (MEADOWS, 1999). Nos casos de informação incompleta averiguou- se o próprio artigo, se não resolvido, o Currículo Lattes, e, caso não resolvido, o site da instituição do pesquisador.

Posteriormente, foi utilizado o OpenRefine38_{, ferramenta que serve para}

limpeza de dados, neste caso, das palavras-chave e das áreas de formação acadêmica dos autores. Dos 1680 artigos coletados, 1524 possuíam palavras-chave e 156 não. As 6375 palavras-chave estavam divididas em 3740 palavras-chave diferentes. Após o uso do OpenRefine, essas palavras-chave ficaram segmentadas em 3351 tipos diferentes. No caso das áreas de formação acadêmica dos autores, havia 330 tipos diferentes que, após limpeza, foram agregadas em 99 tipos. Nos casos de informação incompleta quanto à formação acadêmica, averiguou-se o

37_{Disponível em: http://lattes.cnpq.br.}

38_{O OpenRefine é uma ferramenta para organização e limpeza de dados. Era um projeto}

apoiado pelo Google, mas desde 2012 ele é desenvolvido, documentado e promovido por voluntários. Disponível em: http://openrefine.org/.

próprio artigo, se não resolvido, o Currículo Lattes, e, caso não resolvido, o site da instituição do pesquisador.

As limpezas no OpenRefine incluíram apenas: uniformização das palavras, transformando-as todas em minúsculas; supressão de acentuação; agrupamento de mesmos nomes, porém inseridos em ordem diferente; remoção de espaços inúteis em branco; remoção de pontuação; remoção de palavras duplicadas; e uniformização das palavras nos casos de flexões gramaticais (plural e singular). Agrupamentos mais profundos não foram realizados nas palavras-chave e nas formações acadêmicas, limitando-se somente às funcionalidades do OpenRefine.

Além disso, foi também utilizado o Harzing's Publish or Perish39_{, que é um}

software que recupera e analisa citações acadêmicas, através do, por exemplo, Google Scholar e Microsoft Academic Search, para a avaliação do impacto dos artigos analisados através das citações recebidas (HARZING, 2007). A pesquisa neste programa foi feita por meio do nome do autor, selecionando-se o Google Scholar e o ano inicial de 2009. Neste ponto da pesquisa foi utilizada amostra heterogênea e não tendenciosa, representativa do universo pesquisado de artigos de periódicos brasileiros das áreas de informação indexados na ABCDM, entre 2009 e 2017. O cálculo do tamanho da amostra foi, então, sobre o universo (1680 artigos), considerando-se confiança de 95%, margem de erro de 5% e proporção de 50% (pois não se tinha estimativa de proporção), totalizando 313 artigos. Para a obtenção desses elementos da amostra, foi usado o Research Randomizer40_{. Ao serem}

registrados na base de dados ABCDM os artigos recebem um número sequencial (MFN). Esses números, então, foram colocados em ordem crescente. Após, os artigos receberam nova numeração, indo do número 1 até 1680. Somente depois, portanto, utilizou-se o Research Randomizer para a seleção desses 313 artigos.

De acordo com Fedderke (2013), existe um debate a respeito da robustez dos dados de contagem de citações com base no Google Scholar. Por um lado, continua Fedderke (2013), alguns estudos questionam a confiabilidade do Google Scholar, com base na atribuição de publicações a autores fantasmas, inclusão de publicações não acadêmicas, exclusão de alguns periódicos acadêmicos importantes, cobertura disciplinar desigual, cobertura menos abrangente de

39_{Disponível em: https://harzing.com/resources/publish-or-perish.}

40_{É um recurso gratuito para pesquisadores e estudantes que gera números aleatórios.}

publicações anteriores a 1990 e precisão inconsistente.

Por outro lado, Fedderke (2013) coloca que existem muitos estudos que sugerem que o Google Scholar é mais robusto e preciso do que o banco de dados do Institute for Scientific Information (ISI Web of Science), por exemplo. As razões citadas pelo autor são que o banco de dados da ISI não inclui citações para a produção acadêmica que tem pequenos erros em sua referência, estando mais sujeita a ruídos de citação; fornece representação excessiva para o idioma inglês e também para os periódicos baseados nos Estados Unidos e Reino Unido; é inclinada para citações de artigos (em oposição a livros, capítulos de livros, documentos de trabalho, relatórios, documentos de conferências etc.); restringe significativamente as citações a periódicos do seu banco de dados; subnotifica citações em disciplinas com longos atrasos para publicação; subnotifica citações em geral; e é sensível a assinaturas institucionais.

Além disso tudo, Kousha e Thelwall (2007) e Fedderke (2013) colocam que todas as disciplinas registram menos publicações na ISI do que no Google Scholar, sendo a divergência intensa no caso das Ciências Sociais, já que registram acentuadamente menos citações por artigo e menores índices-h41_{no sistema de}

citações da ISI do que no Google Scholar. Em vista disso é que se optou por utilizar o Harzing's Publish or Perish para a análise de impacto nesta pesquisa, apesar de suas limitações.

Na busca realizada no Harzing's Publish or Perish, selecionando-se o Google Scholar e considerando-se o nome do autor e o ano de 2009 em diante, como já descrito, levou-se em conta somente as citações para os artigos de periódicos. Assim, foram coletadas as seguintes informações: (1) quantidade total de artigos; (2) número total de citações dos artigos; (3) quantidade de citações do artigo mais citado, bem como seu tipo (se autoria única ou autoria múltipla); (4) número de citações do artigo analisado (artigo sorteado pelo Research Randomizer para compor a amostra); (5) quantidade de artigos em autoria única; e (6) número total de citações dos artigos em autoria única. A coleta dessas informações deu-se entre os dias de 27 de junho a 12 de julho de 2019.

Isso posto, todos os elementos coletados foram primeiramente tratados no

41_{É o número de artigos publicado por um autor, os quais obtenham citações maiores ou}

software Excel, o qual permitiu que fosse realizada análise estatística42_descritiva,

tanto dos dados obtidos a partir da ABCDM quanto das informações obtidas a partir do Harzing's Publish or Perish, através de tabelas e gráficos. Além desse, serviu à análise dos dados coletados o Wordclouds.com43_{, que é um gerador on-line gratuito}

de nuvem de palavras. Desse modo, então, foi possível construir tabelas, gráficos e nuvens de palavras essenciais para a contextualização dos resultados encontrados.

No documento A autoria única nos artigos de periódicos das áreas de informação no Brasil (2009-2017) (páginas 89-94)