APÊNDICE A – ORIGEM, LEIS E INDICADORES DA BIBLIOMETRIA Origem da bibliometria

Segundo Pritchard (1969), o termo bibliografia estatística foi utilizado pela primeira vez por E. Wyndham Hulme, em 1922, durante uma palestra na universidade de Cambridge. O objetivo de Hulme ao utilizar o termo foi de apresentar, na época, os processos da ciência e tecnologia para contar documentos. O resultado foi um estudo sobre o crescimento de patentes no Reino Unido (PRITCHARD, 1969). Desde então, o termo ficou esquecido por 22 anos e foi reutilizado por Gosnell, em um ensaio que não citou seu antecessor (PRITCHARD, 1969; GUEDES; BORSCHIVER, 2005). Pritchard (1969) acredita que a devida citação estaria na Tese de Gostnell, mas ele não a acessou. Depois de Gosnell, o termo voltou a ser utilizado somente em 1962 por Raisig, em um ensaio crítico sobre estudos de citações, e, depois desse, só foi utilizado por Pritchard em 1969 (PRITCHARD, 1969; GUEDES; BORSCHIVER, 2005).

Acreditando que a utilização do termo bibliografia estatística poderia permitir confusão com bibliografia sobre estatística ou somente estatística em si, Pritchard cunhou o termo bibliometria (PRITCHARD, 1969; GUEDES; BORSCHIVER, 2005).. Sua desconfiança pela confusão, apoiando a necessidade de um termo específico, se fundamentou quando ele enviou um ensaio intitulado Statistical Bibliography; an interim bibliography - ou Bibliografia estatística: uma bibliografia interina - para a leitura de M. G. Kendall, que respondeu sugerindo que ele modificasse o título do ensaio (PRITCHARD, 1969). Pritchard (1969) ainda pesquisou sobre a utilização do termo bibliometria em literaturas já publicadas e não encontrou nenhuma ocorrência. Dessa forma, atribuiu a si a autoria do termo (PRITCHARD, 1969; MORETTI; CAMPANARIO, 2009).

Apesar de Pritchard se intitular o criador do termo bibliometria, estudos posteriores contestaram a sua afirmação. O primeiro equívoco está na utilização do termo bibliografia estatística depois de Hulme. Fonseca (1973) informa que em 1934 - antes de 1944 quando Gosnell utilizou o termo - Paul Otlet o utilizou em obra de sua autoria (FONSECA, 1973; VANTI, 2002). O segundo equívoco apontado por Fonseca (1973) foi que na mesma obra, Paul Otlet cunha o termo Bibliometria. Dessa forma, afirma que o criador do termo bibliometria seria então Paul Otlet e não Pritchard (FONSECA, 1973; VANTI, 2002).

O terceiro equívoco está na afirmação de que após o uso por Gosnell, em 1944, o termo estatística bibliográfica foi utilizado por Raisig, em 1962. Fonseca (1973) afirma que o termo foi utilizado em 1955 em uma obra publicada por Victor Zoltowski. O quarto equívoco

é consequência do terceiro. Pritchard acreditava que o termo fora utilizado, cronologicamente, por Hulme em 1922, por Gosnell em 1944, por Raisig em 1962 e por Pritchard em 1969. Fonseca explica o quarto erro ao descobrir que a cronologia de fato foi Hulme em 1922, Gosnell em 1944, Zoltowski em 1955, Raisig em 1962 e então Pritchard em 1969.

Segundo Fonseca (1973), o motivo de Pritchard não ter referenciado as obras de Paul Otlet e Victor Zoltowski foi o seu desconhecimento ou desinteresse por outro idioma. Nesse episódio, as obras referenciadas por Fonseca foram publicadas no idioma francês, enquanto as publicações de Pritchard foram em inglês (FONSECA, 1973).

É importante observar tal divergência e tomar o ocorrido como lição. Não se pode afirmar, mas é possível inferir, que os mecanismos de pesquisa de publicações da época eram mais modestos que os atuais e, portanto, dificultavam a identificação de pesquisas relevantes e correlatas. Também é possível inferir que o equívoco de Pritchard em relação à criação do termo bibliometria não teria ocorrido se a mesma já existisse.

Independentemente do criador do termo bibliometria, ela tem como objetivo quantificar a produção escrita de determinado assunto. Ela permite, através da utilização de indicadores, identificar e indexar conteúdo relativo à produção de conhecimento em determinado assunto (PRITCHARD, 1969; GUEDES; BORSCHIVER, 2005).

Leis da bibliometria

As principais leis da bibliometria são as de Bradford, Lotka e Zipf (GUEDES; BORSCHIVER, 2005). São leis que tratam da produtividade de periódicos, produtividade científica dos autores e frequência das palavras, respectivamente, tomando por base métodos quantitativos (VANTI, 2002; GUEDES; BORSCHIVER, 2005; MORETTI; CAMPANARIO, 2009; MORAN et al., 2010).

A lei de Bradford define a relevância de um periódico. Segundo ela, é possível classificar os periódicos mais relevantes em um determinado assunto. Ela também explica que quanto mais um determinado periódico publica sobre um assunto específico, mais relevante ele será. Como será mais relevante, receberá mais solicitações de publicações sobre o assunto. Dessa forma, cria-se um ciclo que acaba caracterizando determinados periódicos como referência para certos assuntos (GUEDES; BORSCHIVER, 2005; MORAN et al., 2010).

Assim, segundo essa lei, é possível ordenar os periódicos de mais relevância, conforme o número de publicações por tipo de assunto. Se ordenados como proposto, poder- se-á identificar no início da fila os periódicos de maior relevância (GUEDES; BORSCHIVER, 2005; MORETTI; CAMPANARIO, 2009; MORAN et al., 2010).

Ainda segundo Guedes e Borschiver (2005), a lei de Bradford é mais adequada à criação de políticas de aquisição e descarte de periódicos para sistemas de gestão da informação. Tal afirmação se baseia nas informações que são obtidas a partir da aplicação dos conceitos dessa lei, permitindo aos gestores de informação escolher os periódicos que seriam mais relevantes (GUEDES; BORSCHIVER, 2005).

Mudando o foco para os autores, a lei de Lotka sustenta que poucos publicam muito sobre determinado assunto. Nesse caso, seriam os autores mais produtivos em relação a um conteúdo específico. Essa lei também sustenta que muitos autores publicam pouco conteúdo sobre certos assuntos. A relação entre essas sustentações segue a Lei do Inverso do Quadrado, ou seja 1/n2. Segundo essa lei, o número de autores que publicam dois artigos corresponde a 1/4 dos autores que publicam um artigo, assim como o número de autores que publicam três artigos correspondem a 1/9 dos autores que publicam umartigo (GUEDES; BORSCHIVER, 2005). A lei de Lotka estaria mais adequada a identificar os autores mais relevantes em determinado assunto e, consequentemente, oriundos de centros de pesquisa mais desenvolvidos na pesquisa dele (GUEDES; BORSCHIVER, 2005).

Com foco na identificação de palavras relevantes em determinada área de pesquisa, as leis de Zipf tratam sobre as palavras que definem o assunto do texto, do ponto de vista de indexação automática (VANTI, 2002; GUEDES; BORSCHIVER, 2005). São duas as leis de Zipf e, para sua aplicação, se faz necessário ordenar as palavras do texto conforme a quantidade de ocorrências de cada uma. Guedes e Borschiver (2005 p. 6) explicam que a primeira lei define que as palavras mais relevantes de um texto possuem uma fator de frequência constante, conforme a transcrição a seguir:

... o produto da ordem de série (r) de uma palavra, pela sua frequência de ocorrência (f) era aproximadamente constante (c). Enunciou assim que r . f = c, o que ficou conhecido como Primeira Lei de Zipf (GUEDES; BORSCHIVER, 2005, p. 6).

Segundo essa primeira lei de Zipf, palavras de alta frequência no texto mantêm uma relação entre a posição em que aparecem e, quando multiplicada a posição pela quantidade de ocorrências, o resultado é quase que constante (GUEDES; BORSCHIVER, 2005). A segunda lei de Zipf trata das palavras de baixa frequência. Determina que essas palavras que têm baixo número no ranking de ocorrências, têm aproximadamente a mesma frequência de ocorrências de outras palavras também com baixo número de ocorrências. Booth (1967) também estudou sobre essa lei e deu a sua representação matemática, passando a lei a ser conhecida como Lei de Zipf-Booth (GUEDES; BORSCHIVER, 2005) (BOOTH, 1967).

A primeira e a segunda lei de Zipf se aplicam a palavras de grupos distintos. Assim, é possível afirmar que existe um ponto de transição entre esses grupos, no qual estariam as

palavras mais relevantes do ponto de vista de conteúdo semântico. Seriam as palavras mais adequadas à classificação do documento. Esse ponto foi determinado como Ponto de Transição (T) de Goffman, que foi quem admitiu que esse ponto teria tal relevância (GUEDES; BORSCHIVER, 2005).

Indicadores da bibliometria

Assim, a bibliometria deve ter como foco a aplicação de métodos estatísticos e quantitativos. Alguns indicadores foram criados com o objetivo de proporcionar tal aplicação, como o h-index e g-index. O h-index, criado por J. Hirsch, em 2005, e corresponde a quantidade de citações que um determinado autor recebeu. Para extrair esse indicador, é necessário colocar as publicações desse autor em ordem decrescente conforme a quantidade de citações que cada publicação recebeu. Coloca-se no início da fila a publicação que recebeu mais citações e, também, quantas citações foram. A partir daí, a fila segue até que a posição de uma publicação na fila seja imediatamente maior ou igual a quantidade de citações dessa mesma publicação. Essa posição será o h-index do autor (HIRSCH, 2005; FRANCESCHINI; MAISANO, 2010).

A Tabela A foi criada para ilustrar como seria avaliado um autor do ponto de vista do

h-index. No exemplo proposto, o índice seria oito, que corresponde ao número da posição na

fila de publicações que detém igual ou maior número de citações.

Já o g-index, proposto em 2006 por L. Egghe, tem a mesma finalidade do h-index, ou seja, identificar os autores mais relevantes em determinado assunto. Contudo, o g-index é apresentado como sendo mais favorável aos autores (EGGHE, 2006; FRANCESCHINI; MAISANO, 2010). Seu criador afirma que no h-index, caso uma publicação tenha muitas citações, só contribuirá para a definição do indicador uma única vez. Para que esta publicação tenha maior relevância, Egghe criou um método de cálculo onde as citações são somadas. Dessa forma, caso um autor tenha poucas publicações citadas por terceiros, porém com muitas citações, ele seria mais reconhecido com o g-index do que com o h-index (EGGHE, 2006; FRANCESCHINI; MAISANO, 2010).

Para entender melhor o que Egghe propôs é importante entender a sua metodologia de cálculo e, então, comparar os resultados para o h-index e g-index. Para encontrar o g-index, também se coloca as publicações em fila ordenando-as decrescentemente pela quantidade de citações. O g-index será o número da posição na fila em que a soma das citações de todos os artigos até aquela posição seja igual ou maior que o quadrado desse número.

Para facilitar o entendimento, a Tabela A mostra como definir o g-index para o mesmo caso utilizado no cálculo do h-index. A atribuição dos dois índices na mesma tabela foi

utilizada por outros autores (EGGHE, 2006; COSTAS; BORDONS, 2008; FRANCESCHINI; MAISANO, 2010) para proporcionar o entendimento e facilitar a comparação entre os dois indicadores.

Tabela A – Exemplo de identificação de h-index e g-index Id Quantidade de Citações h-index Id 2 Soma das Citações g-index 1 46 1 46 2 30 4 76 3 27 9 103 4 18 16 121 5 11 25 132 6 11 36 143 7 8 49 151 8 8 8 64 159 9 6 81 165 10 3 100 168 11 3 121 171 12 2 144 173 13 1 169 174 13 14 1 196 175 15 1 225 176

No documento Fatores críticos à implantação de um sistema ERP na aceitação de seus usuários (páginas 118-123)