Leis de Zipf e o Ponto de Transição de Goffman

Foi na década de 1940 que George Kingsley Zipf, linguista da Universidade de Havard, publicou a obra Human Behaviour and the Principle of Least-Effort: an introduction to human ecology, na qual postula duas leis formuladas com base “em uma relação empírica observada por S. B. Estoup em 1916” (MAIA, 1973, p. 100). Essas leis estabelecem relação entre ordem de série (rank) de uma palavra e ordem de frequência, e a frequência de seu aparecimento em um texto “suficientemente longo” (Ibid.). Assim, Zipf formulou duas importantes leis denominadas: leis de alta e de baixa frequência de palavras.

A princípio essas leis foram utilizadas no âmbito da linguística e, posteriormente, assumiram importante papel na Bibliometria. Conforme explica Braga (1973) o termo Bibliometria foi cunhado em 1969 por Allan Pritchard, “para indicar o tratamento quantitativo e comportamento dos textos registrados – isto é, Bibliometria quantifica os processos da comunicação escrita” (Ibid., p. 10).

Braga (1996, p. 54, grifo do autor) explica:

A lei de alta frequência estabelece que, se as palavras de um texto “suficientemente longo” forem ordenadas por ordem de incidência (frequência) decrescente, e a cada palavra for atribuída uma ordem de série (rank) – de tal forma que a palavra mais frequente tenha ordem de série 1, a segunda mais frequente, ordem de série 2, a terceira, 3, e assim sucessivamente – então o produto da ordem de série R, pela frequência F, produzirá uma constante K. Portanto, RF = K.

Em relação a lei de alta frequência Braga (1996) afirma que há questionamentos acerca do que seria um texto “suficientemente longo” e explica que “não foi obtida uma correlação absolutamente positiva entre o tamanho do texto e a aderência a lei”(Ibid., p. 54). Mas revela que “há uma tendência para maior aderência quão maior for o texto” (Ibid., p. 54). Lima (2006, p. 225) esclarece; “um texto ‘suficiente longo’ (assim definido um texto com mais de 1000 palavras)”. Esse detalhe nos assegura de que obteremos um resultado satisfatório na aplicação das leis de Zipf ao conteúdo dos textos expressos na metodologia deste trabalho; pois tanto o texto referente ao documento FRBR (IFLA, 1998), como os três

textos relacionados à proposta da RDA produzidos pelo JSC, podem ser considerados textos “suficientemente longos”, já que apresentam número de palavras superior a 1000.

A segunda lei de Zipf foi modificada por A. D. Booth na década de 1967, e posteriormente, ficou conhecida como lei Zipf/Booth. Esta lei estabelece “uma relação numérica entre o número de palavras que ocorrem uma única vez e o que deveria ocorrer duas, três, quatro e cinco vezes” (Ibid., p. 54). Portanto, se aplica a palavras de baixa frequência, isto é, de alta ordem de série, sendo enunciada da seguinte forma:

Assim,

I

n indica o número de palavras que ocorrem n vezes, para n = 5 ou n 5; e

I

t é o número de palavras que ocorrem uma única vez. Já o número

2

representa uma constante para a língua inglesa.

Tendo em vista que, as leis de Zipf foram desenvolvidas visando a aplicação em textos escritos na língua inglesa, isso poderá nos garantir maior aderência aos intuitos de nossa pesquisa, pois os textos aos quais iremos empregá-la se encontram na língua original: o inglês. Este pequeno detalhe poderá ser imensamente relevante para alcançarmos resultados significativos e que correspondam à nossa expectativa.

Na década de 1970, W. Goffman estudou as duas leis de Zipf – lei de alta e de baixa frequência – e “perguntou-se onde estariam e com que frequência ocorreriam as palavras de conteúdo semântico dos textos” (BRAGA, 1996, p. 54). Observou que essas palavras não poderiam ser as mais frequentes, extremo superior da distribuição, já que geralmente neste extremo se encontram os artigos e preposições. Também não poderiam ser as menos frequentes, localizadas no extremo inferior da distribuição, pois nesta posição geralmente se encontram numerais e outras ocorrências unitárias. Braga (1996) declara que Goffman provavelmente postulou:

estariam numa frequência tal que, de baixo para cima, o número de palavras tenderia para a unidade. Ou seja, as palavras significativas de um texto não são as mais nem as menos frequentes, mas as que ocorrem numa frequência tal, que seu número esteja chegando perto da unidade. A essa frequência, Goffman chamou Ponto de Transição ou Ponto T, pois seria na transição das palavras de baixa para as de alta frequência que se encontrariam as palavras significativas do texto (BRAGA, 1996, p. 55, grifo do autor).

Assim, tendo como base a fórmula de Zipf/Booth para as palavras de baixa frequência, substituindo-se

I

n pela unidade (uma vez que o número de palavras significativas deve tender

para a unidade). Definiu-se o restante da equação pela fórmula genérica das equações de segundo grau, então, foi estabelecida a fórmula do Ponto T:

Onde It é o número de palavras que ocorrem uma única vez, e 8 é uma constante para a língua inglesa. O número 2 é uma constante da fórmula de Bhaskara18.

Braga (1996) explica que a aplicação das leis de Zipf “exige a desconstrução do texto e consequentemente abandono dos termos” (Ibid., p. 55), o que acontece ao se ordenar o texto pela frequência das palavras. Ressalta-se a importância de manter preservada a definição original de Zipf: “palavra é uma sequência de caracteres delimitada por espaços e ou pontuações. Isso significa que as diferentes flexões de número e gênero das palavras geram outras palavras distintas, como por exemplo: um, uma, uns, umas” (Ibid.).

Desta forma, conforme exposto na seção destinada à metodologia utilizamos o software TextStat 3.0 para ajudar a determinar a frequência das palavras no texto. Em seguida, serão ordenadas as palavras em ordem decrescente de frequência numa tabela a fim de aplicarmos as Leis de Zipf e determinarmos a região de concentração de palavras de alto conteúdo semântico através do Ponto de Transição de Goffman. A partir daí, será elaborada uma tabela que apresentará apenas as palavras significativas do texto e que expressam o conteúdo semântico localizadas na região próxima ao Ponto Transição de Goffman, a qual será inserida no texto para facilitar a compreensão dos leitores. A tabela completa estará disponível em apêndice.

As subseções a seguir dedicam-se a apresentar a análise de conteúdo e bibliométrica do documento FRBR (IFLA, 1998).

No documento O modelo FRBR e a busca de semântica na catalogação e recuperação de informações em ambientes digitais (páginas 122-124)