• Nenhum resultado encontrado

A Lei de Zipf e Outras Leis de Potência em Dados Empíricos- Humberto José Bortolossi, João Júlio Dias Bastos Queiroz e Michele Maria da S

N/A
N/A
Protected

Academic year: 2019

Share "A Lei de Zipf e Outras Leis de Potência em Dados Empíricos- Humberto José Bortolossi, João Júlio Dias Bastos Queiroz e Michele Maria da S"

Copied!
6
0
0

Texto

(1)

A Lei de Zipf e Outras Leis de Potˆ

encia

em Dados Emp´ıricos

Humberto Jos´e Bortolossi, Jo˜ao J´

ulio Dias Bastos Queiroz e Michele Maria da Silva

Instituto de Matem´atica e Estat´ıstica

Universidade Federal Fluminense

1

Motiva¸

ao

O que h´a de comum entre o n´umero de palavras do livro “Mem´orias P´ostumas de Br´as Cubas”

de Machado de Assis, a distribui¸c˜ao da popula¸c˜ao humana em cidades, as intensidades das erup¸c˜oes

solares, o n´umero de mortes em ataques terroristas, o n´umero de clientes afetados por apag˜oes el´etricos

e a maneira como alguns animais buscam por alimentos em seu habitat? A resposta ´e surpreendente: estudos estat´ısticos d˜ao forte suporte ao fato de que estes e muitos outros fenˆomenos podem ser descritos por leis de potˆencia, isto ´e, leis que s˜ao expressas por fun¸c˜oes potˆencias y = f(x) = b xa, com a e b

constantes reais. Vejamos um exemplo em detalhes.

2

A Lei de Zipf

Conte quantas vezes cada palavra aparece em um determinado texto. Existem palavras que apa-recer˜ao mais vezes do que outras. Crie ent˜ao uma tabela, ordenando as palavras por sua frequˆencia. A Tabela 1 apresenta o resultado deste processo para as palavras do romance “Mem´orias P´ostumas de Br´as Cubas” de Machado de Assis.

Tabela 1

Posi¸c˜ao (x) Frequˆencia (y) Palavra

1 2489 a

2 2203 que

3 2112 de

4 1949 e

5 1711 o

6 1164 n˜ao

... ... ...

178 37 Br´as

... ... ...

10447 1 zelo

10448 1 Zenon

10449 1 Zeus

Tabela 2

x= log(x) y= log(y) Palavra

0,00000. . . 3,39602. . . a

0,30102. . . 3,34301. . . que

0,47712. . . 3,32469. . . de

0,60205. . . 3,28981. . . e

0,69897. . . 3,23325. . . o

0,77815. . . 3,06595. . . n˜ao

... ... ...

2,25042. . . 1,56820. . . Br´as

... ... ...

4,01899. . . 0,00000. . . zelo

4,01903. . . 0,00000. . . Zenon

4,01907. . . 0,00000. . . Zeus

Use em seguida um truque muito ´util quando leis de potˆencia s˜ao examinadas: ao inv´es de analisar x

(a posi¸c˜ao da palavra) e y (a sua frequˆencia), estude

(2)

cujos valores s˜ao apresentados na Tabela 2. Marque ent˜ao os pontos (x, y) em um mesmo sistema de eixos coordenados. O resultado ´e a figura abaixo.

0,00 0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50 2,75 3,00 3,25 3,50 3,75 4,00

log(posição) 0,00

0,25 0,50 0,75 1,00 1,25 1,50 1,75 2,00 2,25 2,50 2,75 3,00 3,25

log(frequência)

Note que os pontos (x,y) parecem se alinhar, principalmente para os valores dex(logaritmo da posi¸c˜ao)

entre 1,5 e 3,0. Como achar uma reta representativa para estes dados? Uma t´ecnica estat´ıstica padr˜ao ´e

o m´etodo dos m´ınimos quadrados, que obt´em a equa¸c˜ao de uma reta minimizando a soma dos quadrados das diferen¸cas entre as ordenadas dos dados e os valores previstos pela equa¸c˜ao da reta. O uso deste

m´etodo para todos os pontos (x, y) da Tabela 2 produz a reta azul da figura, cuja equa¸c˜ao ´e

y= 3,567−0,925x.

Agora, lembrando que x= log(x) ey= log(y), vemos que

y= 3,5670,925x log(y) = log(103,567)0,925 log(x)

⇔ log(y) = log(3689,775) + log(x−0,925)

⇔ log(y) = log(3689,775x−0,925)

⇔ y=f(x) = 3689,775x−0,925,

isto ´e, de forma aproximada, a frequˆencia e a posi¸c˜ao das palavras est˜ao relacionadas por uma lei de potˆencia. Esta lei emp´ırica ´e hoje conhecida como a “Lei de Zipf”, em homenagem ao professor de lingu´ıstica da Universidade de Harvard, George Kingsley Zipf (1902–1950), o primeiro a investigar de forma sistem´atica fenˆomenos da estrutura estat´ıstica em conjuntos de dados lingu´ısticos e demogr´aficos. Algumas observa¸c˜oes:

(1) A reta obtida pelo m´etodo dos m´ınimos quadrados (a reta em azul) n˜ao acomoda muito bem

os dados para os valores iniciais e finais de x. V´arios autores tˆem sugerido adapta¸c˜oes para a Lei

de Zipf a fim de obter um modelo mais adequado. Outros autores simplesmente consideram que

a Lei de Zipf ´e v´alida apenas para valores de x em um determinado intervalo [Clauset, Shalizi,

Newman, 2009].

(2) Embora nossa an´alise com o m´etodo dos m´ınimos quadrados seja, digamos, bastante visual e ingˆenua, a Lei de Zipf (bem como outras leis de potˆencia) tem passado com sucesso por testes estat´ısticos mais sofisticados [Clauset, Shalizi, Newman, 2009].

(3)

3

Outras leis de potˆ

encia

As leis de potˆencia parecem ser ub´ıquas, onipresentes! Existe uma quantidade consider´avel de artigos e livros que estudam e descrevem leis de potˆencia em ´areas bem diversas: economia e finan¸ca,

educa¸c˜ao, demografia, geologia, hist´oria, climatologia, bibliometria e informetria, terrorismo e guerra,

corrup¸c˜ao, turismo, esportes, artes, agronomia, ecologia, biologia, lingu´ıstica, ciˆencia da computa¸c˜ao, ciˆencias cognitivas, ciˆencias sociais, astronomia, mecˆanica dos s´olidos, f´ısica e qu´ımica.

Algumas leis de potˆencia possuem nome pr´oprio: a Lei de Gutenberg-Richter (sobre a rela¸c˜ao entre a frequˆencia e a intensidade dos terremotos), a Lei de Stevens (sobre a rela¸c˜ao entre a magnitude de um est´ımulo f´ısico e sua intensidade percebida), o Princ´ıpio de Pareto (tamb´em conhecido como

Princ´ıpio 80/20, sobre a distribui¸c˜ao de renda em uma sociedade), a Lei de Kleiber (sobre a rela¸c˜ao

entre a taxa metab´olica de um organismo e sua massa corporal), a Lei de Lotka (sobre a frequˆencia de publica¸c˜ao de artigos cient´ıficos por diversos autores), a Lei de Yoda (sobre o processo de auto-desbaste entre mudas de plantas), a Lei de Stefan-Boltzmann (sobre a radia¸c˜ao de corpos negros), a Rela¸c˜ao de Ramberg-Osgood (sobre a deforma¸c˜ao e fadiga de materiais).

O assunto ´e vasto e rico. Infelizmente, o limite de poucas p´aginas recomendado para este artigo n˜ao nos permite apresentar com mais profundidade as leis de potˆencia mencionadas nos par´agrafos anteriores. Nosso objetivo aqui ´e ent˜ao alertar o leitor sobre o uso das fun¸c˜oes potˆencias em outras disciplinas e motiv´a-lo a procurar saber mais sobre o assunto. Neste sentido, os livros [Bak, 1996],

[Schroeder, 1991] e [Brown, West, 2000] (este ´ultimo sobre alometria, ciˆencia que estuda como as

caracter´ısticas dos organismos mudam de acordo com seus tamanhos) constituem um ´otimo ponto de partida. O v´ıdeo [TED, 2009] (com legendas em portuguˆes) sobre leis de potˆencia em guerras tamb´em merece destaque. Indicamos, por fim, [Li, 2011], que apresenta uma cole¸c˜ao com mais de 700 referˆencias sobre leis de potˆencia.

4

Advertˆ

encia

´

E importante ressaltar a natureza experimental das leis de potˆencia: elas s˜ao formuladas a partir de

estudos estat´ısticos de dados emp´ıricos. Assim, cuidado ´e necess´ario! `A medida que t´ecnicas de an´alise

estat´ıstica mais sofisticadas s˜ao desenvolvidas, todo o processo ´e revisto: algumas leis de potˆencia s˜ao confirmadas e outras s˜ao questionadas (como o caso do Princ´ıpio de Pareto para distribui¸c˜ao de rendas). O artigo [Clauset, Shalizi, Newman, 2009] faz uma discuss˜ao bem detalhada sobre este tema. N˜ao obstante, ´e sempre bom ter em mente que certas leis f´ısicas que hoje nos s˜ao bem familiares, como a Lei da Queda Livre dos Corpos de Galileu Galilei (1564-1642) e a Lei da Gravita¸c˜ao Universal de Isaac Newton (1643-1727) tiveram uma componente emp´ırica em suas formula¸c˜oes: Galileu Galilei fez experimentos com planos inclinados no processo de estabelecer a lei que governa a queda livre dos

corpos (uma lei de potˆencia!) e Isaac Newton, em sua obraPrincipia, diz “Nessa filosofia [experimental]

as proposi¸c˜oes particulares s˜ao inferidas dos fenˆomenos e depois tornadas gerais por indu¸c˜ao”.

5

Invariˆ

ancia em escala

Uma propriedade importante das fun¸c˜oes potˆencias (e que ser´a usada na pr´oxima se¸c˜ao) ´e que elas

s˜ao homogˆeneas e, portanto, invariantes em escala. Por exemplo, para b = 1 e a = 3, se um evento x

duplica de tamanho, ent˜ao o eventoy associado a x porf fica oito vezes maior independentemente do

tamanho do eventox: g(x) = f(2x) = 8f(x) para todox >0. Mais geralmente, sef(x) =b xaeλ >0

´e uma constante, ent˜ao

(4)

isto ´e, fazendo-se um ajuste de escala emy (que n˜ao depende dex, s´o deλ), os gr´aficos def(x) =b xa

e g(x) = f(λ x) possuem o mesmo formato (as figuras abaixo ilustram este fato para b = 1, a = 3

eλ = 2). Por estes motivos, dados que se distribuem seguindo uma lei de potˆencia n˜ao possuem valores

caracter´ısticos ou uma escala natural.

A propriedade de invariˆancia em escala n˜ao ´e satisfeita, por exemplo, pela fun¸c˜aoy=b e−a(x−m)2, com

a, b >0 e mR, associada a um outro personagem importante em Estat´ıstica: a distribui¸c˜ao normal.

6

Por que e para quˆ

e?

Explicar o porquˆe das leis de potˆencia aparecerem em tantos fenˆomenos ´e ainda tema de discuss˜ao e estudo. Alguns acadˆemicos d˜ao explica¸c˜oes espec´ıficas para determinados casos. Por exemplo, Zipf justificou sua lei em termos do “Princ´ıpio do Menor Esfor¸co” [Ferrer i Cancho, Sole, 2003]. Outros acadˆemicos criaram teorias mais gerais, com o objetivo de explicar a ocorrˆencia das leis de potˆencia em todos os fenˆomenos. Este ´e o caso do f´ısico dinamarquˆes Per Bak (1948-2002), que propˆos a teoria da criticalidade auto-organizada. Segundo esta teoria, os fenˆomenos em quest˜ao s˜ao descritos por um sistema complexo onde seus v´arios agentes interagem entre si e o conduzem, de forma espontˆanea, a um estado de criticalidade. Neste estado cr´ıtico, o sistema age como um todo e, de forma imprevis´ıvel, ocorrem eventos em v´arias escalas. Surgem ent˜ao as fun¸c˜oes potˆencias que, como vimos na se¸c˜ao ante-rior, possuem a propriedade matem´atica de invariˆancia em escala. Bak d´a como paradigma o fenˆomeno da pilha de areia [Bak, 1996]: imagine que gr˜aos de areia sejam despejados sobre uma mesa. No in´ıcio, a pilha ´e plana e os gr˜aos de areia permanecem pr´oximos `as posi¸c˜oes onde foram depositados. A medida que o tempo passa, com os v´arios gr˜aos de areia interagindo entre si, a pilha fica maior e maior, at´e atingir um ponto onde o sistema fica cr´ıtico e seu comportamento n˜ao pode mais ser entendido em termos dos gr˜aos individuais. Neste estado cr´ıtico, avalanches de v´arias escalas (tamanhos) ocorrem de forma imprevis´ıvel. Apesar de as avalanches menores serem mais frequentes, ´e poss´ıvel detectar um comportamento regido por uma lei de potˆencia, algo do tipo: cada vez que se duplica o tamanho de uma avalanche, ela se torna duas vezes mais rara. Para mais detalhes, recomendamos os livros [Bak, 1996] e [Schroeder, 1991].

(5)

usada como ferramenta para decifrar escritos antigos [Smith, 2007], para tentar identificar inteligˆencia extraterrestre em sinais recebidos do espa¸co (programa SETI) e para se criarem m´etodos de ensino de idiomas mais eficientes atrav´es das palavras mais frequentes [Davies, Preto-Bay, 2008].

7

Felix Klein e as fun¸

oes potˆ

encias

Apesar de as fun¸c˜oes potˆencias serem usadas como modelos para v´arios fenˆomenos em ´areas diversas,

elas n˜ao costumam ganhar muito destaque no ensino m´edio (com exce¸c˜ao das fun¸c˜oes y =x, y =x2,

y =x3 e y =x1/2 =x). Por exemplo, ´e dif´ıcil encontrar nos livros did´aticos os gr´aficos das fun¸c˜oes

potˆencias para x >0, como apresentados na figura (a) abaixo, gerada no computador com o software

GeoGebra. Curiosamente, o pr´oprio Felix Klein apresenta estes gr´aficos (figura (b)) em um de seus cadernos de estudo. Note que, como o desenho foi feito `a m˜ao livre, ele cont´em algumas imperfei¸c˜oes.

(a) Imagem: GeoGebra (http://www.geogebra.org/). (b) Imagem: AMS (http://www.ams.org/notices/200708/).

8

Outros tipos de fenˆ

omenos, outros tipos de fun¸

oes

´

E importante destacar que nem todos os fenˆomenos s˜ao descritos por leis de potˆencias. Fenˆomenos com propriedades diferentes podem ser modelados por fun¸c˜oes diferentes. Por exemplo, as estaturas

dos homens adultos de uma popula¸c˜ao tendem a se concentrar em torno de um ´unico valor m´edio

caracter´ıstico. Por este motivo, fun¸c˜oes potˆencias n˜ao s˜ao adequadas para se modelar estes dados.

A fun¸c˜ao (densidade de probabilidade normal) y = b e−a(x−m)2 ´e mais apropriada para se fazer isto.

N˜ao ´e nosso objetivo aqui apresentar as v´arias fun¸c˜oes (densidades de probabilidade) e suas aplica¸c˜oes estat´ısticas. O leitor curioso pode consultar o livro [Krishnamoorthy, 2006].

9

Referˆ

encias

No endere¸co http://www.uff.br/cdme/lpp/ (ou no espelho http://www.cdme.im-uff.mat.br/lpp/)

est´a dispon´ıvel uma s´erie de aplicativos interativos que permitem explorar a estat´ıstica das letras, pala-vras e per´ıodos (com um dos aplicativos dispon´ıveis nestes endere¸cos vocˆe poder´a ver a vers˜ao completa da Tabela 1 e fazer experiˆencias com outros textos em v´arios idiomas). Tamb´em est´a dispon´ıvel um arquivo DOC (o Formul´ario de Acompanhamento do Aluno) com v´arias sugest˜oes de exerc´ıcios para serem trabalhados em sala de aula. Orienta¸c˜oes did´aticas e metodol´ogicas est˜ao dispon´ıveis no Guia do Professor. Seguem as referˆencias usadas no texto:

(6)

Brown, J. H.; West, G. B. Scaling in Biology. Oxford University Press, 2000.

Clauset, A.; Shalizi, C. R.; Newman, M. E. J. Power-Law Distributions in Empirical Data. SIAM

Review, v. 51, n. 4, pp. 661-703, 2009.

Davies, M.; Preto-Bay, A. M. R.A Frequency Dictionary of Portuguese. Core Vocabulary for Learners.

Routledge, 2008.

Ferrer i Cancho, R.; Sole, R. V.Least Effort and The Origins of Scaling in Human Language.

Procee-dings of the National Academy of Sciences, v. 100, n. 3, pp. 788-791, 2003.

Krishnamoorthy, K. Handbook of Statistical Distributions with Applications. Chapman & Hall/CRC,

2006.

Li, W. Information on Zipf ’s Law. 2011. http://www.nslij-genetics.org/wli/zipf/

Smith, R. Investigation of The Zipf-Plot of The Extinct Meroitic Language. Glottometrics, v. 15,

pp. 53-61, 2007.

Schroeder, M. Fractals, Chaos, Power Laws – Minutes from An Infinite Paradise. W. H. Freeman and

Company, 1991.

Referências

Documentos relacionados

Todas as decisões tomadas durente o decorrer deste trabalho levaram em consideração que o mesmo visa contruir um conjunto de componentes de software que forneçam as funcionalidades

Instituto de Ensino Superior e Pesquisa Campus da UEMG – Universidade do Estado de Minas Gerais , no município de Divinópolis; objetivando identificar o perfil

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

Se o documento indica vários locais de publicação transcreve se o que Se o documento indica vários locais de publicação, transcreve-se o que estiver em maior evidência seguido

9 Taxas de empreendedorismo – indicam o percentual (%) da população total de 18 a 64 anos (taxa geral) que é considerada empreendedora (em estágio nascente, novo ou

*O pagamento do preço em prestações sem juros e encargos será efetuado no cartão de débito ou crédito do cliente através de solução de pagamento baseada em um contrato de

Com os resultados foi possível identificar que as sementes com menor tamanho apresentaram maior intensidade de dormência; as sementes de tamanho médio demonstraram maior

Os estudos desenvolvidos até momento permitem inferir que a princípio os saberes geométricos não sofrem grandes rupturas entre a vaga intuitiva e a escola nova,