Dist. probablidade Prof. Alexandre

(1)

ESTATÍSTICA EXPERIMENTAL

DISTRIBUIÇÕES DE PROBABILIDADES

Prof. Alexandre B. Lopo

(2)

Sumário

1 Introdução à Distribuição de Probabilidades ... 3

2 Definições ... 4

2.1 Variável Aleatória ... 4

2.2 Distribuição de Probabilidades ... 5

2.2.1 Noções Iniciais ... 5

2.2.2 Distribuição Teórica ... 7

2.2.3 Parâmetros e Estatísticas ... 7

2.2.4 Distribuição Discreta e Contínua ... 8

3 Distribuições Contínuas ... 8

3.1 Distribuição Normal ... 9

3.2 Distribuição Gamma ... 18

3.3 Distribuição de Valores Extremos ... 24

3.4 Distribuição Exponencial ... 30

4 Distribuições Discretas ... 32

4.1 Distribuição Binomial ... 33

4.2 Distribuição de Poisson ... 35

4.3 Distribuição Geométrica ... 38

(3)

1 Introdução à Distribuição de Probabilidades

Um erro muito comum em análise de dados é desprezar as características da distribuição de probabilidades mais adequada para os dados em estudo. O mais freqüente é adotar-se, a priori, a distribuição normal o que pode resultar, se os dados não seguem essa distribuição, em conclusões erradas. Isso ocorre, provavelmente, porque a distribuição normal foi a primeira distribuição de probabilidades estudada e pelo fato de existir facilidade na estimativa dos seus parâmetros e das probabilidades (Assis et al., 1996).

Contudo, os procedimentos param se determinar qual a distribuição de probabilidade mais adequada para certo conjunto de informações é relativamente simples e, uma única distribuição pode ter um vasto espectro de aplicação.

Na figura 1 é apresentado os tipos mais comuns de distribuições de probabilidades encontrados. A figura 1 A representa uma distribuição simétrica, típica da distribuição normal de probabilidades; o histograma da figura 1 B é de uma distribuição com forte assimetria, com forma de Jota invertido,; a figura 1 C representa uma forma de distribuição típica de dados que variam no intervalo (0,1),; a figura 1 D mostra uma distribuição cujo histograma de freqüências sugere a forma da letra U; a distribuição da figura 1 F representa uma distribuição uniforme, um caso da distribuição beta com dois parâmetros iguais à unidade.

(4)

Figura 1. Tipos de distribuições mais comuns em climatologia (Assis, et al., 1996, pg. 36).

2 Definições

2.1 Variável Aleatória

A variável aleatória é uma variável que tem um valor único (determinado aleatoriamente) para cada resultado de um experimento. A palavra aleatória indica que em geral só conhecemos aquele valor depois do experimento ser realizado (Triola, 1998).

Exemplos de variáveis aleatórias:

a. número de alunos que não compareceram a aula de estatística num determinado dia; b. altura de um adulto do sexo masculino selecionado aleatoriamente.

As variáveis aleatórias também podem ser discretas ou contínuas. Variável aleatória discreta: é aquela que assume valores inteiros e finitos.

(5)

2.2 Distribuição de Probabilidades 2.2.1 Noções Iniciais

Além de identificar os valores de uma variável aleatória, freqüentemente podemos atribuir uma probabilidade a cada um desses valores. Quando conhecemos todos os valores de uma variável aleatória juntamente com suas respectivas probabilidades, temos uma distribuição de probabilidades.

A distribuição de probabilidades associa uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. Por exemplo, no lançamento de um dado cada face tem a mesma probabilidade de ocorrência que é 1/6.

Como os valores das distribuições de probabilidades são probabilidades, e como as variáveis aleatórias devem tomar um de seus valores, temos as duas regras a seguir que se aplicam a qualquer distribuição de probabilidades:

1. A soma de todos os valores de uma distribuição de probabilidades deve ser igual a 1

P(x) = 1, onde x toma todos os valores possíveis

2. A probabilidade de ocorrência de um evento deve ser maior do que zero e menor do que 1 0 P (x)  1 para todo x

No exemplo do lançamento de um dado, como todas as faces têm a mesma probabilidade de ocorrência que é 1/6 ao somá-las obtemos o valor 1, que corresponde a primeira regra citada acima. O valor 1/6 é maior do que zero e menor do que 1, assim satisfaz a segunda regra acima.

A distribuição de probabilidades pode ser representada por um histograma de probabilidades. Este se assemelha ao histograma de freqüências apresentado na Parte I, entretanto a escala vertical representa probabilidades, em lugar das freqüências relativas.

O histograma de probabilidades nos permite visualizar a forma da distribuição. A média, a variância e o desvio-padrão traduzem outras características. Para uma distribuição de probabilidades, essas medidas podem ser determinadas usando as expressões mostradas na tabela 1.

Tabela 1. Expressões para cálculo da média, variância e desvio-padrão das distribuições de probabilidades.

Média =x P(x)

Variância 2₌__[(x-_₎2 _P(x)]

Variância 2_=[__x2 _{P(x)] -}_2

Desvio-Padrão =([x2 P(x)] - 2₎1/2

(6)

A média de uma variável aleatória discreta é o resultado médio teórico de um número infinito de provas. Podemos encarar essa média como o valor esperado no sentido de que é o valor médio que esperaríamos obter se as provas se prolongassem indefinitivamente. As aplicações do valor esperado (também chamado esperança ou esperança matemática) são extensas e variadas e o mesmo desempenha um papel de extrema importância em uma área de aplicação chamada teoria da decisão.

O valor esperado de uma variável aleatória discreta é denotado por E e representa o valor médio dos resultados:

E = x P(x) (1)

Observamos que E=. Isto é, a média de uma variável aleatória discreta coincide com seu valor esperado.

Exemplo (extraído de Triola, 1998, pag 96): Na tabela abaixo são fornecidas as probabilidades de ocorrências de um determinado evento. Entretanto, o objetivo da mesma é enfatizar o cálculo da média, da variância e do desvio-padrão. Juntamente com a tabela será mostrado o histograma de probabilidades.

Tabela 2. Cálculo da média, variância e desvio-padrão para uma distribuição de probabilidades.

X P(x) x P(x) x2 x2 P(x)

0 0,210 0,000 0 0,000

1 0,367 0,367 1 0,367

2 0,275 0,550 4 1,100

3 0,115 0,345 9 1,035

4 0,029 0,116 16 0,464

5 0,004 0,020 25 0,100

6 0 0,000 36 0,000

7 0 0,000 49 0,000

Total 1,000 1,398 - 3,066

=x P(x) = 1,398 = 1,4

(7)

Figura 2. Histograma de probabilidades.

As distribuições de freqüências construídas a partir de observações podem ser representadas através de formas matemáticas. Então, as formas matemáticas utilizadas para a idealização dos dados reais são referidas como distribuições teóricas.

As distribuições teóricas representam os dados aproximadamente, embora em muitos casos a aproximação pode ser muito boa. Basicamente, há três aspectos em que o emprego das distribuições de probabilidade teóricas podem ser útil (Wilks, 1995):

Compacidade: é trabalhoso lidar com grandes conjuntos de dados brutos, sendo que às vezes, também pode haver limitações para a análise. Uma distribuição teórica bem ajustada à série de dados reduz o número de trabalho exigido para a caracterizar as propriedades da mesma.

Alisamento e interpolação: os dados reais estão sujeitos a variações na amostragem que podem levar a falha de dados ou a dados errôneos nas distribuições empíricas. Por exemplo, numa amostra de dados de temperatura máxima de uma cidade, localizada na região tropical, não foram observadas temperaturas máximas entre 30 e 35ºC no verão, embora certamente temperaturas máximas nesta faixa podem ocorrer. A imposição de uma distribuição teórica sobre estes dados representaria a possibilidade dessas temperaturas ocorrerem, tanto quanto permitiria estimar a suas probabilidades de ocorrência. Extrapolação: estimar a probabilidade de eventos extremos a variação de um conjunto de dados particular exige a suposição de eventos ainda não observados. Isso pode ser realizado com a imposição de um modelo de probabilidade (isto é, uma distribuição teórica) ajustado a série de dados.

2.2.2 Distribuição Teórica

Uma distribuição teórica é um modelo matemático. A natureza específica de uma distribuição teórica é determinada por valores particulares através de uma entidade chamada parâmetros da distribuição. As distribuições teóricas também são chamadas de distribuições paramétricas, porque seus atributos específicos dependem dos valores numéricos de seus parâmetros.

2.2.3 Parâmetros e Estatísticas

(8)

calculadas a partir de uma amostra de dados. A confusão entre eles pode ser devido a algumas distribuições teóricas comuns onde estatísticas são bons estimadores para os parâmetros da população. Por exemplo, o desvio-padrão da amostra, s, pode ser confundido com o parâmetro  da distribuição Gaussiana porque os dois são iguais quando a distribuição Gaussiana representa bem os dados amostrais. Para esta distribuição a média da amostra é igual ao parâmetro  e o desvio-padrão é igual ao parâmetro . É importante ressaltar que nem sempre os parâmetros das distribuições são encontrados usando estatísticas das amostras. Normalmente, a notação para estatísticas da amostra envolve letras romanas e para os parâmetros envolve letras gregas.

2.2.4 Distribuição Discreta e Contínua

Há dois tipos de distribuições teóricas que correspondem a diferentes tipos de dados ou variáveis aleatórias: a distribuição discreta e a distribuição contínua.

A distribuição discreta descreve quantidades aleatórias (dados de interesse) que podem assumir valores particulares e os valores são finitos. Por exemplo, uma variável aleatória discreta pode assumir somente os valores 0 e 1, ou qualquer inteiro não negativo, etc. Um exemplo de variável climatológica discreta são as tempestades com granizo.

A distribuição contínua representa quantidades aleatórias contínuas que podem tomar qualquer valor dentro de um intervalo especificado dos números reais. Por exemplo, uma variável aleatória contínua deve ser definida entre os números reais 0 e 1, ou números reais não negativos ou, para algumas distribuições, qualquer número real. A temperatura, a pressão, a precipitação ou qualquer elemento medido numa escala contínua é uma variável aleatória contínua.

Existem várias distribuições discretas e contínuas, algumas delas serão mostradas abaixo. As explicações iniciarão com as distribuições contínuas.

3 Distribuições Contínuas

A maioria das variáveis atmosféricas podem assumir valores contínuos. A temperatura, a precipitação, a altura geopotencial, a velocidade do vento, e outras quantidades não estão restritas a valores inteiros de unidades físicas em que são medidas. Embora a natureza da medição e os sistemas de relatos é tal que as medidas atmosféricas são arredondadas para valores discretos, mas o conjunto de valores observados normalmente é grande o suficiente para que a maioria das variáveis possam ainda ser tratadas como quantidades contínuas.

Existem duas funções associadas a cada variável contínua X: a função densidade de probabilidade, simbolizada por f(X), e a função cumulativa de probabilidade, ou função de distribuição de probabilidade representada por F(X). A função f(X) é aquela cuja integral de X = a até X = b (b  a) dá a probabilidade de que X assuma valores compreendidos no intervalo (a, b), ou seja,



 





_

b

 

a

dX X f b X a

P (2)

A função cumulativa de probabilidade F(b) é tal que:

 





_

 

 

 

 ob X b bf X dX

b

(9)

A distribuição exponencial, por exemplo, tem a seguinte função densidade de probabilidade:

 

X e dX

f __ X ₍₄₎

com x  0. A sua função cumulativa de probabilidade é do tipo:

 

_X _x

_

_eX _dX _ __eX

F

0

1 



 ₍₅₎

Qualquer função definida no campo real só pode ser considerada como uma função densidade de probabilidade se forem satisfeitas as seguintes condições:

 

X  0

f (6)

para todo X e

 

_

  



 X dX 1

X

F (7)

A probabilidade de que a variável X assuma valores no intervalo (a, b) é dada por:



 





_

b

 



 



 

a

a F b F dX X f b X a

P (8)

e a probabilidade de que a variável contínua X assuma um valor em particular, b, por exemplo, é:



 





_

b

 



 



 



a

b F b F dX X f b X a

P 0 (9)

Há muitas distribuições teóricas contínuas. Algumas das mais usadas são: distribuição normal, distribuição gamma, distribuição de valores extremos e distribuição exponencial. Neste material vamos tratar dos modelos probabilísticos citados, que têm importância prática na investigação científica, abordando as formas das funções densidade de probabilidade, bem como a esperança e a variância. 3.1 Distribuição Normal

(10)

3.1.1 Teorema do Limite Central

A capacidade de usar amostras para fazer inferências sobre parâmetros populacionais depende do conhecimento da distribuição amostral. Para obtermos uma distribuição amostral é necessário repetir n vezes um experimento e após calcular a média das amostras. Este procedimento fornece um novo conjunto de dados que é denominado de distribuição amostral. Na verdade o que o teorema do limite central quer dizer é que se uma população tem distribuição normal, a distribuição das médias amostrais extraídas da população também terá distribuição normal, para qualquer tamanho de amostra. Além disso, mesmo no caso de uma distribuição não-normal, a distribuição das médias amostrais será aproximadamente normal, desde que a amostra seja grande. Este é um resultado notável, na verdade, pois nos diz que não é necessário conhecer a distribuição de uma população para podermos fazer inferência sobre ela a partir de dados amostrais. A única restrição é que o tamanho da amostra seja grande. Uma regra prática muito usada é que a amostra deve consistir de 30 ou mais observações.

Estes resultados são conhecidos como o Teorema do Limite Central e representam talvez o conceito mais importante na inferência estatística (Stevenson, 1981).

Agora será mostrado um exemplo ilustrativo adaptado de Triola (1998, pg. 126). Vamos realizar quatro amostragens para identificar o último algarismo do Número do Seguro Social (NSS) de estudantes de uma determinada cidade. Ou seja, selecionaremos na primeira amostragem 50 estudantes e verificamos o último algarismo do NSS, repetimos por mais três vezes esse procedimento e como resultado obtemos a tabela 3. Nesta tabela se combinarmos as amostras numa grande coleção de duzentos números, obtemos uma média x 4,5 e um desvio-padrão s = 2,8 e, uma distribuição aproximadamente uniforme como mostra o gráfico da figura 3. Entretanto, se calcularmos as médias das amostras (linhas da tabela), obtemos as médias amostrais e estas possuem uma distribuição normal (figura 4). Conclui-se que embora a coleção original de dados tenha uma distribuição aproximadamente uniforme, as médias amostrais têm distribuição aproximadamente normal. O conjunto original de 200 números tem distribuição uniforme (porque os algarismos 0-9 ocorrem aproximadamente com a mesma freqüência), mas as 50 médias amostrais têm distribuição normal. É um fenômeno verdadeiramente fascinante e intrigante na estatística que, extraindo amostras de qualquer distribuição, possamos criar uma distribuição normal ou, ao menos, aproximadamente normal.

Em geral, a distribuição amostral das médias amostrais é a distribuição das médias amostrais quando extraímos repetidas amostras de mesmo tamanho, da mesma população. Em outras palavras, se extrairmos amostras de mesmo tamanho da mesma população, calculamos suas médias e construímos um histograma destas médias, esse histograma tende para a forma de um sino de uma distribuição normal. Isto é verdade independentemente da forma da distribuição da população original.

Suponhamos que a variável x represente notas que podem ter, ou não, distribuição normal, e que a média dos valores x seja  e o desvio-padrão seja . Suponha que coletemos amostras de tamanho n e calculemos as médias amostrais. O que sabemos sobre a coleção de todas as médias amostrais que obtemos repetindo esse experimento? O Teorema do Limite Central nos diz que, na medida em que o tamanho n da amostra aumenta, a distribuição amostral das médias amostrais tente para uma distribuição normal com média  e desvio-padrão / n. A distribuição das médias amostrais tende para uma distribuição normal no sentido de que, quando n aumenta, a distribuição das médias amostrais se aproxima de uma distribuição normal. Essa conclusão não é obvia intuitivamente; foi obtida após extensa pesquisa de análise.

(11)

4,5. inspecionando visualmente os 200 algarismos da tabela 3, vemos que eles variam de 0 a 9, mas as 50 médias amostrais acusam menor variação indo de 1,75 a 8,25. O conjunto original de 200 algarismos tem desvio-padrão de 2,8, mas as 50 médias amostrais têm um desvio-padrão de 1,4, que é menor, conforme esperado.

Tabela 3. Amostragens do Número do Seguro Social de estudantes de uma determinada cidade.

Amostra I Amostra II Amostra _III Amostra _IV Média

1 8 6 4 4,75

5 3 3 6 4,25

9 8 8 8 8,25

5 1 2 5 3,25

9 3 3 5 5,00

4 2 6 2 3,50

7 7 1 6 5,25

9 1 5 4 4,75

5 3 3 9 5,00

7 8 4 1 5,00

0 5 6 1 3,00

9 8 2 2 5,25

6 1 5 7 4,75

8 1 3 0 3,00

5 9 6 9 7,25

6 2 3 4 3,75

7 4 0 7 4,50

5 7 5 6 5,75

4 1 5 7 4,25

1 2 0 6 2,25

4 0 2 8 3,50

3 1 2 5 2,75

0 3 4 0 1,75

1 5 1 0 1,75

9 7 4 0 5,00

7 3 1 1 3,00

9 1 1 3 3,50

8 6 5 9 7,00

5 6 4 1 4,00

9 3 9 5 6,50

6 0 7 3 4,00

8 2 9 6 6,25

0 2 8 6 4,00

2 0 9 7 4,50

5 8 9 0 5,50

6 5 4 9 6,00

(12)

7 1 2 0 2,50

2 9 5 0 4,00

8 3 2 2 3,75

2 7 1 6 4,00

6 7 7 1 5,25

2 3 3 9 4,25

2 4 7 5 4,50

5 4 3 7 4,75

0 4 3 8 3,75

2 5 8 6 5,25

7 1 3 4 3,75

8 3 7 0 4,50

5 6 6 7 6,00

Figura 3. Distribuição de 200 algarismos.

(13)

3.1.2 Parâmetros da Distribuição Normal

A distribuição normal é uma distribuição de dois parâmetros  (média) e  (desvio-padrão). A densidade de probabilidade desta distribuição tem a seguinte forma:

 

 2

2 2 X e 2 1 X f      

 parax (10)

onde  e  são a média e o desvio-padrão da população, respectivamente.  é estimado por xe  por s, que são obtidos através das relações:

N X X N 1 i i



  (11)





1 N X X s N 1 i 2 i 2  





 (12)

Uma notação bastante empregada para designar que uma variável tem distribuição normal com média x e variância s2 (s é a representação de  e xde  de uma amostra) é _N



_X_,_s2



_{. Se uma}

amostra de dados tem realmente distribuição normal a seguinte relação é válida: A = (K-3) = 0. A curtose da distribuição normal é igual a 3 e a assimetria é nula.

O histograma de freqüências da distribuição normal tem a forma de sino ou parecida. Com a média constante e a variância variável, o gráfico da curva normal assume diferentes formas de sino: de alongada a achatada.

A probabilidade de que X assuma valores menores ou iguais a um dado x quando X é N(x,s2) é estimada por:

 

e   dX

2 1 X F X 2 X 2 2



         (13)

Mas essa equação não pode ser resolvida analiticamente sem o uso de métodos de integração aproximada. Por essa razão usa-se a transformação





s X X

Z   e com isso a variável Z tem N(0,1). A variável Z é chamada variável reduzida e a curva

 

e dZ

2 1 Z F Z 2 Z2



     (14)

é a curva normal reduzida.

(14)

Prob(Z  z), bem como as Prob(0  Z  z). Por isso, a escolha da tabela e sua utilização deve ser feita com muito cuidado. A tabela utilizada aqui fornece Prob(Z  z). Mas nas tabelas que fornecem apenas os valores positivos da variável reduzida faz-se uso da propriedade de simetria da curva normal reduzida de modo que: P(-X  Z  0) = P(0  Z  X).

(15)

Exemplo 1

Como exemplo de uso da tabela acima, considera-se uma variável X com N(15,25). Qual a probabilidade de que X assuma os valores (16  X  20)?

A probabilidade desejada pode ser obtida, utilizando-se a variável transformada (Z). Assim:





s X X Z  

Para X = 16 





0,04 25

15 16

Z  

Para X = 20 





0,20 25

15 20

Z  

P(0,04  Z  0,20) = P(Z  0,2)-P(Z  0,04) Com o uso da tabela, tem-se:

P(Z  0,2) = 0,5793 P(Z  0,04) = 0,5160

(16)

Exemplo 2

Tabela 5. Valores totais da chuva anual em Pelotas – RS (1895-1994).

Ano Prec. Ano Prec. Ano Prec. Ano Prec.

1895 923 1920 1300 1945 864 1970 1040

1896 973 1921 1054 1946 1307 1971 1090

1897 1258 1922 1326 1947 919 1972 1344

1898 1695 1923 1360 1948 1443 1973 1110

1899 1066 1924 931 1949 1114 1974 1355

1900 1334 1925 1377 1950 1225 1975 1048

1901 952 1926 1099 1951 926 1976 1361

1902 1746 1927 1160 1952 1270 1977 1654

1903 1320 1928 1144 1953 1112 1978 1179

1904 1510 1929 1321 1954 1373 1979 1137

1905 1501 1930 1350 1955 890 1980 1555

1906 1212 1931 1298 1956 1191 1981 1352

1907 1166 1932 1780 1957 1220 1982 1342

1908 1305 1933 998 1958 1232 1983 1543

1909 1198 1934 1535 1959 1778 1984 1694

1910 1004 1935 1496 1960 1331 1985 1178

1911 1323 1936 1995 1961 1372 1986 1656

1912 1539 1937 1718 1962 856 1987 1815

1913 885 1938 1311 1963 1582 1988 890

1914 2338 1939 1297 1964 832 1989 857

1915 1455 1940 1724 1965 1255 1990 1423

1916 1011 1941 1945 1966 1605 1991 1330

1917 689 1942 1237 1967 1271 1992 1435

1918 1510 1943 680 1968 1049 1993 1390

1919 1138 1944 1153 1969 982 1994 1265

Consideramos os dados de chuva anual da tabela acima, cuja distribuição de freqüência é reproduzida na tabela 6, na qual se tem:

100 1 2 5 11 29 27 27 18 7

f         



fX7x78318x99127x119929x1407 11x16155x18232x20311x2239 129.676,00



fX7x7832 18x9912 27x1199229x14072 11x16152 5x182322x20312 1x22392 176.764.292,00

8 , 296 . 1 100 00 , 676 . 129 f fX

X   











71 , 928 . 86 99 100 / 00 , 676 . 129 00 , 592 . 764 . 176 1 f f / fX fX s 2 2 2

2 _  _

  



(17)

s = 294,83

Tabela 6. Distribuição de freqüências dos totais anuais de chuva de Pelotas – RS, no período de 1895 a 1994. Ajuste à distribuição normal.

Classes Ponto Médio _(X) f Zi F(Zi) F(Xi) fe

679 - 887 783 7 -1,39 0,0823 0,0823 8,2

887 – 1095 991 18 -0,68 0,2483 0,1660 16,6

1095 – 1303 1199 27 0,02 0,5080 0,2597 26,0

1303 – 1511 1407 29 0,73 0,7673 0,2593 26,0

1511 1719 1615 11 1,43 0,9236 0,1563 15,6

1719 -1927 1823 5 2,14 0,9838 0,0602 6,0

1927 – 2135 2031 2 2,84 0,9977 0,0139 1,4

2135 – 2343 2239 1 3,55 1,0000 0,0023 0,2

Totais - 100 - - 1,0000 100,0

Calcula-se a variável reduzida para cada classe, considerando-se o limite superior da classe. Assim

Z1 = (887 – 1296,8)/294,3 = -1,39  F(Z1) = 0,0823

Z2 = (1095 – 1296,8)/294,3 = -0,68  F(Z2) = 0,2483

Z3 = (1303 – 1296,8)/294,3 = 0,02  F(Z3) = 0,5080

Z4 = (1511 – 1296,8)/294,3 = 0,73  F(Z4) = 0,7673

Z5 = (1719 – 1296,8)/294,3 = 1,43  F(Z5) = 0,9236

Z6 = (1927 – 1296,8)/294,3 = 2,14  F(Z6) = 0,9838

Z7 = (2135 – 1296,8)/294,3 = 2,84  F(Z7) = 0,9977

Z8 = (2343 – 1296,8)/294,3 = 3,55  F(Z8) = 1,0000

Como F(Zi) é acumulada, a F(X), ou seja, a probabilidade de que ocorra um valor de chuva

menor ou igual ao da classe, é calculada subtraindo-se do valor de F(Z) de cada classe o valor de F(Z) da classe anterior, como indicado na tabela 6.

As freqüências esperadas (fe) em cada classe, (a última coluna da tabela 6) são obtidas, multiplicando-se o valor de F(X) pela soma de todas as freqüências, ou seja:

fe1 = 0,0823 x 100 = 8,2

fe2 = 0,1660 x 100 = 16,6

fe3 = 0,2597 x 100 = 26,0

(18)

fe5 = 0,1563 x 100 = 15,6

fe6 = 0,0602 x 100 = 6,0

fe7 = 0,0139 x 100 = 1,4

fe8 = 0,0023 x 100 = 0,2

A soma das freqüências esperadas (fe) deve ser igual a soma das freqüências observadas (f). A representação gráfica do ajuste acima é indicada na figura 5.

Figura 5. Totais anuais de chuva de Pelotas (RS), no período de 1895 a 1994, ajustada à distribuição normal (Assis et al., 1996, pg. 49).

3.2 Distribuição Gamma

Muitas variáveis possuem assimetria positiva, ou seja, são distorcidas à direita. Freqüentemente a distorção ocorre quando há um limite físico à esquerda que é relativamente próximo a variação dos dados (Wilks, 1995). Exemplos comuns desta situação são as quantias de precipitação e a velocidade do vento que são fisicamente não negativas. Há uma variedade de distribuições contínuas que são limitas à esquerda por zero. Entretanto, a distribuição gamma é comumente usada para representar dados de precipitação.

A freqüência ou função densidade de probabilidade da distribuição gamma é:

 



   _ _

 

X 1_e

X 1 X

f (15)

onde  é um parâmetro de escala,  é o parâmetro de forma e () é a função gamma ordinária de . A função gamma tem as seguintes propriedades:

 

X X e dX

0

X 1





  



 ₍₁₆₎

para todo X > 0

 

1 

 

2 1

(19)

 

X 



X1



! para X1,2,3,...





X1



X

 

X para X0

 _



1/5



  1,77245



O valor de (X) pode ser obtido, com boa aproximação, através da seguinte relação:

 

_eXln   X fX X

2

X   

 (17)

onde:

 

₂ ₄ ₆

X 1260

1 X

360 1 X

12 1 1 X

f     (18)

A tabela 7 fornece os valores de (X), com base nestas relações.

A média, a variância e o coeficiente de assimetria (A) da distribuição gamma podem ser obtidos por:

 

X (19)

2 2

s  (20)

  2

A ₍₂₁₎

A distribuição gamma tem assimetria positiva com o parâmetro  diminuindo e o parâmetro 

(20)

Tabela 7. Função gamma de Y.

Pode-se concluir, com base na equação (21), que, quando  tende para infinito A  0, ou seja, a distribuição gamma, neste caso, tende a ser simétrica.

As estimativas dos parâmetros  e  resultam da solução das equações (19) e (20). Mas essas estimativas não são adequadas, preferindo-se as estimativas descritas em Thom (1966):

   

 

  



3 A 4 1 1 A 4

1

(22)

 

 X (23)

sendo

g

X X ln

A  (24)

onde





 N

1 i

i

X N

1

X (25)

(21)

 



 N

1 i

g lnX

N 1

X (26)

é a média geométrica das observações, ou alternativamente, segundo Greenwood e Durand (1960) dada por: Z Z 054427 , 0 Z 1648852 , 0 5000876 ,

0 _ _ 2



 (27)

quando 0  Z  0,5772 e por



2



2 Z Z 968477 , 11 79728 , 17 Z Z 9775373 , 0 Z 05995 , 9 898919 , 8       (28)

quando 0,5772 < Z < 7,0, onde

 

X Xg

ln

Z  (29)

Neste caso o parâmetro  continua sendo calculado como na equação (23). A função cumulativa de probabilidade é:

 

1 X e dX

X F

X X

0

1    



    (30)

Esta equação não tem solução imediata, exigindo tabelas ou técnicas de integração numérica como expansão em série e a fórmula de Simpson, por exemplo. A série normalmente utilizada é a seguinte:

 









1



2



3



t ... 2 1 t 1 t 1 e t t F 3 2 1

t    __ __ __

               

  (31)

Na equação (29), fazendo-se

  X

t ; X=t; dx=dt, chega-se a equação (31). A probabilidade de ocorrer um valor de X  t é F(t).

Exemplo

Considere-se os 95 valores mensais de chuva do mês de janeiro em Pelotas, RS, na tabela 8, cuja distribuição de freqüências é mostrada na tabela 9. Considerando-se a tabela 9, tem-se:



f18282013942195

(22)

56 , 111 95 5 , 598 . 10

X  



fX21831,122873,1220115,1213157,129199,124241,122283,121325,121.608.101,75

















4.528,72

94 95 / 5 , 598 . 10 75 , 101 . 608 . 1 1 f f / fX fX s 2 2 2

2 _  _

  



 



























283,1



1 ln



325,1



429,3573 ln 2 1 , 241 ln 4 1 , 199 ln 9 1 , 157 ln 13 1 , 115 ln 20 1 , 73 ln 28 1 , 31 ln 18 f X ln                 







0,19504

95 3573 , 429 93 , 111 ln

A  

Tabela 8. Chuva mensal de janeiro em Pelotas, RS, no período de 1895 a 1989.

Ano 0 1 2 3 4 5 6 7 8 9

189... 112,6 32,1 129,9 183,1 63,4

190... 68,3 77,5 113,3 35,8 145,6 22,3 20,2 15,5 121,4 148,5 191... 203,6 117,8 81,3 50,1 197,7 132,6 130,1 72,8 86,6 23,1 192... 81,5 65,7 159,0 182,0 28,8 129,6 33,4 82,7 59,3 119,7 193... 97,0 239,6 31,5 59,0 151,7 45,7 64,5 64,5 232,0 92,4 194... 269,0 271,3 68,3 25,1 244,7 44,1 113,4 101,8 340,3 87,6 195... 10,4 84,9 62,8 144,4 160,1 22,1 210,9 58,4 162,0 134,5 196... 143,5 106,6 64,5 151,1 11,5 48,1 107,8 84,4 191,3 105,2 197... 83,9 148,1 178,1 213,9 127,0 129,8 140,1 119,7 72,5 14,7 198... 59,6 85,4 71,0 135,9 246,8 78,6 166,0 82,7 149,5 209,4 Tabela 9. Distribuição de freqüências dos totais mensais de chuva de janeiro em Pelotas – RS. Ajuste à distribuição gamma.

Classes Ponto Médio _(X) f FX FX2 ln(X) f

10,1 – 52,1 31,1 18 559,8 17.409,78 61,8697

52,1 – 94,1 73,1 28 2.046,8 149.621,08 120,1712

94,1 – 136,1 115,1 20 2.302,0 264.960,20 94,9160 136,1 – 178,1 157,1 13 2.042,3 320.846,33 65,7395 178,1 – 220,1 199,1 9 1.791,9 356.767,29 47,6443

220,1 – 262,1 241,1 4 964,4 232.516,84 21,9408

262,1 - 304,1 283,1 2 566,2 160.291,22 11,2916

304,1 – 346,1 325,1 1 325,1 105.609,01 5,7841

(23)



1/40,19504







1



140,19504/3





2,7206   0066 , 41 7206 , 2 56 , 111 _  

 

 



2,7206



 é estimada pela equação (17), na qual

 

Y 1 1/12 2,7206 1/360 2,7206 1/1.260 2,7206 0,98879

f _ _ _ 2 _ _ 4 _ _ 6 _

 

  ₁_,₅₇₀₄

e 7206 , 2

2 _ 2,7206ln2,72060,98879 _

As estimativas dos parâmetros com base nas equações (19) e (20) a fim de comparações, fica como exercício.

Com os parâmetros  e  estimado tem-se, então, a função densidade de probabilidade, na forma da equação (15),

 

41,0066

X 7206 , 1

5_X _e

10 x 61 , 2 x

f  

e a função cumulativa de probabilidade (equação 30) será:

 

X 2,61 10 X e dX

F 41,0066

X X 0 706 , 1 5  



 

A solução dessa equação exige o emprego de técnicas de integração numérica ou uso de tabelas específicas. Adotou-se aqui a expansão em série na forma da equação (31), cuja reprodução de todos os cálculos é praticamente impossível de ser apresentada aqui. Mas, considerando apenas a primeira classe, a título de exemplo, tem-se:

2705 , 1 0066 , 41 1 , 52

t 

                                7206 , 7 7296 , 6 7206 , 5 7306 , 4 7206 , 3 2705 , 1 7206 , 6 7206 , 5 7206 , 4 7206 , 3 2705 , 1 7206 , 5 7206 , 4 7206 , 3 2705 , 1 7206 , 4 7206 , 3 2705 , 1 7206 , 3 2705 , 1 1 e 5704 , 1 7206 , 2 2705 , 1 t

F ₄ ₅

3 2 2705 , 1 7206 , 2



1 0,341484 0,091909 0,020413 0,003859



0,12602 1,4583 12602

,

0      



(24)

Tabela 10. Distribuição de freqüências dos totais mensais de chuva de janeiro em Pelotas – RS, ajustados à distribuição gamma de probabilidade.

Classes Ponto Médio _(X) f FX fe

10,1 – 52,1 31,1 18 0,1838 17

52,1 – 94,1 73,1 28 0,4734 28

94,1 – 136,1 115,1 20 0,7052 22

136,1 – 178,1 157,1 13 0,8489 14

178,1 – 220,1 199,1 9 0,9272 7

220,1 – 262,1 241,1 4 0,9663 4

262,1 - 304,1 283,1 2 0,9849 2

304,1 – 346,1 325,1 1 0,9934 1

Totais - 95 - 95

O histograma de freqüências deste exemplo é mostrado na figura 6.

Figura 6. Totais de chuva mensal de janeiro em Pelotas, RS, ajustados a distribuição gamma (Assis et al., 1996, pg. 59).

3.3 Distribuição de Valores Extremos

(25)

 

           X e X e e 1 X f (32)

 

      X e e X F (33)

O duplo sinal no segundo expoente da equação (33) refere-se aos valores extremos máximo (sinal negativo) e mínimo (sinal positivo).

As estimativas dos parâmetros  e  podem ser obtidas por diferentes métodos como por exemplo: o método dos momentos, o método da regressão, o método de Lieblein e o método da máxima verossimilhança (Assis et al., 1996). Entretanto, aqui, serão descritos o método dos momentos, o método da regressão e o método da máxima verossimilhança, através do exemplo a seguir. O método de Lieblein pode ser encontrado em detalhes em Thom (1966) e Assis et al. (1996).

Exemplo

Considerem-se os 72 valores anuais de chuva máxima de 24 horas de Piracicaba, SP, apresentados na tabela 11.

Tabela 11. Chuva máxima de 24 horas de Piracicaba, SP, no período de 1917 a 1988.

Ano 0 1 2 3 4 5 6 7 8 9

191... 65,0 68,0 65,0

192... 64,0 65,0 55,0 64,0 60,0 57,0 66,5 64,0 50,0 59,2 193... 86,5 93,0 69,0 65,0 83,0 50,0 64,4 58,8 58,0 109,5 194... 83,3 77,9 104,9 97,7 111,2 95,3 64,4 75,2 46,8 108,4 195... 55,5 62,4 73,9 54,4 57,8 80,1 39,9 59,1 80,0 78,4 196... 83,8 55,5 82,9 52,0 48,3 80,4 70,7 49,1 63,0 73,7 197... 71,6 68,5 80,4 99,5 68,6 76,0 72,7 71,8 46,4 63,4 198... 50,7 59,2 68,6 114,0 51,1 70,4 62,0 103,2 86,7

12 , 71 72 64 , 5120 72 7 , 86 2 , 103 3 , 62 ... 0 , 65 0 , 68 0 , 65 N X

X 



       









₂₉₆

1 N N / X X s 2 2 2 _   



2 s

s = 17,22

3.3.1 Método dos Momentos

(26)

s 6

 

 (34)

equivalente a =0,7794s e,

 



 X 0,5772 (35)

Com base nos dados da tabela 11 e nas equações (34) e (35) têm-se:

43 , 13 22 , 17 14 , 3 6 _ 

 e 71,120,577213,4363,37

3.3.2 Método da Regressão

Tomando-se os valores da variável aleatória X, ordenados em forma crescente, faz-se a regressão de n/(N+1) contra F(X), ou seja:

 

1 N n e X F X e         ₍₃₆₎ ou             X e 1 N n ln (37)

ou, aplicando-se, novamente, o logaritmo:

                X 1 N n ln ln (38) ou, ainda,                  X 1 N n ln ln (39)

Assim, se na equação (39) tomarmos Y 1 N

n ln

ln_ _    

 

 ,  a



e 1 b

 , ela toma a forma Y =

a + bX, que é a equação da reta. Desse modo os parâmetros a e b podem ser estimados por: X

b Y

(27)







 



  

N X X

N Y X XY

b

2 2

(41)

Os valores de n/(N+1), de ln[n/(N+1)] e de X, dos dados da tabela 11, organizados em forma crescente, estão representados na tabela 12.

(28)

Na tabela 12, fazendo-se





_            1 N n ln ln

Y , tem-se:



X39,946,4...111,2114,05120,7



X2 39,9246,4...111,22114,02 38255,29

97 , 39 2836 , 4 5835 , 3 ... 2802 , 1 4564 , 1

Y      



XY39,91,4564 46,41,2802 ...111,2(3,5835)114,0(4,2836)4295,91

Logo, segundo as equações (40) e (41):

a = 4,3492 e b = -0,06896 Portanto, 5012 , 14 06896 , 0 1 b 1 _       0686 , 63 3492 , 4 5012 , 14

a  

 

3.3.3 Método da Máxima Verossimilhança

É um método iterativo no qual as estimativas de  e  são obtidas pela solução das seguintes equações:



       _X X i e e X X (42) e              



  N e log i X (43)

O valor inicial de  para iniciar a iteração é dado pela equação (34). Com os dados da tabela 11 tem-se:

(29)

22 , 17 s

43 , 13 1416 , 3 / 22 , 17 7749 , 0

0   



Aplicando-se a equação (42) encontra-se  = 13,7932. Com base, então na equação (43),  = 63,18. Deixa-se, como exercício, para o leitor mostrar o restante dos cálculos.

A tabela 13 faz uma comparação entre as estimativas dos parâmetros através dos três métodos apresentados.

Tabela 13. Estimativas dos parâmetros da distribuição de valores extremos através dos métodos dos momentos, da regressão e da máxima verossimilhança, para os dados de chuva anual máxima de 24 horas de Piracicaba, SP.

Método  

Momentos 13,4300 63,3700

Regressão 14,5012 63,0686

Máxima Verossimilhança 13,7932 63,1869

As estimativas dos parâmetros até aqui foram feitas com os dados brutos, mas o método da regressão também pode ser aplicado a dados agrupados, trabalhando-se com as freqüências acumuladas e com o ponto médio de cada classe.

Com as estimativas pelo método da máxima verossimilhança, a função cumulativa de probabilidade é então:

 

X exp



exp





X 63,1869



/13,7932





F    

a qual permite estimar as probabilidades de que X seja menor ou igual a determinado valor. Uma comparação entre os valores observados e estimados pela função está mostrada na tabela 14.

Tabela 14. Chuva máxima anual de 24 horas de Piracicaba, SP, ajustada à distribuição de valores extremos.

Classes Ponto Médio _(X) f FX fe

39,1 - 48,1 43,6 3 0,0505 4

48,1 – 57,1 52,6 12 0,2112 12

57,1 – 66,1 61,6 19 0,4450 17

66,1 – 75,1 70,6 13 0,6560 15

75,1 – 84,1 79,6 12 0,8029 11

84,1 – 93,1 88,6 4 0,8920 6

93,1 – 102,1 97,6 3 0,9422 4

102,1 – 111,1 106,6 4 0,9695 2

111,1 – 120,1 115,6 2 0,9840 1

(30)

Os quantis também são obtidos diretamente pela equação (33), tomando-se, duas vezes, o logaritmo da função. Por exemplo, se F(X) = 0,95 ou 95%, teremos, então:

-ln[F(0,95) = exp{-exp[-(X-63,1869)/13,7932]}  0,0513 = exp[(-X - 63,1869)/13,7932]  2,9701 = (X - 63,1869)/13,7932  X  104,3mm

Isso significa que, em 95% dos casos, a chuva máxima em 24 horas, em Piracicaba, não excede 104,3 mm.

Na figura 7 é mostrado o histograma da distribuição.

Figura 7. Chuva anual

máxima de 24 horas de

Piracicaba, SP, ajustada a distribuição de valores extremos ou de Gumbel (Assis et al., 1996, pg. 70). 3.4 Distribuição Exponencial

A distribuição exponencial é geralmente aplicada a dados com forte assimetria como aqueles cujo histograma tem a forma da figura 1B, ou seja de J invertido. Sua densidade de probabilidade tem a forma:

 

_X ___eX

f (44)

e sua função de distribuição de probabilidade é do tipo:

 

_

_

_   _ _  

0

X

X ₁ _e

e X

F (45)

O único parâmetro, , é estimado por

X 1



 (46)

(31)

 

X X

e 1 X

F    (47)

A esperança e a variância da distribuição exponencial são obtidas através das expressões: X = 1/ e s2 = 1/2, respectivamente. A distribuição exponencial é um caso especial da distribuição gamma com o parâmetro  = 1.

Exemplo

Considere os dados diários de chuva de Pelotas – RS, no mês de janeiro, cuja distribuição de freqüências consta na tabela 15. Neste exemplo os dados brutos não são apresentados.

Os cálculos necessários para a estimativa da média e da variância dos dados também estão indicados na tabela 15, com isso, tem-se:

806 1 0 2 2 5 7 9 23 43 80 184 450

f            



fX4505,5184158025433523459557655752852950105111511575

fX24505,52184152802524335223452955276525752285229520105211152334912,5 Tabela 15. Distribuição de freqüências dos totais diários de chuva de janeiro de Pelotas, RS, no período de 1893 a 1994. Foram considerados apenas os valores > 1,0 mm.

Classes PM (X) f fX fX2 F(X) fe

1 – 10 5,5 450 2475 13612,5 0,5016 404

10 – 20 15 184 2760 41400,0 0,7516 201

20 – 30 25 80 2000 50000,0 0,8762 100

30 - 40 35 43 1505 52675,0 0,9383 50

40 – 50 45 23 1035 46575,0 0,9692 25

50 - 60 55 9 495 27225,0 0,9847 12

60 -70 65 7 455 29575,0 0,9924 6

70 – 80 75 5 375 28125,0 0,9962 3

80 – 90 85 2 170 14450,0 0,9981 2

90 -100 95 2 190 18050,0 0,9990 1

100 – 110 105 0 0 0,0 0,9995 0

110 -120 115 1 115 13225,0 0,9998 0

Totais - 806 11575 334912,5 - 806

361 , 14 806 11575 f fX

X   











54 , 209 805 806 / 11575 5 , 334912 1 f f / fX fX s 2 2 2

2 _  _

  



(32)

0696 , 0 361 , 14

1 X

1 _ _

 

Os valores de F(X) e as freqüências esperadas são assim calculados: F(X1) = 1-exp(-0,0696 x 10) =0,5016  fe = 404

F(X2) = 1-exp(-0,0696 x 20) =0,7516  fe = 201

F(X3) = 1-exp(-0,0696 x 30) =0,8762  fe = 100

F(X4) = 1-exp(-0,0696 x 40) =0,9383  fe = 50

F(X5) = 1-exp(-0,0696 x 50) =0,9692  fe = 25

F(X6) = 1-exp(-0,0696 x 60) =0,9847  fe = 12

F(X7) = 1-exp(-0,0696 x 70) =0,9924  fe = 6

F(X8) = 1-exp(-0,0696 x 80) =0,9962  fe = 3

F(X9) = 1-exp(-0,0696 x 90) =0,9981  fe = 2

F(X10) = 1-exp(-0,0696 x 100) =0,9990  fe = 1

F(X11) = 1-exp(-0,0696 x 110) =0,9995  fe = 0

F(X12) = 1-exp(-0,0696 x 120) =0,9998  fe = 0

O histograma dos dados da tabela 15 está apresentado abaixo:

Figura 8. Distribuição

exponencial

ajustada aos totais

diários de chuva de janeiro de Piracicaba – SP, no período de 1917 a 1989 (Assis et al., 1996, pg. 72). 4 Distribuições Discretas

Existe um grande número de distribuições de probabilidades teóricas para as variáveis aleatórias discretas. De acordo com Wilks (1995), muitas encontram-se listadas em Johnson e Kotz (1969), junto com os resultados referentes a suas propriedades. Entretanto, somente três distribuições de probabilidades discretas têm sido usadas em grau apreciável nas ciências atmosféricas: a distribuição binomial, a distribuição de Poisson e a distribuição geométrica.

(33)

P(X = x) = p(X) (48) A distribuição binomial com parâmetros n e q, por exemplo, tem a seguinte função de probabilidade:

 

_qX



₁ _q



n X

X n X

p _  

    

 (49)

com X assumindo os valores 0, 1, 2, 3, ...

O símbolo P(X) é utilizado para indicar a função cumulativa de probabilidade, a qual representa a probabilidade de que a variável aleatória discreta X assuma um valor particular x, na forma:

 



_

X

 

0

X p X

P (50)

com X = 0, 1, 2, 3, ... n e X  n.

Diferentemente da distribuição contínua, a probabilidade de que uma variável discreta assuma um valor particular qualquer é diferente de zero.

4.1 Distribuição Binomial

Em muitos problemas, o que nos interessa é a probabilidade de um evento ocorrer X vezes em n provas. Por exemplo, a probabilidade de se obter 45 respostas a 400 questionários distribuídos como parte de um estudo sociológico, a probabilidade de 5 em 12 ratos sobreviverem por determinado prazo após serem injetados com substâncias cancerígenas, entre outros. Portanto, estamos interessados em obter X sucessos em n provas, ou em outras palavras, X sucessos e n - X falhas em n provas. Para a distribuição binominal considera-se que há um número fixo de provas, a probabilidade de sucesso é a mesma em todas as provas e as provas são todas independentes. Uma vez que exige que os eventos sejam independentes esta distribuição passa a ter pouca utilidade em climatologia, pois a independência quer dizer observações não correlacionadas o que muitas vezes não se verifica nos dados meteorológicos.

A função de probabilidade binomial é dada por:

 

_qX



₁ _q



n X

X n X

p _  

    

 (51)

onde q é a probabilidade de um evento ocorrer, 1 – q é a probabilidade do evento não ocorrer, X é a freqüência de ocorrência e X pode tomar os valores 0, 1, 2, ..., n. Portanto, esta função fornece a probabilidade de ocorrerem X sucessos em n provas.

(34)





n t t X 0 t q 1 q t n ) X ( P         





(52)

onde t = 0, 1, 2, ..., n.

A média e a variância da distribuição binomial podem ser obtidas através das expressões: q

n

X   e s2_n_q_



1_q



_{, respectivamente.} Exemplo

Há uma probabilidade de 0,30 de uma pessoa, ao fazer compras em um supermercado, se beneficie de uma promoção especial de sorvete. Determine as probabilidades de que, dentre seis pessoas que estão fazendo compras no supermercado, haja 0, 1, 2, 3, 4, 5 ou 6 que se beneficiem da promoção. Trace um histograma dessa distribuição de probabilidade.

Solução

Admitindo que a escolha seja aleatória, fazemos n = 6, q = 30 e, respectivamente, X = 0, 1, 2, 3, 4, 5 e 6 na fórmula da distribuição binomial:

 

_qX



₁ _q



n X

X n X

p _  

     

 



0,30

 

0,70



0,118 0

6 0

p _ 0 6 

    



 



0,30

 

0,70



0,060

4 6 4

p _ 4 2

     

 



0,30

 

0,70



0,303 1

6 1

p _ 1 5 

    



 



0,30

 

0,70



0,010

5 6 5

p _ 5 1 

     

 



0,30

 

0,70



0,324 2

6 2

p _ 2 4 

    



 



0,30

 

0,70



0,001

6 6 6

p _ 6 0 

     

 



0,30

 

0,70



0,185 3

6 3

p _ 3 3 

(35)

Figura 9. Histograma

da distribuição binomial

com n = 6 e q = 030.

4.2 Distribuição de Poisson

Muitas vezes, no uso da distribuição binomial acontece que n é muito grande



n



e q é muito pequeno



q0



. Nesse caso o cálculo torna-se difícil e, portanto, fazemos uma aproximação da distribuição binomial pela distribuição de Poisson. Podemos usar com segurança a aproximação de Poisson da distribuição binomial quando n100 e nq10 (Freund e Simon, 1995). Entretanto, autores como Morettin (1999) sugerem a aproximação a partir de n > 30.

A distribuição de Poisson tem a seguinte distribuição de probabilidade:

 

! X

X e X p

X X



 (53)

onde X representa a média da distribuição binomial que é X nq, e X = 0, 1, 2, 3, ... A função cumulativa de probabilidade é:

 

! t e X X

P

X X

0 t

t







 (53)

onde t = 0, 1, 2, ..., n.

O único parâmetro dessa distribuição é a média que é numericamente igual a variância. Sendo estimada por: X nq.

(36)

A distribuição de Poisson geralmente é citada como a distribuição de eventos raros. Os dados que serão utilizados nesse exemplo referem-se ao número de meses no ano em que o número de dias chuvosos é maior do que 10. Os dados foram observados em Pelotas, RS, no período de 1895 a 1989. Tabela 16. Número de meses no ano com mais de 10 dias chuvosos em Pelotas, RS, no período de 1895 a 1989.

Anos 0 1 2 3 4 5 6 7 8 9

1890 0 0 1 5 2

1900 1 0 4 2 2 4 2 4 0 4

1910 1 2 2 1 7 2 1 0 3 2

1920 3 1 3 1 0 1 3 0 1 2

1930 0 1 4 1 1 1 3 2 2 2

1940 5 5 1 1 3 1 1 0 2 1

1950 2 0 0 1 2 0 2 2 0 5

1960 1 3 1 2 0 2 3 2 2 0

1970 2 1 5 2 3 1 3 5 2 2

1980 4 3 4 4 5 2 3 3 2 1

Os dados da tabela 16 fornecem a distribuição de freqüências apresentada na tabela 17, na qual pode-se calcular:



f1524271387 0195



fx15024127213384750617191

0105 , 2 95 191 f

fX

X   



fx2 1502 2412 27221332 842 752062 172 601









₂_,₃₀₈₄

94 95 / 191 601 1

f

f / fX fX

s

2 2

2

2 _  _

  



Tabela 17. Distribuição de freqüências do número de meses no ano com mais de 10 dias chuvosos em Pelotas, RS, no período de 1895 a 1989.

Classes X f fX fX2 _p(X) _fe

0 15 0 0 0,1339 12,7

1 24 24 24 0,2692 25,6

2 27 54 108 0,2707 25,7

3 13 39 117 0,1814 17,2

4 8 32 128 0,0912 8,7

(37)

6 0 0 0 0,0123 1,2

7 1 7 49 0,0035 0,4

Totais 95 191 601 0,9989 95

Para efeitos práticos pode-se considerar a média igual a variância. Assim, o cálculo das probabilidades se segue com base na equação (53), ou seja:

P(X = 0)  (2,01050 e-2,0105)/1 = 0,1339 P(X = 1)  (2,01051 e-2,0105)/1 = 0,2692 P(X = 2)  (2,01052 e-2,0105)/2 = 0,2707 P(X = 3)  (2,01053 e-2,0105)/6 = 0,1814 P(X = 4)  (2,01054 e-2,0105)/24 = 0,0912

P(X = 5)  (2,01055 e-2,0105)/120 = 0,0367 P(X = 6)  (2,01056 e-2,0105)/720 = 0,0123 P(X = 7)  (2,01057 e-2,0105)/5040 = 0,0035

O cálculo das freqüências esperadas é assim efetuado: Para X = 0  fe = 0,1339 x 95 = 12,7

Para X = 1  fe = 0,2692 x 95 = 25,6 Para X = 2  fe = 0,2707 x 95 = 25,7

Para X = 3  fe = 0,1814 x 95 = 17,2 Para X = 4  fe = 0,0912 x 95 = 8,7 Para X = 5  fe = 0,0367 x 95 = 3,5 Para X = 6  fe = 0,0123 x 95 = 1,2 Para X = 7  fe = 0,0035 x 95 = 0,4

A figura abaixo representa o histograma dos dados da tabela 17.

Figura 10. Histograma de

(38)

meses do ano com mais de 10 dias chuvosos em Pelotas, RS, no período de 1895 a 1989 (Assis et al., 1996, pg. 81).

4.3 Distribuição Geométrica

A distribuição geométrica recebe esta denominação porque seus valores sucessivos constituem uma progressão geométrica. Para esta distribuição há uma infinidade enumerável de possibilidades; os eventos são independentes e com probabilidade de sucesso p. A variável X corresponde ao número de experimentos antes da ocorrência do primeiro sucesso.

A função de probabilidade da distribuição geométrica é:

  



X 1

1 X

p    (54)

com 01, sendo:

X 1 1



 (55)

A variância da distribuição geométrica é obtida pelas expressão: _s2 1 ₂

  

 .

Exemplo 1

Aplicando a fórmula (54), constatamos, por exemplo, que, em jogadas repetidas de um dado equilibrado, a probabilidade de o primeiro 6 ocorrer na quinta jogada é:

080 , 0 7776

625 6

1 6

5 5 1 _ _

    

 

Exemplo 2

Os dados da tabela 18 mostram as seqüências de dias com chuva iniciadas nos 31 dias seguintes ao dia 21 de dezembro de 1997 a 1989, em Piracicaba, SP, a qual permite calcular:



f14684763428151066610220101418



₁fX_₁₁146_₀_₁₂1_84₂_₁₃2_76₂_₁₄3_34₀_₁₅4_₁28_₁₆5_₀15_₁₇6_₁10_₁₈7_₁_.6₂₃₉869610

(39)

41 , 63 418 1239 f

fX

X   











₆_,₃₉₉

417

418 / 1239 0

, 6341 1

f

f / fX fX

s

2 2

2

2 _  _

  



6626 , 0 9641 , 2

1

1 

 

3374 , 0 6626 , 0 1

1  

Pode-se, então, estimar-se f(X) e as freqüências esperadas (fe), assim: P(X = 1)= 0,3374 x 0,66260 = 0,33737  fe= f(X) x 418 =141 P(X = 2)= 0,3374 x 0,66261 = 0,22355  fe= f(X) x 418 =93 P(X = 3)= 0,3374 x 0,66262 = 0,14816  fe= f(X) x 418 =62 P(X = 4)= 0,3374 x 0,66263 = 0,09816  fe= f(X) x 418 =41 P(X = 5)= 0,3374 x 0,66264 = 0,06504  fe= f(X) x 418 =27 P(X = 6)= 0,3374 x 0,66265 = 0,04309  fe= f(X) x 418 =18 P(X = 7)= 0,3374 x 0,66266 = 0,02856  fe= f(X) x 418 =12 P(X = 8)= 0,3374 x 0,66267 = 0,01892  fe= f(X) x 418 =8 P(X = 9)= 0,3374 x 0,66268 = 0,01254  fe= f(X) x 418 =5 P(X = 10)= 0,3374 x 0,66269 = 0,00831  fe= f(X) x 418 =3 P(X = 11)= 0,3374 x 0,662610 = 0,00550  fe= f(X) x 418 =2 P(X = 12)= 0,3374 x 0,662611 = 0,00365  fe= f(X) x 418 =2 P(X = 13)= 0,3374 x 0,662612 = 0,00242  fe= f(X) x 418 =1 P(X = 14)= 0,3374 x 0,662613 = 0,00160  fe= f(X) x 418 =1 P(X = 15)= 0,3374 x 0,662614 = 0,00106  fe= f(X) x 418 =0 P(X = 16)= 0,3374 x 0,662615 = 0,00070  fe= f(X) x 418 =0 P(X = 17)= 0,3374 x 0,662616 = 0,00047  fe= f(X) x 418 =0 P(X = 18)= 0,3374 x 0,662617 = 0,00031  fe= f(X) x 418 =0

A tabela 18 resume todos os resultados e na figura 11 apresenta-se o histograma de freqüências.

Tabela 18. Seqüência de dias chuvosos iniciados nos 31 dias seguintes a 21 de dezembro em Piracicaba, SP. Ajuste à distribuição geométrica.

Classes X f fX fX2 p(X) fe

1 146 146 146 0,33737 141

2 84 168 336 0,22355 93

3 76 228 684 0,14816 62

4 34 136 544 0,09816 41

(40)

6 15 90 540 0,04309 18

7 10 70 490 0,02856 12

8 6 48 384 0,01892 8

9 6 54 486 0,01254 5

10 6 60 600 0,00831 3

11 1 11 121 0,00550 2

12 0 0 0 0,00365 2

13 2 26 338 0,00242 1

14 2 28 392 0,00160 1

15 0 0 0 0,00106 0

16 1 16 256 0,00070 0

17 0 0 0 0,00047 0

18 1 18 324 0,00031 0

Totais 418 1.239 6.341 1,0000 418

Figura 11. Histograma de

freqüências das seqüências de dias

chuvosos iniciados nos 31 dias seguintes a 21 de dezembro em Piracicaba, SP (Assis et al., 1996, pg. 94).

(41)

Tabela 19. Principais distribuições contínuas e discretas utilizadas em climatologia.

Nome Função Densidade E(X) Var(X)

Distribuições Contínuas

Distribuição Normal

 

  2 2 2 X e 2 1 X f      

  X _2 _ _s2

Distribuição Gamma

 

    _ _   X 1_e X 1 X

f  2

Distribuição de Valores

Extremos

 

           X e X e e 1 X f

Pelo Método dos momentos

6

 __₀_,₅₇₇₂_

Distribuição Exponencial _f

 

_X ___eX

 1 2 1  Distribuições Discretas

Distribuição Binomial

 

_qX



₁ _q



n X

X n X

p _  

    

 nq nq



1q



Distribuição de Poisson

 

! X X e X p X X 

 , X nq nq nq

Distribuição Geométrica

  



X 1

1 X

p   

(42)

5 Referências

ASSIS, F. N., et al, 1996. Aplicações de Estatística à Climatologia. Ed. Universitária, UFPEL, Pelotas, RS.

FREUND, J. E., and SIMONS, G., 1995:Statistics :a first course. Prentice-Hall.

MORETTIN, L. G., 1999: Estatística Básica - Probabilidade. 7ª. Ed., Makron Books, São Paulo, SP. STEVENSON, W. J., 1981: Estatística Aplicada à Administração. Ed. Harper & Row do Brasil, São Paulo, SP.

THOM, H. C. S., 1966: Some Methods of Climatological Analysis – Technical Note nº 81, WMO nº 199 TP 103.

TRIOLA, M. F., 1998. Introdução à Estatística. 7º Ed., LTC, Rio de Janeiro, RJ.