ESTATÍSTICA EXPERIMENTAL
DISTRIBUIÇÕES DE PROBABILIDADES
Prof. Alexandre B. Lopo
Sumário
1 Introdução à Distribuição de Probabilidades ... 3
2 Definições ... 4
2.1 Variável Aleatória ... 4
2.2 Distribuição de Probabilidades ... 5
2.2.1 Noções Iniciais ... 5
2.2.2 Distribuição Teórica ... 7
2.2.3 Parâmetros e Estatísticas ... 7
2.2.4 Distribuição Discreta e Contínua ... 8
3 Distribuições Contínuas ... 8
3.1 Distribuição Normal ... 9
3.2 Distribuição Gamma ... 18
3.3 Distribuição de Valores Extremos ... 24
3.4 Distribuição Exponencial ... 30
4 Distribuições Discretas ... 32
4.1 Distribuição Binomial ... 33
4.2 Distribuição de Poisson ... 35
4.3 Distribuição Geométrica ... 38
1 Introdução à Distribuição de Probabilidades
Um erro muito comum em análise de dados é desprezar as características da distribuição de probabilidades mais adequada para os dados em estudo. O mais freqüente é adotar-se, a priori, a distribuição normal o que pode resultar, se os dados não seguem essa distribuição, em conclusões erradas. Isso ocorre, provavelmente, porque a distribuição normal foi a primeira distribuição de probabilidades estudada e pelo fato de existir facilidade na estimativa dos seus parâmetros e das probabilidades (Assis et al., 1996).
Contudo, os procedimentos param se determinar qual a distribuição de probabilidade mais adequada para certo conjunto de informações é relativamente simples e, uma única distribuição pode ter um vasto espectro de aplicação.
Na figura 1 é apresentado os tipos mais comuns de distribuições de probabilidades encontrados. A figura 1 A representa uma distribuição simétrica, típica da distribuição normal de probabilidades; o histograma da figura 1 B é de uma distribuição com forte assimetria, com forma de Jota invertido,; a figura 1 C representa uma forma de distribuição típica de dados que variam no intervalo (0,1),; a figura 1 D mostra uma distribuição cujo histograma de freqüências sugere a forma da letra U; a distribuição da figura 1 F representa uma distribuição uniforme, um caso da distribuição beta com dois parâmetros iguais à unidade.
Figura 1. Tipos de distribuições mais comuns em climatologia (Assis, et al., 1996, pg. 36).
2 Definições
2.1 Variável Aleatória
A variável aleatória é uma variável que tem um valor único (determinado aleatoriamente) para cada resultado de um experimento. A palavra aleatória indica que em geral só conhecemos aquele valor depois do experimento ser realizado (Triola, 1998).
Exemplos de variáveis aleatórias:
a. número de alunos que não compareceram a aula de estatística num determinado dia; b. altura de um adulto do sexo masculino selecionado aleatoriamente.
As variáveis aleatórias também podem ser discretas ou contínuas. Variável aleatória discreta: é aquela que assume valores inteiros e finitos.
2.2 Distribuição de Probabilidades 2.2.1 Noções Iniciais
Além de identificar os valores de uma variável aleatória, freqüentemente podemos atribuir uma probabilidade a cada um desses valores. Quando conhecemos todos os valores de uma variável aleatória juntamente com suas respectivas probabilidades, temos uma distribuição de probabilidades.
A distribuição de probabilidades associa uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. Por exemplo, no lançamento de um dado cada face tem a mesma probabilidade de ocorrência que é 1/6.
Como os valores das distribuições de probabilidades são probabilidades, e como as variáveis aleatórias devem tomar um de seus valores, temos as duas regras a seguir que se aplicam a qualquer distribuição de probabilidades:
1. A soma de todos os valores de uma distribuição de probabilidades deve ser igual a 1
P(x) = 1, onde x toma todos os valores possíveis
2. A probabilidade de ocorrência de um evento deve ser maior do que zero e menor do que 1 0 P (x) 1 para todo x
No exemplo do lançamento de um dado, como todas as faces têm a mesma probabilidade de ocorrência que é 1/6 ao somá-las obtemos o valor 1, que corresponde a primeira regra citada acima. O valor 1/6 é maior do que zero e menor do que 1, assim satisfaz a segunda regra acima.
A distribuição de probabilidades pode ser representada por um histograma de probabilidades. Este se assemelha ao histograma de freqüências apresentado na Parte I, entretanto a escala vertical representa probabilidades, em lugar das freqüências relativas.
O histograma de probabilidades nos permite visualizar a forma da distribuição. A média, a variância e o desvio-padrão traduzem outras características. Para uma distribuição de probabilidades, essas medidas podem ser determinadas usando as expressões mostradas na tabela 1.
Tabela 1. Expressões para cálculo da média, variância e desvio-padrão das distribuições de probabilidades.
Média =x P(x)
Variância 2=[(x-)2 P(x)]
Variância 2=[x2 P(x)] - 2
Desvio-Padrão =([x2 P(x)] - 2)1/2
A média de uma variável aleatória discreta é o resultado médio teórico de um número infinito de provas. Podemos encarar essa média como o valor esperado no sentido de que é o valor médio que esperaríamos obter se as provas se prolongassem indefinitivamente. As aplicações do valor esperado (também chamado esperança ou esperança matemática) são extensas e variadas e o mesmo desempenha um papel de extrema importância em uma área de aplicação chamada teoria da decisão.
O valor esperado de uma variável aleatória discreta é denotado por E e representa o valor médio dos resultados:
E = x P(x) (1)
Observamos que E=. Isto é, a média de uma variável aleatória discreta coincide com seu valor esperado.
Exemplo (extraído de Triola, 1998, pag 96): Na tabela abaixo são fornecidas as probabilidades de ocorrências de um determinado evento. Entretanto, o objetivo da mesma é enfatizar o cálculo da média, da variância e do desvio-padrão. Juntamente com a tabela será mostrado o histograma de probabilidades.
Tabela 2. Cálculo da média, variância e desvio-padrão para uma distribuição de probabilidades.
X P(x) x P(x) x2 x2 P(x)
0 0,210 0,000 0 0,000
1 0,367 0,367 1 0,367
2 0,275 0,550 4 1,100
3 0,115 0,345 9 1,035
4 0,029 0,116 16 0,464
5 0,004 0,020 25 0,100
6 0 0,000 36 0,000
7 0 0,000 49 0,000
Total 1,000 1,398 - 3,066
=x P(x) = 1,398 = 1,4
Figura 2. Histograma de probabilidades.
As distribuições de freqüências construídas a partir de observações podem ser representadas através de formas matemáticas. Então, as formas matemáticas utilizadas para a idealização dos dados reais são referidas como distribuições teóricas.
As distribuições teóricas representam os dados aproximadamente, embora em muitos casos a aproximação pode ser muito boa. Basicamente, há três aspectos em que o emprego das distribuições de probabilidade teóricas podem ser útil (Wilks, 1995):
Compacidade: é trabalhoso lidar com grandes conjuntos de dados brutos, sendo que às vezes, também pode haver limitações para a análise. Uma distribuição teórica bem ajustada à série de dados reduz o número de trabalho exigido para a caracterizar as propriedades da mesma.
Alisamento e interpolação: os dados reais estão sujeitos a variações na amostragem que podem levar a falha de dados ou a dados errôneos nas distribuições empíricas. Por exemplo, numa amostra de dados de temperatura máxima de uma cidade, localizada na região tropical, não foram observadas temperaturas máximas entre 30 e 35ºC no verão, embora certamente temperaturas máximas nesta faixa podem ocorrer. A imposição de uma distribuição teórica sobre estes dados representaria a possibilidade dessas temperaturas ocorrerem, tanto quanto permitiria estimar a suas probabilidades de ocorrência. Extrapolação: estimar a probabilidade de eventos extremos a variação de um conjunto de dados particular exige a suposição de eventos ainda não observados. Isso pode ser realizado com a imposição de um modelo de probabilidade (isto é, uma distribuição teórica) ajustado a série de dados.
2.2.2 Distribuição Teórica
Uma distribuição teórica é um modelo matemático. A natureza específica de uma distribuição teórica é determinada por valores particulares através de uma entidade chamada parâmetros da distribuição. As distribuições teóricas também são chamadas de distribuições paramétricas, porque seus atributos específicos dependem dos valores numéricos de seus parâmetros.
2.2.3 Parâmetros e Estatísticas
calculadas a partir de uma amostra de dados. A confusão entre eles pode ser devido a algumas distribuições teóricas comuns onde estatísticas são bons estimadores para os parâmetros da população. Por exemplo, o desvio-padrão da amostra, s, pode ser confundido com o parâmetro da distribuição Gaussiana porque os dois são iguais quando a distribuição Gaussiana representa bem os dados amostrais. Para esta distribuição a média da amostra é igual ao parâmetro e o desvio-padrão é igual ao parâmetro . É importante ressaltar que nem sempre os parâmetros das distribuições são encontrados usando estatísticas das amostras. Normalmente, a notação para estatísticas da amostra envolve letras romanas e para os parâmetros envolve letras gregas.
2.2.4 Distribuição Discreta e Contínua
Há dois tipos de distribuições teóricas que correspondem a diferentes tipos de dados ou variáveis aleatórias: a distribuição discreta e a distribuição contínua.
A distribuição discreta descreve quantidades aleatórias (dados de interesse) que podem assumir valores particulares e os valores são finitos. Por exemplo, uma variável aleatória discreta pode assumir somente os valores 0 e 1, ou qualquer inteiro não negativo, etc. Um exemplo de variável climatológica discreta são as tempestades com granizo.
A distribuição contínua representa quantidades aleatórias contínuas que podem tomar qualquer valor dentro de um intervalo especificado dos números reais. Por exemplo, uma variável aleatória contínua deve ser definida entre os números reais 0 e 1, ou números reais não negativos ou, para algumas distribuições, qualquer número real. A temperatura, a pressão, a precipitação ou qualquer elemento medido numa escala contínua é uma variável aleatória contínua.
Existem várias distribuições discretas e contínuas, algumas delas serão mostradas abaixo. As explicações iniciarão com as distribuições contínuas.
3 Distribuições Contínuas
A maioria das variáveis atmosféricas podem assumir valores contínuos. A temperatura, a precipitação, a altura geopotencial, a velocidade do vento, e outras quantidades não estão restritas a valores inteiros de unidades físicas em que são medidas. Embora a natureza da medição e os sistemas de relatos é tal que as medidas atmosféricas são arredondadas para valores discretos, mas o conjunto de valores observados normalmente é grande o suficiente para que a maioria das variáveis possam ainda ser tratadas como quantidades contínuas.
Existem duas funções associadas a cada variável contínua X: a função densidade de probabilidade, simbolizada por f(X), e a função cumulativa de probabilidade, ou função de distribuição de probabilidade representada por F(X). A função f(X) é aquela cuja integral de X = a até X = b (b a) dá a probabilidade de que X assuma valores compreendidos no intervalo (a, b), ou seja,
b
a
dX X f b X a
P (2)
A função cumulativa de probabilidade F(b) é tal que:
ob X b bf X dX
b
A distribuição exponencial, por exemplo, tem a seguinte função densidade de probabilidade:
X e dXf X (4)
com x 0. A sua função cumulativa de probabilidade é do tipo:
X x
eX dX eXF
0
1
(5)
Qualquer função definida no campo real só pode ser considerada como uma função densidade de probabilidade se forem satisfeitas as seguintes condições:
X 0f (6)
para todo X e
X dX 1
X
F (7)
A probabilidade de que a variável X assuma valores no intervalo (a, b) é dada por:
b
a
a F b F dX X f b X a
P (8)
e a probabilidade de que a variável contínua X assuma um valor em particular, b, por exemplo, é:
b
a
b F b F dX X f b X a
P 0 (9)
Há muitas distribuições teóricas contínuas. Algumas das mais usadas são: distribuição normal, distribuição gamma, distribuição de valores extremos e distribuição exponencial. Neste material vamos tratar dos modelos probabilísticos citados, que têm importância prática na investigação científica, abordando as formas das funções densidade de probabilidade, bem como a esperança e a variância. 3.1 Distribuição Normal
3.1.1 Teorema do Limite Central
A capacidade de usar amostras para fazer inferências sobre parâmetros populacionais depende do conhecimento da distribuição amostral. Para obtermos uma distribuição amostral é necessário repetir n vezes um experimento e após calcular a média das amostras. Este procedimento fornece um novo conjunto de dados que é denominado de distribuição amostral. Na verdade o que o teorema do limite central quer dizer é que se uma população tem distribuição normal, a distribuição das médias amostrais extraídas da população também terá distribuição normal, para qualquer tamanho de amostra. Além disso, mesmo no caso de uma distribuição não-normal, a distribuição das médias amostrais será aproximadamente normal, desde que a amostra seja grande. Este é um resultado notável, na verdade, pois nos diz que não é necessário conhecer a distribuição de uma população para podermos fazer inferência sobre ela a partir de dados amostrais. A única restrição é que o tamanho da amostra seja grande. Uma regra prática muito usada é que a amostra deve consistir de 30 ou mais observações.
Estes resultados são conhecidos como o Teorema do Limite Central e representam talvez o conceito mais importante na inferência estatística (Stevenson, 1981).
Agora será mostrado um exemplo ilustrativo adaptado de Triola (1998, pg. 126). Vamos realizar quatro amostragens para identificar o último algarismo do Número do Seguro Social (NSS) de estudantes de uma determinada cidade. Ou seja, selecionaremos na primeira amostragem 50 estudantes e verificamos o último algarismo do NSS, repetimos por mais três vezes esse procedimento e como resultado obtemos a tabela 3. Nesta tabela se combinarmos as amostras numa grande coleção de duzentos números, obtemos uma média x 4,5 e um desvio-padrão s = 2,8 e, uma distribuição aproximadamente uniforme como mostra o gráfico da figura 3. Entretanto, se calcularmos as médias das amostras (linhas da tabela), obtemos as médias amostrais e estas possuem uma distribuição normal (figura 4). Conclui-se que embora a coleção original de dados tenha uma distribuição aproximadamente uniforme, as médias amostrais têm distribuição aproximadamente normal. O conjunto original de 200 números tem distribuição uniforme (porque os algarismos 0-9 ocorrem aproximadamente com a mesma freqüência), mas as 50 médias amostrais têm distribuição normal. É um fenômeno verdadeiramente fascinante e intrigante na estatística que, extraindo amostras de qualquer distribuição, possamos criar uma distribuição normal ou, ao menos, aproximadamente normal.
Em geral, a distribuição amostral das médias amostrais é a distribuição das médias amostrais quando extraímos repetidas amostras de mesmo tamanho, da mesma população. Em outras palavras, se extrairmos amostras de mesmo tamanho da mesma população, calculamos suas médias e construímos um histograma destas médias, esse histograma tende para a forma de um sino de uma distribuição normal. Isto é verdade independentemente da forma da distribuição da população original.
Suponhamos que a variável x represente notas que podem ter, ou não, distribuição normal, e que a média dos valores x seja e o desvio-padrão seja . Suponha que coletemos amostras de tamanho n e calculemos as médias amostrais. O que sabemos sobre a coleção de todas as médias amostrais que obtemos repetindo esse experimento? O Teorema do Limite Central nos diz que, na medida em que o tamanho n da amostra aumenta, a distribuição amostral das médias amostrais tente para uma distribuição normal com média e desvio-padrão / n. A distribuição das médias amostrais tende para uma distribuição normal no sentido de que, quando n aumenta, a distribuição das médias amostrais se aproxima de uma distribuição normal. Essa conclusão não é obvia intuitivamente; foi obtida após extensa pesquisa de análise.
4,5. inspecionando visualmente os 200 algarismos da tabela 3, vemos que eles variam de 0 a 9, mas as 50 médias amostrais acusam menor variação indo de 1,75 a 8,25. O conjunto original de 200 algarismos tem desvio-padrão de 2,8, mas as 50 médias amostrais têm um desvio-padrão de 1,4, que é menor, conforme esperado.
Tabela 3. Amostragens do Número do Seguro Social de estudantes de uma determinada cidade.
Amostra I Amostra II Amostra III Amostra IV Média
1 8 6 4 4,75
5 3 3 6 4,25
9 8 8 8 8,25
5 1 2 5 3,25
9 3 3 5 5,00
4 2 6 2 3,50
7 7 1 6 5,25
9 1 5 4 4,75
5 3 3 9 5,00
7 8 4 1 5,00
0 5 6 1 3,00
9 8 2 2 5,25
6 1 5 7 4,75
8 1 3 0 3,00
5 9 6 9 7,25
6 2 3 4 3,75
7 4 0 7 4,50
5 7 5 6 5,75
4 1 5 7 4,25
1 2 0 6 2,25
4 0 2 8 3,50
3 1 2 5 2,75
0 3 4 0 1,75
1 5 1 0 1,75
9 7 4 0 5,00
7 3 1 1 3,00
9 1 1 3 3,50
8 6 5 9 7,00
5 6 4 1 4,00
9 3 9 5 6,50
6 0 7 3 4,00
8 2 9 6 6,25
0 2 8 6 4,00
2 0 9 7 4,50
5 8 9 0 5,50
6 5 4 9 6,00
7 1 2 0 2,50
2 9 5 0 4,00
8 3 2 2 3,75
2 7 1 6 4,00
6 7 7 1 5,25
2 3 3 9 4,25
2 4 7 5 4,50
5 4 3 7 4,75
0 4 3 8 3,75
2 5 8 6 5,25
7 1 3 4 3,75
8 3 7 0 4,50
5 6 6 7 6,00
Figura 3. Distribuição de 200 algarismos.
3.1.2 Parâmetros da Distribuição Normal
A distribuição normal é uma distribuição de dois parâmetros (média) e (desvio-padrão). A densidade de probabilidade desta distribuição tem a seguinte forma:
22 2 X e 2 1 X f
parax (10)
onde e são a média e o desvio-padrão da população, respectivamente. é estimado por xe por s, que são obtidos através das relações:
N X X N 1 i i
(11)
1 N X X s N 1 i 2 i 2
(12)Uma notação bastante empregada para designar que uma variável tem distribuição normal com média x e variância s2 (s é a representação de e xde de uma amostra) é N
X,s2
. Se umaamostra de dados tem realmente distribuição normal a seguinte relação é válida: A = (K-3) = 0. A curtose da distribuição normal é igual a 3 e a assimetria é nula.
O histograma de freqüências da distribuição normal tem a forma de sino ou parecida. Com a média constante e a variância variável, o gráfico da curva normal assume diferentes formas de sino: de alongada a achatada.
A probabilidade de que X assuma valores menores ou iguais a um dado x quando X é N(x,s2) é estimada por:
e dX2 1 X F X 2 X 2 2
(13)Mas essa equação não pode ser resolvida analiticamente sem o uso de métodos de integração aproximada. Por essa razão usa-se a transformação
s X X
Z e com isso a variável Z tem N(0,1). A variável Z é chamada variável reduzida e a curva
e dZ2 1 Z F Z 2 Z2
(14)é a curva normal reduzida.
Prob(Z z), bem como as Prob(0 Z z). Por isso, a escolha da tabela e sua utilização deve ser feita com muito cuidado. A tabela utilizada aqui fornece Prob(Z z). Mas nas tabelas que fornecem apenas os valores positivos da variável reduzida faz-se uso da propriedade de simetria da curva normal reduzida de modo que: P(-X Z 0) = P(0 Z X).
Exemplo 1
Como exemplo de uso da tabela acima, considera-se uma variável X com N(15,25). Qual a probabilidade de que X assuma os valores (16 X 20)?
A probabilidade desejada pode ser obtida, utilizando-se a variável transformada (Z). Assim:
s X X Z
Para X = 16
0,04 2515 16
Z
Para X = 20
0,20 2515 20
Z
P(0,04 Z 0,20) = P(Z 0,2)-P(Z 0,04) Com o uso da tabela, tem-se:
P(Z 0,2) = 0,5793 P(Z 0,04) = 0,5160
Exemplo 2
Tabela 5. Valores totais da chuva anual em Pelotas – RS (1895-1994).
Ano Prec. Ano Prec. Ano Prec. Ano Prec.
1895 923 1920 1300 1945 864 1970 1040
1896 973 1921 1054 1946 1307 1971 1090
1897 1258 1922 1326 1947 919 1972 1344
1898 1695 1923 1360 1948 1443 1973 1110
1899 1066 1924 931 1949 1114 1974 1355
1900 1334 1925 1377 1950 1225 1975 1048
1901 952 1926 1099 1951 926 1976 1361
1902 1746 1927 1160 1952 1270 1977 1654
1903 1320 1928 1144 1953 1112 1978 1179
1904 1510 1929 1321 1954 1373 1979 1137
1905 1501 1930 1350 1955 890 1980 1555
1906 1212 1931 1298 1956 1191 1981 1352
1907 1166 1932 1780 1957 1220 1982 1342
1908 1305 1933 998 1958 1232 1983 1543
1909 1198 1934 1535 1959 1778 1984 1694
1910 1004 1935 1496 1960 1331 1985 1178
1911 1323 1936 1995 1961 1372 1986 1656
1912 1539 1937 1718 1962 856 1987 1815
1913 885 1938 1311 1963 1582 1988 890
1914 2338 1939 1297 1964 832 1989 857
1915 1455 1940 1724 1965 1255 1990 1423
1916 1011 1941 1945 1966 1605 1991 1330
1917 689 1942 1237 1967 1271 1992 1435
1918 1510 1943 680 1968 1049 1993 1390
1919 1138 1944 1153 1969 982 1994 1265
Consideramos os dados de chuva anual da tabela acima, cuja distribuição de freqüência é reproduzida na tabela 6, na qual se tem:
100 1 2 5 11 29 27 27 18 7
f
fX7x78318x99127x119929x1407 11x16155x18232x20311x2239 129.676,00
fX7x7832 18x9912 27x1199229x14072 11x16152 5x182322x20312 1x22392 176.764.292,008 , 296 . 1 100 00 , 676 . 129 f fX
X
71 , 928 . 86 99 100 / 00 , 676 . 129 00 , 592 . 764 . 176 1 f f / fX fX s 2 2 22
s = 294,83
Tabela 6. Distribuição de freqüências dos totais anuais de chuva de Pelotas – RS, no período de 1895 a 1994. Ajuste à distribuição normal.
Classes Ponto Médio (X) f Zi F(Zi) F(Xi) fe
679 - 887 783 7 -1,39 0,0823 0,0823 8,2
887 – 1095 991 18 -0,68 0,2483 0,1660 16,6
1095 – 1303 1199 27 0,02 0,5080 0,2597 26,0
1303 – 1511 1407 29 0,73 0,7673 0,2593 26,0
1511 1719 1615 11 1,43 0,9236 0,1563 15,6
1719 -1927 1823 5 2,14 0,9838 0,0602 6,0
1927 – 2135 2031 2 2,84 0,9977 0,0139 1,4
2135 – 2343 2239 1 3,55 1,0000 0,0023 0,2
Totais - 100 - - 1,0000 100,0
Calcula-se a variável reduzida para cada classe, considerando-se o limite superior da classe. Assim
Z1 = (887 – 1296,8)/294,3 = -1,39 F(Z1) = 0,0823
Z2 = (1095 – 1296,8)/294,3 = -0,68 F(Z2) = 0,2483
Z3 = (1303 – 1296,8)/294,3 = 0,02 F(Z3) = 0,5080
Z4 = (1511 – 1296,8)/294,3 = 0,73 F(Z4) = 0,7673
Z5 = (1719 – 1296,8)/294,3 = 1,43 F(Z5) = 0,9236
Z6 = (1927 – 1296,8)/294,3 = 2,14 F(Z6) = 0,9838
Z7 = (2135 – 1296,8)/294,3 = 2,84 F(Z7) = 0,9977
Z8 = (2343 – 1296,8)/294,3 = 3,55 F(Z8) = 1,0000
Como F(Zi) é acumulada, a F(X), ou seja, a probabilidade de que ocorra um valor de chuva
menor ou igual ao da classe, é calculada subtraindo-se do valor de F(Z) de cada classe o valor de F(Z) da classe anterior, como indicado na tabela 6.
As freqüências esperadas (fe) em cada classe, (a última coluna da tabela 6) são obtidas, multiplicando-se o valor de F(X) pela soma de todas as freqüências, ou seja:
fe1 = 0,0823 x 100 = 8,2
fe2 = 0,1660 x 100 = 16,6
fe3 = 0,2597 x 100 = 26,0
fe5 = 0,1563 x 100 = 15,6
fe6 = 0,0602 x 100 = 6,0
fe7 = 0,0139 x 100 = 1,4
fe8 = 0,0023 x 100 = 0,2
A soma das freqüências esperadas (fe) deve ser igual a soma das freqüências observadas (f). A representação gráfica do ajuste acima é indicada na figura 5.
Figura 5. Totais anuais de chuva de Pelotas (RS), no período de 1895 a 1994, ajustada à distribuição normal (Assis et al., 1996, pg. 49).
3.2 Distribuição Gamma
Muitas variáveis possuem assimetria positiva, ou seja, são distorcidas à direita. Freqüentemente a distorção ocorre quando há um limite físico à esquerda que é relativamente próximo a variação dos dados (Wilks, 1995). Exemplos comuns desta situação são as quantias de precipitação e a velocidade do vento que são fisicamente não negativas. Há uma variedade de distribuições contínuas que são limitas à esquerda por zero. Entretanto, a distribuição gamma é comumente usada para representar dados de precipitação.
A freqüência ou função densidade de probabilidade da distribuição gamma é:
X 1e
X 1 X
f (15)
onde é um parâmetro de escala, é o parâmetro de forma e () é a função gamma ordinária de . A função gamma tem as seguintes propriedades:
X X e dX0
X 1
(16)
para todo X > 0
1
2 1
X
X1
! para X1,2,3,...
X1
X
X para X0
1/5
1,77245
O valor de (X) pode ser obtido, com boa aproximação, através da seguinte relação:
eXln X fX X2
X
(17)
onde:
2 4 6X 1260
1 X
360 1 X
12 1 1 X
f (18)
A tabela 7 fornece os valores de (X), com base nestas relações.
A média, a variância e o coeficiente de assimetria (A) da distribuição gamma podem ser obtidos por:
X (19)
2 2
s (20)
2
A (21)
A distribuição gamma tem assimetria positiva com o parâmetro diminuindo e o parâmetro
Tabela 7. Função gamma de Y.
Pode-se concluir, com base na equação (21), que, quando tende para infinito A 0, ou seja, a distribuição gamma, neste caso, tende a ser simétrica.
As estimativas dos parâmetros e resultam da solução das equações (19) e (20). Mas essas estimativas não são adequadas, preferindo-se as estimativas descritas em Thom (1966):
3 A 4 1 1 A 4
1
(22)
X (23)
sendo
g
X X ln
A (24)
onde
N
1 i
i
X N
1
X (25)
N
1 i
g lnX
N 1
X (26)
é a média geométrica das observações, ou alternativamente, segundo Greenwood e Durand (1960) dada por: Z Z 054427 , 0 Z 1648852 , 0 5000876 ,
0 2
(27)
quando 0 Z 0,5772 e por
2
2 Z Z 968477 , 11 79728 , 17 Z Z 9775373 , 0 Z 05995 , 9 898919 , 8 (28)
quando 0,5772 < Z < 7,0, onde
X Xgln
Z (29)
Neste caso o parâmetro continua sendo calculado como na equação (23). A função cumulativa de probabilidade é:
1 X e dXX F
X X
0
1
(30)Esta equação não tem solução imediata, exigindo tabelas ou técnicas de integração numérica como expansão em série e a fórmula de Simpson, por exemplo. A série normalmente utilizada é a seguinte:
1
2
3
t ... 2 1 t 1 t 1 e t t F 3 2 1
t
(31)
Na equação (29), fazendo-se
X
t ; X=t; dx=dt, chega-se a equação (31). A probabilidade de ocorrer um valor de X t é F(t).
Exemplo
Considere-se os 95 valores mensais de chuva do mês de janeiro em Pelotas, RS, na tabela 8, cuja distribuição de freqüências é mostrada na tabela 9. Considerando-se a tabela 9, tem-se:
f1828201394219556 , 111 95 5 , 598 . 10
X
fX21831,122873,1220115,1213157,129199,124241,122283,121325,121.608.101,75
4.528,7294 95 / 5 , 598 . 10 75 , 101 . 608 . 1 1 f f / fX fX s 2 2 2
2
283,1
1 ln
325,1
429,3573 ln 2 1 , 241 ln 4 1 , 199 ln 9 1 , 157 ln 13 1 , 115 ln 20 1 , 73 ln 28 1 , 31 ln 18 f X ln
0,1950495 3573 , 429 93 , 111 ln
A
Tabela 8. Chuva mensal de janeiro em Pelotas, RS, no período de 1895 a 1989.
Ano 0 1 2 3 4 5 6 7 8 9
189... 112,6 32,1 129,9 183,1 63,4
190... 68,3 77,5 113,3 35,8 145,6 22,3 20,2 15,5 121,4 148,5 191... 203,6 117,8 81,3 50,1 197,7 132,6 130,1 72,8 86,6 23,1 192... 81,5 65,7 159,0 182,0 28,8 129,6 33,4 82,7 59,3 119,7 193... 97,0 239,6 31,5 59,0 151,7 45,7 64,5 64,5 232,0 92,4 194... 269,0 271,3 68,3 25,1 244,7 44,1 113,4 101,8 340,3 87,6 195... 10,4 84,9 62,8 144,4 160,1 22,1 210,9 58,4 162,0 134,5 196... 143,5 106,6 64,5 151,1 11,5 48,1 107,8 84,4 191,3 105,2 197... 83,9 148,1 178,1 213,9 127,0 129,8 140,1 119,7 72,5 14,7 198... 59,6 85,4 71,0 135,9 246,8 78,6 166,0 82,7 149,5 209,4 Tabela 9. Distribuição de freqüências dos totais mensais de chuva de janeiro em Pelotas – RS. Ajuste à distribuição gamma.
Classes Ponto Médio (X) f FX FX2 ln(X) f
10,1 – 52,1 31,1 18 559,8 17.409,78 61,8697
52,1 – 94,1 73,1 28 2.046,8 149.621,08 120,1712
94,1 – 136,1 115,1 20 2.302,0 264.960,20 94,9160 136,1 – 178,1 157,1 13 2.042,3 320.846,33 65,7395 178,1 – 220,1 199,1 9 1.791,9 356.767,29 47,6443
220,1 – 262,1 241,1 4 964,4 232.516,84 21,9408
262,1 - 304,1 283,1 2 566,2 160.291,22 11,2916
304,1 – 346,1 325,1 1 325,1 105.609,01 5,7841
1/40,19504
1
140,19504/3
2,7206 0066 , 41 7206 , 2 56 , 111
2,7206
é estimada pela equação (17), na qual
Y 1 1/12 2,7206 1/360 2,7206 1/1.260 2,7206 0,98879f 2 4 6
1,5704
e 7206 , 2
2 2,7206ln2,72060,98879
As estimativas dos parâmetros com base nas equações (19) e (20) a fim de comparações, fica como exercício.
Com os parâmetros e estimado tem-se, então, a função densidade de probabilidade, na forma da equação (15),
41,0066X 7206 , 1
5X e
10 x 61 , 2 x
f
e a função cumulativa de probabilidade (equação 30) será:
X 2,61 10 X e dXF 41,0066
X X 0 706 , 1 5
A solução dessa equação exige o emprego de técnicas de integração numérica ou uso de tabelas específicas. Adotou-se aqui a expansão em série na forma da equação (31), cuja reprodução de todos os cálculos é praticamente impossível de ser apresentada aqui. Mas, considerando apenas a primeira classe, a título de exemplo, tem-se:
2705 , 1 0066 , 41 1 , 52
t
7206 , 7 7296 , 6 7206 , 5 7306 , 4 7206 , 3 2705 , 1 7206 , 6 7206 , 5 7206 , 4 7206 , 3 2705 , 1 7206 , 5 7206 , 4 7206 , 3 2705 , 1 7206 , 4 7206 , 3 2705 , 1 7206 , 3 2705 , 1 1 e 5704 , 1 7206 , 2 2705 , 1 t
F 4 5
3 2 2705 , 1 7206 , 2
1 0,341484 0,091909 0,020413 0,003859
0,12602 1,4583 12602,
0
Tabela 10. Distribuição de freqüências dos totais mensais de chuva de janeiro em Pelotas – RS, ajustados à distribuição gamma de probabilidade.
Classes Ponto Médio (X) f FX fe
10,1 – 52,1 31,1 18 0,1838 17
52,1 – 94,1 73,1 28 0,4734 28
94,1 – 136,1 115,1 20 0,7052 22
136,1 – 178,1 157,1 13 0,8489 14
178,1 – 220,1 199,1 9 0,9272 7
220,1 – 262,1 241,1 4 0,9663 4
262,1 - 304,1 283,1 2 0,9849 2
304,1 – 346,1 325,1 1 0,9934 1
Totais - 95 - 95
O histograma de freqüências deste exemplo é mostrado na figura 6.
Figura 6. Totais de chuva mensal de janeiro em Pelotas, RS, ajustados a distribuição gamma (Assis et al., 1996, pg. 59).
3.3 Distribuição de Valores Extremos
X e X e e 1 X f (32)
X e e X F (33)O duplo sinal no segundo expoente da equação (33) refere-se aos valores extremos máximo (sinal negativo) e mínimo (sinal positivo).
As estimativas dos parâmetros e podem ser obtidas por diferentes métodos como por exemplo: o método dos momentos, o método da regressão, o método de Lieblein e o método da máxima verossimilhança (Assis et al., 1996). Entretanto, aqui, serão descritos o método dos momentos, o método da regressão e o método da máxima verossimilhança, através do exemplo a seguir. O método de Lieblein pode ser encontrado em detalhes em Thom (1966) e Assis et al. (1996).
Exemplo
Considerem-se os 72 valores anuais de chuva máxima de 24 horas de Piracicaba, SP, apresentados na tabela 11.
Tabela 11. Chuva máxima de 24 horas de Piracicaba, SP, no período de 1917 a 1988.
Ano 0 1 2 3 4 5 6 7 8 9
191... 65,0 68,0 65,0
192... 64,0 65,0 55,0 64,0 60,0 57,0 66,5 64,0 50,0 59,2 193... 86,5 93,0 69,0 65,0 83,0 50,0 64,4 58,8 58,0 109,5 194... 83,3 77,9 104,9 97,7 111,2 95,3 64,4 75,2 46,8 108,4 195... 55,5 62,4 73,9 54,4 57,8 80,1 39,9 59,1 80,0 78,4 196... 83,8 55,5 82,9 52,0 48,3 80,4 70,7 49,1 63,0 73,7 197... 71,6 68,5 80,4 99,5 68,6 76,0 72,7 71,8 46,4 63,4 198... 50,7 59,2 68,6 114,0 51,1 70,4 62,0 103,2 86,7
12 , 71 72 64 , 5120 72 7 , 86 2 , 103 3 , 62 ... 0 , 65 0 , 68 0 , 65 N X
X
2961 N N / X X s 2 2 2
2 ss = 17,22
3.3.1 Método dos Momentos
s 6
(34)
equivalente a =0,7794s e,
X 0,5772 (35)
Com base nos dados da tabela 11 e nas equações (34) e (35) têm-se:
43 , 13 22 , 17 14 , 3 6
e 71,120,577213,4363,37
3.3.2 Método da Regressão
Tomando-se os valores da variável aleatória X, ordenados em forma crescente, faz-se a regressão de n/(N+1) contra F(X), ou seja:
1 N n e X F X e (36) ou X e 1 N n ln (37)ou, aplicando-se, novamente, o logaritmo:
X 1 N n ln ln (38) ou, ainda, X 1 N n ln ln (39)
Assim, se na equação (39) tomarmos Y 1 N
n ln
ln
, a
e 1 b
, ela toma a forma Y =
a + bX, que é a equação da reta. Desse modo os parâmetros a e b podem ser estimados por: X
b Y
N X X
N Y X XY
b
2 2
(41)
Os valores de n/(N+1), de ln[n/(N+1)] e de X, dos dados da tabela 11, organizados em forma crescente, estão representados na tabela 12.
Na tabela 12, fazendo-se
1 N n ln lnY , tem-se:
X39,946,4...111,2114,05120,7
X2 39,9246,4...111,22114,02 38255,2997 , 39 2836 , 4 5835 , 3 ... 2802 , 1 4564 , 1
Y
XY39,91,4564 46,41,2802 ...111,2(3,5835)114,0(4,2836)4295,91Logo, segundo as equações (40) e (41):
a = 4,3492 e b = -0,06896 Portanto, 5012 , 14 06896 , 0 1 b 1 0686 , 63 3492 , 4 5012 , 14
a
3.3.3 Método da Máxima Verossimilhança
É um método iterativo no qual as estimativas de e são obtidas pela solução das seguintes equações:
X X i e e X X (42) e
N e log i X (43)O valor inicial de para iniciar a iteração é dado pela equação (34). Com os dados da tabela 11 tem-se:
22 , 17 s
43 , 13 1416 , 3 / 22 , 17 7749 , 0
0
Aplicando-se a equação (42) encontra-se = 13,7932. Com base, então na equação (43), = 63,18. Deixa-se, como exercício, para o leitor mostrar o restante dos cálculos.
A tabela 13 faz uma comparação entre as estimativas dos parâmetros através dos três métodos apresentados.
Tabela 13. Estimativas dos parâmetros da distribuição de valores extremos através dos métodos dos momentos, da regressão e da máxima verossimilhança, para os dados de chuva anual máxima de 24 horas de Piracicaba, SP.
Método
Momentos 13,4300 63,3700
Regressão 14,5012 63,0686
Máxima Verossimilhança 13,7932 63,1869
As estimativas dos parâmetros até aqui foram feitas com os dados brutos, mas o método da regressão também pode ser aplicado a dados agrupados, trabalhando-se com as freqüências acumuladas e com o ponto médio de cada classe.
Com as estimativas pelo método da máxima verossimilhança, a função cumulativa de probabilidade é então:
X exp
exp
X 63,1869
/13,7932
F
a qual permite estimar as probabilidades de que X seja menor ou igual a determinado valor. Uma comparação entre os valores observados e estimados pela função está mostrada na tabela 14.
Tabela 14. Chuva máxima anual de 24 horas de Piracicaba, SP, ajustada à distribuição de valores extremos.
Classes Ponto Médio (X) f FX fe
39,1 - 48,1 43,6 3 0,0505 4
48,1 – 57,1 52,6 12 0,2112 12
57,1 – 66,1 61,6 19 0,4450 17
66,1 – 75,1 70,6 13 0,6560 15
75,1 – 84,1 79,6 12 0,8029 11
84,1 – 93,1 88,6 4 0,8920 6
93,1 – 102,1 97,6 3 0,9422 4
102,1 – 111,1 106,6 4 0,9695 2
111,1 – 120,1 115,6 2 0,9840 1
Os quantis também são obtidos diretamente pela equação (33), tomando-se, duas vezes, o logaritmo da função. Por exemplo, se F(X) = 0,95 ou 95%, teremos, então:
-ln[F(0,95) = exp{-exp[-(X-63,1869)/13,7932]} 0,0513 = exp[(-X - 63,1869)/13,7932] 2,9701 = (X - 63,1869)/13,7932 X 104,3mm
Isso significa que, em 95% dos casos, a chuva máxima em 24 horas, em Piracicaba, não excede 104,3 mm.
Na figura 7 é mostrado o histograma da distribuição.
Figura 7. Chuva anual
máxima de 24 horas de
Piracicaba, SP, ajustada a distribuição de valores extremos ou de Gumbel (Assis et al., 1996, pg. 70). 3.4 Distribuição Exponencial
A distribuição exponencial é geralmente aplicada a dados com forte assimetria como aqueles cujo histograma tem a forma da figura 1B, ou seja de J invertido. Sua densidade de probabilidade tem a forma:
X eXf (44)
e sua função de distribuição de probabilidade é do tipo:
0
X
X 1 e
e X
F (45)
O único parâmetro, , é estimado por
X 1
(46)
X Xe 1 X
F (47)
A esperança e a variância da distribuição exponencial são obtidas através das expressões: X = 1/ e s2 = 1/2, respectivamente. A distribuição exponencial é um caso especial da distribuição gamma com o parâmetro = 1.
Exemplo
Considere os dados diários de chuva de Pelotas – RS, no mês de janeiro, cuja distribuição de freqüências consta na tabela 15. Neste exemplo os dados brutos não são apresentados.
Os cálculos necessários para a estimativa da média e da variância dos dados também estão indicados na tabela 15, com isso, tem-se:
806 1 0 2 2 5 7 9 23 43 80 184 450
f
fX4505,5184158025433523459557655752852950105111511575
fX24505,52184152802524335223452955276525752285229520105211152334912,5 Tabela 15. Distribuição de freqüências dos totais diários de chuva de janeiro de Pelotas, RS, no período de 1893 a 1994. Foram considerados apenas os valores > 1,0 mm.
Classes PM (X) f fX fX2 F(X) fe
1 – 10 5,5 450 2475 13612,5 0,5016 404
10 – 20 15 184 2760 41400,0 0,7516 201
20 – 30 25 80 2000 50000,0 0,8762 100
30 - 40 35 43 1505 52675,0 0,9383 50
40 – 50 45 23 1035 46575,0 0,9692 25
50 - 60 55 9 495 27225,0 0,9847 12
60 -70 65 7 455 29575,0 0,9924 6
70 – 80 75 5 375 28125,0 0,9962 3
80 – 90 85 2 170 14450,0 0,9981 2
90 -100 95 2 190 18050,0 0,9990 1
100 – 110 105 0 0 0,0 0,9995 0
110 -120 115 1 115 13225,0 0,9998 0
Totais - 806 11575 334912,5 - 806
361 , 14 806 11575 f fX
X
54 , 209 805 806 / 11575 5 , 334912 1 f f / fX fX s 2 2 22
0696 , 0 361 , 14
1 X
1
Os valores de F(X) e as freqüências esperadas são assim calculados: F(X1) = 1-exp(-0,0696 x 10) =0,5016 fe = 404
F(X2) = 1-exp(-0,0696 x 20) =0,7516 fe = 201
F(X3) = 1-exp(-0,0696 x 30) =0,8762 fe = 100
F(X4) = 1-exp(-0,0696 x 40) =0,9383 fe = 50
F(X5) = 1-exp(-0,0696 x 50) =0,9692 fe = 25
F(X6) = 1-exp(-0,0696 x 60) =0,9847 fe = 12
F(X7) = 1-exp(-0,0696 x 70) =0,9924 fe = 6
F(X8) = 1-exp(-0,0696 x 80) =0,9962 fe = 3
F(X9) = 1-exp(-0,0696 x 90) =0,9981 fe = 2
F(X10) = 1-exp(-0,0696 x 100) =0,9990 fe = 1
F(X11) = 1-exp(-0,0696 x 110) =0,9995 fe = 0
F(X12) = 1-exp(-0,0696 x 120) =0,9998 fe = 0
O histograma dos dados da tabela 15 está apresentado abaixo:
Figura 8. Distribuição
exponencial
ajustada aos totais
diários de chuva de janeiro de Piracicaba – SP, no período de 1917 a 1989 (Assis et al., 1996, pg. 72). 4 Distribuições Discretas
Existe um grande número de distribuições de probabilidades teóricas para as variáveis aleatórias discretas. De acordo com Wilks (1995), muitas encontram-se listadas em Johnson e Kotz (1969), junto com os resultados referentes a suas propriedades. Entretanto, somente três distribuições de probabilidades discretas têm sido usadas em grau apreciável nas ciências atmosféricas: a distribuição binomial, a distribuição de Poisson e a distribuição geométrica.
P(X = x) = p(X) (48) A distribuição binomial com parâmetros n e q, por exemplo, tem a seguinte função de probabilidade:
qX
1 q
n XX n X
p
(49)
com X assumindo os valores 0, 1, 2, 3, ...
O símbolo P(X) é utilizado para indicar a função cumulativa de probabilidade, a qual representa a probabilidade de que a variável aleatória discreta X assuma um valor particular x, na forma:
X
0
X p X
P (50)
com X = 0, 1, 2, 3, ... n e X n.
Diferentemente da distribuição contínua, a probabilidade de que uma variável discreta assuma um valor particular qualquer é diferente de zero.
4.1 Distribuição Binomial
Em muitos problemas, o que nos interessa é a probabilidade de um evento ocorrer X vezes em n provas. Por exemplo, a probabilidade de se obter 45 respostas a 400 questionários distribuídos como parte de um estudo sociológico, a probabilidade de 5 em 12 ratos sobreviverem por determinado prazo após serem injetados com substâncias cancerígenas, entre outros. Portanto, estamos interessados em obter X sucessos em n provas, ou em outras palavras, X sucessos e n - X falhas em n provas. Para a distribuição binominal considera-se que há um número fixo de provas, a probabilidade de sucesso é a mesma em todas as provas e as provas são todas independentes. Uma vez que exige que os eventos sejam independentes esta distribuição passa a ter pouca utilidade em climatologia, pois a independência quer dizer observações não correlacionadas o que muitas vezes não se verifica nos dados meteorológicos.
A função de probabilidade binomial é dada por:
qX
1 q
n XX n X
p
(51)
onde q é a probabilidade de um evento ocorrer, 1 – q é a probabilidade do evento não ocorrer, X é a freqüência de ocorrência e X pode tomar os valores 0, 1, 2, ..., n. Portanto, esta função fornece a probabilidade de ocorrerem X sucessos em n provas.
n t t X 0 t q 1 q t n ) X ( P
(52)onde t = 0, 1, 2, ..., n.
A média e a variância da distribuição binomial podem ser obtidas através das expressões: q
n
X e s2nq
1q
, respectivamente. ExemploHá uma probabilidade de 0,30 de uma pessoa, ao fazer compras em um supermercado, se beneficie de uma promoção especial de sorvete. Determine as probabilidades de que, dentre seis pessoas que estão fazendo compras no supermercado, haja 0, 1, 2, 3, 4, 5 ou 6 que se beneficiem da promoção. Trace um histograma dessa distribuição de probabilidade.
Solução
Admitindo que a escolha seja aleatória, fazemos n = 6, q = 30 e, respectivamente, X = 0, 1, 2, 3, 4, 5 e 6 na fórmula da distribuição binomial:
qX
1 q
n XX n X
p
0,30
0,70
0,118 06 0
p 0 6
0,30
0,70
0,0604 6 4
p 4 2
0,30
0,70
0,303 16 1
p 1 5
0,30
0,70
0,0105 6 5
p 5 1
0,30
0,70
0,324 26 2
p 2 4
0,30
0,70
0,0016 6 6
p 6 0
0,30
0,70
0,185 36 3
p 3 3
Figura 9. Histograma
da distribuição binomial
com n = 6 e q = 030.
4.2 Distribuição de Poisson
Muitas vezes, no uso da distribuição binomial acontece que n é muito grande
n
e q é muito pequeno
q0
. Nesse caso o cálculo torna-se difícil e, portanto, fazemos uma aproximação da distribuição binomial pela distribuição de Poisson. Podemos usar com segurança a aproximação de Poisson da distribuição binomial quando n100 e nq10 (Freund e Simon, 1995). Entretanto, autores como Morettin (1999) sugerem a aproximação a partir de n > 30.A distribuição de Poisson tem a seguinte distribuição de probabilidade:
! X
X e X p
X X
(53)
onde X representa a média da distribuição binomial que é X nq, e X = 0, 1, 2, 3, ... A função cumulativa de probabilidade é:
! t e X X
P
X X
0 t
t
(53)
onde t = 0, 1, 2, ..., n.
O único parâmetro dessa distribuição é a média que é numericamente igual a variância. Sendo estimada por: X nq.
A distribuição de Poisson geralmente é citada como a distribuição de eventos raros. Os dados que serão utilizados nesse exemplo referem-se ao número de meses no ano em que o número de dias chuvosos é maior do que 10. Os dados foram observados em Pelotas, RS, no período de 1895 a 1989. Tabela 16. Número de meses no ano com mais de 10 dias chuvosos em Pelotas, RS, no período de 1895 a 1989.
Anos 0 1 2 3 4 5 6 7 8 9
1890 0 0 1 5 2
1900 1 0 4 2 2 4 2 4 0 4
1910 1 2 2 1 7 2 1 0 3 2
1920 3 1 3 1 0 1 3 0 1 2
1930 0 1 4 1 1 1 3 2 2 2
1940 5 5 1 1 3 1 1 0 2 1
1950 2 0 0 1 2 0 2 2 0 5
1960 1 3 1 2 0 2 3 2 2 0
1970 2 1 5 2 3 1 3 5 2 2
1980 4 3 4 4 5 2 3 3 2 1
Os dados da tabela 16 fornecem a distribuição de freqüências apresentada na tabela 17, na qual pode-se calcular:
f1524271387 0195
fx150241272133847506171910105 , 2 95 191 f
fX
X
fx2 1502 2412 27221332 842 752062 172 601
2,308494 95 / 191 601 1
f
f / fX fX
s
2 2
2
2
Tabela 17. Distribuição de freqüências do número de meses no ano com mais de 10 dias chuvosos em Pelotas, RS, no período de 1895 a 1989.
Classes X f fX fX2 p(X) fe
0 15 0 0 0,1339 12,7
1 24 24 24 0,2692 25,6
2 27 54 108 0,2707 25,7
3 13 39 117 0,1814 17,2
4 8 32 128 0,0912 8,7
6 0 0 0 0,0123 1,2
7 1 7 49 0,0035 0,4
Totais 95 191 601 0,9989 95
Para efeitos práticos pode-se considerar a média igual a variância. Assim, o cálculo das probabilidades se segue com base na equação (53), ou seja:
P(X = 0) (2,01050 e-2,0105)/1 = 0,1339 P(X = 1) (2,01051 e-2,0105)/1 = 0,2692 P(X = 2) (2,01052 e-2,0105)/2 = 0,2707 P(X = 3) (2,01053 e-2,0105)/6 = 0,1814 P(X = 4) (2,01054 e-2,0105)/24 = 0,0912
P(X = 5) (2,01055 e-2,0105)/120 = 0,0367 P(X = 6) (2,01056 e-2,0105)/720 = 0,0123 P(X = 7) (2,01057 e-2,0105)/5040 = 0,0035
O cálculo das freqüências esperadas é assim efetuado: Para X = 0 fe = 0,1339 x 95 = 12,7
Para X = 1 fe = 0,2692 x 95 = 25,6 Para X = 2 fe = 0,2707 x 95 = 25,7
Para X = 3 fe = 0,1814 x 95 = 17,2 Para X = 4 fe = 0,0912 x 95 = 8,7 Para X = 5 fe = 0,0367 x 95 = 3,5 Para X = 6 fe = 0,0123 x 95 = 1,2 Para X = 7 fe = 0,0035 x 95 = 0,4
A figura abaixo representa o histograma dos dados da tabela 17.
Figura 10. Histograma de
meses do ano com mais de 10 dias chuvosos em Pelotas, RS, no período de 1895 a 1989 (Assis et al., 1996, pg. 81).
4.3 Distribuição Geométrica
A distribuição geométrica recebe esta denominação porque seus valores sucessivos constituem uma progressão geométrica. Para esta distribuição há uma infinidade enumerável de possibilidades; os eventos são independentes e com probabilidade de sucesso p. A variável X corresponde ao número de experimentos antes da ocorrência do primeiro sucesso.
A função de probabilidade da distribuição geométrica é:
X 11 X
p (54)
com 01, sendo:
X 1 1
(55)
A variância da distribuição geométrica é obtida pelas expressão: s2 1 2
.
Exemplo 1
Aplicando a fórmula (54), constatamos, por exemplo, que, em jogadas repetidas de um dado equilibrado, a probabilidade de o primeiro 6 ocorrer na quinta jogada é:
080 , 0 7776
625 6
1 6
5 5 1
Exemplo 2
Os dados da tabela 18 mostram as seqüências de dias com chuva iniciadas nos 31 dias seguintes ao dia 21 de dezembro de 1997 a 1989, em Piracicaba, SP, a qual permite calcular:
f14684763428151066610220101418
1fX1114601218421327621433401541281650151761101871.623986961041 , 63 418 1239 f
fX
X
6,399417
418 / 1239 0
, 6341 1
f
f / fX fX
s
2 2
2
2
6626 , 0 9641 , 2
1
1
3374 , 0 6626 , 0 1
1
Pode-se, então, estimar-se f(X) e as freqüências esperadas (fe), assim: P(X = 1)= 0,3374 x 0,66260 = 0,33737 fe= f(X) x 418 =141 P(X = 2)= 0,3374 x 0,66261 = 0,22355 fe= f(X) x 418 =93 P(X = 3)= 0,3374 x 0,66262 = 0,14816 fe= f(X) x 418 =62 P(X = 4)= 0,3374 x 0,66263 = 0,09816 fe= f(X) x 418 =41 P(X = 5)= 0,3374 x 0,66264 = 0,06504 fe= f(X) x 418 =27 P(X = 6)= 0,3374 x 0,66265 = 0,04309 fe= f(X) x 418 =18 P(X = 7)= 0,3374 x 0,66266 = 0,02856 fe= f(X) x 418 =12 P(X = 8)= 0,3374 x 0,66267 = 0,01892 fe= f(X) x 418 =8 P(X = 9)= 0,3374 x 0,66268 = 0,01254 fe= f(X) x 418 =5 P(X = 10)= 0,3374 x 0,66269 = 0,00831 fe= f(X) x 418 =3 P(X = 11)= 0,3374 x 0,662610 = 0,00550 fe= f(X) x 418 =2 P(X = 12)= 0,3374 x 0,662611 = 0,00365 fe= f(X) x 418 =2 P(X = 13)= 0,3374 x 0,662612 = 0,00242 fe= f(X) x 418 =1 P(X = 14)= 0,3374 x 0,662613 = 0,00160 fe= f(X) x 418 =1 P(X = 15)= 0,3374 x 0,662614 = 0,00106 fe= f(X) x 418 =0 P(X = 16)= 0,3374 x 0,662615 = 0,00070 fe= f(X) x 418 =0 P(X = 17)= 0,3374 x 0,662616 = 0,00047 fe= f(X) x 418 =0 P(X = 18)= 0,3374 x 0,662617 = 0,00031 fe= f(X) x 418 =0
A tabela 18 resume todos os resultados e na figura 11 apresenta-se o histograma de freqüências.
Tabela 18. Seqüência de dias chuvosos iniciados nos 31 dias seguintes a 21 de dezembro em Piracicaba, SP. Ajuste à distribuição geométrica.
Classes X f fX fX2 p(X) fe
1 146 146 146 0,33737 141
2 84 168 336 0,22355 93
3 76 228 684 0,14816 62
4 34 136 544 0,09816 41
6 15 90 540 0,04309 18
7 10 70 490 0,02856 12
8 6 48 384 0,01892 8
9 6 54 486 0,01254 5
10 6 60 600 0,00831 3
11 1 11 121 0,00550 2
12 0 0 0 0,00365 2
13 2 26 338 0,00242 1
14 2 28 392 0,00160 1
15 0 0 0 0,00106 0
16 1 16 256 0,00070 0
17 0 0 0 0,00047 0
18 1 18 324 0,00031 0
Totais 418 1.239 6.341 1,0000 418
Figura 11. Histograma de
freqüências das seqüências de dias
chuvosos iniciados nos 31 dias seguintes a 21 de dezembro em Piracicaba, SP (Assis et al., 1996, pg. 94).
Tabela 19. Principais distribuições contínuas e discretas utilizadas em climatologia.
Nome Função Densidade E(X) Var(X)
Distribuições Contínuas
Distribuição Normal
2 2 2 X e 2 1 X f
X 2 s2
Distribuição Gamma
X 1e X 1 Xf 2
Distribuição de Valores
Extremos
X e X e e 1 X f
Pelo Método dos momentos
6
0,5772
Distribuição Exponencial f
X eX 1 2 1 Distribuições Discretas
Distribuição Binomial
qX
1 q
n XX n X
p
nq nq
1q
Distribuição de Poisson
! X X e X p X X
, X nq nq nq
Distribuição Geométrica
X 11 X
p
5 Referências
ASSIS, F. N., et al, 1996. Aplicações de Estatística à Climatologia. Ed. Universitária, UFPEL, Pelotas, RS.
FREUND, J. E., and SIMONS, G., 1995:Statistics :a first course. Prentice-Hall.
MORETTIN, L. G., 1999: Estatística Básica - Probabilidade. 7ª. Ed., Makron Books, São Paulo, SP. STEVENSON, W. J., 1981: Estatística Aplicada à Administração. Ed. Harper & Row do Brasil, São Paulo, SP.
THOM, H. C. S., 1966: Some Methods of Climatological Analysis – Technical Note nº 81, WMO nº 199 TP 103.
TRIOLA, M. F., 1998. Introdução à Estatística. 7º Ed., LTC, Rio de Janeiro, RJ.