Probabilidade e Estatística
Frederico Caeiro
2009/10
Estas folhas servem de apoio às aulas de Probabilidades e Estatística. Para uma melhor
compreen-são dos assuntos abordados, aconselha-se a leitura de alguns dos livros indicados nas referências
bibliográficas.
Conteúdo
1
Introdução à Teoria da Probabilidade
1
1.1
Espaço de Resultados e Acontecimentos . . . .
1
1.2
Probabilidade
. . . .
3
1.3
Cálculo Combinatório . . . .
5
1.4
Probabilidade Condicional e Independência . . . .
6
2
Variáveis aleatórias
9
2.1
Variáveis aleatórias
. . . .
9
2.2
Função de distribuição . . . .
10
2.3
Classificação das variáveis aleatórias . . . .
11
2.4
Momentos . . . .
12
2.5
Outros parâmetros relevantes . . . .
14
2.6
Funções de uma variável aleatória
. . . .
15
3
Vectores aleatórios
17
3.1
Par aleatório discreto . . . .
17
3.2
Par aleatório contínuo . . . .
19
3.3
Momentos de vectores aleatórios . . . .
20
4
Principais Distribuições
23
4.1
Distribuições discretas . . . .
23
4.1.1
Distribuição Uniforme . . . .
23
4.1.2
Distribuição de Bernoulli . . . .
24
4.1.3
Distribuição Binomial . . . .
24
4.1.4
Distribuição Geométrica . . . .
26
4.1.5
Distribuição Hipergeométrica . . . .
27
4.1.6
Distribuição de Poisson . . . .
29
4.2
Distribuições Contínuas . . . .
31
4.2.1
Distribuição Uniforme Contínua . . . .
31
4.2.2
Distribuição Exponencial . . . .
32
4.2.3
Distribuição Gama . . . .
34
4.2.4
Distribuição Normal . . . .
35
4.2.5
Distribuição do Qui Quadrado
. . . .
36
4.2.6
Distribuição t de Student . . . .
37
5
Teorema Limite Central
39
6.2
Propriedades dos estimadores . . . .
42
6.3
Método dos Momentos . . . .
44
6.4
Método da máxima verosimilhança . . . .
46
6.5
Distribuições por Amostragem
. . . .
47
6.5.1
Distribuição por amostragem da média amostral, X . . . .
47
6.5.2
Distribuição por amostragem da diferença de médias amostrais, X
1− X
249
6.5.3
Distribuição por amostragem da variância amostral, S
2. . . .
49
6.5.4
Distribuição por amostragem da proporção, ˆ
P . . . .
49
7
Estimação por Intervalo de Confiança
51
7.1
Intervalo de Confiança para a média da população, µ . . . .
52
7.1.1
População Normal com variância conhecida . . . .
52
7.1.2
População Normal com variância desconhecida
. . . .
55
7.1.3
População não-Normal com variância conhecida e n > 30 . . . .
56
7.1.4
População não-Normal com variância desconhecida e n > 30 . . . .
56
7.2
Intervalo de Confiança para a variância populacional, σ
2, e para o desvio padrão
populacional, σ
. . . .
58
7.3
Intervalo de Confiança para proporção populacional, p . . . .
60
8
Teste de Hipóteses
63
8.1
Introdução . . . .
63
8.2
Teste de Hipóteses para a média da população . . . .
65
8.2.1
Teste bilateral . . . .
66
8.2.2
Teste unilateral direito
. . . .
67
8.2.3
Teste unilateral esquerdo . . . .
68
8.3
Teste de Hipóteses para a variância, σ
2, de uma população Normal . . . .
69
8.4
Teste de Hipóteses para a proporção p de uma população . . . .
70
8.5
Teste das sequências ascendentes e descendentes
. . . .
71
8.6
Teste de ajustamento do Qui Quadrado
. . . .
72
9
Regressão Linear
77
9.1
Introdução . . . .
77
9.2
Estimadores dos Mínimos Quadrados de β
0e β
1. . . .
78
9.3
Estimação de σ
2e Qualidade do Ajuste
. . . .
79
9.4
Propriedades dos estimadores dos mínimos quadrados . . . .
79
9.4.1
Distribuição por amostragem de ˆ
σ
2. . . .
79
9.4.2
Distribuição por amostragem de ˆ
β
0e ˆ
β
1. . . .
80
9.5
Inferência sobre os parâmetros do Modelo de Regressão . . . .
81
9.5.1
Intervalo de Confiança e Teste de Hipóteses para β
1. . . .
81
9.5.2
Intervalo de Confiança e Teste de Hipóteses para β
0. . . .
82
9.5.3
Intervalo de Confiança e Teste de Hipóteses para σ
2. . . .
83
9.6
Estimação do valor esperado de Y para uma observação x
0da variável controlada
84
10 Exercícios
85
10.1 Introdução à Teoria da Probabilidade . . . .
85
10.2 Variáveis aleatórias
. . . .
89
10.3 Vectores Aleatórios
. . . .
93
10.4 Principais distribuições
. . . .
96
10.5 Teorema Limite Central . . . .
101
10.6 Estimação Pontual . . . .
102
10.7 Estimação por Intervalo de Confiança
. . . .
104
10.8 Teste de Hipóteses
. . . .
106
10.9 Regressão Linear . . . .
109
Capítulo 1
Introdução à Teoria da Probabilidade
1.1
Espaço de Resultados e Acontecimentos
Definição 1.1 (Experiência aleatória). Uma experiência aleatória é uma experiência cujo
re-sultado é desconhecido (antes da sua realização), apesar de se conhecerem todos os possíveis
resultados.
Exemplo 1.2 (Experiência aleatória). Considere os seguintes exemplos:
• E
1: Lançamento de uma moeda e observação da face voltada para cima;
• E
2: Lançamento de um dado e observação da face voltada para cima;
• E
3: Tempo de “vida” de uma lâmpada.
Definição 1.3 (Espaço de resultados ou universo). Chamamos espaço de resultados ou
uni-verso, e representamos por Ω, ao conjunto de todos os possíveis resultados de uma experiência
aleatória.
Observação: Diz-se que o espaço de resultados, Ω, é discreto se tem um número finito ou infinito
numerável de elementos. Se Ω contém um intervalo (finito ou infinito) de números reais, então
o espaço de resultados é contínuo.
Exemplo 1.4 (Espaço de resultados). Considere novamente as experiências aleatórias do
Ex-emplo 1.2. Temos:
• E
1: Ω = {Cara, Coroa};
• E
2: Ω = {1, 2, 3, 4, 5, 6};
• E
3: Ω = R
+.
Exemplo 1.5 (Espaço de resultados). Na experiência aleatória que consiste em lançar um dado,
numerado de 1 a 6, e observar a face voltada para cima, Ω = {1, 2, 3, 4, 5, 6}. Se forem lançados
dois dados, o espaço de resultados é,
Ω = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), . . . , (6, 5), (6, 6)},
ou seja, Ω = {(i, j) : i = 1, . . . , 6; j = 1, . . . , 6}.
Definição 1.6 (Acontecimento e Acontecimento elementar). Um acontecimento é um
sub-conjunto do espaço de resultados, Ω. Cada acontecimento formado por apenas um ponto amostral
é designado por acontecimento elementar ou simples.
Observação: Ao conjunto ∅ chamamos acontecimento impossível e a Ω acontecimento certo.
Definição 1.7 (Sub-acontecimento). A é sub-acontecimento de B, e escreve-se A ⊂ B, se e
só se a realização de A implica a realização de B.
Observação: Podemos aplicar as operações usuais sobre conjuntos de modo a obter outros
acontecimentos de interesse. As operações mais usuais são:
• A união de dois acontecimentos A e B, e representa-se por A ∪ B;
• A intersecção de dois acontecimentos A e B, e representa-se por A ∩ B;
• O complementar do acontecimento A e representa-se por A;
• A diferença dos acontecimentos A e B e representa-se por A − B (= A ∩ B);
Algumas propriedades importantes:
1. Distributiva: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) e A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C);
2. Leis de De Morgan: A ∩ B = A ∪ B e A ∪ B = A ∩ B.
Definição 1.8 (Acontecimentos disjuntos ou mutuamente exclusivos). Dois acontecimentos
A e B dizem-se disjuntos se não têm elementos em comum, ou seja, se A ∩ B = ∅.
1.2. PROBABILIDADE
3
1.2
Probabilidade
Em muitas experiência aleatórias estamos interessados em medir a possibilidade de ocorrer um
determinado acontecimento ocorrer. A probabilidade permite-nos quantificar essa possibilidade.
Definição 1.9 (Definição Clássica ou de Laplace de Probabilidade). Se uma experiência
aleatória tem a si associado um número finito N de resultados, mutuamente exclusivos e
igual-mente prováveis, então a probabilidade de qualquer acontecimento A, P (A), é dada por:
P (A) =
N
AN
=
n
ode resultados favoráveis a A
n
ode resultados possíveis
.
Exemplo 1.10. A probabilidade de sair face ímpar, num lançamento de um dado equilibrado é
P (“Sair face ímpar”) =
36=
12.
Definição 1.11 (Definição Frequencista de Probabilidade). A probabilidade de um
aconteci-mento A é dada pelo limite da frequência relativa com que se observou A, isto é,
P (A) = lim
n→∞n
An
,
onde n
Arepresenta o número de observações de A, e n o número de realizações da experiência
aleatória. Para valores elevados de n, podemos assumir que P (A) ≈
n
An
.
Definição 1.12 (Definição Axiomática de Probabilidade). A Probabilidade é uma função,
que a cada acontecimento A faz corresponder um valor real, P (A), e que verifica as seguintes
condições ou axiomas:
1. P (A) ≥ 0, qualquer que seja o acontecimento A;
2. P (Ω) = 1;
3. Se A e B são acontecimentos disjuntos, P (A ∪ B) = P (A) + P (B).
Esta axiomática não contempla situações com uma infinidade numerável de acontecimentos. É
assim usual substituir o 3
oaxioma, por:
3. Se A
1, A
2, . . . são acontecimentos disjuntos dois a dois, então P
S∞i=1A
i=
P∞i=1P (A
i).
Proposição 1.13. Sejam A e B dois acontecimentos. Os seguintes resultados são consequência
imediata dos axiomas da definição 1.12:
1. P (∅) = 0;
3. P ( ¯
A) = 1 − P (A);
4. P (A) ∈ [0, 1];
5. P (A − B) = P (A ∩ B) = P (A) − P (A ∩ B);
6. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Demonstração.
1. Como ∅ e Ω são acontecimentos disjuntos e P (∅ ∪ Ω) = P (Ω) = 1, resulta pelo 3
oaxioma
que P (∅ ∪ Ω) = P (∅) + P (Ω), ou seja, P (∅) = 0.
2. Sejam A e B dois acontecimentos tais que A ⊆ B. Então B = B ∩ (A ∪ A) = (B ∩ A) ∪
(B ∩ A) = A ∪ (B ∩ A). Como A e B ∩ A são acontecimentos disjuntos, podemos utilizar
o 3
oaxioma, resultando,
P (B) = P (A ∪ (B ∩ A)) = P (A) + P (B ∩ A).
Usando o 1
oaxioma, podemos garantir que P (B∩A) ≥ 0 e consequentemente P (B) ≥ P (A).
3. Como A e A são acontecimentos disjuntos, podemos utilizar o 3
oaxioma. Assim,
1 = P (Ω) = P (A ∪ A) = P (A) + P (A),
ou seja, P ( ¯
A) = 1 − P (A).
4. Pelo 1
oaxioma, para qualquer acontecimento A, P (A) ≥ 0. Logo, basta apenas demonstrar
que P (A) ≤ 1. Como A ⊆ Ω, resulta que P (A) ≤ P (Ω) = 1.
5. Como A = (A ∩ B) ∪ (A ∩ B) = (A − B) ∪ (A ∩ B), e (A − B) e (A ∩ B) são acontecimentos
disjuntos, então podemos utilizar o 3
oaxioma. Assim,
P (A) = P (A − B) + P (A ∩ B)
⇔
P (A − B) = P (A) − P (A ∩ B).
6. Como A ∪ B = (A − B) ∪ (B − A) ∪ (A ∩ B) e (A − B), (B − A) e (A ∩ B) são
acontecimentos disjuntos dois a dois, podemos utilizar o resultado do 3
oaxioma, obtendo:
P (A ∪ B) = P (A − B) + P (B − A) + P (A ∩ B) =
= P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B) =
= P (A) + P (B) − P (A ∩ B).
Observação: O último resultado da Proposição 1.13 pode ser generalizado para a união de n
acontecimentos (n ≥ 2). Assim, dados os acontecimentos A
i, i = 1, . . . , n,
P (∪
ni=1A
i) =
n X i=1P (A
i)−
X i6=jP (A
i∩ A
j)+
X i6=j6=kP (A
i∩ A
j∩ A
k)−. . .+(−1)
n−1P (∩
ni=1A
i) ;
1.3. CÁLCULO COMBINATÓRIO
5
Para n = 3 obtemos o caso particular:
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).
Definição 1.14 (Acontecimentos incompatíveis). Dois acontecimentos A e B dizem-se
in-compatíveis se P (A ∩ B) = 0.
1.3
Cálculo Combinatório
O cálculo de uma probabilidade, através da definição clássica, depende da contagem do número
de casos favoráveis e do número de casos possíveis. Em muitas situações este cálculo pode não
ser imediato. O cálculo combinatório é uma ferramenta que nos poderá auxiliar em muitas dessas
situações.
Definição 1.15 (Produto Cartesiano). Seja A = {a
1, . . . , a
n} um conjunto com n elementos e
B = {b
1, . . . , b
m} um conjunto com m elementos. Designa-se por produto cartesiano o conjunto
de pares (a
i, b
j) em que o primeiro provém de A e o segundo de B e representa-se por A × B. O
número de elementos de A × B é dados por #(A × B) = n × m.
Considere agora que temos n elementos distintos, e pretendemos seleccionar k. De quantas
maneiras distintas é possível seleccionar os k elementos? Como existem várias formas distintas
de escolher os k elementos, a resposta à questão anterior é dada pela seguinte tabela:
Interessa
Há
Designação
Número de maneiras distintas de
a ordem?
repetição?
escolher os k elementos
Sim
Não
Arranjos
nA
k=
(n−k)!n!,
k ≤ n
Sim
Sim
Arranjos com repetição
nA
0k= n
kNão
Não
Combinações
nC
k=
nk=
(n−k)!k!n!,
k ≤ n
Não
Sim
Combinações com repetição
nC
k0=
(n+k−1)!(n−1)!k!Observações:
• “!” representa a função factorial (por convenção 0! = 1);
• No caso particular em que interessa a ordem, não há repetição e estamos a seleccionar todos
os elementos disponíveis (k = n), é mais usual designarmos Permutações de n elementos,
1.4
Probabilidade Condicional e Independência
Vamos começar por um exemplo que irá introduzir a noção de probabilidade condicional.
Exemplo 1.16. Uma empresa farmacêutica realizou um ensaio clínico para comparar a eficácia de
um novo medicamento (medicamento experimental). Escolheram-se ao acaso 200 doentes com a
doença que se pretende curar. Metade desses doentes foram tratados com o novo medicamento e
os restantes com um medicamento convencional. Ao fim de 5 dias, os resultados são os seguintes:
Melhorou (M )
Não melhorou (M )
Total
Medicamento Experimental E
69
31
100
Medicamento Convencional (E)
58
42
100
Total
127
73
200
1. Qual a probabilidade, de um doente escolhido ao acaso,
(a) tomar o medicamento experimental?
Resposta: Usando a regra de Laplace, P (E) =
100200=
12.
(b) tomar o medicamento experimental e melhorar?
Resposta: Usando a regra de Laplace, P (E ∩ M ) =
20069.
2. Qual a probabilidade de um doente, que melhorou, ter tomado o medicamento experimental?
Resposta:
12769.
Observação: A solução da pergunta 2, do exemplo anterior, é igual a
P (E∩M )P (M ).
Definição 1.17 (Probabilidade Condicional). Sejam A e B dois acontecimentos. A
probabili-dade condicional de A dado B é
P (A|B) =
P (A ∩ B)
P (B)
,
se P (B) > 0.
Teorema 1.18 (Teorema da Probabilidade Composta). Sejam A e B dois acontecimentos
tais que P (B) > 0. Então, resulta da definição de Probabilidade Condicional,
P (A ∩ B) = P (A |B ) P (B) .
Observação: Nalguns casos, a probabilidade condicional P (A|B) pode ser igual a P (A), ou seja,
o conhecimento da ocorrência de B não afecta a probabilidade de A ocorrer.
Definição 1.19 (Acontecimentos Independentes). Dois acontecimentos A e B dizem-se
inde-pendentes se e só se,
1.4. PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA
7
Definição 1.20 (Partição do espaço de resultados). Dizemos que {E
1, . . . , E
n} é uma partição
do espaço de resultados Ω quando
E
i∩ E
j= ∅ (i 6= j) e
∪
ni=1E
i= Ω.
Teorema 1.21 (Teorema da Probabilidade Total). Seja {E
1, . . . , E
n} uma partição do espaço
de resultados Ω, com P (E
i) > 0, ∀i. Dado um qualquer acontecimento A, tem-se,
P (A) = P (A |E
1) P (E
1) + . . . + P (A |E
n) P (E
n) .
Teorema 1.22 (Teorema de Bayes). Seja {E
1, . . . , E
n} uma partição do espaço de resultados
Ω, com P (E
i) > 0, ∀i. Dado um qualquer acontecimento A, com P (A) > 0, tem-se
P (E
i|A ) =
P (A |E
i) P (E
i)
n P i=1P (A |E
i) P (E
i)
.
Demonstração. Aplicando a definição 1.17, de Probabilidade Condicional, depois o Teorema 1.18
da Probabilidade Composta e o Teorema 1.21 da Probabilidade Total,
P (E
i|A ) =
P (E
i∩ A)
P (A)
=
P (A |E
i) P (E
i)
n P i=1P (A |E
i) P (E
i)
.
Exemplo 1.23 (Teste de P.E. D - 2007/08). Diga, justificando, se a seguinte afirmação é
ver-dadeira ou falsa:
Três máquinas A, B e C produzem botões, respectivamente, 15%, 25% e 60% da produção total.
As percentagens de botões defeituosos fabricados por estas máquinas são respectivamente 5%, 7%
e 4%. Se ao acaso, da produção total de botões, for encontrado um defeituoso, a probabilidade
de ele ter sido produzido pela máquina B é de cerca de 36%.
Resolução:
Sejam A, B, C e D os seguintes acontecimentos:
A - O Botão é produzido pela máquina A;
B - O Botão é produzido pela máquina B;
C - O Botão é produzido pela máquina C;
D - O Botão tem defeito;
De acordo com o enunciado, temos as seguintes probabilidades: P (A) = 0.15, P (B) = 0.25,
P (C) = 0.6, P (D|A) = 0.05, P (D|B) = 0.07 e P (D|C) = 0.04.
Pretende-se determinar P (B|D). Usando o Teorema de Bayes, obtemos:
P (B|D) =
P (D|B)P (B)
P (D|A)P (A) + P (D|B)P (B) + P (D|C)P (C)
=
175
490
' 36%.
Logo a afirmação está correcta, isto é, a probabilidade de um botão defeituoso ter sido produzido
pela máquina B é de cerca de 36%.
Capítulo 2
Variáveis aleatórias
2.1
Variáveis aleatórias
Definição 2.1 (Variável aleatória). Uma variável aleatória (v.a.), X : Ω → R, é uma função real
e finita, tal que a imagem inversa de ] − ∞; x] é um acontecimento, isto é, A
x= X
−1(−∞; x] =
{ω ∈ Ω : X (ω) ≤ x} com x ∈ R é um acontecimento.
Observação: É fácil de verificar que se X é uma variável aleatória e g : R → R uma função,
então Y = g(X) é também uma variável aleatória.
Exemplo 2.2 (Variável aleatória). Considere a experiência aleatória que consiste no lançamento
de 2 moedas equilibradas, e registo da face voltada para cima. O espaço de resultados é
Ω = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}.
Podemos, por exemplo, atribuir a cada um dos acontecimentos elementares de Ω, os seguinte
valores:
ω
(Ca,Ca)
(Ca,Co)
(Co,Ca)
(Co,Co)
X(ω)
2
1
1
0
Repare que
A
x= X
−1](∞; x]) =
∅,
x < 0
{(Co, Co)}
0 ≤ x < 1
{(Co, Co), (Ca, Co), (Co, Ca)} 1 ≤ x < 2
Ω
x ≥ 2
Como todas as imagens inversas, X
−1(] − ∞; x]), são acontecimentos de Ω, então de acordo com
a definição 2.1, X é uma variável aleatória.
Observação: Relativamente ao Exemplo 2.2, X é a aplicação que atribui a cada acontecimento
de Ω o número de caras.
2.2
Função de distribuição
Definição 2.3 (Função de distribuição). A função de distribuição da v.a. X é:
F
X(x) = P (X ≤ x) = P ({ω : X(ω) ≤ x}),
∀x ∈ R.
Exemplo 2.4. Considere novamente o Exemplo 2.2. A função de distribuição desta v.a. é:
F
X(x) = P (X ≤ x) =
0,
x < 0
1 4,
0 ≤ x < 1
3 4,
1 ≤ x < 2
1,
x ≥ 2
Observação: Como F
X(x) = P (X ≤ x), conclui-se que a função de distribuição existe
sem-pre. Quando não existir mais do que uma v.a., pode-se representar a função de distribuição
simplesmente por F .
Propriedades da função de distribuição:
1.
lim
x→−∞
F (x) = 0
e
x→+∞lim
F (x) = 1;
2. F é contínua à direita, isto é, lim
x→a+
F (x) = F (a);
3. F é não decrescente, isto é, se x < y, então F (x) ≤ F (y).
Teorema 2.5. Qualquer função F é uma função de distribuição se e só se verificar as três
propriedades anteriores.
Proposição 2.6. Seja X uma v.a. com função de distribuição F . Tem-se:
P (X = x) = P (X ≤ x) − P (X < x) = F (x) − F (x
−),
∀x ∈ R,
onde F (x
−) = lim
t→x−
F (t).
Definição 2.7 (Variáveis aleatórias identicamente distribuídas). Duas variáveis aleatórias
X e Y dizem-se identicamente distribuídas, se têm a mesma função de distribuição, isto é, se
2.3. CLASSIFICAÇÃO DAS VARIÁVEIS ALEATÓRIAS
11
2.3
Classificação das variáveis aleatórias
A função de distribuição não é necessariamente contínua em todos os valores x ∈ R. Podemos
por isso classificar as variáveis aleatórias em função da continuidade da respectiva função de
distribuição. Considere o conjunto de pontos de descontinuidade da função de distribuição F ,
D = {a ∈ R : P (X = a) > 0} .
(2.1)
Definição 2.8 (Variável aleatória discreta). Uma v.a. X diz-se do tipo discreto ou
simples-mente discreta se o conjunto D é quanto muito numerável, e se P (X ∈ D) = 1.
Definição 2.9 (Função de probabilidade). Seja X uma v.a. discreta. Chama-se função de
probabilidade (f.p.), ou função massa de probabilidade, de X à função definida pelo conjunto dos
valores de D e pelas respectivas probabilidades, isto é, por (x
i, p
i) onde x
i∈ D e p
i= P (X = x
i).
Uma representação usual para a função de probabilidade da v.a. X, é:
X =
(
x
1x
2. . .
x
i. . .
P (X = x
1)
P (X = x
2)
. . .
P (X = x
i)
. . .
Propriedades da função de probabilidade:
1. P (X = x
i) = f (x
i) = p
i≥ 0;
2.
P∞i=1
p
i= 1.
Observação: Para qualquer subconjunto real I, P (X ∈ I) =
Pxi∈I∩D
P (X = x
i).
Exemplo 2.10. Considere novamente o Exemplo 2.2. O conjunto de pontos de descontinuidade
da função de distribuição é D = {0, 1, 2}. Como P (X ∈ D) = 1, conclui-se que X é uma v.a.
discreta com função de probabilidade,
X
(0
1
2
1 4 1 2 1 4Definição 2.11 (Variável aleatória contínua). Uma v.a. X diz-se do tipo contínuo ou
simples-mente contínua se D = ∅ e se existe uma função não negativa, f , tal que para I ⊆ R,
P (X ∈ I) =
Z
I
f (x)dx.
Propriedades da função densidade probabilidade:
1. f (x) ≥ 0,
∀x ∈ R;
2.
R+∞−∞
f (x) dx = 1.
Observação: Como
RI
f (x)dx é um integral de uma função não negativa e é sempre convergente,
então a P (X ∈ I), corresponde ao valor da área entre o eixo das abcissas e o gráfico da função
f no intervalo I considerado. Consequentemente P (X = x) = 0, ∀x ∈ R e
P (x
1≤ X ≤ x
2) = P (x
1< X ≤ x
2) = P (x
1≤ X < x
2) = P (x
1< X < x
2),
∀ x
1≤ x
2.
Observação: Por definição, F
0(x) = f (x), nos pontos onde existe derivada. Se não existir
derivada, f (x) = 0.
2.4
Momentos
Qualquer variável aleatória possui algumas características numéricas importantes. As mais
conhe-cidas são o valor médio e a variância. Nesta secção vamos estudar outras características mais
gerais: os Momentos.
Definição 2.12 (Valor médio). O valor médio, valor esperado ou simplesmente média da v.a.
X é dado por,
µ = E(X) =
∞ P i=1x
iP (X = x
i)
se X é uma v.a. discreta;
+∞
R
−∞
xf (x)dx
se X é uma v.a. contínua;
desde que a série/integral seja absolutamente convergente.
Definição 2.13 (Valor médio de uma função de uma variável aleatória). Seja X uma v.a. e
g uma função real de variável real contínua com quanto muito um conjunto numerável de pontos
de descontinuidade. Então o valor médio de Y = g(X) é dado por:
E(g(X)) =
∞ P i=1g(x
i)P (X = x
i)
se X é uma v.a. discreta;
+∞
R
−∞
g(x)f (x)dx
se X é uma v.a. contínua;
desde que a série/integral seja absolutamente convergente.
Exemplo 2.14. Considere a variável aleatória introduzida no Exemplo 2.2. Os valores médios de
X e g(X) = X
2, são respectivamente:
E(X) = 0 ×
14+ 1 ×
12+ 2 ×
14= 1,
E(g(X)) = E(X
2) = 0
2×
1 4+ 1
2×
1 2+ 2
2×
1 4=
3 2.
2.4. MOMENTOS
13
Propriedades do valor esperado:
1. Se a é uma constante, E(a) = a;
2. Se a e b são constantes, E(aX + b) = aE(X) + b.
3. Se existirem E(g
1(X)) e E(g
2(X)), então
E(g
1(X) + g
2(X)) = E(g
1(X)) + E(g
2(X)).
Definição 2.15 (Momentos de ordem k). Seja X uma variável aleatória. Definem-se momentos
de ordem k em torno da origem por:
m
k= E(X
k),
e os momentos centrais de ordem k de X por:
µ
k= E((X − µ)
k),
desde que os valores esperados existam.
Definição 2.16 (Variância e desvio padrão). A variância da v.a. X, σ
2ou V (X), é o momento
central de ordem dois, isto é,
σ
2= V (X) = E((X − µ)
2),
desde que exista o valor esperado de (X − µ)
2. À sua raiz quadrada positiva, σ =
pV (X),
chamamos desvio padrão da v.a. X.
Proposição 2.17. Se X é uma v.a., para a qual existe variância, V (X) = E X
2−E
2(X).
Propriedades da Variância:
1. Se a é uma constante, V (a) = 0;
2. Se a e b são constantes, V (aX + b) = a
2V (X).
Exemplo 2.18. Considere a variável aleatória introduzida no Exemplo 2.2. A variância de X é:
V (X) = E((X − 1)
2) = (0 − 1)
2×
1 4+ (1 − 1)
2×
1 2+ (2 − 1)
2×
1 4=
1 2.
Teorema 2.19 (Desigualdade de Chebychev). Se X é uma v.a. para a qual existe variância
σ
2e c > 0 é uma constante real positiva, então
P (|X − µ| ≥ cσ) ≤
1
c
2⇔
P (|X − µ| < cσ) ≥ 1 −
1
c
2.
Exemplo 2.20 (Desigualdade de Chebychev). Para c = 2, podemos dizer que a probabilidade
da v.a. X assumir valores no intervalo ]µ − 2σ, µ + 2σ[ é superior a 1 − 1/4 = 0.75.
Observação: A generalidade da Desigualdade de Chebychev impede-a de ser muito precisa.
2.5
Outros parâmetros relevantes
Definição 2.21 (Coeficiente de variação). Seja X uma v.a. com suporte não negativo. O
Coeficiente de variação de X é,
CV =
σ
µ
× 100%.
Definição 2.22 (Coeficiente de Simetria). O Coeficiente de simetria, de uma v.a. X, é definido
por
β
1=
µ
3σ
3.
Definição 2.23 (Coeficiente de achatamento ou Kurtosis). Define-se o coeficiente de
achata-mento ou kurtosis como
β
2=
µ
4σ
4− 3.
Definição 2.24 (Quantil). O quantil de ordem p, χp
, da v.a. X é a solução da equação:
F (χ
p) = p,
0 < p < 1.
Se X é uma v.a. discreta, a equação F (χ
p) = p pode não ter solução exacta. Neste caso
considera-se χ
p= min{x : F (x) ≥ p}.
Definição 2.25 (Mediana). Trata-se do quantil de ordem p = 1/2. Costuma-se representar a
mediana, da v.a. X, por med(X).
Definição 2.26 (Moda). A Moda, representada por mo, é o valor que maximiza a função de
probabilidade ou a função densidade probabilidade, desde que seja único.
2.6. FUNÇÕES DE UMA VARIÁVEL ALEATÓRIA
15
2.6
Funções de uma variável aleatória
Existem muitas formas de criar novas variáveis aleatórias, a partir de outras já conhecidas. Muitas
destas variáveis aparecem de forma natural com a resolução de problemas. Assim, sejam X e Y
variáveis aleatórias tais que Y é função de X (Y = g(X)). Interessa-nos saber como conhecer a
distribuição de Y . Para isso basta conhecer a sua função de distribuição, F
Y. Independentemente
de X ser uma v.a. discreta ou contínua, podemos sempre obter a sua função de distribuição do
seguinte modo:
F
Y(y) = P (Y ≤ y) = P (g(X) ≤ y) = P (A
y),
onde A
y= {x ∈ D
x: g(x) ≤ y}. Geralmente consegue-se calcular P (A
y), a partir da função de
distribuição de X, F
X.
Exemplo 2.27. Considere a v.a. X com função de distribuição,
F
X(x) =
0,
x ≤ 0
5x
4− 4x
3,
0 < x < 1
1,
x ≥ 1
Estamos interessados em conhecer a distribuição das v.a.’s Y = 2X − 1 e W = X
2. Comecemos
por determinar a f.d. da v.a. Y :
F
Y(y) = P (Y ≤ y) = P (2X − 1 ≤ y) = P (X ≤
y+12) = F
X(
y+12) =
=
0,
y+12≤ 0
5
y+12 4− 4
y+12 3,
0 <
y+12< 1
1,
y+12≥ 1
=
0,
y ≤ −1
5
y+12 4− 4
y+1 2 3,
−1 < y < 1
1,
y ≥ 1
Determinemos agora a função de distribuição de W . É obvio que se w < 0, F
W(w) = 0. Se
w ≥ 0,
F
W(w) = P (W ≤ w) = P (−
√
w ≤ X ≤
√
w) = F
X(
√
w) − F
X(−
√
w) = F
X(
√
w) =
=
(5
√
w
4− 4
√
w
3,
0 ≤
√
w < 1
1,
√
w ≥ 1
=
(5w
2− 4w
3/2,
0 ≤ w < 1
1,
w ≥ 1
A procedimento, acima indicado, é válido quer X seja uma v.a. contínua ou uma v.a. discreta.
Contudo no caso de X ser uma v.a. discreta, Y = g(X) é também uma v.a. discreta. Nesta
situação podemos também conhecer de distribuição de Y a partir da sua função de probabilidade.
Assim, seja D
xo suporte de X, isto é, o conjunto dos valores de X com probabilidade positiva.
Então,
P (Y = y) = P (g(X) = y) = P (X ∈ A
y),
onde A
y= {x ∈ D
x: g(x) = y}.
Exemplo 2.28. Considere novamente a variável aleatória introduzida no Exemplo 2.2 e a nova
variável aleatória Y = (X − 1)
2. Sendo X uma v.a. discreta, concluímos que Y é também uma
v.a. discreta. Como X tem como suporte os valores 0, 1,e 2, o suporte de Y é o conjunto dos
valores 0 e 1. Resulta que
P (Y = 0) = P ((X − 1)
2= 0) = P (X = 1) =
12,
P (Y = 1) = P ((X − 1)
2= 1) = P (X − 1 = −1 ∨ X − 1 = 1) =
= P (X = 0) + P (X = 2) =
14+
14.
Então a função de probabilidade de Y é
Y
(0
1
1 2 1 2Capítulo 3
Vectores aleatórios
Sejam X
1, X
2, . . . , X
mm variáveis aleatórias.
Então X = (X
1, X
2, . . . , X
m) é um vector
aleatório de dimensão m. Vamos restringir-nos apenas aos pares aleatórios (X, Y ) = (X
1, X
2),
isto é, aos vectores aleatórios com m = 2. Estes podem ser do tipo discreto, contínuo ou misto,
conforme X e Y são v.a. de tipo discreto, contínuo ou uma discreta e a outra contínua.
Definição 3.1 (Função de distribuição conjunta). Seja (X, Y ) um par aleatório. A função de
de distribuição de (X, Y ) é:
F
X,Y(x, y) = P (X ≤ x, Y ≤ y),
∀(x, y) ∈ R
2.
3.1
Par aleatório discreto
Definição 3.2 (Par aleatório discreto). Diz-se que (X, Y ) é um par aleatório discreto se e só
se X e Y são variáveis aleatórias discretas.
Definição 3.3 (Função de probabilidade conjunta). Seja (X, Y ) um par aleatório discreto
tomando valores no conjunto D = {(x
i, y
j) ∈ R
2: P (X = x
i, Y = y
j) > 0}. Chamamos função
de probabilidade conjunta (f.p.c.) de (X, Y ) à função:
p
ij= P (X = x
i, Y = y
j), i = 1, 2, . . . , j = 1, 2, . . .
Propriedades da função de probabilidade conjunta:
1.
0 ≤ p
ij≤ 1, ∀(x
i, y
j) ∈ D;
2.
X i X jp
ij= 1
Observação: Quando o conjunto D é finito e pequeno é costume representar a f.p.c. numa
tabela, idêntica à que a seguir se apresenta:
X\Y
y
1y
2. . .
y
nx
1p
11p
12. . .
p
1np
1•x
2p
21p
22. . .
p
2np
2•..
.
..
.
..
.
. ..
..
.
..
.
x
mp
m1p
m2. . .
p
mnp
m•p
•1p
•2. . .
p
•m1
Definição 3.4 (Função de probabilidade marginal). Define-se função de probabilidade marginal
de X e função de probabilidade marginal de Y como:
p
i•=
P (X = x
i) =
∞ X j=1P (X = x
i, Y = y
j) =
∞ X j=1p
ij,
i = 1, 2, . . .
p
•j=
P (Y = y
j) =
∞ X i=1P (X = x
i, Y = y
j) =
∞ X i=1p
ij,
j = 1, 2, . . .
Definição 3.5 (Função de probabilidade condicional). Seja (X, Y ) um par aleatório discreto.
Define-se probabilidade condicional de X dado Y = y
jcomo,
P (X = x
i|Y = y
j) =
P (X = x
i, Y = y
j)
P (Y = y
j)
=
p
ijp
•j,
se
P (Y = y
j) > 0,
e probabilidade condicional de Y dado X = x
icomo
P (Y = Y
j|X = X
i) =
P (X = x
i, Y = y
j)
P (X = x
i)
=
p
ijp
i•,
se
P (X = x
i) > 0.
Definição 3.6 (Independência entre variáveis aleatórias discretas). As v.a.’s X e Y dizem-se
independentes se, e só se, p
ij= p
i•p
•j,
∀i, j.
Exemplo 3.7. Seja (X, Y ) um par aleatório discreto com a seguinte f.p.c.:
X \ Y 0 1 2
0 1/4 1/8 0 3/8 1 1/8 1/8 1/8 3/8
2 0 0 1/4 1/4
3/8 1/4 3/8
(a) Qual a probabilidade de X ser maior que Y ?
(Solução: 1/8)(b) Calcule P (X ≤ 1; Y > 0).
(Solução: 3/8)(c) X e Y são v.a.’s independentes?
(Solução: X e Y não são independentes)3.2. PAR ALEATÓRIO CONTÍNUO
19
3.2
Par aleatório contínuo
Definição 3.8 (Par aleatório contínuo). Um par aleatório (X, Y ) diz-se contínuo se existe uma
função não negativa f
X,Ytal que, tal que, para qualquer região I ⊂ R
2,
P ((X, Y ) ∈ I) =
Z Z
I
f
X,Y(u, v)dudv.
A f
X,Ychamamos função densidade probabilidade conjunta ou função densidade conjunta.
Propriedades da função densidade probabilidade conjunta:
1. f
X,Y(x, y) ≥ 0,
∀(x, y) ∈ R
2;
2.
R+∞−∞
R+∞
−∞
f
X,Y(x, y)dxdy = 1.
Definição 3.9 (Função densidade de probabilidade marginal). Define-se a função densidade
de probabilidade marginal de X, como:
f
X(x) =
Z +∞
−∞
f
(X,Y )(x, y) dy,
∀x ∈ R
De modo análogo obtêm-se a função densidade de probabilidade marginal de Y ,
f
Y(y) =
Z +∞
−∞
f
(X,Y )(x, y) dx,
∀y ∈ R
Definição 3.10 (Função densidade condicional). Em todos os pontos (x, y) onde fX,Y
é
contínua, f
Y(y) > 0 e é contínua, a função densidade condicional de X, dado Y = y, existe e
calcula-se como:
f
X|Y(x|y) =
f
X,Y(x, y)
f
Y(y)
.
De modo análogo, em todos os pontos (x, y) onde f
X,Yé contínua, f
X(x) > 0 e é contínua, a
função densidade condicional de Y , dado X = x, existe e calcula-se como:
f
Y |X(y|x) =
f
X,Y(x, y)
f
X(x)
.
Definição 3.11 (Independência entre variáveis aleatórias contínuas). Seja (X, Y ) um par
aleatório contínuo. As variáveis X e Y dizem-se independentes se e só se
Exemplo 3.12. Os tempos de vida, em centenas de horas, das duas componentes principais de
um sistema de controlo são v.a.’s (X, Y ) com função densidade conjunta
f
X,Y(x, y) =
(
cx
2y
0 < x < 3 , 0 < y < 2
0
outros valores de (x, y) ∈ R
2(a) Qual o valor de c?
f
X,Y(x, y) ≥ 0,
∀ (x, y) ∈ R
2⇒ c ≥ 0
Z +∞ −∞ Z +∞ −∞f
X,Y(x, y) dxdy = 1
⇔
Z 2 0 Z 3 0cx
2y dx
dy = 1 ⇔ c =
1
18
(b) Qual a probabilidade de cada uma das componentes durar mais de 100 horas?
P (X > 1, Y > 1)
=
Z 2 1 Z 3 11
18
x
2y dxdy =
13
18
(c) Qual a probabilidade da 1
acomponente durar mais de 100 horas?
Como fX(x) = R+∞ −∞ f(X,Y )(x, y) dy = R2 0 1 18x 2y dy = x2 9, 0 < x < 3, resulta que: P (X > 1) = Z 3 1 fXdx = Z 3 1 x2 9 dx = 26 27
(d) Os tempos de vida das componentes são independentes?
Como fY (y) = y/2 0 < y < 2 0 o. v. de y fX(x) = x2/9 0 < x < 3 0 o. v. de x f (x, y) = 1 18x 2y 0 < x < 3, 0 < y < 2 0 o. v. (x, y) = fX(x) fY (y)
Conclui-se que X e Y são v.a.’s independentes.
3.3
Momentos de vectores aleatórios
Definição 3.13 (Valor médio). Seja (X, Y ) um par aleatório e g : R
2→ R uma função real.
Define-se valor médio ou valor esperado ou média de g(X, Y ) como:
E(g(X, Y )) =
∞ P i=1 ∞ P j=1g(x
i, y
j)p
ijse X e Y são v.a.’s discretas;
+∞ R −∞ +∞ R −∞
g(x, y)f
X,Y(x, y)dxdy
se X e Y são v.a.’s contínuas.
Nota: Uma das funções mais utilizadas é g(x, y) = xy, obtendo-se:
E(XY ) =
∞ P i=1 ∞ P j=1x
iy
jp
ijse X e Y são v.a.’s discretas;
+∞ R −∞ +∞ R −∞
3.3. MOMENTOS DE VECTORES ALEATÓRIOS
21
Definição 3.14 (Covariância). Sendo µX
= E(X) e µ
Y= E(Y ), define-se covariância entre
as v.a.’s X e Y por:
Cov (X, Y ) = E [(X − µ
X) (Y − µ
Y)] .
Proposição 3.15. Caso exista a covariância entre X e Y , esta pode ser calculada através da
fórmula:
Cov (X, Y ) = E (XY ) − E (X) E (Y ) .
Outras propriedades do valor médio e variância:
1. E(X ± Y ) = E(X) ± E(Y );
2. V (X ± Y ) = V (X) + V (Y ) ± 2 Cov(X, Y ).
Proposição 3.16. Se X e Y são independentes, então E(XY ) = E(X)E(Y ), e
consequente-mente Cov(X, Y ) = 0.
Propriedades da Covariância: Sejam X, Y , e Z v.a.’s, a, b e c constantes
reais. Então:
1. Cov(X, Y ) = Cov(Y, X);
2. Cov(X, X) = V (X);
3. Cov (a + bX, c + dY ) = bd Cov (X, Y );
4. Cov (aX + bY, cZ) = ac Cov (X, Z) + bc Cov (Y, Z).
Definição 3.17 (Coeficiente de correlação). Define-se coeficiente de correlação de (X, Y ) por
ρ (X, Y ) =
pCov (X, Y )
V (X) V (Y )
.
Propriedades do coeficiente de correlação:
1. −1 ≤ ρ (X, Y ) ≤ 1;
Capítulo 4
Principais Distribuições
4.1
Distribuições discretas
4.1.1
Distribuição Uniforme
Definição 4.1 (Distribuição Uniforme Discreta). Dizemos que a variável aleatória X segue uma
distribuição Uniforme Discreta de parâmetro n e escrevemos X ∼ U nif (n), ou abreviadamente,
X ∼ U (n), se a função de probabilidade de X é dada por:
X
(1
2
. . .
n
1 n 1 n. . .
1 nou
P (X = x) =
1
n
,
x = 1, . . . , n.
A respectiva função de distribuição é:
F (x) =
0,
x < 1
k n,
k ≤ x < k + 1,
k = 1, . . . , n − 1
1,
x ≥ n
.
Proposição 4.2 (Valor médio e Variância). Considere a v.a. X ∼ U nif (n). Então,
E(X) =
n + 1
2
e
V (X) =
n
2− 1
12
.
Demonstração.
1E(X) =
n X x=1x
1
n
=
1
n
n X x=1x =
1
n
×
n(n + 1)
2
=
n + 1
2
.
Para calcular a variância, é mais fácil utilizar o resultado V (X) = E(X
2) − E
2(X). Assim,
E(X
2) =
n X x=1x
21
n
=
1
n
n X x=1x
2=
1
n
×
n(n + 1)(2n + 1)
6
=
(n + 1)(2n + 1)
6
.
Logo V (X) =
(n+1)(2n+1)6−
n+1 2 2=
n212−1.
1Utilizam-se aqui os resultados, 1 + 2 + 3 + . . . + n = n(n+1)2 e 12+ 22+ 32+ . . . + n2=n(n+1)(2n+1)6 , n ∈ N,
que se podem confirmar por Indução Matemática.
4.1.2
Distribuição de Bernoulli
Definição 4.3 (Prova de Bernoulli). Trata-se de um experiência aleatória com apenas dois
resultados possíveis (que se costumam designar por “Sucesso” ou “Insucesso”).
Definição 4.4 (Distribuição de Bernoulli). É sempre possível definir uma variável aleatória X
que toma o valor 1 se o resultado da experiência é “Sucesso” e 0 se é “Insucesso”. Denotando
p = P (“Sucesso”) > 0, então a função de probabilidade de X é dada por:
X
(
0
1
1 − p
p
ou
P (X = x) = p
x
(1 − p)
1−x,
x = 0, 1,
0 < p < 1.
Dizemos que a v.a.
X segue uma distribuição de Bernoulli, de parâmetro p, e escrevemos
X ∼ Ber(p).
Proposição 4.5. Seja a v.a. X ∼ Ber(p). Então
E(X) = p
e
V (X) = p(1 − p).
4.1.3
Distribuição Binomial
Definição 4.6 (Distribuição Binomial). Considere-se uma sucessão de provas de Bernoulli
in-dependentes, onde em cada prova a probabilidade de “sucesso”, p, é constante. A v.a. X=
“número de sucessos em n provas de Bernoulli” segue uma distribuição Binomial de parâmetros
n e p, e escrevemos X ∼ Bin(n, p). A função de probabilidade é:
P (X = x) =
n
x
!p
x(1 − p)
n−x,
x = 0, 1, . . . , n,
0 < p < 1.
0 1 2 3 4 0.0 0.1 0.2 0.3 0.4 0.5 Bin(n=4 , p=0.25) x P(X=k) 0 1 2 3 4 0.0 0.1 0.2 0.3 0.4 0.5 Bin(n=4 , p=0.5) x P(X=k) 0 1 2 3 4 0.0 0.1 0.2 0.3 0.4 0.5 Bin(n=4 , p=0.75) x P(X=k)4.1. DISTRIBUIÇÕES DISCRETAS
25
Observação: Pela definição anterior, temos que X = I
1+ I
2+ . . . + I
n, onde I
i, i = 1, . . . , n
são v.a.’s independentes com distribuição Ber(p).
Proposição 4.7. Seja X uma variável aleatória com distribuição Bin(n, p). Então a nova v.a.
Y = n − X tem distribuição Bin(n, 1 − p).
Proposição 4.8 (Valor médio e Variância). Considere a v.a. X ∼ Bin(n, p). Então,
E(X) = np
e
V (X) = np(1 − p).
Demonstração. A demonstração torna-se mais simples se usarmos a representação X = I
1+ I
2+
. . . + I
n, introduzida na última observação. Assim,
E(X) = E(I
1+ I
2+ . . . + I
n) = E(I
1) + E(I
2) + . . . + E(I
n) = p + p + . . . + p = np.
Atendendo à independência das variáveis I
i,
V (X) = V (I
1+ I
2+ . . . + I
n) = V (I
1) + V (I
2) + . . . + V (I
n) = np(1 − p).
Exemplo 4.9 (Exame de P.E. D - 2007/08). Num concurso de televisão o apresentador propõe ao
concorrente o seguinte jogo: atiram-se ao ar 3 moedas, em simultâneo, e se todos os lançamentos
resultarem em caras o apresentador dá 10
e ao concorrente; Se todos os lançamentos resultarem
em coroas o apresentador dá igualmente ao concorrente 10
e. Mas se os lançamentos resultarem
em 2 caras e 1 coroa ou em 2 coroas e 1 cara, o concorrente tem de dar ao apresentador 5
e.
(a) Represente X a quantidade de dinheiro ganha pelo concorrente. Determine a sua função
de probabilidade.
(b) Baseado no valor esperado de X, diga se o concorrente deve aceitar jogar este jogo.
Resolução:
(a) Considere a v.a. Y: “número de caras obtidas em 3 lançamentos de uma moeda
(equili-brada)”. Então como em cada lançamento o resultado é cara (sucesso) ou coroa (insucesso)
e os resultados dos lançamentos são mutuamente independentes, Y ∼ Bin(3, 1/2).
Como P (X = −5) = P (Y = 1) + P (Y = 2) = 3/4 e P (X = 10) = P (Y = 0) + P (Y =
3) = 1/4, resulta a seguinte função de probabilidade:
X
−5 10 3/4 1/4
Proposição 4.10 (Aditividade). Sejam Xi
, i = 1, . . . , m, m v.a.’s independentes tais que
X
i∼ Bin(n
i, p). Então a sua soma tem também distribuição Binomial, isto é,
S
m=
m X i=1X
i∼ Bin(n
1+ . . . + n
m, p).
4.1.4
Distribuição Geométrica
Definição 4.11 (Distribuição Geométrica). Considere-se uma sucessão de provas de Bernoulli
independentes, onde em cada prova a probabilidade de “sucesso”, p, é constante. A v.a. X=
“número de provas necessárias até ocorrer o primeiro sucesso” segue uma distribuição Geométrica
de parâmetro p, e escrevemos X ∼ G(p). A função de probabilidade é:
P (X = x) = p(1 − p)
x−1,
x = 1, 2, . . . ,
0 < p < 1.
Observação: O nome desta distribuição deve-se ao facto da sucessão das probabilidades ser uma
progressão geométrica de razão 1 − p.
0 5 10 15 20 0.0 0.1 0.2 0.3 0.4 0.5 G(0.25) x P(X=k) 0 5 10 15 20 0.0 0.1 0.2 0.3 0.4 0.5 G(0.5) x P(X=k)
Figura 4.2: Gráficos da função de probabilidade de uma v.a. G(p), para alguns valores de p.
Proposição 4.12 (Valor médio e Variância). Considere a v.a. X ∼ G(p). Então,
E(X) =
1
p
e
V (X) =
1 − p
p
2Demonstração. O cálculo do valor médio e da variância é mais fácil se usarmos alguns dos
re-sultados das séries de funções: Assim seja S(r) =
P∞k=0
r
kuma série geométrica de razão r.
Resulta que:
1. S(r) =
∞ P k=0r
k=
1−r1,
|r| < 1;
2. S
0(r) =
∞ P k=1kr
k−1=
(1−r)1 2,
|r| < 1;
4.1. DISTRIBUIÇÕES DISCRETAS