Probabilidade e Estatística

(1)

Probabilidade e Estatística

Frederico Caeiro

2009/10

(2)

Estas folhas servem de apoio às aulas de Probabilidades e Estatística. Para uma melhor

compreen-são dos assuntos abordados, aconselha-se a leitura de alguns dos livros indicados nas referências

bibliográficas.

(3)

Conteúdo

1 Introdução à Teoria da Probabilidade

1

1.1 Espaço de Resultados e Acontecimentos . . . .

1

1.2 Probabilidade

. . . .

3

1.3 Cálculo Combinatório . . . .

5

1.4 Probabilidade Condicional e Independência . . . .

6

2 Variáveis aleatórias

9

2.1 Variáveis aleatórias

. . . .

9

2.2 Função de distribuição . . . .

10

2.3 Classificação das variáveis aleatórias . . . .

11

2.4 Momentos . . . .

12

2.5 Outros parâmetros relevantes . . . .

14

2.6 Funções de uma variável aleatória

. . . .

15

3 Vectores aleatórios

17

3.1 Par aleatório discreto . . . .

17

3.2 Par aleatório contínuo . . . .

19

3.3 Momentos de vectores aleatórios . . . .

20

4 Principais Distribuições

23

4.1 Distribuições discretas . . . .

23

4.1.1 Distribuição Uniforme . . . .

23

4.1.2 Distribuição de Bernoulli . . . .

24

4.1.3 Distribuição Binomial . . . .

24

4.1.4 Distribuição Geométrica . . . .

26

4.1.5 Distribuição Hipergeométrica . . . .

27

4.1.6 Distribuição de Poisson . . . .

29

4.2 Distribuições Contínuas . . . .

31

4.2.1 Distribuição Uniforme Contínua . . . .

31

4.2.2 Distribuição Exponencial . . . .

32

4.2.3 Distribuição Gama . . . .

34

4.2.4 Distribuição Normal . . . .

35

4.2.5 Distribuição do Qui Quadrado

. . . .

36

4.2.6 Distribuição t de Student . . . .

37

5 Teorema Limite Central

39

(4)

6.2 Propriedades dos estimadores . . . .

42

6.3 Método dos Momentos . . . .

44

6.4 Método da máxima verosimilhança . . . .

46

6.5 Distribuições por Amostragem

. . . .

47

6.5.1 Distribuição por amostragem da média amostral, X . . . .

47

6.5.2 Distribuição por amostragem da diferença de médias amostrais, X

1

− X

2

49

6.5.3 Distribuição por amostragem da variância amostral, S

2

. . . .

49

6.5.4 Distribuição por amostragem da proporção, ˆ

P . . . .

49

7 Estimação por Intervalo de Confiança

51

7.1 Intervalo de Confiança para a média da população, µ . . . .

52

7.1.1 População Normal com variância conhecida . . . .

52

7.1.2 População Normal com variância desconhecida

. . . .

55

7.1.3 População não-Normal com variância conhecida e n > 30 . . . .

56

7.1.4 População não-Normal com variância desconhecida e n > 30 . . . .

56

7.2 Intervalo de Confiança para a variância populacional, σ

2

, e para o desvio padrão

populacional, σ

. . . .

58

7.3 Intervalo de Confiança para proporção populacional, p . . . .

60

8 Teste de Hipóteses

63

8.1 Introdução . . . .

63

8.2 Teste de Hipóteses para a média da população . . . .

65

8.2.1 Teste bilateral . . . .

66

8.2.2 Teste unilateral direito

. . . .

67

8.2.3 Teste unilateral esquerdo . . . .

68

8.3 Teste de Hipóteses para a variância, σ

2

, de uma população Normal . . . .

69

8.4 Teste de Hipóteses para a proporção p de uma população . . . .

70

8.5 Teste das sequências ascendentes e descendentes

. . . .

71

8.6 Teste de ajustamento do Qui Quadrado

. . . .

72

9 Regressão Linear

77

9.1 Introdução . . . .

77

9.2 Estimadores dos Mínimos Quadrados de β

0

e β

1

. . . .

78

9.3 Estimação de σ

2

e Qualidade do Ajuste

. . . .

79

9.4 Propriedades dos estimadores dos mínimos quadrados . . . .

79

9.4.1 Distribuição por amostragem de ˆ

σ

2

. . . .

79

9.4.2 Distribuição por amostragem de ˆ

β

0

e ˆ

β

1

. . . .

80

9.5 Inferência sobre os parâmetros do Modelo de Regressão . . . .

81

9.5.1 Intervalo de Confiança e Teste de Hipóteses para β

1

. . . .

81

9.5.2 Intervalo de Confiança e Teste de Hipóteses para β

0

. . . .

82

9.5.3 Intervalo de Confiança e Teste de Hipóteses para σ

2

_{. . . .}

₈₃

9.6 Estimação do valor esperado de Y para uma observação x

0

da variável controlada

84

(5)

10 Exercícios

85 10.1 Introdução à Teoria da Probabilidade . . . .

85 10.2 Variáveis aleatórias

. . . .

89 10.3 Vectores Aleatórios

. . . .

93 10.4 Principais distribuições

. . . .

96 10.5 Teorema Limite Central . . . .

101 10.6 Estimação Pontual . . . .

102 10.7 Estimação por Intervalo de Confiança

. . . .

104 10.8 Teste de Hipóteses

. . . .

106 10.9 Regressão Linear . . . .

109

(6)

(7)

Capítulo 1

Introdução à Teoria da Probabilidade

1.1 Espaço de Resultados e Acontecimentos

Definição 1.1 (Experiência aleatória). Uma experiência aleatória é uma experiência cujo

re-sultado é desconhecido (antes da sua realização), apesar de se conhecerem todos os possíveis

resultados.

Exemplo 1.2 (Experiência aleatória). Considere os seguintes exemplos:

• E

1

: Lançamento de uma moeda e observação da face voltada para cima;

• E

2

: Lançamento de um dado e observação da face voltada para cima;

• E

₃

: Tempo de “vida” de uma lâmpada.

Definição 1.3 (Espaço de resultados ou universo). Chamamos espaço de resultados ou

uni-verso, e representamos por Ω, ao conjunto de todos os possíveis resultados de uma experiência

aleatória.

Observação: Diz-se que o espaço de resultados, Ω, é discreto se tem um número finito ou infinito

numerável de elementos. Se Ω contém um intervalo (finito ou infinito) de números reais, então

o espaço de resultados é contínuo.

Exemplo 1.4 (Espaço de resultados). Considere novamente as experiências aleatórias do

Ex-emplo 1.2. Temos:

• E

1

: Ω = {Cara, Coroa};

• E

2

: Ω = {1, 2, 3, 4, 5, 6};

• E

3

: Ω = R

+

.

(8)

Exemplo 1.5 (Espaço de resultados). Na experiência aleatória que consiste em lançar um dado,

numerado de 1 a 6, e observar a face voltada para cima, Ω = {1, 2, 3, 4, 5, 6}. Se forem lançados

dois dados, o espaço de resultados é,

Ω = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), . . . , (6, 5), (6, 6)},

ou seja, Ω = {(i, j) : i = 1, . . . , 6; j = 1, . . . , 6}.

Definição 1.6 (Acontecimento e Acontecimento elementar). Um acontecimento é um

sub-conjunto do espaço de resultados, Ω. Cada acontecimento formado por apenas um ponto amostral

é designado por acontecimento elementar ou simples.

Observação: Ao conjunto ∅ chamamos acontecimento impossível e a Ω acontecimento certo.

Definição 1.7 (Sub-acontecimento). A é sub-acontecimento de B, e escreve-se A ⊂ B, se e

só se a realização de A implica a realização de B.

Observação: Podemos aplicar as operações usuais sobre conjuntos de modo a obter outros

acontecimentos de interesse. As operações mais usuais são:

• A união de dois acontecimentos A e B, e representa-se por A ∪ B;

• A intersecção de dois acontecimentos A e B, e representa-se por A ∩ B;

• O complementar do acontecimento A e representa-se por A;

• A diferença dos acontecimentos A e B e representa-se por A − B (= A ∩ B);

Algumas propriedades importantes:

1. Distributiva: A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) e A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C);

2. Leis de De Morgan: A ∩ B = A ∪ B e A ∪ B = A ∩ B.

Definição 1.8 (Acontecimentos disjuntos ou mutuamente exclusivos). Dois acontecimentos

A e B dizem-se disjuntos se não têm elementos em comum, ou seja, se A ∩ B = ∅.

(9)

1.2. PROBABILIDADE

3

1.2 Probabilidade

Em muitas experiência aleatórias estamos interessados em medir a possibilidade de ocorrer um

determinado acontecimento ocorrer. A probabilidade permite-nos quantificar essa possibilidade.

Definição 1.9 (Definição Clássica ou de Laplace de Probabilidade). Se uma experiência

aleatória tem a si associado um número finito N de resultados, mutuamente exclusivos e

igual-mente prováveis, então a probabilidade de qualquer acontecimento A, P (A), é dada por:

P (A) =

N

A

N

=

n

o

de resultados favoráveis a A

n

o

de resultados possíveis

.

Exemplo 1.10. A probabilidade de sair face ímpar, num lançamento de um dado equilibrado é

P (“Sair face ímpar”) =

3₆

=

1₂

.

Definição 1.11 (Definição Frequencista de Probabilidade). A probabilidade de um

aconteci-mento A é dada pelo limite da frequência relativa com que se observou A, isto é,

P (A) = lim

n→∞

n

A

n

,

onde n

A

representa o número de observações de A, e n o número de realizações da experiência

aleatória. Para valores elevados de n, podemos assumir que P (A) ≈

n

A

n

.

Definição 1.12 (Definição Axiomática de Probabilidade). A Probabilidade é uma função,

que a cada acontecimento A faz corresponder um valor real, P (A), e que verifica as seguintes

condições ou axiomas:

1. P (A) ≥ 0, qualquer que seja o acontecimento A;

2. P (Ω) = 1;

3. Se A e B são acontecimentos disjuntos, P (A ∪ B) = P (A) + P (B).

Esta axiomática não contempla situações com uma infinidade numerável de acontecimentos. É

assim usual substituir o 3

o

axioma, por:

3. Se A

1

, A

2

, . . . são acontecimentos disjuntos dois a dois, então P

S∞i=1

A

i

=

P∞i=1

P (A

i

).

Proposição 1.13. Sejam A e B dois acontecimentos. Os seguintes resultados são consequência

imediata dos axiomas da definição 1.12:

1. P (∅) = 0;

(10)

3. P ( ¯

A) = 1 − P (A);

4. P (A) ∈ [0, 1];

5. P (A − B) = P (A ∩ B) = P (A) − P (A ∩ B);

6. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Demonstração.

1. Como ∅ e Ω são acontecimentos disjuntos e P (∅ ∪ Ω) = P (Ω) = 1, resulta pelo 3

o

axioma

que P (∅ ∪ Ω) = P (∅) + P (Ω), ou seja, P (∅) = 0.

2. Sejam A e B dois acontecimentos tais que A ⊆ B. Então B = B ∩ (A ∪ A) = (B ∩ A) ∪

(B ∩ A) = A ∪ (B ∩ A). Como A e B ∩ A são acontecimentos disjuntos, podemos utilizar

o 3

o

axioma, resultando,

P (B) = P (A ∪ (B ∩ A)) = P (A) + P (B ∩ A).

Usando o 1

o

axioma, podemos garantir que P (B∩A) ≥ 0 e consequentemente P (B) ≥ P (A).

3. Como A e A são acontecimentos disjuntos, podemos utilizar o 3

o

axioma. Assim,

1 = P (Ω) = P (A ∪ A) = P (A) + P (A),

ou seja, P ( ¯

A) = 1 − P (A).

4. Pelo 1

o

axioma, para qualquer acontecimento A, P (A) ≥ 0. Logo, basta apenas demonstrar

que P (A) ≤ 1. Como A ⊆ Ω, resulta que P (A) ≤ P (Ω) = 1.

5. Como A = (A ∩ B) ∪ (A ∩ B) = (A − B) ∪ (A ∩ B), e (A − B) e (A ∩ B) são acontecimentos

disjuntos, então podemos utilizar o 3

o

axioma. Assim,

P (A) = P (A − B) + P (A ∩ B)

⇔

P (A − B) = P (A) − P (A ∩ B).

6. Como A ∪ B = (A − B) ∪ (B − A) ∪ (A ∩ B) e (A − B), (B − A) e (A ∩ B) são

acontecimentos disjuntos dois a dois, podemos utilizar o resultado do 3

o

axioma, obtendo:

P (A ∪ B) = P (A − B) + P (B − A) + P (A ∩ B) =

= P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B) =

= P (A) + P (B) − P (A ∩ B).

Observação: O último resultado da Proposição 1.13 pode ser generalizado para a união de n

acontecimentos (n ≥ 2). Assim, dados os acontecimentos A

i

, i = 1, . . . , n,

P (∪

n_i=1

A

i

) =

n X i=1

P (A

i

)−

X i6=j

P (A

i

∩ A

j

)+

X i6=j6=k

P (A

i

∩ A

j

∩ A

k

)−. . .+(−1)

n−1

P (∩

ni=1

A

i

) ;

(11)

1.3. CÁLCULO COMBINATÓRIO

5 Para n = 3 obtemos o caso particular:

P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).

Definição 1.14 (Acontecimentos incompatíveis). Dois acontecimentos A e B dizem-se

in-compatíveis se P (A ∩ B) = 0.

1.3 Cálculo Combinatório

O cálculo de uma probabilidade, através da definição clássica, depende da contagem do número

de casos favoráveis e do número de casos possíveis. Em muitas situações este cálculo pode não

ser imediato. O cálculo combinatório é uma ferramenta que nos poderá auxiliar em muitas dessas

situações.

Definição 1.15 (Produto Cartesiano). Seja A = {a

1

, . . . , a

n

} um conjunto com n elementos e

B = {b

1

, . . . , b

m

} um conjunto com m elementos. Designa-se por produto cartesiano o conjunto

de pares (a

i

, b

j

) em que o primeiro provém de A e o segundo de B e representa-se por A × B. O

número de elementos de A × B é dados por #(A × B) = n × m.

Considere agora que temos n elementos distintos, e pretendemos seleccionar k. De quantas

maneiras distintas é possível seleccionar os k elementos? Como existem várias formas distintas

de escolher os k elementos, a resposta à questão anterior é dada pela seguinte tabela:

Interessa

Há

Designação

Número de maneiras distintas de

a ordem?

repetição?

escolher os k elementos

Sim

Não

Arranjos

n

A

k

=

_(n−k)!n!

,

k ≤ n

Sim

Arranjos com repetição

n

A

0_k

= n

k

Não

Combinações

n

C

k

=

n_k

=

_(n−k)!k!n!

,

k ≤ n

Não

Sim

Combinações com repetição

n

C

_k0

=

(n+k−1)!_(n−1)!k!

Observações:

• “!” representa a função factorial (por convenção 0! = 1);

• No caso particular em que interessa a ordem, não há repetição e estamos a seleccionar todos

os elementos disponíveis (k = n), é mais usual designarmos Permutações de n elementos,

(12)

1.4 Probabilidade Condicional e Independência

Vamos começar por um exemplo que irá introduzir a noção de probabilidade condicional.

Exemplo 1.16. Uma empresa farmacêutica realizou um ensaio clínico para comparar a eficácia de

um novo medicamento (medicamento experimental). Escolheram-se ao acaso 200 doentes com a

doença que se pretende curar. Metade desses doentes foram tratados com o novo medicamento e

os restantes com um medicamento convencional. Ao fim de 5 dias, os resultados são os seguintes:

Melhorou (M )

Não melhorou (M )

Total

Medicamento Experimental E

69

31

100 Medicamento Convencional (E)

58

42

100 Total

127

73

200 1. Qual a probabilidade, de um doente escolhido ao acaso,

(a) tomar o medicamento experimental?

Resposta: Usando a regra de Laplace, P (E) =

100₂₀₀

=

1₂

.

(b) tomar o medicamento experimental e melhorar?

Resposta: Usando a regra de Laplace, P (E ∩ M ) =

₂₀₀69

.

2. Qual a probabilidade de um doente, que melhorou, ter tomado o medicamento experimental?

Resposta:

₁₂₇69

.

Observação: A solução da pergunta 2, do exemplo anterior, é igual a

P (E∩M )_{P (M )}

.

Definição 1.17 (Probabilidade Condicional). Sejam A e B dois acontecimentos. A

probabili-dade condicional de A dado B é

P (A|B) =

P (A ∩ B)

P (B)

,

se P (B) > 0.

Teorema 1.18 (Teorema da Probabilidade Composta). Sejam A e B dois acontecimentos

tais que P (B) > 0. Então, resulta da definição de Probabilidade Condicional,

P (A ∩ B) = P (A |B ) P (B) .

Observação: Nalguns casos, a probabilidade condicional P (A|B) pode ser igual a P (A), ou seja,

o conhecimento da ocorrência de B não afecta a probabilidade de A ocorrer.

Definição 1.19 (Acontecimentos Independentes). Dois acontecimentos A e B dizem-se

inde-pendentes se e só se,

(13)

1.4. PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA

7 Definição 1.20 (Partição do espaço de resultados). Dizemos que {E

1

, . . . , E

n

} é uma partição

do espaço de resultados Ω quando

E

i

∩ E

j

= ∅ (i 6= j) e

∪

ni=1

E

i

= Ω.

Teorema 1.21 (Teorema da Probabilidade Total). Seja {E

1

, . . . , E

n

} uma partição do espaço

de resultados Ω, com P (E

i

) > 0, ∀i. Dado um qualquer acontecimento A, tem-se,

P (A) = P (A |E

1

) P (E

1

) + . . . + P (A |E

n

) P (E

n

) .

Teorema 1.22 (Teorema de Bayes). Seja {E

1

, . . . , E

n

} uma partição do espaço de resultados

Ω, com P (E

_i

) > 0, ∀i. Dado um qualquer acontecimento A, com P (A) > 0, tem-se

P (E

i

|A ) =

P (A |E

i

) P (E

i

)

n P i=1

P (A |E

i

) P (E

i

)

.

Demonstração. Aplicando a definição 1.17, de Probabilidade Condicional, depois o Teorema 1.18

da Probabilidade Composta e o Teorema 1.21 da Probabilidade Total,

P (E

i

|A ) =

P (E

i

∩ A)

P (A)

=

P (A |E

i

) P (E

i

)

n P i=1

P (A |E

i

) P (E

i

)

.

Exemplo 1.23 (Teste de P.E. D - 2007/08). Diga, justificando, se a seguinte afirmação é

ver-dadeira ou falsa:

Três máquinas A, B e C produzem botões, respectivamente, 15%, 25% e 60% da produção total.

As percentagens de botões defeituosos fabricados por estas máquinas são respectivamente 5%, 7%

e 4%. Se ao acaso, da produção total de botões, for encontrado um defeituoso, a probabilidade

de ele ter sido produzido pela máquina B é de cerca de 36%.

Resolução:

Sejam A, B, C e D os seguintes acontecimentos:

A - O Botão é produzido pela máquina A;

B - O Botão é produzido pela máquina B;

C - O Botão é produzido pela máquina C;

D - O Botão tem defeito;

De acordo com o enunciado, temos as seguintes probabilidades: P (A) = 0.15, P (B) = 0.25,

P (C) = 0.6, P (D|A) = 0.05, P (D|B) = 0.07 e P (D|C) = 0.04.

(14)

Pretende-se determinar P (B|D). Usando o Teorema de Bayes, obtemos:

P (B|D) =

P (D|B)P (B)

P (D|A)P (A) + P (D|B)P (B) + P (D|C)P (C)

=

175

490 ' 36%.

Logo a afirmação está correcta, isto é, a probabilidade de um botão defeituoso ter sido produzido

pela máquina B é de cerca de 36%.

(15)

Capítulo 2

Variáveis aleatórias

2.1 Variáveis aleatórias

Definição 2.1 (Variável aleatória). Uma variável aleatória (v.a.), X : Ω → R, é uma função real

e finita, tal que a imagem inversa de ] − ∞; x] é um acontecimento, isto é, A

x

= X

−1

(−∞; x] =

{ω ∈ Ω : X (ω) ≤ x} com x ∈ R é um acontecimento.

Observação: É fácil de verificar que se X é uma variável aleatória e g : R → R uma função,

então Y = g(X) é também uma variável aleatória.

Exemplo 2.2 (Variável aleatória). Considere a experiência aleatória que consiste no lançamento

de 2 moedas equilibradas, e registo da face voltada para cima. O espaço de resultados é

Ω = {(Ca, Ca), (Ca, Co), (Co, Ca), (Co, Co)}.

Podemos, por exemplo, atribuir a cada um dos acontecimentos elementares de Ω, os seguinte

valores:

ω

(Ca,Ca)

(Ca,Co)

(Co,Ca)

(Co,Co)

X(ω)

2

1

0 Repare que

A

x

= X

−1

](∞; x]) =

        

∅,

x < 0

{(Co, Co)}

0 ≤ x < 1

{(Co, Co), (Ca, Co), (Co, Ca)} 1 ≤ x < 2

Ω

x ≥ 2

Como todas as imagens inversas, X

−1

(] − ∞; x]), são acontecimentos de Ω, então de acordo com

a definição 2.1, X é uma variável aleatória.

Observação: Relativamente ao Exemplo 2.2, X é a aplicação que atribui a cada acontecimento

de Ω o número de caras.

(16)

2.2 Função de distribuição

Definição 2.3 (Função de distribuição). A função de distribuição da v.a. X é:

F

X

(x) = P (X ≤ x) = P ({ω : X(ω) ≤ x}),

∀x ∈ R.

Exemplo 2.4. Considere novamente o Exemplo 2.2. A função de distribuição desta v.a. é:

F

X

(x) = P (X ≤ x) =

            

0,

x < 0

1 4

,

0 ≤ x < 1

3 4

,

1 ≤ x < 2

1,

x ≥ 2

Observação: Como F

X

(x) = P (X ≤ x), conclui-se que a função de distribuição existe

sem-pre. Quando não existir mais do que uma v.a., pode-se representar a função de distribuição

simplesmente por F .

Propriedades da função de distribuição:

1. lim

x→−∞

F (x) = 0

e

x→+∞

lim

F (x) = 1;

2. F é contínua à direita, isto é, lim

x→a+

F (x) = F (a);

3. F é não decrescente, isto é, se x < y, então F (x) ≤ F (y).

Teorema 2.5. Qualquer função F é uma função de distribuição se e só se verificar as três

propriedades anteriores.

Proposição 2.6. Seja X uma v.a. com função de distribuição F . Tem-se:

P (X = x) = P (X ≤ x) − P (X < x) = F (x) − F (x

−

),

_{∀x ∈ R,}

onde F (x

−

) = lim

t→x−

F (t).

Definição 2.7 (Variáveis aleatórias identicamente distribuídas). Duas variáveis aleatórias

X e Y dizem-se identicamente distribuídas, se têm a mesma função de distribuição, isto é, se

(17)

2.3. CLASSIFICAÇÃO DAS VARIÁVEIS ALEATÓRIAS

11

2.3 Classificação das variáveis aleatórias

A função de distribuição não é necessariamente contínua em todos os valores x ∈ R. Podemos

por isso classificar as variáveis aleatórias em função da continuidade da respectiva função de

distribuição. Considere o conjunto de pontos de descontinuidade da função de distribuição F ,

D = {a ∈ R : P (X = a) > 0} .

(2.1)

Definição 2.8 (Variável aleatória discreta). Uma v.a. X diz-se do tipo discreto ou

simples-mente discreta se o conjunto D é quanto muito numerável, e se P (X ∈ D) = 1.

Definição 2.9 (Função de probabilidade). Seja X uma v.a. discreta. Chama-se função de

probabilidade (f.p.), ou função massa de probabilidade, de X à função definida pelo conjunto dos

valores de D e pelas respectivas probabilidades, isto é, por (x

i

, p

i

) onde x

i

∈ D e p

i

= P (X = x

i

).

Uma representação usual para a função de probabilidade da v.a. X, é:

X =

(

x

1

x

2

. . .

x

i

. . .

P (X = x

1

)

P (X = x

2

)

. . .

P (X = x

i

)

. . .

Propriedades da função de probabilidade:

1. P (X = x

i

) = f (x

i

) = p

i

≥ 0;

2.

P∞

i=1

p

i

= 1.

Observação: Para qualquer subconjunto real I, P (X ∈ I) =

P

xi∈I∩D

P (X = x

i

).

Exemplo 2.10. Considere novamente o Exemplo 2.2. O conjunto de pontos de descontinuidade

da função de distribuição é D = {0, 1, 2}. Como P (X ∈ D) = 1, conclui-se que X é uma v.a.

discreta com função de probabilidade,

X

(

0

1

2

1 4 1 2 1 4

Definição 2.11 (Variável aleatória contínua). Uma v.a. X diz-se do tipo contínuo ou

simples-mente contínua se D = ∅ e se existe uma função não negativa, f , tal que para I ⊆ R,

P (X ∈ I) =

Z

I

f (x)dx.

(18)

Propriedades da função densidade probabilidade:

1. f (x) ≥ 0,

∀x ∈ R;

2.

R+∞

−∞

f (x) dx = 1.

Observação: Como

R

I

f (x)dx é um integral de uma função não negativa e é sempre convergente,

então a P (X ∈ I), corresponde ao valor da área entre o eixo das abcissas e o gráfico da função

f no intervalo I considerado. Consequentemente P (X = x) = 0, ∀x ∈ R e

P (x

1

≤ X ≤ x

2

) = P (x

1

< X ≤ x

2

) = P (x

1

≤ X < x

2

) = P (x

1

< X < x

2

),

∀ x

1

≤ x

2

.

Observação: Por definição, F

0

(x) = f (x), nos pontos onde existe derivada. Se não existir

derivada, f (x) = 0.

2.4 Momentos

Qualquer variável aleatória possui algumas características numéricas importantes. As mais

conhe-cidas são o valor médio e a variância. Nesta secção vamos estudar outras características mais

gerais: os Momentos.

Definição 2.12 (Valor médio). O valor médio, valor esperado ou simplesmente média da v.a.

X é dado por,

µ = E(X) =

       ∞ P i=1

x

i

P (X = x

i

)

se X é uma v.a. discreta;

+∞

R

−∞

xf (x)dx

se X é uma v.a. contínua;

desde que a série/integral seja absolutamente convergente.

Definição 2.13 (Valor médio de uma função de uma variável aleatória). Seja X uma v.a. e

g uma função real de variável real contínua com quanto muito um conjunto numerável de pontos

de descontinuidade. Então o valor médio de Y = g(X) é dado por:

E(g(X)) =

       ∞ P i=1

g(x

i

)P (X = x

i

)

se X é uma v.a. discreta;

+∞

R

−∞

g(x)f (x)dx

se X é uma v.a. contínua;

desde que a série/integral seja absolutamente convergente.

Exemplo 2.14. Considere a variável aleatória introduzida no Exemplo 2.2. Os valores médios de

X e g(X) = X

2

, são respectivamente:

E(X) = 0 ×

1₄

+ 1 ×

1₂

+ 2 ×

1₄

= 1,

E(g(X)) = E(X

2

) = 0

2

×

1 4

+ 1

2

_×

1 2

+ 2

2

_×

1 4

=

3 2

.

(19)

2.4. MOMENTOS

13 Propriedades do valor esperado:

1. Se a é uma constante, E(a) = a;

2. Se a e b são constantes, E(aX + b) = aE(X) + b.

3. Se existirem E(g

1

(X)) e E(g

2

(X)), então

E(g

1

(X) + g

2

(X)) = E(g

1

(X)) + E(g

2

(X)).

Definição 2.15 (Momentos de ordem k). Seja X uma variável aleatória. Definem-se momentos

de ordem k em torno da origem por:

m

k

= E(X

k

),

e os momentos centrais de ordem k de X por:

µ

k

= E((X − µ)

k

),

desde que os valores esperados existam.

Definição 2.16 (Variância e desvio padrão). A variância da v.a. X, σ

2

ou V (X), é o momento

central de ordem dois, isto é,

σ

2

= V (X) = E((X − µ)

2

),

desde que exista o valor esperado de (X − µ)

2

. À sua raiz quadrada positiva, σ =

p

V (X),

chamamos desvio padrão da v.a. X.

Proposição 2.17. Se X é uma v.a., para a qual existe variância, V (X) = E X

2

−E

2

_(X).

Propriedades da Variância:

1. Se a é uma constante, V (a) = 0;

2. Se a e b são constantes, V (aX + b) = a

2

_{V (X).}

Exemplo 2.18. Considere a variável aleatória introduzida no Exemplo 2.2. A variância de X é:

V (X) = E((X − 1)

2

) = (0 − 1)

2

×

1 4

+ (1 − 1)

2

_×

1 2

+ (2 − 1)

2

_×

1 4

=

1 2

.

(20)

Teorema 2.19 (Desigualdade de Chebychev). Se X é uma v.a. para a qual existe variância

σ

2

e c > 0 é uma constante real positiva, então

P (|X − µ| ≥ cσ) ≤

1 c

2

⇔

P (|X − µ| < cσ) ≥ 1 −

1 c

2

.

Exemplo 2.20 (Desigualdade de Chebychev). Para c = 2, podemos dizer que a probabilidade

da v.a. X assumir valores no intervalo ]µ − 2σ, µ + 2σ[ é superior a 1 − 1/4 = 0.75.

Observação: A generalidade da Desigualdade de Chebychev impede-a de ser muito precisa.

2.5 Outros parâmetros relevantes

Definição 2.21 (Coeficiente de variação). Seja X uma v.a. com suporte não negativo. O

Coeficiente de variação de X é,

CV =

σ

µ

× 100%.

Definição 2.22 (Coeficiente de Simetria). O Coeficiente de simetria, de uma v.a. X, é definido

por

β

1

=

µ

3

σ

3

.

Definição 2.23 (Coeficiente de achatamento ou Kurtosis). Define-se o coeficiente de

achata-mento ou kurtosis como

β

2

=

µ

4

σ

4

− 3.

Definição 2.24 (Quantil). O quantil de ordem p, χp

, da v.a. X é a solução da equação:

F (χ

p

) = p,

0 < p < 1.

Se X é uma v.a. discreta, a equação F (χ

p

) = p pode não ter solução exacta. Neste caso

considera-se χ

p

= min{x : F (x) ≥ p}.

Definição 2.25 (Mediana). Trata-se do quantil de ordem p = 1/2. Costuma-se representar a

mediana, da v.a. X, por med(X).

Definição 2.26 (Moda). A Moda, representada por mo, é o valor que maximiza a função de

probabilidade ou a função densidade probabilidade, desde que seja único.

(21)

2.6. FUNÇÕES DE UMA VARIÁVEL ALEATÓRIA

15

2.6 Funções de uma variável aleatória

Existem muitas formas de criar novas variáveis aleatórias, a partir de outras já conhecidas. Muitas

destas variáveis aparecem de forma natural com a resolução de problemas. Assim, sejam X e Y

variáveis aleatórias tais que Y é função de X (Y = g(X)). Interessa-nos saber como conhecer a

distribuição de Y . Para isso basta conhecer a sua função de distribuição, F

Y

. Independentemente

de X ser uma v.a. discreta ou contínua, podemos sempre obter a sua função de distribuição do

seguinte modo:

F

Y

(y) = P (Y ≤ y) = P (g(X) ≤ y) = P (A

y

),

onde A

y

= {x ∈ D

x

: g(x) ≤ y}. Geralmente consegue-se calcular P (A

y

), a partir da função de

distribuição de X, F

X

.

Exemplo 2.27. Considere a v.a. X com função de distribuição,

F

X

(x) =

    

0,

x ≤ 0

5x

4

− 4x

3

_,

_{0 < x < 1}

1,

x ≥ 1

Estamos interessados em conhecer a distribuição das v.a.’s Y = 2X − 1 e W = X

2

_{. Comecemos}

por determinar a f.d. da v.a. Y :

F

Y

(y) = P (Y ≤ y) = P (2X − 1 ≤ y) = P (X ≤

y+1₂

) = F

X

(

y+1₂

) =

=

    

0,

y+1₂

≤ 0

5

y+1₂ 4

− 4

y+1₂ 3

,

0 <

y+1₂

< 1

1,

y+1₂

≥ 1

=

    

0,

y ≤ −1

5

y+1₂ 4

_{− 4}

y+1 2 3

,

−1 < y < 1

1,

y ≥ 1

Determinemos agora a função de distribuição de W . É obvio que se w < 0, F

W

(w) = 0. Se

w ≥ 0,

F

W

(w) = P (W ≤ w) = P (−

√

w ≤ X ≤

√

w) = F

X

(

√

w) − F

X

(−

√

w) = F

X

(

√

w) =

=

(

5 √

w

4

− 4

√

w

3

,

0 ≤

√

w < 1

1,

√

w ≥ 1

=

(

5w

2

− 4w

3/2

_,

_{0 ≤ w < 1}

1,

w ≥ 1

A procedimento, acima indicado, é válido quer X seja uma v.a. contínua ou uma v.a. discreta.

Contudo no caso de X ser uma v.a. discreta, Y = g(X) é também uma v.a. discreta. Nesta

situação podemos também conhecer de distribuição de Y a partir da sua função de probabilidade.

(22)

Assim, seja D

x

o suporte de X, isto é, o conjunto dos valores de X com probabilidade positiva.

Então,

P (Y = y) = P (g(X) = y) = P (X ∈ A

y

),

onde A

y

= {x ∈ D

x

: g(x) = y}.

Exemplo 2.28. Considere novamente a variável aleatória introduzida no Exemplo 2.2 e a nova

variável aleatória Y = (X − 1)

2

. Sendo X uma v.a. discreta, concluímos que Y é também uma

v.a. discreta. Como X tem como suporte os valores 0, 1,e 2, o suporte de Y é o conjunto dos

valores 0 e 1. Resulta que

P (Y = 0) = P ((X − 1)

2

= 0) = P (X = 1) =

1₂

,

P (Y = 1) = P ((X − 1)

2

= 1) = P (X − 1 = −1 ∨ X − 1 = 1) =

= P (X = 0) + P (X = 2) =

1₄

+

1₄

.

Então a função de probabilidade de Y é

Y

(

0

1

1 2 1 2

(23)

Capítulo 3

Vectores aleatórios

Sejam X

1

, X

2

, . . . , X

m

m variáveis aleatórias.

Então X = (X

1

, X

2

, . . . , X

m

) é um vector

aleatório de dimensão m. Vamos restringir-nos apenas aos pares aleatórios (X, Y ) = (X

1

, X

2

),

isto é, aos vectores aleatórios com m = 2. Estes podem ser do tipo discreto, contínuo ou misto,

conforme X e Y são v.a. de tipo discreto, contínuo ou uma discreta e a outra contínua.

Definição 3.1 (Função de distribuição conjunta). Seja (X, Y ) um par aleatório. A função de

de distribuição de (X, Y ) é:

F

X,Y

(x, y) = P (X ≤ x, Y ≤ y),

∀(x, y) ∈ R

2

.

3.1 Par aleatório discreto

Definição 3.2 (Par aleatório discreto). Diz-se que (X, Y ) é um par aleatório discreto se e só

se X e Y são variáveis aleatórias discretas.

Definição 3.3 (Função de probabilidade conjunta). Seja (X, Y ) um par aleatório discreto

tomando valores no conjunto D = {(x

i

, y

j

) ∈ R

2

: P (X = x

i

, Y = y

j

) > 0}. Chamamos função

de probabilidade conjunta (f.p.c.) de (X, Y ) à função:

p

ij

= P (X = x

i

, Y = y

j

), i = 1, 2, . . . , j = 1, 2, . . .

Propriedades da função de probabilidade conjunta:

1. 0 ≤ p

ij

≤ 1, ∀(x

i

, y

j

) ∈ D;

2.

X i X j

p

ij

= 1

Observação: Quando o conjunto D é finito e pequeno é costume representar a f.p.c. numa

tabela, idêntica à que a seguir se apresenta:

(24)

X\Y

y

1

y

2

. . .

y

n

x

1

p

11

p

12

. . .

p

1n

p

1•

x

2

p

21

p

22

. . .

p

2n

p

2•

..

.

..

.

..

.

. ..

..

.

..

.

x

m

p

m1

p

m2

. . .

p

mn

p

m•

p

•1

p

•2

. . .

p

•m

1 Definição 3.4 (Função de probabilidade marginal). Define-se função de probabilidade marginal

de X e função de probabilidade marginal de Y como:

p

i•

=

P (X = x

i

) =

∞ X j=1

P (X = x

i

, Y = y

j

) =

∞ X j=1

p

ij

,

i = 1, 2, . . .

p

•j

=

P (Y = y

j

) =

∞ X i=1

P (X = x

i

, Y = y

j

) =

∞ X i=1

p

ij

,

j = 1, 2, . . .

Definição 3.5 (Função de probabilidade condicional). Seja (X, Y ) um par aleatório discreto.

Define-se probabilidade condicional de X dado Y = y

j

como,

P (X = x

i

|Y = y

j

) =

P (X = x

i

, Y = y

j

)

P (Y = y

j

)

=

p

ij

p

•j

,

se

P (Y = y

j

) > 0,

e probabilidade condicional de Y dado X = x

i

como

P (Y = Y

j

|X = X

i

) =

P (X = x

i

, Y = y

j

)

P (X = x

i

)

=

p

ij

p

i•

,

se

P (X = x

i

) > 0.

Definição 3.6 (Independência entre variáveis aleatórias discretas). As v.a.’s X e Y dizem-se

independentes se, e só se, p

ij

= p

i•

p

•j

,

∀i, j.

Exemplo 3.7. Seja (X, Y ) um par aleatório discreto com a seguinte f.p.c.:

X \ Y 0 1 2

0 1/4 1/8 0 3/8 1 1/8 1/8 1/8 3/8

2 0 0 1/4 1/4

3/8 1/4 3/8

(a) Qual a probabilidade de X ser maior que Y ?

(Solução: 1/8)

(b) Calcule P (X ≤ 1; Y > 0).

(Solução: 3/8)

(c) X e Y são v.a.’s independentes?

(Solução: X e Y não são independentes)

(25)

3.2. PAR ALEATÓRIO CONTÍNUO

19

3.2 Par aleatório contínuo

Definição 3.8 (Par aleatório contínuo). Um par aleatório (X, Y ) diz-se contínuo se existe uma

função não negativa f

X,Y

tal que, tal que, para qualquer região I ⊂ R

2

,

P ((X, Y ) ∈ I) =

Z Z

I

f

X,Y

(u, v)dudv.

A f

X,Y

chamamos função densidade probabilidade conjunta ou função densidade conjunta.

Propriedades da função densidade probabilidade conjunta:

1. f

X,Y

(x, y) ≥ 0,

∀(x, y) ∈ R

2

;

2.

R+∞

−∞

R+∞

−∞

f

X,Y

(x, y)dxdy = 1.

Definição 3.9 (Função densidade de probabilidade marginal). Define-se a função densidade

de probabilidade marginal de X, como:

f

X

(x) =

Z +∞

−∞

f

(X,Y )

(x, y) dy,

_{∀x ∈ R}

De modo análogo obtêm-se a função densidade de probabilidade marginal de Y ,

f

Y

(y) =

Z +∞

−∞

f

_{(X,Y )}

(x, y) dx,

_{∀y ∈ R}

Definição 3.10 (Função densidade condicional). Em todos os pontos (x, y) onde fX,Y

é

contínua, f

Y

(y) > 0 e é contínua, a função densidade condicional de X, dado Y = y, existe e

calcula-se como:

f

X|Y

(x|y) =

f

X,Y

(x, y)

f

Y

(y)

.

De modo análogo, em todos os pontos (x, y) onde f

X,Y

é contínua, f

X

(x) > 0 e é contínua, a

função densidade condicional de Y , dado X = x, existe e calcula-se como:

f

Y |X

(y|x) =

f

X,Y

(x, y)

f

X

(x)

.

Definição 3.11 (Independência entre variáveis aleatórias contínuas). Seja (X, Y ) um par

aleatório contínuo. As variáveis X e Y dizem-se independentes se e só se

(26)

Exemplo 3.12. Os tempos de vida, em centenas de horas, das duas componentes principais de

um sistema de controlo são v.a.’s (X, Y ) com função densidade conjunta

f

X,Y

(x, y) =

(

cx

2

y

0 < x < 3 , 0 < y < 2

0 _{outros valores de (x, y) ∈ R}

2

(a) Qual o valor de c?

f

X,Y

(x, y) ≥ 0,

∀ (x, y) ∈ R

2

⇒ c ≥ 0

Z +∞ −∞ Z +∞ −∞

f

X,Y

(x, y) dxdy = 1

⇔

Z 2 0 Z 3 0

cx

2

y dx

dy = 1 ⇔ c =

1

18 (b) Qual a probabilidade de cada uma das componentes durar mais de 100 horas?

P (X > 1, Y > 1)

=

Z 2 1 Z 3 1

1

18 x

2

_{y dxdy =}

13

18 (c) Qual a probabilidade da 1

a

componente durar mais de 100 horas?

Como fX(x) = R+∞ −∞ f(X,Y )(x, y) dy = R2 0 1 18x 2_{y dy =} x2 9, 0 < x < 3, resulta que: P (X > 1) = Z 3 1 fXdx = Z 3 1 x2 9 dx = 26 27

(d) Os tempos de vida das componentes são independentes?

Como fY (y) = y/2 0 < y < 2 0 o. v. de y fX(x) = x2/9 0 < x < 3 0 o. v. de x f (x, y) = 1 18x 2_y _{0 < x < 3, 0 < y < 2} 0 o. v. (x, y) = fX(x) fY (y)

Conclui-se que X e Y são v.a.’s independentes.

3.3 Momentos de vectores aleatórios

Definição 3.13 (Valor médio). Seja (X, Y ) um par aleatório e g : R

2

→ R uma função real.

Define-se valor médio ou valor esperado ou média de g(X, Y ) como:

E(g(X, Y )) =

         ∞ P i=1 ∞ P j=1

g(x

i

, y

j

)p

ij

se X e Y são v.a.’s discretas;

+∞ R −∞ +∞ R −∞

g(x, y)f

X,Y

(x, y)dxdy

se X e Y são v.a.’s contínuas.

Nota: Uma das funções mais utilizadas é g(x, y) = xy, obtendo-se:

E(XY ) =

         ∞ P i=1 ∞ P j=1

x

i

y

j

p

ij

se X e Y são v.a.’s discretas;

+∞ R −∞ +∞ R −∞

(27)

3.3. MOMENTOS DE VECTORES ALEATÓRIOS

21 Definição 3.14 (Covariância). Sendo µX

= E(X) e µ

Y

= E(Y ), define-se covariância entre

as v.a.’s X e Y por:

Cov (X, Y ) = E [(X − µ

X

) (Y − µ

Y

)] .

Proposição 3.15. Caso exista a covariância entre X e Y , esta pode ser calculada através da

fórmula:

Cov (X, Y ) = E (XY ) − E (X) E (Y ) .

Outras propriedades do valor médio e variância:

1. E(X ± Y ) = E(X) ± E(Y );

2. V (X ± Y ) = V (X) + V (Y ) ± 2 Cov(X, Y ).

Proposição 3.16. Se X e Y são independentes, então E(XY ) = E(X)E(Y ), e

consequente-mente Cov(X, Y ) = 0.

Propriedades da Covariância: Sejam X, Y , e Z v.a.’s, a, b e c constantes

reais. Então:

1. Cov(X, Y ) = Cov(Y, X);

2. Cov(X, X) = V (X);

3. Cov (a + bX, c + dY ) = bd Cov (X, Y );

4. Cov (aX + bY, cZ) = ac Cov (X, Z) + bc Cov (Y, Z).

Definição 3.17 (Coeficiente de correlação). Define-se coeficiente de correlação de (X, Y ) por

ρ (X, Y ) =

p

Cov (X, Y )

V (X) V (Y )

.

Propriedades do coeficiente de correlação:

1. −1 ≤ ρ (X, Y ) ≤ 1;

(28)

(29)

Capítulo 4

Principais Distribuições

4.1 Distribuições discretas

4.1.1 Distribuição Uniforme

Definição 4.1 (Distribuição Uniforme Discreta). Dizemos que a variável aleatória X segue uma

distribuição Uniforme Discreta de parâmetro n e escrevemos X ∼ U nif (n), ou abreviadamente,

X ∼ U (n), se a função de probabilidade de X é dada por:

X

(

1

2 . . .

n

1 n 1 n

. . .

1 n

ou

P (X = x) =

1 n

,

x = 1, . . . , n.

A respectiva função de distribuição é:

F (x) =

        

0,

x < 1

k n

,

k ≤ x < k + 1,

k = 1, . . . , n − 1

1,

x ≥ n

.

Proposição 4.2 (Valor médio e Variância). Considere a v.a. X ∼ U nif (n). Então,

E(X) =

n + 1

2 e

V (X) =

n

2

− 1

12 .

Demonstração.

1

E(X) =

n X x=1

x

1 n

=

1 n

n X x=1

x =

1 n

×

n(n + 1)

2 =

n + 1

2 .

Para calcular a variância, é mais fácil utilizar o resultado V (X) = E(X

2

_{) − E}

2

_{(X). Assim,}

E(X

2

) =

n X x=1

x

2

1 n

=

1 n

n X x=1

x

2

=

1 n

×

n(n + 1)(2n + 1)

6 =

(n + 1)(2n + 1)

6 .

Logo V (X) =

(n+1)(2n+1)₆

−

n+1 2 2

=

n2₁₂−1

.

1

Utilizam-se aqui os resultados, 1 + 2 + 3 + . . . + n = n(n+1)₂ e 12+ 22+ 32+ . . . + n2=n(n+1)(2n+1)₆ , n ∈ N,

que se podem confirmar por Indução Matemática.

(30)

4.1.2 Distribuição de Bernoulli

Definição 4.3 (Prova de Bernoulli). Trata-se de um experiência aleatória com apenas dois

resultados possíveis (que se costumam designar por “Sucesso” ou “Insucesso”).

Definição 4.4 (Distribuição de Bernoulli). É sempre possível definir uma variável aleatória X

que toma o valor 1 se o resultado da experiência é “Sucesso” e 0 se é “Insucesso”. Denotando

p = P (“Sucesso”) > 0, então a função de probabilidade de X é dada por:

X

(

0

1 1 − p

p

ou

P (X = x) = p

x

_{(1 − p)}

1−x

_,

_{x = 0, 1,}

_{0 < p < 1.}

Dizemos que a v.a.

X segue uma distribuição de Bernoulli, de parâmetro p, e escrevemos

X ∼ Ber(p).

Proposição 4.5. Seja a v.a. X ∼ Ber(p). Então

E(X) = p

e

V (X) = p(1 − p).

4.1.3 Distribuição Binomial

Definição 4.6 (Distribuição Binomial). Considere-se uma sucessão de provas de Bernoulli

in-dependentes, onde em cada prova a probabilidade de “sucesso”, p, é constante. A v.a. X=

“número de sucessos em n provas de Bernoulli” segue uma distribuição Binomial de parâmetros

n e p, e escrevemos X ∼ Bin(n, p). A função de probabilidade é:

P (X = x) =

n

x

!

p

x

(1 − p)

n−x

,

x = 0, 1, . . . , n,

0 < p < 1.

0 1 2 3 4 0.0 0.1 0.2 0.3 0.4 0.5 Bin(n=4 , p=0.25) x P(X=k) 0 1 2 3 4 0.0 0.1 0.2 0.3 0.4 0.5 Bin(n=4 , p=0.5) x P(X=k) 0 1 2 3 4 0.0 0.1 0.2 0.3 0.4 0.5 Bin(n=4 , p=0.75) x P(X=k)

(31)

4.1. DISTRIBUIÇÕES DISCRETAS

25 Observação: Pela definição anterior, temos que X = I

1

+ I

2

+ . . . + I

n

, onde I

i

, i = 1, . . . , n

são v.a.’s independentes com distribuição Ber(p).

Proposição 4.7. Seja X uma variável aleatória com distribuição Bin(n, p). Então a nova v.a.

Y = n − X tem distribuição Bin(n, 1 − p).

Proposição 4.8 (Valor médio e Variância). Considere a v.a. X ∼ Bin(n, p). Então,

E(X) = np

e

V (X) = np(1 − p).

Demonstração. A demonstração torna-se mais simples se usarmos a representação X = I

1

+ I

2

+

. . . + I

n

, introduzida na última observação. Assim,

E(X) = E(I

1

+ I

2

+ . . . + I

n

) = E(I

1

) + E(I

2

) + . . . + E(I

n

) = p + p + . . . + p = np.

Atendendo à independência das variáveis I

i

,

V (X) = V (I

1

+ I

2

+ . . . + I

n

) = V (I

1

) + V (I

2

) + . . . + V (I

n

) = np(1 − p).

Exemplo 4.9 (Exame de P.E. D - 2007/08). Num concurso de televisão o apresentador propõe ao

concorrente o seguinte jogo: atiram-se ao ar 3 moedas, em simultâneo, e se todos os lançamentos

resultarem em caras o apresentador dá 10

e ao concorrente; Se todos os lançamentos resultarem

em coroas o apresentador dá igualmente ao concorrente 10

e. Mas se os lançamentos resultarem

em 2 caras e 1 coroa ou em 2 coroas e 1 cara, o concorrente tem de dar ao apresentador 5

e.

(a) Represente X a quantidade de dinheiro ganha pelo concorrente. Determine a sua função

de probabilidade.

(b) Baseado no valor esperado de X, diga se o concorrente deve aceitar jogar este jogo.

Resolução:

(a) Considere a v.a. Y: “número de caras obtidas em 3 lançamentos de uma moeda

(equili-brada)”. Então como em cada lançamento o resultado é cara (sucesso) ou coroa (insucesso)

e os resultados dos lançamentos são mutuamente independentes, Y ∼ Bin(3, 1/2).

Como P (X = −5) = P (Y = 1) + P (Y = 2) = 3/4 e P (X = 10) = P (Y = 0) + P (Y =

3) = 1/4, resulta a seguinte função de probabilidade:

X

−5 10 3/4 1/4

(32)

Proposição 4.10 (Aditividade). Sejam Xi

, i = 1, . . . , m, m v.a.’s independentes tais que

X

i

∼ Bin(n

i

, p). Então a sua soma tem também distribuição Binomial, isto é,

S

m

=

m X i=1

X

i

∼ Bin(n

1

+ . . . + n

m

, p).

4.1.4 Distribuição Geométrica

Definição 4.11 (Distribuição Geométrica). Considere-se uma sucessão de provas de Bernoulli

independentes, onde em cada prova a probabilidade de “sucesso”, p, é constante. A v.a. X=

“número de provas necessárias até ocorrer o primeiro sucesso” segue uma distribuição Geométrica

de parâmetro p, e escrevemos X ∼ G(p). A função de probabilidade é:

P (X = x) = p(1 − p)

x−1

,

x = 1, 2, . . . ,

0 < p < 1.

Observação: O nome desta distribuição deve-se ao facto da sucessão das probabilidades ser uma

progressão geométrica de razão 1 − p.

0 5 10 15 20 0.0 0.1 0.2 0.3 0.4 0.5 G(0.25) x P(X=k) 0 5 10 15 20 0.0 0.1 0.2 0.3 0.4 0.5 G(0.5) x P(X=k)

Figura 4.2: Gráficos da função de probabilidade de uma v.a. G(p), para alguns valores de p.

Proposição 4.12 (Valor médio e Variância). Considere a v.a. X ∼ G(p). Então,

E(X) =

1 p

e

V (X) =

1 − p

p

2

Demonstração. O cálculo do valor médio e da variância é mais fácil se usarmos alguns dos

re-sultados das séries de funções: Assim seja S(r) =

P∞

k=0

r

k

uma série geométrica de razão r.

Resulta que:

1. S(r) =

∞ P k=0

r

k

=

_1−r1

,

|r| < 1;

2. S

0

(r) =

∞ P k=1

kr

k−1

=

_(1−r)1 2

,

|r| < 1;

(33)

4.1. DISTRIBUIÇÕES DISCRETAS

27 3. S

00

(r) =

∞ P k=2

k(k − 1)r

k−2

=

_(1−r)2 3

,

|r| < 1.

Assim,

E(X) =

∞ X x=1

x p(1 − p)

x−1

= p S

0

(1 − p) = p

_p12

=

1_p

.

Para se conseguir calcular a variância, de um modo mais fácil, usa-se mais uma vez o resultado

V (X) = E(X

2

) − E

2

(X). Tem-se,

E(X

2

) =

∞ X x=1

x

2

p(1 − p)

x−1

=

∞ X x=1

x(x − 1 + 1) p(1 − p)

x−1

=

∞ X x=1

x(x − 1) p(1 − p)

x−1

+

∞ X x=1

x p(1 − p)

x−1

=

= p(1 − p)

∞ X x=2

x(x − 1) (1 − p)

x−2

+ E(X) = p(1 − p)S

00

(1 − p) + E(X) =

= p(1 − p)

_p23

+

1_p

=

2(1−p)+p p2

=

2−p p2

Então,

V (X) =

2−p_p2

−

_p12

=

1−p p2

.

Proposição 4.13. Temos que F (x) = P (X ≤ x) = 1 − (1 − p)

[x]

_{, x ≥ 1, onde [x] representa a}

parte inteira de x;

Como as provas de Bernoulli são independentes, a contagem do número de provas necessárias

até ao proximo sucesso pode ser recomeçada em qualquer prova, sem que isso altere a distribuição

da variável aleatória.

Proposição 4.14 (Propriedade da falta de memória da distribuição Geométrica). Seja

X ∼ G(p). Sendo x e y inteiros positivos,

P (X > x + y|X > y) = P (X > x).

4.1.5 Distribuição Hipergeométrica

Definição 4.15 (Distribuição Hipergeométrica). Considere-se uma população de N

elemen-tos, dos quais M possuem determinada característica e os restantes (N − M ) não a possuem

(dicotomia). Considere-se a experiência aleatória que consiste em seleccionar ao acaso e sem

reposição n elementos (amostra). Associada a esta experiência aleatória, defina-se a v.a. X - n

o

(34)

de elementos com a característica, entre os seleccionados sem reposição. Esta v.a. X tem uma

função de probabilidade,

P (X = x) =

M x N −M n−x N n

,

max(0, M + n − N ) ≤ x ≤ min(M, n),

e diz-se ter distribuição Hipergeométrica de parâmetros (N, M, n) (pode ser escrito

abreviada-mente X ∼ H(N, M, n)).

Proposição 4.16 (Valor médio e Variância). Seja a v.a. X ∼ H(N, M, n). Então:

E(X) = n

M_N

e

V (X) = n

_N2_{(N −1)}M

(N − M )(N − n).

Exemplo 4.17. Num aquário existem 9 peixes, dos quais 5 estão saudáveis (S) e os restantes 4

estão doentes (D). Considere-se a experiência aleatória: extracção ao acaso e sem reposição de

3 peixes e registo do seu estado de saúde. Associada a esta experiência, considerese a v.a. X

-número de peixes saudáveis na amostra extraída de 3 peixes. Quantos peixes saudáveis esperamos

encontrar em cada extracção?

Resposta: Como X ∼ H(9, 5, 3), o número de peixes saudáveis, que esperamos encontrar em

cada extracção de 3 peixes, é E(X) = 5/3.

Nota: Em situações em que se conhece totalmente a composição da população e há apenas dois

resultados possíveis, a distribuição Binomial caracteriza extracções com reposição. Se não houver

reposição, a distribuição adequada é a Hipergeométrica. Quando n é pequeno, relativamente

ao valor de N , a probabilidade de sucesso em cada tiragem sem reposição varia muito pouco

de prova para prova (na distribuição Binomial este valor é constante). Este argumento

permite-nos aproximar o(s) valor(es) da(s) probabilidade(s) pela distribuição Hipergeométrica, pelo(s)