Apontamentos Teóricos de Probabilidades e Estatística

(1)

UNIVERSIDADE DA BEIRA INTERIOR

Apontamentos Te´

oricos

de

Probabilidades e Estat´ıstica

Jorge Gama

(2)

Cap´ıtulo 1

Teoria das Probabilidades

1.1 Introdu¸c˜

ao

Na Estat´ıstica Descritiva descreveram-se e analisaram-se conjuntos de observa¸cões relativas a fenómenos aleató-rios. Neste campo os conceitos estat´ısticos estabelecidos eram emp´ıricos. Embora esse estudo seja importante, é sem dúvida limitado quando se pretende analisar e interpretar ou tomar decisões no contexto dos fenómenos em estudo.

Neste cap´ıtulo estudaremos as no¸cões básicas da Teoria das Probabilidades, teoria esta que é o suporte sobre a qual assenta a teoria da análise, interpreta¸cão e tomadas de decisão no contexto do estudo dos fenómenos aleatórios, isto é, a Inferência Estat´ıstica

A Teoria das Probabilidades (ou cálculo das probabilidades) pode caracterizar-se como o modelo matemático das “regularidades”que se observam nas distribui¸cões de frequências correspondentes aos fenómenos aleatórios

Todo o modelo matem´atico parte de determinadas propriedades b´asicas: os axiomas.

No entanto, antes de abordarmos os axiomas da Teoria das Probabilidades ´e necess´ario introduzirmos/com-preendermos determinados conceitos.

Um fenómeno diz-se aleatório quando o acaso interfere na ocorrência de um ou mais dos resultados nos quais tal fenómeno se pode traduzir. Conjugando determinado número de condi¸cões, um resultado aleatório pode ocorrer ou não. Assim, um fenómeno aleatório caracteriza-se fundamentalmente pelo seguinte:

a) Pode ser repetido inúmeras vezes em idênticas condi¸cões.

b) Não se pode afirmar qual o resultado da realiza¸cão de uma repeti¸cão antes da sua realiza¸cão.

c) Apesar de os resultados das experiências se mostrarem irregulares, verifica-se que os resultados obtidos ao cabo de uma longa repeti¸cão da experiência apresentam regularidade estat´ıstica

Exemplos 1.1

1. Considere-se o lan¸camento ao ar de uma moeda e registo da face voltada para cima.

Observa¸cão 1.1 No caso de uma moeda perfeita, repetido o lan¸camento um número elevado de vezes verifica-se aproximadamente o mesmo número de faces e coroas, isto é, pode prever-se qual a propor¸cão de faces e coroas num grande número de lan¸camentos (regularidade estat´ıstica).

2. Lan¸camento de um dado e registo do n´umero de pontos obtidos.

3. Extrac¸c˜ao de uma carta de um baralho e registo das suas caracter´ısticas.

4. Seleçcão ao acaso de um habitante de uma cidade com o objectivo de conhecer as suas despesas mensais. 5. Observa¸cão do sexo de um recém-nascido numa série de nascimentos.

1.2 Espa¸co de Resultados

Defini¸c˜ao 1.1 O conjunto de todos os resultados poss´ıveis associados a uma experiˆencia aleat´oria

denomina-se espa¸co de resultados (ou espa¸co-amostra, ou espa¸co amostral, ou espa¸co universal, ou, ainda, espa¸co fundamental)

(3)

Nota¸c˜ao 1.1 O espa¸co de resultados associado a uma dada experiência aleatória será designado por Ω.

Qual-quer resultado individual ´e designado por ω (ω ∈ Ω).

Observa¸c˜ao 1.2 Os elementos de Ω podem ser números, sequências de números, atributos ou grupos de

atri-butos ou, ainda, uma combina¸c˜ao de elementos quantitativos e qualitativos.

Exemplos 1.2

1. No lan¸camento de uma moeda se designarmos por F a face e por C a coroa, o espa¸co de resultados ´e Ω = {F, C}.

2. No lan¸camento de um dado de seis faces existem seis resultados poss´ıveis. Designando por j, com j = 1, . . . , 6, o resultado que consiste na “apari¸cão da face com o número j de pontos”, o espa¸co de re-sultados é

Ω = {1, 2, 3, 4, 5, 6}.

3. No lan¸camento de uma moeda e de um dado, o espa¸co de resultados poder´a ser descrito por: Ω = {F 1, F 2, F 3, F 4, F 5, F 6, C1, C2, C3, C4, C5, C6}.

1.3 Acontecimentos Aleat´

orios

Defini¸c˜ao 1.2 Os subconjuntos de Ω designam-se por acontecimentos. Nota¸c˜ao 1.2

1. Os acontecimentos ser˜ao designados por letras mai´usculas (A, B, C, . . . , A1, A2, . . . ).

2. Representaremos por P(Ω) as partes de Ω, isto ´e, o conjunto de todos o acontecimentos de Ω. Observa¸c˜oes 1.3

1. Obviamente, Ω ´e um acontecimento (dito acontecimento certo) ( Ω ∈ P(Ω)).

2. Ao acontecimento formado por um ´unico elemento ({ω}) damos a designa¸c˜ao de acontecimento elemen-tar.

3. O acontecimento ∅ denomina-se de acontecimento imposs´ıvel ( ∅ ∈ P(Ω)). Exemplo 1.3 No lan¸camento de duas moedas

Ω = {(F, F ), (F, C), (C, F ), (C, C)}

ou, simplesmente,

Ω = {F F, F C, CF, CC} .

Acontecimentos elementares: {F F }, {F C}, {CF } e {CC}. Outros acontecimentos:

A = {F C, CF } ≡ sa´ıda de exactamente uma face (ou de exactamente uma coroa); B = {F F, F C} ≡ sa´ıda de face na 1a _moeda;

C = {F C, CF, CC} ≡ sa´ıda de pelo menos uma coroa

1.3.1 Principais Conceitos da ´

Algebra de Acontecimentos

Como, por defini¸cão, os acontecimentos são conjuntos, podemos concluir que existe paralelismo entre a álgebra dos conjuntos e a álgebra dos acontecimentos. Assim, podemos usar os s´ımbolos: ⊂, ⊃, ⊆, ⊇, =, ∪, ∩, \, etc.

Quest˜

oes de Linguagem

Quando se diz que um acontecimento ocorre (se realiza) é porque se observou a ocorrência (realiza¸cão) de um seu elemento no contexto de uma experiência aleatória. Por exemplo, no lan¸camento de um dado de seis faces, se a face voltada para cima era o elemento 2, então o acontecimento {1, 2, 3} ocorreu.

(4)

1) A ocorrência (realiza¸cão) de A implica a ocorrência de B se, e somente se, todo o elemento de A é elemento de B. Escreve-se, então, A ⊂ B.

2) A e B são idênticos se, e somente se, a ocorrência de um implica a ocorrência do outro, isto é, A ⊂ B e

B ⊂ A. Escreve-se A = B.

3) Interseçcão ou produto l´ogico de A por B é o acontecimento que ocorre se, e somente se, A e B ocorrem simultaneamente. Representa-se este acontecimento por A ∩ B (ou AB).

4) Reuni˜ao entre os acontecimentos A e B ´e o acontecimento que ocorre se, e somente se, A ou B ocorre, isto ´e, pelo menos um deles. Representa-se este acontecimento por A ∪ B.

5) A e B dizem-se incompat´ıveis se, e somente se, a ocorrência de um deles implica a não ocorrência do outro, isto é, A ∩ B = ∅.

Os acontecimentos A1, A2, . . . , An dizem-se mutuamente exclusivos se, e somente se, Ai∩ Aj= ∅, para

i 6= j.

6) Diferen¸ca entre B e A ´e o acontecimento que ocorre se, e somente se, B ocorre sem que ocorra A. Representa-se por B \ A (ou B − A).

7) Quando A ⊂ B, B \ A ´e o acontecimento complementar de A em rela¸c˜ao a B.

Em particular, Ω\A designa-se por acontecimento complementar (contrário) de A e ocorre se, e somente se, A não ocorre. É usual representar-se por A.

Nota: A ∩ A = ∅ e A ∪ A = Ω.

8) Diferen¸ca sim´etrica entre A e B é o acontecimento que ocorre se, e somente se, ou ocorre A ou ocorre B, isto é, ocorre um e um só dos acontecimentos, ou ainda, ocorre A ou B, mas não simultaneamente os dois. Este acontecimento representa-se por A∆B e A∆B = (A \ B) ∪ (B \ A) = (A ∪ B) \ (A ∩ B).

(5)

Proposi¸c˜oes 1.1 Sejam Ω um espa¸co de resultados associado a uma dada experiˆencia aleat´oria e

A, B, C ∈ Ω.

1. A opera¸cão reunião (resp. interseçcão) é associativa:

A ∪ (B ∪ C) = (A ∪ B) ∪ C (A ∩ (B ∩ C) = (A ∩ B) ∩ C) .

2. A opera¸cão reunião (resp. interseçcão) é comutativa:

A ∪ B = B ∪ A (A ∩ B = B ∩ A) .

3. A opera¸cão reunião (resp. interseçcão) é distributiva relativamente à opera¸cão interseçcão (resp. reunião):

A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)) .

4. A opera¸cão reunião (resp. interseçcão) é idempotente:

A ∪ A = A (A ∩ A = A) .

5. i) A ⊂ B ⇒ A ∪ B = B ii) A ⊂ B ⇒ A ∩ B = A.

6. i) A ∪ Ω = Ω ii) A ∪ ∅ = A iii) A ∩ Ω = A iv) A ∩ ∅ = ∅. 7. Leis de De Morgan:

i) A ∪ B = A ∩ B ii) A ∩ B = A ∪ B. 8. A \ B = A ∩ B.

9. A = A.

10. i) (A ∩ B) ∪ (A ∩ B) = A ii) (A ∩ B) ∩ (A ∩ B) = ∅.

1.4 Axiomas da Teoria das Probabilidades

Defini¸c˜ao 1.3 Seja Ω um espa¸co de resultados associado a uma dada experiência aleatória. Chama-se proba-bilidade a uma fun¸cão P : P(Ω) −→ R que satisfaz os seguintes axiomas:

(A1) P (A) ≥ 0; para todo o acontecimento A. (A2) P (Ω) = 1;

(A3) Se A1, A2, A3, . . . , são acontecimentos mutuamente exclusivos, isto é, Ai∩ Aj= ∅, para i 6= j, então

P  [ i≥1 Ai   =X i≥1 P (Ai) .

Proposi¸c˜oes 1.2 Sejam Ω um espa¸co de resultados e A, B e C trˆes acontecimentos, quaisquer. 1. P¡A¢= 1 − P (A);

(6)

3. P (A \ B) = P (A) − P (A ∩ B); 4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B); 5. P (A ∪ B) ≤ P (A) + P (B); 6. A ⊆ B ⇒ P (A) ≤ P (B); 7. 0 ≤ P (A) ≤ 1; 8. P (A∆B) = P (A) + P (B) − 2P (A ∩ B); 9. P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).

1.5 Espa¸cos de Resultados Finitos. Defini¸c˜

ao Cl´

assica de

Probabi-lidade

Suponhamos que o espa¸co de resultados Ω é finito. Então Ω = {ω1, ω2, . . . , ωn}. Vamos admitir a hipótese de

equiprobabilidade, isto ´e, vamos admitir que

P ({ω1}) = P ({ω2}) = · · · = P {ωn}).

Assim, podemos deduzir que o valor comum destas probabilidades ´e 1

n. De facto tem-se P (Ω) = 1 ⇔ ⇔ P Ã _n [ i=1 {ωi} ! = 1 ⇔ n X i=1 P ({ωi}) = 1 ⇔ nP ({ωj}) = 1, para j = 1, . . . , n ⇔ P ({ωj}) = 1 n, para j = 1, . . . , n.

E para qualquer acontecimento A = {ωi1, ωi2, . . . , ωim}, obtemos, por processos an´alogos,

P (A) = m n.

Isto é, a probabilidade de um acontecimento é o quociente entre o número de resultados (casos) favoráveis à ocorrência do acontecimento e o número de resultados poss´ıveis considerados como equiprováveis (Regra Clássica de Laplace): P (A) = n o_{de casos favoráveis} no_{de casos poss´ıveis} = #A #Ω.

1.6 Probabilidades Condicionadas. Independˆ

encia

Defini¸c˜ao 1.4 Sejam Ω um espa¸co de resultados e A e B dois acontecimentos, em que P (B) > 0. A nova

fun¸c˜ao

P (A|B) = P (A ∩ B) P (B)

denomina-se probabilidade condicional (ou condicionada) de A (por B).

Observa¸c˜oes 1.4

1. Obviamente, com B fixo, P ( . |B) satisfaz os axiomas das probabilidades.

2. P (A|B) ≡ prob. de ocorrer A, dado que ocorreu B (ou prob. de A condicionada pela realiza¸c˜ao de B). Teorema 1.3 Sejam A1, A2, . . . , An acontecimentos tais que P (A1∩ A2∩ . . . ∩ An−1) > 0. Ent˜ao

(7)

Defini¸c˜ao 1.5 Dois acontecimentos A e B dizem-se independentes se, e somente se,

P (A ∩ B) = P (A) · P (B).

Dois acontecimentos são independentes se a probabilidade da ocorrência de um não afecta a probabilidade da ocorrência do outro. O teorema seguinte justifica esta afirma¸cão.

Teorema 1.4 Os acontecimentos A e B de probabilidade positiva s˜ao independentes se, e somente se,

P (A|B) = P (A) (ou P (B|A) = P (B)).

Defini¸c˜ao 1.6 Os acontecimentos A1, A2, . . . , An s˜ao mutuamente independentes se, e somente se, para todos

os inteiros i1, i2, . . . , ik, satisfazendo as condi¸c˜oes

1 ≤ i1< i2< i3< · · · < ik ≤ n,

se tem

P (Ai1∩ Ai2∩ . . . ∩ Aik) = P (Ai1)P (Ai2) · · · P (Aik).

Exemplo 1.4 Considerem-se 4 cartas numeradas de 1 a 4. Tira-se ao acaso uma carta e admita-se a hip´otese

de equiprobabilidade. Sejam:

E1= “a carta retirada ´e 1 ou 4”;

E2= “a carta retirada ´e 1 ou 3”;

E3= “a carta retirada ´e 1 ou 2”.

Observe-se que P (E1) = P (E2) = P (E3) = 1 2 e P (E1∩ E2) = 1 4 = 1 2× 1 2 = P (E1) · P (E2). Logo, E1 e E2 s˜ao independentes.

Analogamente, pode mostrar-se que E1 e E3 s˜ao independentes, assim como E2 e E3. No entanto, os trˆes

acontecimentos n˜ao s˜ao independentes, pois

P (E1∩ E2∩ E3) = 1 4 e P (E1) · P (E2) · P (E3) = 1 2× 1 2 × 1 2 = 1 8.

Teorema 1.5 (Teorema da Probabilidade Total) Sejam A1, A2, . . . , An acontecimentos mutuamente

ex-clusivos (Ai∩ Aj = ∅, para i 6= j) e exaustivos (∪ni=1Ai = Ω). Se P (Ai) > 0, para i = 1, . . . , n, ent˜ao, para

qualquer acontecimento B,

P (B) = P (B|A1) · P (A1) + P (B|A2) · P (A2) + · · · + P (B|An) · P (An)

=

n

X

i=1

P (B|Ai) · P (Ai).

Observa¸c˜ao 1.5 Quando os acontecimentos s˜ao mutuamente exclusivos e exaustivos ´e vulgar utilizar o termo parti¸c˜ao (de Ω) para os designar. Observe o diagrama seguinte:

(8)

Corol´ario 1.6 Seja A um acontecimento tal que 0 < P (A) < 1. Ent˜ao, para qualquer acontecimento B,

P (B) = P (B|A) · P (A) + P (B|A) · P (A).

Teorema 1.7 (Teorema de Bayes) Sejam A1, A2, . . . , An acontecimentos mutuamente exclusivos e

exausti-vos. Se P (Ai) > 0, para i = 1, . . . , n, e B ´e um acontecimento tal que P (B) > 0, ent˜ao

P (Aj|B) = _XnP (B|Aj) · P (Aj) i=1

P (B|Ai) · P (Ai)

, i = 1, 2, . . . , n.

(9)

(10)

Cap´ıtulo 2

Vari´

aveis Aleat´

orias Reais.

Distribui¸c˜

oes de Probabilidade

2.1 Defini¸c˜

ao de Vari´

avel Aleat´

oria

´

E sabido que numa experiência aleatória o espa¸co de resultados, Ω, pode ter ou não carácter quantitativo. Por exemplo, no lan¸camento de uma moeda o espa¸co de resultados que lhe está associado tem carácter qualitativo, mas se no lan¸camento de três moedas estivermos interessados no número de faces, o espa¸co de resultados que lhe está associado já tem carácter quantitativo.

A aplica¸cão de procedimentos estat´ısticos passa, correntemente, pela atribui¸cão de um número real a cada elemento ω ∈ Ω. Essa atribui¸cão pode ser até puramente convencional. No entanto, esta atribui¸cão terá que ser feita com cuidado por forma a podermos calcular a probabilidade de ocorrência de valores em intervalos reais. Da´ı a defini¸cão seguinte.

Defini¸c˜ao 2.1 Seja Ω um espa¸co de resultados associado a uma dada experiência aleatória. Chama-se vari´avel aleat´oria (abreviadamente, v.a.) a uma fun¸cão X : Ω −→ R tal que Ar = {ω ∈ Ω : X(ω) ≤ r}, com r ∈ R,

seja um acontecimento.

Nota¸c˜ao 2.1 É usual representarem-se as variáveis aleatórias pelas últimas letras maiúsculas: X, Y , Z, W , X1, X2, . . . , Y1, . . . .

O restri¸cão imposta à fun¸cão X tem como objectivo que o seu contradom´ınio seja um novo espa¸co de resul-tados em que a cada um dos seus elementos associa-se uma probabilidade, calculável a partir das probabilidades de ocorrência dos resultados iniciais.

As vantagens da utiliza¸cão de variáveis aleatórias torna-se evidente em muitos casos que nos irão surgindo. Uma dessas vantagens surge em inúmeros casos onde não interessa apreciar os elementos de Ω com todos os pormenores de que se revestem, mas sim focarmos a nossa aten¸cão na caracter´ıstica numérica em estudo. Os exemplos seguintes ilustram este ponto de vista.

Exemplos 2.1

1. O espa¸co de resultados associado ao lan¸camento de uma moeda trˆes vezes pode ser definido por Ω = {F F F, F F C, F CF, F CC, CCC, CCF, CF F, CF C}.

Considere-se a seguinte variável aleatória: X = número de faces.

Esta variável aleatória tem como contradom´ınio Ω0_{= {0, 1, 2, 3} e, admitindo-se a hipótese de}

(11)

P (X = 0) = P ({CCC}) = 1 8 P (X = 1) = P ({F CC, CCF, CF C}) = 3 8 P (X = 2) = P ({F F C, F CF, CF F }) = 3 8 P (X = 3) = P ({F F F }) = 1 8

A partir dos c´alculos anteriores podemos calcular a probabilidade de outros acontecimentos. Por exemplo, a probabilidade de ocorrer pelo menos duas faces:

P (X ≥ 2) = P (X = 2) + P (X = 3) = 1

2.

Ou ainda, a probabilidade de ocorrer menos de 3 faces:

P (X < 3) = 1 − P (X = 3) = 7

8.

2. Considere-se uma popula¸cão de empresas das quais se escolhe uma ao acaso. O espa¸co de resultados é Ω = {ω1, ω2, . . . , ωn}, onde n é o número total de empresas na popula¸cão. Consoante os objectivos do

estudo, diversas vari´aveis aleat´orias podem ser definidas. Eis alguns exemplos:

X1= n´umero de empregados de uma empresa;

X2= capital social de uma empresa;

X3= volume anual de vendas de uma empresa.

Proposi¸c˜ao 2.1 Sejam Ω um espa¸co de resultados, X : Ω −→ R e Y : Ω −→ R duas vari´aveis aleat´orias, e

c ∈ R. Ent˜ao,

i) X + Y é uma variável aleatória; ii) c · X é uma variável aleatória; iii) X · Y é uma variável aleatória.

Defini¸c˜ao 2.2 Seja X uma v.a.. Chama-se `a fun¸c˜ao FX(ou F) fun¸c˜ao de distribui¸c˜ao (cumulativa) (f.d.)

de X, se FX : R −→ [0, 1] tal que

FX(x) = P (X ≤ x),

para todo x ∈ R.

A f.d., F (x), de uma v.a. X goza das seguintes propriedades: Teorema 2.2

1. 0 ≤ F (x) ≤ 1;

2. F (x) ´e n˜ao decrescente; 3. F (−∞) = lim

x→−∞F (x) = 0; F (+∞) = limx→+∞F (x) = 1;

4. Para valores x1 e x2 quaisquer, finitos, com x2> x1, tem-se P (x1< X ≤ x2) = F (x2) − F (x1);

5. F (x) é cont´ınua à direita, isto é, lim

x→a+F (x) = F (a);

6. P (X = a) = F (a) − F (a−_{) = F (a) − lim} x→a−F (x).

Defini¸c˜ao 2.3 Sejam X uma v.a. e D = {a : P (X = a) > 0} um conjunto, quando muito numer´avel, dos

pontos de descontinuidade de uma f.d.. A v.a. X diz-se discreta quando P (X ∈ D) = 1; a v.a. diz-se n˜ao discreta quando P (X ∈ D) < 1.

(12)

Quando X ´e uma v.a. discreta existe um conjunto finito ou infinito numer´avel, D = {a1, a2, . . .}, tal que,

P (X ∈ D) =X

i

P (X = ai) = 1,

P (X = ai) > 0, i = 1, 2, . . . .

Estas duas propriedades permitem especificar a probabilidade de qualquer acontecimento de R em termos de uma soma ou s´erie de parcelas do tipo P (X = ai), com ai∈ D. De facto, com E ⊂ R,

P (X ∈ E) = P (X ∈ E ∩ D) + P (X ∈ E ∩ D);

como E ∩ D ⊂ D e P (X ∈ D) = 0, vem,

P (X ∈ E) = X

ai∈E∩D

P (X = ai).

Esta propriedade torna ´util a seguinte defini¸c˜ao:

Defini¸c˜ao 2.4 Seja X uma v.a. discreta. Chama-se fun¸cão de probabilidade (f.p.) de X à fun¸cão fX (ou

f ) definida por:

fX(x) =

½

P (X = x) se x ∈ D

0 se x ∈ D

Defini¸c˜ao 2.5 Seja X uma v.a. e F (x) a respectiva f.d.. A v.a. X diz-se cont´ınua se

D = {a : P (X = a) > 0} = ∅

e existe uma fun¸c˜ao n˜ao negativa, fX(x) ≥ 0 (ou f), tal que

FX(x) =

Z _x

−∞

fX(u) du.

A esta fun¸c˜ao fX(x) chama-se fun¸c˜ao de densidade de probabilidade, (f.d.p.), ou simplesmente fun¸c˜ao

de densidade. Observa¸c˜oes 2.1

1. Mostra-se que, se D = {a : P (X = a) > 0} = ∅, ent˜ao F (x) n˜ao apresenta descontinuidades.

2. Atendendo às defini¸cões anteriores e aos axiomas das probabilidades mostra-se que toda a fun¸cão de probabilidade (resp. densidade) satisfaz as condi¸cões:

i) f (x) ≥ 0, ∀x ∈ R. ii) P_if (xi) = 1 (resp.

R_+∞

−∞ f (u) du = 1).

3. Se X ´e uma v.a. discreta, ent˜ao FX(x) =

P

{i: xi≤x}fX(xi).

4. Se X ´e uma v.a. cont´ınua, ent˜ao F0

X(x) = fX(x), excepto num conjunto finito ou infinito numer´avel de

pontos x de probabilidade nula.

Exemplos 2.2

1. Consideremos novamente o exemplo 1. dos Exemplos 2.1. A fun¸c˜ao de probabilidade desta v.a. ´e definida

por: x 0 1 2 3 f (x) 1 8 3 8 3 8 1 8

(13)

E graficamente,

A sua fun¸cão de distribui¸cão é definida por:

F (x) =                0 se x < 0 1 8 se 0 ≤ x < 1 1 2 se 1 ≤ x < 2 7 8 se 2 ≤ x < 3 1 se x ≥ 3 ,

ou, em forma de tabela,

x x < 0 0 ≤ x < 1 1 ≤ x < 2 2 ≤ x < 3 x ≥ 3 F (x) 0 1 8 1 2 7 8 1 E, graficamente,

Nota: O gráfico da fun¸cão de distribui¸cão de uma variável discreta é sempre em escada. 2. Seja Y uma v.a. cuja fun¸cão de distribui¸cão é definida por

F (y) =              0 se y < 0 y 3 se 0 ≤ y < 3 1 se y ≥ 3 .

Ent˜ao, a sua fun¸c˜ao de densidade pode ser definida por

f (y) =      1 3 se 0 ≤ y ≤ 3 0 se y < 0 ∨ y > 3 . E os seus gr´aficos:

Nota: O valor da probabilidade num intervalo corresponde a uma ´area entre o eixo das abcissas e o gr´afico

de f , no intervalo considerado.

(14)

2.2 Medidas de Localiza¸c˜

ao e Dispers˜

ao. Momentos

2.2.1 Medidas de Localiza¸c˜

ao

Defini¸c˜ao 2.7 Denomina-se média, esperan¸ca matemática ou valor esperado de uma v.a. X ao número,

caso exista, µX ou E(X) definido por:

i) E(X) =P_ixif (xi), se X ´e uma v.a. discreta tomando valores em {x1, x2, . . .}.

ii) E(X) =R_−∞+∞xf (x) dx, se X ´e cont´ınua.

Exemplos 2.3

1. Considerando novamente o exemplo 1 dos Exemplos 2.1,

E(X) = 0 × 1 8+ 1 × 3 8+ 2 × 3 8 + 3 × 1 8 = 3 2. 2. Se f (y) =      1 3 se 0 ≤ y ≤ 3 0 se y < 0 ∨ y > 3 é a fun¸cão de densidade de probabilidade de uma v.a. Y , então

E(Y ) = Z +∞ −∞ yf (y) dy = Z 0 −∞ y × 0 dy + Z 3 0 y 3dy + Z +∞ 3 y × 0 dy = 3 2.

Defini¸c˜ao 2.8 Seja X uma v.a. e φ(X) uma fun¸c˜ao de X. 1. E(φ(X)) =P_iφ(xi)fX(xi), se X ´e discreta;

2. E(φ(X)) =R_−∞+∞φ(x)fX(x) dx, se X ´e cont´ınua.

Proposi¸c˜oes 2.3 Sejam X e Y duas variáveis aleatórias, φ(X) uma fun¸cão de X, e a e b constantes reais. 1. E(a) = a;

2. E(a φ(X)) = a E(φ(X));

3. E(a X + b Y ) = a E(X) + b E(Y ).

Outras medidas de localiza¸cão de uma v.a., alternativas à média, são a mediana (ηX) e a moda (mX).

Defini¸c˜ao 2.9 Seja X uma variável aleatória. A mediana de X é o valor de x que satisfaz as desigualdades,

P (X ≤ x) ≥ 1

2 e P (X ≥ x) ≥ 1 2,

e representa-se por ηX ou, simplesmente, η. Em termos da fun¸cão de distribui¸cão, a dupla desigualdade é

equivalente a

1

2 ≤ F (x) ≤ 1

(15)

Se X ´e cont´ınua, a mediana ´e o valor x que satisfaz, F (x) = Z _x −∞ f (u) du =1 2.

Se existir mais do que um valor que sirva para mediana, ent˜ao toma-se para mediana

η =xmin+ xmax

2 ,

onde xmin e xmax representam, respectivamente, o m´ınimo e o m´aximo do conjunto de solu¸c˜oes.

Podemos, a partir da ideia de mediana, definir parˆametros usando outros valores de probabilidade.

Defini¸c˜ao 2.10 Dado qualquer n´umero p, 0 < p < 1, define-se p-´esimo quantil de uma v.a. ou de uma

distribui¸c˜ao como o valor x que satisfaz as desigualdades,

P (X ≤ x) ≥ p, P (X ≥ x) ≥ 1 − p,

isto ´e,

p ≤ F (x) ≤ p + P (X = x).

Se a v.a. é do tipo cont´ınua, o quantil de ordem p é o número x que satisfaz a equa¸cão,

F (x) = p ou

Z _x

−∞

f (u) du = p.

O quantil de ordem p ser´a representado por ζp.

Em particular, com p = s/4, s = 1, 2, 3, obt´em-se os quartis, sendo o quartil de ordem 2 a mediana; com

p = s/10, s = 1, 2, . . . , 9, os decis, com p = s/100, s = 1, 2, . . . , 99, obt´em-se os percentis.

Defini¸c˜ao 2.11 Chama-se moda de uma v.a. X, mX, a um valor da vari´avel (caso exista) do seu

contra-dom´ınio para o qual fX (fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabilidade de X) toma um valor

m´aximo.

Exemplos 2.4

1. No contexto do exemplo 1. dos Exemplos 2.1,

ηX= 1 + 2

2 =

3 2

e tem duas modas (bimodal), m1= 1 e m2= 2.

Nota: No caso de vari´aveis aleat´orias discretas, existe alguma bibliografia que considera para moda o ponto

médio dos valores adjacentes da variável que maximizam a fun¸cão de probabilidade.

2. No contexto do exemplo 2. dos Exemplos 2.2, existem uma infinidade de modas. Qualquer valor do

intervalo [0, 3] ´e uma moda.

2.2.2 Medidas de Dispers˜

ao

Defini¸c˜ao 2.12

1. Se X é uma v.a. discreta tomando valores em {x1, x2, . . .}, chama-se desvio absoluto médio à medida de

dispers˜ao definida por

δX =

X

i

|xi− µX| · fX(xi).

2. Se X ´e uma v.a. cont´ınua, o desvio absoluto m´edio define-se por

δX =

Z +∞

−∞

(16)

Outra quantidade de grande importância, que permite definir outra medida de dispersão, é a variância de uma variável aleatória.

Defini¸c˜ao 2.13

1. Se X ´e uma v.a. discreta tomando valores em {x1, x2, . . .}, a variˆancia de X, σX2 ou Var(X), define-se por

Var(X) =X

i

(xi− µX)2· fX(xi).

2. Se X ´e uma v.a. cont´ınua, a variˆancia define-se por

Var(X) =

Z _+∞

−∞

(x − µX)2· fX(x) dx.

Observa¸c˜ao 2.2 ´E evidente que Var(X) = E£(X − µX)2

¤

.

Proposi¸c˜oes 2.4 Se X ´e uma v.a., ent˜ao 1. Var(X) = E(X2_{) − [E(X)]}2

(f´ormula de K¨oenigs).

2. Var(aX) = a2_{Var(X), com a uma constante real.}

Observa¸c˜ao 2.3 E(X2_{) =}P

ix2ifX(xi), se X ´e uma v.a. discreta, ou E(X2) =

R+∞

−∞ x2fX(x) dx, se X ´e uma

v.a. cont´ınua.

`

A custa da variˆancia define-se outra medida de dispers˜ao.

Defini¸c˜ao 2.14 Chama-se desvio padrão de uma v.a. X à medida de dispersão definida por

σ =pVar(X).

2.2.3 Vari´

aveis Estandardizadas

Defini¸c˜ao 2.15 Seja X uma v.a. com m´edia µ e desvio padr˜ao σ. A v.a.

Z = X − µ σ diz-se normalizada ou estandardizada.

Proposi¸c˜ao 2.5 A v.a. Z = X − µ

σ tem m´edia 0 e desvio padr˜ao 1.

A estandardiza¸cão de uma v.a. permite uma mudan¸ca de escala e observe-se que uma v.a. estandardizada não tem unidades. Desta forma, é poss´ıvel comparar as distribui¸cões de variáveis aleatórias distintas.

2.2.4 Momentos

O valor esperado e a variância pertencem a uma fam´ılia de parâmetros que se designam por momentos. Enquanto o valor esperado pertence à subfam´ılia dos momentos ordinários (ou momentos na origem), a variância pertence à subfam´ılia dos momentos centrados. Vejamos como se definem.

Defini¸c˜ao 2.16 Chama-se momento ordin´ario de ordem k ao parˆametro

µ0k =

X

i

xki · fX(xi),

se X ´e uma v.a. discreta, ou

µ0 k= Z +∞ −∞ xk_{· f} X(x) dx,

se X ´e uma v.a. cont´ınua.

Observa¸c˜ao 2.4 É evidente que o valor esperado é o momento ordinário de primeira ordem (µ0

(17)

Defini¸c˜ao 2.17 Chama-se momento centrado (na m´edia) de ordem k ao parˆametro

µk =

X

i

(xi− µX)k· fX(xi),

se X ´e uma v.a. discreta, ou

µk =

Z _+∞

−∞

(x − µX)k· fX(x) dx,

se X ´e uma v.a. cont´ınua.

Observa¸c˜ao 2.5 Repare-se que a variˆancia ´e o momento centrado de segunda ordem (µ2= σ2).

Existem expressões que relacionam os momentos ordinários com os momentos centrados. De facto, qualquer momento centrado de ordem k pode exprimir-se em fun¸cão dos momentos ordinários de ordem não superior a

k e vice-versa: µk = k X i=0 (−1)ikCi(µ01)iµ0k−1 e µ0k= k X i=0 k_C i(µ01)iµk−i.

Observe-se que, na primeira expressão fazendo-se k = 2, obtém-se a fórmula de Köenigs.

Além dos momentos já definidos, existem outros momentos centrados (centrados em outro parâmetros) e ainda os momentos absolutos ordinários ou centrados. O desvio absoluto médio é o momento absoluto centrado (na média) de primeira ordem.

Todos os parâmetros definidos (caso existam) caracterizam uma distribui¸cão. Para que duas distribui¸cões sejam iguais é necessário que tenham a mesma sequência de momentos. No entanto, esta condi¸cão não é suficiente, pois uma sequência de momentos não determina univocamente uma distribui¸cão. Para que tal suceda, é necessário garantir a existência de uma fun¸cão que é designada por fun¸cão geradora de momentos. Este assunto será abordado na subseçcão seguinte.

Na prática, raramente são calculados momentos de ordem superior a 4, pois tais momentos são de dif´ıcil caracteriza¸cão. No entanto, a igualdade de momentos não superiores a 4 é suficiente para que duas distribui¸cões sejam aproximadamente iguais. Vejamos algumas utiliza¸cões destes momentos.

Uma v.a. X é simétrica ou possui uma distribui¸cão simétrica, se existe um número a tal que, para todo o

x, P (X < a − x) = P (X > a + x), isto ´e,

F (a − x) − P (X = a − x) = 1 − F (a + x).

O ponto a é chamado centro de simetria. Se a v.a. é do tipo cont´ınuo, deduz-se da igualdade anterior que a sua f.d.p., nos pontos onde é cont´ınua, satisfaz a equa¸cão,

f (a − x) = f (a + x).

Se a v.a. é do tipo discreto, os pontos de salto e as correspondentes probabilidades dispõem-se simetricamente em rela¸cão a a.

Quando uma distribui¸cão é simétrica é fácil concluir que os momentos centrados na média de ordem ´ımpar são nulos. Assim, desejando-se caracterizar a assimetria por meio de um parâmetro, parece natural a utiliza¸cão de um desses momentos, preferivelmente o de ordem 3, µ3. Como este momento é de terceira ordem em termos

da unidade original, leva a que se utilize para medida de assimetria o parˆametro

γ1=µ3 σ3 ou β1= µ 2 3 µ3 2 = γ12.

Quando a assimetria é positiva (ramo esquerdo mais abrupto) são os desvios positivos que predominam no cálculo de µ3, que, por esse facto, leva a que γ1> 0. A assimetria negativa caracteriza-se por γ1< 0.

Outra fun¸c˜ao de momentos com algum interesse ´e,

β2=

µ4

µ2 2

,

que é usado para medir o excesso de Kurtosis da distribui¸cão, conceito associado com o achatamento da f.d.p. ou f.p. na zona central da distribui¸cão. Costuma usar-se como meio de compara¸cão a distribui¸cão Normal estandardizada (que estudaremos no cap´ıtulo seguinte). Nesta distribui¸cão µ4= 3 e µ2= 1. Assim, em vez de

β2, usa-se por vezes,

(18)

2.2.5 Desigualdades Importantes para Momentos

Teorema 2.6 (Desigualdade de Markov) Seja ϕ(X) uma fun¸c˜ao de uma v.a. X. Se existir E[ϕ(X)], ent˜ao,

para qualquer n´umero real c > 0,

P (ϕ(X) ≥ c) ≤ 1

cE[ϕ(X)].

Corol´ario 2.7 Se X é uma v.a. não negativa e se existir E(X), então, para qualquer número real c > 0,

P (X ≥ c) ≤ E(X) c .

Corol´ario 2.8 Se X é uma v.a. e se existir E(X), então, para qualquer número real c > 0,

P (|X| ≥ c) ≤ E(|X|) c .

Corol´ario 2.9 Se X é uma v.a. e se existir E(|X|r_{), para qualquer número real r > 0, então, para qualquer}

n´umero real c > 0,

P (|X| ≥ c) ≤ E(|X|

r₎

cr .

Corol´ario 2.10 Se X é uma v.a. com média µ e variância σ2_{, finita, então, para qualquer número real t > 0,}

P (|X − µ| ≥ tσ) ≤ 1 t2.

A desigualdade do corolário anterior, que, aliás como todas as outras, também se pode apresentar na forma

P (|X − µ| < tσ) ≥ 1 − 1 t2

é a bem conhecida desigualdade de Chebychev. Trata-se de um instrumento muito importante em aplica¸cões. Pois, observe-se que, para qualquer v.a. X, conhecidas a média e variância, a quantidade de probabilidade no intervalo ]µ − tσ, µ + tσ[ nunca é inferior a 1 − 1/t2_{, ou, o que é o mesmo, a quantidade de probabilidade fora}

desse intervalo nunca ´e superior a 1/t2_{. Esta desigualdade refor¸ca a ideia da utiliza¸c˜ao de µ como medida de}

localiza¸cão e σ como medida de dispersão, permitindo empregar-se quando não se conhece a distribui¸cão da variável aleatória. Evidentemente, se a distribui¸cão da variável for conhecida, a desigualdade passa a ter menos interesse uma vez que pode calcular-se o valor exacto (ou pelo menos tão aproximado quanto se queira) de

P (|X − µ| < tσ). No entanto, neste caso a sua utiliza¸cão pode permitir fazer um cálculo mais rápido.

2.2.6 Fun¸c˜

ao Geradora de Momentos

No intuito de caracterizar uma distribui¸cão é poss´ıvel, em muitos casos, obter uma fun¸cão que permite gerar todos os momentos em rela¸cão à origem.

Defini¸c˜ao 2.18 Define-se fun¸c˜ao geradora de momentos, abreviadamente f.g.m., da v.a. X como sendo o

valor esperado de eXt_{, caso exista, e representa-se por}

GX(t) = E

¡

eXt¢_.

Diz-se que a fun¸c˜ao geradora de momentos existe se existir uma constante positiva, a, para a qual GX(t)

seja finita para |t| < a. Observe-se, a partir da defini¸c˜ao, que GX(0) = 1; a existˆencia numa vizinhan¸ca de t = 0

depende da distribui¸c˜ao de X.

Teorema 2.11 Se a f.g.m. ´e definida para |t| < a, com a > 0, ent˜ao

G(k)(0) = µ0k, k = 1, 2, 3, . . . .

Consequentemente, se G(t) existe numa vizinhan¸ca de 0, G(t) pode desenvolver-se, de uma ´unica forma, em s´erie de MacLaurin, G(t) = 1 + G0_{(0) +}G00(0)t2 2! + · · · = +∞ X k=0 E¡Xk¢ tk k! = +∞ X k=0 µ0 k tk k!

(19)

Como é evidente, os momentos centrados de X são gerados pela f.g.m. da distribui¸cão da v.a. X − µ: GX−µ(t) = E ³ et(X−µ) ´ = e−µtGX(t), ou, equivalentemente, GX(t) = eµtGX−µ(t).

Para a v.a. estandardizada U = (X − µ)/σ, tem-se

GU(t) = E ¡ etU¢= E ³ et(X−µ)/σ ´ = e−µt/σGX(t/σ), ou GX(t) = eµtGU(σt).

O teorema 2.11 não é a principal propriedade das f.g.m.. A principal reside no facto de permitirem identificar as distribui¸cões para as quais existem:

Teorema 2.12 A f.g.m. determina univocamente a f.d.; reciprocamente, se a f.g.m. existe, ´e ´unica. Exemplos 2.5

1. Considere-se a v.a. X cuja f.p. ´e definida por

f (x) =

½

p(1 − p)x−1 _{se x = 1, 2, . . .}

0 o.v. de x

onde 0 < p < 1, fixo. Pretende-se determinar E(X) e V ar(X) a partir da f.g.m..

Resolu¸c˜ao: GX(t) = E ¡ eXt¢ ₌ +∞ X x=1 p(1 − p)x−1_ext = p et +∞ X x=1 (1 − p)x−1e(x−1)t = p et +∞ X x=1 £ (1 − p)et¤x−1 = p et 1 1 − (1 − p)et

desde que (1 − p)et_{< 1, isto ´e, quando t < − ln(1 − p).}

Assim, resulta que

G0 X(t) = pet (1 − (1 − p)et₎2 e E(X) = G0 X(0) = 1 p. Para o c´alculo da derivada de segunda ordem, observe-se primeiro que

G0 X(t) = GX(t) 1 − (1 − p)et. Logo, GX00(t) = G0 X(t) [1 − (1 − p)et] + (1 − p)etGX(t) [1 − (1 − p)et_]2 e E¡X2¢= GX00(0) = 2 − p p2 . Consequentemente, V ar(X) = 2 − p p2 − 1 p2 = 1 − p p2 .

(20)

2. Considere-se agora a v.a. Y com f.d.p. dada por:

g(y) =

½

2e−2y _{se y ≥ 0}

0 se y < 0 Pretende-se determinar E(Y ) a partir da f.g.m. de Y .

Resolu¸c˜ao: GY(t) = E ¡ eY t¢ ₌ Z _+∞ 0 ety_{· 2e}−2y_dy = lim z→+∞ · 2 · 1 t − 2e (t−2)y ¸z y=0 = 2 t − 2 · lim z→+∞e (t−2)z_{− 1} ¸ = 2 t − 2(0 − 1) = 2 2 − t

sempre que t < 2. Logo,

E(X) = G0 Y(t)|t=0= 2 (2 − t)2 ¯ ¯ ¯ ¯ t=0 =1 2.

2.3 Vectores Aleat´

orios

Quando se pretende estudar in´umeras situa¸c˜oes, no estudo probabil´ıstico ou estat´ıstico, envolvendo n propri-edades ou caracter´ısticas quantitativas dos elementos ω do espa¸co de resultados Ω, faz-se corresponder a cada um desses elementos um ponto (x1, x2, . . . , xk) ∈ Rn. Isto ´e,

ω −→ (X1(ω), X2(ω), . . . , Xn(ω)) .

Assim, por meio de uma aplica¸c˜ao Ω → Rn _{substitui-se o espa¸co de resultados pelo conjunto R}n_.

Defini¸c˜ao 2.19 Se para cada ponto (x1, x2, . . . , xn) ∈ Rn, o conjunto de Ω,

{ω : X1(ω) ≤ x1, X2(ω) ≤ x2, . . . , Xn(ω) ≤ xn}

´e um acontecimento, diz-se que

X(ω) = (X1(ω), X2(ω), . . . , Xn(ω)) ,

ou, simplesmente,

X = (X1, X2, . . . , Xn) ,

´e um vector aleat´orio ou uma vari´avel aleat´oria n-dimensional.

Os conceitos abordados para uma variável aleatória (f.d., v.a. discretas, v.a. cont´ınuas, f.p., f.d.p, etc...) podem generalizar-se para uma variável aleatória n-dimensional. No entanto, grande parte de tal generaliza¸cão será feita somente para v.a. bidimensionais. Assim, dada uma v.a. bidimensional ou vector aleatório (X, Y ), a probabilidade de obter um ponto na região do plano R2 _{pelas desigualdades, X ≤ x, Y ≤ y,}

P (X ≤ x, Y ≤ y) = P {ω : X(ω) ≤ x, Y (ω) ≤ y}

existe sempre, por defini¸c˜ao e podemos introduzir a seguinte

Defini¸c˜ao 2.20 Chama-se fun¸c˜ao de distribui¸c˜ao da v.a. bidimensional (X, Y ) ou fun¸c˜ao de distri-bui¸c˜ao conjunta das v.a. X e Y a

F (x, y) = P (X ≤ x, Y ≤ y).

Teorema 2.13 Se F (x, y) é f.d. das v.a. X e Y e [x1, x2] × [y1, y2] é um intervalo de R2, então

(21)

Teorema 2.14 Para qualquer f.d. F (x, y),

F (−∞, y) = F (x, −∞) = 0 e F (+∞, +∞) = 1.

Teorema 2.15 Toda a f.d. F (x, y) é não decrescente em rela¸cão a cada variável. Teorema 2.16 Toda a f.d. F (X, Y ) é cont´ınua à direita em rela¸cão a cada variável,

F (x+, y) = F (x, y) = F (x, y+).

Quando se trabalha com a distribui¸cão conjunta das v.a. X e Y , pode interessar o cálculo da probabilidade de se ter X ≤ x qualquer que seja o valor assumido pela v.a. Y . Esse cálculo,

P (X ≤ x) = P (X ≤ x, Y ≤ +∞) = lim

y→+∞F (x, y) = F (x, +∞),

conduz à defini¸cão de F1(x) = F (x, +∞), distribui¸cão marginal da v.a. X.

Analogamente,

P (Y ≤ y) = P (X ≤ +∞, Y ≤ y) = lim

x→+∞F (x, y) = F (+∞, y),

define a distribui¸c˜ao marginal da v.a. Y , F2(y)

Se os acontecimentos, X ≤ x e Y ≤ y, s˜ao independentes, ent˜ao resulta

P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y),

as v.a. X e Y dizem-se independentes e a respectiva f.d. conjunta ´e o produto das distribui¸c˜oes marginais,

F (x, y) = F1(x)F2(y),

para todo o ponto (x, y) ∈ R2_{. Pode mostrar-se que esta condi¸cão é necessária e suficiente para que se tenha}

P (X ∈ E1, Y ∈ E2) = P (X ∈ E1)P (Y ∈ E2),

para quaisquer acontecimentos E1 e E2definidos, respectivamente, no eixo dos xx e no eixo dos yy.

Teorema 2.17 Dadas duas v.a. independentes, X e Y , considerem-se duas fun¸c˜oes U = φ(X) e V = ψ(Y ).

Ent˜ao, as v.a. U e V s˜ao independentes.

Teorema 2.18 Se X e Y são variáveis aleatórias independentes e possuem valor esperado, então

E(X · Y ) = E(X) · E(Y ).

O conceito de independˆencia generaliza-se facilmente a um n´umero finito (ou numer´avel) de v.a. X1, X2, . . . , Xn.

Defini¸c˜ao 2.21 As variáveis aleatórias X1, X2, . . . , Xn dizem-se independentes se para n números reais

ar-bitr´arios, x1, x2, . . . , xn,

F (x1, x2. . . , xn) = P (X1≤ x1, X2≤ x2, . . . , Xn≤ xn)

= P (X1≤ x1) · P (X2≤ x2) · · · P (Xn≤ xn)

= F1(x1)F2(x2) · · · Fn(xn),

onde F é a fun¸cão de distribui¸cão conjunta das v.a. X1, X2, . . . , Xn e F1, F2, . . . , Fn as respectivas fun¸cões de

distribui¸c˜ao marginais.

Vectores Aleat´orios Discretos

Defini¸c˜ao 2.22 Uma v.a. bidimensional, (X, Y ), diz-se discreta, se dado o conjunto finito ou numer´avel

D = {(xi, yj) : P (X = xi, Y = yj) > 0} ,

se tem,

(22)

Agora, tamb´em podemos definir a fun¸c˜ao de probabilidade de (X, Y ),

f (x, y) = P (X = x, Y = y)

½

> 0 se (x, y) ∈ D

= 0 se (x, y) ∈ D ,

e tem as seguintes propriedades: 1. f (x, y) ≥ 0, ∀(x, y) ∈ R2_; 2. X (xi,yj)∈D f (xi, yj) = 1; 3. P [(X, Y ) ∈ E] = X (xi,yj)∈E∩D f (xi, yj); 4. F (x, y) = P (X ≤ x, Y ≤ y) = X xi≤x yj≤y f (xi, yj).

As f.p. marginais s˜ao definidas, com

D = {(xi, yj) : i, j = 1, 2, . . .} , por, f1(xi) = P (X = xi) = X j f (xi, yj), i = 1, 2, . . . f2(yj) = P (Y = yj) = X i f (xi, yj), j = 1, 2, . . .

sendo, evidentemente, f1(x) = 0, se (x, yj) 6∈ D, e f2(y) = 0, se (xi, y) 6∈ D.

As v.a. X e Y s˜ao independentes quando discretas se, e somente se,

f (xi, yj) = f1(xi)f2(yj),

para todo o ponto (xi, yj) ∈ D.

Vectores Aleat´orios Cont´ınuos

Defini¸c˜ao 2.23 Uma v.a. bidimensional, (X, Y ), é do tipo cont´ınuo se existir uma fun¸cão não negativa, f (x, y),

tal que F (x, y) = Z x −∞ Z y −∞ f (u, v) dudv,

para todo (x, y) ∈ R2_{, onde F (x, y) é a fun¸cão de distribui¸cão de (X, Y ). A fun¸cão f (x, y) diz-se fun¸c˜}_{ao de}

densidade de probabilidade de (X, Y ) ou fun¸c˜ao de densidade de probabilidade conjunta das v.a. X

e Y e satisfaz a igualdade, _Z +∞ −∞ Z +∞ −∞ f (x, y) dxdy = 1.

Se a f.d.p. f (x, y) for cont´ınua no ponto (x, y) tem-se

f (x, y) = ∂2F (x, y) ∂x∂y .

Por defini¸c˜ao de f.d. marginal da v.a. X tem-se,

F1(x) = F (x, +∞) = Z x −∞ Z +∞ −∞ f (u, v) dudv; assim, f1(x) = F10(x) = Z _+∞ −∞ f (x, y) dy

(23)

´e a fun¸c˜ao de densidade marginal de X. Analogamente,

f2(y) = F20(y) =

Z _+∞

−∞

f (x, y) dx,

´e a fun¸c˜ao de densidade marginal de Y .

A generaliza¸c˜ao destes conceitos para uma v.a. n-dimensional ´e imediata. Seja (X, Y ) uma v.a. bidimensional. O valor esperado

µ0

rs= E(XrYs),

se existir, define um momento de ordem r + s em rela¸c˜ao `a origem. Assim, existindo os momentos de ordem 1, tem-se

µ010= E(X) e µ001= E(Y ),

sendo os centros de gravidade das distribui¸c˜oes marginais de X e Y , respectivamente. Existindo os momento de ordem 2, temos

µ020= E(X2), µ011= E(XY ), µ002= E(Y2).

Para os momentos centrados, o valor esperado

µrs= E [(X − µX)r(Y − µY)s] ,

se existir, define um momento de ordem r + s em rela¸cão à média.

Para os momentos de ordem 1, tem-se µ10= 0 = µ01, e para os de ordem 2,

µ20= V ar(X), µ02= V ar(Y ), µ11= E [(X − µX)(Y − µY)] ;

µ11, que se representa tamb´em por Cov(X, Y ), designa-se por covariˆancia entre X e Y . Observe-se que

Cov(X, Y ) = E(XY ) − E(X)E(Y ).

Como consequência desta expressão e do teorema 2.18 temos o seguinte Teorema 2.19 Se as v.a. X e Y são independentes, então Cov(X, Y ) = 0.

O interesse da covariância advém da seguinte interpreta¸cão: considere-se o centro de gravidade da distribui¸cão conjunta de X e Y , (µX, µY), como origem de novos eixos coordenados. Observe a figura

Tem-se, em rela¸c˜ao ao novo sistema de eixos, que (x − µX)(y − µY) > 0, no 1o e 3o quadrantes,

(x − µX)(y − µY) < 0, no 2o e 4o quadrantes. Assim, se X e Y variam no mesmo sentido, existe

probabi-lidade elevada para que os valores de X acima da média estejam associados com valores de Y acima da média e para os valores de X abaixo da média estejam associados com valores de Y abaixo da média, isto é, predominam os pontos no 1o _{e 3}o _{quadrantes e a covariância sai positiva e relativamente grande. Por outro lado, X e Y}

variam em sentido contrário se existe probabilidade elevada para que os valores de X acima da média estejam associados com valores de Y abaixo da média e para valores de X abaixo da média estejam associados com valores de Y acima da média. Neste caso, predominam os pontos no 2o _{e 4}o _{quadrantes e a covariância sai}

negativa e relativamente grande em valor absoluto.

A covariância depende das unidades em que se exprimem as v.a. X e Y . Ora, é desejável introduzir um parâmetro que caracterize a associa¸cão entre as variáveis X e Y sem depender dessas unidades.

(24)

Defini¸c˜ao 2.24 Chama-se coeficiente de correla¸c˜ao entre X e Y ao parˆametro ρ = pCov(X, Y ) V ar(X)V arY = Cov(X, Y ) σXσY , ou ρ = √µ11 µ20µ02.

Teorema 2.20 (Desigualdade de Cauchy-Schwartz) Se X e Y s˜ao v.a. conjuntamente distribu´ıdas com

mo-mentos de ordem 2 finitos, ent˜ao _h

E(XY)i2_{≤ E}¡_X2¢_E¡_Y2¢_,

verificando-se a igualdade se, e somente se, para alguma constante t0,

P (t0X = Y ) = 1.

Teorema 2.21 O valor absoluto do coeficiente de correla¸c˜ao nunca exceda a unidade,

|ρ| ≤ 1; al´em disso, ρ = ±1 quando e s´o quando, com probabilidade um,

(Y − µY)

σY = ±

(X − µX)

σX .

Resumindo, se as v.a. X e Y são independentes, ρ = 0; se X e Y são linearmente independentes (com probabilidade um), ρ = ±1; nos outros casos, os valores mais ou menos elevados de |ρ| traduzem o menor ou maior afastamento entre duas rectas que delimitam a região do plano onde se concentram com elevada probabilidade os valores de (X, Y ). Voltaremos a este assunto no ´ultimo cap´ıtulo destes apontamentos. Teorema 2.22 Se as v.a. X e Y possuem segundos momentos finitos, então

V ar(X ± Y ) = V ar(X) ± 2Cov(X, Y ) + V ar(Y ).

Corol´ario 2.23 Se as v.a. X e Y possuem segundos momentos finitos e covariˆancia nula, ent˜ao

V ar(X ± Y ) = V ar(X) + V ar(Y ).

Distribui¸c˜oes Condicionados

O conceito de distribui¸c˜ao condicionada ´e baseado no de probabilidade condicionada. Vamos somente estudar o caso bidimensional e de uma forma abreviada.

No caso discreto, a probabilidade do acontecimento X = xi, condicionada pela realiza¸c˜ao do acontecimento

Y = yj, com P (Y = yj) > 0, define-se por

P (X = xi|Y = yj) =

P (X = xi, Y = yj)

P (Y = yj)

,

onde yj´e um valor fixo e para i = 1, 2 . . .. De modo semelhante, define-se a probabilidade de Y = yjcondicionada

por X = xi. As nota¸cões utilizadas para estas fun¸cões de probabilidade são, no primeiro caso,

f (xi|yj) = f (xi, yj)

f2(yj) ,

com yj fixo e i = 1, 2, . . .; no segundo caso

f (yj|xi) = f (xi, yj)

f1(xi)

,

com xi fixo e j = 1, 2 . . ..

No caso cont´ınuo, a fun¸c˜ao de distribui¸c˜ao de Y condicionada por X = x, simbolicamente, F (y|x) ou

Fy|x(y|x) ´e dada por

F (y|x) = R_y −∞f (x, v) dv R_+∞ −∞ f (x, v) dv = R_y −∞f (x, v) dv f1(x) .

(25)

Derivando em ordem a y obt´em-se a correspondente fun¸c˜ao de densidade de Y condicionada por X = x,

f (y|x) = f (x, y) f1(x)

.

Analogamente, define-se fun¸c˜ao de densidade de X condicionada por Y = y,

f (x|y) = f (x, y) f2(y) .

Vejamos agora o que se passa com os valores esperados destas distribui¸c˜oes condicionadas.

Defini¸c˜ao 2.25 Considere-se a v.a. φ(X, Y ) fun¸c˜ao das v.a. X e Y . O valor esperado de φ(X, Y ) condicionado

por X = x, em s´ımbolos E[φ(X, Y )|X = x] ou, simplesmente, E[φ(X, Y )|x] ´e definido, consoante se trate do caso discreto ou cont´ınuo, por

E[φ(X, Y )|xi] = X j φ(xi, yj)f (yj|xi), ou, por, E[φ(X, Y )|x] = Z +∞ −∞ φ(x, y)f (y|x).

Define-se E[φ(X, Y )|y] de modo an´alogo.

Em particular, consoante se trate do caso discreto ou cont´ınuo,

E(Y |xi) = X j yjf (yj|xi) ou E(Y |x) = Z +∞ −∞ yf (y|x) dy,

representa a média de Y condicionada por X = x, isto é, a média da distribui¸cão condicionada com f.p ou f.d.p.

f (y|x). Fisicamente, E(Y |x) ´e o centro de gravidade da distribui¸c˜ao de probabilidade sobre a recta X = x.

Observe-se que E(Y |X) ´e uma v.a. fun¸c˜ao da v.a. X, que assume o valor E(Y |x) quando X assume o valor x. Do mesmo modo, consoante se trate do caso discreto ou cont´ınuo,

E(X|yj) = X i xif (xi|yj) ou E(X|y) = Z +∞ −∞ xf (x|y) dx,

representa a média de X condicionada por Y = y, isto é, a média da distribui¸cão condicionada com f.p ou f.d.p.

f (x|y) e E(X|Y ) ´e uma v.a. fun¸c˜ao da v.a. Y , que assume o valor E(X|y) quando Y assume o valor y.

Proposi¸c˜oes 2.24 Existindo os valores esperados respectivos, 1. E(c|X) = c, onde c ´e uma constante;

2. E[mφ(Y ) + c|X] = mE[φ(Y )|X] + c;

3. E[φ1(Y ) + φ2(Y )|X] = E[φ1(Y )|X] + E[φ2(Y )|X];

4. E[φ1(X)φ2(Y )|X] = φ1(X)E[φ2(Y )|X];

5. E[φ(Y )] = E [E (φ(Y )|X)]; 6. E(Y ) = E[E(Y |X)]; 7. Se Y ≥ 0, E(Y |X) ≥ 0;

(26)

Cap´ıtulo 3

Distribui¸c˜

oes Te´

oricas

3.1 Distribui¸c˜

ao Uniforme Discreta em N Pontos

Defini¸c˜ao 3.1 A v.a. X diz-se que tem uma distribui¸c˜ao uniforme discreta em N pontos quando a

respectiva f.p. ´e da forma

f (xi) = P (X = xi) = 1

N, i = 1, 2, . . . , N.

Proposi¸c˜ao 3.1 Se X é uma v.a. com distribui¸cão uniforme em N pontos, então 1. GX(t) = 1 N N X i=1 etxi_; 2. E(X) = 1 N N X i=1 xi; 3. V ar(X) = 1 N N X i=1 x2 i − Ã 1 N N X i=1 xi !2

Observa¸c˜ao 3.1 Em particular, se xi= i, i = 1, 2, . . . N , E(X) = N + 1

2 e V ar(X) =

N2_{− 1}

12 .

3.2 Distribui¸c˜

ao Binomial

A distribui¸cão Binomial é um modelo probabil´ıstico que permite o estudo de experiências aleatórias onde importa a contagem do número de vezes que ocorre um determinado acontecimento. A utiliza¸cão deste modelo requer que as provas (experiências) sejam de Bernoulli, isto é, uma sequência de experiências aleatórias independentes em cada umas das quais se observa a realiza¸cão ou não realiza¸cão de um acontecimento A com probabilidade p, constante. A ocorrência de A constitui um sucesso e a ocorrência de A um insucesso.

No caso em que se considera uma única prova de Bernoulli, a respectiva distribui¸cão de probabilidade é definida da seguinte forma:

Defini¸c˜ao 3.2 Uma v.a. X tem (segue) distribui¸c˜ao de Bernoulli de parˆametro p (0 ≤ p ≤ 1, fixo) se a

sua fun¸c˜ao de probabilidade ´e definida por

fX(x) =

(

px_{(1 − p)}1−x _{se x = 0 ∨ x = 1}

0 se x ∈ R \ {0, 1} .

Proposi¸c˜ao 3.2 Se X é uma v.a. que tem distribui¸cão de Bernoulli de parâmetro p, então 1. GX(t) = (1 − p) + p et;

2. E(X) = p;

(27)

Se considerarmos N provas de Bernoulli, o modelo define-se da seguinte forma:

Defini¸c˜ao 3.3 Uma v.a. X tem distribui¸c˜ao binomial de parˆametros N e p (com N ∈ N e 0 ≤ p ≤ 1),

abreviadamente escreve-se X ∼ B(x, N, p) ou, simplesmente, X ∼ B(N, p), se a sua f.p. ´e tal que

fX(x) = ( N_C xpx(1 − p)N −x se x = 0, 1, 2, . . . , N 0 o.v. . Observa¸c˜oes 3.2

1. É evidente que uma v.a. com distribui¸cão binomial é uma v.a. discreta. Diz-se então que a distribui¸cão binomial é uma distribui¸cão discreta.

2. Se X ∼ B(N, p), ent˜ao FX(x) = P (X ≤ x) = P_x i=0NCipi(1 − p)N −i. 3. Obviamente, N X i=0 N_C ipi(1 − p)N −i= (p + (1 − p))N = 1.

Proposi¸c˜ao 3.3 Se X ´e uma v.a. tal que X ∼ B(N, p), ent˜ao 1. GX(t) = [(1 − p) + p et]N;

2. E(X) = N p;

3. Var(X) = N p(1 − p).

Exemplo 3.1 Considere-se a e.a.: Lan¸camento de um dado e registo do n´umero de pontos obtidos.

Qual ´e a probabilidade de se obter duas vezes a face 3 em 6 lan¸camentos do dado?

Resolu¸c˜ao: Defina-se

X = n´umero de vezes que ocorre a face 3, em 6 lan¸camentos. Ent˜ao, X ∼ B(6, p), em que p = P (A) = 1

6, com A = “sa´ıda da face 3”. Pretende-se calcular P (X = 2):

P (X = 2) =6_C 2 µ 1 6 ¶2µ 5 6 ¶4 ≈ 0.2009.

Observe-se ainda que E(X) = 6 ×1

6 = 1, Var(X) = 6 × 1 6× 5 6 = 5 6 e σX = r 5 6.

3.3 Distribui¸c˜

ao Geom´

etrica

Para a distribui¸cão binomial, o número de provas de Bernoulli era fixo. Agora, tomaremos uma sucessão infinita de provas de Bernoulli. A probabilidade de sucesso é p, constante de prova para prova, e uma variável aleatória com distribui¸cão geométrica representará o n´umero de provas de Bernoulli, independentes, de parâmetro p, até à ocorrência do primeiro sucesso. Assim,

Defini¸c˜ao 3.4 Uma v.a. X tem distribui¸c˜ao geom´etrica de parˆametro p, abreviadamente X ∼ Geo(p),

quando a sua f.p. for da forma

f (x) =

½

(1 − p)x−1_{p se x = 1, 2 . . . ,}

0 o.v. de x.

Proposi¸c˜ao 3.4 Se X ´e uma v.a. tal que X ∼ Geo(p), ent˜ao 1. GX(t) = p et 1 1 − (1 − p)et; 2. E(X) = 1 p; 3. V ar(X) = 1 − p p2 .

(28)

Teorema 3.5 Se X ´e uma v.a. tal que X ∼ Geo(p), ent˜ao, para quaisquer inteiros positivos s e t,

P (X > s + t|X > s) = P (X > t).

Observa¸c˜ao 3.3 Devido ao teorema anterior, é usual dizer-se que a distribui¸cão geométrica não tem memória,

já que, decorridas mais de s provas sem que tenha ocorrido um sucesso, a probabilidade de ainda ter de esperar mais t provas é exactamente igual à probabilidade de ter de esperar mais de t provas por um sucesso a partir no momento inicial.

3.4 Distribui¸c˜

ao Hipergeom´

etrica

Vimos que a distribui¸cão binomial é o modelo teórico adequado para estudar as propriedades dos esquemas probabil´ısticos do seguinte tipo: Considere-se um conjunto (popula¸cão) finito constitu´ıdo por M elementos de dois tipos (digamos, A e B) nas propor¸cões p e q = 1−p, do qual se retira ao acaso e com reposi¸cão N elementos; qual a probabilidade de obter x elementos de um determinado tipo (por exemplo, do tipo A), com 0 ≤ x ≤ N ? Observe-se que, no esquema anterior, a extraçcão de um determinado elemento não depende de uma extraçcão anterior, já que existe reposi¸cão desse elemento. Assim, as sucessivas provas (extraçcões) são inde-pendentes (provas de Bernoulli). Se os elementos forem retirados sucessivamente sem reposi¸cão (ou em bloco) a independência deixa de existir, pois a probabilidade de ocorrência de cada um dos resultados poss´ıveis não se mantém constante de prova para prova. Então, passaremos a ter um modelo probabil´ıstico diferente do binomial que se define da seguinte forma:

Defini¸c˜ao 3.5 Uma v.a. X segue uma distribui¸c˜ao hipergeom´etrica de parˆametros M , N e p

(simbolica-mente X ∼ H(M, N, p), se a sua f.p. ´e definida por

fX(x) =    Mp_C x·MqCN −x M_C N se x ∈ N0∧ max(0, N − M q) ≤ x ≤ min(N, M p) 0 o.v. de x , com q = 1 − p.

Proposi¸c˜ao 3.6 Se X ´e uma v.a. tal que X ∼ H(M, N, p), ent˜ao 1. E(X) = N p;

2. Var(X) = N p(1 − p)M − N

M − 1.

Observe-se que os valores esperados das distribui¸cões B(N, p) e H(M, N, p) é o mesmo e as variâncias apenas se distinguem pelo factor (M − N )/(M − 1). Quando M é grande comparado com N , naturalmente que se esbate a diferen¸ca entre extraçcões com e sem reposi¸cão. Nesta situa¸cão, (M − N )/(M − 1) é próximo da unidade e não surpreende o seguinte resultado:

Teorema 3.7 Com N e p fixos,

lim M →+∞ Mp_C x·MqCN −x M_C_N = N_C xpxqN −x,

isto é, a distribui¸cão hipergeométrica H(M, N, p) aproxima-se da distribui¸cão binomial B(N, p), para M grande.

Exemplo 3.2 De um grupo de 1000 habitantes de uma certa região há 2% que são proprietários das casas

que habitam. Se se colhe ao acaso uma amostra de 100 indiv´ıduos, com e sem reposi¸cão, são as seguintes as probabilidades de obter x indiv´ıduos com casa própria:

a) com reposi¸c˜ao: 100_C x(0.02)x(0.98)100−x; b) sem reposi¸c˜ao: 20_C x·980C100−x 1000_C₁₀₀ .

No quadro seguinte faz-se a compara¸cão dos respectivos valores não se tendo ido além de x = 9, por motivos óbvios.

(29)

x B(N = 100, p = 0.02) H(M = 1000, N = 100, p = 0.02) 0 0.1326 0.1190 1 0.2707 0.2701 2 0.2734 0.2881 3 0.1823 0.1918 4 0.0902 0.0895 5 0.0353 0.0311 6 0.0114 0.0083 7 0.0031 0.0018 8 0.0007 0.0003 9 0.0002 0.0000

Quando N < M/10, a distribui¸cão Binomial fornece já uma aproxima¸cão satisfatória da distribui¸cão Hiper-geométrica, podendo nesse caso beneficiar-se da sua maior acessibilidade.

3.5 Distribui¸c˜

ao de Poisson

A distribui¸cão de Poisson, desenvolvida por S.D. Poisson, permite descrever um vasto conjunto de fenómenos aleatórios em que os acontecimentos se repetem no tempo (por exemplo, as entradas de clientes num super-mercado) ou no espa¸co (por exemplo, os defeitos de isolamento registado ao longo de um cabo eléctrico ou os defeitos de acabamento numa placa de vidro).

Uma v.a. discreta que represente o número de ocorrências de uma dado acontecimento por unidade de tempo (ou espa¸co) seguirá uma distribui¸cão de Poisson se verificar as seguintes condi¸cões:

C1. O números de ocorrência registadas em diferentes intervalos de tempo (espa¸co) são independentes entre si. C2. A distribui¸cão do número de ocorrências em cada intervalo de tempo (espa¸co) é a mesma para todos os

intervalos.

C3. A probabilidade de se registar uma ocorrência num intervalo qualquer de dimensão (comprimento) ∆t, ∆P1, é praticamente proporcional à dimensão do intervalo, isto é, ∆P1≈ λ · ∆t.

Nestas condi¸c˜oes, temos a defini¸c˜ao seguinte:

Defini¸c˜ao 3.6 Uma v.a. X tem distribui¸c˜ao de Poisson de parˆametro λ > 0, simbolicamente X ∼ P oisson(λ),

se a sua f.p. ´e definida por

fX(x) =    e−λ_λx x! se x ∈ N0 0 o.v. de x . Observa¸c˜ao 3.4 Sendo eλ₌ +∞ X x=0 λx

x!, ent˜ao resulta de imediato que, se X ∼ P oisson(λ),

+∞ X x=0 P (X = x) = +∞ X x=0 e−λ_λx x! = e −λ +∞ X x=0 λx x! = e −λ_eλ_{= 1.}

Proposi¸c˜ao 3.8 Se X ´e uma v.a. tal que X ∼ P oisson(λ), ent˜ao 1. GX(t) = eλ(e

t₋₁

); 2. E(X) = λ; 3. Var(X) = λ;

Teorema 3.9 Se as v.a. Xi, para i = 1, 2, . . . , n, s˜ao independentes e Xi∼ P oisson(λi), i = 1, 2, . . . , n, ent˜ao

X = n X i=1 Xi∼ P oisson Ã _n X i=1 λi ! .

(30)

A distribui¸cão de Poisson foi descoberta quando este matemático estudava formas limite da distribui¸cão binomial. A forma como uma distribui¸cão binomial pode ser aproximada por uma distribui¸cão de Poisson é dada por:

Teorema 3.10 Seja X uma v.a. tal que X ∼ B(N, p). Então, quando N → +∞ e p é próximo de zero,

X ∼ P oisson(N p)o

Observa¸c˜ao 3.5 A qualidade da aproxima¸c˜ao depende de N , λ e x. Em geral: 1. Fixados λ e x, melhora quando N aumenta;

2. Fixados N e x, melhora quando λ se aproxima de zero; 3. Fixados N e λ, piora quando x se afasta de λ.

Conv´em ainda referir que, quando N → +∞ e, simultaneamente, p → 0 de forma que N p → λ, a qualidade de aproxima¸c˜ao piora.

Exemplo 3.3 Seja X ∼ B(1000, 0.001). Sabemos, por exemplo, que

P (X > 1) = 1 − P (X = 0) − P (X = 1)

= 1 −1000C0(0.001)0× (0.999)1000−1000C1(0.001)1× (0.999)999

= 0.264241087

e aproximando pela distribui¸c˜ao de Poisson:

X ∼ P oisson(1)o P (X > 1) ≈ 1 −e −1₁0 0! − e−1₁1 1! = 0.2642411177

O erro ´e inferior a 3.1 × 10−8_.

Seja Y ∼ B(2000, 0.001).

P (Y > 1) = 1 − P (Y = 0) − P (Y = 1)

= 1 −2000_C

0(0.001)0× (0.999)2000−2000C1(0.001)1× (0.999)1999

= 0.5941295533

e aproximando pela distribui¸c˜ao de Poisson:

Y ∼ P oisson(2)o

P (Y > 1) ≈ 1 −e−220

0! −

e−2₂1

1! = 0.5939941503

O erro ´e inferior a 1.4 × 10−4 _{mas superior a 3.1 × 10}−8_.

O interesse prático de aproximar uma distribui¸cão binomial por uma de Poisson resulta de o cálculo da fun¸cão de probabilidade ser mais simples no segundo caso. Tendo em conta o que foi referido na última observa¸cão e usando simula¸cões, tal aproxima¸cão só é razoável quando N ≥ 30 e só tem interesse quando a distribui¸cão Binomial for assimétrica com N p < 5. De facto, veremos mais à frente que se a distribui¸cão Binomial for simétrica (ou quase simétrica), é mais prático aproximá-la por uma outra distribui¸cão (a distribui¸cão Normal). A distribui¸cão de Poisson na forma como foi definida serve essencialmente para interpretar fenómenos (como os descritos anteriormente) num intervalo de tempo ou espa¸co de comprimento 1. Em geral, para um intervalo [0, t], a fun¸cão de probabilidade é dada por

P (X = x) = e

−λt_(λt)x

x! , x = 0, 1, 2, . . . ,