UNIVERSIDADE DA BEIRA INTERIOR
Apontamentos Te´
oricos
de
Probabilidades e Estat´ıstica
Jorge Gama
Cap´ıtulo 1
Teoria das Probabilidades
1.1
Introdu¸c˜
ao
Na Estat´ıstica Descritiva descreveram-se e analisaram-se conjuntos de observa¸c˜oes relativas a fen´omenos aleat´o-rios. Neste campo os conceitos estat´ısticos estabelecidos eram emp´ıricos. Embora esse estudo seja importante, ´e sem d´uvida limitado quando se pretende analisar e interpretar ou tomar decis˜oes no contexto dos fen´omenos em estudo.
Neste cap´ıtulo estudaremos as no¸c˜oes b´asicas da Teoria das Probabilidades, teoria esta que ´e o suporte sobre a qual assenta a teoria da an´alise, interpreta¸c˜ao e tomadas de decis˜ao no contexto do estudo dos fen´omenos aleat´orios, isto ´e, a Inferˆencia Estat´ıstica
A Teoria das Probabilidades (ou c´alculo das probabilidades) pode caracterizar-se como o modelo matem´atico das “regularidades”que se observam nas distribui¸c˜oes de frequˆencias correspondentes aos fen´omenos aleat´orios
Todo o modelo matem´atico parte de determinadas propriedades b´asicas: os axiomas.
No entanto, antes de abordarmos os axiomas da Teoria das Probabilidades ´e necess´ario introduzirmos/com-preendermos determinados conceitos.
Um fen´omeno diz-se aleat´orio quando o acaso interfere na ocorrˆencia de um ou mais dos resultados nos quais tal fen´omeno se pode traduzir. Conjugando determinado n´umero de condi¸c˜oes, um resultado aleat´orio pode ocorrer ou n˜ao. Assim, um fen´omeno aleat´orio caracteriza-se fundamentalmente pelo seguinte:
a) Pode ser repetido in´umeras vezes em idˆenticas condi¸c˜oes.
b) N˜ao se pode afirmar qual o resultado da realiza¸c˜ao de uma repeti¸c˜ao antes da sua realiza¸c˜ao.
c) Apesar de os resultados das experiˆencias se mostrarem irregulares, verifica-se que os resultados obtidos ao cabo de uma longa repeti¸c˜ao da experiˆencia apresentam regularidade estat´ıstica
Exemplos 1.1
1. Considere-se o lan¸camento ao ar de uma moeda e registo da face voltada para cima.
Observa¸c˜ao 1.1 No caso de uma moeda perfeita, repetido o lan¸camento um n´umero elevado de vezes verifica-se aproximadamente o mesmo n´umero de faces e coroas, isto ´e, pode prever-se qual a propor¸c˜ao de faces e coroas num grande n´umero de lan¸camentos (regularidade estat´ıstica).
2. Lan¸camento de um dado e registo do n´umero de pontos obtidos.
3. Extrac¸c˜ao de uma carta de um baralho e registo das suas caracter´ısticas.
4. Selec¸c˜ao ao acaso de um habitante de uma cidade com o objectivo de conhecer as suas despesas mensais. 5. Observa¸c˜ao do sexo de um rec´em-nascido numa s´erie de nascimentos.
1.2
Espa¸co de Resultados
Defini¸c˜ao 1.1 O conjunto de todos os resultados poss´ıveis associados a uma experiˆencia aleat´oria
denomina-se espa¸co de resultados (ou espa¸co-amostra, ou espa¸co amostral, ou espa¸co universal, ou, ainda, espa¸co fundamental)
Nota¸c˜ao 1.1 O espa¸co de resultados associado a uma dada experiˆencia aleat´oria ser´a designado por Ω.
Qual-quer resultado individual ´e designado por ω (ω ∈ Ω).
Observa¸c˜ao 1.2 Os elementos de Ω podem ser n´umeros, sequˆencias de n´umeros, atributos ou grupos de
atri-butos ou, ainda, uma combina¸c˜ao de elementos quantitativos e qualitativos.
Exemplos 1.2
1. No lan¸camento de uma moeda se designarmos por F a face e por C a coroa, o espa¸co de resultados ´e Ω = {F, C}.
2. No lan¸camento de um dado de seis faces existem seis resultados poss´ıveis. Designando por j, com j = 1, . . . , 6, o resultado que consiste na “apari¸c˜ao da face com o n´umero j de pontos”, o espa¸co de re-sultados ´e
Ω = {1, 2, 3, 4, 5, 6}.
3. No lan¸camento de uma moeda e de um dado, o espa¸co de resultados poder´a ser descrito por: Ω = {F 1, F 2, F 3, F 4, F 5, F 6, C1, C2, C3, C4, C5, C6}.
1.3
Acontecimentos Aleat´
orios
Defini¸c˜ao 1.2 Os subconjuntos de Ω designam-se por acontecimentos. Nota¸c˜ao 1.2
1. Os acontecimentos ser˜ao designados por letras mai´usculas (A, B, C, . . . , A1, A2, . . . ).
2. Representaremos por P(Ω) as partes de Ω, isto ´e, o conjunto de todos o acontecimentos de Ω. Observa¸c˜oes 1.3
1. Obviamente, Ω ´e um acontecimento (dito acontecimento certo) ( Ω ∈ P(Ω)).
2. Ao acontecimento formado por um ´unico elemento ({ω}) damos a designa¸c˜ao de acontecimento elemen-tar.
3. O acontecimento ∅ denomina-se de acontecimento imposs´ıvel ( ∅ ∈ P(Ω)). Exemplo 1.3 No lan¸camento de duas moedas
Ω = {(F, F ), (F, C), (C, F ), (C, C)}
ou, simplesmente,
Ω = {F F, F C, CF, CC} .
Acontecimentos elementares: {F F }, {F C}, {CF } e {CC}. Outros acontecimentos:
A = {F C, CF } ≡ sa´ıda de exactamente uma face (ou de exactamente uma coroa); B = {F F, F C} ≡ sa´ıda de face na 1a moeda;
C = {F C, CF, CC} ≡ sa´ıda de pelo menos uma coroa
1.3.1
Principais Conceitos da ´
Algebra de Acontecimentos
Como, por defini¸c˜ao, os acontecimentos s˜ao conjuntos, podemos concluir que existe paralelismo entre a ´algebra dos conjuntos e a ´algebra dos acontecimentos. Assim, podemos usar os s´ımbolos: ⊂, ⊃, ⊆, ⊇, =, ∪, ∩, \, etc.
Quest˜
oes de Linguagem
Quando se diz que um acontecimento ocorre (se realiza) ´e porque se observou a ocorrˆencia (realiza¸c˜ao) de um seu elemento no contexto de uma experiˆencia aleat´oria. Por exemplo, no lan¸camento de um dado de seis faces, se a face voltada para cima era o elemento 2, ent˜ao o acontecimento {1, 2, 3} ocorreu.
1) A ocorrˆencia (realiza¸c˜ao) de A implica a ocorrˆencia de B se, e somente se, todo o elemento de A ´e elemento de B. Escreve-se, ent˜ao, A ⊂ B.
2) A e B s˜ao idˆenticos se, e somente se, a ocorrˆencia de um implica a ocorrˆencia do outro, isto ´e, A ⊂ B e
B ⊂ A. Escreve-se A = B.
3) Intersec¸c˜ao ou produto l´ogico de A por B ´e o acontecimento que ocorre se, e somente se, A e B ocorrem simultaneamente. Representa-se este acontecimento por A ∩ B (ou AB).
4) Reuni˜ao entre os acontecimentos A e B ´e o acontecimento que ocorre se, e somente se, A ou B ocorre, isto ´e, pelo menos um deles. Representa-se este acontecimento por A ∪ B.
5) A e B dizem-se incompat´ıveis se, e somente se, a ocorrˆencia de um deles implica a n˜ao ocorrˆencia do outro, isto ´e, A ∩ B = ∅.
Os acontecimentos A1, A2, . . . , An dizem-se mutuamente exclusivos se, e somente se, Ai∩ Aj= ∅, para
i 6= j.
6) Diferen¸ca entre B e A ´e o acontecimento que ocorre se, e somente se, B ocorre sem que ocorra A. Representa-se por B \ A (ou B − A).
7) Quando A ⊂ B, B \ A ´e o acontecimento complementar de A em rela¸c˜ao a B.
Em particular, Ω\A designa-se por acontecimento complementar (contr´ario) de A e ocorre se, e somente se, A n˜ao ocorre. ´E usual representar-se por A.
Nota: A ∩ A = ∅ e A ∪ A = Ω.
8) Diferen¸ca sim´etrica entre A e B ´e o acontecimento que ocorre se, e somente se, ou ocorre A ou ocorre B, isto ´e, ocorre um e um s´o dos acontecimentos, ou ainda, ocorre A ou B, mas n˜ao simultaneamente os dois. Este acontecimento representa-se por A∆B e A∆B = (A \ B) ∪ (B \ A) = (A ∪ B) \ (A ∩ B).
Proposi¸c˜oes 1.1 Sejam Ω um espa¸co de resultados associado a uma dada experiˆencia aleat´oria e
A, B, C ∈ Ω.
1. A opera¸c˜ao reuni˜ao (resp. intersec¸c˜ao) ´e associativa:
A ∪ (B ∪ C) = (A ∪ B) ∪ C (A ∩ (B ∩ C) = (A ∩ B) ∩ C) .
2. A opera¸c˜ao reuni˜ao (resp. intersec¸c˜ao) ´e comutativa:
A ∪ B = B ∪ A (A ∩ B = B ∩ A) .
3. A opera¸c˜ao reuni˜ao (resp. intersec¸c˜ao) ´e distributiva relativamente `a opera¸c˜ao intersec¸c˜ao (resp. reuni˜ao):
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) (A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)) .
4. A opera¸c˜ao reuni˜ao (resp. intersec¸c˜ao) ´e idempotente:
A ∪ A = A (A ∩ A = A) .
5. i) A ⊂ B ⇒ A ∪ B = B ii) A ⊂ B ⇒ A ∩ B = A.
6. i) A ∪ Ω = Ω ii) A ∪ ∅ = A iii) A ∩ Ω = A iv) A ∩ ∅ = ∅. 7. Leis de De Morgan:
i) A ∪ B = A ∩ B ii) A ∩ B = A ∪ B. 8. A \ B = A ∩ B.
9. A = A.
10. i) (A ∩ B) ∪ (A ∩ B) = A ii) (A ∩ B) ∩ (A ∩ B) = ∅.
1.4
Axiomas da Teoria das Probabilidades
Defini¸c˜ao 1.3 Seja Ω um espa¸co de resultados associado a uma dada experiˆencia aleat´oria. Chama-se proba-bilidade a uma fun¸c˜ao P : P(Ω) −→ R que satisfaz os seguintes axiomas:
(A1) P (A) ≥ 0; para todo o acontecimento A. (A2) P (Ω) = 1;
(A3) Se A1, A2, A3, . . . , s˜ao acontecimentos mutuamente exclusivos, isto ´e, Ai∩ Aj= ∅, para i 6= j, ent˜ao
P [ i≥1 Ai =X i≥1 P (Ai) .
Proposi¸c˜oes 1.2 Sejam Ω um espa¸co de resultados e A, B e C trˆes acontecimentos, quaisquer. 1. P¡A¢= 1 − P (A);
3. P (A \ B) = P (A) − P (A ∩ B); 4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B); 5. P (A ∪ B) ≤ P (A) + P (B); 6. A ⊆ B ⇒ P (A) ≤ P (B); 7. 0 ≤ P (A) ≤ 1; 8. P (A∆B) = P (A) + P (B) − 2P (A ∩ B); 9. P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).
1.5
Espa¸cos de Resultados Finitos. Defini¸c˜
ao Cl´
assica de
Probabi-lidade
Suponhamos que o espa¸co de resultados Ω ´e finito. Ent˜ao Ω = {ω1, ω2, . . . , ωn}. Vamos admitir a hip´otese de
equiprobabilidade, isto ´e, vamos admitir que
P ({ω1}) = P ({ω2}) = · · · = P {ωn}).
Assim, podemos deduzir que o valor comum destas probabilidades ´e 1
n. De facto tem-se P (Ω) = 1 ⇔ ⇔ P Ã n [ i=1 {ωi} ! = 1 ⇔ n X i=1 P ({ωi}) = 1 ⇔ nP ({ωj}) = 1, para j = 1, . . . , n ⇔ P ({ωj}) = 1 n, para j = 1, . . . , n.
E para qualquer acontecimento A = {ωi1, ωi2, . . . , ωim}, obtemos, por processos an´alogos,
P (A) = m n.
Isto ´e, a probabilidade de um acontecimento ´e o quociente entre o n´umero de resultados (casos) favor´aveis `a ocorrˆencia do acontecimento e o n´umero de resultados poss´ıveis considerados como equiprov´aveis (Regra Cl´assica de Laplace): P (A) = n ode casos favor´aveis node casos poss´ıveis = #A #Ω.
1.6
Probabilidades Condicionadas. Independˆ
encia
Defini¸c˜ao 1.4 Sejam Ω um espa¸co de resultados e A e B dois acontecimentos, em que P (B) > 0. A nova
fun¸c˜ao
P (A|B) = P (A ∩ B) P (B)
denomina-se probabilidade condicional (ou condicionada) de A (por B).
Observa¸c˜oes 1.4
1. Obviamente, com B fixo, P ( . |B) satisfaz os axiomas das probabilidades.
2. P (A|B) ≡ prob. de ocorrer A, dado que ocorreu B (ou prob. de A condicionada pela realiza¸c˜ao de B). Teorema 1.3 Sejam A1, A2, . . . , An acontecimentos tais que P (A1∩ A2∩ . . . ∩ An−1) > 0. Ent˜ao
Defini¸c˜ao 1.5 Dois acontecimentos A e B dizem-se independentes se, e somente se,
P (A ∩ B) = P (A) · P (B).
Dois acontecimentos s˜ao independentes se a probabilidade da ocorrˆencia de um n˜ao afecta a probabilidade da ocorrˆencia do outro. O teorema seguinte justifica esta afirma¸c˜ao.
Teorema 1.4 Os acontecimentos A e B de probabilidade positiva s˜ao independentes se, e somente se,
P (A|B) = P (A) (ou P (B|A) = P (B)).
Defini¸c˜ao 1.6 Os acontecimentos A1, A2, . . . , An s˜ao mutuamente independentes se, e somente se, para todos
os inteiros i1, i2, . . . , ik, satisfazendo as condi¸c˜oes
1 ≤ i1< i2< i3< · · · < ik ≤ n,
se tem
P (Ai1∩ Ai2∩ . . . ∩ Aik) = P (Ai1)P (Ai2) · · · P (Aik).
Exemplo 1.4 Considerem-se 4 cartas numeradas de 1 a 4. Tira-se ao acaso uma carta e admita-se a hip´otese
de equiprobabilidade. Sejam:
E1= “a carta retirada ´e 1 ou 4”;
E2= “a carta retirada ´e 1 ou 3”;
E3= “a carta retirada ´e 1 ou 2”.
Observe-se que P (E1) = P (E2) = P (E3) = 1 2 e P (E1∩ E2) = 1 4 = 1 2× 1 2 = P (E1) · P (E2). Logo, E1 e E2 s˜ao independentes.
Analogamente, pode mostrar-se que E1 e E3 s˜ao independentes, assim como E2 e E3. No entanto, os trˆes
acontecimentos n˜ao s˜ao independentes, pois
P (E1∩ E2∩ E3) = 1 4 e P (E1) · P (E2) · P (E3) = 1 2× 1 2 × 1 2 = 1 8.
Teorema 1.5 (Teorema da Probabilidade Total) Sejam A1, A2, . . . , An acontecimentos mutuamente
ex-clusivos (Ai∩ Aj = ∅, para i 6= j) e exaustivos (∪ni=1Ai = Ω). Se P (Ai) > 0, para i = 1, . . . , n, ent˜ao, para
qualquer acontecimento B,
P (B) = P (B|A1) · P (A1) + P (B|A2) · P (A2) + · · · + P (B|An) · P (An)
=
n
X
i=1
P (B|Ai) · P (Ai).
Observa¸c˜ao 1.5 Quando os acontecimentos s˜ao mutuamente exclusivos e exaustivos ´e vulgar utilizar o termo parti¸c˜ao (de Ω) para os designar. Observe o diagrama seguinte:
Corol´ario 1.6 Seja A um acontecimento tal que 0 < P (A) < 1. Ent˜ao, para qualquer acontecimento B,
P (B) = P (B|A) · P (A) + P (B|A) · P (A).
Teorema 1.7 (Teorema de Bayes) Sejam A1, A2, . . . , An acontecimentos mutuamente exclusivos e
exausti-vos. Se P (Ai) > 0, para i = 1, . . . , n, e B ´e um acontecimento tal que P (B) > 0, ent˜ao
P (Aj|B) = XnP (B|Aj) · P (Aj) i=1
P (B|Ai) · P (Ai)
, i = 1, 2, . . . , n.
Cap´ıtulo 2
Vari´
aveis Aleat´
orias Reais.
Distribui¸c˜
oes de Probabilidade
2.1
Defini¸c˜
ao de Vari´
avel Aleat´
oria
´
E sabido que numa experiˆencia aleat´oria o espa¸co de resultados, Ω, pode ter ou n˜ao car´acter quantitativo. Por exemplo, no lan¸camento de uma moeda o espa¸co de resultados que lhe est´a associado tem car´acter qualitativo, mas se no lan¸camento de trˆes moedas estivermos interessados no n´umero de faces, o espa¸co de resultados que lhe est´a associado j´a tem car´acter quantitativo.
A aplica¸c˜ao de procedimentos estat´ısticos passa, correntemente, pela atribui¸c˜ao de um n´umero real a cada elemento ω ∈ Ω. Essa atribui¸c˜ao pode ser at´e puramente convencional. No entanto, esta atribui¸c˜ao ter´a que ser feita com cuidado por forma a podermos calcular a probabilidade de ocorrˆencia de valores em intervalos reais. Da´ı a defini¸c˜ao seguinte.
Defini¸c˜ao 2.1 Seja Ω um espa¸co de resultados associado a uma dada experiˆencia aleat´oria. Chama-se vari´avel aleat´oria (abreviadamente, v.a.) a uma fun¸c˜ao X : Ω −→ R tal que Ar = {ω ∈ Ω : X(ω) ≤ r}, com r ∈ R,
seja um acontecimento.
Nota¸c˜ao 2.1 ´E usual representarem-se as vari´aveis aleat´orias pelas ´ultimas letras mai´usculas: X, Y , Z, W , X1, X2, . . . , Y1, . . . .
O restri¸c˜ao imposta `a fun¸c˜ao X tem como objectivo que o seu contradom´ınio seja um novo espa¸co de resul-tados em que a cada um dos seus elementos associa-se uma probabilidade, calcul´avel a partir das probabilidades de ocorrˆencia dos resultados iniciais.
As vantagens da utiliza¸c˜ao de vari´aveis aleat´orias torna-se evidente em muitos casos que nos ir˜ao surgindo. Uma dessas vantagens surge em in´umeros casos onde n˜ao interessa apreciar os elementos de Ω com todos os pormenores de que se revestem, mas sim focarmos a nossa aten¸c˜ao na caracter´ıstica num´erica em estudo. Os exemplos seguintes ilustram este ponto de vista.
Exemplos 2.1
1. O espa¸co de resultados associado ao lan¸camento de uma moeda trˆes vezes pode ser definido por Ω = {F F F, F F C, F CF, F CC, CCC, CCF, CF F, CF C}.
Considere-se a seguinte vari´avel aleat´oria: X = n´umero de faces.
Esta vari´avel aleat´oria tem como contradom´ınio Ω0= {0, 1, 2, 3} e, admitindo-se a hip´otese de
P (X = 0) = P ({CCC}) = 1 8 P (X = 1) = P ({F CC, CCF, CF C}) = 3 8 P (X = 2) = P ({F F C, F CF, CF F }) = 3 8 P (X = 3) = P ({F F F }) = 1 8
A partir dos c´alculos anteriores podemos calcular a probabilidade de outros acontecimentos. Por exemplo, a probabilidade de ocorrer pelo menos duas faces:
P (X ≥ 2) = P (X = 2) + P (X = 3) = 1
2.
Ou ainda, a probabilidade de ocorrer menos de 3 faces:
P (X < 3) = 1 − P (X = 3) = 7
8.
2. Considere-se uma popula¸c˜ao de empresas das quais se escolhe uma ao acaso. O espa¸co de resultados ´e Ω = {ω1, ω2, . . . , ωn}, onde n ´e o n´umero total de empresas na popula¸c˜ao. Consoante os objectivos do
estudo, diversas vari´aveis aleat´orias podem ser definidas. Eis alguns exemplos:
X1= n´umero de empregados de uma empresa;
X2= capital social de uma empresa;
X3= volume anual de vendas de uma empresa.
Proposi¸c˜ao 2.1 Sejam Ω um espa¸co de resultados, X : Ω −→ R e Y : Ω −→ R duas vari´aveis aleat´orias, e
c ∈ R. Ent˜ao,
i) X + Y ´e uma vari´avel aleat´oria; ii) c · X ´e uma vari´avel aleat´oria; iii) X · Y ´e uma vari´avel aleat´oria.
Defini¸c˜ao 2.2 Seja X uma v.a.. Chama-se `a fun¸c˜ao FX(ou F) fun¸c˜ao de distribui¸c˜ao (cumulativa) (f.d.)
de X, se FX : R −→ [0, 1] tal que
FX(x) = P (X ≤ x),
para todo x ∈ R.
A f.d., F (x), de uma v.a. X goza das seguintes propriedades: Teorema 2.2
1. 0 ≤ F (x) ≤ 1;
2. F (x) ´e n˜ao decrescente; 3. F (−∞) = lim
x→−∞F (x) = 0; F (+∞) = limx→+∞F (x) = 1;
4. Para valores x1 e x2 quaisquer, finitos, com x2> x1, tem-se P (x1< X ≤ x2) = F (x2) − F (x1);
5. F (x) ´e cont´ınua `a direita, isto ´e, lim
x→a+F (x) = F (a);
6. P (X = a) = F (a) − F (a−) = F (a) − lim x→a−F (x).
Defini¸c˜ao 2.3 Sejam X uma v.a. e D = {a : P (X = a) > 0} um conjunto, quando muito numer´avel, dos
pontos de descontinuidade de uma f.d.. A v.a. X diz-se discreta quando P (X ∈ D) = 1; a v.a. diz-se n˜ao discreta quando P (X ∈ D) < 1.
Quando X ´e uma v.a. discreta existe um conjunto finito ou infinito numer´avel, D = {a1, a2, . . .}, tal que,
P (X ∈ D) =X
i
P (X = ai) = 1,
P (X = ai) > 0, i = 1, 2, . . . .
Estas duas propriedades permitem especificar a probabilidade de qualquer acontecimento de R em termos de uma soma ou s´erie de parcelas do tipo P (X = ai), com ai∈ D. De facto, com E ⊂ R,
P (X ∈ E) = P (X ∈ E ∩ D) + P (X ∈ E ∩ D);
como E ∩ D ⊂ D e P (X ∈ D) = 0, vem,
P (X ∈ E) = X
ai∈E∩D
P (X = ai).
Esta propriedade torna ´util a seguinte defini¸c˜ao:
Defini¸c˜ao 2.4 Seja X uma v.a. discreta. Chama-se fun¸c˜ao de probabilidade (f.p.) de X `a fun¸c˜ao fX (ou
f ) definida por:
fX(x) =
½
P (X = x) se x ∈ D
0 se x ∈ D
Defini¸c˜ao 2.5 Seja X uma v.a. e F (x) a respectiva f.d.. A v.a. X diz-se cont´ınua se
D = {a : P (X = a) > 0} = ∅
e existe uma fun¸c˜ao n˜ao negativa, fX(x) ≥ 0 (ou f), tal que
FX(x) =
Z x
−∞
fX(u) du.
A esta fun¸c˜ao fX(x) chama-se fun¸c˜ao de densidade de probabilidade, (f.d.p.), ou simplesmente fun¸c˜ao
de densidade. Observa¸c˜oes 2.1
1. Mostra-se que, se D = {a : P (X = a) > 0} = ∅, ent˜ao F (x) n˜ao apresenta descontinuidades.
2. Atendendo `as defini¸c˜oes anteriores e aos axiomas das probabilidades mostra-se que toda a fun¸c˜ao de probabilidade (resp. densidade) satisfaz as condi¸c˜oes:
i) f (x) ≥ 0, ∀x ∈ R. ii) Pif (xi) = 1 (resp.
R+∞
−∞ f (u) du = 1).
3. Se X ´e uma v.a. discreta, ent˜ao FX(x) =
P
{i: xi≤x}fX(xi).
4. Se X ´e uma v.a. cont´ınua, ent˜ao F0
X(x) = fX(x), excepto num conjunto finito ou infinito numer´avel de
pontos x de probabilidade nula.
Exemplos 2.2
1. Consideremos novamente o exemplo 1. dos Exemplos 2.1. A fun¸c˜ao de probabilidade desta v.a. ´e definida
por: x 0 1 2 3 f (x) 1 8 3 8 3 8 1 8
E graficamente,
A sua fun¸c˜ao de distribui¸c˜ao ´e definida por:
F (x) = 0 se x < 0 1 8 se 0 ≤ x < 1 1 2 se 1 ≤ x < 2 7 8 se 2 ≤ x < 3 1 se x ≥ 3 ,
ou, em forma de tabela,
x x < 0 0 ≤ x < 1 1 ≤ x < 2 2 ≤ x < 3 x ≥ 3 F (x) 0 1 8 1 2 7 8 1 E, graficamente,
Nota: O gr´afico da fun¸c˜ao de distribui¸c˜ao de uma vari´avel discreta ´e sempre em escada. 2. Seja Y uma v.a. cuja fun¸c˜ao de distribui¸c˜ao ´e definida por
F (y) = 0 se y < 0 y 3 se 0 ≤ y < 3 1 se y ≥ 3 .
Ent˜ao, a sua fun¸c˜ao de densidade pode ser definida por
f (y) = 1 3 se 0 ≤ y ≤ 3 0 se y < 0 ∨ y > 3 . E os seus gr´aficos:
Nota: O valor da probabilidade num intervalo corresponde a uma ´area entre o eixo das abcissas e o gr´afico
de f , no intervalo considerado.
2.2
Medidas de Localiza¸c˜
ao e Dispers˜
ao. Momentos
2.2.1
Medidas de Localiza¸c˜
ao
Defini¸c˜ao 2.7 Denomina-se m´edia, esperan¸ca matem´atica ou valor esperado de uma v.a. X ao n´umero,
caso exista, µX ou E(X) definido por:
i) E(X) =Pixif (xi), se X ´e uma v.a. discreta tomando valores em {x1, x2, . . .}.
ii) E(X) =R−∞+∞xf (x) dx, se X ´e cont´ınua.
Exemplos 2.3
1. Considerando novamente o exemplo 1 dos Exemplos 2.1,
E(X) = 0 × 1 8+ 1 × 3 8+ 2 × 3 8 + 3 × 1 8 = 3 2. 2. Se f (y) = 1 3 se 0 ≤ y ≤ 3 0 se y < 0 ∨ y > 3 ´e a fun¸c˜ao de densidade de probabilidade de uma v.a. Y , ent˜ao
E(Y ) = Z +∞ −∞ yf (y) dy = Z 0 −∞ y × 0 dy + Z 3 0 y 3dy + Z +∞ 3 y × 0 dy = 3 2.
Defini¸c˜ao 2.8 Seja X uma v.a. e φ(X) uma fun¸c˜ao de X. 1. E(φ(X)) =Piφ(xi)fX(xi), se X ´e discreta;
2. E(φ(X)) =R−∞+∞φ(x)fX(x) dx, se X ´e cont´ınua.
Proposi¸c˜oes 2.3 Sejam X e Y duas vari´aveis aleat´orias, φ(X) uma fun¸c˜ao de X, e a e b constantes reais. 1. E(a) = a;
2. E(a φ(X)) = a E(φ(X));
3. E(a X + b Y ) = a E(X) + b E(Y ).
Outras medidas de localiza¸c˜ao de uma v.a., alternativas `a m´edia, s˜ao a mediana (ηX) e a moda (mX).
Defini¸c˜ao 2.9 Seja X uma vari´avel aleat´oria. A mediana de X ´e o valor de x que satisfaz as desigualdades,
P (X ≤ x) ≥ 1
2 e P (X ≥ x) ≥ 1 2,
e representa-se por ηX ou, simplesmente, η. Em termos da fun¸c˜ao de distribui¸c˜ao, a dupla desigualdade ´e
equivalente a
1
2 ≤ F (x) ≤ 1
Se X ´e cont´ınua, a mediana ´e o valor x que satisfaz, F (x) = Z x −∞ f (u) du =1 2.
Se existir mais do que um valor que sirva para mediana, ent˜ao toma-se para mediana
η =xmin+ xmax
2 ,
onde xmin e xmax representam, respectivamente, o m´ınimo e o m´aximo do conjunto de solu¸c˜oes.
Podemos, a partir da ideia de mediana, definir parˆametros usando outros valores de probabilidade.
Defini¸c˜ao 2.10 Dado qualquer n´umero p, 0 < p < 1, define-se p-´esimo quantil de uma v.a. ou de uma
distribui¸c˜ao como o valor x que satisfaz as desigualdades,
P (X ≤ x) ≥ p, P (X ≥ x) ≥ 1 − p,
isto ´e,
p ≤ F (x) ≤ p + P (X = x).
Se a v.a. ´e do tipo cont´ınua, o quantil de ordem p ´e o n´umero x que satisfaz a equa¸c˜ao,
F (x) = p ou
Z x
−∞
f (u) du = p.
O quantil de ordem p ser´a representado por ζp.
Em particular, com p = s/4, s = 1, 2, 3, obt´em-se os quartis, sendo o quartil de ordem 2 a mediana; com
p = s/10, s = 1, 2, . . . , 9, os decis, com p = s/100, s = 1, 2, . . . , 99, obt´em-se os percentis.
Defini¸c˜ao 2.11 Chama-se moda de uma v.a. X, mX, a um valor da vari´avel (caso exista) do seu
contra-dom´ınio para o qual fX (fun¸c˜ao de probabilidade ou fun¸c˜ao de densidade de probabilidade de X) toma um valor
m´aximo.
Exemplos 2.4
1. No contexto do exemplo 1. dos Exemplos 2.1,
ηX= 1 + 2
2 =
3 2
e tem duas modas (bimodal), m1= 1 e m2= 2.
Nota: No caso de vari´aveis aleat´orias discretas, existe alguma bibliografia que considera para moda o ponto
m´edio dos valores adjacentes da vari´avel que maximizam a fun¸c˜ao de probabilidade.
2. No contexto do exemplo 2. dos Exemplos 2.2, existem uma infinidade de modas. Qualquer valor do
intervalo [0, 3] ´e uma moda.
2.2.2
Medidas de Dispers˜
ao
Defini¸c˜ao 2.12
1. Se X ´e uma v.a. discreta tomando valores em {x1, x2, . . .}, chama-se desvio absoluto m´edio `a medida de
dispers˜ao definida por
δX =
X
i
|xi− µX| · fX(xi).
2. Se X ´e uma v.a. cont´ınua, o desvio absoluto m´edio define-se por
δX =
Z +∞
−∞
Outra quantidade de grande importˆancia, que permite definir outra medida de dispers˜ao, ´e a variˆancia de uma vari´avel aleat´oria.
Defini¸c˜ao 2.13
1. Se X ´e uma v.a. discreta tomando valores em {x1, x2, . . .}, a variˆancia de X, σX2 ou Var(X), define-se por
Var(X) =X
i
(xi− µX)2· fX(xi).
2. Se X ´e uma v.a. cont´ınua, a variˆancia define-se por
Var(X) =
Z +∞
−∞
(x − µX)2· fX(x) dx.
Observa¸c˜ao 2.2 ´E evidente que Var(X) = E£(X − µX)2
¤
.
Proposi¸c˜oes 2.4 Se X ´e uma v.a., ent˜ao 1. Var(X) = E(X2) − [E(X)]2
(f´ormula de K¨oenigs).
2. Var(aX) = a2Var(X), com a uma constante real.
Observa¸c˜ao 2.3 E(X2) =P
ix2ifX(xi), se X ´e uma v.a. discreta, ou E(X2) =
R+∞
−∞ x2fX(x) dx, se X ´e uma
v.a. cont´ınua.
`
A custa da variˆancia define-se outra medida de dispers˜ao.
Defini¸c˜ao 2.14 Chama-se desvio padr˜ao de uma v.a. X `a medida de dispers˜ao definida por
σ =pVar(X).
2.2.3
Vari´
aveis Estandardizadas
Defini¸c˜ao 2.15 Seja X uma v.a. com m´edia µ e desvio padr˜ao σ. A v.a.
Z = X − µ σ diz-se normalizada ou estandardizada.
Proposi¸c˜ao 2.5 A v.a. Z = X − µ
σ tem m´edia 0 e desvio padr˜ao 1.
A estandardiza¸c˜ao de uma v.a. permite uma mudan¸ca de escala e observe-se que uma v.a. estandardizada n˜ao tem unidades. Desta forma, ´e poss´ıvel comparar as distribui¸c˜oes de vari´aveis aleat´orias distintas.
2.2.4
Momentos
O valor esperado e a variˆancia pertencem a uma fam´ılia de parˆametros que se designam por momentos. Enquanto o valor esperado pertence `a subfam´ılia dos momentos ordin´arios (ou momentos na origem), a variˆancia pertence `a subfam´ılia dos momentos centrados. Vejamos como se definem.
Defini¸c˜ao 2.16 Chama-se momento ordin´ario de ordem k ao parˆametro
µ0k =
X
i
xki · fX(xi),
se X ´e uma v.a. discreta, ou
µ0 k= Z +∞ −∞ xk· f X(x) dx,
se X ´e uma v.a. cont´ınua.
Observa¸c˜ao 2.4 ´E evidente que o valor esperado ´e o momento ordin´ario de primeira ordem (µ0
Defini¸c˜ao 2.17 Chama-se momento centrado (na m´edia) de ordem k ao parˆametro
µk =
X
i
(xi− µX)k· fX(xi),
se X ´e uma v.a. discreta, ou
µk =
Z +∞
−∞
(x − µX)k· fX(x) dx,
se X ´e uma v.a. cont´ınua.
Observa¸c˜ao 2.5 Repare-se que a variˆancia ´e o momento centrado de segunda ordem (µ2= σ2).
Existem express˜oes que relacionam os momentos ordin´arios com os momentos centrados. De facto, qualquer momento centrado de ordem k pode exprimir-se em fun¸c˜ao dos momentos ordin´arios de ordem n˜ao superior a
k e vice-versa: µk = k X i=0 (−1)ikCi(µ01)iµ0k−1 e µ0k= k X i=0 kC i(µ01)iµk−i.
Observe-se que, na primeira express˜ao fazendo-se k = 2, obt´em-se a f´ormula de K¨oenigs.
Al´em dos momentos j´a definidos, existem outros momentos centrados (centrados em outro parˆametros) e ainda os momentos absolutos ordin´arios ou centrados. O desvio absoluto m´edio ´e o momento absoluto centrado (na m´edia) de primeira ordem.
Todos os parˆametros definidos (caso existam) caracterizam uma distribui¸c˜ao. Para que duas distribui¸c˜oes sejam iguais ´e necess´ario que tenham a mesma sequˆencia de momentos. No entanto, esta condi¸c˜ao n˜ao ´e suficiente, pois uma sequˆencia de momentos n˜ao determina univocamente uma distribui¸c˜ao. Para que tal suceda, ´e necess´ario garantir a existˆencia de uma fun¸c˜ao que ´e designada por fun¸c˜ao geradora de momentos. Este assunto ser´a abordado na subsec¸c˜ao seguinte.
Na pr´atica, raramente s˜ao calculados momentos de ordem superior a 4, pois tais momentos s˜ao de dif´ıcil caracteriza¸c˜ao. No entanto, a igualdade de momentos n˜ao superiores a 4 ´e suficiente para que duas distribui¸c˜oes sejam aproximadamente iguais. Vejamos algumas utiliza¸c˜oes destes momentos.
Uma v.a. X ´e sim´etrica ou possui uma distribui¸c˜ao sim´etrica, se existe um n´umero a tal que, para todo o
x, P (X < a − x) = P (X > a + x), isto ´e,
F (a − x) − P (X = a − x) = 1 − F (a + x).
O ponto a ´e chamado centro de simetria. Se a v.a. ´e do tipo cont´ınuo, deduz-se da igualdade anterior que a sua f.d.p., nos pontos onde ´e cont´ınua, satisfaz a equa¸c˜ao,
f (a − x) = f (a + x).
Se a v.a. ´e do tipo discreto, os pontos de salto e as correspondentes probabilidades disp˜oem-se simetricamente em rela¸c˜ao a a.
Quando uma distribui¸c˜ao ´e sim´etrica ´e f´acil concluir que os momentos centrados na m´edia de ordem ´ımpar s˜ao nulos. Assim, desejando-se caracterizar a assimetria por meio de um parˆametro, parece natural a utiliza¸c˜ao de um desses momentos, preferivelmente o de ordem 3, µ3. Como este momento ´e de terceira ordem em termos
da unidade original, leva a que se utilize para medida de assimetria o parˆametro
γ1=µ3 σ3 ou β1= µ 2 3 µ3 2 = γ12.
Quando a assimetria ´e positiva (ramo esquerdo mais abrupto) s˜ao os desvios positivos que predominam no c´alculo de µ3, que, por esse facto, leva a que γ1> 0. A assimetria negativa caracteriza-se por γ1< 0.
Outra fun¸c˜ao de momentos com algum interesse ´e,
β2=
µ4
µ2 2
,
que ´e usado para medir o excesso de Kurtosis da distribui¸c˜ao, conceito associado com o achatamento da f.d.p. ou f.p. na zona central da distribui¸c˜ao. Costuma usar-se como meio de compara¸c˜ao a distribui¸c˜ao Normal estandardizada (que estudaremos no cap´ıtulo seguinte). Nesta distribui¸c˜ao µ4= 3 e µ2= 1. Assim, em vez de
β2, usa-se por vezes,
2.2.5
Desigualdades Importantes para Momentos
Teorema 2.6 (Desigualdade de Markov) Seja ϕ(X) uma fun¸c˜ao de uma v.a. X. Se existir E[ϕ(X)], ent˜ao,
para qualquer n´umero real c > 0,
P (ϕ(X) ≥ c) ≤ 1
cE[ϕ(X)].
Corol´ario 2.7 Se X ´e uma v.a. n˜ao negativa e se existir E(X), ent˜ao, para qualquer n´umero real c > 0,
P (X ≥ c) ≤ E(X) c .
Corol´ario 2.8 Se X ´e uma v.a. e se existir E(X), ent˜ao, para qualquer n´umero real c > 0,
P (|X| ≥ c) ≤ E(|X|) c .
Corol´ario 2.9 Se X ´e uma v.a. e se existir E(|X|r), para qualquer n´umero real r > 0, ent˜ao, para qualquer
n´umero real c > 0,
P (|X| ≥ c) ≤ E(|X|
r)
cr .
Corol´ario 2.10 Se X ´e uma v.a. com m´edia µ e variˆancia σ2, finita, ent˜ao, para qualquer n´umero real t > 0,
P (|X − µ| ≥ tσ) ≤ 1 t2.
A desigualdade do corol´ario anterior, que, ali´as como todas as outras, tamb´em se pode apresentar na forma
P (|X − µ| < tσ) ≥ 1 − 1 t2
´e a bem conhecida desigualdade de Chebychev. Trata-se de um instrumento muito importante em aplica¸c˜oes. Pois, observe-se que, para qualquer v.a. X, conhecidas a m´edia e variˆancia, a quantidade de probabilidade no intervalo ]µ − tσ, µ + tσ[ nunca ´e inferior a 1 − 1/t2, ou, o que ´e o mesmo, a quantidade de probabilidade fora
desse intervalo nunca ´e superior a 1/t2. Esta desigualdade refor¸ca a ideia da utiliza¸c˜ao de µ como medida de
localiza¸c˜ao e σ como medida de dispers˜ao, permitindo empregar-se quando n˜ao se conhece a distribui¸c˜ao da vari´avel aleat´oria. Evidentemente, se a distribui¸c˜ao da vari´avel for conhecida, a desigualdade passa a ter menos interesse uma vez que pode calcular-se o valor exacto (ou pelo menos t˜ao aproximado quanto se queira) de
P (|X − µ| < tσ). No entanto, neste caso a sua utiliza¸c˜ao pode permitir fazer um c´alculo mais r´apido.
2.2.6
Fun¸c˜
ao Geradora de Momentos
No intuito de caracterizar uma distribui¸c˜ao ´e poss´ıvel, em muitos casos, obter uma fun¸c˜ao que permite gerar todos os momentos em rela¸c˜ao `a origem.
Defini¸c˜ao 2.18 Define-se fun¸c˜ao geradora de momentos, abreviadamente f.g.m., da v.a. X como sendo o
valor esperado de eXt, caso exista, e representa-se por
GX(t) = E
¡
eXt¢.
Diz-se que a fun¸c˜ao geradora de momentos existe se existir uma constante positiva, a, para a qual GX(t)
seja finita para |t| < a. Observe-se, a partir da defini¸c˜ao, que GX(0) = 1; a existˆencia numa vizinhan¸ca de t = 0
depende da distribui¸c˜ao de X.
Teorema 2.11 Se a f.g.m. ´e definida para |t| < a, com a > 0, ent˜ao
G(k)(0) = µ0k, k = 1, 2, 3, . . . .
Consequentemente, se G(t) existe numa vizinhan¸ca de 0, G(t) pode desenvolver-se, de uma ´unica forma, em s´erie de MacLaurin, G(t) = 1 + G0(0) +G00(0)t2 2! + · · · = +∞ X k=0 E¡Xk¢ tk k! = +∞ X k=0 µ0 k tk k!
Como ´e evidente, os momentos centrados de X s˜ao gerados pela f.g.m. da distribui¸c˜ao da v.a. X − µ: GX−µ(t) = E ³ et(X−µ) ´ = e−µtGX(t), ou, equivalentemente, GX(t) = eµtGX−µ(t).
Para a v.a. estandardizada U = (X − µ)/σ, tem-se
GU(t) = E ¡ etU¢= E ³ et(X−µ)/σ ´ = e−µt/σGX(t/σ), ou GX(t) = eµtGU(σt).
O teorema 2.11 n˜ao ´e a principal propriedade das f.g.m.. A principal reside no facto de permitirem identificar as distribui¸c˜oes para as quais existem:
Teorema 2.12 A f.g.m. determina univocamente a f.d.; reciprocamente, se a f.g.m. existe, ´e ´unica. Exemplos 2.5
1. Considere-se a v.a. X cuja f.p. ´e definida por
f (x) =
½
p(1 − p)x−1 se x = 1, 2, . . .
0 o.v. de x
onde 0 < p < 1, fixo. Pretende-se determinar E(X) e V ar(X) a partir da f.g.m..
Resolu¸c˜ao: GX(t) = E ¡ eXt¢ = +∞ X x=1 p(1 − p)x−1ext = p et +∞ X x=1 (1 − p)x−1e(x−1)t = p et +∞ X x=1 £ (1 − p)et¤x−1 = p et 1 1 − (1 − p)et
desde que (1 − p)et< 1, isto ´e, quando t < − ln(1 − p).
Assim, resulta que
G0 X(t) = pet (1 − (1 − p)et)2 e E(X) = G0 X(0) = 1 p. Para o c´alculo da derivada de segunda ordem, observe-se primeiro que
G0 X(t) = GX(t) 1 − (1 − p)et. Logo, GX00(t) = G0 X(t) [1 − (1 − p)et] + (1 − p)etGX(t) [1 − (1 − p)et]2 e E¡X2¢= GX00(0) = 2 − p p2 . Consequentemente, V ar(X) = 2 − p p2 − 1 p2 = 1 − p p2 .
2. Considere-se agora a v.a. Y com f.d.p. dada por:
g(y) =
½
2e−2y se y ≥ 0
0 se y < 0 Pretende-se determinar E(Y ) a partir da f.g.m. de Y .
Resolu¸c˜ao: GY(t) = E ¡ eY t¢ = Z +∞ 0 ety· 2e−2ydy = lim z→+∞ · 2 · 1 t − 2e (t−2)y ¸z y=0 = 2 t − 2 · lim z→+∞e (t−2)z− 1 ¸ = 2 t − 2(0 − 1) = 2 2 − t
sempre que t < 2. Logo,
E(X) = G0 Y(t)|t=0= 2 (2 − t)2 ¯ ¯ ¯ ¯ t=0 =1 2.
2.3
Vectores Aleat´
orios
Quando se pretende estudar in´umeras situa¸c˜oes, no estudo probabil´ıstico ou estat´ıstico, envolvendo n propri-edades ou caracter´ısticas quantitativas dos elementos ω do espa¸co de resultados Ω, faz-se corresponder a cada um desses elementos um ponto (x1, x2, . . . , xk) ∈ Rn. Isto ´e,
ω −→ (X1(ω), X2(ω), . . . , Xn(ω)) .
Assim, por meio de uma aplica¸c˜ao Ω → Rn substitui-se o espa¸co de resultados pelo conjunto Rn.
Defini¸c˜ao 2.19 Se para cada ponto (x1, x2, . . . , xn) ∈ Rn, o conjunto de Ω,
{ω : X1(ω) ≤ x1, X2(ω) ≤ x2, . . . , Xn(ω) ≤ xn}
´e um acontecimento, diz-se que
X(ω) = (X1(ω), X2(ω), . . . , Xn(ω)) ,
ou, simplesmente,
X = (X1, X2, . . . , Xn) ,
´e um vector aleat´orio ou uma vari´avel aleat´oria n-dimensional.
Os conceitos abordados para uma vari´avel aleat´oria (f.d., v.a. discretas, v.a. cont´ınuas, f.p., f.d.p, etc...) podem generalizar-se para uma vari´avel aleat´oria n-dimensional. No entanto, grande parte de tal generaliza¸c˜ao ser´a feita somente para v.a. bidimensionais. Assim, dada uma v.a. bidimensional ou vector aleat´orio (X, Y ), a probabilidade de obter um ponto na regi˜ao do plano R2 pelas desigualdades, X ≤ x, Y ≤ y,
P (X ≤ x, Y ≤ y) = P {ω : X(ω) ≤ x, Y (ω) ≤ y}
existe sempre, por defini¸c˜ao e podemos introduzir a seguinte
Defini¸c˜ao 2.20 Chama-se fun¸c˜ao de distribui¸c˜ao da v.a. bidimensional (X, Y ) ou fun¸c˜ao de distri-bui¸c˜ao conjunta das v.a. X e Y a
F (x, y) = P (X ≤ x, Y ≤ y).
Teorema 2.13 Se F (x, y) ´e f.d. das v.a. X e Y e [x1, x2] × [y1, y2] ´e um intervalo de R2, ent˜ao
Teorema 2.14 Para qualquer f.d. F (x, y),
F (−∞, y) = F (x, −∞) = 0 e F (+∞, +∞) = 1.
Teorema 2.15 Toda a f.d. F (x, y) ´e n˜ao decrescente em rela¸c˜ao a cada vari´avel. Teorema 2.16 Toda a f.d. F (X, Y ) ´e cont´ınua `a direita em rela¸c˜ao a cada vari´avel,
F (x+, y) = F (x, y) = F (x, y+).
Quando se trabalha com a distribui¸c˜ao conjunta das v.a. X e Y , pode interessar o c´alculo da probabilidade de se ter X ≤ x qualquer que seja o valor assumido pela v.a. Y . Esse c´alculo,
P (X ≤ x) = P (X ≤ x, Y ≤ +∞) = lim
y→+∞F (x, y) = F (x, +∞),
conduz `a defini¸c˜ao de F1(x) = F (x, +∞), distribui¸c˜ao marginal da v.a. X.
Analogamente,
P (Y ≤ y) = P (X ≤ +∞, Y ≤ y) = lim
x→+∞F (x, y) = F (+∞, y),
define a distribui¸c˜ao marginal da v.a. Y , F2(y)
Se os acontecimentos, X ≤ x e Y ≤ y, s˜ao independentes, ent˜ao resulta
P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y),
as v.a. X e Y dizem-se independentes e a respectiva f.d. conjunta ´e o produto das distribui¸c˜oes marginais,
F (x, y) = F1(x)F2(y),
para todo o ponto (x, y) ∈ R2. Pode mostrar-se que esta condi¸c˜ao ´e necess´aria e suficiente para que se tenha
P (X ∈ E1, Y ∈ E2) = P (X ∈ E1)P (Y ∈ E2),
para quaisquer acontecimentos E1 e E2definidos, respectivamente, no eixo dos xx e no eixo dos yy.
Teorema 2.17 Dadas duas v.a. independentes, X e Y , considerem-se duas fun¸c˜oes U = φ(X) e V = ψ(Y ).
Ent˜ao, as v.a. U e V s˜ao independentes.
Teorema 2.18 Se X e Y s˜ao vari´aveis aleat´orias independentes e possuem valor esperado, ent˜ao
E(X · Y ) = E(X) · E(Y ).
O conceito de independˆencia generaliza-se facilmente a um n´umero finito (ou numer´avel) de v.a. X1, X2, . . . , Xn.
Defini¸c˜ao 2.21 As vari´aveis aleat´orias X1, X2, . . . , Xn dizem-se independentes se para n n´umeros reais
ar-bitr´arios, x1, x2, . . . , xn,
F (x1, x2. . . , xn) = P (X1≤ x1, X2≤ x2, . . . , Xn≤ xn)
= P (X1≤ x1) · P (X2≤ x2) · · · P (Xn≤ xn)
= F1(x1)F2(x2) · · · Fn(xn),
onde F ´e a fun¸c˜ao de distribui¸c˜ao conjunta das v.a. X1, X2, . . . , Xn e F1, F2, . . . , Fn as respectivas fun¸c˜oes de
distribui¸c˜ao marginais.
Vectores Aleat´orios Discretos
Defini¸c˜ao 2.22 Uma v.a. bidimensional, (X, Y ), diz-se discreta, se dado o conjunto finito ou numer´avel
D = {(xi, yj) : P (X = xi, Y = yj) > 0} ,
se tem,
Agora, tamb´em podemos definir a fun¸c˜ao de probabilidade de (X, Y ),
f (x, y) = P (X = x, Y = y)
½
> 0 se (x, y) ∈ D
= 0 se (x, y) ∈ D ,
e tem as seguintes propriedades: 1. f (x, y) ≥ 0, ∀(x, y) ∈ R2; 2. X (xi,yj)∈D f (xi, yj) = 1; 3. P [(X, Y ) ∈ E] = X (xi,yj)∈E∩D f (xi, yj); 4. F (x, y) = P (X ≤ x, Y ≤ y) = X xi≤x yj≤y f (xi, yj).
As f.p. marginais s˜ao definidas, com
D = {(xi, yj) : i, j = 1, 2, . . .} , por, f1(xi) = P (X = xi) = X j f (xi, yj), i = 1, 2, . . . f2(yj) = P (Y = yj) = X i f (xi, yj), j = 1, 2, . . .
sendo, evidentemente, f1(x) = 0, se (x, yj) 6∈ D, e f2(y) = 0, se (xi, y) 6∈ D.
As v.a. X e Y s˜ao independentes quando discretas se, e somente se,
f (xi, yj) = f1(xi)f2(yj),
para todo o ponto (xi, yj) ∈ D.
Vectores Aleat´orios Cont´ınuos
Defini¸c˜ao 2.23 Uma v.a. bidimensional, (X, Y ), ´e do tipo cont´ınuo se existir uma fun¸c˜ao n˜ao negativa, f (x, y),
tal que F (x, y) = Z x −∞ Z y −∞ f (u, v) dudv,
para todo (x, y) ∈ R2, onde F (x, y) ´e a fun¸c˜ao de distribui¸c˜ao de (X, Y ). A fun¸c˜ao f (x, y) diz-se fun¸c˜ao de
densidade de probabilidade de (X, Y ) ou fun¸c˜ao de densidade de probabilidade conjunta das v.a. X
e Y e satisfaz a igualdade, Z +∞ −∞ Z +∞ −∞ f (x, y) dxdy = 1.
Se a f.d.p. f (x, y) for cont´ınua no ponto (x, y) tem-se
f (x, y) = ∂2F (x, y) ∂x∂y .
Por defini¸c˜ao de f.d. marginal da v.a. X tem-se,
F1(x) = F (x, +∞) = Z x −∞ Z +∞ −∞ f (u, v) dudv; assim, f1(x) = F10(x) = Z +∞ −∞ f (x, y) dy
´e a fun¸c˜ao de densidade marginal de X. Analogamente,
f2(y) = F20(y) =
Z +∞
−∞
f (x, y) dx,
´e a fun¸c˜ao de densidade marginal de Y .
A generaliza¸c˜ao destes conceitos para uma v.a. n-dimensional ´e imediata. Seja (X, Y ) uma v.a. bidimensional. O valor esperado
µ0
rs= E(XrYs),
se existir, define um momento de ordem r + s em rela¸c˜ao `a origem. Assim, existindo os momentos de ordem 1, tem-se
µ010= E(X) e µ001= E(Y ),
sendo os centros de gravidade das distribui¸c˜oes marginais de X e Y , respectivamente. Existindo os momento de ordem 2, temos
µ020= E(X2), µ011= E(XY ), µ002= E(Y2).
Para os momentos centrados, o valor esperado
µrs= E [(X − µX)r(Y − µY)s] ,
se existir, define um momento de ordem r + s em rela¸c˜ao `a m´edia.
Para os momentos de ordem 1, tem-se µ10= 0 = µ01, e para os de ordem 2,
µ20= V ar(X), µ02= V ar(Y ), µ11= E [(X − µX)(Y − µY)] ;
µ11, que se representa tamb´em por Cov(X, Y ), designa-se por covariˆancia entre X e Y . Observe-se que
Cov(X, Y ) = E(XY ) − E(X)E(Y ).
Como consequˆencia desta express˜ao e do teorema 2.18 temos o seguinte Teorema 2.19 Se as v.a. X e Y s˜ao independentes, ent˜ao Cov(X, Y ) = 0.
O interesse da covariˆancia adv´em da seguinte interpreta¸c˜ao: considere-se o centro de gravidade da distribui¸c˜ao conjunta de X e Y , (µX, µY), como origem de novos eixos coordenados. Observe a figura
Tem-se, em rela¸c˜ao ao novo sistema de eixos, que (x − µX)(y − µY) > 0, no 1o e 3o quadrantes,
(x − µX)(y − µY) < 0, no 2o e 4o quadrantes. Assim, se X e Y variam no mesmo sentido, existe
probabi-lidade elevada para que os valores de X acima da m´edia estejam associados com valores de Y acima da m´edia e para os valores de X abaixo da m´edia estejam associados com valores de Y abaixo da m´edia, isto ´e, predominam os pontos no 1o e 3o quadrantes e a covariˆancia sai positiva e relativamente grande. Por outro lado, X e Y
variam em sentido contr´ario se existe probabilidade elevada para que os valores de X acima da m´edia estejam associados com valores de Y abaixo da m´edia e para valores de X abaixo da m´edia estejam associados com valores de Y acima da m´edia. Neste caso, predominam os pontos no 2o e 4o quadrantes e a covariˆancia sai
negativa e relativamente grande em valor absoluto.
A covariˆancia depende das unidades em que se exprimem as v.a. X e Y . Ora, ´e desej´avel introduzir um parˆametro que caracterize a associa¸c˜ao entre as vari´aveis X e Y sem depender dessas unidades.
Defini¸c˜ao 2.24 Chama-se coeficiente de correla¸c˜ao entre X e Y ao parˆametro ρ = pCov(X, Y ) V ar(X)V arY = Cov(X, Y ) σXσY , ou ρ = √µ11 µ20µ02.
Teorema 2.20 (Desigualdade de Cauchy-Schwartz) Se X e Y s˜ao v.a. conjuntamente distribu´ıdas com
mo-mentos de ordem 2 finitos, ent˜ao h
E(XY)i2≤ E¡X2¢E¡Y2¢,
verificando-se a igualdade se, e somente se, para alguma constante t0,
P (t0X = Y ) = 1.
Teorema 2.21 O valor absoluto do coeficiente de correla¸c˜ao nunca exceda a unidade,
|ρ| ≤ 1; al´em disso, ρ = ±1 quando e s´o quando, com probabilidade um,
(Y − µY)
σY = ±
(X − µX)
σX .
Resumindo, se as v.a. X e Y s˜ao independentes, ρ = 0; se X e Y s˜ao linearmente independentes (com probabilidade um), ρ = ±1; nos outros casos, os valores mais ou menos elevados de |ρ| traduzem o menor ou maior afastamento entre duas rectas que delimitam a regi˜ao do plano onde se concentram com elevada probabilidade os valores de (X, Y ). Voltaremos a este assunto no ´ultimo cap´ıtulo destes apontamentos. Teorema 2.22 Se as v.a. X e Y possuem segundos momentos finitos, ent˜ao
V ar(X ± Y ) = V ar(X) ± 2Cov(X, Y ) + V ar(Y ).
Corol´ario 2.23 Se as v.a. X e Y possuem segundos momentos finitos e covariˆancia nula, ent˜ao
V ar(X ± Y ) = V ar(X) + V ar(Y ).
Distribui¸c˜oes Condicionados
O conceito de distribui¸c˜ao condicionada ´e baseado no de probabilidade condicionada. Vamos somente estudar o caso bidimensional e de uma forma abreviada.
No caso discreto, a probabilidade do acontecimento X = xi, condicionada pela realiza¸c˜ao do acontecimento
Y = yj, com P (Y = yj) > 0, define-se por
P (X = xi|Y = yj) =
P (X = xi, Y = yj)
P (Y = yj)
,
onde yj´e um valor fixo e para i = 1, 2 . . .. De modo semelhante, define-se a probabilidade de Y = yjcondicionada
por X = xi. As nota¸c˜oes utilizadas para estas fun¸c˜oes de probabilidade s˜ao, no primeiro caso,
f (xi|yj) = f (xi, yj)
f2(yj) ,
com yj fixo e i = 1, 2, . . .; no segundo caso
f (yj|xi) = f (xi, yj)
f1(xi)
,
com xi fixo e j = 1, 2 . . ..
No caso cont´ınuo, a fun¸c˜ao de distribui¸c˜ao de Y condicionada por X = x, simbolicamente, F (y|x) ou
Fy|x(y|x) ´e dada por
F (y|x) = Ry −∞f (x, v) dv R+∞ −∞ f (x, v) dv = Ry −∞f (x, v) dv f1(x) .
Derivando em ordem a y obt´em-se a correspondente fun¸c˜ao de densidade de Y condicionada por X = x,
f (y|x) = f (x, y) f1(x)
.
Analogamente, define-se fun¸c˜ao de densidade de X condicionada por Y = y,
f (x|y) = f (x, y) f2(y) .
Vejamos agora o que se passa com os valores esperados destas distribui¸c˜oes condicionadas.
Defini¸c˜ao 2.25 Considere-se a v.a. φ(X, Y ) fun¸c˜ao das v.a. X e Y . O valor esperado de φ(X, Y ) condicionado
por X = x, em s´ımbolos E[φ(X, Y )|X = x] ou, simplesmente, E[φ(X, Y )|x] ´e definido, consoante se trate do caso discreto ou cont´ınuo, por
E[φ(X, Y )|xi] = X j φ(xi, yj)f (yj|xi), ou, por, E[φ(X, Y )|x] = Z +∞ −∞ φ(x, y)f (y|x).
Define-se E[φ(X, Y )|y] de modo an´alogo.
Em particular, consoante se trate do caso discreto ou cont´ınuo,
E(Y |xi) = X j yjf (yj|xi) ou E(Y |x) = Z +∞ −∞ yf (y|x) dy,
representa a m´edia de Y condicionada por X = x, isto ´e, a m´edia da distribui¸c˜ao condicionada com f.p ou f.d.p.
f (y|x). Fisicamente, E(Y |x) ´e o centro de gravidade da distribui¸c˜ao de probabilidade sobre a recta X = x.
Observe-se que E(Y |X) ´e uma v.a. fun¸c˜ao da v.a. X, que assume o valor E(Y |x) quando X assume o valor x. Do mesmo modo, consoante se trate do caso discreto ou cont´ınuo,
E(X|yj) = X i xif (xi|yj) ou E(X|y) = Z +∞ −∞ xf (x|y) dx,
representa a m´edia de X condicionada por Y = y, isto ´e, a m´edia da distribui¸c˜ao condicionada com f.p ou f.d.p.
f (x|y) e E(X|Y ) ´e uma v.a. fun¸c˜ao da v.a. Y , que assume o valor E(X|y) quando Y assume o valor y.
Proposi¸c˜oes 2.24 Existindo os valores esperados respectivos, 1. E(c|X) = c, onde c ´e uma constante;
2. E[mφ(Y ) + c|X] = mE[φ(Y )|X] + c;
3. E[φ1(Y ) + φ2(Y )|X] = E[φ1(Y )|X] + E[φ2(Y )|X];
4. E[φ1(X)φ2(Y )|X] = φ1(X)E[φ2(Y )|X];
5. E[φ(Y )] = E [E (φ(Y )|X)]; 6. E(Y ) = E[E(Y |X)]; 7. Se Y ≥ 0, E(Y |X) ≥ 0;
Cap´ıtulo 3
Distribui¸c˜
oes Te´
oricas
3.1
Distribui¸c˜
ao Uniforme Discreta em N Pontos
Defini¸c˜ao 3.1 A v.a. X diz-se que tem uma distribui¸c˜ao uniforme discreta em N pontos quando a
respectiva f.p. ´e da forma
f (xi) = P (X = xi) = 1
N, i = 1, 2, . . . , N.
Proposi¸c˜ao 3.1 Se X ´e uma v.a. com distribui¸c˜ao uniforme em N pontos, ent˜ao 1. GX(t) = 1 N N X i=1 etxi; 2. E(X) = 1 N N X i=1 xi; 3. V ar(X) = 1 N N X i=1 x2 i − Ã 1 N N X i=1 xi !2
Observa¸c˜ao 3.1 Em particular, se xi= i, i = 1, 2, . . . N , E(X) = N + 1
2 e V ar(X) =
N2− 1
12 .
3.2
Distribui¸c˜
ao Binomial
A distribui¸c˜ao Binomial ´e um modelo probabil´ıstico que permite o estudo de experiˆencias aleat´orias onde importa a contagem do n´umero de vezes que ocorre um determinado acontecimento. A utiliza¸c˜ao deste modelo requer que as provas (experiˆencias) sejam de Bernoulli, isto ´e, uma sequˆencia de experiˆencias aleat´orias independentes em cada umas das quais se observa a realiza¸c˜ao ou n˜ao realiza¸c˜ao de um acontecimento A com probabilidade p, constante. A ocorrˆencia de A constitui um sucesso e a ocorrˆencia de A um insucesso.
No caso em que se considera uma ´unica prova de Bernoulli, a respectiva distribui¸c˜ao de probabilidade ´e definida da seguinte forma:
Defini¸c˜ao 3.2 Uma v.a. X tem (segue) distribui¸c˜ao de Bernoulli de parˆametro p (0 ≤ p ≤ 1, fixo) se a
sua fun¸c˜ao de probabilidade ´e definida por
fX(x) =
(
px(1 − p)1−x se x = 0 ∨ x = 1
0 se x ∈ R \ {0, 1} .
Proposi¸c˜ao 3.2 Se X ´e uma v.a. que tem distribui¸c˜ao de Bernoulli de parˆametro p, ent˜ao 1. GX(t) = (1 − p) + p et;
2. E(X) = p;
Se considerarmos N provas de Bernoulli, o modelo define-se da seguinte forma:
Defini¸c˜ao 3.3 Uma v.a. X tem distribui¸c˜ao binomial de parˆametros N e p (com N ∈ N e 0 ≤ p ≤ 1),
abreviadamente escreve-se X ∼ B(x, N, p) ou, simplesmente, X ∼ B(N, p), se a sua f.p. ´e tal que
fX(x) = ( NC xpx(1 − p)N −x se x = 0, 1, 2, . . . , N 0 o.v. . Observa¸c˜oes 3.2
1. ´E evidente que uma v.a. com distribui¸c˜ao binomial ´e uma v.a. discreta. Diz-se ent˜ao que a distribui¸c˜ao binomial ´e uma distribui¸c˜ao discreta.
2. Se X ∼ B(N, p), ent˜ao FX(x) = P (X ≤ x) = Px i=0NCipi(1 − p)N −i. 3. Obviamente, N X i=0 NC ipi(1 − p)N −i= (p + (1 − p))N = 1.
Proposi¸c˜ao 3.3 Se X ´e uma v.a. tal que X ∼ B(N, p), ent˜ao 1. GX(t) = [(1 − p) + p et]N;
2. E(X) = N p;
3. Var(X) = N p(1 − p).
Exemplo 3.1 Considere-se a e.a.: Lan¸camento de um dado e registo do n´umero de pontos obtidos.
Qual ´e a probabilidade de se obter duas vezes a face 3 em 6 lan¸camentos do dado?
Resolu¸c˜ao: Defina-se
X = n´umero de vezes que ocorre a face 3, em 6 lan¸camentos. Ent˜ao, X ∼ B(6, p), em que p = P (A) = 1
6, com A = “sa´ıda da face 3”. Pretende-se calcular P (X = 2):
P (X = 2) =6C 2 µ 1 6 ¶2µ 5 6 ¶4 ≈ 0.2009.
Observe-se ainda que E(X) = 6 ×1
6 = 1, Var(X) = 6 × 1 6× 5 6 = 5 6 e σX = r 5 6.
3.3
Distribui¸c˜
ao Geom´
etrica
Para a distribui¸c˜ao binomial, o n´umero de provas de Bernoulli era fixo. Agora, tomaremos uma sucess˜ao infinita de provas de Bernoulli. A probabilidade de sucesso ´e p, constante de prova para prova, e uma vari´avel aleat´oria com distribui¸c˜ao geom´etrica representar´a o n´umero de provas de Bernoulli, independentes, de parˆametro p, at´e `a ocorrˆencia do primeiro sucesso. Assim,
Defini¸c˜ao 3.4 Uma v.a. X tem distribui¸c˜ao geom´etrica de parˆametro p, abreviadamente X ∼ Geo(p),
quando a sua f.p. for da forma
f (x) =
½
(1 − p)x−1p se x = 1, 2 . . . ,
0 o.v. de x.
Proposi¸c˜ao 3.4 Se X ´e uma v.a. tal que X ∼ Geo(p), ent˜ao 1. GX(t) = p et 1 1 − (1 − p)et; 2. E(X) = 1 p; 3. V ar(X) = 1 − p p2 .
Teorema 3.5 Se X ´e uma v.a. tal que X ∼ Geo(p), ent˜ao, para quaisquer inteiros positivos s e t,
P (X > s + t|X > s) = P (X > t).
Observa¸c˜ao 3.3 Devido ao teorema anterior, ´e usual dizer-se que a distribui¸c˜ao geom´etrica n˜ao tem mem´oria,
j´a que, decorridas mais de s provas sem que tenha ocorrido um sucesso, a probabilidade de ainda ter de esperar mais t provas ´e exactamente igual `a probabilidade de ter de esperar mais de t provas por um sucesso a partir no momento inicial.
3.4
Distribui¸c˜
ao Hipergeom´
etrica
Vimos que a distribui¸c˜ao binomial ´e o modelo te´orico adequado para estudar as propriedades dos esquemas probabil´ısticos do seguinte tipo: Considere-se um conjunto (popula¸c˜ao) finito constitu´ıdo por M elementos de dois tipos (digamos, A e B) nas propor¸c˜oes p e q = 1−p, do qual se retira ao acaso e com reposi¸c˜ao N elementos; qual a probabilidade de obter x elementos de um determinado tipo (por exemplo, do tipo A), com 0 ≤ x ≤ N ? Observe-se que, no esquema anterior, a extrac¸c˜ao de um determinado elemento n˜ao depende de uma extrac¸c˜ao anterior, j´a que existe reposi¸c˜ao desse elemento. Assim, as sucessivas provas (extrac¸c˜oes) s˜ao inde-pendentes (provas de Bernoulli). Se os elementos forem retirados sucessivamente sem reposi¸c˜ao (ou em bloco) a independˆencia deixa de existir, pois a probabilidade de ocorrˆencia de cada um dos resultados poss´ıveis n˜ao se mant´em constante de prova para prova. Ent˜ao, passaremos a ter um modelo probabil´ıstico diferente do binomial que se define da seguinte forma:
Defini¸c˜ao 3.5 Uma v.a. X segue uma distribui¸c˜ao hipergeom´etrica de parˆametros M , N e p
(simbolica-mente X ∼ H(M, N, p), se a sua f.p. ´e definida por
fX(x) = MpC x·MqCN −x MC N se x ∈ N0∧ max(0, N − M q) ≤ x ≤ min(N, M p) 0 o.v. de x , com q = 1 − p.
Proposi¸c˜ao 3.6 Se X ´e uma v.a. tal que X ∼ H(M, N, p), ent˜ao 1. E(X) = N p;
2. Var(X) = N p(1 − p)M − N
M − 1.
Observe-se que os valores esperados das distribui¸c˜oes B(N, p) e H(M, N, p) ´e o mesmo e as variˆancias apenas se distinguem pelo factor (M − N )/(M − 1). Quando M ´e grande comparado com N , naturalmente que se esbate a diferen¸ca entre extrac¸c˜oes com e sem reposi¸c˜ao. Nesta situa¸c˜ao, (M − N )/(M − 1) ´e pr´oximo da unidade e n˜ao surpreende o seguinte resultado:
Teorema 3.7 Com N e p fixos,
lim M →+∞ MpC x·MqCN −x MCN = NC xpxqN −x,
isto ´e, a distribui¸c˜ao hipergeom´etrica H(M, N, p) aproxima-se da distribui¸c˜ao binomial B(N, p), para M grande.
Exemplo 3.2 De um grupo de 1000 habitantes de uma certa regi˜ao h´a 2% que s˜ao propriet´arios das casas
que habitam. Se se colhe ao acaso uma amostra de 100 indiv´ıduos, com e sem reposi¸c˜ao, s˜ao as seguintes as probabilidades de obter x indiv´ıduos com casa pr´opria:
a) com reposi¸c˜ao: 100C x(0.02)x(0.98)100−x; b) sem reposi¸c˜ao: 20C x·980C100−x 1000C100 .
No quadro seguinte faz-se a compara¸c˜ao dos respectivos valores n˜ao se tendo ido al´em de x = 9, por motivos ´obvios.
x B(N = 100, p = 0.02) H(M = 1000, N = 100, p = 0.02) 0 0.1326 0.1190 1 0.2707 0.2701 2 0.2734 0.2881 3 0.1823 0.1918 4 0.0902 0.0895 5 0.0353 0.0311 6 0.0114 0.0083 7 0.0031 0.0018 8 0.0007 0.0003 9 0.0002 0.0000
Quando N < M/10, a distribui¸c˜ao Binomial fornece j´a uma aproxima¸c˜ao satisfat´oria da distribui¸c˜ao Hiper-geom´etrica, podendo nesse caso beneficiar-se da sua maior acessibilidade.
3.5
Distribui¸c˜
ao de Poisson
A distribui¸c˜ao de Poisson, desenvolvida por S.D. Poisson, permite descrever um vasto conjunto de fen´omenos aleat´orios em que os acontecimentos se repetem no tempo (por exemplo, as entradas de clientes num super-mercado) ou no espa¸co (por exemplo, os defeitos de isolamento registado ao longo de um cabo el´ectrico ou os defeitos de acabamento numa placa de vidro).
Uma v.a. discreta que represente o n´umero de ocorrˆencias de uma dado acontecimento por unidade de tempo (ou espa¸co) seguir´a uma distribui¸c˜ao de Poisson se verificar as seguintes condi¸c˜oes:
C1. O n´umeros de ocorrˆencia registadas em diferentes intervalos de tempo (espa¸co) s˜ao independentes entre si. C2. A distribui¸c˜ao do n´umero de ocorrˆencias em cada intervalo de tempo (espa¸co) ´e a mesma para todos os
intervalos.
C3. A probabilidade de se registar uma ocorrˆencia num intervalo qualquer de dimens˜ao (comprimento) ∆t, ∆P1, ´e praticamente proporcional `a dimens˜ao do intervalo, isto ´e, ∆P1≈ λ · ∆t.
Nestas condi¸c˜oes, temos a defini¸c˜ao seguinte:
Defini¸c˜ao 3.6 Uma v.a. X tem distribui¸c˜ao de Poisson de parˆametro λ > 0, simbolicamente X ∼ P oisson(λ),
se a sua f.p. ´e definida por
fX(x) = e−λλx x! se x ∈ N0 0 o.v. de x . Observa¸c˜ao 3.4 Sendo eλ= +∞ X x=0 λx
x!, ent˜ao resulta de imediato que, se X ∼ P oisson(λ),
+∞ X x=0 P (X = x) = +∞ X x=0 e−λλx x! = e −λ +∞ X x=0 λx x! = e −λeλ= 1.
Proposi¸c˜ao 3.8 Se X ´e uma v.a. tal que X ∼ P oisson(λ), ent˜ao 1. GX(t) = eλ(e
t−1
); 2. E(X) = λ; 3. Var(X) = λ;
Teorema 3.9 Se as v.a. Xi, para i = 1, 2, . . . , n, s˜ao independentes e Xi∼ P oisson(λi), i = 1, 2, . . . , n, ent˜ao
X = n X i=1 Xi∼ P oisson à n X i=1 λi ! .
A distribui¸c˜ao de Poisson foi descoberta quando este matem´atico estudava formas limite da distribui¸c˜ao binomial. A forma como uma distribui¸c˜ao binomial pode ser aproximada por uma distribui¸c˜ao de Poisson ´e dada por:
Teorema 3.10 Seja X uma v.a. tal que X ∼ B(N, p). Ent˜ao, quando N → +∞ e p ´e pr´oximo de zero,
X ∼ P oisson(N p)o
Observa¸c˜ao 3.5 A qualidade da aproxima¸c˜ao depende de N , λ e x. Em geral: 1. Fixados λ e x, melhora quando N aumenta;
2. Fixados N e x, melhora quando λ se aproxima de zero; 3. Fixados N e λ, piora quando x se afasta de λ.
Conv´em ainda referir que, quando N → +∞ e, simultaneamente, p → 0 de forma que N p → λ, a qualidade de aproxima¸c˜ao piora.
Exemplo 3.3 Seja X ∼ B(1000, 0.001). Sabemos, por exemplo, que
P (X > 1) = 1 − P (X = 0) − P (X = 1)
= 1 −1000C0(0.001)0× (0.999)1000−1000C1(0.001)1× (0.999)999
= 0.264241087
e aproximando pela distribui¸c˜ao de Poisson:
X ∼ P oisson(1)o P (X > 1) ≈ 1 −e −110 0! − e−111 1! = 0.2642411177
O erro ´e inferior a 3.1 × 10−8.
Seja Y ∼ B(2000, 0.001).
P (Y > 1) = 1 − P (Y = 0) − P (Y = 1)
= 1 −2000C
0(0.001)0× (0.999)2000−2000C1(0.001)1× (0.999)1999
= 0.5941295533
e aproximando pela distribui¸c˜ao de Poisson:
Y ∼ P oisson(2)o
P (Y > 1) ≈ 1 −e−220
0! −
e−221
1! = 0.5939941503
O erro ´e inferior a 1.4 × 10−4 mas superior a 3.1 × 10−8.
O interesse pr´atico de aproximar uma distribui¸c˜ao binomial por uma de Poisson resulta de o c´alculo da fun¸c˜ao de probabilidade ser mais simples no segundo caso. Tendo em conta o que foi referido na ´ultima observa¸c˜ao e usando simula¸c˜oes, tal aproxima¸c˜ao s´o ´e razo´avel quando N ≥ 30 e s´o tem interesse quando a distribui¸c˜ao Binomial for assim´etrica com N p < 5. De facto, veremos mais `a frente que se a distribui¸c˜ao Binomial for sim´etrica (ou quase sim´etrica), ´e mais pr´atico aproxim´a-la por uma outra distribui¸c˜ao (a distribui¸c˜ao Normal). A distribui¸c˜ao de Poisson na forma como foi definida serve essencialmente para interpretar fen´omenos (como os descritos anteriormente) num intervalo de tempo ou espa¸co de comprimento 1. Em geral, para um intervalo [0, t], a fun¸c˜ao de probabilidade ´e dada por
P (X = x) = e
−λt(λt)x
x! , x = 0, 1, 2, . . . ,