Definição 6.1: População é um conjunto cujos elementos possuem
qual-quer característica em comum.
Definição 6.2: Amostra é um subconjunto da população.
Exemplo 6.1: Um partido encomenda uma sondagem sobre a intenção
de voto nele nas próximas eleições. Por exemplo, a sondagem poderá
ser baseada numa amostra (aleatória) da população de interesse de
di-mensão 10000 em 100000 votantes. Note-se que há uma v.a. para cada
eleitor, i.e.,
X =
(
1, se o eleitor tenciona votar no partido;
0, c.c.,
podendo p = P(X = 1) = 1 − P(X = 0) (desconhecido) ser
esti-mado pelo número de votantes sondados que tencionam votar a favor
do partido.
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 96/207
Estatística descritiva e Inferência Estatística.
•
Estatística descritiva: Parte da Estatística que aplica várias das
muitas técnicas usadas para sumariar um conjunto de dados.
•
Inferência Estatística: Parte da Estatística que visa fazer induções
sobre características de uma população a partir de uma amostra da
mesma.
O estudo de uma população centra-se usualmente em uma ou mais
var-iáveis aleatórias. Em geral, a distribuição de probabilidade destas
quan-tidades não é completamente conhecida e, portanto, com base em uma
informação por amostragem, pode-se inferir estatisticamente sobre os
seus aspectos desconhecidos, e.g.,
•
Estimação pontual ou intervalar de parâmetros.
•
Testes de hipóteses sobre o valor de parâmetros ou sobre o próprio
Amostragem aleatória.
Importantes questões relativamente ao processo de amostragem:
•
Como recolher a amostra?
•
Qual a informação pertinente a retirar da amostra?
•
Como se comporta a informação acima quando o mesmo
procedi-mento de recolha da amostra é usado numa população conhecida?
Alguns tipos de amostragem:
•
Amostragem aleatória simples: Todos os elementos da população
têm a mesma probabilidade de serem seleccionados.
•
Amostragem por conglomerados: A população está dividida em
pequenos grupos (e.g., bairros, quarteirões, etc.), chamados
con-glomerados, que são amostrados aleatoriamente.
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 98/207
•
Amostragem estratificada: A população encontra-se dividida em
subpopulações ou estratos (e.g., classes sociais, graus de
in-strução, etc.), agrupados por alguma característica em comum, de
cada um dos quais se amostra aleatoriamente alguns dos seus
ele-mentos.
Estes tipos de amostragem têm em comum a recolha aleatória dos
el-ementos da amostra. Todavia, há outros métodos de amostragem não
aleatórios, e.g., quando os elementos da amostra são voluntários
(en-saios clínicos) ou são os únicos disponíveis.
Definição 6.3: Dada uma população a que está associada uma variável
aleatória X com uma certa distribuição de probabilidade, uma amostra
aleatória (a.a.) de tamanho n dessa população é um conjunto de n v.a.
Definição 6.4: Dada uma amostra aleatória X
1. . . , X
nde uma
pop-ulação X com f.m.p. (f.d.p.) f
X(x), a distribuição de probabilidade
amostral (f.m.p. ou f.d.p. conjunta) é dada por
f(x
1, . . . , x
n) =
nY
i=1f
Xi(x
i) =
nY
i=1f
X(x
i).
Exemplo 6.1a: Uma a.a. da população de votantes no partido com n
elementos reporta-se an v.a. X
1. . . , X
ni.i.d., tal que
X
i=
(
1, se o eleitor itenciona votar no partido;
0, c.c.,
sendo p = P(X
i= 1) = 1 − P(X
i= 0), i = 1, . . . , n.
Consequente-mente, a respectiva distribuição de probabilidade amostral é dada por
f(x
1, . . . , x
n) =
nY
i=1p
xi(1 −p)
1−xi= p
Pixi(1−p)
n−P ixi.
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 100/207
Estatísticas.
Definição 6.5: Dada uma amostra X
1, . . . , X
nde uma população X,
umaestatística T é uma função da amostra, i.e.,
T = T(X
1, . . . , X
n).
As estatísticas mais comuns são:
•
Média amostral: X¯ =
1 nP
ni=1
X
i.
•
Variância amostral (corrigida): S
2=
n−11P
ni=1
(X
i−X¯)
2.
•
Mínimo amostral: X
(1)= min(X
1, . . . , X
n).
•
Máximo amostral: X
(n)= max(X
1, . . . , X
n).
Definição 6.6: Um parâmetro é uma medida usada para descrever uma
característica da população.
Notação usual de parâmetros e estatísticas:
Medida População Amostra
média µ X¯
variância σ
2S
2número de elementos N n
proporção p X¯
SeX
1, . . . , X
né uma amostra aleatória de uma populaçãoX, então
•
média populacional: µ = E(X),
•
média amostral: X¯ = (X
1+· · ·+X
n)/n.
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 102/207
Estimação pontual: estimador e estimativa.
Definição 6.7: Seja X
1, . . . , X
numa amostra aleatória de uma
popu-lação X indexada pelo parâmetro θ. Um estimador de θ é uma
estatís-tica T = T(X
1, . . . , X
n)usada para estimar θ.
Definição 6.8: O valor observado de um estimador em cada amostra
concretat = T(x
1, . . . , x
n)é conhecido porestimativa.
Exemplo 6.1b: Numa amostra aleatória de n = 100000 eleitores,
observaram-se 38900 eleitores com intenção de voto no partido em
causa. Neste cenário, X
1, . . . , X
nsão v.a. i.i.d. com distribuição de
Bernoulli (p), onde p é a proporção (populacional) de votantes no
par-tido. O parâmetro p pode ser estimado pela média amostral X¯, i.e., a
proporção amostral de votantes no partido, cujo estimativa é
¯
Propriedades dos estimadores.
Exemplo 6.2: A fim de estudar a exactidão e precisão de 4 jogadores
(A,B,C,D) de tiro ao alvo, foram-lhes dadas 6 possibilidades de acertar
ao alvo. O resultado dessa experiência encontra-se a seguir.
A B
C D
&% '$ &% '$ &% '$ &% '$ t t t t*
*
*
*
* *
*
*
*
*
*
*
****
**
*
**
*
**
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 104/207
Um resumo da qualidade (exactidão e precisão) dos jogadores:
•
Jogador A: muita exactidão e pouca precisão;
•Jogador B: pouca exactidão e pouca precisão;
•Jogador C: muita exactidão e muita precisão;
•
Jogador D: pouca exactidão e muita precisão.
Diz-se que os jogadores com mais precisão têm lançamentos menos
dispersos (maior concordância entre os resultados).
Aexactidão(accuracy) está associada aos erros sistemáticos,e.g.,
defi-ciências de instrumentos de medição, enquanto a precisão (precision)
reporta-se aos erros aleatórios que são responsáveis por pequenas
vari-ações nas medições realizadas, cujas causas não são completamente
conhecidas.
Definição 6.9: SejaX
1, . . . , X
numa a.a. de X com distribuição
index-ada pelo parâmetro θ. O estimador T = T(X
1, . . . , X
n) é dito ser um
estimador centrado (não enviesado) de θ se E(T) = θ.
Exemplo 6.3: Seja X
1, . . . , X
numa a.a. de X com E(X) = µ e
V ar(X) = σ
2. Será P
ni=1
(X
i−X¯)
2um estimador centrado deσ
2?
Se X
1, . . . , X
nsão v.a. i.i.d. com E(X
i) = µ e V ar(X
i) = σ
2, i =
1, . . . , n, então E( ¯X) = µe V ar( ¯X) = σ
2/n. Logo,
E(P
n i=1(X
i−X¯)
2) = E(P
iX
2 i−2 ¯XP
iX
i+nX¯
2)
= P
iE(X
i2)−nE( ¯X
2)
= P
i(V ar(X
i) + E(X
i)
2)
−n(V ar( ¯X) + E( ¯X)
2)
= nσ
2+nµ
2−nσ
2/n−nµ
2= (n −1)σ
2.
∴ Não, masS
2=
n−11P
ni=1
(X
i−X¯)
2é um estimador centrado de σ
2.
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 106/207
Definição 6.10: SejaT = T(X
1, . . . , X
n)um estimador do parâmetroθ.
Chama-se viés (enviesamento) de T como estimador de θ à quantidade
E(T)−θ. Note-se que o viés é nulo se e somente se T é um estimador
centrado de θ.
Definição 6.11: Seja T = T(X
1, . . . , X
n) um estimador do parâmetro
θ. Uma medida de precisão do estimador T é o erro quadrático médio
(EQM), dado por
EQM(T) ≡ E((T −θ)
2) = V ar(T) + (E(T)−θ)
2.
Definição 6.12: SejamT = T(X
1, . . . , X
n)eU = U(X
1, . . . , X
n)dois
estimadores do parâmetroθ. Diz-se queT é maiseficientedo que U, se
EQM(T) ≤ EQM(U), ∀ θ
Se T e U são estimadores centrados do parâmetro θ, então T é mais
eficiente do que U se V ar(T) ≤ V ar(U),∀ θ com desigualdade estrita
para algumθ.
Exemplo 6.4: Seja X
1, . . . , X
numa a.a. de X ∼ Bernoulli(p).
Con-sidere ainda X
1e X¯ como dois estimadores de p. Qual dos dois é o
estimador mais eficiente?
Sendo X
i’s v.a. i.i.d. Bernoulli (p),P
ni=1X
i∼ Binomial (n, p),
•
E(X
1) = p e
E( ¯X) = n
−1E(P
ni=1
X
i) = n
−1n p = p.
∴ X
1e X¯ são estimadores centrados de p.
•
V ar(X
1) = p(1−p) e
V ar( ¯X) = n
−2V ar(P
ni=1
X
i) = n
−1p(1−p)
⇒
V ar(XV ar( ¯X1))=
n1<1, ∀n > 1.
∴ X¯ é mais eficiente do que X
1na estimação dep.
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 108/207
Exemplo 6.3a: Seja X
1, . . . , X
numa a.a. de uma população X com
E(X) = µe V ar(X) = σ
2. Será a variância amostral (corrigida) S
2=
(n−1)
−1P
ni=1
(X
i−X¯)
2mais eficiente do queσˆ
2= n
−1P
ni=1
(X
i−X¯)
2na estimação deσ
2?
Como
•E(P
n i=1(X
i−X¯)
2) = (n−1)σ
2,
⇒ E(S
2) = σ
2e E(ˆσ
2) =
n−1 nσ
2.
•V ar(P
n i=1(X
i−X¯)
2) = 2(n−1)σ
4,
•EQM(S
2) = V ar(S
2) + (E(S
2)−σ
2)
2= 2(n−1)
−1σ
4,
•EQM(ˆσ
2) = V ar(ˆσ
2) + (E(ˆσ
2)−σ
2)
2= (2n−1)n
−2σ
4,
⇒
EQMEQM(S(ˆσ22))=
(n−1)(2n2n2 −1)> 1, ∀ n > 1.
Definição 6.13: Seja X
1, . . . , X
numa a.a. de uma população X
in-dexada pelo parâmetro θ. Uma sucessão {T
n} de estimadores de θ é
consistente se lim
n→∞P(|T
n−θ| > ǫ) = 0,∀ǫ > 0, garantido por
i) lim
n→∞E(T
n) = θ, ii) lim
n→∞V ar(T
n) = 0.
Exemplo 6.4a: Seja X
1, . . . , X
numa a.a. de X ∼ Bernoulli(p). Será
¯
X um estimador consistente de p?
Sendo X
i’s v.a. i.i.d. Bernoulli (p),P
ni=1X
i∼ Binomial (n, p),
•
E( ¯X) = E(P
ni=1
X
i)/n = p. X¯ é um estimador centrado de p.
Condição i) logicamente satisfeita.
•
V ar( ¯X) = V ar(P
ni=1
X
i)/n
2= p(1−p)/n. Por conseguinte,
lim
n→∞V ar( ¯X) = lim
n→∞p(1−p)
n
= 0. Condição ii) satisfeita.
Portanto, X¯ é um estimador consistente de p.
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 110/207
Método da máxima verosimilhança.
Definição 6.14: Dada uma a.a. X
1, . . . , X
nde uma população X com
f.m.p. ou f.d.p. f
X(x) indexada pelo parâmetro (desconhecido) θ, a
função deverosimilhançadeθ relativa à amostra (x
1, . . . , x
n), denotada
por L(θ|x
1, . . . , x
n), é a função de θ que é numericamente idêntica à
distribuição de probabilidade amostral avaliada em x
1, . . . , x
n,i.e.,
L(θ|x
1, . . . , x
n) ≡ f(x
1, . . . , x
n|θ) =
n
Y
i=1
f
X(x
i|θ).
O método de máxima verosimilhança consiste em maximizar a função
de verosimilhança para obter o valor mais verosímil de θ, denominado
estimativa de máxima verosimilhança deθ.
Ao determinar o valor que maximiza θ, usa-se frequentemente o facto
de que L(θ|x
1, . . . , x
n) e logL(θ|x
1, . . . , x
n) têm o seu máximo no
mesmo valor de θ.
Exemplo 6.5: Seja X
1, . . . , X
numa a.a. de uma população X ∼
Poisson(λ). Qual o estimador de máxima verosimilhança de λ?
A função de verosimilhança de λ, dado x
1, . . . , x
n, é
L(λ|x
1, . . . , x
n) =
nY
i=1e
−λλ
xix
i! .
SejaL
λ≡ logL(λ|x
1, . . . , x
n) = −n λ+ logλ
n
X
i=1x
i−log
nY
i=1x
i!.
• dLλ dλ= −n+λ
−1P
n i=1x
i= 0 ⇒ λ =
Pni=1xi n= ¯x
• d2Lλ dλ2= −λ
−2P
n i=1x
i<0,∀λ.
∴ x¯ é a estimativa de máxima verosimilhança de λ e o estimador de
máxima verosimilhança (e.m.v.) deλ é λˆ = ¯X =
1n
P
ni=1
X
i.
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 112/207
Teorema 6.1: Se θˆ é o estimador de máxima verosimilhança de um
parâmetro θ, então g(ˆθ) é o estimador de máxima verosimilhança de
g(θ) (propriedade de invariância).
Exemplo 6.6: SejaX
1, . . . , X
numa a.a. de X ∼ Uniforme(0, θ]. Qual
o estimador de máxima verosimilhança de logθ?
A função de verosimilhança de θ, dado x
1, . . . , x
n, é
L(θ|x
1, . . . , x
n) =
nY
i=1 1 θI
(0,θ](x
i)
=
θ1nI
[x(n),∞)(θ)
6 -L(θ)θ
x(n) 1 x(n) &⇒ X
(n)= max(X
1, . . . , X
n) é o e.m.v. de θ e, pela propriedade de
invariância dos estimadores de máxima verosimilhança, logX
(n)é
o e.m.v. de logθ.
Momentos da média amostral e da variância
amostral.
Exemplo 6.7: Suponha uma população (conhecida) X = {2,4,6} da
qual se retira (com reposição) uma amostra aleatória de tamanho 2.
Qual o valor esperado da média amostral? E da variância amostral?
Se os elementos da população X são equiprováveis,
•
E(X) = P
x
xf
X(x) =
13(2 + 4 + 6) = 4.
•
E(X
2) = P
x
x
2f
X(x) =
13(4 + 16 + 36) = 56/3
⇒ V ar(X) = E(X
2)−(E(X))
2= 56/3−16 = 8/3.
Seja X
ié o resultado da extracção i, i= 1, . . . , n (n= 2). Recorde-se
que a média amostral e a variância amostral são, respectivamente,
¯
X = n
−1P
ni=1
X
ie S
2= (n−1)
−1P
ni=1
(X
i−X¯)
2.
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 114/207
A distribuição de probabilidade conjunta de (X
1, X
2) é dada por
X
1\X
22 4 6
2 1/9 1/9 1/9
4 1/9 1/9 1/9
6 1/9 1/9 1/9
A distribuição amostral da estatísticaX¯ = (X
1+X
2)/2 é
¯
X 2 3 4 5 6
P( ¯X = ¯x) 1/9 2/9 3/9 2/9 1/9
E( ¯X) = X
uu P( ¯X=u) = 21
9 +· · ·+ 61
9 =
36
9 = 4
⇒ E( ¯X) = E(X).
•
E( ¯X
2) = P
u
u
2P( ¯X=u) = 4
19+· · ·+ 36
19=
1569•
V ar( ¯X
2) = E( ¯X
2)−(E( ¯X)
2=
1569−16 =
129=
43⇒ V ar( ¯X) = V ar(X)/n.
A distribuição amostral da estatísticaS
2= P
2i=1
(X
i−X¯)
2é
S
20 2 8
P(S
2= s
2) 3/9 4/9 2/9
E(S
2) = X
vv P(S
2=v) = 03
9 + 2
4
9 + 8
2
9 =
24
9 =
8
3
⇒ E(S
2) = V ar(X).
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 116/207
Distribuições amostrais da média e variância
numa população normal.
Para melhor avaliar a estimação de um parâmetro θ a partir de uma
estatística T = T(X
1, . . . , X
n), deve-se conhecer a distribuição de T.
A distribuição da estatística T, conhecida como distribuição amostral
deT, tem em conta todos os valores possíveis da amostra X
1, . . . , X
n.
Teorema 6.2: Se X
1, . . . , X
né uma a.a. de uma população X com
E(X) = µ e V ar(X) = σ
2, então o valor esperado e variância da
média amostralX¯ são, respectivamente,
•
E( ¯X) = n
−1P
i
E(X
i) = n
−1n µ = µ;
•
V ar( ¯X) = n
−2P
Teorema 6.3: Seja X
1, . . . , X
numa a.a. de uma população X com
E(X) = µ e V ar(X) = σ
2, 0 < σ
2< ∞. Pelo Teorema do Limite
Central, a distribuição amostral de X¯ é aproximada pela distribuição
Normal com média µe variância σ
2/n, quando n → ∞.
Corolário 6.1: Se X
1, . . . , X
né uma a.a. de uma população X ∼
N(µ, σ
2),0 < σ
2< ∞, então
Z = X¯ −µ
σ/√
n ∼ N(0,1).
Exemplo 6.8: Seja X
1, . . . , X
numa a.a. de X ∼ Bernoulli(p). Qual a
distribuição aproximada da proporção amostral X¯ = n
−1P
ni=1
X
i?
Sabendo que E(X) = p e V ar(X) = p(1−p), pelo Teorema 6.3
¯
X −p
p
p(1 −p)/n
a∼ N(0,1) ⇒ X¯ ∼
aN
p,p(1−p)
n
.
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 118/207
Definição 6.15: SeX
1, . . . , X
ksão v.a. i.i.d. com distribuiçãoN(µ, σ
2),
Q = X
12+· · ·+X
k2é dito ter uma distribuição Qui-quadrado comk graus de liberdade,
de-notada porχ
2(k), cuja f.d.p. é dada por
f
Q(q) = 1
2 Γ(
k 2) e
−q 2q
2
k2−1, q > 0,
ondeΓ(n) = R
∞ 0x
n−1e
−xdx.
O valor esperado e a variância de uma v.a. Q ∼ χ
2(k)são,
respectiva-mente:
•
E(Q) = k;
0 5 10 15 20 25 30 0.00 0.05 0.10 0.15 0.20
Função Densidade de Probabilidade − Qui−quadrado
x
f(x)
k=1 k=5 k=10
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 120/207
Definição 6.16: Se Z e Q são v.a. independentes com Z ∼ N(0,1) e
Q ∼ χ
2(k), então
T = pZ
Q/k
é dito ter uma distribuição t-Student comkgraus de liberdade, denotada
port
(k), cuja f.d.p. é dada por
f
T(t) = √1
k π
Γ(
k−1 2)
Γ(
k2)
1 + x
2k
k−1 2, −∞ < t < ∞.
O valor esperado e a variância de uma v.a. T ∼ t
(k)são,
respectiva-mente:
•
E(T) = 0,k > 1.
−4 −2 0 2 4 6 0.0 0.1 0.2 0.3 0.4
Função Densidade de Probabilidade − t−Student
x
f(x)
k=1 k=5 k=100
NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 122/207