Cap´ıtulo 6 - Amostragem e Estima¸c˜
ao Pontual
Concei¸c˜ao Amado, Ana M. Pires, M. Ros´ario Oliveira e Isabel M.
fcffj gfftgj hgy hk hhgj ggfj ghfj hjgg ghj ljl¸c. ghfdfd jhkg jkolte nhgff hhgghj jjhgfd jjhg jkhfg jhdsrjkpp jkklikuf
6.1 Inferˆ
encia Estat´ıstica. Amostragem aleat´
oria
Defini¸c˜ao: Umapopula¸c˜ao´e o conjunto de todas as observa¸c˜oes poss´ıveis
de determinada vari´avel de interesse, X .
Quanto ao tamanho finitas pequenas grandes infinitas .≈ Exemplos:
Alturas da popula¸c˜ao portuguesa
Idades dos estudantes inscritos nesta turma
Resistˆencias dos filamentos de um conjunto de lˆampadas
Temperaturas em todos os pontos de uma sala
Por conveniˆencia identificamos a popula¸c˜ao com a v.a. correspondente,
6.1 (cont.)
Para conhecer exactamente X ter´ıamos de fazer um n´umero muito
grande ou infinito de observa¸c˜oes. Isso pode ser imposs´ıvel, muito caro,
muito demorado, ou at´e extinguir a popula¸c˜ao X .
Podemos obter algum conhecimento de X se a observarmos alguns
valores da popula¸c˜ao −→AMOSTRA.
No entanto, a inferˆencia das propriedades da popula¸c˜ao s´o ´e poss´ıvel se a
POPULA ¸C ˜AO X fX(x) =? µX=? σX=? . . . Amostra x1, x2, . . . , xn E st a t´ı st ic a d es cr it iv a x f(x) 0.0 0.20.4 0.6 0.8 1.0 0.0 1.0 2.0 3.0 ¯ x = 0.32 s = 0.14 . . . Amostragem (probabil´ıstica)
Inferˆencia estat´ıstica (ou estat´ıstica indutiva)
6.1 (cont.)
Conhecer a popula¸c˜ao X corresponde a conhecer a sua fun¸c˜ao de
distribui¸c˜ao FX(x )
(o que ´e equivalente a conhecer a f.d.p. caso X seja cont´ınua, ou a f.p.
caso X seja discreta)
Admitem-se dois n´ıveis de “ignorˆancia”:
1. FX(x ) ´e completamente desconhecida, sabendo-se apenas se ´e do
tipo cont´ınuo ou discreto;
2. Admite-se (pelo conhecimento do fen´omeno em causa) que FX(x )
pertence a determinada fam´ılia, por exemplo normal ou Poisson,
6.1 (cont.)
Objectivos da Inferˆencia Estat´ıstica:
estimar FX(x )ou estimar os parˆametros de FX(x ) conhecendo a sua
forma;
fazertestesem rela¸c˜ao aos parˆametros ou em rela¸c˜ao `a forma de FX(x ).
Estima¸c˜ao de parˆametros:
pontualmente → resto do Cap´ıtulo 6; por intervalo → Cap´ıtulo 7.
Testes de hip´oteses → Cap´ıtulo 8:
sobre parˆametros → Cap´ıtulo 8;
Amostragem aleat´
oria
O processo de amostragem probabil´ıstica que vamos considerar pode ser
descrito informalmente do seguinte modo: cada elemento da amostra ´e
obtido totalmente ao acaso na popula¸c˜ao X e de forma independente dos
outros elementos.
Desta forma cada elemento da amostra ´e o valor observado de uma
vari´avel aleat´oria com distribui¸c˜ao idˆentica `a popula¸c˜ao e essas vari´aveis aleat´orias s˜ao independentes.
Defini¸c˜ao (a.a.): As vari´aveis aleat´orias (X1, X2, . . . , Xn) constituem uma
amostra aleat´oria (a.a.) de dimens˜ao n da popula¸c˜ao X se forem
independentes eidenticamentedistribu´ıdas a X (i.i.d.)
X −→ X1 X2 · · · Xn n v.a. i.i.d a X amostra aleat´oria
↓ ↓ ↓
Amostragem aleat´
oria: exemplo
Exemplo 6.1: Seja X a popula¸c˜ao que corresponde ao n.ode caras observado
no lan¸camento de uma moeda n˜ao equilibrada. O modelo ´e conhecido,
X ∼ Bernoulli (p) (0 < p < 1). O objectivo da amostragem ser´a obter
informa¸c˜ao sobre p. X = 1
•
cara P(X = 1) = pX = 0
•
coroa P(X = 0) = 1 − p 8 amostras de dimens˜ao 10: X1 X2 X3 X4 X5 X6 X7 X8 X9 X10•
0•
1•
1•
0•
1•
1•
0•
0•
0•
1•
1•
1•
1•
1•
1•
0•
1•
1•
1•
1•
0•
1•
0•
1•
0•
1•
0•
0•
0•
1•
0•
0•
0•
1•
1•
1•
1•
0•
1•
1•
1•
1•
0•
0•
0•
1•
1•
0•
0•
0•
1•
0•
1•
0•
0•
0•
0•
0•
0•
0•
1•
1•
0•
1•
0•
1•
0•
0•
1•
0•
1•
0•
1•
0•
0•
0•
0•
1•
1•
1 P(X1= 1) = p · · · P(X10= 1) = pAmostragem aleat´
oria: exemplo (cont.)
Na realidade dispomos apenas de uma amostra casual, por exemplo a primeira:
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
•
0•
1•
1•
0•
1•
1•
0•
0•
0•
1e podemos calcular qual ´e a probabilidade de observar aquela particular
amostra:
P(X1= 0, X2= 1, X3= 1, X4= 0, . . . , X7= 0, X8= 0, X9= 0, X10= 1) =
(porque as observa¸c˜oes s˜ao independentes)
= P(X1= 0)P(X2= 1)P(X3= 1) · · · P(X8= 0)P(X9= 0)P(X10= 1) =
(porque as observa¸c˜oes s˜ao identicamente distribu´ıdas a X )
6.1 (cont.)
SUM´ARIO:
(X1, X2, . . . , Xn) – amostra aleat´oria
(v.a. de dimens˜ao n que pretende representar “todas” as poss´ıveis
amostras dessa dimens˜ao)
(x1, x2, . . . , xn) (x1, x2, x3, x4, x5) (0, 0, 1, 0, 1, 0, 0) (2, 1.5, 3, 4.2, 0.1)
amostras casuais (ou concretas)
fX1,X2,...,Xn(x1, x2, . . . , xn) =
Qn
i =1fXi(xi)
(probabilidade, ou densidade de probabilidade, de observar a amostra (x1, x2, . . . , xn), para uma popula¸c˜ao com fun¸c˜ao de
Estat´ısticas
Em geral usamos fun¸c˜oes da amostra para “estimar” certos aspectos da
popula¸c˜ao: por exemplo, ´e intuitivo perceber que a m´edia da amostra
ser´a uma “aproxima¸c˜ao” ou “estimativa” poss´ıvel da m´edia da popula¸c˜ao.
Defini¸c˜ao: Umaestat´ıstica´e uma v.a. que ´e fun¸c˜ao unicamente da
amos-tra aleat´oria. Denota-se usualmente por Tn= T (X1, X2, · · · , Xn)
Exemplos de estat´ısticas: 1) M´edia amostral X =¯ X1+ X2+ · · · + Xn n = Pn i =1Xi n ´
E uma vari´avel aleat´oria!
Dada uma amostra concreta (x1, x2, . . . , xn), podemos calcular o
valor da sua m´edia ¯x = (x1+ x2+ · · · + xn)/n que ser´a um valor
observado (ou uma ocorrˆencia, ou ainda uma concretiza¸c˜ao) da v.a.
¯ X
6.1 (cont.)
2) Variˆancia amostral
S2= 1
n − 1
n
X
i =1
(Xi− ¯X )2 E uma vari´´ avel aleat´oria!
A variˆancia de uma amostra concreta
s2= 1 n − 1 n X i =1 (xi− ¯x )2 ´
e um valor observado da v.a. S2.
3) M´ınimo da a.a.: X(1)= min{(X1, X2, · · · , Xn} E uma vari´´ avel
aleat´oria!
4) M´aximo da a.a.: X(n)= max(X1, X2, · · · , Xn) E uma vari´´ avel
6.2 Estima¸c˜
ao pontual. Propriedades dos estimadores
Como as estat´ısticas s˜ao vari´aveis aleat´orias faz sentido falar da sua
distribui¸c˜ao de probabilidades (que se chama de distribui¸c˜ao amostral
ou distribui¸c˜ao por amostragem).
1 Distribui¸c˜ao amostral do M´aximo da a.a. (X(n))
FX(n)(x ) = P(X(n)≤ x) = P(X1≤ x, X2≤ x, · · · , Xn≤ x) = = n Y i =1 P(Xi≤ x) = n Y i =1 P(X ≤ x ) = (FX(x ))n
2 (Fazer para o m´ınimo.)
6.2 Estima¸c˜
ao pontual. Propriedades dos estimadores
Defini¸c˜ao: Chama-se estimador a toda a estat´ıstica, ˆΘ, que tome
va-lores no mesmo espa¸co que o parˆametroθ (desconhecido) da popula¸c˜ao.
A realiza¸c˜ao de um estimador para uma amostra concreta, ˆθ, chama-se
estimativa.
Seja X – popula¸c˜ao com fX(x ) que depende de um parˆametro desconhecido θ
(pode-se generalizar para vectores de parˆametros).
(X1, X2, . . . , Xn) – a.a. ˆ
Θ = Tn(X1, X2, . . . , Xn): estimador pontual de θ, se tomar valores no mesmo
espa¸co que o parˆametro θ
ˆ
θ = tn(x1, x2, . . . , xn): estimativa pontual de θ
Exemplo 6.2: X ∼ Bernoulli (p), dada uma a.a. de dimens˜ao n considerar o
estimador
Tn= ˆP = ¯X =
Pn
i =1Xi
n
Como Xi = 1 se ocorrer um sucesso e Xi = 0 se ocorrer um insucesso,
6.2 (cont.)
Exemplo 6.2 (cont.): Assim,Pni =1xi ´e o n´umero de sucessos na amostra
concreta. Por exemplo para a primeira amostra do lan¸camento da moeda,
•
0•
1•
1•
0•
1•
1•
0•
0•
0•
1tem-se ˆp = ¯x = 5/10 = 0.5, que ´e uma estimativa do parˆametro p.
Defini¸c˜ao: O estimador pontual ˆΘ ´e umestimador centrado(n˜ao enviesado) do
parˆametro θ se E ( ˆΘ) = θ.
Se o estimador n˜ao for centrado (ou enviesado) chama-seenviesamento (ou vi´es)
`a diferen¸ca
6.2 (cont.)
Exemplo 6.3: Dada uma v.a. X com valor esperado µ e variˆancia σ2(e
distribui¸c˜ao qualquer), tem-se que ¯X e S2s˜ao estimadores centrados de µ e σ2,
respectivamente. E ( ¯X ) = E X1+ X2+ · · · + Xn n =E (X1) + E (X2) + · · · + E (Xn) n = = µ + µ + · · · + µ n = nµ n = µ
logo ¯X ´e estimador centrado de µ.
Calculemos tamb´em a variˆancia de ¯X :
V ( ¯X ) = V X1+ X2+ · · · + Xn n = V (X1) + V (X2) + · · · + V (Xn) n2 = = σ 2 + σ2+ · · · + σ2 n2 = nσ2 n2 = σ2 n
6.2 (cont.)
Quanto ao estimador S2, iniciemos por reescrevˆe-lo:
S2 = 1 n − 1 n X i =1 (Xi− ¯X )2= 1 n − 1 n X i =1 (Xi2− 2 ¯X Xi+ ¯X 2 ) = = 1 n − 1 n X i =1 Xi2− 2 ¯X n X i =1 Xi+ n ¯X2 ! = 1 n − 1 n X i =1 Xi2− n ¯X2 !
poisPni =1Xi = n ¯X . Vamos precisar de calcular E (Xi2) e E ( ¯X
2 ): E (Xi2) = V (Xi) + E 2 (Xi) = σ2+ µ2 E ( ¯X2) = V ( ¯X ) + E2( ¯X ) =σ 2 n + µ 2 logo E (S2) = 1 n − 1 n(σ2+ µ2) − n σ 2 n + µ 2 = 1 n − 1(n − 1)σ 2 = σ2
6.2 (cont.)
Exemplo: Se X ∼ Ber (p) ent˜ao E (X ) = µ = p e V (X ) = σ2= p(1 − p).
Dada uma a.a. de dimens˜ao n e o estimador ˆP = ¯X =Pni =1Xi/n, os resultados
obtidos para a m´edia amostral permitem afirmar que
E ( ˆP) = p e V ( ˆP) = σP2ˆ=
p(1 − p) n
ou seja, ˆP ´e um estimador centrado de p e o respectivo desvio padr˜ao (que ´e
uma medida do erro associado `a estimativa, tamb´em chamada erro padr˜ao) ´e
σˆP =pp(1 − p)/n. Uma estimativa do erro padr˜ao ´e ˆσˆP=p ˆp(1 − ˆp)/n.
Para a primeira amostra do lan¸camento da moeda,
•
0•
1•
1•
0•
1•
1•
0•
0•
0•
1tem-se ˆp = ¯x = 5/10 = 0.5 (como se viu) e ˆσPˆ=p0.5 × 0.5/10 ' 0.158.
Nota-se que para o mesmo ˆp = 0.5 mas para uma amostra com dimens˜ao
6.2 (cont.)
Como um parˆametro θ pode ser estimado com v´arios estimadores centrados
(ou enviesados) s˜ao necess´arios crit´erios para comparar os estimadores.
Defini¸c˜ao: Oerro quadr´atico m´edio (EQM) de um estimador ˆΘ do parˆametro
θ ´e
MSE ( ˆΘ) ≡ EQM( ˆΘ) = E ˆΘ − θ
2
Nota: EQM( ˆΘ) = V ( ˆΘ) + b2( ˆΘ) = V ( ˆΘ) +E ( ˆΘ) − θ2
Defini¸c˜ao: Dados dois estimadores ˆΘ1 e ˆΘ2 de um mesmo parˆametro θ,
diz-se que ˆΘ1 ´e mais eficiente que Θ2ˆ se MSE ( ˆΘ1) < MSE ( ˆΘ2) Ao quociente
MSE ( ˆΘ1)/MSE ( ˆΘ2) chama-se eficiˆencia relativa de ˆΘ2em rela¸c˜ao a ˆΘ1.
Dados dois estimadores deve preferir-se o que for mais eficiente, ou seja, o que
6.2 (cont.)
Exemplo 6.1 (cont.): Vamos considerar novamente o exemplo da moeda
(X ∼ Ber (p) com 0 < p < 1 desconhecido) e dois estimadores ˆP1= ¯X e ˆP2:
ˆ P1= ¯X = Pn i =1Xi n P2ˆ = 1 +Pni =1Xi n + 2
6.2 (cont.)
8 amostras de dimens˜ao 10: x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 p1ˆ p2ˆ•
0•
1•
1•
0•
1•
1•
0•
0•
0•
1 0.5 0.5•
1•
1•
1•
1•
1•
0•
1•
1•
1•
1 0.9 0.8333•
0•
1•
0•
1•
0•
1•
0•
0•
0•
1 0.4 0.4167•
0•
0•
0•
1•
1•
1•
1•
0•
1•
1 0.6 0.5833•
1•
1•
0•
0•
0•
1•
1•
0•
0•
0 0.4 0.4167•
1•
0•
1•
0•
0•
0•
0•
0•
0•
0 0.2 0.25•
1•
1•
0•
1•
0•
1•
0•
0•
1•
0 0.5 0.5•
1•
0•
1•
0•
0•
0•
0•
1•
1•
1 0.5 0.5m´edia dos 8 valores: 0.5 0.5
variˆancia dos 8 valores: 0.04 0.0278
Sabendo que os dados foram gerados com p = 0.5, conclui-se que o segundo
estimador ´e melhor (as estimativas est˜ao a distˆancia menor ou igual do
6.2 (cont.)
Sabemos j´a que
EQM( ˆP1) = p(1 − p)/n
pois ˆP1´e centrado (b( ˆP1) = 0, enviesamento=0), logo EQM( ˆP1) = V ( ˆP1).
Pode mostrar-se (Exerc´ıcio) que
EQM( ˆP2) =np(1 − p) + (1 − 2p)
2
(n + 2)2
e que EQM( ˆP2) ´e mais eficiente que EQM( ˆP1) se
p ∈ # 1 2− r 1 4− n 8n + 4; 1 2+ r 1 4− n 8n + 4 "
6.3 M´
etodo da m´
axima verosimilhan¸ca
Existem v´arios m´etodos de estima¸c˜ao de parˆametros desconhecidos. Um desses
m´etodos ´e o da m´axima verosimilhan¸ca. Como o seu nome indica o estimador
obt´em-se maximizando uma certa fun¸c˜ao chamada fun¸c˜ao de verosimilhan¸ca.
Defini¸c˜ao: Seja X uma v.a. com distribui¸c˜ao caracterizada por f (x , θ) (f.p. ou
f.d.p.), onde θ ´e um parˆametro desconhecido. Sejam x1, x2, . . . , xn os valores
observados de uma a.a. de dimens˜ao n. A fun¸c˜ao de verosimilhan¸ca da amostra
´e L(θ|x1, x2, . . . , xn) = f (x1, θ)f (x2, θ) · · · f (xn, θ) = n Y i =1 f (xi, θ)
Chama-seestimativa de m´axima verosimilhan¸cade θ (ˆθ) ao valor de θ que
maxi-miza L(θ), ou seja, ˆ
θ = arg max θ
6.3 (cont.)
Exemplo 1: No exemplo concreto que temos vindo a considerar, X ∼ Bernoulli (p), tem-se, se considerarmos a amostra 1,
L(p|x1, x2, . . . , xn) = p5(1 − p)5, 0 < p < 1
Determina¸c˜ao do valor de p que maximiza L(p):
dL(p|x1, x2, . . . , xn) dp = 5p 4 (1 − p)5− 5p5 (1 − p)4= 5p4(1 − p)4(1 − 2p) = 0 ⇔ p = 0 ∨ p = 1 ∨ p =1 2 0 1/2 1 L0(p) 0 + 0 − 9 L(p) 0 % + & 0
Logo a estimativa de m.v. de p com base nesta amostra ´e ˆp = 1
6.3 (cont.)
Em vez de fazer a determina¸c˜ao da estimativa para uma amostra concreta ´e
conveniente fazˆe-lo para uma amostra gen´erica (x1, . . . , xn)
(vantagens: s´o ´e preciso fazer os c´alculos uma vez e obt´em-se a express˜ao do
estimador, necess´aria para estudar as suas propriedades).
Exemplo 2: X ∼ Ber (p), para a qual f (x ) = P(X = x ) = px(1 − p)1−x,
0 < p < 1. Dada uma amostra (x1, . . . , xn) vem
L(p|x1, . . . , xn) ≡ L(p) = f (x1) · · · f (xn) = n Y i =1 pxi(1 − p)1−xi = = p Pn i =1xi(1 − p)n−Pni =1xi = = pk(1 − p)n−k, 0 < p < 1
onde k =Pni =1xi ´e o n´umero de sucessos na amostra e n − k o n´umero de
6.3 (cont.)
Nota: em vez de determinar p que maximiza L(p) pode determinar-se o valor
de p que maximiza log L(p) (pois para uma fun¸c˜ao f > 0 qualquer, f e log f
tˆem m´aximo e m´ınimo nos mesmos pontos e os c´alculos com log L s˜ao
geralmente mais simples do que com L).
log L(p) = loghpk(1 − p)n−ki= k log p + (n − k) log(1 − p)
d log L(p) dp = k p − n − k 1 − p = 0 (p6=0, p6=1) ⇔ k(1 − p) − (n − k)p = 0 ⇔ p = k n Verifica¸c˜ao: d 2 log L(p) dp2 = − k p2 − n − k (1 − p)2 < 0, ∀0<p<1 a estimativa de m.v. ´e ˆp = Pn i =1xi n = ¯x o estimador de m.v. ´e ˆp = Pn i =1Xi n = ¯X
6.3 (cont.)
O m´etodo da m´axima verosimilhan¸ca tamb´em pode ser usado quando a fun¸c˜ao
de densidade (ou de probabilidade) da popula¸c˜ao depende de mais de um
parˆametro.
Exemplo 3: Considere-se X ∼ Exp(λ), (λ > 0) f (x ) = λe−λx, x > 0. Dada
uma amostra (x1, . . . , xn) vem
L(λ|x1, . . . , xn) ≡ L(λ) = f (x1) · · · f (xn) = n Y i =1 λe−λxi, = = λne−λ Pn i =1xi, λ > 0, xi > 0 log L(λ) = n log λ − λ n X i =1 xi
6.3 (cont.)
Determina¸c˜ao do ponto de m´aximo:
d log L(λ) d λ = 0 d2log L(λ) d λ2 < 0 ? ⇔ n λ− n X i =1 xi = 0 ⇔ n − λ n X i =1 xi = 0 −n λ2 < 0 , ∀λ > 0 Logo o estimador de m.v. de λ ´e ˆ λ =Pnn i =1Xi = 1¯ X
6.3 (cont.)
Nota: Os estimadores de m´axima verosimilhan¸ca n˜ao s˜ao necessariamente
centrados mas s˜ao assintoticamente centrados (quando n → ∞)
Propriedade da invariˆancia dos estimadores de m´axima verosimilhan¸ca:
Se ˆΘ1, ˆΘ2, . . . , ˆΘk, s˜ao estimadores de m´axima verosimilhan¸ca dos parˆametros
θ1, θ2, . . . , θk, ent˜ao o estimador de m´axima verosimilhan¸ca de uma fun¸c˜ao
h(θ1, θ2, . . . , θk) desses parˆametros ´e a mesma fun¸c˜ao h( ˆΘ1, ˆΘ2, . . . , ˆΘk) dos
estimadores.
Exemplo Seja X1, X2, · · · , Xnuma a.a. proveniente de uma popula¸c˜ao X com
distribui¸c˜ao Exponencial de parˆametro λ .
6.4 Momentos da m´
edia amostral e de variˆ
ancias amostrais.
Distribui¸c˜
oes amostrais da m´
edia . . .
Momentos:
O momento de ordem k de uma v.a. X ´e E (Xk).
O primeiro momento ´e o valor esperado, E (X ) = µ
O momento central de ordem k de uma v.a. X ´e E [(X − µ)k].
O segundo momento central ´e a variˆancia, E [(X − µ)2] = V (X ) = σ2
Os momentos das estat´ısticas m´edia e variˆancia amostrais foram j´a calculados:
E ( ¯X ) = µ V ( ¯X ) =σ
2
n E (S
2
) = σ2
Estes s˜ao os ´unicos momentos da m´edia e da variˆancia amostrais que n˜ao
6.4 . . . Distribui¸c˜
oes amostrais da m´
edia e variˆ
ancia numa
popula¸c˜
ao normal . . .
A distribui¸c˜ao de probabilidades de uma estat´ıstica ´e chamada
distribui¸c˜ao amostral ou distribui¸c˜ao por amostragem.
Teorema Considere-se uma popula¸c˜ao X ∼ N(µ, σ2) e uma a.a.
(X1, X2, . . . , Xn). Como ¯ X = Pn i =1Xi n = X1+ X2+ · · · + Xn n
´e uma combina¸c˜ao linear de vari´aveis aleat´orias independentes com distribui¸c˜ao
normal, conclui-se que tamb´em tem distribui¸c˜ao normal, logo
¯ X ∼ N µ,σ 2 n ⇔ X − µ¯ σ/√n ∼ N(0, 1)
6.4 . . . Distribui¸c˜
oes amostrais da m´
edia e variˆ
ancia numa
popula¸c˜
ao normal . . .
Para popula¸c˜oes n˜ao normais tem-se como consequˆencia do T.L.C.:
Se (X1, X2, . . . , Xn) for uma amostra aleat´oria de dimens˜ao n de uma popula¸c˜ao
X com valor esperado µ e variˆancia σ2 e ¯X a correspondente m´edia amostral
ent˜ao ¯ X − µ σ/√n a ∼ N(0, 1)