Propriedades dos estimadores
Os estimadores gozam de quatro propriedades: suficiˆencia, n˜ao vi´es, consistˆencia e eficiˆencia. Aqueles estimadores que n˜ao apresentarem tais caracaters´ıticas, n˜ao podem ser conside-rados um bom estimador.
Suficiˆencia
O princ´ıpio da suficiˆencia diz que uma estat´ıstica T (X) ser´a suficiente se toda a informa¸c˜ao contida na amostra {X1, X2, X3, · · · Xn} consegue assimilar toda a informa¸c˜ao poss´ıvel
sobre o parˆametro desonhecido θ, propriedade da popula¸c˜ao. Qualquer outra inser¸c˜ao de informa¸c˜ao al´em daquela contida na estat´ıstica suficiente T (X) n˜ao contribuir´a em nada com alguma melhora das informa¸c˜oes contidas na estat´ıstica T (X) sobre o parˆametro θ. Por exemplo, supondo que a m´edia populacional µ de uma distribui¸c˜ao Gaussi-ana ´e desconhecida, digamos X ∼ N(µ, σ2). A estat´ıstica T (X) que consegue
cap-tar toda a informa¸c˜ao sobre a m´edia populacional ser´a a m´edia amostral dada por ¯
X = Pni=1
xi n ≤ N∀x ∈ ℜ, ou seja, uma outra estat´ıstica como m´edia quadr´atica ¯XRM S
ou m´edia harmˆonica ¯Xh n˜ao contribuir´a com novas informa¸c˜oes sobre µ, al´em do que a
m´edia aritm´etica j´a contribui.
Definition 1 Se a distribui¸c˜ao da amostra X, dado o valor de T (X), for independente do parˆametro desconhecido, dizemos que a estat´ıstica T (X) ´e suficiente.
Proof. Seja a probabilidade condicionada (Por defini¸c˜ao!) pθ(X = x|T (X) = T (x)) = pθ(X = x ∩ T (X) = T (x)) pθ(T (X) = T (x)) (1) ent˜ao pθ(X = x|T (X) = T (x)) = pθ(X = x) pθ(T (X) = T (x)) (2) = p(x|θ) q(T (x)|θ) (3)
Lembramos aqui que qualquer distribui¸c˜ao de probabilidade para uma estat´ıstica T (X) ´e dita ser uma distribui¸c˜ao amostral.
Example 2 Verifique se a estat´ıstica T (X) =P X ´e suficiente para o parˆametro desco-nhecido θ da dsitribui¸c˜ao Bernoulli.
pθ(X = x|T (X) = p(x|θ)
a) Distribui¸c˜ao conjunta de probabilidade p(x|θ) p(x|θ) =Y i p(xi|θ) = Y i θxi (1 − θ)1−xi = θPixi (1 − θ)N −Pixi = θT(X) (1 − θ)N −T(X)
b) Distribui¸c˜ao amostral para a estat´ıstica T (x)
q(T (x)|θ) = NT (X) θT(X)(1 − θ)N −T(X) pθ(X = x|T (X) = θT(X)(1 − θ)N −T(X) N T(X) θT(X)(1 − θ)N −T(X) = N T (X)
Portanto T (X) =Pixi ´e uma estat´ıstica suficiente para θ.
Theorem 3 A estat´ıstica T (X) ´e suficiente para o parˆametro desconhecido θ se, e so-mente se, existirem duas fun¸c˜oes g(t|θ) e h(x) as quais permitem escrever a fun¸c˜ao fdp ou fp conjunta da amostra como sendo
f (x|θ) = g(t|θ)h(x)
a fatora¸c˜ao da distribui¸c˜ao conjunta em termo das fun¸c˜oes g(t|θ) e h(x).
Example 4 Verifique se a estat´ıstica T (X) =P X ´e suficiente para o parˆametro desco-nhecido θ da dsitribui¸c˜ao Bernoulli.
Seja a fun¸c˜ao de Bernoulli f (X|θ) = θx
(1 − θ)1−x Fatorando... p(x|t, θ) =Yf (X|θ) = Yθx (1 − θ)1−x = θPx(1 − θ)1−Px = θ 1 − θ Px · (1 − θ) Finalmente, g(t, θ) = θ 1 − θ Px · (1 − θ); h(X) = 1
a estat´ıstica T (X) =P x ´e uma estat´ıstica suficiente.
Definition 5 Estat´ıstica anciliar Se a distribui¸c˜ao de probabilidade da estat´ıstica
S(X) n˜ao depender do parˆametro θ, definimos de estat´ıstica anciliar.
Definition 6 Estat´ıstica completa Se Eθg(T ) = 0 ⇒ Pθ(g(T ) = 0) = 1 ∀θ, dizemos
Exercise 7 Verifique se as estat´ısticas T1(X) = Pixi/n e T2(X) = S2 s˜ao suficientes
para µ e σ2 respectivamente. Seja a distribui¸c˜ao Gaussiana
f (x|µ, σ2) = √ 1 2πσ2e −1 2( x−µ σ ) 2 ; −∞ < x < +∞
Exercise 8 Verifique se a estat´ıstica T (X) = x1¯ ´e suficiente para a distribui¸c˜ao exponen-cial
f (x|λ) = λe−λx
; x ≥ 0
N˜
ao vi´es
Espera-se que o erro na medida seja nula, isto ´e, E(e) = 0. De fato, se o erro for descrito pela diferen¸ca da estimativa em rela¸c˜ao ao valor real, temos
e = ˆθ − θ
Portanto, definiremos o vi´es b(ˆθ) como sendo o valor esperado do erro: b(ˆθ) = E(e) = E(ˆθ − θ)
Duas caracater´ısticas importantes s˜ao 1) Caso n˜ao polarizado
b(ˆθ) = 0 Quando n˜ao h´a vi´es.
b(ˆθ) = E(ˆθ − θ) = 0 = E(ˆθ) − E(θ) = 0 =⇒ E(ˆθ) = θ
A este caso chamamos de Estimador N˜ao Viesado - ENV
Exercise 9 Verifique se o estimador S2 = P(X− ¯X)2
n−1 ´e ENV.
lim
n→∞E(S
2) = σ2
Exercise 10 Verifique se o estimador ˆσ2 = P(X− ¯X)2
n ´e ENV. lim n→∞E( ˆσ 2) = lim n→∞ n − 1 n σ2 = σ2
N˜ao. Esse estimador ´e conhecido por Estimador Assint´oticamente N˜ao Vie-sado - EANV
2) Caso polarizado
b(ˆθ) 6= 0 Vale aqui duas situa¸c˜oes:
◮ Polariza¸c˜ao `a direita: b(ˆθ) > 0
b(ˆθ) = E(ˆθ − θ) > 0 = E(ˆθ) − E(θ) > 0 =⇒ E(ˆθ) > θ
A m´edia das estimativas est˜ao `a direita do valor de θ ◮ Polariza¸c˜ao `a esquerda: b(ˆθ) < 0
b(ˆθ) = E(ˆθ − θ) < 0 = E(ˆθ) − E(θ) < 0 =⇒ E(ˆθ) < θ
A m´edia das estimativas est˜ao `a esquerda do valor de θ
EQM - Erro Quadr´
atico M´
edio
A variˆancia do erro determina o erro quadr´atico m´edio EQM(ˆθ) ≡ V ar(e) Dem.
EQM(ˆθ) = V ar(e) = E[(ˆθ − θ)2] = E[(ˆθ − E(ˆθ) + E(ˆθ) − θ)2]
= E{[ˆθ − E(ˆθ)]2+ [E(ˆθ) − θ]2 + 2 · [ˆθ − E(ˆθ][E(ˆθ) − θ]} = E[ˆθ − E(ˆθ)]2+ E[E(ˆθ) − θ]2 + 2 · E{[ˆθ − E(ˆθ][E(ˆθ) − θ]}
= E[ˆθ − E(ˆθ)]2+ E[E(ˆθ) − θ]2 + 2 · E{ˆθE(ˆθ) − ˆθθ − E(ˆθ)E(ˆθ) + E(ˆθ)θ}
= E[ˆθ − E(ˆθ)]2+ E[E(ˆθ) − θ]2 + 2 · {E(ˆθ)E(ˆθ) − E(ˆθ)θ − E(ˆθ)E(ˆθ) + E(ˆθ)θ}
| {z }
termo nulo Obtemos
EQM(ˆθ) = E[ˆθ − E(ˆθ)]2+ E[E(ˆθ) − θ]2 Define-se os seguintes termos da soma pitag´orica:
1 Variˆancia do estimador
V ar(ˆθ) = E[ˆθ − E(ˆθ)]2
mede o grau de ”espalhamento”das estimativas e a sua informa¸c˜ao ´e iversamente proporcional `a precis˜ao, pois quanto menor for a variˆancia das estimativas, maior ser´a a precis˜ao da informa¸c˜ao.
2 Segundo momento do vi´es
E(b(ˆθ))2 = E[ˆθ − θ]2 mede o grau de deslocamento da informa¸c˜ao dada por
q
E(b(ˆθ))2 ≡ |b(ˆθ)|. A sua
informa¸c˜ao ´e iversamente proporcional `a acur´aciaou exatid˜ao, pois quanto menor o valor do vi´es, maior ser´a a acur´acia (ou acertividade) da informa¸c˜ao. O ideal seria um vi´es nulo que caracateriza alt´ıssima acur´acia.
Finalmente, definimos EQM por
EQM(ˆθ) = V ar(ˆθ) + E(b(ˆθ))2
Figura 1 – Acur´acia e precis˜ao
Deve-se procurar estimadores que controlem a variabilidade e o vi´es do estimador, em outras palavras procura-se os estimadores que tenham uma boa precis˜ao e sejam exatos nas estimativas. Melhor ainda se o estimador for ENV:
EQM(ˆθ) = V ar(ˆθ)
Consitˆencia
A consistˆencia significa que o aumento do tamanho da amostra implicar´a na convergˆencia das estimativas para o valor desconhcido de θ.
Definition 11 Seja X1, X2, · · · Xn uma sequˆencia de va’s amostrais com T (X) a
es-tat´ıstica para h(θ), quando n → ∞
P (|Tn(X) − h(θ)| > ǫ) → 0, ǫ > 0
A sequˆencia de estimadores Tn(X) ´e fracamente consistente para h(θ) quando variando o
tamanho amostral n existe a convergˆencia em probabilidade T (X) → h(θ) quando n → ∞.
Devemos relembrar que duas variˆancias est˜ao sendo tratadas na popula¸c˜ao, a primeira ´e a variˆancia populacional σ2 e a outra est´a relacionada `a amostra, ou melhor, `a estat´ıstica
T (X). No limite quando n → ∞ a m´edia e a variˆancia da estat´ıstica ser´a (
limn→∞E(Tn(X)) = θ,
limn→∞V ar(Tn(X)) = 0.
Exercise 12 Verifique se a estat´ıstica S2 ´e consistente para a variˆancia populacional.
(
limn→∞E(S2) = σ2,
limn→∞V ar(S2) = limn→∞ 2σ
2
n−1 = 0.
Exercise 13 Verifique se a estat´ıstica ˆσ2 ´e consistente para a variˆancia populacional.
Eficiˆencia
Um estimador ser´a mais eficiente se o seu EQM(ˆθ) for o menor poss´ıvel.
Theorem 14 Desigualdade de Cramer-Rao: Sejam va’s X1, X2, X3...Xn com
esti-mador T (X), fun¸c˜ao densidade f (x|θ) e
d
dθEθT (X) =
Z ∂[T (X)f(x|θ)]
∂θ dx
com variˆancia do estimador finito V arθT (X) < ∞, tal que satisfaz a rela¸c˜ao
V ARθT (X) ≥ d dθT (X) 2 Eθ ∂ ∂θ log f (x|θ) 2
Theorem 15 Ser´a dito estimador eficiente para θ se for um ENV e sua variˆancia atingir o limite inferior da desigualdade de Cramer-Rao para quaisquer valores de θ. Estimadores eficientes s˜ao sempre UMVU.
ef (ˆθ) = [nI(θ)]
−1
Example 16 Suponha dois estimadores ˆθ1 e ˆθ2, tal que o erro quadr´atico m´edio do
pri-meiro estimador ´e menor. Encontre o estimador mais eficiente.
EQM( ˆθ1) < EQM( ˆθ2)
=⇒ Se o estimador for ENV V ar( ˆθ1) < V ar( ˆθ2)
Sendo ou n˜ao estimadores ENV, ˆθ1 ´e mais eficiente.
T´ecnicas de Estima¸c˜
ao
Talvez a pergunta mais pertinente at´e o momento ser´a: ”Como encontrar uma fun¸c˜ao T (X) das vari´aveis aleat´orias?”. Na verdade existem trˆes t´ecnicas mais usuais, sendo duas delas calculadas por t´ecnicas otimiza¸c˜ao, mais precisamente por estudo das fun¸c˜oes:
A) M´etodo dos Momentos
B) M´etodo dos M´ınimos Quadrados Ordin´arios C) M´etodo da M´axima Verossimihan¸ca
M´etodo dos Momentos
O m´etodo consiste em igualar o k-´esimo momento ao k-´esimo parˆameto desconhecido θk. A
proposta ser´a resolver um sistema de k-equa¸c˜oes de preferˆencia poss´ıveis e determinadas. Em outras palavras prescreve os momentos populacionais nos momenos amostrais.
ˆ µk = 1 n n X i Xik (4) ˆ µ1 = µ1, ˆ µ2 = µ2, · · · ˆ µk= µk,
para k-parˆametros desconhecidos a determinar.
Lembramos aqui que podemos determinar o momento de qualquer fun¸c˜ao pelo gerador de momento, dKm X(t) dtK |t=0 = E(X k ); mX(t) = E(etx)
desde que exista.
Exercise 17 Encontre o melhor estimador para θ da fun¸c˜ao Bernoulli.
ˆ µk = 1 n n X i Xk i
Apenas k = 1 equa¸c˜ao ´e necess´aria
ˆ µ1 = 1 n n X i Xi = ˆθ ˆ θ = X¯ (5)
Exercise 18 Encontre o melhor estimador para µ e σ2 da fun¸c˜ao Gaussiana. ˆ µk = 1 n n X i Xik
k = 2 equa¸c˜oes s˜ao necess´arias ( ˆ µ1 = n1 Pni Xi, ˆ µ2 = n1 Pn i X 2 i, Dessa forma, ( ˆ µ1 = ¯X ˆ σ2 = ˆµ 2− ˆµ21= n1 Pn i Xi2− (n1 Pn i Xi)2,
Observe que a variˆancia ´e a diferen¸ca entre o segundo momento e o quadrado do primeiro momento, ent˜ao seguem os estimadores
¯ X = 1 n n X i Xi; σˆ2 = P(Xi− ¯X)2 n
M´etodo dos M´ınimos Quadrados Ordin´
arios
Suponha querer encontrar os estimadores para β0 e β1 da fun¸c˜ao
yi = β0+ β1xi+ ǫi
A proposta ´e minimizar a fun¸c˜ao qu´adrica f (β0, β1) e, por isso, chama-se MMQO.
f (β0, β1) = n X i=1 f (ǫ2) = n X i=1 (yi− β0− β1xi)2
cujas vari´aveis s˜ao β0 e β1. Isto ´e,
~ ∇f(β0, β1) = ~0 det H = det fβ0fβ0 fβ0fβ1 fβ1fβ0 fβ1fβ1 > 0, para fβiβi > 0.
Expandindo o MMQO para βi
f (β0, β1) = n X i y2+ n X i β02+ n X i β12x2 − 2 n X i yβ0− 2 n X i yβ1x + 2 n X i β0β1x Aplicando ~∇f(β0, β1) = ~0 ∂f (β0, β1) ∂β0 ˆi + ∂f (β0, β1) ∂β1 ˆj = ~0
Figura 2 – a)Minimiza¸c˜ao
ser´a o ponto de m´aximo ou m´ınimo da fun¸c˜ao. Resolveno o sistema de duas equa¸c˜oes e duas ic´ognitas (β0, β1) temos
∂f(β0,β1) ∂β0 = 2n ˆβ0− 2 Pn i y + 2 Pn i βˆ1x = 0 ∂f(β0,β1) ∂β1 = 2 Pn i βˆ1x2− 2 Pn i yx + 2 Pn i βˆ0x = 0 ou n ˆβ0+ ˆβ1 Pn i x = Pn i y ˆ β0Pni x + ˆβ1 Pn i x2 = Pn i yx
Resolvendo o sistema pela regra de Cramer,
ˆ β0 = " Pn i y Pn i x Pn i yx Pn i x2 # " n Pni x Pn i x Pn i x2 # e βˆ1 = " n Pni y Pn i x Pn i yx # " n Pni x Pn i x Pn i x2 #
Encontramos os sequintes estimadores para β0 e β1.
ˆ β0 = Pn i y Pn i x 2−Pn i yx Pn i x nPni x2− (Pn i x)2 ˆ β1 = nPni yx −Pni xPni y nPni x2− (Pn i x)2
Verificando a matriz Hessiana det H = det fβ0fβ0 fβ0fβ1 fβ1fβ0 fβ1fβ1 > 0 det H = det 2n 2Pni xi 2Pni xi 2Pni x2i = 4 n n X i x2i − n X i xi !2 > 0 com fβ0,β0 = 2n > 0 e fβ1,β1 = 2 Pn
i x2i > 0 confirmando um ponto de m´ınimo.
Exercise 19 Dada o conjunto (X, Y ) encontre os estimadores ˆβ0 e ˆβ1 para a fun¸c˜ao
linear Y = β0+ β1x + ǫ Resp. ˆβ0 = −0.3289 e ˆβ1 = 1.9320 X Y -2 -3.7411458 -1 3.1580511 0 -0.9465511 1 3.3273956 2 4.2063737 3 4.6655514 4 5.4008614 5 10.7986029
Exercise 20 Dada a fun¸c˜ao y = β0 + β1x + β2x2 + ǫ, com ǫ ∼ N(0, σǫ2), encontre os
estimadores ˆβ0, ˆβ1 e ˆβ2.
Fun¸c˜
ao de M´
axima Verossimilhan¸ca
Definition 21 Seja X1, X2, X3, · · · Xnvari´aveis aleat´orias independentes e identicamente
distribu´ıdas com distribui¸c˜ao p.d.f. ou p.f. f (x|θ), para X = x um observado da amostra, definimos
L(θ|x) = f(x|θ)
a fun¸c˜ao de verossimilhan¸ca, cuja vari´avel ´e θ.
Como a fun¸c˜ao ´e iid, podemos fatorar f (x|θ) L(θ|x1, x2, x3· · · xn; θ) =
Y
i
f (xi|θ)
Aqui X ´e um vetor de vari´avel aleat´orio observado e fixo e a vari´avel ´e o parˆametro θ.
Devemos encontrar o estimador ˆθ por estudo das fun¸c˜oes da fun¸c˜ao veross´ımil L(θ|x1, x2, x3· · · xn; θ)
Por defini¸c˜ao f (x|θ) > 0 e, devido a facilidade no c´alculo, a maximiza¸c˜ao para L(θ|x) ´e a mesma para log L(θ|x) ≡ l(θ|x).
Maximiza¸c˜
ao da fun¸c˜
ao de Verossimilhan¸ca
Seja l(θ|x) uma fun¸c˜ao de θ,
~ ∇l(θ|x) = ~0 ou ∂ log L(θ|x) ∂θi = ∂l(θ|x) ∂θi = 0 para x constante.
Example 22 Encontre o melhor estimador para a fun¸c˜ao exponencial
f (x|λ) = λe−λx ; x ≥ 0 Resol. L(θ|x1, x2, x3· · · xn; θ) = n Y i f (xi|θ) = n Y i λe−λx = λne−λPx =⇒ Aplicando o logar´ıtimo l(λ|x) = ln λne−λPx =⇒ Aplicando a maximiza¸c˜ao ∂l(λ|x) ∂λ = ∂ ln λne−λPx ∂λ = 0 = ∂ (n · ln λ − λP x) ∂λ = 0 = n1 ˆ λ − X x = 0 finalmente, ˆ λ = 1 ¯ x
portanto, o melhor estmador para λ ´e o inverso da m´edia.
Vamos simular no R as condi¸c˜oes para esse exemplo. Fa¸camos uma popula¸c˜ao da distribui¸c˜ao exponencial com λ = 12:
f (x|ˆλ) = 12 · e−12·x
; x ≥ 0 No R softare:
Histogram of x x Frequency 0.0 0.1 0.2 0.3 0.4 0.5 0 50 100 150 200
Figura 3 – Histograma para f (x|ˆλ) = 12 · e−12·x
Suponha que o valor de λ ´e desconmhecido e n˜ao sabemos que o seu resultado ´e 12. Ao conjunto de dados vamos montar um histograma:
> hist(x)
Na seguinte fase desenvolvemos um intervalo poss´ıvel para encontrarmos lambda > lambda < −seq(0.1, 40, by = 0.01)
A etapa mais importante ´e escrever a fun¸c˜ao de Verossimihan¸ca l(θ|x) separando o seu m´aximo verificando o seu valor
> l < −length(x) ∗ log(lambda) − lambda ∗ sum(x) > maximoL < −lambda[l == max(l)]
> maximoL [ 1 ] 11.06
Plotando o gr´afico da verossimilhan¸ca com o seu respectivo valor de m´aximo verifica-mos exatamente o valor M ´AX l(λ|x) ⇒ ˆλ = 11.06, que coincide com o inverso da m´edia encontrada
Substituindo o valor do estimador ˆλ na fun¸c˜ao exponencial obtemos f (x|ˆλ) = ˆλ · e−ˆλ·x = 11.06e−11.06x ; x ≥ 0 > mean(x) [ 1 ] 0.09038879 > 1/mean(x) [ 1 ] 11.06332
0 10 20 30 40 −1000 −500 0 500 Verossimilhança λ l( λ x ) Figura 4 – Verossimilhan¸ca
Example 23 Encontre o melhor estimador para a fun¸c˜ao Poisson f (x|µ) = e −µ µx x! ; x ≥ 0 L(θ|x1, x2, x3· · · xn; θ) = n Y i f (xi|θ) = n Y i λxe−λ x! = λ Pn i xe−nλ Qn i x! =⇒ Aplicando o logar´ıtimo l(λ|x) = n X i x ln λ − nλ − n X i ln x! ∂l(λ|x) ∂λ = ∂(Pni x ln λ − nλ −Pni ln x!) ∂λ = 0 Pn i x ˆ λ − n = 0 ˆ λ = ¯x
Ou seja, o estimador para ˆλ ´e a m´edia das observa¸c˜oes.
Exercise 24 Dada as fun¸c˜oes abaixo, determine os melhores estimadores via fun¸c˜ao de m´axima verossimilhan¸ca para os respectivos parˆametros
a) Gaussiana, µ e σ2
b) Binomial, θ c) Bernoulli, θ