Propriedades dos estimadores

(1)

Propriedades dos estimadores

Os estimadores gozam de quatro propriedades: suficiência, não viés, consistência e eficiência. Aqueles estimadores que não apresentarem tais caracaters´ıticas, não podem ser conside-rados um bom estimador.

Suficiˆencia

O princ´ıpio da suficiência diz que uma estat´ıstica T (X) será suficiente se toda a informa¸cão contida na amostra {X1, X2, X3, · · · Xn} consegue assimilar toda a informa¸cão poss´ıvel

sobre o parâmetro desonhecido θ, propriedade da popula¸cão. Qualquer outra inser¸cão de informa¸cão além daquela contida na estat´ıstica suficiente T (X) não contribuirá em nada com alguma melhora das informa¸cões contidas na estat´ıstica T (X) sobre o parâmetro θ. Por exemplo, supondo que a média populacional µ de uma distribui¸cão Gaussi-ana é desconhecida, digamos X ∼ N(µ, σ2_{). A estat´ıstica T (X) que consegue}

cap-tar toda a informa¸cão sobre a média populacional será a média amostral dada por ¯

X = Pni=1

xi n ≤ N∀x ∈ ℜ, ou seja, uma outra estat´ıstica como m´edia quadr´atica ¯XRM S

ou média harmônica ¯Xh não contribuirá com novas informa¸cões sobre µ, além do que a

média aritmética já contribui.

Definition 1 Se a distribui¸cão da amostra X, dado o valor de T (X), for independente do parâmetro desconhecido, dizemos que a estat´ıstica T (X) é suficiente.

Proof. Seja a probabilidade condicionada (Por defini¸c˜ao!) pθ(X = x|T (X) = T (x)) = pθ(X = x ∩ T (X) = T (x)) pθ(T (X) = T (x)) (1) ent˜ao pθ(X = x|T (X) = T (x)) = pθ(X = x) pθ(T (X) = T (x)) (2) = p(x|θ) q(T (x)|θ) (3)

Lembramos aqui que qualquer distribui¸cão de probabilidade para uma estat´ıstica T (X) é dita ser uma distribui¸cão amostral.

Example 2 Verifique se a estat´ıstica T (X) =P X é suficiente para o parâmetro desco-nhecido θ da dsitribui¸cão Bernoulli.

pθ(X = x|T (X) = p(x|θ)

(2)

a) Distribui¸c˜ao conjunta de probabilidade p(x|θ) p(x|θ) =Y i p(xi|θ) = Y i θxi (1 − θ)1−xi _{= θ}Pixi (1 − θ)N −Pixi _{= θ}T(X) (1 − θ)N −T(X)

b) Distribui¸c˜ao amostral para a estat´ıstica T (x)

q(T (x)|θ) = N_{T (X)} θT(X)_{(1 − θ)}N −T(X) pθ(X = x|T (X) = θT(X)_{(1 − θ)}N −T(X) N T(X) θT(X)_{(1 − θ)}N −T(X) = N T (X)

Portanto T (X) =P_ixi ´e uma estat´ıstica suficiente para θ.

Theorem 3 A estat´ıstica T (X) é suficiente para o parâmetro desconhecido θ se, e so-mente se, existirem duas fun¸cões g(t|θ) e h(x) as quais permitem escrever a fun¸cão fdp ou fp conjunta da amostra como sendo

f (x|θ) = g(t|θ)h(x)

a fatora¸cão da distribui¸cão conjunta em termo das fun¸cões g(t|θ) e h(x).

Example 4 Verifique se a estat´ıstica T (X) =P X é suficiente para o parâmetro desco-nhecido θ da dsitribui¸cão Bernoulli.

Seja a fun¸c˜ao de Bernoulli _{f (X|θ) = θ}x

(1 − θ)1−x Fatorando... _{p(x|t, θ) =}Y_{f (X|θ)} = Yθx (1 − θ)1−x = θPx_{(1 − θ)}1−Px = θ 1 − θ Px · (1 − θ) Finalmente, g(t, θ) = θ 1 − θ Px · (1 − θ); h(X) = 1

a estat´ıstica T (X) =P x ´e uma estat´ıstica suficiente.

Definition 5 Estat´ıstica anciliar Se a distribui¸c˜ao de probabilidade da estat´ıstica

S(X) n˜ao depender do parˆametro θ, definimos de estat´ıstica anciliar.

Definition 6 Estat´ıstica completa Se Eθg(T ) = 0 ⇒ Pθ(g(T ) = 0) = 1 ∀θ, dizemos

(3)

Exercise 7 Verifique se as estat´ısticas T1(X) = Pixi/n e T2(X) = S2 s˜ao suficientes

para µ e σ2 _{respectivamente. Seja a distribui¸c˜ao Gaussiana}

f (x|µ, σ2) = √ 1 2πσ2e −1 2( x−µ σ ) 2 ; _{−∞ < x < +∞}

Exercise 8 Verifique se a estat´ıstica T (X) = _x1_¯ ´e suficiente para a distribui¸c˜ao exponen-cial

f (x|λ) = λe−_λx

; _{x ≥ 0}

N˜

ao vi´es

Espera-se que o erro na medida seja nula, isto ´e, E(e) = 0. De fato, se o erro for descrito pela diferen¸ca da estimativa em rela¸c˜ao ao valor real, temos

e = ˆ_{θ − θ}

Portanto, definiremos o vi´es b(ˆθ) como sendo o valor esperado do erro: b(ˆθ) = E(e) = E(ˆ_{θ − θ)}

Duas caracater´ısticas importantes s˜ao 1) Caso n˜ao polarizado

b(ˆθ) = 0 Quando não há viés.

b(ˆθ) = E(ˆ_{θ − θ) = 0} = E(ˆ_{θ) − E(θ) = 0} =⇒ E(ˆθ) = θ

A este caso chamamos de Estimador N˜ao Viesado - ENV

Exercise 9 Verifique se o estimador S2 ₌ P(X− ¯X)2

n−1 ´e ENV.

lim

n→∞E(S

2_{) = σ}2

Exercise 10 Verifique se o estimador ˆσ2 ₌ P(X− ¯X)2

n ´e ENV. lim n→∞E( ˆσ 2_{) = lim} n→∞ n − 1 n σ2 _{= σ}2

Não. Esse estimador é conhecido por Estimador Assint´oticamente Não Vie-sado - EANV

(4)

2) Caso polarizado

b(ˆ_{θ) 6= 0} Vale aqui duas situa¸c˜oes:

◮ Polariza¸c˜ao `a direita: b(ˆθ) > 0

b(ˆθ) = E(ˆ_{θ − θ) > 0} = E(ˆ_{θ) − E(θ) > 0} =⇒ E(ˆθ) > θ

A média das estimativas estão à direita do valor de θ ◮ Polariza¸cão à esquerda: b(ˆθ) < 0

b(ˆθ) = E(ˆ_{θ − θ) < 0} = E(ˆ_{θ) − E(θ) < 0} =⇒ E(ˆθ) < θ

A média das estimativas estão à esquerda do valor de θ

EQM - Erro Quadr´

atico M´

edio

A variância do erro determina o erro quadrático médio EQM(ˆ_{θ) ≡ V ar(e)} Dem.

EQM(ˆθ) = V ar(e) = E[(ˆ_{θ − θ)}2] = E[(ˆ_{θ − E(ˆθ) + E(ˆθ) − θ)}2]

= E{[ˆθ − E(ˆθ)]2+ [E(ˆ_{θ) − θ]}2 _{+ 2 · [ˆθ − E(ˆθ][E(ˆθ) − θ]}} = E[ˆ_{θ − E(ˆθ)]}2+ E[E(ˆ_{θ) − θ]}2 _{+ 2 · E{[ˆθ − E(ˆθ][E(ˆθ) − θ]}}

= E[ˆ_{θ − E(ˆθ)]}2_{+ E[E(ˆ}_{θ) − θ]}2 _{+ 2 · E{ˆθE(ˆθ) − ˆθθ − E(ˆθ)E(ˆθ) + E(ˆθ)θ}}

= E[ˆ_{θ − E(ˆθ)]}2+ E[E(ˆ_{θ) − θ]}2 _{+ 2 · {E(ˆθ)E(ˆθ) − E(ˆθ)θ − E(ˆθ)E(ˆθ) + E(ˆθ)θ}}

| {z }

termo nulo Obtemos

EQM(ˆθ) = E[ˆ_{θ − E(ˆθ)]}2+ E[E(ˆ_{θ) − θ]}2 Define-se os seguintes termos da soma pitag´orica:

1 Variˆancia do estimador

V ar(ˆθ) = E[ˆ_{θ − E(ˆθ)]}2

mede o grau de ”espalhamento”das estimativas e a sua informa¸cão é iversamente proporcional à precisão, pois quanto menor for a variância das estimativas, maior será a precisão da informa¸cão.

(5)

2 Segundo momento do vi´es

E(b(ˆθ))2 = E[ˆ_{θ − θ]}2 mede o grau de deslocamento da informa¸c˜ao dada por

q

E(b(ˆθ))2 _{≡ |b(ˆθ)|. A sua}

informa¸cão é iversamente proporcional à acuráciaou exatidão, pois quanto menor o valor do viés, maior será a acurácia (ou acertividade) da informa¸cão. O ideal seria um viés nulo que caracateriza alt´ıssima acurácia.

Finalmente, definimos EQM por

EQM(ˆθ) = V ar(ˆθ) + E(b(ˆθ))2

Figura 1 – Acur´acia e precis˜ao

Deve-se procurar estimadores que controlem a variabilidade e o vi´es do estimador, em outras palavras procura-se os estimadores que tenham uma boa precis˜ao e sejam exatos nas estimativas. Melhor ainda se o estimador for ENV:

EQM(ˆθ) = V ar(ˆθ)

Consitˆencia

A consistência significa que o aumento do tamanho da amostra implicará na convergência das estimativas para o valor desconhcido de θ.

(6)

Definition 11 Seja X1, X2, · · · Xn uma sequˆencia de va’s amostrais com T (X) a

es-tat´ıstica para h(θ), quando n → ∞

P (|Tn(X) − h(θ)| > ǫ) → 0, ǫ > 0

A sequˆencia de estimadores Tn(X) ´e fracamente consistente para h(θ) quando variando o

tamanho amostral n existe a convergˆencia em probabilidade T (X) → h(θ) quando n → ∞.

Devemos relembrar que duas variâncias estão sendo tratadas na popula¸cão, a primeira é a variância populacional σ2 _{e a outra está relacionada à amostra, ou melhor, à estat´ıstica}

T (X). No limite quando n → ∞ a média e a variância da estat´ıstica será (

limn→∞E(Tn(X)) = θ,

limn→∞V ar(Tn(X)) = 0.

Exercise 12 Verifique se a estat´ıstica S2 _{´e consistente para a variˆancia populacional.}

(

limn→∞E(S2) = σ2,

limn→∞V ar(S2) = limn→∞ 2σ

2

n−1 = 0.

Exercise 13 Verifique se a estat´ıstica ˆσ2 _{´e consistente para a variˆancia populacional.}

Eficiˆencia

Um estimador ser´a mais eficiente se o seu EQM(ˆθ) for o menor poss´ıvel.

Theorem 14 Desigualdade de Cramer-Rao: Sejam va’s X1, X2, X3...Xn com

esti-mador T (X), fun¸c˜ao densidade f (x|θ) e

d

dθEθT (X) =

Z ∂[T (X)f(x|θ)]

∂θ dx

com variˆancia do estimador finito V arθT (X) < ∞, tal que satisfaz a rela¸c˜ao

V ARθT (X) ≥ d dθT (X) 2 Eθ ∂ ∂θ log f (x|θ) 2

Theorem 15 Será dito estimador eficiente para θ se for um ENV e sua variância atingir o limite inferior da desigualdade de Cramer-Rao para quaisquer valores de θ. Estimadores eficientes são sempre UMVU.

ef (ˆθ) = [nI(θ)]

−1

(7)

Example 16 Suponha dois estimadores ˆθ1 e ˆθ2, tal que o erro quadr´atico m´edio do

pri-meiro estimador ´e menor. Encontre o estimador mais eficiente.

EQM( ˆθ1) < EQM( ˆθ2)

=⇒ Se o estimador for ENV V ar( ˆθ1) < V ar( ˆθ2)

Sendo ou n˜ao estimadores ENV, ˆθ1 ´e mais eficiente.

(8)

(9)

T´ecnicas de Estima¸c˜

ao

Talvez a pergunta mais pertinente até o momento será: ”Como encontrar uma fun¸cão T (X) das variáveis aleatórias?”. Na verdade existem três técnicas mais usuais, sendo duas delas calculadas por técnicas otimiza¸cão, mais precisamente por estudo das fun¸cões:

A) M´etodo dos Momentos

B) Método dos M´ınimos Quadrados Ordinários C) Método da Máxima Verossimihan¸ca

M´etodo dos Momentos

O método consiste em igualar o k-ésimo momento ao k-ésimo parâmeto desconhecido θk. A

proposta será resolver um sistema de k-equa¸cões de preferência poss´ıveis e determinadas. Em outras palavras prescreve os momentos populacionais nos momenos amostrais.

ˆ µk = 1 n n X i Xik (4)            ˆ µ1 = µ1, ˆ µ2 = µ2, · · · ˆ µk= µk,

para k-parˆametros desconhecidos a determinar.

Lembramos aqui que podemos determinar o momento de qualquer fun¸c˜ao pelo gerador de momento, dK_m X(t) dtK |t=0 = E(X k ); mX(t) = E(etx)

desde que exista.

Exercise 17 Encontre o melhor estimador para θ da fun¸c˜ao Bernoulli.

ˆ µk = 1 n n X i Xk i

Apenas k = 1 equa¸cão é necessária

ˆ µ1 = 1 n n X i Xi = ˆθ ˆ θ = X¯ (5)

(10)

Exercise 18 Encontre o melhor estimador para µ e σ2 _{da fun¸c˜ao Gaussiana.} ˆ µk = 1 n n X i Xik

k = 2 equa¸cões são necessárias ( ˆ µ1 = _n1 Pni Xi, ˆ µ2 = n1 Pn i X 2 i, Dessa forma, ( ˆ µ1 = ¯X ˆ σ2 _{= ˆ}_µ 2− ˆµ21= n1 Pn i Xi2− (n1 Pn i Xi)2,

Observe que a variância é a diferen¸ca entre o segundo momento e o quadrado do primeiro momento, então seguem os estimadores

¯ X = 1 n n X i Xi; σˆ2 = P(Xi− ¯X)2 n

M´etodo dos M´ınimos Quadrados Ordin´

arios

Suponha querer encontrar os estimadores para β0 e β1 da fun¸c˜ao

yi = β0+ β1xi+ ǫi

A proposta é minimizar a fun¸cão quádrica f (β0, β1) e, por isso, chama-se MMQO.

f (β0, β1) = n X i=1 f (ǫ2) = n X i=1 (yi− β0− β1xi)2

cujas variáveis são β0 e β1. Isto é,

         ~ ∇f(β0, β1) = ~0 det H = det fβ0fβ0 fβ0fβ1 fβ1fβ0 fβ1fβ1 > 0, para fβiβi > 0.

Expandindo o MMQO para βi

f (β0, β1) = n X i y2+ n X i β₀2+ n X i β₁2x2 − 2 n X i yβ0− 2 n X i yβ1x + 2 n X i β0β1x Aplicando ~_∇f(β0, β1) = ~0 ∂f (β0, β1) ∂β0 ˆi + ∂f (β0, β1) ∂β1 ˆj = ~0

(11)

Figura 2 – a)Minimiza¸c˜ao

será o ponto de máximo ou m´ınimo da fun¸cão. Resolveno o sistema de duas equa¸cões e duas icógnitas (β0, β1) temos

   ∂f(β0,β1) ∂β0 = 2n ˆβ0− 2 Pn i y + 2 Pn i βˆ1x = 0 ∂f(β0,β1) ∂β1 = 2 Pn i βˆ1x2− 2 Pn i yx + 2 Pn i βˆ0x = 0 ou _   n ˆβ0+ ˆβ1 Pn i x = Pn i y ˆ β0Pni x + ˆβ1 Pn i x2 = Pn i yx

Resolvendo o sistema pela regra de Cramer,

ˆ β0 = " Pn i y Pn i x Pn i yx Pn i x2 # " n Pn_i x Pn i x Pn i x2 # e βˆ1 = " n Pn_i y Pn i x Pn i yx # " n Pn_i x Pn i x Pn i x2 #

Encontramos os sequintes estimadores para β0 e β1.

ˆ β0 = Pn i y Pn i x 2₋Pn i yx Pn i x nPn_i x2_{− (}Pn i x)2 ˆ β1 = nPn_i _{yx −}Pn_i xPn_i y nPn_i x2_{− (}Pn i x)2

(12)

Verificando a matriz Hessiana det H = det fβ0fβ0 fβ0fβ1 fβ1fβ0 fβ1fβ1 > 0 det H = det 2n 2Pn_i xi 2Pn_i xi 2Pn_i x2i = 4  n n X i x2_i ₋ n X i xi !2 > 0 com fβ0,β0 = 2n > 0 e fβ1,β1 = 2 Pn

i x2i > 0 confirmando um ponto de m´ınimo.

Exercise 19 Dada o conjunto (X, Y ) encontre os estimadores ˆβ0 e ˆβ1 para a fun¸c˜ao

linear Y = β0+ β1x + ǫ Resp. ˆβ0 = −0.3289 e ˆβ1 = 1.9320 X Y -2 -3.7411458 -1 3.1580511 0 -0.9465511 1 3.3273956 2 4.2063737 3 4.6655514 4 5.4008614 5 10.7986029

Exercise 20 Dada a fun¸c˜ao y = β0 + β1x + β2x2 + ǫ, com ǫ ∼ N(0, σǫ2), encontre os

estimadores ˆβ0, ˆβ1 e ˆβ2.

Fun¸c˜

ao de M´

axima Verossimilhan¸ca

Definition 21 Seja X1, X2, X3, · · · Xnvari´aveis aleat´orias independentes e identicamente

distribu´ıdas com distribui¸c˜ao p.d.f. ou p.f. f (x|θ), para X = x um observado da amostra, definimos

L(θ|x) = f(x|θ)

a fun¸cão de verossimilhan¸ca, cuja variável é θ.

Como a fun¸c˜ao ´e iid, podemos fatorar f (x|θ) L(θ|x1, x2, x3· · · xn; θ) =

Y

i

f (xi|θ)

Aqui X é um vetor de variável aleatório observado e fixo e a variável é o parâmetro θ.

Devemos encontrar o estimador ˆ_{θ por estudo das fun¸c˜oes da fun¸c˜ao veross´ımil L(θ|x}1, x2, x3· · · xn; θ)

Por defini¸cão f (x|θ) > 0 e, devido a facilidade no cálculo, a maximiza¸cão para L(θ|x) é a mesma para log L(θ|x) ≡ l(θ|x).

(13)

Maximiza¸c˜

ao da fun¸c˜

ao de Verossimilhan¸ca

Seja l(θ|x) uma fun¸c˜ao de θ,

~ ∇l(θ|x) = ~0 ou ∂ log L(θ|x) ∂θi = ∂l(θ|x) ∂θi = 0 para x constante.

Example 22 Encontre o melhor estimador para a fun¸c˜ao exponencial

f (x|λ) = λe−_λx ; _{x ≥ 0} Resol. L(θ|x1, x2, x3· · · xn; θ) = n Y i f (xi|θ) = n Y i λe−_λx = λn_e−_λP_x =⇒ Aplicando o logar´ıtimo l(λ|x) = ln λn_e−_λP_x =⇒ Aplicando a maximiza¸c˜ao ∂l(λ|x) ∂λ = ∂ ln λn_e−_λP_x ∂λ = 0 = ∂ (n · ln λ − λP x) ∂λ = 0 = n1 ˆ λ − X x = 0 finalmente, ˆ λ = 1 ¯ x

portanto, o melhor estmador para λ ´e o inverso da m´edia.

Vamos simular no R as condi¸cões para esse exemplo. Fa¸camos uma popula¸cão da distribui¸cão exponencial com λ = 12:

f (x|ˆλ) = 12 · e−12·x

; _{x ≥ 0} No R softare:

(14)

Histogram of x x Frequency 0.0 0.1 0.2 0.3 0.4 0.5 0 50 100 150 200

Figura 3 – Histograma para f (x|ˆλ) = 12 · e−_12·x

Suponha que o valor de λ é desconmhecido e não sabemos que o seu resultado é 12. Ao conjunto de dados vamos montar um histograma:

> hist(x)

Na seguinte fase desenvolvemos um intervalo poss´ıvel para encontrarmos lambda > lambda < −seq(0.1, 40, by = 0.01)

A etapa mais importante é escrever a fun¸cão de Verossimihan¸ca _{l(θ|x) separando o} seu máximo verificando o seu valor

> l < −length(x) ∗ log(lambda) − lambda ∗ sum(x) > maximoL < −lambda[l == max(l)]

> maximoL [ 1 ] 11.06

Plotando o gráfico da verossimilhan¸ca com o seu respectivo valor de máximo verifica-mos exatamente o valor M ´_{AX l(λ|x) ⇒ ˆλ = 11.06, que coincide com o inverso da média} encontrada

Substituindo o valor do estimador ˆλ na fun¸c˜ao exponencial obtemos f (x|ˆλ) = ˆλ · e−ˆλ·x = 11.06e−11.06x ; _{x ≥ 0} > mean(x) [ 1 ] 0.09038879 > 1/mean(x) [ 1 ] 11.06332

(15)

0 10 20 30 40 −1000 −500 0 500 Verossimilhança λ l( λ x ) Figura 4 – Verossimilhan¸ca

(16)

Example 23 Encontre o melhor estimador para a fun¸c˜ao Poisson f (x|µ) = e −µ µx x! ; x ≥ 0 L(θ|x1, x2, x3· · · xn; θ) = n Y i f (xi|θ) = n Y i λx_e−_λ x! = λ Pn i xe−nλ Qn i x! =⇒ Aplicando o logar´ıtimo l(λ|x) = n X i x ln λ − nλ − n X i ln x! ∂l(λ|x) ∂λ = ∂(Pn_i _{x ln λ − nλ −}Pn_i ln x!) ∂λ = 0 Pn i x ˆ λ − n = 0 ˆ λ = ¯x

Ou seja, o estimador para ˆλ é a média das observa¸cões.

Exercise 24 Dada as fun¸cões abaixo, determine os melhores estimadores via fun¸cão de máxima verossimilhan¸ca para os respectivos parâmetros

a) Gaussiana, µ e σ2

b) Binomial, θ c) Bernoulli, θ