Capítulo 6 - Amostragem e Estimação Pontual

(1)

Cap´ıtulo 6 - Amostragem e Estima¸c˜

ao Pontual

Concei¸c˜ao Amado, Ana M. Pires, M. Ros´ario Oliveira e Isabel M.

(2)

fcffj gfftgj hgy hk hhgj ggfj ghfj hjgg ghj ljl¸c. ghfdfd jhkg jkolte nhgff hhgghj jjhgfd jjhg jkhfg jhdsrjkpp jkklikuf

(3)

(4)

6.1 Inferˆ

encia Estat´ıstica. Amostragem aleat´

oria

Defini¸cão: Umapopula¸cãoé o conjunto de todas as observa¸cões poss´ıveis

de determinada vari´avel de interesse, X .

Quanto ao tamanho          finitas pequenas grandes infinitas .≈ Exemplos:

Alturas da popula¸c˜ao portuguesa

Idades dos estudantes inscritos nesta turma

Resistˆencias dos filamentos de um conjunto de lˆampadas

Temperaturas em todos os pontos de uma sala

Por conveniˆencia identificamos a popula¸c˜ao com a v.a. correspondente,

(5)

6.1 (cont.)

Para conhecer exactamente X ter´ıamos de fazer um n´umero muito

grande ou infinito de observa¸c˜oes. Isso pode ser imposs´ıvel, muito caro,

muito demorado, ou at´e extinguir a popula¸c˜ao X .

Podemos obter algum conhecimento de X se a observarmos alguns

valores da popula¸c˜ao −→AMOSTRA.

No entanto, a inferência das propriedades da popula¸cão só é poss´ıvel se a

(6)

POPULA ¸C ˜AO X fX(x) =? µX=? σX=? . . . Amostra x1, x2, . . . , xn E st a t´ı st ic a d es cr it iv a x f(x) 0.0 0.20.4 0.6 0.8 1.0 0.0 1.0 2.0 3.0 ¯ x = 0.32 s = 0.14 . . . Amostragem (probabil´ıstica)

Inferˆencia estat´ıstica (ou estat´ıstica indutiva)

(7)

6.1 (cont.)

Conhecer a popula¸c˜ao X corresponde a conhecer a sua fun¸c˜ao de

distribui¸c˜ao FX(x )

(o que ´e equivalente a conhecer a f.d.p. caso X seja cont´ınua, ou a f.p.

caso X seja discreta)

Admitem-se dois n´ıveis de “ignorˆancia”:

1. FX(x ) ´e completamente desconhecida, sabendo-se apenas se ´e do

tipo cont´ınuo ou discreto;

2. Admite-se (pelo conhecimento do fen´omeno em causa) que FX(x )

pertence a determinada fam´ılia, por exemplo normal ou Poisson,

(8)

6.1 (cont.)

Objectivos da Inferˆencia Estat´ıstica:

estimar FX(x )ou estimar os parˆametros de FX(x ) conhecendo a sua

forma;

fazertestesem rela¸cão aos parâmetros ou em rela¸cão à forma de FX(x ).

Estima¸c˜ao de parˆametros:

pontualmente → resto do Cap´ıtulo 6; por intervalo → Cap´ıtulo 7.

Testes de hip´oteses → Cap´ıtulo 8:

sobre parˆametros → Cap´ıtulo 8;

(9)

Amostragem aleat´

oria

O processo de amostragem probabil´ıstica que vamos considerar pode ser

descrito informalmente do seguinte modo: cada elemento da amostra ´e

obtido totalmente ao acaso na popula¸c˜ao X e de forma independente dos

outros elementos.

Desta forma cada elemento da amostra ´e o valor observado de uma

variável aleatória com distribui¸cão idêntica à popula¸cão e essas variáveis aleatórias são independentes.

Defini¸cão (a.a.): As variáveis aleatórias (X1, X2, . . . , Xn) constituem uma

amostra aleatória (a.a.) de dimensão n da popula¸cão X se forem

independentes eidenticamentedistribu´ıdas a X (i.i.d.)

X −→ X1 X2 · · · Xn n v.a. i.i.d a X amostra aleat´oria

↓ ↓ ↓

(10)

Amostragem aleat´

oria: exemplo

Exemplo 6.1: Seja X a popula¸c˜ao que corresponde ao n.o_{de caras observado}

no lan¸camento de uma moeda n˜ao equilibrada. O modelo ´e conhecido,

X ∼ Bernoulli (p) (0 < p < 1). O objectivo da amostragem ser´a obter

informa¸c˜ao sobre p. X = 1

•

cara P(X = 1) = p

X = 0

•

coroa P(X = 0) = 1 − p 8 amostras de dimens˜ao 10: X1 X2 X3 X4 X5 X6 X7 X8 X9 X10

•

0

•

1

•

1

•

0

•

1

•

1

•

0

•

0

•

0

•

1

•

1

•

1

•

1

•

1

•

1

•

0

•

1

•

1

•

1

•

1

•

0

•

1

•

0

•

1

•

0

•

1

•

0

•

0

•

0

•

1

•

0

•

0

•

0

•

1

•

1

•

1

•

1

•

0

•

1

•

1

•

1

•

1

•

0

•

0

•

0

•

1

•

1

•

0

•

0

•

0

•

1

•

0

•

1

•

0

•

0

•

0

•

0

•

0

•

0

•

0

•

1

•

1

•

0

•

1

•

0

•

1

•

0

•

0

•

1

•

0

•

1

•

0

•

1

•

0

•

0

•

0

•

0

•

1

•

1

•

1 P(X1= 1) = p · · · P(X10= 1) = p

(11)

Amostragem aleat´

oria: exemplo (cont.)

Na realidade dispomos apenas de uma amostra casual, por exemplo a primeira:

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

•

0

•

1

•

1

•

0

•

1

•

1

•

0

•

0

•

0

•

1

e podemos calcular qual ´e a probabilidade de observar aquela particular

amostra:

P(X1= 0, X2= 1, X3= 1, X4= 0, . . . , X7= 0, X8= 0, X9= 0, X10= 1) =

(porque as observa¸c˜oes s˜ao independentes)

= P(X1= 0)P(X2= 1)P(X3= 1) · · · P(X8= 0)P(X9= 0)P(X10= 1) =

(porque as observa¸c˜oes s˜ao identicamente distribu´ıdas a X )

(12)

6.1 (cont.)

SUM´ARIO:

(X1, X2, . . . , Xn) – amostra aleat´oria

(v.a. de dimens˜ao n que pretende representar “todas” as poss´ıveis

amostras dessa dimens˜ao)

(x1, x2, . . . , xn) (x1, x2, x3, x4, x5) (0, 0, 1, 0, 1, 0, 0) (2, 1.5, 3, 4.2, 0.1)       

amostras casuais (ou concretas)

fX1,X2,...,Xn(x1, x2, . . . , xn) =

Qn

i =1fXi(xi)

(probabilidade, ou densidade de probabilidade, de observar a amostra (x1, x2, . . . , xn), para uma popula¸c˜ao com fun¸c˜ao de

(13)

Estat´ısticas

Em geral usamos fun¸c˜oes da amostra para “estimar” certos aspectos da

popula¸cão: por exemplo, é intuitivo perceber que a média da amostra

será uma “aproxima¸cão” ou “estimativa” poss´ıvel da média da popula¸cão.

Defini¸cão: Umaestat´ısticaé uma v.a. que é fun¸cão unicamente da

amos-tra aleat´oria. Denota-se usualmente por Tn= T (X1, X2, · · · , Xn)

Exemplos de estat´ısticas: 1) M´edia amostral X =¯ X1+ X2+ · · · + Xn n = Pn i =1Xi n ´

E uma vari´avel aleat´oria!

Dada uma amostra concreta (x1, x2, . . . , xn), podemos calcular o

valor da sua m´edia ¯x = (x1+ x2+ · · · + xn)/n que ser´a um valor

observado (ou uma ocorrˆencia, ou ainda uma concretiza¸c˜ao) da v.a.

¯ X

(14)

6.1 (cont.)

2) Variˆancia amostral

S2= 1

n − 1

n

X

i =1

(Xi− ¯X )2 E uma vari´´ avel aleat´oria!

A variˆancia de uma amostra concreta

s2= 1 n − 1 n X i =1 (xi− ¯x )2 ´

e um valor observado da v.a. S2_.

3) M´ınimo da a.a.: X(1)= min{(X1, X2, · · · , Xn} E uma vari´´ avel

aleat´oria!

4) M´aximo da a.a.: X(n)= max(X1, X2, · · · , Xn) E uma vari´´ avel

(15)

6.2 Estima¸c˜

ao pontual. Propriedades dos estimadores

Como as estat´ısticas são variáveis aleatórias faz sentido falar da sua

distribui¸c˜ao de probabilidades (que se chama de distribui¸c˜ao amostral

ou distribui¸c˜ao por amostragem).

1 Distribui¸c˜ao amostral do M´aximo da a.a. (X_(n))

FX(n)(x ) = P(X(n)≤ x) = P(X1≤ x, X2≤ x, · · · , Xn≤ x) = = n Y i =1 P(Xi≤ x) = n Y i =1 P(X ≤ x ) = (FX(x ))n

2 (Fazer para o m´ınimo.)

(16)

6.2 Estima¸c˜

ao pontual. Propriedades dos estimadores

Defini¸c˜ao: Chama-se estimador a toda a estat´ıstica, ˆΘ, que tome

va-lores no mesmo espa¸co que o parˆametroθ (desconhecido) da popula¸c˜ao.

A realiza¸c˜ao de um estimador para uma amostra concreta, ˆθ, chama-se

estimativa.

Seja X – popula¸c˜ao com fX(x ) que depende de um parˆametro desconhecido θ

(pode-se generalizar para vectores de parˆametros).

(X1, X2, . . . , Xn) – a.a. ˆ

Θ = Tn(X1, X2, . . . , Xn): estimador pontual de θ, se tomar valores no mesmo

espa¸co que o parˆametro θ

ˆ

θ = tn(x1, x2, . . . , xn): estimativa pontual de θ

Exemplo 6.2: X ∼ Bernoulli (p), dada uma a.a. de dimens˜ao n considerar o

estimador

Tn= ˆP = ¯X =

Pn

i =1Xi

n

Como Xi = 1 se ocorrer um sucesso e Xi = 0 se ocorrer um insucesso,

(17)

6.2 (cont.)

Exemplo 6.2 (cont.): Assim,Pn_{i =1}xi ´e o n´umero de sucessos na amostra

concreta. Por exemplo para a primeira amostra do lan¸camento da moeda,

•

0

•

1

•

1

•

0

•

1

•

1

•

0

•

0

•

0

•

1

tem-se ˆp = ¯x = 5/10 = 0.5, que ´e uma estimativa do parˆametro p.

Defini¸cão: O estimador pontual ˆΘ é umestimador centrado(não enviesado) do

parˆametro θ se E ( ˆΘ) = θ.

Se o estimador n˜ao for centrado (ou enviesado) chama-seenviesamento (ou vi´es)

`a diferen¸ca

(18)

6.2 (cont.)

Exemplo 6.3: Dada uma v.a. X com valor esperado µ e variˆancia σ2_(e

distribui¸c˜ao qualquer), tem-se que ¯X e S2s˜ao estimadores centrados de µ e σ2,

respectivamente. E ( ¯X ) = E X1+ X2+ · · · + Xn n =E (X1) + E (X2) + · · · + E (Xn) n = = µ + µ + · · · + µ n = nµ n = µ

logo ¯X ´e estimador centrado de µ.

Calculemos tamb´em a variˆancia de ¯X :

V ( ¯X ) = V X1+ X2+ · · · + Xn n = V (X1) + V (X2) + · · · + V (Xn) n2 = = σ 2 + σ2+ · · · + σ2 n2 = nσ2 n2 = σ2 n

(19)

6.2 (cont.)

Quanto ao estimador S2, iniciemos por reescrevˆe-lo:

S2 = 1 n − 1 n X i =1 (Xi− ¯X )2= 1 n − 1 n X i =1 (Xi2− 2 ¯X Xi+ ¯X 2 ) = = 1 n − 1 n X i =1 Xi2− 2 ¯X n X i =1 Xi+ n ¯X2 ! = 1 n − 1 n X i =1 Xi2− n ¯X2 !

poisPn_{i =1}Xi = n ¯X . Vamos precisar de calcular E (Xi2) e E ( ¯X

2 ): E (Xi2) = V (Xi) + E 2 (Xi) = σ2+ µ2 E ( ¯X2) = V ( ¯X ) + E2( ¯X ) =σ 2 n + µ 2 logo E (S2) = 1 n − 1 n(σ2+ µ2) − n σ 2 n + µ 2 = 1 n − 1(n − 1)σ 2 = σ2

(20)

6.2 (cont.)

Exemplo: Se X ∼ Ber (p) ent˜ao E (X ) = µ = p e V (X ) = σ2= p(1 − p).

Dada uma a.a. de dimens˜ao n e o estimador ˆP = ¯X =Pn_{i =1}Xi/n, os resultados

obtidos para a m´edia amostral permitem afirmar que

E ( ˆP) = p e V ( ˆP) = σP2ˆ=

p(1 − p) n

ou seja, ˆP é um estimador centrado de p e o respectivo desvio padrão (que é

uma medida do erro associado à estimativa, também chamada erro padrão) é

σˆ_P =pp(1 − p)/n. Uma estimativa do erro padr˜ao ´e ˆσˆ_P=p ˆp(1 − ˆp)/n.

Para a primeira amostra do lan¸camento da moeda,

•

0

•

1

•

1

•

0

•

1

•

1

•

0

•

0

•

0

•

1

tem-se ˆp = ¯x = 5/10 = 0.5 (como se viu) e ˆσPˆ=p0.5 × 0.5/10 ' 0.158.

Nota-se que para o mesmo ˆp = 0.5 mas para uma amostra com dimens˜ao

(21)

6.2 (cont.)

Como um parˆametro θ pode ser estimado com v´arios estimadores centrados

(ou enviesados) são necessários critérios para comparar os estimadores.

Defini¸cão: Oerro quadrático médio (EQM) de um estimador ˆΘ do parâmetro

θ ´e

MSE ( ˆΘ) ≡ EQM( ˆΘ) = E ˆΘ − θ

2

Nota: EQM( ˆΘ) = V ( ˆΘ) + b2_{( ˆ}_{Θ) = V ( ˆ}_{Θ) +}_{E ( ˆ}_{Θ) − θ}2

Defini¸c˜ao: Dados dois estimadores ˆΘ1 e ˆΘ2 de um mesmo parˆametro θ,

diz-se que ˆΘ1 ´e mais eficiente que Θ2ˆ se MSE ( ˆΘ1) < MSE ( ˆΘ2) Ao quociente

MSE ( ˆΘ1)/MSE ( ˆΘ2) chama-se eficiˆencia relativa de ˆΘ2em rela¸c˜ao a ˆΘ1.

Dados dois estimadores deve preferir-se o que for mais eficiente, ou seja, o que

(22)

6.2 (cont.)

Exemplo 6.1 (cont.): Vamos considerar novamente o exemplo da moeda

(X ∼ Ber (p) com 0 < p < 1 desconhecido) e dois estimadores ˆP1= ¯X e ˆP2:

ˆ P1= ¯X = Pn i =1Xi n P2ˆ = 1 +Pn_{i =1}Xi n + 2

(23)

6.2 (cont.)

8 amostras de dimens˜ao 10: x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 p1ˆ p2ˆ

•

0

•

1

•

1

•

0

•

1

•

1

•

0

•

0

•

0

•

1 0.5 0.5

•

1

•

1

•

1

•

1

•

1

•

0

•

1

•

1

•

1

•

1 0.9 0.8333

•

0

•

1

•

0

•

1

•

0

•

1

•

0

•

0

•

0

•

1 0.4 0.4167

•

0

•

0

•

0

•

1

•

1

•

1

•

1

•

0

•

1

•

1 0.6 0.5833

•

1

•

1

•

0

•

0

•

0

•

1

•

1

•

0

•

0

•

0 0.4 0.4167

•

1

•

0

•

1

•

0

•

0

•

0

•

0

•

0

•

0

•

0 0.2 0.25

•

1

•

1

•

0

•

1

•

0

•

1

•

0

•

0

•

1

•

0 0.5 0.5

•

1

•

0

•

1

•

0

•

0

•

0

•

0

•

1

•

1

•

1 0.5 0.5

m´edia dos 8 valores: 0.5 0.5

variˆancia dos 8 valores: 0.04 0.0278

Sabendo que os dados foram gerados com p = 0.5, conclui-se que o segundo

estimador é melhor (as estimativas estão a distância menor ou igual do

(24)

6.2 (cont.)

Sabemos j´a que

EQM( ˆP1) = p(1 − p)/n

pois ˆP1´e centrado (b( ˆP1) = 0, enviesamento=0), logo EQM( ˆP1) = V ( ˆP1).

Pode mostrar-se (Exerc´ıcio) que

EQM( ˆP2) =np(1 − p) + (1 − 2p)

2

(n + 2)2

e que EQM( ˆP2) ´e mais eficiente que EQM( ˆP1) se

p ∈ # 1 2− r 1 4− n 8n + 4; 1 2+ r 1 4− n 8n + 4 "

(25)

6.3 M´

etodo da m´

axima verosimilhan¸ca

Existem vários métodos de estima¸cão de parâmetros desconhecidos. Um desses

métodos é o da máxima verosimilhan¸ca. Como o seu nome indica o estimador

obtém-se maximizando uma certa fun¸cão chamada fun¸cão de verosimilhan¸ca.

Defini¸c˜ao: Seja X uma v.a. com distribui¸c˜ao caracterizada por f (x , θ) (f.p. ou

f.d.p.), onde θ ´e um parˆametro desconhecido. Sejam x1, x2, . . . , xn os valores

observados de uma a.a. de dimens˜ao n. A fun¸c˜ao de verosimilhan¸ca da amostra

´e L(θ|x1, x2, . . . , xn) = f (x1, θ)f (x2, θ) · · · f (xn, θ) = n Y i =1 f (xi, θ)

Chama-seestimativa de m´axima verosimilhan¸cade θ (ˆθ) ao valor de θ que

maxi-miza L(θ), ou seja, ˆ

θ = arg max θ

(26)

6.3 (cont.)

Exemplo 1: No exemplo concreto que temos vindo a considerar, X ∼ Bernoulli (p), tem-se, se considerarmos a amostra 1,

L(p|x1, x2, . . . , xn) = p5(1 − p)5, 0 < p < 1

Determina¸c˜ao do valor de p que maximiza L(p):

dL(p|x1, x2, . . . , xn) dp = 5p 4 (1 − p)5− 5p5 (1 − p)4= 5p4(1 − p)4(1 − 2p) = 0 ⇔ p = 0 ∨ p = 1 ∨ p =1 2 0 1/2 1 L0(p) 0 + 0 − 9 L(p) 0 % + & 0

Logo a estimativa de m.v. de p com base nesta amostra ´e ˆp = 1

(27)

6.3 (cont.)

Em vez de fazer a determina¸c˜ao da estimativa para uma amostra concreta ´e

conveniente fazˆe-lo para uma amostra gen´erica (x1, . . . , xn)

(vantagens: só é preciso fazer os cálculos uma vez e obtém-se a expressão do

estimador, necess´aria para estudar as suas propriedades).

Exemplo 2: X ∼ Ber (p), para a qual f (x ) = P(X = x ) = px(1 − p)1−x,

0 < p < 1. Dada uma amostra (x1, . . . , xn) vem

L(p|x1, . . . , xn) ≡ L(p) = f (x1) · · · f (xn) = n Y i =1 pxi_{(1 − p)}1−xi ₌ = p Pn i =1xi_{(1 − p)}n−Pni =1xi ₌ = pk(1 − p)n−k, 0 < p < 1

onde k =Pn_{i =1}xi é o número de sucessos na amostra e n − k o número de

(28)

6.3 (cont.)

Nota: em vez de determinar p que maximiza L(p) pode determinar-se o valor

de p que maximiza log L(p) (pois para uma fun¸c˜ao f > 0 qualquer, f e log f

têm máximo e m´ınimo nos mesmos pontos e os cálculos com log L são

geralmente mais simples do que com L).

log L(p) = loghpk(1 − p)n−ki= k log p + (n − k) log(1 − p)

d log L(p) dp = k p − n − k 1 − p = 0 (p6=0, p6=1) ⇔ k(1 − p) − (n − k)p = 0 ⇔ p = k n Verifica¸cão: d 2 log L(p) dp2 = − k p2 − n − k (1 − p)2 < 0, ∀0<p<1 a estimativa de m.v. é ˆp = Pn i =1xi n = ¯x o estimador de m.v. é ˆp = Pn i =1Xi n = ¯X

(29)

6.3 (cont.)

O método da máxima verosimilhan¸ca também pode ser usado quando a fun¸cão

de densidade (ou de probabilidade) da popula¸c˜ao depende de mais de um

parˆametro.

Exemplo 3: Considere-se X ∼ Exp(λ), (λ > 0) f (x ) = λe−λx, x > 0. Dada

uma amostra (x1, . . . , xn) vem

L(λ|x1, . . . , xn) ≡ L(λ) = f (x1) · · · f (xn) = n Y i =1 λe−λxi_{, =} = λne−λ Pn i =1xi_{, λ > 0, xi} _{> 0} log L(λ) = n log λ − λ n X i =1 xi

(30)

6.3 (cont.)

Determina¸c˜ao do ponto de m´aximo:

         d log L(λ) d λ = 0 d2_{log L(λ)} d λ2 < 0 ? ⇔          n λ− n X i =1 xi = 0 ⇔ n − λ n X i =1 xi = 0 −n λ2 < 0 , ∀λ > 0 Logo o estimador de m.v. de λ ´e ˆ λ =Pnn i =1Xi = 1_¯ X

(31)

6.3 (cont.)

Nota: Os estimadores de máxima verosimilhan¸ca não são necessariamente

centrados mas s˜ao assintoticamente centrados (quando n → ∞)

Propriedade da invariˆancia dos estimadores de m´axima verosimilhan¸ca:

Se ˆΘ1, ˆΘ2, . . . , ˆΘk, são estimadores de máxima verosimilhan¸ca dos parâmetros

θ1, θ2, . . . , θk, então o estimador de máxima verosimilhan¸ca de uma fun¸cão

h(θ1, θ2, . . . , θk) desses parâmetros é a mesma fun¸cão h( ˆΘ1, ˆΘ2, . . . , ˆΘk) dos

estimadores.

Exemplo Seja X1, X2, · · · , Xnuma a.a. proveniente de uma popula¸c˜ao X com

distribui¸c˜ao Exponencial de parˆametro λ .

(32)

6.4 Momentos da m´

edia amostral e de variˆ

ancias amostrais.

Distribui¸c˜

oes amostrais da m´

edia . . .

Momentos:

O momento de ordem k de uma v.a. X ´e E (Xk).

O primeiro momento ´e o valor esperado, E (X ) = µ

O momento central de ordem k de uma v.a. X ´e E [(X − µ)k].

O segundo momento central ´e a variˆancia, E [(X − µ)2] = V (X ) = σ2

Os momentos das estat´ısticas média e variância amostrais foram já calculados:

E ( ¯X ) = µ V ( ¯X ) =σ

2

n E (S

2

) = σ2

Estes são os únicos momentos da média e da variância amostrais que não

(33)

6.4 . . . Distribui¸c˜

oes amostrais da m´

edia e variˆ

ancia numa

popula¸c˜

ao normal . . .

A distribui¸c˜ao de probabilidades de uma estat´ıstica ´e chamada

distribui¸c˜ao amostral ou distribui¸c˜ao por amostragem.

Teorema Considere-se uma popula¸c˜ao X ∼ N(µ, σ2₎ _e _uma _a.a.

(X1, X2, . . . , Xn). Como ¯ X = Pn i =1Xi n = X1+ X2+ · · · + Xn n

é uma combina¸cão linear de variáveis aleatórias independentes com distribui¸cão

normal, conclui-se que tamb´em tem distribui¸c˜ao normal, logo

¯ X ∼ N µ,σ 2 n ⇔ X − µ¯ σ/√n ∼ N(0, 1)

(34)

6.4 . . . Distribui¸c˜

oes amostrais da m´

edia e variˆ

ancia numa

popula¸c˜

ao normal . . .

Para popula¸cões não normais tem-se como consequência do T.L.C.:

Se (X1, X2, . . . , Xn) for uma amostra aleatória de dimensão n de uma popula¸cão

X com valor esperado µ e variˆancia σ2 e ¯X a correspondente m´edia amostral

ent˜ao ¯ X − µ σ/√n a ∼ N(0, 1)