Amostragem e estimação pontual - Notas de Probabilidades e Estatística

Definição 6.1: População é um conjunto cujos elementos possuem

qual-quer característica em comum.

Definição 6.2: Amostra é um subconjunto da população.

Exemplo 6.1: Um partido encomenda uma sondagem sobre a intenção

de voto nele nas próximas eleições. Por exemplo, a sondagem poderá

ser baseada numa amostra (aleatória) da população de interesse de

di-mensão 10000 em 100000 votantes. Note-se que há uma v.a. para cada

eleitor, i.e.,

X =

(

1, se o eleitor tenciona votar no partido;

0, c.c.,

podendo p = P(X = 1) = 1 − P(X = 0) (desconhecido) ser

esti-mado pelo número de votantes sondados que tencionam votar a favor

do partido.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 96/207

Estatística descritiva e Inferência Estatística.

•

Estatística descritiva: Parte da Estatística que aplica várias das

muitas técnicas usadas para sumariar um conjunto de dados.

•

_{Inferência Estatística: Parte da Estatística que visa fazer induções}

sobre características de uma população a partir de uma amostra da

mesma.

O estudo de uma população centra-se usualmente em uma ou mais

var-iáveis aleatórias. Em geral, a distribuição de probabilidade destas

quan-tidades não é completamente conhecida e, portanto, com base em uma

informação por amostragem, pode-se inferir estatisticamente sobre os

seus aspectos desconhecidos, e.g.,

•

Estimação pontual ou intervalar de parâmetros.

•

_{Testes de hipóteses sobre o valor de parâmetros ou sobre o próprio}

Amostragem aleatória.

Importantes questões relativamente ao processo de amostragem:

•

_{Como recolher a amostra?}

•

Qual a informação pertinente a retirar da amostra?

•

Como se comporta a informação acima quando o mesmo

procedi-mento de recolha da amostra é usado numa população conhecida?

Alguns tipos de amostragem:

•

_{Amostragem aleatória simples: Todos os elementos da população}

têm a mesma probabilidade de serem seleccionados.

•

Amostragem por conglomerados: A população está dividida em

pequenos grupos (e.g., bairros, quarteirões, etc.), chamados

con-glomerados, que são amostrados aleatoriamente.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 98/207

•

Amostragem estratificada: A população encontra-se dividida em

subpopulações ou estratos (e.g., classes sociais, graus de

in-strução, etc.), agrupados por alguma característica em comum, de

cada um dos quais se amostra aleatoriamente alguns dos seus

ele-mentos.

Estes tipos de amostragem têm em comum a recolha aleatória dos

el-ementos da amostra. Todavia, há outros métodos de amostragem não

aleatórios, e.g., quando os elementos da amostra são voluntários

(en-saios clínicos) ou são os únicos disponíveis.

Definição 6.3: Dada uma população a que está associada uma variável

aleatória X com uma certa distribuição de probabilidade, uma amostra

aleatória (a.a.) de tamanho n dessa população é um conjunto de n v.a.

Definição 6.4: Dada uma amostra aleatória X

₁

. . . , X

de uma

pop-ulação X com f.m.p. (f.d.p.) f

(x), a distribuição de probabilidade

amostral (f.m.p. ou f.d.p. conjunta) é dada por

f(x

, . . . , x

) =

Y

i=1

f

(x

) =

Y

i=1

f

(x

).

Exemplo 6.1a: Uma a.a. da população de votantes no partido com n

elementos reporta-se an v.a. X

. . . , X

i.i.d., tal que

X

=

(

1, se o eleitor itenciona votar no partido;

0, c.c.,

sendo p = P(X

= 1) = 1 − P(X

= 0), i = 1, . . . , n.

Consequente-mente, a respectiva distribuição de probabilidade amostral é dada por

f(x

, . . . , x

) =

Y

i=1

p

^xi

(1 −p)

¹−xi

= p

^Pixi

(1−p)

ⁿ−^P ixi

.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 100/207

Estatísticas.

Definição 6.5: Dada uma amostra X

, . . . , X

de uma população X,

umaestatística T é uma função da amostra, i.e.,

T = T(X

, . . . , X

).

As estatísticas mais comuns são:

•

_{Média amostral:} _X¯ ₌

1 n

P

i=1

X

.

•

_{Variância amostral (corrigida):} S

=

_n₋¹₁

P

i=1

(X

−X^¯)

.

•

Mínimo amostral: X

(1)

= min(X

, . . . , X

).

•

_{Máximo amostral:} X

_(n)

= max(X

, . . . , X

).

Definição 6.6: Um parâmetro é uma medida usada para descrever uma

característica da população.

Notação usual de parâmetros e estatísticas:

Medida População Amostra

média µ X^¯

variância σ

S

número de elementos N n

proporção p X^¯

SeX

, . . . , X

é uma amostra aleatória de uma populaçãoX, então

•

média populacional: µ = E(X),

•

_{média amostral:} _X¯ _{= (}_X

₁

₊· · ·+X

)/n.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 102/207

Estimação pontual: estimador e estimativa.

Definição 6.7: Seja X

, . . . , X

uma amostra aleatória de uma

popu-lação X indexada pelo parâmetro θ. Um estimador de θ é uma

estatís-tica T = T(X

, . . . , X

)usada para estimar θ.

Definição 6.8: O valor observado de um estimador em cada amostra

concretat = T(x

, . . . , x

)é conhecido porestimativa.

Exemplo 6.1b: Numa amostra aleatória de n = 100000 eleitores,

observaram-se 38900 eleitores com intenção de voto no partido em

causa. Neste cenário, X

, . . . , X

são v.a. i.i.d. com distribuição de

Bernoulli (p), onde p é a proporção (populacional) de votantes no

par-tido. O parâmetro p pode ser estimado pela média amostral _X¯_, _i.e._{, a}

proporção amostral de votantes no partido, cujo estimativa é

¯

Propriedades dos estimadores.

Exemplo 6.2: A fim de estudar a exactidão e precisão de 4 jogadores

(A,B,C,D) de tiro ao alvo, foram-lhes dadas 6 possibilidades de acertar

ao alvo. O resultado dessa experiência encontra-se a seguir.

A B

C D

&% '$ &% '$ &% '$ &% '$ t t t t

*

* *

*

***^*

**

*

**

*

**

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 104/207

Um resumo da qualidade (exactidão e precisão) dos jogadores:

•

_{Jogador A: muita exactidão e pouca precisão;}

•

_{Jogador B: pouca exactidão e pouca precisão;}

•

Jogador C: muita exactidão e muita precisão;

•

_{Jogador D: pouca exactidão e muita precisão.}

Diz-se que os jogadores com mais precisão têm lançamentos menos

dispersos (maior concordância entre os resultados).

Aexactidão(accuracy) está associada aos erros sistemáticos,e.g.,

defi-ciências de instrumentos de medição, enquanto a precisão (precision)

reporta-se aos erros aleatórios que são responsáveis por pequenas

vari-ações nas medições realizadas, cujas causas não são completamente

conhecidas.

Definição 6.9: SejaX

₁

, . . . , X

uma a.a. de X com distribuição

index-ada pelo parâmetro θ. O estimador T = T(X

, . . . , X

) é dito ser um

estimador centrado (não enviesado) de θ se E(T) = θ.

Exemplo 6.3: Seja X

, . . . , X

uma a.a. de X com E(X) = µ e

V ar(X) = σ

. Será P

i=1

(X

−X^¯)

um estimador centrado deσ

?

Se X

, . . . , X

são v.a. i.i.d. com E(X

) = µ e V ar(X

) = σ

, i =

1, . . . , n, então E( ¯X) = µe V ar( ¯X) = σ

/n. Logo,

E(P

n i=1

(X

−X^¯)

) = E(P

X

2 i

−2 ¯XP

X

+nX^¯

)

= P

E(X

_i²

)−nE( ¯X

)

= P

(V ar(X

) + E(X

)

−n(V ar( ¯X) + E( ¯X)

)

= nσ

+nµ

−nσ

/n−nµ

= (n −1)σ

.

∴ Não, masS

=

_n₋¹₁

P

i=1

(X

−X^¯)

é um estimador centrado de σ

.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 106/207

Definição 6.10: SejaT = T(X

₁

, . . . , X

)um estimador do parâmetroθ.

Chama-se viés (enviesamento) de T como estimador de θ à quantidade

E(T)−θ. Note-se que o viés é nulo se e somente se T é um estimador

centrado de θ.

Definição 6.11: Seja T = T(X

, . . . , X

) um estimador do parâmetro

θ. Uma medida de precisão do estimador T é o erro quadrático médio

(EQM), dado por

EQM(T) ≡ E((T −θ)

) = V ar(T) + (E(T)−θ)

.

Definição 6.12: SejamT = T(X

, . . . , X

)eU = U(X

, . . . , X

)dois

estimadores do parâmetroθ. Diz-se queT é maiseficientedo que U, se

EQM(T) ≤ EQM(U), ∀ θ

Se T e U são estimadores centrados do parâmetro θ, então T é mais

eficiente do que U se V ar(T) ≤ V ar(U),∀ θ com desigualdade estrita

para algumθ.

Exemplo 6.4: Seja X

₁

, . . . , X

uma a.a. de X ∼ Bernoulli(p).

Con-sidere ainda X

e _X¯ _{como dois estimadores de} _p_{. Qual dos dois é o}

estimador mais eficiente?

Sendo X

’s v.a. i.i.d. Bernoulli (p),^P

ⁿ_i=1

X

∼ Binomial (n, p),

•

E(X

) = p e

E( ¯X) = n

−1

E(P

i=1

X

) = n

−1

n p = p.

∴ X

e _X¯ _{são estimadores centrados de} _p_.

•

V ar(X

₁

) = p(1−p) e

V ar( ¯X) = n

−2

V ar(P

i=1

X

) = n

−1

p(1−p)

⇒

_{V ar(X}^{V ar( ¯}^X₁⁾₎

=

_n¹

<1, ∀n > 1.

∴ _X¯ _{é mais eficiente do que} _X

₁

_{na estimação de}_p_.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 108/207

Exemplo 6.3a: Seja X

, . . . , X

uma a.a. de uma população X com

E(X) = µe V ar(X) = σ

. Será a variância amostral (corrigida) S

=

(n−1)

−1

P

i=1

(X

−X^¯)

mais eficiente do queσˆ

= n

−1

P

i=1

(X

−X^¯)

na estimação deσ

?

Como

•

E(P

n i=1

(X

−X^¯)

) = (n−1)σ

,

⇒ E(S

) = σ

e E(ˆσ

) =

ⁿ−1 n

σ

.

•

V ar(P

n i=1

(X

−X^¯)

) = 2(n−1)σ

,

•

EQM(S

) = V ar(S

) + (E(S

)−σ

)

= 2(n−1)

−1

σ

⁴

,

•

EQM(ˆσ

) = V ar(ˆσ

) + (E(ˆσ

)−σ

)

= (2n−1)n

−2

σ

⁴

,

⇒

^EQM_EQM^(S_(ˆ_σ2²)⁾

=

_(n₋_1)(2n²ⁿ² ₋₁₎

> 1, ∀ n > 1.

Definição 6.13: Seja X

₁

, . . . , X

uma a.a. de uma população X

in-dexada pelo parâmetro θ. Uma sucessão {T

} de estimadores de θ é

consistente se lim

n→∞

P(|T

−θ| > ǫ) = 0,∀ǫ > 0, garantido por

i) lim

n→∞

E(T

) = θ, ii) lim

n→∞

V ar(T

) = 0.

Exemplo 6.4a: Seja X

₁

, . . . , X

uma a.a. de X ∼ Bernoulli(p). Será

¯

X um estimador consistente de p?

Sendo X

’s v.a. i.i.d. Bernoulli (p),^P

ⁿ_i=1

X

∼ Binomial (n, p),

•

E( ¯X) = E(P

i=1

X

)/n = p. _X¯ _{é um estimador centrado de} _p_.

Condição i) logicamente satisfeita.

•

V ar( ¯X) = V ar(P

i=1

X

)/n

= p(1−p)/n. Por conseguinte,

lim

n→∞

V ar( ¯X) = lim

n→∞

p(1−p)

= 0. Condição ii) satisfeita.

Portanto, _X¯ _{é um estimador consistente de} _p_.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 110/207

Método da máxima verosimilhança.

Definição 6.14: Dada uma a.a. X

, . . . , X

de uma população X com

f.m.p. ou f.d.p. f

(x) indexada pelo parâmetro (desconhecido) θ, a

função deverosimilhançadeθ relativa à amostra (x

, . . . , x

), denotada

por L(θ|x

, . . . , x

), é a função de θ que é numericamente idêntica à

distribuição de probabilidade amostral avaliada em x

, . . . , x

,i.e.,

L(θ|x

, . . . , x

) ≡ f(x

, . . . , x

|θ) =

Y

i=1

f

(x

|θ).

O método de máxima verosimilhança consiste em maximizar a função

de verosimilhança para obter o valor mais verosímil de θ, denominado

estimativa de máxima verosimilhança deθ.

Ao determinar o valor que maximiza θ, usa-se frequentemente o facto

de que L(θ|x

₁

, . . . , x

) e logL(θ|x

₁

, . . . , x

) têm o seu máximo no

mesmo valor de θ.

Exemplo 6.5: Seja X

₁

, . . . , X

uma a.a. de uma população X ∼

Poisson(λ). Qual o estimador de máxima verosimilhança de λ?

A função de verosimilhança de λ, dado x

, . . . , x

, é

L(λ|x

, . . . , x

) =

Y

i=1

e

−λ

λ

x_i

x

! ^.

SejaL

≡ logL(λ|x

, . . . , x

) = −n λ+ logλ

X

i=1

x

−log

Y

i=1

x

!.

• ^dLλ dλ

= −n+λ

−1

P

n i=1

x

= 0 ⇒ λ =

^Pⁿi=1xi n

= ¯x

• d²Lλ dλ2

= −λ

−2

P

n i=1

x

<0,∀λ.

∴ x¯ é a estimativa de máxima verosimilhança de λ e o estimador de

máxima verosimilhança (e.m.v.) deλ é _λˆ _{= ¯}_X ₌

P

i=1

X

.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 112/207

Teorema 6.1: Se _θˆ _{é o estimador de máxima verosimilhança de um}

parâmetro θ, então g(ˆθ) é o estimador de máxima verosimilhança de

g(θ) (propriedade de invariância).

Exemplo 6.6: SejaX

, . . . , X

uma a.a. de X ∼ Uniforme(0, θ]. Qual

o estimador de máxima verosimilhança de logθ?

A função de verosimilhança de θ, dado x

₁

, . . . , x

, é

L(θ|x

, . . . , x

) =

Y

i=1 1 θ

I

(0,θ]

(x

)

=

_θ¹n

I

[x₍_n₎,∞)

(θ)

6 -L(θ)

θ

x₍_n₎ 1 x₍_n₎ &

⇒ X

_(n)

= max(X

₁

, . . . , X

) é o e.m.v. de θ e, pela propriedade de

invariância dos estimadores de máxima verosimilhança, logX

_(n)

é

o e.m.v. de logθ.

Momentos da média amostral e da variância

amostral.

Exemplo 6.7: Suponha uma população (conhecida) X = {2,4,6} da

qual se retira (com reposição) uma amostra aleatória de tamanho 2.

Qual o valor esperado da média amostral? E da variância amostral?

Se os elementos da população X são equiprováveis,

•

E(X) = P

xf

(x) =

¹₃

(2 + 4 + 6) = 4.

•

E(X

) = P

x

f

(x) =

¹₃

(4 + 16 + 36) = 56/3

⇒ V ar(X) = E(X

)−(E(X))

= 56/3−16 = 8/3.

Seja X

é o resultado da extracção i, i= 1, . . . , n (n= 2). Recorde-se

que a média amostral e a variância amostral são, respectivamente,

¯

X = n

−1

P

i=1

X

e S

= (n−1)

−1

P

i=1

(X

−X^¯)

.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 114/207

A distribuição de probabilidade conjunta de (X

, X

) é dada por

X

\X

2 4 6

2 1/9 1/9 1/9

4 1/9 1/9 1/9

6 1/9 1/9 1/9

A distribuição amostral da estatística_X¯ _{= (}_X

₁

₊_X

₂

₎_/₂ _é

¯

X 2 3 4 5 6

P( ¯X = ¯x) 1/9 2/9 3/9 2/9 1/9

E( ¯X) = ^X

u P( ¯X=u) = 2¹

9 ⁺· · ·+ 6¹

9 ⁼

36 9 ^{= 4}

⇒ E( ¯X) = E(X).

•

E( ¯X

) = P

u

P( ¯X=u) = 4

¹₉

+· · ·+ 36

¹₉

=

¹⁵⁶₉

•

V ar( ¯X

) = E( ¯X

)−(E( ¯X)

=

¹⁵⁶₉

−16 =

¹²₉

=

⁴₃

⇒ V ar( ¯X) = V ar(X)/n.

A distribuição amostral da estatísticaS

= P

i=1

(X

−X^¯)

é

S

0 2 8

P(S

= s

) 3/9 4/9 2/9

E(S

) = ^X

v P(S

=v) = 0³

9 ^{+ 2}

4 9 ^{+ 8}

2 9 ⁼

24 9 ⁼

8

3 ⇒ E(S

) = V ar(X).

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 116/207

Distribuições amostrais da média e variância

numa população normal.

Para melhor avaliar a estimação de um parâmetro θ a partir de uma

estatística T = T(X

, . . . , X

), deve-se conhecer a distribuição de T.

A distribuição da estatística T, conhecida como distribuição amostral

deT, tem em conta todos os valores possíveis da amostra X

, . . . , X

.

Teorema 6.2: Se X

, . . . , X

é uma a.a. de uma população X com

E(X) = µ e V ar(X) = σ

, então o valor esperado e variância da

média amostral_X¯ _{são, respectivamente,}

•

E( ¯X) = n

−1

P

E(X

) = n

−1

n µ = µ;

•

V ar( ¯X) = n

−2

P

Teorema 6.3: Seja X

₁

, . . . , X

uma a.a. de uma população X com

E(X) = µ e V ar(X) = σ

, 0 < σ

< ∞. Pelo Teorema do Limite

Central, a distribuição amostral de _X¯ _{é aproximada pela distribuição}

Normal com média µe variância σ

/n, quando n → ∞.

Corolário 6.1: Se X

, . . . , X

é uma a.a. de uma população X ∼

N(µ, σ

),0 < σ

< ∞, então

Z = ^X^¯ −µ

σ/√

n ∼ N(0,1).

Exemplo 6.8: Seja X

, . . . , X

uma a.a. de X ∼ Bernoulli(p). Qual a

distribuição aproximada da proporção amostral _X¯ ₌ _n

−1

P

i=1

X

?

Sabendo que E(X) = p e V ar(X) = p(1−p), pelo Teorema 6.3

¯

X −p

p

p(1 −p)/n

∼ N(0,1) ⇒ X^¯ ∼

N

p,^p⁽¹−p)

n

.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 118/207

Definição 6.15: SeX

₁

, . . . , X

são v.a. i.i.d. com distribuiçãoN(µ, σ

),

Q = X

₁²

+· · ·+X

_k²

é dito ter uma distribuição Qui-quadrado comk graus de liberdade,

de-notada porχ

²_(k)

, cuja f.d.p. é dada por

f

(q) = ¹

2 Γ(

k 2

) ^e

−q 2

q

2

^k2⁻1

, q > 0,

ondeΓ(n) = ^R

∞ 0

x

n−1

e

−x

dx.

O valor esperado e a variância de uma v.a. Q ∼ χ

²_(k)

são,

respectiva-mente:

•

E(Q) = k;

0 5 10 15 20 25 30 0.00 0.05 0.10 0.15 0.20

Função Densidade de Probabilidade − Qui−quadrado

f(x)

k=1 k=5 k=10

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 120/207

Definição 6.16: Se Z e Q são v.a. independentes com Z ∼ N(0,1) e

Q ∼ χ

²_(k)

, então

T = _p^Z

Q/k

é dito ter uma distribuição t-Student comkgraus de liberdade, denotada

port

_(k)

, cuja f.d.p. é dada por

f

(t) = √¹

k π

Γ(

^k−1 2

)

Γ(

^k₂

)

1 + ^x

k

^k⁻1 2

, −∞ < t < ∞.

O valor esperado e a variância de uma v.a. T ∼ t

_(k)

são,

respectiva-mente:

•

E(T) = 0,k > 1.

−4 −2 0 2 4 6 0.0 0.1 0.2 0.3 0.4

Função Densidade de Probabilidade − t−Student

f(x)

k=1 k=5 k=100

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 122/207

Teorema 6.4: Se X

, . . . , X

é uma a.a. de uma população X ∼

N(µ, σ

), então

P

n i=1

(X

−µ)

σ

=

X

i=1

X

−µ

σ

∼ χ

²_(n)

e

P

n i=1

(X

−X^¯)

σ

= ⁽ⁿ−1)S

σ

∼ χ

²_(n−1)

.

Teorema 6.5: Se X

, . . . , X

é uma a.a. de uma população X ∼

N(µ, σ

), então

( ¯X −µ)/(σ/√

n)

p

(((n−1)S

)/σ

)/(n−1) ⁼

¯

X −µ

S/√

n ∼ t

_(n−1)

.

No documento Notas de Probabilidades e Estatística (páginas 49-63)