• Nenhum resultado encontrado

Amostragem e estimação pontual

No documento Notas de Probabilidades e Estatística (páginas 49-63)

Definição 6.1: População é um conjunto cujos elementos possuem

qual-quer característica em comum.

Definição 6.2: Amostra é um subconjunto da população.

Exemplo 6.1: Um partido encomenda uma sondagem sobre a intenção

de voto nele nas próximas eleições. Por exemplo, a sondagem poderá

ser baseada numa amostra (aleatória) da população de interesse de

di-mensão 10000 em 100000 votantes. Note-se que há uma v.a. para cada

eleitor, i.e.,

X =

(

1, se o eleitor tenciona votar no partido;

0, c.c.,

podendo p = P(X = 1) = 1 − P(X = 0) (desconhecido) ser

esti-mado pelo número de votantes sondados que tencionam votar a favor

do partido.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 96/207

Estatística descritiva e Inferência Estatística.

Estatística descritiva: Parte da Estatística que aplica várias das

muitas técnicas usadas para sumariar um conjunto de dados.

Inferência Estatística: Parte da Estatística que visa fazer induções

sobre características de uma população a partir de uma amostra da

mesma.

O estudo de uma população centra-se usualmente em uma ou mais

var-iáveis aleatórias. Em geral, a distribuição de probabilidade destas

quan-tidades não é completamente conhecida e, portanto, com base em uma

informação por amostragem, pode-se inferir estatisticamente sobre os

seus aspectos desconhecidos, e.g.,

Estimação pontual ou intervalar de parâmetros.

Testes de hipóteses sobre o valor de parâmetros ou sobre o próprio

Amostragem aleatória.

Importantes questões relativamente ao processo de amostragem:

Como recolher a amostra?

Qual a informação pertinente a retirar da amostra?

Como se comporta a informação acima quando o mesmo

procedi-mento de recolha da amostra é usado numa população conhecida?

Alguns tipos de amostragem:

Amostragem aleatória simples: Todos os elementos da população

têm a mesma probabilidade de serem seleccionados.

Amostragem por conglomerados: A população está dividida em

pequenos grupos (e.g., bairros, quarteirões, etc.), chamados

con-glomerados, que são amostrados aleatoriamente.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 98/207

Amostragem estratificada: A população encontra-se dividida em

subpopulações ou estratos (e.g., classes sociais, graus de

in-strução, etc.), agrupados por alguma característica em comum, de

cada um dos quais se amostra aleatoriamente alguns dos seus

ele-mentos.

Estes tipos de amostragem têm em comum a recolha aleatória dos

el-ementos da amostra. Todavia, há outros métodos de amostragem não

aleatórios, e.g., quando os elementos da amostra são voluntários

(en-saios clínicos) ou são os únicos disponíveis.

Definição 6.3: Dada uma população a que está associada uma variável

aleatória X com uma certa distribuição de probabilidade, uma amostra

aleatória (a.a.) de tamanho n dessa população é um conjunto de n v.a.

Definição 6.4: Dada uma amostra aleatória X

1

. . . , X

n

de uma

pop-ulação X com f.m.p. (f.d.p.) f

X

(x), a distribuição de probabilidade

amostral (f.m.p. ou f.d.p. conjunta) é dada por

f(x

1

, . . . , x

n

) =

n

Y

i=1

f

Xi

(x

i

) =

n

Y

i=1

f

X

(x

i

).

Exemplo 6.1a: Uma a.a. da população de votantes no partido com n

elementos reporta-se an v.a. X

1

. . . , X

n

i.i.d., tal que

X

i

=

(

1, se o eleitor itenciona votar no partido;

0, c.c.,

sendo p = P(X

i

= 1) = 1 − P(X

i

= 0), i = 1, . . . , n.

Consequente-mente, a respectiva distribuição de probabilidade amostral é dada por

f(x

1

, . . . , x

n

) =

n

Y

i=1

p

xi

(1 −p)

1−xi

= p

Pixi

(1−p)

nP ixi

.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 100/207

Estatísticas.

Definição 6.5: Dada uma amostra X

1

, . . . , X

n

de uma população X,

umaestatística T é uma função da amostra, i.e.,

T = T(X

1

, . . . , X

n

).

As estatísticas mais comuns são:

Média amostral: X¯ =

1 n

P

n

i=1

X

i

.

Variância amostral (corrigida): S

2

=

n11

P

n

i=1

(X

i

−X¯)

2

.

Mínimo amostral: X

(1)

= min(X

1

, . . . , X

n

).

Máximo amostral: X

(n)

= max(X

1

, . . . , X

n

).

Definição 6.6: Um parâmetro é uma medida usada para descrever uma

característica da população.

Notação usual de parâmetros e estatísticas:

Medida População Amostra

média µ X¯

variância σ

2

S

2

número de elementos N n

proporção p X¯

SeX

1

, . . . , X

n

é uma amostra aleatória de uma populaçãoX, então

média populacional: µ = E(X),

média amostral: X¯ = (X

1

+· · ·+X

n

)/n.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 102/207

Estimação pontual: estimador e estimativa.

Definição 6.7: Seja X

1

, . . . , X

n

uma amostra aleatória de uma

popu-lação X indexada pelo parâmetro θ. Um estimador de θ é uma

estatís-tica T = T(X

1

, . . . , X

n

)usada para estimar θ.

Definição 6.8: O valor observado de um estimador em cada amostra

concretat = T(x

1

, . . . , x

n

)é conhecido porestimativa.

Exemplo 6.1b: Numa amostra aleatória de n = 100000 eleitores,

observaram-se 38900 eleitores com intenção de voto no partido em

causa. Neste cenário, X

1

, . . . , X

n

são v.a. i.i.d. com distribuição de

Bernoulli (p), onde p é a proporção (populacional) de votantes no

par-tido. O parâmetro p pode ser estimado pela média amostral X¯, i.e., a

proporção amostral de votantes no partido, cujo estimativa é

¯

Propriedades dos estimadores.

Exemplo 6.2: A fim de estudar a exactidão e precisão de 4 jogadores

(A,B,C,D) de tiro ao alvo, foram-lhes dadas 6 possibilidades de acertar

ao alvo. O resultado dessa experiência encontra-se a seguir.

A B

C D

&% '$ &% '$ &% '$ &% '$ t t t t

*

*

*

*

* *

*

*

*

*

*

*

****

**

*

**

*

**

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 104/207

Um resumo da qualidade (exactidão e precisão) dos jogadores:

Jogador A: muita exactidão e pouca precisão;

Jogador B: pouca exactidão e pouca precisão;

Jogador C: muita exactidão e muita precisão;

Jogador D: pouca exactidão e muita precisão.

Diz-se que os jogadores com mais precisão têm lançamentos menos

dispersos (maior concordância entre os resultados).

Aexactidão(accuracy) está associada aos erros sistemáticos,e.g.,

defi-ciências de instrumentos de medição, enquanto a precisão (precision)

reporta-se aos erros aleatórios que são responsáveis por pequenas

vari-ações nas medições realizadas, cujas causas não são completamente

conhecidas.

Definição 6.9: SejaX

1

, . . . , X

n

uma a.a. de X com distribuição

index-ada pelo parâmetro θ. O estimador T = T(X

1

, . . . , X

n

) é dito ser um

estimador centrado (não enviesado) de θ se E(T) = θ.

Exemplo 6.3: Seja X

1

, . . . , X

n

uma a.a. de X com E(X) = µ e

V ar(X) = σ

2

. Será P

n

i=1

(X

i

−X¯)

2

um estimador centrado deσ

2

?

Se X

1

, . . . , X

n

são v.a. i.i.d. com E(X

i

) = µ e V ar(X

i

) = σ

2

, i =

1, . . . , n, então E( ¯X) = µe V ar( ¯X) = σ

2

/n. Logo,

E(P

n i=1

(X

i

−X¯)

2

) = E(P

i

X

2 i

−2 ¯XP

i

X

i

+nX¯

2

)

= P

i

E(X

i2

)−nE( ¯X

2

)

= P

i

(V ar(X

i

) + E(X

i

)

2

)

−n(V ar( ¯X) + E( ¯X)

2

)

= nσ

2

+nµ

2

−nσ

2

/n−nµ

2

= (n −1)σ

2

.

∴ Não, masS

2

=

n11

P

n

i=1

(X

i

−X¯)

2

é um estimador centrado de σ

2

.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 106/207

Definição 6.10: SejaT = T(X

1

, . . . , X

n

)um estimador do parâmetroθ.

Chama-se viés (enviesamento) de T como estimador de θ à quantidade

E(T)−θ. Note-se que o viés é nulo se e somente se T é um estimador

centrado de θ.

Definição 6.11: Seja T = T(X

1

, . . . , X

n

) um estimador do parâmetro

θ. Uma medida de precisão do estimador T é o erro quadrático médio

(EQM), dado por

EQM(T) ≡ E((T −θ)

2

) = V ar(T) + (E(T)−θ)

2

.

Definição 6.12: SejamT = T(X

1

, . . . , X

n

)eU = U(X

1

, . . . , X

n

)dois

estimadores do parâmetroθ. Diz-se queT é maiseficientedo que U, se

EQM(T) ≤ EQM(U), ∀ θ

Se T e U são estimadores centrados do parâmetro θ, então T é mais

eficiente do que U se V ar(T) ≤ V ar(U),∀ θ com desigualdade estrita

para algumθ.

Exemplo 6.4: Seja X

1

, . . . , X

n

uma a.a. de X ∼ Bernoulli(p).

Con-sidere ainda X

1

e X¯ como dois estimadores de p. Qual dos dois é o

estimador mais eficiente?

Sendo X

i

’s v.a. i.i.d. Bernoulli (p),P

ni=1

X

i

∼ Binomial (n, p),

E(X

1

) = p e

E( ¯X) = n

−1

E(P

n

i=1

X

i

) = n

−1

n p = p.

∴ X

1

e X¯ são estimadores centrados de p.

V ar(X

1

) = p(1−p) e

V ar( ¯X) = n

−2

V ar(P

n

i=1

X

i

) = n

−1

p(1−p)

V ar(XV ar( ¯X1))

=

n1

<1, ∀n > 1.

X¯ é mais eficiente do que X

1

na estimação dep.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 108/207

Exemplo 6.3a: Seja X

1

, . . . , X

n

uma a.a. de uma população X com

E(X) = µe V ar(X) = σ

2

. Será a variância amostral (corrigida) S

2

=

(n−1)

−1

P

n

i=1

(X

i

−X¯)

2

mais eficiente do queσˆ

2

= n

−1

P

n

i=1

(X

i

−X¯)

2

na estimação deσ

2

?

Como

E(P

n i=1

(X

i

−X¯)

2

) = (n−1)σ

2

,

⇒ E(S

2

) = σ

2

e E(ˆσ

2

) =

n−1 n

σ

2

.

V ar(P

n i=1

(X

i

−X¯)

2

) = 2(n−1)σ

4

,

EQM(S

2

) = V ar(S

2

) + (E(S

2

)−σ

2

)

2

= 2(n−1)

−1

σ

4

,

EQM(ˆσ

2

) = V ar(ˆσ

2

) + (E(ˆσ

2

)−σ

2

)

2

= (2n−1)n

−2

σ

4

,

EQMEQM(Sσ22))

=

(n1)(2n2n2 1)

> 1, ∀ n > 1.

Definição 6.13: Seja X

1

, . . . , X

n

uma a.a. de uma população X

in-dexada pelo parâmetro θ. Uma sucessão {T

n

} de estimadores de θ é

consistente se lim

n→∞

P(|T

n

−θ| > ǫ) = 0,∀ǫ > 0, garantido por

i) lim

n→∞

E(T

n

) = θ, ii) lim

n→∞

V ar(T

n

) = 0.

Exemplo 6.4a: Seja X

1

, . . . , X

n

uma a.a. de X ∼ Bernoulli(p). Será

¯

X um estimador consistente de p?

Sendo X

i

’s v.a. i.i.d. Bernoulli (p),P

ni=1

X

i

∼ Binomial (n, p),

E( ¯X) = E(P

n

i=1

X

i

)/n = p. X¯ é um estimador centrado de p.

Condição i) logicamente satisfeita.

V ar( ¯X) = V ar(P

n

i=1

X

i

)/n

2

= p(1−p)/n. Por conseguinte,

lim

n→∞

V ar( ¯X) = lim

n→∞

p(1−p)

n

= 0. Condição ii) satisfeita.

Portanto, X¯ é um estimador consistente de p.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 110/207

Método da máxima verosimilhança.

Definição 6.14: Dada uma a.a. X

1

, . . . , X

n

de uma população X com

f.m.p. ou f.d.p. f

X

(x) indexada pelo parâmetro (desconhecido) θ, a

função deverosimilhançadeθ relativa à amostra (x

1

, . . . , x

n

), denotada

por L(θ|x

1

, . . . , x

n

), é a função de θ que é numericamente idêntica à

distribuição de probabilidade amostral avaliada em x

1

, . . . , x

n

,i.e.,

L(θ|x

1

, . . . , x

n

) ≡ f(x

1

, . . . , x

n

|θ) =

n

Y

i=1

f

X

(x

i

|θ).

O método de máxima verosimilhança consiste em maximizar a função

de verosimilhança para obter o valor mais verosímil de θ, denominado

estimativa de máxima verosimilhança deθ.

Ao determinar o valor que maximiza θ, usa-se frequentemente o facto

de que L(θ|x

1

, . . . , x

n

) e logL(θ|x

1

, . . . , x

n

) têm o seu máximo no

mesmo valor de θ.

Exemplo 6.5: Seja X

1

, . . . , X

n

uma a.a. de uma população X ∼

Poisson(λ). Qual o estimador de máxima verosimilhança de λ?

A função de verosimilhança de λ, dado x

1

, . . . , x

n

, é

L(λ|x

1

, . . . , x

n

) =

n

Y

i=1

e

−λ

λ

xi

x

i

! .

SejaL

λ

≡ logL(λ|x

1

, . . . , x

n

) = −n λ+ logλ

n

X

i=1

x

i

−log

n

Y

i=1

x

i

!.

dLλ

= −n+λ

−1

P

n i=1

x

i

= 0 ⇒ λ =

Pni=1xi n

= ¯x

d2 dλ2

= −λ

−2

P

n i=1

x

i

<0,∀λ.

∴ x¯ é a estimativa de máxima verosimilhança de λ e o estimador de

máxima verosimilhança (e.m.v.) deλ é λˆ = ¯X =

1

n

P

n

i=1

X

i

.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 112/207

Teorema 6.1: Se θˆ é o estimador de máxima verosimilhança de um

parâmetro θ, então g(ˆθ) é o estimador de máxima verosimilhança de

g(θ) (propriedade de invariância).

Exemplo 6.6: SejaX

1

, . . . , X

n

uma a.a. de X ∼ Uniforme(0, θ]. Qual

o estimador de máxima verosimilhança de logθ?

A função de verosimilhança de θ, dado x

1

, . . . , x

n

, é

L(θ|x

1

, . . . , x

n

) =

n

Y

i=1 1 θ

I

(0,θ]

(x

i

)

=

θ1n

I

[x(n),∞)

(θ)

6 -L(θ)

θ

x(n) 1 x(n) &

⇒ X

(n)

= max(X

1

, . . . , X

n

) é o e.m.v. de θ e, pela propriedade de

invariância dos estimadores de máxima verosimilhança, logX

(n)

é

o e.m.v. de logθ.

Momentos da média amostral e da variância

amostral.

Exemplo 6.7: Suponha uma população (conhecida) X = {2,4,6} da

qual se retira (com reposição) uma amostra aleatória de tamanho 2.

Qual o valor esperado da média amostral? E da variância amostral?

Se os elementos da população X são equiprováveis,

E(X) = P

x

xf

X

(x) =

13

(2 + 4 + 6) = 4.

E(X

2

) = P

x

x

2

f

X

(x) =

13

(4 + 16 + 36) = 56/3

⇒ V ar(X) = E(X

2

)−(E(X))

2

= 56/3−16 = 8/3.

Seja X

i

é o resultado da extracção i, i= 1, . . . , n (n= 2). Recorde-se

que a média amostral e a variância amostral são, respectivamente,

¯

X = n

−1

P

n

i=1

X

i

e S

2

= (n−1)

−1

P

n

i=1

(X

i

−X¯)

2

.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 114/207

A distribuição de probabilidade conjunta de (X

1

, X

2

) é dada por

X

1

\X

2

2 4 6

2 1/9 1/9 1/9

4 1/9 1/9 1/9

6 1/9 1/9 1/9

A distribuição amostral da estatísticaX¯ = (X

1

+X

2

)/2 é

¯

X 2 3 4 5 6

P( ¯X = ¯x) 1/9 2/9 3/9 2/9 1/9

E( ¯X) = X

u

u P( ¯X=u) = 21

9 +· · ·+ 61

9 =

36

9 = 4

⇒ E( ¯X) = E(X).

E( ¯X

2

) = P

u

u

2

P( ¯X=u) = 4

19

+· · ·+ 36

19

=

1569

V ar( ¯X

2

) = E( ¯X

2

)−(E( ¯X)

2

=

1569

−16 =

129

=

43

⇒ V ar( ¯X) = V ar(X)/n.

A distribuição amostral da estatísticaS

2

= P

2

i=1

(X

i

−X¯)

2

é

S

2

0 2 8

P(S

2

= s

2

) 3/9 4/9 2/9

E(S

2

) = X

v

v P(S

2

=v) = 03

9 + 2

4

9 + 8

2

9 =

24

9 =

8

3

⇒ E(S

2

) = V ar(X).

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 116/207

Distribuições amostrais da média e variância

numa população normal.

Para melhor avaliar a estimação de um parâmetro θ a partir de uma

estatística T = T(X

1

, . . . , X

n

), deve-se conhecer a distribuição de T.

A distribuição da estatística T, conhecida como distribuição amostral

deT, tem em conta todos os valores possíveis da amostra X

1

, . . . , X

n

.

Teorema 6.2: Se X

1

, . . . , X

n

é uma a.a. de uma população X com

E(X) = µ e V ar(X) = σ

2

, então o valor esperado e variância da

média amostralX¯ são, respectivamente,

E( ¯X) = n

−1

P

i

E(X

i

) = n

−1

n µ = µ;

V ar( ¯X) = n

−2

P

Teorema 6.3: Seja X

1

, . . . , X

n

uma a.a. de uma população X com

E(X) = µ e V ar(X) = σ

2

, 0 < σ

2

< ∞. Pelo Teorema do Limite

Central, a distribuição amostral de X¯ é aproximada pela distribuição

Normal com média µe variância σ

2

/n, quando n → ∞.

Corolário 6.1: Se X

1

, . . . , X

n

é uma a.a. de uma população X ∼

N(µ, σ

2

),0 < σ

2

< ∞, então

Z = X¯ −µ

σ/√

n ∼ N(0,1).

Exemplo 6.8: Seja X

1

, . . . , X

n

uma a.a. de X ∼ Bernoulli(p). Qual a

distribuição aproximada da proporção amostral X¯ = n

−1

P

n

i=1

X

i

?

Sabendo que E(X) = p e V ar(X) = p(1−p), pelo Teorema 6.3

¯

X −p

p

p(1 −p)/n

a

∼ N(0,1) ⇒ X¯

a

N

p,p(1−p)

n

.

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 118/207

Definição 6.15: SeX

1

, . . . , X

k

são v.a. i.i.d. com distribuiçãoN(µ, σ

2

),

Q = X

12

+· · ·+X

k2

é dito ter uma distribuição Qui-quadrado comk graus de liberdade,

de-notada porχ

2(k)

, cuja f.d.p. é dada por

f

Q

(q) = 1

2 Γ(

k 2

) e

−q 2

q

2

k21

, q > 0,

ondeΓ(n) = R

0

x

n−1

e

−x

dx.

O valor esperado e a variância de uma v.a. Q ∼ χ

2(k)

são,

respectiva-mente:

E(Q) = k;

0 5 10 15 20 25 30 0.00 0.05 0.10 0.15 0.20

Função Densidade de Probabilidade − Qui−quadrado

x

f(x)

k=1 k=5 k=10

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 120/207

Definição 6.16: Se Z e Q são v.a. independentes com Z ∼ N(0,1) e

Q ∼ χ

2(k)

, então

T = pZ

Q/k

é dito ter uma distribuição t-Student comkgraus de liberdade, denotada

port

(k)

, cuja f.d.p. é dada por

f

T

(t) = √1

k π

Γ(

k−1 2

)

Γ(

k2

)

1 + x

2

k

k1 2

, −∞ < t < ∞.

O valor esperado e a variância de uma v.a. T ∼ t

(k)

são,

respectiva-mente:

E(T) = 0,k > 1.

−4 −2 0 2 4 6 0.0 0.1 0.2 0.3 0.4

Função Densidade de Probabilidade − t−Student

x

f(x)

k=1 k=5 k=100

NOTAS DE PROBABILIDADES E ESTAT´ISTICA - GS – 122/207

Teorema 6.4: Se X

1

, . . . , X

n

é uma a.a. de uma população X ∼

N(µ, σ

2

), então

P

n i=1

(X

i

−µ)

2

σ

2

=

n

X

i=1

X

i

−µ

σ

2

∼ χ

2(n)

e

P

n i=1

(X

i

−X¯)

2

σ

2

= (n−1)S

2

σ

2

∼ χ

2(n−1)

.

Teorema 6.5: Se X

1

, . . . , X

n

é uma a.a. de uma população X ∼

N(µ, σ

2

), então

( ¯X −µ)/(σ/√

n)

p

(((n−1)S

2

)/σ

2

)/(n−1) =

¯

X −µ

S/√

n ∼ t

(n−1)

.

No documento Notas de Probabilidades e Estatística (páginas 49-63)

Documentos relacionados