2. Princípios de Redução dos Dados

(1)

2. Princípios de Redução dos Dados

2.1 Introdução

Um dos objectivos em Inferência Estatística é o de fazer inferência acerca de um parâmetro desconhecido θ, usando a informação contida na a.a. X

e

= (X₁, . . . , Xn).

Quando a dimensão n da amostra é muito, muito elevada, temos acesso a uma longa lista de números, de difícil interpretação. Qual a solução?

Temos de sumariar a informação contida na amostra. Para isso devemos calcular estatísticas, i.e., funções exclusivas dos

elementos da amostra, tais como o mínimo x1:n, o máximo xn:n, a

(2)

A passagem X e := (X₁, . . . , Xn) −→ T (X e )

leva à obtenção de uma estatística, que permite a redução dos dados.

Note-se que, para x e 6= y e , podemos ter T (x e ) = T (y e ).

A redução dos dados em termos de uma estatística particular pode ser encarada como uma partição do espaço amostral, X := X⊗n_.

Seja T = {t : t = T (x e

) para algum x e

∈ X }, a imagem de X através de T . Então, T (·) particiona o espaço amostral em conjuntos At, t ∈ T, com At := {x

e

∈ X : T (x e

(3)

Quais as Vantagens e Desvantagens desta Redução dos Dados? Os métodos de redução dos dados não devem desperdiçar a informação importante acerca do parâmetro θ, e por outro lado, não levar em linha de conta toda a informação irrelevante a respeito de θ. Temos essencialmente dois métodos possíveis:

I Princípio da Suciência I Princípio da Verosimilhança

(4)

2.2 Princípio da Suciência

Uma estatística suciente para um parâmetro θ (ou para a família P = {f_θ(x ) : θ ∈ Θ}, onde Θ é o chamado espaço de parâmetros, tem como objectivo a captura de toda a informação acerca de θ, contida na amostra.

Princípio da Suciência. Se T (X

e

) é uma estatística suciente para θ, então qualquer inferência sobre θ deve depender da amostra X

e somente através de T (X e ). Quer dizer: Se x e e y e

são dois pontos amostrais tais que T (x e

) = T (y e

), então a inferência sobre θ deve ser a mesma, quer X

e = x e ou Y e = y e seja observado.

(5)

2.2.1 Estatísticas sucientes

Denição (2.1)

Uma estatística T (X e

)é uma estatística suciente para θ se a distribuição condicional da amostra X

e , dado o valor de T (X e ), não depende de θ, i.e., f_X e |T (X e )(x e |θ) = f (x e ; T (x e )|θ) f_{T (X} e )(T (x e )|θ) não depende de θ.

(6)

Formalizando: Teorema (2.1) Se f (x e |θ) é a f.d.p. ou f.m.p. conjunta de X e e g(t|θ) é a f.d.p. ou f.m.p. de T (X e ), então T (X e

) é uma estatística suciente para θ se, para todo o x e ∈ X, o quociente f (x e |θ) g (T (x e

)|θ) é constante como função de θ (não depende de θ).

Exemplo (2.1)

[Modelo Bernoulli] Seja X

e

= (X₁, . . . , Xn) i.i.d. Bernoulli(θ), 0 < θ < 1. Consideremos

T (X e

) := X₁+ · · · + Xn=Pni =1Xi. Vejamos que é uma estatística

(7)

(cont.) Em primeiro lugar T (X e ) =Pn i =1Xi _ Binomial (n, θ) e f (x |θ) = θx(1 − θ)1−x, x = 0, 1. Então f (x e |θ) = n Y i =1 f (xi|θ) = θ Pn i =1xi ₍1 − θ)n− Pn i =1xi_,

vindo, uma vez que T (x e ) = t =P xi, f (x e |θ) g (T (x e )|θ) = θPni =1xi ₍1 − θ)n−Pn_{i =1}xi n tθt(1 − θ)n−t = 1_n t .

(8)

(cont.) Consequentemente, X e |T (X e ) = t tem por f.m.p. f (x e |θ) g (T (x e )|θ) = 1 n P xi = 1 n t ,

que não depende de θ. Portanto, T (X e ) = n X i =1 Xi é suciente para θ.

Como conclusão: o número total de 1's numa amostra de bernoulli contém toda a informação acerca de θ, contida nos dados.

(9)

Exemplo (2.2)

[Modelo Normal, N(µ, σ2

0), σ0 conhecido]

Seja X e

= (X₁, . . . , Xn) uma a.a. proveniente de um modelo

N(µ, σ₀2). Iremos em seguida mostrar que X = 1_nPn

i =1Xi é

suciente para µ. Temos f (x e |µ) = n Y i =1 1 √ 2π σ0exp −(xi − µ)2/(2σ2₀) = (2πσ2₀)−n/2exp − n X i =1 (xi − x + x − µ)2/(2σ2₀) !

(10)

(cont.)

Note-se que o produto cruzado Pn

i =1(xi− x)(x − µ) =0. Como X _ N(µ, σ2₀/n), tem-se f (x e |µ) g (T (x e )|µ) = (2πσ 2 0)−n/2exp − Pni =1(xi− x)2+ n(x − µ)2 /(2σ₀2) (2πσ₀2/n)−_1/2_{exp −n(x − µ)}₂_/(_2σ2 0) = n−1/2(2πσ₀2)−(n−1)/2exp− n X i =1 (xi − x)2/(2σ2₀) , independente de µ. Consequentemente,

(11)

Note-se que o conjunto das estatísticas ordinais X_1:n ≤ X_2:n ≤ · · · ≤ X_n:n

constitui uma estatística suciente, qualquer que seja o modelo paramétrico f (x|θ), uma vez que a razão

f (x e |θ) g (T (x e )|θ) = Qn i =1f (xi|θ) n!Qn i =1f (xi|θ) = 1 n!

não depende de θ para qualquer modelo. No entanto . . . não houve grande redução dos dados!!! Mas fora da família exponencial é raro conseguirmos melhor!

(12)

Face a tudo o que dissemos até agora seria quase impossível adivinhar qual a estatística suciente T (X

e

). Isto é, se usarmos a denição, o melhor que conseguimos fazer é vericar que

determinada estatística é suciente. Consequentemente, teríamos de entrar em linha de conta com a nossa intuição, proceder em seguida a um cálculo moroso, a m de obtermos a solução para o nosso problema. Há no entanto uma forma expedita de proceder, com base no teorema seguinte.

(13)

Teorema (2.2)

[Critério de factorização] Seja X

e

uma a.a. proveniente de um modelo f (x e

|θ). Uma estatística T (X

e

) é suciente para θ se e só se existirem funções g(t|θ) e h(x e ) tais que para todo o x

e ∈ X e θ ∈ Θ se tem f (x e |θ) = g (T (x e )|θ) h(x e ),

i.e., podemos factorizar a verosimilhança da amostra como o produto de uma função que depende de θ e de x

e

através da estatística suciente T (x

e

) e de uma outra função que só depende de x

e .

(14)

Exemplo (2.3)

[Modelo Uniforme discreto] U{1,2,...,θ}, θ ∈ N. Seja X

e

= (X₁, . . . , Xn)uma a.a. proveniente de

um modelo f (x|θ) = (1/θ)I{_1,2,...,θ}(x ). Então:

f (x e |θ) = 1 θn n Y i =1 I{1,2,...,θ}(xi) = 1 θnI{1,2,...,θ}(xn:n) n Y i =1 I_N(xi). Consequentemente, T (X e

) = Xn:n é suciente para θ, sendo

g (T (x e

)|θ) = 1

(15)

Exemplo (2.4)

[Modelo Normal, N (µ, σ2₎_]

Seja X e

N (µ, σ2), e denotemos θ e = (µ, σ2) o vector de parâmetros desconhecidos. Denindo h(x e ) =1 é possível exprimir a f.d.p. conjunta (ver Exemplo (2.2))

f (x e |θ e ) = g (T₁(x e ), T₂(x e )|θ e ) h(x e ) com g (t e |θ e ) = g (t₁, t₂|θ e ) = (2πσ2)−n/2exp− [n(t₁− µ)2+ (n −1)t₂]/(2σ2)

(16)

(cont.) Consequentemente, T (X e ) = T₁(X e ), T₂(X e ) = X , S2 é conjuntamente suciente para (µ, σ2₎

No caso da família exponencial é muito mais fácil de identicar estatísticas sucientes.

(17)

Teorema (2.3)

Seja X e

= (X₁, . . . , Xn) uma a.a. proveniente de um modelo com

f.d.p. f (x|θ e

) pertencente à família exponencial multiparamétrica,

f (x |θ e ) = h(x ) c(θ e ) exp k X i =1 wi(θ e )ti(x ) ! , com θ e = (θ₁, θ₂, . . . , θd), d ≤ k. Então T (X e ) = n X j =1 t₁(Xj), . . . , n X j =1 tk(Xj)

(18)

Demonstração. Tem-se f (x e |θ e ) = n Y i =1 f (xi|θ e ) = n Y i =1 h(xi)cn(θ e )exp n X i =1 Xk j =1 wj(θ e )tj(xi) = n Y i =1 h(xi) h c(θ e )n exp k X j =1 wj(θ e ) n X i =1 tj(xi) i =: (h(x e ))[g (T (x e )|θ e )].

(19)

2.2.2 Estatísticas sucientes mínimas

No parágrafo anterior determinámos uma estatística suciente para cada um dos modelos considerados. Mas, de facto, existem muitas estatísticas sucientes:

I É sempre verdade que a amostra completa, X

e é uma estatística suciente. Basta ver que, com T (X

e ) = X e , tem-se trivialmente, com h(x e ) ≡1, f (x e |θ) = f (T (x e )|θ) h(x e ).

(20)

I Toda a função bijectiva de uma estatística suciente é ainda

uma estatística suciente. De facto, seja T∗_(X

e

) = r (T (X e

)), com r(·) bijectiva. Existe então r−₁_(·) _e

f (x e |θ) = g (T (x e )|θ)h(x e ) = g (r−1(T∗(x e ))|θ) h(x e ) =: g∗(T∗(x e )|θ)h(x e ), com g∗_{= g ◦ r}−1_.

(21)

Denição (2.2)

Uma estatística T (X e

)é designada por estatística suciente mínima se, para qualquer outra estatística T0_(X

e ), T (X e ) é função de T0_(X e ).

Trata-se de uma denição interessante, mas impraticável. Observação: Dizer que T (x

e ) é função de T0(x e )signica que T0(x e ) = T0(y e ) ⇒ T (x e ) = T (y e ). Em termos de partições, se {Bt0 : t0 ∈ T0} é o conjunto das partições determinadas por T0_(x

e

) e {At : t ∈ T }é o conjunto das

(22)

Quer isto dizer que a partição estabelecida pela estatística suciente mínima é a mais grosseira possível para uma estatística suciente e, por conseguinte, uma estatística suciente mínima atinge a maior redução dos dados possível para uma estatística suciente.

Teorema (2.4)

[Critério de estatística suciente mínima (Lehmann e Scheé, 1950)]

Seja X e

= (X₁, . . . , Xn) uma a.a. proveniente de um modelo com

f.d.p. f (x|θ). Suponhamos que existe uma função T (x e ) tal que ∀ x e e y e , a razão f (x e |θ)/f (y e

|θ)é constante como função de θ se e só se T (x e ) = T (y e ). Então T (X e

) é uma estatística suciente mínima.

(23)

Exemplo (2.5)

Seja X e

N (µ, σ2). Pensemos em x e → (x, s_x2 e ) e y e → (y , s_y2 e ). Então, a razão f (x e |µ, σ2) f (y e |µ, σ2) =exp h −n(x2−y2)+2nµ(x−y)−(n−1)(s_x2 e −s_y2 e )/(2σ2)i é constante como função de µ e σ2 _{se e só se x = y e s}2

x e

= s_y2

e

, i.e., (X , S2) é estatística suciente mínima para (µ, σ2).

(24)

Exemplo (2.6)

Seja X e

U_(θ,θ+₁₎, θ ∈ R. Então f (x|θ) = 1I_(θ,θ+₁₎(x )e f (x e |θ) = n Y i =1 f (xi|θ) = n Y i =1 I(θ,θ+1)(xi) = I{θ<x_1:n≤xn:n<θ+1}(x e ) = I{xn:n−1<θ<x1:n}(x e ). A razão f (x e |θ)/f (y e

|θ)será positiva para os mesmos valores de θ se e só se x1:n = y1:n e xn:n= yn:n, tendo-se nesse caso

f (x e |θ)/f (y e |θ) =1. Então, T (X e