2. Princípios de Redução dos Dados
2.1 Introdução
Um dos objectivos em Inferência Estatística é o de fazer inferência acerca de um parâmetro desconhecido θ, usando a informação contida na a.a. X
e
= (X1, . . . , Xn).
Quando a dimensão n da amostra é muito, muito elevada, temos acesso a uma longa lista de números, de difícil interpretação. Qual a solução?
Temos de sumariar a informação contida na amostra. Para isso devemos calcular estatísticas, i.e., funções exclusivas dos
elementos da amostra, tais como o mínimo x1:n, o máximo xn:n, a
A passagem X e := (X1, . . . , Xn) −→ T (X e )
leva à obtenção de uma estatística, que permite a redução dos dados.
Note-se que, para x e 6= y e , podemos ter T (x e ) = T (y e ).
A redução dos dados em termos de uma estatística particular pode ser encarada como uma partição do espaço amostral, X := X⊗n.
Seja T = {t : t = T (x e
) para algum x e
∈ X }, a imagem de X através de T . Então, T (·) particiona o espaço amostral em conjuntos At, t ∈ T, com At := {x
e
∈ X : T (x e
Quais as Vantagens e Desvantagens desta Redução dos Dados? Os métodos de redução dos dados não devem desperdiçar a informação importante acerca do parâmetro θ, e por outro lado, não levar em linha de conta toda a informação irrelevante a respeito de θ. Temos essencialmente dois métodos possíveis:
I Princípio da Suciência I Princípio da Verosimilhança
2.2 Princípio da Suciência
Uma estatística suciente para um parâmetro θ (ou para a família P = {fθ(x ) : θ ∈ Θ}, onde Θ é o chamado espaço de parâmetros, tem como objectivo a captura de toda a informação acerca de θ, contida na amostra.
Princípio da Suciência. Se T (X
e
) é uma estatística suciente para θ, então qualquer inferência sobre θ deve depender da amostra X
e somente através de T (X e ). Quer dizer: Se x e e y e
são dois pontos amostrais tais que T (x e
) = T (y e
), então a inferência sobre θ deve ser a mesma, quer X
e = x e ou Y e = y e seja observado.
2.2.1 Estatísticas sucientes
Denição (2.1)
Uma estatística T (X e
)é uma estatística suciente para θ se a distribuição condicional da amostra X
e , dado o valor de T (X e ), não depende de θ, i.e., fX e |T (X e )(x e |θ) = f (x e ; T (x e )|θ) fT (X e )(T (x e )|θ) não depende de θ.
Formalizando: Teorema (2.1) Se f (x e |θ) é a f.d.p. ou f.m.p. conjunta de X e e g(t|θ) é a f.d.p. ou f.m.p. de T (X e ), então T (X e
) é uma estatística suciente para θ se, para todo o x e ∈ X, o quociente f (x e |θ) g (T (x e
)|θ) é constante como função de θ (não depende de θ).
Exemplo (2.1)
[Modelo Bernoulli] Seja X
e
= (X1, . . . , Xn) i.i.d. Bernoulli(θ), 0 < θ < 1. Consideremos
T (X e
) := X1+ · · · + Xn=Pni =1Xi. Vejamos que é uma estatística
(cont.) Em primeiro lugar T (X e ) =Pn i =1Xi _ Binomial (n, θ) e f (x |θ) = θx(1 − θ)1−x, x = 0, 1. Então f (x e |θ) = n Y i =1 f (xi|θ) = θ Pn i =1xi (1 − θ)n− Pn i =1xi,
vindo, uma vez que T (x e ) = t =P xi, f (x e |θ) g (T (x e )|θ) = θPni =1xi (1 − θ)n−Pni =1xi n tθt(1 − θ)n−t = 1n t .
(cont.) Consequentemente, X e |T (X e ) = t tem por f.m.p. f (x e |θ) g (T (x e )|θ) = 1 n P xi = 1 n t ,
que não depende de θ. Portanto, T (X e ) = n X i =1 Xi é suciente para θ.
Como conclusão: o número total de 1's numa amostra de bernoulli contém toda a informação acerca de θ, contida nos dados.
Exemplo (2.2)
[Modelo Normal, N(µ, σ2
0), σ0 conhecido]
Seja X e
= (X1, . . . , Xn) uma a.a. proveniente de um modelo
N(µ, σ02). Iremos em seguida mostrar que X = 1nPn
i =1Xi é
suciente para µ. Temos f (x e |µ) = n Y i =1 1 √ 2π σ0exp −(xi − µ)2/(2σ20) = (2πσ20)−n/2exp − n X i =1 (xi − x + x − µ)2/(2σ20) !
(cont.)
Note-se que o produto cruzado Pn
i =1(xi− x)(x − µ) =0. Como X _ N(µ, σ20/n), tem-se f (x e |µ) g (T (x e )|µ) = (2πσ 2 0)−n/2exp − Pni =1(xi− x)2+ n(x − µ)2 /(2σ02) (2πσ02/n)−1/2exp −n(x − µ)2/(2σ2 0) = n−1/2(2πσ02)−(n−1)/2exp− n X i =1 (xi − x)2/(2σ20) , independente de µ. Consequentemente,
Note-se que o conjunto das estatísticas ordinais X1:n ≤ X2:n ≤ · · · ≤ Xn:n
constitui uma estatística suciente, qualquer que seja o modelo paramétrico f (x|θ), uma vez que a razão
f (x e |θ) g (T (x e )|θ) = Qn i =1f (xi|θ) n!Qn i =1f (xi|θ) = 1 n!
não depende de θ para qualquer modelo. No entanto . . . não houve grande redução dos dados!!! Mas fora da família exponencial é raro conseguirmos melhor!
Face a tudo o que dissemos até agora seria quase impossível adivinhar qual a estatística suciente T (X
e
). Isto é, se usarmos a denição, o melhor que conseguimos fazer é vericar que
determinada estatística é suciente. Consequentemente, teríamos de entrar em linha de conta com a nossa intuição, proceder em seguida a um cálculo moroso, a m de obtermos a solução para o nosso problema. Há no entanto uma forma expedita de proceder, com base no teorema seguinte.
Teorema (2.2)
[Critério de factorização] Seja X
e
uma a.a. proveniente de um modelo f (x e
|θ). Uma estatística T (X
e
) é suciente para θ se e só se existirem funções g(t|θ) e h(x e ) tais que para todo o x
e ∈ X e θ ∈ Θ se tem f (x e |θ) = g (T (x e )|θ) h(x e ),
i.e., podemos factorizar a verosimilhança da amostra como o produto de uma função que depende de θ e de x
e
através da estatística suciente T (x
e
) e de uma outra função que só depende de x
e .
Exemplo (2.3)
[Modelo Uniforme discreto] U{1,2,...,θ}, θ ∈ N. Seja X
e
= (X1, . . . , Xn)uma a.a. proveniente de
um modelo f (x|θ) = (1/θ)I{1,2,...,θ}(x ). Então:
f (x e |θ) = 1 θn n Y i =1 I{1,2,...,θ}(xi) = 1 θnI{1,2,...,θ}(xn:n) n Y i =1 IN(xi). Consequentemente, T (X e
) = Xn:n é suciente para θ, sendo
g (T (x e
)|θ) = 1
Exemplo (2.4)
[Modelo Normal, N (µ, σ2)]
Seja X e
= (X1, . . . , Xn) uma a.a. proveniente de um modelo
N (µ, σ2), e denotemos θ e = (µ, σ2) o vector de parâmetros desconhecidos. Denindo h(x e ) =1 é possível exprimir a f.d.p. conjunta (ver Exemplo (2.2))
f (x e |θ e ) = g (T1(x e ), T2(x e )|θ e ) h(x e ) com g (t e |θ e ) = g (t1, t2|θ e ) = (2πσ2)−n/2exp− [n(t1− µ)2+ (n −1)t2]/(2σ2)
(cont.) Consequentemente, T (X e ) = T1(X e ), T2(X e ) = X , S2 é conjuntamente suciente para (µ, σ2)
No caso da família exponencial é muito mais fácil de identicar estatísticas sucientes.
Teorema (2.3)
Seja X e
= (X1, . . . , Xn) uma a.a. proveniente de um modelo com
f.d.p. f (x|θ e
) pertencente à família exponencial multiparamétrica,
f (x |θ e ) = h(x ) c(θ e ) exp k X i =1 wi(θ e )ti(x ) ! , com θ e = (θ1, θ2, . . . , θd), d ≤ k. Então T (X e ) = n X j =1 t1(Xj), . . . , n X j =1 tk(Xj)
Demonstração. Tem-se f (x e |θ e ) = n Y i =1 f (xi|θ e ) = n Y i =1 h(xi)cn(θ e )exp n X i =1 Xk j =1 wj(θ e )tj(xi) = n Y i =1 h(xi) h c(θ e )n exp k X j =1 wj(θ e ) n X i =1 tj(xi) i =: (h(x e ))[g (T (x e )|θ e )].
2.2.2 Estatísticas sucientes mínimas
No parágrafo anterior determinámos uma estatística suciente para cada um dos modelos considerados. Mas, de facto, existem muitas estatísticas sucientes:
I É sempre verdade que a amostra completa, X
e é uma estatística suciente. Basta ver que, com T (X
e ) = X e , tem-se trivialmente, com h(x e ) ≡1, f (x e |θ) = f (T (x e )|θ) h(x e ).
I Toda a função bijectiva de uma estatística suciente é ainda
uma estatística suciente. De facto, seja T∗(X
e
) = r (T (X e
)), com r(·) bijectiva. Existe então r−1(·) e
f (x e |θ) = g (T (x e )|θ)h(x e ) = g (r−1(T∗(x e ))|θ) h(x e ) =: g∗(T∗(x e )|θ)h(x e ), com g∗= g ◦ r−1.
Denição (2.2)
Uma estatística T (X e
)é designada por estatística suciente mínima se, para qualquer outra estatística T0(X
e ), T (X e ) é função de T0(X e ).
Trata-se de uma denição interessante, mas impraticável. Observação: Dizer que T (x
e ) é função de T0(x e )signica que T0(x e ) = T0(y e ) ⇒ T (x e ) = T (y e ). Em termos de partições, se {Bt0 : t0 ∈ T0} é o conjunto das partições determinadas por T0(x
e
) e {At : t ∈ T }é o conjunto das
Quer isto dizer que a partição estabelecida pela estatística suciente mínima é a mais grosseira possível para uma estatística suciente e, por conseguinte, uma estatística suciente mínima atinge a maior redução dos dados possível para uma estatística suciente.
Teorema (2.4)
[Critério de estatística suciente mínima (Lehmann e Scheé, 1950)]
Seja X e
= (X1, . . . , Xn) uma a.a. proveniente de um modelo com
f.d.p. f (x|θ). Suponhamos que existe uma função T (x e ) tal que ∀ x e e y e , a razão f (x e |θ)/f (y e
|θ)é constante como função de θ se e só se T (x e ) = T (y e ). Então T (X e
) é uma estatística suciente mínima.
Exemplo (2.5)
Seja X e
= (X1, . . . , Xn) uma a.a. proveniente de um modelo
N (µ, σ2). Pensemos em x e → (x, sx2 e ) e y e → (y , sy2 e ). Então, a razão f (x e |µ, σ2) f (y e |µ, σ2) =exp h −n(x2−y2)+2nµ(x−y)−(n−1)(sx2 e −sy2 e )/(2σ2)i é constante como função de µ e σ2 se e só se x = y e s2
x e
= sy2
e
, i.e., (X , S2) é estatística suciente mínima para (µ, σ2).
Exemplo (2.6)
Seja X e
= (X1, . . . , Xn) uma a.a. proveniente de um modelo
U(θ,θ+1), θ ∈ R. Então f (x|θ) = 1I(θ,θ+1)(x )e f (x e |θ) = n Y i =1 f (xi|θ) = n Y i =1 I(θ,θ+1)(xi) = I{θ<x1:n≤xn:n<θ+1}(x e ) = I{xn:n−1<θ<x1:n}(x e ). A razão f (x e |θ)/f (y e
|θ)será positiva para os mesmos valores de θ se e só se x1:n = y1:n e xn:n= yn:n, tendo-se nesse caso
f (x e |θ)/f (y e |θ) =1. Então, T (X e