UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIˆENCIAS EXATAS E DA TERRA
PROGRAMA DE P ´OS-GRADUA ¸C ˜AO EM MATEM ´ATICA APLICADA E ESTAT´ISTICA
HELENICE LOPES BARBOSA
M´
ETODOS ESTAT´ISTICOS EM
CADEIAS DE MARKOV
NATAL - RN
M´ETODOS ESTAT´ISTICOS EM CADEIAS DE MARKOV
Disserta¸c˜ao apresentada ao Programa de P´os-Gradua¸c˜ao em Matem´atica Aplicada e Estat´ıstica - PPGMAE, da
Universidade Federal do Rio Grande do Norte, como requisito parcial para obten¸c˜ao do t´ıtulo de Mestre em
Matem´atica Aplicada e Estat´ıstica.
Orientadora: Prof. Dra. Viviane Simioli Medeiros
Cam-pos.
NATAL - RN
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIˆENCIAS EXATAS E DA TERRA
PROGRAMA DE P ´OS-GRADUA ¸C ˜AO EM MATEM ´ATICA APLICADA E ESTAT´ISTICA
HELENICE LOPES BARBOSA
M´ETODOS ESTAT´ISTICOS EM CADEIAS DE MARKOV
Comiss˜ao Examinadora:
Profa. Dra. Viviane Simioli Medeiros Campos (DM - UFRN - Orientadora)
Prof◦. Dr◦. Jaques Silveira Lopes(Universidade Federal de Vi¸cosa -UFV) Prof◦. Dr◦. Andr´e Gustavo Campos Pereira (PPGMAE/UFRN)
Agradecimentos
Agrade¸co ao meu maravilhoso Deus, que cuidou de mim em todo o tempo. O Deus que faz como quer, mas que tem para n´os muito mais do que pedimos ou pensamos
e que sem Ele nada disso poderia ser poss´ıvel;
Aos meus pais, que me incentivaram a estudar e investiram em mim;
A minha irm˜a Maria Jos´e, que tem sido muito mais m˜ae do que irm˜a;
A minha m˜aemiga, Socorro Santos de Macedo que tanto me ajudou com suas
ora¸c˜oes e com suas palavras tamb´em;
A amiga Juciara, que me incentivou e sempre me deu palavras de otimismo;
Ao colega Marconio, que se tornou um amigo especial. Sua ajuda foi fundamental ao digitar comigo a disserta¸c˜ao, que Deus possa aben¸coa-lo grandemente;
Ao amigo de trabalho, Nonato, que de forma sempre prestativa me ajudou quando meu computador deu problemas;
A amiga Jackelya que tanto me ajudou. Posso dizer que ela foi um anjo que Deus colocou em minha vida;
Aos colegas do curso de Probabilidade. Foram dias de estudos ´arduos mas ex-tremamente alegres;
Ao funcion´ario Cesar, da biblioteca setorial , que de forma sempre atenciosa e prestativa me ajudava nas pesquisas por livros e bibliografias;
A amiga Let´ıcia, que mesmo de longe sempre esteve torcendo por mim;
Ao amigo Alb´erico que me ajudou muito. Nessa reta final ele foi uma providˆencia
de Deus ao me ajudar na escola;
dificuldades tamb´em. Obrigada pelas suas ora¸c˜oes;
Ao amigo Helio Meira de Morais, funcion´ario do departamento de matem´atica, pela sua forma prestativa, sempre disposto a me ajudar;
A professora Mirtes de Carvalho Varela, diretora da escola em que trabalho, sua ajuda foi de fundamental importancia para realiza¸c˜ao desse trabalho;
As coordenadoras do vespertino, Lucia, Marcia, Ariadna e Gra¸ca Leite que sempre me apoiaram muito;
A amiga e coordenadora do noturno, Socorro Silva, que carinhosamente ´e chamada de minha santinha. Sem a sua ajuda na escola tudo teria sido bem mais dificil;
Aos meus amigos e colegas professores da Escola Estadual Berilo Wanderley que me deram for¸ca em todo o tempo;
A professora Dione que t˜ao pacientemente me ensinou muito em suas brilhantes aulas de inferˆencia com tanta simplicidade ao ministr´a-las. E tamb´em por todas as
suas sugest˜oes na minha qualifica¸c˜ao;
Ao professor Benedito V. Tadeu que me deixou grandes ensinamentos;
Ao professor Rub´ens Le˜ao, que me ensinou al´em de matem´atica, que ´e poss´ıvel ser um excelente matem´atico e mesmo assim ser simples;
Ao professor Dami˜ao que me ajudou muito com suas dicas de livros;
Ao professor Paulo Roberto, que t˜ao gentilmente me atendeu e esclareceu algumas
d´uvidas de estat´ıtica;
Ao professor Jaques, pelas suas palavras sempre positivas e confiantes;
Ao professor e amigo, Marcelo Gomes, um grande matem´atico e um ser humano formid´avel;
Ao professor Elias pelas suas sugest˜oes na disciplina de Semin´arios;
Aos professores do PPGMAE, em particular ao professor Andr´e Gustavo por toda
a ajuda;
A professora Viviane Simioli Medeiros Campos, minha orientadora, que de uma
Dedicat´
oria
Dedico esta disserta¸c˜ao a meus
pais: C´ıcero Lopes Barbosa (in memoriam) e Helena de Sena
Barbosa, que foram em todo o tempo os meus orientadores de
Resumo
Este trabalho tem como objetivo o estudo do comportamento assint´otico da es-tat´ıstica de Pearson(1900), que ´e o aparato te´orico do conhecido teste qui-quadrado
ou teste χ2 como tamb´em ´e usualmente denotado. Inicialmente estudamos o
compor-tamento da distribui¸c˜ao da estat´ıstica qui-quadrado de Pearson(1900) numa amostra {X1, X2, ..., Xn} quandon → ∞epi =pi0,∀n. Em seguida detalhamos os argumentos
usados em Billingley(1960), os quais demonstram a convergˆencia em distribui¸c˜ao de
uma estat´ıstica, semelhante a de Pearson, baseada em uma amostra de uma cadeia de Markov, estacion´aria, erg´odica e com espa¸co de estados finitos S.
Abstract
This work has as objetive the study of the statistics behavior asymptotic of Pear-son(1900), that is the acquaintance’s theoretical apparatus it chi-square tests or test
χ2 as well as it is usually denoted. Initially, we studied the behavior of the distribution
of the statistics of Pearson(1900) in a sample {X1, X2, ..., Xn} when followed n → ∞
andpi =pi0,∀n. Soon after we detailed the arguments used in Billingley(1960), which
demonstrate the convergence in distribution of a statistics, similar the one of Pearson,
based on a sample of a chain of Markov, stationary, erg´odica and with space of finite states S.
Sum´
ario
Introdu¸c˜ao 1
1 Modelos Importantes 4
1.1 Distribui¸c˜oes . . . 4
1.2 Estat´ıstica de Pearson . . . 9
1.2.1 Experimentos multinomiais . . . 9
1.3 O Teste χ2 . . . . 19
2 Cadeias de Markov 23 2.1 Processos Estoc´asticos e Cadeias de Markov . . . 23
2.2 Resultados em Cadeia de Markov Erg´odica e Estacion´aria . . . 28
Introdu¸c˜
ao
A estat´ıstica de Pearson(1900), como o nome sugere, foi originalmente proposta
por Karl Pearson em 1900 para testar o ajuste de um modelo, comparando o conjunto de frequˆencias observadas com as frequˆencias esperadas.
O teste χ2 de Pearson(1900), como tamb´em pode ser denotado, ´e um teste de
hip´otese, que pode ser usado para dados discretos e para testar a homogeneidade de
duas popula¸c˜oes para alternativas gerais, e n˜ao somente de localiza¸c˜ao. Por exemplo, duas distribui¸c˜oes podem diferir em escalas, como ilustra a Figura 1, embora tenham
a mesma m´edia.
Figura 1: Distribui¸c˜oes P1 e P2.
´
E comum encontrar na literatura a estat´ısticaχ2 = c
X
j=1
(oj−ej)2
ej
, para a
utiliza-¸c˜ao do teste, onde oi e ei s˜ao as frequˆencias observadas e esperadas respectivamente,
numa amostra de tamanho n, dividida em c categorias disjuntas. Observamos dessa forma, que n˜ao h´a um cuidado em denotar na estat´ıstica a vari´avel aleat´oria envolvida.
2
verificar se os dados de uma amostra se comportam de acordo com uma certa
dis-tribui¸c˜ao te´orica. A estat´ıstica usada no teste ´e a estat´ıstica de Pearson(1900) definida por:
χ2 =
c
X
j=1
(ηj−npj)2
npj
, (1)
onde η = (η1, ..., ηc) ´e o vetor aleat´orio de frequˆencias observadas, com c
X
i=1
ηi = n ,
E(η) =np´e o vetor das frequˆencias esperadas e p= (p1, ..., pc) ´e o vetor de
probabi-lidade, com
c
X
i=1
pi = 1.
Para grandes amostras,η−nprepresenta o desvio entre as frequˆencias observadas e as frequˆencias esperadas do modelo proposto.
Neste trabalho, que tem como base o artigo Statistical Methods in Markov chain
de Patrick Billingsley(1960), o foco principal ´e fazer um apanhado dos aspectos matem´ati-cos de Inferˆencia Estat´ıstica aplicados em Cadeias de Markov com espa¸co de estados
finito. O problema consiste em fazer inferˆencia sobre as probabilidades de transi¸c˜ao a partir de uma observa¸c˜ao {x1, ..., xn} da cadeia. A estrat´egia utilizada por
Billings-ley(1960) foi transportar para Cadeia de Markov as id´eias utilizadas no cap´ıtulo 30 de Crammer(1946), para demonstrar o m´etodoχ2 aplicado ao modelo multinomial, no
caso em que a cadeia ´e estacion´aria, erg´odica e tem espa¸co de estados finito. Antes de tratarmos do caso de Inferˆencia Estat´ıstica em Cadeias de Markov, faremos uma
abordagem para o caso de amostras {X1, ..., Xn} independentes e identicamente
dis-tribu´ıdas.
Para um entendimento geral do trabalho, estabelecemos a seguinte ordem de apresenta¸c˜ao:
No cap´ıtulo 1, a se¸c˜ao 1.1 foi destinada a relembrar algumas distribui¸c˜oes impor-tantes, como o modelo gama e o modelo qui-quadrado, com objetivo de justificarmos,
atrav´es do teorema (1.2) que sob certas condi¸c˜oes a soma de vari´aveis aleat´orias com distribui¸c˜ao qui-quadrado segue tamb´em um modelo qui-quadrado, onde o grau
liber-dade dessa vari´avel ´e a soma dos graus de liberliber-dade de cada vari´avel qui-quadrado. A se¸c˜ao 1.2 ´e dedicada a estat´ıstica de Pearson(1900). Mostraremos que a distribui¸c˜ao
assint´otica deχ2 definida em (1) segue um modelo qui-quadrado com (c−1) graus de
Embora existam alguns modelos probabil´ısticos para an´alise estat´ıstica de dados
categ´oricos conjuntos ou para an´alise da distribui¸c˜ao da amostra, vamos concentrar os estudos num modelo multinomial que desempenha um papel fundamental no
desen-volvimento de ferramentas de an´alise estat´ıstica.
No cap´ıtulo 2, a se¸c˜ao 2.1 ´e dedicada ao estudo de cadeias de Markov, onde
relem-braremos defini¸c˜oes e ajustaremos nota¸c˜oes para o entendimento geral deste cap´ıtulo. Em seguida demonstramos no teorema (2.1) que uma cadeia de Markov homogˆenea,
irredut´ıvel, aperi´odica com espa¸co de estados finito ´e erg´odica. Al´em do mais o seu raio de convergˆencia ´e geom´etrico no sentido que existem γ > 0 e 0 < ρ < 1 tais que |pn
ij−pj| ≤γρn. Na se¸c˜ao 2.2 com base no artigo de Billingsley(1960) ´e feito um estudo
sistem´atico para atacar o problema de an´alise estat´ıstica em cadeias de Markov, mais
especificamente o teorema (2.2) que ser´a uma poderosa ferramenta para nos ajudar a concluir sobre a convergˆencia para uma χ2
(d−s) da distribui¸c˜ao de uma estat´ıstica
semelhante a de Pearson, constru´ıda a partir de uma amostra{X1, X2, ..., Xn} de uma
cadeia de Markov.
Cap´ıtulo 1
Modelos Importantes
Neste cap´ıtulo relembramos alguns modelos te´oricos para vari´aveis aleat´orias, em especial o modelo qui-quadrado. Descreveremos a estat´ıstica de Pearson(1900) e um
importante resultado que garante, em uma amostra de tamanhon que a estat´ıstica de Pearson(1900) converge em distribui¸c˜ao para uma qui-quadrado com (c−1) graus de liberdade, sendo co n´umero de categorias disjuntas da amostra.
1.1
Distribui¸c˜
oes
Um modelo cont´ınuo bastante importante e, tamb´em, com muitas aplica¸c˜oes ´e o
modelo Gama. Na literatura, alguns autores se referem a ele como a fam´ılia Gama tendo em vista que, dependendo da escolha dos seus parˆametros, outros modelos importantes
podem ser obtidos.
Defini¸c˜ao 1.1 Dizemos que uma vari´avel aleat´oria X segue um modelo Gama(α,β) se, e somente se, sua fun¸c˜ao densidade for dada por:
fX(x) =
βα
Γ(α)x
α−1e−βxI
(0,∞)(x). (1.1)
Sendo α eβ dois parˆametros positivos e Γ(α) a fun¸c˜ao Gama, definida por
Γ(α) = Z ∞
0
xα−1e−xdx, α >0.
Usamos a nota¸c˜aoX ∼ Gama(α,β).
i) Γ(α+ 1) =αΓ(α), α >0;
ii) Γ(n) = (n−1)!, n inteiro positivo;
iii) Γ(12) = √π.
Um caso particular, muito importante, da distribui¸c˜ao Gama (1.1) ser´a obtido a
seguir, se fizermosα= n
2 e β= 1
2, onde n ´e um inteiro positivo.
Defini¸c˜ao 1.2 Dizemos que uma vari´avel aleat´oria X tem distribui¸c˜ao qui-quadrado
χ2
(n) com n graus de liberdade se, e somente se, sua fun¸c˜ao densidade for dada por:
fX(x) =
1 2n2Γ(n
2)
xn2−1e−
x
2, (1.2)
para x >0 e n ∈◆, e a fun¸c˜ao Gama definida por:
Γ(n 2) =
Z ∞
0
xn2−1e−xdx,
para n >0.
A distribui¸c˜ao qui-quadrado possui numerosas aplica¸c˜oes importantes em
inferˆen-cia estat´ıstica, nesse trabalho sua importˆaninferˆen-cia se d´a em ser a distribui¸c˜ao assint´otica da estat´ıstica de Pearson(1900), como veremos na se¸c˜ao 1.2.
A fun¸c˜ao geradora de momentos de uma vari´avel aleat´oria ´e muito importante quando precisamos identificar qual o modelo da vari´avel que estamos trabalhando. Em
resultados adiante, estudaremos vari´aveis aleat´orias que seguem um modeloχ2
(n), desse
modo ´e importante saber como se caracteriza a fun¸c˜ao geradora de uma χ2
(n). Como
umaχ2
(n)´e um caso particular de umaX ∼Gama(n2, 1
2) ent˜ao basta calcularmos a fun¸c˜ao
geradora de momento de uma vari´avel aleat´oriaX ∼ Gama(α,β). Assim calculemos a fun¸c˜ao geradora deX ∼ Gama(α,β).
Por defini¸c˜ao a fun¸c˜ao de densidade da vari´avel aleat´oria X ∼ Gama(α,β) ´e:
fX(x) =
βα
Γ(α)x
α−1e−βxI
(0,∞)(x).
6
MX(t) = E(etX)
= Z ∞
0
etxfX(x)dx
= Z ∞
0
etx β
α
Γ(α)x
α−1e−βxdx
= Z ∞
0
βα
Γ(α)x
α−1e−(β−t)xdx
= Z ∞
0
βα
Γ(α)
(β−t)α
(β−t)αx
α−1e−(β−t)xdx
= β
α
(β−t)α
Z ∞
0
(β−t)α
Γ(α) x
α−1e−(β−t)x
| {z }
´
E a fun¸c˜ao densidade de
uma Gama (α, β−t)
dx
= β
α
(β−t)α,
para todot < β.
Em particular a fun¸c˜ao geradora de momento de uma vari´avel aleat´oria X com distribui¸c˜aoχ2
(n) ´e:
MX(t) = 1 2
n/2
1 2 −t
n/2 =
1 1−2t
n/2
.
Defini¸c˜ao 1.3 Uma vari´avel aleat´oria X segue o modelo Normal com parˆametros
µ= 0 e σ2 = 1, isto ´e , X ∼N(0,1) se sua fun¸c˜ao densidade ´e dada por:
fX(x) =
1 √
2πe
−x2
2 . (1.3)
Teorema 1.1 Seja X uma vari´avel aleat´oria cont´ınua com fun¸c˜ao de densidade de probabilidade f. Ent˜ao, a vari´avel aleat´oria Y = X2 tem fun¸c˜ao de densidade de probabilidade dada por:
fY(y) =
1 2√y[f(
√y) +f(
−√y)].
Demonstra¸c˜ao. A fun¸c˜ao de distribui¸c˜ao de Y =X2 ´e dada por:
G(y) = P(Y ≤y)
= P(X2 ≤y)
= P(−√y≤x≤√y)
ondeF ´e a fun¸c˜ao de distribui¸c˜ao de X.
Logo,
fY(y) = G′(y)
= f(√y)1 2y
−12 −f(−√y)
−1
2
y−12
= 1
2√yf(
√y) + 1 2√yf(−
√y)
= 1
2√y[f(
√y) +f(
−√y)].
Usando o teorema anterior, vamos mostrar que o quadrado de uma vari´avel
aleat´oria que tem distribui¸c˜aoN(0,1) ´e uma qui-quadrado com um grau de liberdade, isto ´e:
SeX ∼N(0,1), ent˜aoX2 ∼χ2 (1)
De fato, seja X ∼N(0,1). A fun¸c˜ao de densidade de X ´e
fX(x) =
1 √
2πe −x2
2 .
Agora, pelo Teorema 1.1, temos que a v.a. Y =X2 tem fun¸c˜ao de densidade
fY(y) =
1 2√y[f(
√y) +f(
−√y)].
Logo,
fY(y) =
1 2√y
1 √
2πe
−√2y2 +√1
2πe −(−√2y)2
= 1
2√y 2 √
2πe −y
2
= √1 y
e−y2
√ 2π
= y
−1 2e−
y 2 √ 2π = 1 2 1 2 √ π y
−12e−
y 2 = 1 2 1 2
Γ 12y
1 2−1e−
1 2y.
8
Teorema 1.2 A soma de v.a.’s independentes, com distribui¸c˜ao qui-quadrado, segue uma distribui¸c˜ao qui-quadrado, cujo n´umero de graus de liberdade ´e igual `a soma do n´umero de graus de liberdade das parcelas, i.e.,
Xi ∼χ2(ki) independentes , i= 1, ..., n⇒
n
X
i=1
Xi ∼χ2(Pn i=1ki).
Demonstra¸c˜ao. Usando a fun¸c˜ao geradora de momentos, temos
Xi ∼χ2(ki) ⇒MXi(t) =
1 1−2t
ki
2
.
Assim,
M(Pn
i=1Xi)(t) = E
etPni=1Xi
= E etX1+···+tXn
= E etX1· · ·etXn
= E etX1· · ·E etXn
=
1 1−2t
k1
2
· · ·
1 1−2t
kn
2
=
1 1−2t
Pni=1ki 2
.
Portanto,
n
X
i=1
Xi ∼χ2(Pn i=1ki).
Como vimos anteriormente, se uma vari´avel aleat´oria tem distribui¸c˜ao N(0,1), ent˜ao o quadrado dela tem distribui¸c˜ao χ2
(1). Agora, vejamos que se ξ1, ξ2, ..., ξn s˜ao
v.a.’s independentes e ξi ∼N(0,1), ∀i∈ {1, ..., n}, ent˜ao
X =
n
X
i=1
ξ2
i ∼χ2(n).
De fato, usando a Fun¸c˜ao Geradora de Momentos da ξ2
i, temos
Mξ2
i(t) =
1 1−2t
1/2
Calculando MX(t), temos
MX(t) = E etX
= Eet(ξ2
1+ξ22+···+ξn2)
= Eetξ2 1
Eetξ2 2
· · ·Eetξ2
n
=
1 1−2t
1/2 1 1−2t
1/2
· · ·
1 1−2t
1/2
=
1 1−2t
n/2
.
Portanto, X ∼χ2 (n).
1.2
Estat´ıstica de Pearson
Nesta se¸c˜ao, vamos mostrar que a estat´ıstica de Pearson(1900) converge em dis-tribui¸c˜ao para uma vari´avel aleat´oria com disdis-tribui¸c˜ao qui-quadrado; este ´e o resultado
em que se baseia o teste qui-quadrado.
1.2.1
Experimentos multinomiais
Considere um experimento comcposs´ıveis resultados, cada um com probabilidade
pj > 0, j = 1, ..., c e c
X
j=1
pj = 1. Esse experimento ´e repetido n vezes de forma
independente e observamos as vari´aveis Xj, j = 1, ..., c, que correspondem ao n´umero
de ocorrˆencias de cada um dos poss´ıveis resultados dessas repeti¸c˜oes. Dizemos que vetor
aleat´orio X= (X1, ..., Xc) tem distribui¸c˜ao multinomial, com fun¸c˜ao de probabilidade
pX(k1, ..., kc) =
n! k1!· · ·kc!
pk1
1 · · ·pkcc,
com
c
X
j=1
pj = 1 e c
X
j=1
kj =n, kj ∈◆, 0≤kj ≤n.
Um resultado bastante comum relacionado a uma vari´avel aleat´oria X, unidi-mensional com distribui¸c˜ao N(µ, σ2) ´e o fato da var´avel Y = aX ter distribui¸c˜ao
N(aµ, a2σ2) onde a ´e uma constante. No caso onde X ´e um vetor aleat´orio, temos
10
usado no lema 1.1 e tamb´em no teorema 1.3
Suponha que X ´e um vetor aleat´orio c-dimensional tal que XT = (X
1, ..., Xc),
com E(X) = µ onde µT = (µ1, ..., µc) e E(Xi) = µi ´e a m´edia da i-´esima
compo-nente de X. A variˆancia de X ´e dada por Var(X) = σ2 tal que (σ2)T = (σ2
1, ..., σc2),
σ2
i = Var(Xi), isto ´e, σi2 ´e a variˆancia da i-´esima componente de X. Portanto por
defini¸c˜ao de variˆancia, temos:
Var(Xi) = E[(Xi−µi)2] =E(Xi2)−µ2i. (1.4)
No caso multivariado vamos denotar σii ao inv´es de σ2i, a fim de se ajustar a
nota¸c˜ao de covariˆancia que veremos agora.
A covariˆancia de duas vari´aveis Xi e Xj ´e definida por
Cov(Xi, Xj) =E[(Xi−µi)(Xj−µj)]. (1.5)
Em particular, se i = j, verificamos que covariˆancia de uma vari´avel com ela pr´opria ´e simplesmente a variˆancia da vari´avel. Assim, n˜ao h´a realmente nenhuma necessidade de definir variˆancia multivariada, separadamente, pois ´e um caso especial
de covariˆancia. A covariˆancia de Xi e Xj ´e usualmente denotada por σij como nos
referimos acima.
Desenvolvendo a equa¸c˜ao (1.5), teremos
Cov(Xi, Xj) = E[(Xi−µi)(Xj −µj)]
= E(XiXj −µjXi−µiXj+µiµj)
= E(XiXj)−µjE(Xi)−µiE(Xj) +µiµj
= E(XiXj)−µiµj
A matriz de covariˆancia para cvari´aveis ´e formada por c variˆancias ec(c−1)/2 covariˆancias, muitas vezes ´e conveniente apresentar essas quantidades em uma matriz
(c×c), denotada por Σ= (σij)c×c. Ent˜ao,
Σ=
σ11 · · · σ1c
... ... ... σc1 · · · σcc
´e chamada de Matriz de Covariˆancia. Observe que os termos da diagonal principal s˜ao
os valores das variˆancias e os termos fora da diagonal principal s˜ao as covariˆancias tais queσij =σji. Desse modo a matrizΣ´e sim´etrica, e podemos ainda escrever:
Σ=E[(X−µ)(X−µ)T]
Defini¸c˜ao 1.4 (Distribui¸c˜ao Normal Multivariada) Se para todoz∈❘c,zTz6=0, a vari´avel aleat´oria zTη tem uma distribui¸c˜ao normal, ent˜ao o vetor η ´e dito ter uma distribui¸c˜ao normal em ❘c.
Seja X∼N(µ,Σ) e Y = (Y1, ..., Yc)T =BX, onde
B =
b11 · · · b1c
... ... ... bc1 · · · bcc
´e uma matriz de ordemc×c, e considere o vetorz= (z1, ..., zc)T, satisfazendozTz6= 0.
Temos que,
zTY=zTBX= (zTB)X= (BTz)TX. ou seja Y tem distribui¸c˜ao normal. E mais,
E(Y) = E(BX)
= E
b11X1+· · ·+b1cXc
...
bc1X1+· · ·+bccXc
=
b11µ1+· · ·+b1cµc
...
bc1µ1+· · ·+bccµc
=
b11 · · · b1c
... ... ... bc1 · · · bcc
µ1 ... µc
12
e
Var(Y) = E[(Y−E(Y))(Y−E(Y))T]
= E[B(X−µ)(B(X−µ))T]
= E[B(X−µ)(X−µ)TBT]
= BE[(X−µ)(X−µ)T]BT
= BΣBT.
Portanto,
Y ∼N(Bµ, BΣBT). (1.6)
Lema 1.1 Seja X∼N(0,Σ). Ent˜ao XTX∼χ2
r se, e somente se, Σ´e uma proje¸c˜ao de posto r, isto ´e, Σ2 =Σ.
Demonstra¸c˜ao. Uma vez que Σ ´e sim´etrica, existe uma matriz ortogonal Q (isto ´e, QTQ = I) tal que D = QΣQT ´e uma matriz diagonal. Ent˜ao se Σ2 = Σ e Σ tem
postor, temos que
D2 = QΣQT2
= QΣQT QΣQT
= QΣ QTQΣQT = QΣIΣQT
= QΣ2QT
= QΣQT
= D
Logo, D2 =D, e D tem posto r se, e somente se, r elementos da diagonal de D
s˜ao iguais a 1 e o restante deles ´e igual a zero.
Seja Y=QX. Note que
YTY= (QX)T (QX) =XTQTQX=XTX.
Se dj denota o j-´esimo elemento da diagonal de D, a fun¸c˜ao caracter´ıstica de
YTY =X j
Y2j ´e
Y
j
(1−2idjt)−1/2, que ´e a fun¸c˜ao caracter´ıstica de χ2(r) se, e somente
se,r dos dj s˜ao iguais a 1 e o restante deles ´e igual a zero.
Um problema comum na teoria das grandes amostras ´e: dada uma sequˆencia de vetores aleat´orios, {Xn}n≥1, com Xn
D
→ X, encontrar a distribui¸c˜ao limite de f(Xn)
para uma determinada fun¸c˜ao f(X). O teorema de Slutsky fornece uma poderosa t´ecnica para atacar este tipo de problema. Nesse trabalho apenas enunciaremos o
teorema de Slutsky, pois ser´a usado na demonstra¸c˜ao do teorema 1.5, sendo poss´ıvel encontrar sua demonstra¸c˜ao em Ferguson(1996), p´agina 41.
Teorema 1.3 (Teorema de Slutsky) a) Se Xn ∈❘c, Xn
D
→X e se f : ❘c −→ ❘m ´e tal que P(X ∈ C(f)) = 1, onde C(f) ´e o conjunto de continuidade de f, ent˜ao f(Xn)
D
→f(X);
b) Se Xn D
→X e (Xn−Yn) P
→0, ent˜ao Yn D
→X;
c) Se Xn∈❘c, Yn∈❘m, Xn D
→X e Yn D
→k, ent˜ao
Xn
Yn
D
→
X k
.
O teorema 1.5 mostra em detalhes que a distribui¸c˜ao assint´otica da estat´ıstica de
Pearson(1900) converge em distribui¸c˜ao para umaχ2
(c−1), ondec´e o n´umero de
catego-rias em que a amostra est´a dividida. Al´em do teorema de Slutsky, um outro teorema
que ser´a fortemente usado ´e o Teorema do Limite Central para vari´aveis aleat´orias multivarida. Por se tratar de um resultado de grande importˆancia n˜ao s´o no
teo-rema 1.5 mas em outros resultados ao longo do trabalho, enunciaremos e faremos sua demonstra¸c˜ao.
Teorema 1.4 (Teorema do Limite Central para Vari´aveis Multivariada) Sejam
X1,X2, ...vetores aleat´orios i.i.d. com m´edia µe matriz de covariˆancia finita, Σ. En-t˜ao, para Xn=
X1+X2+...+Xn
n , temos
√
n(Xn−µ)→D N(0,Σ)
14
Vejamos inicialmente que,
√
n(Xn−µ) =
1 √ n n X j=1
(Xj −µ).
De fato,
√
n(Xn−µ) = √n
Pn j=1Xj
n − nµ n ! = √ n n n X j=1
Xj −nµ
!
= √1 n
n
X
j=1
(Xj−µ)
Assim, temos
ϕ√
n(Xn−µ)(t) = ϕ√1
n
Pn
j=1(Xj−µ)(t)
= ϕPn
j=1(Xj−µ)
t √ n = n Y j=1
ϕXj−µ
t √ n = ϕ t √ n n ,
onde ϕ(t) ´e a fun¸c˜ao caracter´ıstica de Xj −µ. Calculando ϕ(0) e ϕ′(0), obtemos
ϕ(0) = 1 e ϕ′(0) = 0, eϕ′′(ε) =−Σ. comoε →0, aplicando o teorema de Taylor, ϕ√
n(Xn−µ)(t) =
1 + 1
nt T Z 1 0 Z 1 0
vϕ′′(uvt/√n)dudvt
n
→ exp
lim
n→∞t
T
Z 1
0
Z 1
0
vϕ′′(uvt/√n)dudvt
= exp−(1/2)tTΣt .
Nesta convergˆencia estamos usando o fato que qualquer sequˆencia de n´umerosan
tais que lim
n→∞nan existe, ent˜ao
(1 +an)n n−→→∞exp
lim
n→∞nan
.
No nosso caso,
an =
1 nt T Z 1 0 Z 1 0
vϕ′′(uvt/√n)dudvt.
Agora que fizemos todos esses resultados auxiliares, veremos no teorema a seguir que a estat´ıstica de Pearson (1900) converge em distribui¸c˜ao para uma qui-quadrada
Teorema 1.5 Seja η = (η1, ..., ηc) um vetor aleat´orio com distribui¸c˜ao multinomial. A estat´ıstica de Pearson, definida por
χ2 =
c
X
j=1
(ηj−npj)2
npj
,
em que pj =P(Xn =j), tem distribui¸c˜ao assint´otica χ2(c−1).
Demonstra¸c˜ao. Para encontrar a distribui¸c˜ao assint´otica de χ2 quando n → ∞,
defina
Xm(j) =
1, se o resultado dom-´esimo experimento ´ej;
0, caso contr´ario.
Ent˜ao, os vetores aleat´orios X1 = (X1(1), ..., X1(c)),..., Xn = (Xn(1), ..., Xn(c))
s˜ao i.i.d. eηj =X1(j) +· · ·+Xn(j), j = 1, ..., c.
Note que E[Xm(j)] =pj e Var[Xm(j)] =pj(1−pj). De fato,
E[Xm(j)] = 1.P(Xm(j) = 1) + 0.P(Xm(j) = 0) =pj,
e
Var[Xm(j)] =E
(Xm(j))2
−(E[Xm(j)])2 =pj −p2j =pj(1−pj),
pois (Xm(j))2 =Xm(j).
Verifiquemos, ainda, que para o vetorX1 = (X1(1), ..., X1(c)), temos
Cov(X1(i), X1(j)) = E[(X1(i)−E[X1(i)])(X1(j)−E[X1(j)])]
= E[(X1(i)−pi)(X1(j)−pj)]
= E[X1(i)X1(j)−pjX1(i)−piX1(j) +pipj]
= E[X1(i)X1(j)]−pjE[X1(i)]−piE[X1(j)] +pipj
= E[X1(i)X1(j)]−pjpi−pipj +pipj
= E[X1(i)X1(j)]−pjpi
=
pi−p2i, sei=j
−pipj, sei6=j
=
pi(1−pi), se i=j
16
Como os vetores X1, ...,Xn s˜ao i.i.d, temos EX1 =p, com
p= p1 ... pc ,
e matriz de covariˆancia do vetorX1 ´eΣ= Cov(X1), com
Σ =
Cov(X1(1), X1(1)) Cov(X1(1), X1(2)) · · · Cov(X1(1), X1(c))
Cov(X1(2), X1(1)) Cov(X1(2), X1(2)) · · · Cov(X1(2), X1(c))
... ... ...
Cov(X1(c), X1(1)) Cov(X1(c), X1(2)) · · · Cov(X1(c), X1(c))
=
p1(1−p1) −p1p2 · · · −p1pc
−p1p2 p2(1−p2) · · · −p2pc
... ... ...
−p1pc −p2pc · · · pc(1−pc)
.
Podemos escrever a estat´ısticaχ2 da seguinte forma:
χ2 =
c
X
j=1
(ηj −npj)2
npj =n c X j=1 ηj n −pj
2
pj
.
Agora, observemos que
χ2 =n(X
n−p)TP−1(Xn−p),
onde P =
p1 0 · · · 0
0 p2 · · · 0
... ... ... ... 0 0 · · · pc
. De fato,
(Xn−p) =
n1/n−p1
n2/n−p2
... nc/n−pc
, (Xn−p)T =
n
1
n −p1 n2
n −p2 · · · nc
e
P−1 =
1/p1 0 · · · 0
0 1/p2 · · · 0
... ... . .. ... 0 0 · · · 1/pc
. Disso, temos
n(Xn−p)TP−1(Xn−p) =
=n n1 n −p1
n2
n −p2 · · · nc
n −pc
1/p1 0 · · · 0
0 1/p2 · · · 0
... ... . .. ... 0 0 · · · 1/pc
n1/n−p1
n2/n−p2
... nc/n−pc
=n n1 n −p1
1 p1
n
2
n −p2 1
p2 · · ·
n
c
n −pc 1 pc
n1/n−p1
n2/n−p2
... nc/n−pc
=nn1 n −p1
2 1
p1
+n2 n −p2
2 1
p2
+· · ·+nc n −pc
2 1 pc =n c X j=1
(nj/n−pj)2
pj
.
Portanto,
χ2 =n(Xn−p)TP−1(Xn−p).
Pelo Teorema do Limite Central para o caso multivariado, temos
√
n(Xn−p) D
−→Y,
onde Y ∼N(0,Σ) e X1,X2, ...,Xn s˜ao vetores aleat´orios i.i.d. com m´edia p e matriz
de covariˆancia Σ.
Assim, usando o teorema de Slutsky,
χ2 =n(Xn−p)TP−1(Xn−p) = √n(Xn−p)TP−1√n(Xn−p) D
−→YTP−1Y.
Devemos, agora, mostrar queYTP−1
18
De fato, denotando
P−1/2 =
1/√p1 0 · · · 0
0 1/√p2 · · · 0
... ... . .. ... 0 0 · · · 1/√pc
e fazendoZ=P−1/2Y, temos
ZTZ =P−1/2YT P−1/2Y =YTP−1/2P−1/2Y=YTP−1Y.
ComoY ∼N(0,Σ), temos,Z =P−1/2Y ∼N(0,P−1/2ΣP−1/2). Vamos mostrar que a matriz de covariˆancia deZ´e uma proje¸c˜ao, isto ´e, (P−1/2ΣP−1/2)2 =P−1/2ΣP−1/2.
Note que Σ=P −ppT. Disso, (P−1/2ΣP−1/2)2 =
= [P−1/2(P −ppT)P−1/2]2
= [P−1/2P P−1/2−P−1/2ppTP−1/2]2
= [I−P−1/2ppTP−1/2]2
=I−P−1/2ppTP−1/2−P−1/2ppTP−1/2+P−1/2p(pTP−1/2P−1/2p)pTP−1/2
=I−P−1/2ppTP−1/2−P−1/2ppTP−1/2+P−1/2p(pTP−1p)pTP−1/2.
Observe que pTP−1p= 1, pois
pTP−1p = p1 p2 · · · pc
1/p1 0 · · · 0
0 1/p2 · · · 0
... ... . .. ... 0 0 · · · 1/pc
p1 p2 · · · pc
= 1 1 · · · 1 p1 p2 · · · pc
= p1+p2+· · ·+pc
Portanto,
(P−1/2ΣP−1/2)2 = I−P−1/2ppTP−1/2 −P−1/2ppTP−1/2+P−1/2ppTP−1/2
= I−P−1/2ppTP−1/2
= P−1/2ΣP−1/2. Logo, como ZTZ=YTP−1
Y, temos χ2 =√n(Xn−p)TP−1√n(Xn−p)
D
−→YTP−1Y ∼χ2(c−1). Portanto, χ2 ∼χ2
(c−1).
1.3
O Teste
χ
2A id´eia do famoso teste de hip´otese qui-quadrado foi usada por K. Pearson em
1900, baseada na estat´ıstica de Pearson(1900)
χ2 =
c
X
j=1
(ηj−npj)2
npj
.
Na maioria dos casos de Inferˆencia Estat´ıstica, o problema consiste em testar hip´oteses sobre os parˆametros m´edia e propor¸c˜ao. Em geral, as formas das distribui¸c˜oes
de probabilidade s˜ao conhecidas e o interesse ´e decidir quanto a aceitar ou rejeitar uma hip´otese, sobre o verdadeiro valor do parˆametro. Mas existem tamb´em situa¸c˜oes
pr´ati-cas em que temos observa¸c˜oes de uma vari´avel aleat´oria cuja distribui¸c˜ao da popula¸c˜ao ´e desconhecida e o interesse agora ´e identificar o comportamento da vari´avel com um
modelo te´orico. Isto ´e, ter´ıamos um candidato a modelo e nosso problema seria esta-belecer um procedimento para aceit´a-lo ou n˜ao. O modelo proposto pode ser testado
atrav´es do teste qui-quadrado, considerando uma amostra grande, pelo teorema 1.3 , a distribui¸c˜ao deχ2 ´e aproximada pela qui-quadrada cujo grau de liberdade c−1 ondec
´e o n´umero de categorias estabelecidas. A decis˜ao se baseia no comportamento de χ2.
Da seguinte forma:
1o
Enunciar a hip´otese Ho;
2o
Determinar o n´ıvel de significancia do teste, ou seja,
20
3o
Calcular as frequˆencias esperadas com base na hip´otese;
4o
Calcular o valor da estat´ıstica do teste;
5o
Com o aux´ılio da tabela do qui-quadrado encontar a regi˜ao cr´ıtica;
Conclus˜ao:
• Se χ2 ≥q
c, ent˜ao a hip´otese H0 ´e rejeitada, ao passo que
• Se χ2 < q
c ent˜ao aceito a hip´otese H0.
A figura a seguir ilustra geometricamente o resultado deste teste, em que RA´e a regi˜ao de aceita¸c˜ao,RC ´e a regi˜ao cr´ıtica e qc ´e o valor cr´ıtico encontrado na tabela
da distribui¸c˜ao qui-quadrado.
Figura 2
Vejamos um exemplo real, onde possamos utilizar o m´etodo.
Exemplo: Deseja-se estudar a tolerˆancia de um equipamento eletrˆonico com re-la¸c˜ao ao n´umero de impactos termo-el´etricos. Pelas caracter´ısticas de fabrica¸c˜ao do
A decis˜ao que precisamos tomar ´e aceitar ou rejeitar o modelo sugerido. N˜ao
estamos testando o valor de um parˆametro, mas sim a adequa¸c˜ao ou n˜ao de fun¸c˜ao de probabilidade. Suponha que nossa amostra ´e composta de 80 equipamentos para serem
submetidos a sucessivos impactos termo-el´etricos at´e a ocorrˆencia da primeira falha. Dessa forma, 80 realiza¸c˜oes da vari´avel aleat´oria X ser˜ao denotadas por X1, ..., X80.
Dessa forma,Xi representa o n´umero de impactos at´e a ocorrˆencia de falha noi-´esimo
equipamento testado, i = 1,2, ...,80. Pretendemos verificar se o modelo Geom´etrico com p= 0,4, ´e adequado, ent˜ao o teste ser´a:
H0 : X ∼G(0,4) ;
Ha : X tem outra distribui¸c˜ao.
Considere as seguintes frequˆencias observadas:
Impactos 0 1 2 3 4 mais de 4
Freq. Obs. 30 26 10 5 5 4
SeH0 for verdadeiro, X segue o modelo Geom´etrico, cuja fun¸c˜ao de probabilidade
´e dada por:
p(x) =p(1−p)x
Logo a frequˆencia esperada de resistˆencia a x impactos = npx, temos: fe= 80×
0,4×0,6x. Fazendo os c´alculos, temos:
fe(0) = 80×0,4×0,60 = 32
fe(1) = 80×0,4×0,61 = 19,2
fe(2) = 80×0,4×0,62 = 11,5
fe(3) = 80×0,4×0,63 = 6,9
fe(4) = 80×0,4×0,64 = 4,1
fe(x >4) = fe(5) +fe(6) +· · ·= 6,3
Impactos (x) 0 1 2 3 4 mais de 4
Freq. Obs. (fo) 30 26 10 5 5 4
22
Como a categoria correspondente ao valor 4 teve frequˆencia esperada igual a 4,1,
que ´e menor que 5, agregamos as duas ´ultimas categorias formando a categoria dos maiores de 3, a qual ter´a a frequencia observada de 9 e esperada de 10,4.
Ent˜ao,
χ2 = (30−32)2
32 +
(26−19,2)2
19,2 +...+
(9−10,4)2
10,4 = 3,44.
Escolhendo α = 0,05 e observando que ficamos com um total de 5 categorias, portanto 4 graus de liberdade, consultando a tabela da distribui¸c˜ao da qui-quadrado,
temosqc = 9,49. Como χ2 = 3,44<9,49, ent˜ao conclu´ımos que o modelo proposto ´e
Cap´ıtulo 2
Cadeias de Markov
Neste cap´ıtulo, vamos detalhar alguns resultados que est˜ao no artigo Statistical Methods In Markov Chains de Billingsley(1960). O artigo faz um apanhado dos
as-pectos matem´aticos de Inferˆencia Estat´ıstica e suas aplica¸c˜oes em cadeias de Markov finita. O problema se resume a fazer inferˆencia sobre as probabilidades de transi¸c˜ao a
partir de uma observa¸c˜ao {x1, ..., xn} da cadeia. Nesse trabalho nos restringiremos a
analisar que a distribui¸c˜ao assint´otica de uma estat´ıstica semelhante a Pearson agora
numa observa¸c˜ao de uma cadeia de Markov, tamb´em tem modelo qui-quadrado com (d−s) gruas de liberdade. Um resultado que nos ajudar´a a encontrar essa estat´ıstica ´e visto no teorema 2.2, para isso ser´a preciso resultados como o teorema 2.1 que garante em uma cadeia de Markov, estacion´aria, irredut´ıvel, aperi´odica e com espa¸co de estados
finito o raio de convegˆencia ´e geom´etrico. O resultado do lema 2.1 ´e importante para o entendimento do teorema 2.2, verificaremos entre outros resultados a Lei Fraca dos
Grandes N´umeros para cadeias de Markov que ´e um resultado de grande importˆancia para a demonstra¸c˜ao do teorema 2.2.
2.1
Processos Estoc´
asticos e Cadeias de Markov
Um processo estoc´astico ´e uma sequˆencia de vari´aveis aleat´orias {Xt, t ∈ T},
definidas sobre um mesmo espa¸co de probabilidade (Ω,F, P). Assim, para cadaw∈Ω fixo, a fun¸c˜ao Xt(w) na vari´avel t, denotada por {Xt(w), t ∈ T}, ´e chamada uma
24
se o conjunto de ´ındicesT for enumer´avel, e um processo a tempo cont´ınuo, seT for n˜ao enumer´avel. Um processo de Markov ´e um processo estoc´astico cujo comportamento dinˆamico ´e tal que as distribui¸c˜oes de probabilidade para o seu desenvolvimento futuro
depende somente do estado presente, n˜ao levando em considera¸c˜ao como o processo chegou a tal estado.
Defini¸c˜ao 2.1 O conjuntoS de todos os valores assumidos por um processo ´e chamado espa¸co de estados do processo. Se S ´e enumer´avel, dizemos que o processo ´e uma Cadeia. Se S ´e n˜ao enumer´avel dizemos que o processo tem espa¸co de estados geral.
Defini¸c˜ao 2.2 Um processo estoc´astico {Xt, t = 0,1,2, . . .} com espa¸co de estado
S={1,2, ..., s}´e uma Cadeia de Markov se satisfaz a propriedade de Markov dada por
P (Xn=in|Xn−1 =in−1, . . . , X0 =i0) = P (Xn=in|Xn−1 =in−1), (2.1) para todon ∈◆ e para todo i∈S ={1,2, ..., s}.
Defini¸c˜ao 2.3 Uma cadeia de Markov ´e dita homogˆenea ou estacion´aria no tempo se a probabilidade de ir de um estado a outro independe do tempo em que o passo ´e dado. Isto ´e, para quaisquer estados i, j ∈S, temos:
P (Xn=j|Xn−1 =i) =P (Xn+k =j |Xn+k−1 =i), (2.2) para k =−(n−1),−(n−2), . . . ,−1,0,1,2, . . ..
Denotamos por pij a probabilidade de transi¸c˜ao do estado i para o estadoj em
um passo, ou seja, P (Xn =j |Xn−1 =i), n = 1,2, . . .. Assim, a probabilidade de
no tempo n estarmos no estado j sabendo que no tempo n −1 estamos no estado i ´e dada por P (Xn =j |Xn−1 =i) = Pij(n−1,n). Caso a cadeia seja estacion´aria, ent˜ao
Pij(n−1,n) = Pij(n+k−1,n+k), para todo k = −(n−1),−(n −2), . . . ,−1,0,1, . . . . A essas probabilidades condicionais denominamos de probabilidades de transi¸c˜ao da cadeia.
Considerando, agora, {Xn}n≥1 uma Cadeia de Markov com espa¸co de estados
S = {1,2, . . . , s}. Para essa cadeia existem s2 probabilidades de transi¸c˜ao {p ij},
irmos de um estado iao estado j em um passo.
P=
p11 p12 · · · p1s
p21 p22 · · · p2s
... ... ... ... ps1 ps2 · · · pss
Observe que na matriz de transi¸c˜ao todas as entradas s˜ao n˜ao-negativas, visto que s˜ao probabilidades; e a soma de cada uma das linhas ´e sempre igual a um.
Defini¸c˜ao 2.4 Uma cadeia de Markov com matriz de transi¸c˜ao P = (pij)i,j∈S ´e dita ser erg´odica se, para todo j ∈S, existe
lim
n→∞p
(n) ij =pj independente do i∈S, e
X
j∈S
pj = 1.
Defini¸c˜ao 2.5 Uma distribui¸c˜ao {pj, j ≥0} ´e estacion´aria para a cadeia de Markov com matriz de transi¸c˜ao P = (pij)i,j∈S e S={1,2, ..., s}, se:
s
X
i=1
pipij =pj,∀j.
Defini¸c˜ao 2.6 Uma cadeia de Markov com matriz de transi¸c˜ao P = (pij)i,j∈S ´e dita ser irredut´ıvel se todos os estados se comunicam, isto ´e, quaisquer que sejam i, j ∈ S
existen ∈◆ tal que p(n)ij >0 e existe k ∈◆ tal que p(k)ji >0.
Defini¸c˜ao 2.7 O per´ıodo de um estado qualquer i∈S ´e dado pelo n´umero
d(i) =mdc{n≥1|p(n)ii >0}.
E quando d(i) = 1 dizemos que i ´e aperi´odico.
Defini¸c˜ao 2.8 Uma cadeia de Markov com matriz de transi¸c˜ao P = (pij)i,j∈S onde todos os estados s˜ao aperi´odicos ´e dita ser aperi´odica.
No restante do trabalho nos referiremos sempre a Cadeia de Markov com espa¸co
de estados finito, aperi´odica e irredut´ıvel. Um resultado importante sobre cadeia de Markov, que ser´a usado no lema 2.1 da se¸c˜ao 2.2, ser´a demonstrado na segunda parte do
26
Teorema 2.1 Uma cadeia de Markov homogˆenea{Xn}n≥0 irredut´ıvel e aperi´odica com espa¸co de estados finito ´e erg´odica. Al´em do mais, o raio de convergˆencia ´e geom´etrico, no sentido de que existem γ >0 e 0< ρ < 1 tais que
|p(n)ij −pj| ≤γρn.
Demonstra¸c˜ao. A ergodicidade de {Xn}n≥0 segue como consequˆencia dos teoremas
2.7, 2.8 de Kijima (1997).
Agora, suponha que pij ≥ δ > 0, quaisquer que sejam i, j ∈ S. Sejam Mjn =
sup
i
p(n)ij emn
j = infi p (n)
ij . Observe quemnj ≤p (n)
ij ≤Mjn. Usando a equa¸c˜ao de
Chapman-Kolmogorov, temos
p(n+1)ij =X
l∈S
pilp(n)lj ≤
X
l∈S
pilMjn=Mjn
X
l∈S
p(n)il =Mjn ⇒Mjn+1 = sup
i
p(n+1)ij ≤Mjn,
ou seja,
Mjn+1 ≤Mjn.
De modo an´alogo, temos
mn+1j = inf
i p (n+1) ij = infi
X
l∈S
pilp(n)lj ≥infi
X
l∈S
pilmnj =mnj,
ou seja,
mn+1j ≥mnj.
Como (mn
j) ´e mon´otona e limitada inferiormente, temos mnj ↑pj = lim n→∞p
(n) ij , para
todoi.
Vamos mostrar que existe ρ >0 tal que|Mn
j −mnj| ≤ρn.
De fato,
Mjn+1−mn+1j = sup
i,k
p(n+1)ij −p(n+1)kj
= sup
i,k
X
l∈S
pilp(n)lj −
X
l∈S
pklp(n)lj
!
= sup
i,k
X
l∈S
(pil−pkl)p(n)lj
!
Defina
(pil−pkl)+ =
pil−pkl, sepil > pkl
0, sepil ≤pkl.
e
(pil−pkl)− =
pil−pkl, sepil < pkl
0, sepil ≥pkl.
Como
0 = X
l∈S
(pil−pkl) =
X
l∈S
(pil−pkl)+−
X
l∈S
(pil−pkl)−,
temos
X
l∈S
(pil−pkl)+ =
X
l∈S
(pil−pkl)−.
Disso,
Mjn+1−mn+1j = sup
i,k
( X
l∈S
(pil−pkl)+−
X
l∈S
(pil−pkl)−
!
p(n)lj )
≤ sup
i,k
X
l∈S
Mjn(pil−pkl)+−
X
l∈S
mnj(pil−pkl)−
!
= sup
i,k
X
l∈S
(pil−pkl)+(Mjn−mnj)
!
.
Por hip´otese, temos pkl≥δ >0. Logo,
−pkl ≤ −δ⇒pil−pkl≤pil−δ.
Da mesma forma
pil ≥δ >0⇒pil−δ ≥0.
Assim,
(pil−pkl)+=pil−pkl ⇒(pil−pkl)+≤pil−δ
e
(pil−pkl)+ = 0⇒(pil−pkl)+ ≤pil−δ.
Logo,
Mjn+1−mn+1j ≤ sup
i,k
X
l∈S
(pil−δ)(Mjn−mnj)
!
≤ sup
i,k
(1−sδ)(Mjn−mnj)
= (1−sδ)(Mjn−mnj)
28
em queρ= 1−sδ. Assim, continuando com esse procedimento, temos
|Mn
j −mnj| ≤ρn.
Note que p(n)ij ≤Mn
j e mnj ≤πj implicam p(n)ij −πj ≤Mjn−mnj. Logo,
|p(n)ij −pj| ≤ |Mjn−mnj| ≤ρn.
Sendo a cadeia ´e irredut´ıvel e aperi´odica, existe n0 ≥ 1 tal que p(nij0) ≥ δ > 0.
Podemos fazer
Pn =Pk0P[n/n0]n0 =Pk0+mn0,
ondeP ´e a matriz de transi¸c˜ao da cadeia em=
n n0
. Logo,
|p(n)ij −pj| =
p
(k0+mn0)
ij −pj
=
X
l∈S
p(k0)
il (p (mn0)
lj −pj)
= pmlj −pj
≤ ρm
= ρ(n−k0)/n0
= ρ−k0/n0ρn/n0
= ρ−k0/n0 ρ1/n0n.
Portanto, existem γ >0 e 0< ρ <1 tais que
|p(n)ij −pj| ≤γρn.
2.2
Resultados em Cadeia de Markov Erg´
odica e
Estacion´
aria
Alguns resultados sobre convergˆencia, v´alidos em cadeias de Markov, ser˜ao
apre-sentados nesta se¸c˜ao. Denotaremos por fi e fij, respectivamente, o n´umero de vezes
Lema 2.1 Seja {Xn}n≥1 uma cadeia de Markov estacion´aria e erg´odica e seja ξ =
(ξ1, ..., ξs) o vetor aleat´orio com componentes
ξi =
fi −npi
√ n .
Ent˜ao (
E(ξi) = 0
E(ξiξj) =αij +O n1
,
onde αij = δijpi−pipj +pi
∞ X
k=1
(p(k)ij −pj) +pj
∞ X
k=1
(p(k)ji −pi) e lim n→∞
O n1
1/n = c, com c
constante. Alem disso, vale a lei fraca dos grandes n´umeros para cadeias de Markov:
fi
n
P
−→pi.
Demonstra¸c˜ao. O n´umero de vezes que a cadeia saiu de i´e
fi = n
X
m=1
I[Xm=i].
Ent˜ao
E(fi) = E(I[X1=i]) +· · ·+E(I[Xn=i])
= P(X1 =i) +· · ·+P(Xn =i)
= npi,
pois a cadeia ´e estacion´aria, isto ´e,P(Xm =i) =pi, ∀m= 1, ..., n.
Assim, para todo i∈S, temos
E(ξi) = E
fi−npi
√ n
= √1
nE(fi−npi)
= E(fi)√−E(npi) n = npi√−npi
30
Agora, vamos calcular E(ξiξj).
E(ξiξj) = E
fi−npi
√ n
fj −npj
√ n
= 1
nE " n
X
l=1
I(Xl=i)−npi
! n X
m=1
I(Xm=j)−npj
!# = 1 nE " n X l=1
(I(Xl=i)−pi)
n
X
m=1
(I(Xm=j)−pj)
# = 1 nE " n X m=1 n X l=1
(I(Xl=i)−pi)(I(Xm=j)−pj)
# = 1 n n X m=1 n X l=1
E(I(Xl=i)−pi)(I(Xm=j)−pj)
.
Calculemos E(I(Xl=i)−pi)(I(Xm=j)−pj)
para os casos em que l < m, m < l e m=l.
Caso I (l < m):
E(I(Xl=i)−pi)(I(Xm=j)−pj)
= E(I(Xl=i)I(Xm=j)−pjI(Xl=i)−piI(Xm=j)+pipj)
= E(I(Xl=i)I(Xm=j))−pjE(I(Xl=i))−piE(I(Xm=j)) +pipj
= E(I(Xl=i,Xm=j))−pjE(I(Xl=i))−piE(I(Xm=j)) +pipj
= P(Xl =i, Xm =j)−pipj −pipj +pipj
= P(Xl =i, Xm =j)−pipj
= P(Xm =j|Xl=i)P(Xl=i)−pipj
∗
= P(Xm−l+1 =j|X1 =i)P(Xl =i)−pipj
= p(ijm−l)pi−pipj.
* pois a cadeia tem probabilidade de transi¸c˜ao estacion´aria.
Caso II (m =l):
E(I(Xl=i)−pi)(I(Xm=j)−pj)
= P(Xm =i, Xm =j)−pipj
=
P(Xm =i), se i=j
P(∅), se i6=j
−pipj
em que
δij =
1, se i=j 0, se i6=j .
Caso III (l > m):
E(I(Xl=i)−pi)(I(Xm=j)−pj)
= P(Xl =i|Xm =j)P(Xm =j)−pipj
= p(lji−m)pj −pipj.
Ent˜ao, podemos escrever
E(I(Xl=i)−pi)(I(Xm=j)−pj)
= P(Xl=i|Xm =j)−pipj
=
p(mij −l)pi−pipj, sem > l;
δijpi −pipj, sem =l;
p(lji−m)pj −pipj, sem < l.
. Assim, n X m=1 n X l=1
E(I(Xl=i)−pi)(I(Xm=j)−pj)
=
=n(δijpi −pipj)
| {z }
m=l
+ (n−1)(pjp(1)ji −pipj) + (n−2)(pjp(2)ji −pipj) +· · ·+ 1(pjpji(n−1)−pipj)
| {z }
m<l
+ (n−1)(pip(1)ij −pipj) + (n−2)(pip(2)ij −pipj) +· · ·+ 1(pipij(n−1)−pipj)
| {z }
m>l
.
Ent˜ao,
E(ξiξj) =
1 n
n(δijpi−pipj) + n−1
X
k=1
(n−k)(pip(k)ij −pipj)
| {z }
m>l
+
n−1
X
k=1
(n−k)(pjp(k)ji −pipj)
| {z }
m<l
= (δijpi−pipj) +n−1 n−1
X
k=1
(n−k)(pip(k)ij −pipj)
| {z }
(I)
+n−1
n−1
X
k=1
(n−k)(pjp(k)ji −pipj)
| {z }
(II)
.
Vejamos que (I) difere da parcela pi
∞ X
k=1
(p(k)ij −pj) de αij pela quantidade
pi
∞ X
k=n
(p(k)ij −pj) +n−1pi n−1
X
k=1
32 De fato, pi ∞ X k=1
(p(k)ij −pj)−n−1 n−1
X
k=1
(n−k)(pip(k)ij −pipj) =
=pi
∞ X
k=1
(p(k)ij −pj)−pi n−1
X
k=1
(p(k)ij −pj) +n−1pi n−1
X
k=1
k(p(k)ij −pj)
=pi
∞ X
k=n
(p(k)ij −pj) +n−1pi n−1
X
k=1
k(p(k)ij −pj).
Pelo teorema 2.1,
|p(k)ij −pj|< γρk, 0< ρ <1⇒
∞ X
k=1
|p(k)ij −pj| ≤
∞ X
k=1
γρk
| {z }
s´erie geom.
0<ρ<1
.
Logo, ∞ X
k=1
|p(k)ij −pj| converge , isto ´e,
∞ X
k=1
(p(k)ij −pj) ´e uma s´erie absolutamente
convergente.
Da mesma maneira,
∞ X
k=1
|k(p(k)ij −pj)| ≤
∞ X
k=1
kγρk,
que ´e convergente. De fato, pelo teste da raz˜ao,
(k+ 1)ρk+1
kρk =
1 + 1
k
ρ→ρ <1, quando k → ∞.
Logo, ∞ X
k=1
k(p(k)ij −pj) tamb´em ´e absolutamente convergente.
Consequentemente,
pi
∞ X
k=n
(p(k)ij −pj)
| {z }
tende a 0 quandon→∞
+n−1pi n−1
X
k=1
k(p(k)ij −pj)
| {z }
converge quandon→∞
=O 1 n .
Analogamente, (II) difere da parcela pj
∞ X
k=1
(p(k)ji −pi) de αij por uma quantidade
O n1. Portanto, E(ξiξj) =αij +O n1
Agora, vamos mostrar que vale a lei fraca dos grandes n´umeros.
SeX ´e uma vari´avel aleat´oria qualquer. Ent˜ao, para quaisquer t, k >0, temos
P(|X| ≥t)≤ E(|X|
k)
tk ,
conhecida como desigualdade de Markov. Assim,usando a desigualdade acima
P fi
n −pi ≥ε ≤ E fi
n −pi
2
ε2 =
Eh fi
n −pi
2i
ε2 =
E(fi−npi)2
n2ε2
=
1 nE
(fi−npi)2
1 nn2ε2
=
Efi−√npi
n
2
nε2 =
E(ξi)2
nε2
= αii+O(1/n) nε2 =
αii
nε2 +
O(1/n) nε2
= αii nε2 |{z} ↓ 0 +O(1/n)1/n (1/n)nε2
| {z }
↓ 0 Portanto, fi n P
−→pi.
Teorema 2.2 Seja {Xn}n≥1 uma cadeia de Markov estacion´aria e erg´odica, a dis-tribui¸c˜ao do vetor estacion´arios2-dimensional com componentes
ξij =
fij −fipij
fi1/2 ,
converge quando n → ∞ para uma distribui¸c˜ao normal com matriz de covariˆancia
λij,kl=δik(δjlpij −pijpil).
Demonstra¸c˜ao. O processo {Xn}n≥1 pode ser gerado da seguinte forma: considere
uma cole¸c˜ao independente de v.a.’s X1 e Win, (i = 1, ..., s e n = 1,2, ...), tais que
34
descrito abaixo.
W11, W12, · · · , W1n, · · ·
W21, W22, · · · , W2n, · · ·
· · · · Ws1, Ws2, · · · , Wsn, · · ·
.
A constru¸c˜ao do processo ´e feita da seguinte maneira: SeX1 =i, ent˜ao a primeira
vari´avel da linhai´e, por defini¸c˜ao, o valor deX2. SeX2 =j, ent˜ao a primeira vari´avel
daj-´esima linha ser´a o valor de X3, a menos que i=j, neste caso, X3 ser´a a segunda
vari´avel da j-´esima linha, e assim sucessivamente. De maneira formal, podemos es-crever X2 = WX11, e se X1, X2, ..., Xn j´a est˜ao definidos, ent˜ao Xn+1 = WXnm, onde
(m−1) ´e o n´umero de ´ındices l, 1 ≤l < n, tais que Xl=Xn.
Por defini¸c˜ao,
{Xk=ak, 1≤k ≤n+ 1}=
X1 =a1, Wak−1mk =ak, 2≤k ≤n+ 1 ,
onde (mk−1) ´e o n´umero de elementos em{a1, ..., ak−1}que s˜ao iguais a ak. Como as
vari´aveis envolvidas s˜ao todas independentes, ent˜ao
P(X1 =a1, X2 =a2, ..., Xn+1 =an+1) =
=P(X1 =a1, Wa1m2 =a2, Wa2m3 =a3, ..., Wanmn+1 =an+1)
=P(X1 =a1)P(Wa1m2 =a2)· · ·P(Wanmn+1 =an+1)
=pa1.pa1a2.pa2a3· · ·panan+1.
Note que
fij = fi
X
m=1
I[Wim=j].
Assim, (fi1, fi2, ..., fis) ´e a contagem da frequˆencia de{Wi1, Wi2, ..., Wifi}, ou seja,
fij ´e o n´umero de vezes que na amostra {Wi1, Wi2, ..., Wifi} a cadeia saiu de i para j,
1≤j ≤s.
Pelo lema 2.1, vimos que fi n
P
−→pi, isto ´e, fi est´a perto denpi com probabilidade
alta. ´E natural comparar (fi1, fi2, ..., fis) com a contagem de frequˆencia (gi1, gi2, ..., gis)
nesta amostra. Da independˆencia do vetor (Win) e do teorema central do limite para
processos multinomiais, segue que ass2 v.a.’s
gij −[npi]pij
(npi)1/2
s˜ao assintoticamente normal distribu´ıdas, com matriz de covariˆancia
λij,kl =δik(δjlpij −pijpil).
Ent˜ao, o vetor de vari´avel aleat´oria η= (ηij), com compontentes
ηij =
fij −fipij
(npi)1/2
ter´a essa mesma distribui¸c˜ao limite se mostrarmos que para cada i e para cada j a diferen¸ca
gij−[npi]pij
(npi)1/2 −
fij −fipij
(npi)1/2 P
−→0.
Defina
em =
1−pij, se Wim =j;
−pij, se Wim 6=j
e
Sm =e1+· · ·+em.
Assim,
Sfi = e1+· · ·+efi
= (1−pij) fi
X
m=1
I[Wim=j]
!
−pij fi
X
m=1
I[Wim6=j]
!
= (1−pij) fi
X
m=1
I[Wim=j]
!
−pij fi− fi
X
m=1
I[Wim=j]
!
= (1−pij)fij −pij(fi−fij)
= fij −pijfij −pijfi+pijfij
36
e
S[npi] = e1+· · ·+e[npi]
= (1−pij)
[npi]
X
m=1
I[wim=j]
−pij
[npi]− [npi]
X
m=1
I[wim=j]
= (1−pij)gij −pij([npi]−gij)
= gij −pijgij −pijfi+pijgij
= gij −pij[npi].
Ent˜ao,
gij −[npi]pij
n1/2 −
fij −fipij
n1/2 =
S[npi]
n1/2 −
Sfi
n1/2 =
S[npi]−Sfi
n1/2 .
Pelo lema 2.1, temos fi n
P
−→pi, isto ´e, para todoε >0, existe n0 ∈◆tal que
n≥n0 ⇒P |fi−[npi]|> nε3
< ε.
Podemos escrever
|S[npi]−Sfi|
n1/2 > ε
=
=
|S[npi]−Sfi|
n1/2 > ε
∩h{|fi−[npi]|> nε3} ∪ {|fi−[npi]| ≤nε3}
i
=
|S[npi]−Sfi|
n1/2 >ε
∩{|fi−[npi]|> nε3}
∪
|S[npi]−Sfi|
n1/2 >ε
∩{|fi−[npi]|≤nε3}
.
Se{Xn:n≥1}´e uma sequˆencia de vari´aveis aleat´orias independentes com m´edia
zero e variˆancia finita. Ent˜ao, para todoλ >0 e com Sk =X1+· · ·+Xk temos,
P
max
1≤k≤n|Sk| ≥λ
≤ V ar(Sn) λ2 .
P
|S[npi]−Sfi|
n1/2 > ε
=
=P
|S[npi]−Sfi|
n1/2 > ε,|fi−[npi]|> nε 3
+P
|S[npi]−Sfi|
n1/2 > ε,|fi−[npi]| ≤nε 3
≤P (|fi−[npi]|> nε3) +P
|S[npi]−Sfi|
n1/2 > ε,|fi−[npi]| ≤nε 3
≤P (|fi−[npi]|> nε3) +P
max |m−[npi]|≤nε3
|S[npi]−Sm|> εn
1/2
≤ε+ 2P
max
1≤m≤nε3
|Sm|>
εn1/2
2
≤ε+ 2Var(Snε3)
nε2/4 (pela desigualdade de Kolmogorov)
=ε+ 2 4
nε2Var(Snε3).
Mas
Var(Snε3) = nε3Var(em) =nε3pij(1−pij),
pois
E(em) = (1−pij)P(Wim =j)−pijP(Wim6=j) = (1−pij)pij−pij(1−pij) = 0
e
E(e2m) = (1−pij)2pij +p2ij(1−pij) =pij −p2ij
implicam
Var(em) =pij(1−pij).
Logo
P
|S[npi]−Sfi|
n1/2 > ε
≤ε+ 2 4 nε2nε
3p
ij(1−pij) = ε(1 + 8pij(1−pij)).
Como ε >0 foi qualquer, temos
S[npi]−Sfi
n1/2
P
38
Logo, pelo teorema de Slutsky, temos
gij −[npi]pij
(npi)1/2 −
gij−[npi]pij
(npi)1/2 −
fij −fipij
(npi)1/2
D
−→Y,
ondeY tem distribui¸c˜ao normal. Portanto, ηij =
fij −fipij
(npi)1/2
, converge em distribui¸c˜ao para uma normal.
Agora, observe que:
ηij
ξij
=
fij−fipij
(npi)1/2
fij−fipij
fi1/2
= f
1/2 i
(npi)1/2
=
fi
n 1/2
1 p1/2i
P
−→p1/2i 1 p1/2i = 1,
quandon → ∞. Portanto,
ηij
ξij P
−→1.
Usando novamente o teorema de Slutsky, temos
ξij =
ηij
ηij/ξij D
−→Y,
ondeY tem distribui¸c˜ao normal.
Com isso, e da teoria b´asica de qui-quadrado, cada estat´ıstica
X
j
(fij−fipij)2
fipij
, i= 1, ..., s, (2.3)
tem distribui¸c˜ao assint´otica qui-quadrado. A soma em (2.3) deve ser restrita aos ´ındices j tais que pij > 0; se tivermos di desses pij’s, ent˜ao o n´umero de graus de liberdade
da distribui¸c˜ao limite ´e di − 1. Al´em disso, as s estat´ısticas s˜ao assintoticamente
independentes, de modo que a soma
X
ij
(fij −fipij)2
fipij
,
tem distribui¸c˜ao assint´otica qui-quadrado comd−sgraus de liberdade, onded=X
i
di
´e o n´umero de elementos positivos da matriz (pij). A estat´ıstica (2.3), considerada
primeiro por Bartlett (1951), fornece a medida de melhor ajuste da amostra com as
Referˆ
encias Bibliogr´
aficas
BARTLETT, M. S.The frequency goodness of fit test for probability chains.Proc. Comb. Phil. Soc, Vol. 47 (1951), pp. 86−95 (MR. 12.512).
BOLFARINE, Heleno.; SANDOVAL, M.C.Introdu¸c˜ao `A Inferˆencia Estat´ıstica, SBM. BREIMAN, Leo.Statistics: With a View Toward ApplicationsHougthton Mifflin
Company.
COCHRAN, W. G.The χ2 test of goodness of fit. The Annals of Mathematical
Statis-tics, Vol. 23, No. 3 (Sep., 1952), pp. 315−345.
CHUNG, Kai Lai. A Course in Probability Theory.2.ed. [S.L], Academic Press, 1974. CRAM´ER,Harald.Mathematical Methods Of Statistics.1.ed.Princenton University Press,
1946
FERGUSON,Thomas S.A Course In Large Sample Theory.1.ed.Chapman & Hall,
London,1996
GON ¸CALVES, Cristina Faria F.,Estat´ısticaed. UEL, 2002
GRENNWOOD,Priscilla E.; NIKULIN,Mikhail S.A Guides To Chi-Squared Testing. John Wiley & Sons, Inc.
JAMES, Barry R. Probabilidade: Um curso intermedi´ario. 3. ed. Rio de Janeiro: IMPA, 2004.
40
KOEHLER, K. J.; LARNTZ, K. An Empirical Investigation of Goodness-of-Fit Statistics for Sparse Multinomials. Journal of the American Statistical Associa-tion, Vol. 75, No. 370 (Jun., 1980), pp. 336−344.
MAGALH ˜AES, M. Nascimento. Probabilidade e Vari´aveis aleat´orias. S˜ao Paulo: IME-USP, 2004.
MAGALH ˜AES, Marcos N.; LIMA, Antonio C. Pedroso de.;No¸c˜oes De Probabilidade E Estat´ıstica 6.ed. Edusp, 2007.
MOOD, Alexander M.; GRAYBIIL, Franklin A.;BOES,Duane C. Introduction To The Theory Of Statistics. 3.ed. International Student edition, 1913.
PAUL, L., Probabilidade Aplica¸c˜oes `A Estat´ıstica2. ed.LTC,1983
PEARSON,K.(1900),On the Criterion That a Given System of Variables Is Such That It Can Be Reasonably Supposed to Have Arisen From Random Sam-pling. Philosophical Magazine , 1901. 50, 157-175.
ROSSI, S. M. Stochastic Processes.New York: John Wiley and Sons, 1983.
SERFLING, Robert J.Approximation Theorems of Mathematical Statistics.Wiley Interscience, 2002.