Métodos estatisticos em cadeias de Markov

(1)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIˆENCIAS EXATAS E DA TERRA

PROGRAMA DE P ÓS-GRADUA ¸C ÃO EM MATEM ÁTICA APLICADA E ESTATÍSTICA

HELENICE LOPES BARBOSA

M´

ETODOS ESTAT´ISTICOS EM

CADEIAS DE MARKOV

NATAL - RN

(2)

M´ETODOS ESTAT´ISTICOS EM CADEIAS DE MARKOV

Disserta¸cão apresentada ao Programa de Pós-Gradua¸cão em Matemática Aplicada e Estat´ıstica - PPGMAE, da

Universidade Federal do Rio Grande do Norte, como requisito parcial para obten¸c˜ao do t´ıtulo de Mestre em

Matem´atica Aplicada e Estat´ıstica.

Orientadora: Prof. Dra. Viviane Simioli Medeiros

Cam-pos.

NATAL - RN

(3)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIˆENCIAS EXATAS E DA TERRA

PROGRAMA DE P ÓS-GRADUA ¸C ÃO EM MATEM ÁTICA APLICADA E ESTATÍSTICA

HELENICE LOPES BARBOSA

M´ETODOS ESTAT´ISTICOS EM CADEIAS DE MARKOV

Comiss˜ao Examinadora:

Profa_{. Dr}a_{. Viviane Simioli Medeiros Campos (DM - UFRN - Orientadora)}

Prof◦. Dr◦. Jaques Silveira Lopes(Universidade Federal de Vi¸cosa -UFV) Prof◦_{. Dr}◦_{. Andr´e Gustavo Campos Pereira (PPGMAE/UFRN)}

(4)

Agradecimentos

Agrade¸co ao meu maravilhoso Deus, que cuidou de mim em todo o tempo. O Deus que faz como quer, mas que tem para n´os muito mais do que pedimos ou pensamos

e que sem Ele nada disso poderia ser poss´ıvel;

Aos meus pais, que me incentivaram a estudar e investiram em mim;

A minha irmã Maria José, que tem sido muito mais mãe do que irmã;

A minha m˜aemiga, Socorro Santos de Macedo que tanto me ajudou com suas

ora¸c˜oes e com suas palavras tamb´em;

A amiga Juciara, que me incentivou e sempre me deu palavras de otimismo;

Ao colega Marconio, que se tornou um amigo especial. Sua ajuda foi fundamental ao digitar comigo a disserta¸c˜ao, que Deus possa aben¸coa-lo grandemente;

Ao amigo de trabalho, Nonato, que de forma sempre prestativa me ajudou quando meu computador deu problemas;

A amiga Jackelya que tanto me ajudou. Posso dizer que ela foi um anjo que Deus colocou em minha vida;

Aos colegas do curso de Probabilidade. Foram dias de estudos ´arduos mas ex-tremamente alegres;

Ao funcion´ario Cesar, da biblioteca setorial , que de forma sempre atenciosa e prestativa me ajudava nas pesquisas por livros e bibliografias;

A amiga Let´ıcia, que mesmo de longe sempre esteve torcendo por mim;

Ao amigo Alb´erico que me ajudou muito. Nessa reta final ele foi uma providˆencia

de Deus ao me ajudar na escola;

(5)

dificuldades tamb´em. Obrigada pelas suas ora¸c˜oes;

Ao amigo Helio Meira de Morais, funcion´ario do departamento de matem´atica, pela sua forma prestativa, sempre disposto a me ajudar;

A professora Mirtes de Carvalho Varela, diretora da escola em que trabalho, sua ajuda foi de fundamental importancia para realiza¸c˜ao desse trabalho;

As coordenadoras do vespertino, Lucia, Marcia, Ariadna e Gra¸ca Leite que sempre me apoiaram muito;

A amiga e coordenadora do noturno, Socorro Silva, que carinhosamente ´e chamada de minha santinha. Sem a sua ajuda na escola tudo teria sido bem mais dificil;

Aos meus amigos e colegas professores da Escola Estadual Berilo Wanderley que me deram for¸ca em todo o tempo;

A professora Dione que tão pacientemente me ensinou muito em suas brilhantes aulas de inferência com tanta simplicidade ao ministrá-las. E também por todas as

suas sugest˜oes na minha qualifica¸c˜ao;

Ao professor Benedito V. Tadeu que me deixou grandes ensinamentos;

Ao professor Rubéns Leão, que me ensinou além de matemática, que é poss´ıvel ser um excelente matemático e mesmo assim ser simples;

Ao professor Dami˜ao que me ajudou muito com suas dicas de livros;

Ao professor Paulo Roberto, que t˜ao gentilmente me atendeu e esclareceu algumas

d´uvidas de estat´ıtica;

Ao professor Jaques, pelas suas palavras sempre positivas e confiantes;

Ao professor e amigo, Marcelo Gomes, um grande matem´atico e um ser humano formid´avel;

Ao professor Elias pelas suas sugest˜oes na disciplina de Semin´arios;

Aos professores do PPGMAE, em particular ao professor Andr´e Gustavo por toda

a ajuda;

A professora Viviane Simioli Medeiros Campos, minha orientadora, que de uma

(6)

Dedicat´

oria

Dedico esta disserta¸c˜ao a meus

pais: C´ıcero Lopes Barbosa (in memoriam) e Helena de Sena

Barbosa, que foram em todo o tempo os meus orientadores de

(7)

Resumo

Este trabalho tem como objetivo o estudo do comportamento assintótico da es-tat´ıstica de Pearson(1900), que é o aparato teórico do conhecido teste qui-quadrado

ou teste χ2 _{como tamb´em ´e usualmente denotado. Inicialmente estudamos o}

compor-tamento da distribui¸c˜ao da estat´ıstica qui-quadrado de Pearson(1900) numa amostra {X1, X2, ..., Xn} quandon → ∞epi =pi0,∀n. Em seguida detalhamos os argumentos

usados em Billingley(1960), os quais demonstram a convergˆencia em distribui¸c˜ao de

uma estat´ıstica, semelhante a de Pearson, baseada em uma amostra de uma cadeia de Markov, estacion´aria, erg´odica e com espa¸co de estados finitos S.

(8)

Abstract

This work has as objetive the study of the statistics behavior asymptotic of Pear-son(1900), that is the acquaintance’s theoretical apparatus it chi-square tests or test

χ2 _{as well as it is usually denoted. Initially, we studied the behavior of the distribution}

of the statistics of Pearson(1900) in a sample _{X1, X2, ..., Xn} when followed n → ∞

andpi =pi0,∀n. Soon after we detailed the arguments used in Billingley(1960), which

demonstrate the convergence in distribution of a statistics, similar the one of Pearson,

based on a sample of a chain of Markov, stationary, erg´odica and with space of finite states S.

(9)

Sum´

ario

Introdu¸c˜ao 1

1 Modelos Importantes 4

1.1 Distribui¸c˜oes . . . 4

1.2 Estat´ıstica de Pearson . . . 9

1.2.1 Experimentos multinomiais . . . 9

1.3 O Teste χ2 _{. . . .} ₁₉

2 Cadeias de Markov 23 2.1 Processos Estoc´asticos e Cadeias de Markov . . . 23

2.2 Resultados em Cadeia de Markov Erg´odica e Estacion´aria . . . 28

(10)

Introdu¸c˜

ao

A estat´ıstica de Pearson(1900), como o nome sugere, foi originalmente proposta

por Karl Pearson em 1900 para testar o ajuste de um modelo, comparando o conjunto de frequˆencias observadas com as frequˆencias esperadas.

O teste χ2 _{de Pearson(1900), como tamb´em pode ser denotado, ´e um teste de}

hip´otese, que pode ser usado para dados discretos e para testar a homogeneidade de

duas popula¸cões para alternativas gerais, e não somente de localiza¸cão. Por exemplo, duas distribui¸cões podem diferir em escalas, como ilustra a Figura 1, embora tenham

a mesma m´edia.

Figura 1: Distribui¸c˜oes P1 e P2.

´

E comum encontrar na literatura a estat´ısticaχ2 ₌ c

X

j=1

(oj−ej)2

ej

, para a

utiliza-¸cão do teste, onde oi e ei são as frequências observadas e esperadas respectivamente,

numa amostra de tamanho n, dividida em c categorias disjuntas. Observamos dessa forma, que não há um cuidado em denotar na estat´ıstica a variável aleatória envolvida.

(11)

2

verificar se os dados de uma amostra se comportam de acordo com uma certa

dis-tribui¸cão teórica. A estat´ıstica usada no teste é a estat´ıstica de Pearson(1900) definida por:

χ2 =

c

X

j=1

(ηj−npj)2

npj

, (1)

onde η = (η1, ..., ηc) é o vetor aleatório de frequências observadas, com c

X

i=1

ηi = n ,

E(η) =npé o vetor das frequências esperadas e p= (p1, ..., pc) é o vetor de

probabi-lidade, com

c

X

i=1

pi = 1.

Para grandes amostras,η₋nprepresenta o desvio entre as frequˆencias observadas e as frequˆencias esperadas do modelo proposto.

Neste trabalho, que tem como base o artigo Statistical Methods in Markov chain

de Patrick Billingsley(1960), o foco principal é fazer um apanhado dos aspectos matemáti-cos de Inferência Estat´ıstica aplicados em Cadeias de Markov com espa¸co de estados

finito. O problema consiste em fazer inferência sobre as probabilidades de transi¸cão a partir de uma observa¸cão _{x1, ..., xn} da cadeia. A estratégia utilizada por

Billings-ley(1960) foi transportar para Cadeia de Markov as id´eias utilizadas no cap´ıtulo 30 de Crammer(1946), para demonstrar o m´etodoχ2 _{aplicado ao modelo multinomial, no}

caso em que a cadeia é estacionária, ergódica e tem espa¸co de estados finito. Antes de tratarmos do caso de Inferência Estat´ıstica em Cadeias de Markov, faremos uma

abordagem para o caso de amostras {X1, ..., Xn} independentes e identicamente

dis-tribu´ıdas.

Para um entendimento geral do trabalho, estabelecemos a seguinte ordem de apresenta¸c˜ao:

No cap´ıtulo 1, a se¸c˜ao 1.1 foi destinada a relembrar algumas distribui¸c˜oes impor-tantes, como o modelo gama e o modelo qui-quadrado, com objetivo de justificarmos,

através do teorema (1.2) que sob certas condi¸cões a soma de variáveis aleatórias com distribui¸cão qui-quadrado segue também um modelo qui-quadrado, onde o grau

liber-dade dessa variável é a soma dos graus de liberliber-dade de cada variável qui-quadrado. A se¸cão 1.2 é dedicada a estat´ıstica de Pearson(1900). Mostraremos que a distribui¸cão

assint´otica deχ2 _{definida em (1) segue um modelo qui-quadrado com (c}₋_{1) graus de}

(12)

Embora existam alguns modelos probabil´ısticos para an´alise estat´ıstica de dados

categóricos conjuntos ou para análise da distribui¸cão da amostra, vamos concentrar os estudos num modelo multinomial que desempenha um papel fundamental no

desen-volvimento de ferramentas de an´alise estat´ıstica.

No cap´ıtulo 2, a se¸c˜ao 2.1 ´e dedicada ao estudo de cadeias de Markov, onde

relem-braremos defini¸cões e ajustaremos nota¸cões para o entendimento geral deste cap´ıtulo. Em seguida demonstramos no teorema (2.1) que uma cadeia de Markov homogênea,

irredut´ıvel, aperiódica com espa¸co de estados finito é ergódica. Além do mais o seu raio de convergência é geométrico no sentido que existem γ > 0 e 0 < ρ < 1 tais que |pn

ij−pj| ≤γρn. Na se¸c˜ao 2.2 com base no artigo de Billingsley(1960) ´e feito um estudo

sistem´atico para atacar o problema de an´alise estat´ıstica em cadeias de Markov, mais

especificamente o teorema (2.2) que ser´a uma poderosa ferramenta para nos ajudar a concluir sobre a convergˆencia para uma χ2

(d−s) da distribui¸c˜ao de uma estat´ıstica

semelhante a de Pearson, constru´ıda a partir de uma amostra{X1, X2, ..., Xn} de uma

cadeia de Markov.

(13)

Cap´ıtulo 1

Modelos Importantes

Neste cap´ıtulo relembramos alguns modelos teóricos para variáveis aleatórias, em especial o modelo qui-quadrado. Descreveremos a estat´ıstica de Pearson(1900) e um

importante resultado que garante, em uma amostra de tamanhon que a estat´ıstica de Pearson(1900) converge em distribui¸c˜ao para uma qui-quadrado com (c₋1) graus de liberdade, sendo co n´umero de categorias disjuntas da amostra.

1.1 Distribui¸c˜

oes

Um modelo cont´ınuo bastante importante e, também, com muitas aplica¸cões é o

modelo Gama. Na literatura, alguns autores se referem a ele como a fam´ılia Gama tendo em vista que, dependendo da escolha dos seus parˆametros, outros modelos importantes

podem ser obtidos.

Defini¸cão 1.1 Dizemos que uma variável aleatória X segue um modelo Gama(α,β) se, e somente se, sua fun¸cão densidade for dada por:

fX(x) =

βα

Γ(α)x

α−1_e−βx_I

(0,∞)(x). (1.1)

Sendo α eβ dois parˆametros positivos e Γ(α) a fun¸c˜ao Gama, definida por

Γ(α) = Z _∞

0

xα−1e−xdx, α >0.

Usamos a nota¸c˜aoX ∼ Gama(α,β).

(14)

i) Γ(α+ 1) =αΓ(α), α >0;

ii) Γ(n) = (n₋1)!, n inteiro positivo;

iii) Γ(1₂) = √π.

Um caso particular, muito importante, da distribui¸c˜ao Gama (1.1) ser´a obtido a

seguir, se fizermosα= n

2 e β= 1

2, onde n ´e um inteiro positivo.

Defini¸cão 1.2 Dizemos que uma variável aleatória X tem distribui¸cão qui-quadrado

χ2

(n) com n graus de liberdade se, e somente se, sua fun¸c˜ao densidade for dada por:

fX(x) =

1 2n2Γ(n

2)

xn2−1e−

x

2, (1.2)

para x >0 e n _∈◆, e a fun¸c˜ao Gama definida por:

Γ(n 2) =

Z _∞

0

xn2−1e−xdx,

para n >0.

A distribui¸c˜ao qui-quadrado possui numerosas aplica¸c˜oes importantes em

inferên-cia estat´ıstica, nesse trabalho sua importâninferên-cia se dá em ser a distribui¸cão assintótica da estat´ıstica de Pearson(1900), como veremos na se¸cão 1.2.

A fun¸cão geradora de momentos de uma variável aleatória é muito importante quando precisamos identificar qual o modelo da variável que estamos trabalhando. Em

resultados adiante, estudaremos vari´aveis aleat´orias que seguem um modeloχ2

(n), desse

modo ´e importante saber como se caracteriza a fun¸c˜ao geradora de uma χ2

(n). Como

umaχ2

(n)´e um caso particular de umaX ∼Gama(n2, 1

2) ent˜ao basta calcularmos a fun¸c˜ao

geradora de momento de uma variável aleatóriaX _∼ Gama(α,β). Assim calculemos a fun¸cão geradora deX ∼ Gama(α,β).

Por defini¸cão a fun¸cão de densidade da variável aleatória X _∼ Gama(α,β) é:

fX(x) =

βα

Γ(α)x

α−1_e−βx_I

(0,∞)(x).

(15)

6

MX(t) = E(etX)

= Z _∞

0

etxfX(x)dx

= Z _∞

0

etx β

α

Γ(α)x

α−1_e−βx_dx

= Z _∞

0

βα

Γ(α)x

α−1_e−(β−t)x_dx

= Z ∞

0

βα

Γ(α)

(β−t)α

(β₋t)αx

α−1_e−(β−t)x_dx

= β

α

(β₋t)α

Z _∞

0

(β₋t)α

Γ(α) x

α−1_e−(β−t)x

| {z }

´

E a fun¸c˜ao densidade de

uma Gama (α, β₋t)

dx

= β

α

(β−t)α,

para todot < β.

Em particular a fun¸cão geradora de momento de uma variável aleatória X com distribui¸cãoχ2

(n) ´e:

MX(t) = 1 2

n/2

1 2 −t

n/2 =

1 1−2t

n/2

.

Defini¸cão 1.3 Uma variável aleatória X segue o modelo Normal com parâmetros

µ= 0 e σ2 _{= 1}_{, isto é ,} _X _∼_N_(0,₁₎ _{se sua fun¸cão densidade é dada por:}

fX(x) =

1 √

2πe

−x2

2 . (1.3)

Teorema 1.1 Seja X uma variável aleatória cont´ınua com fun¸cão de densidade de probabilidade f. Então, a variável aleatória Y = X2 tem fun¸cão de densidade de probabilidade dada por:

fY(y) =

1 2√y[f(

√_{y) +}_f(

−√y)].

Demonstra¸cão. A fun¸cão de distribui¸cão de Y =X2 _{é dada por:}

G(y) = P(Y _≤y)

= P(X2 _≤y)

= P(₋√y_≤x_≤√y)

(16)

ondeF é a fun¸cão de distribui¸cão de X.

Logo,

fY(y) = G′(y)

= f(√y)1 2y

−12 −f(−√y)

−1

2

y−12

= 1

2√yf(

√_{y) +} 1 2√yf(−

√_y)

= 1

2√y[f(

√_{y) +}_f(

−√y)].

Usando o teorema anterior, vamos mostrar que o quadrado de uma vari´avel

aleatória que tem distribui¸cãoN(0,1) é uma qui-quadrado com um grau de liberdade, isto é:

SeX _∼N(0,1), ent˜aoX2 _∼_χ2 (1)

De fato, seja X _∼N(0,1). A fun¸c˜ao de densidade de X ´e

fX(x) =

1 √

2πe −x2

2 .

Agora, pelo Teorema 1.1, temos que a v.a. Y =X2 _{tem fun¸c˜ao de densidade}

fY(y) =

1 2√y[f(

√_{y) +}_f(

−√y)].

Logo,

fY(y) =

1 2√y

1 √

2πe

−√2y2 +√1

2πe −(−√2y)2

= 1

2√y 2 √

2πe −y

2

= _√1 y

e−y2

√ 2π

= y

−1 2e−

y 2 √ 2π = 1 2 1 2 √ π y

−12e−

y 2 = 1 2 1 2

Γ 1₂y

1 2−1e−

1 2y.

(17)

8

Teorema 1.2 A soma de v.a.’s independentes, com distribui¸cão qui-quadrado, segue uma distribui¸cão qui-quadrado, cujo número de graus de liberdade é igual à soma do número de graus de liberdade das parcelas, i.e.,

Xi ∼χ2(ki) independentes , i= 1, ..., n⇒

n

X

i=1

Xi ∼χ2₍Pn i=1ki).

Demonstra¸c˜ao. Usando a fun¸c˜ao geradora de momentos, temos

Xi ∼χ2(ki) ⇒MXi(t) =

1 1−2t

ki

2

.

Assim,

M₍Pn

i=1Xi)(t) = E

etPni=1Xi

= E etX1+···+tXn

= E etX1_{· · ·}_etXn

= E etX1_{· · ·}_{E e}tXn

=

1 1−2t

k₁

2

· · ·

1 1−2t

kn

2

=

1 1₋2t

Pni=1ki 2

.

Portanto,

n

X

i=1

Xi ∼χ2₍Pn i=1ki).

Como vimos anteriormente, se uma variável aleatória tem distribui¸cão N(0,1), então o quadrado dela tem distribui¸cão χ2

(1). Agora, vejamos que se ξ1, ξ2, ..., ξn s˜ao

v.a.’s independentes e ξi ∼N(0,1), ∀i∈ {1, ..., n}, ent˜ao

X =

n

X

i=1

ξ2

i ∼χ2(n).

De fato, usando a Fun¸c˜ao Geradora de Momentos da ξ2

i, temos

Mξ2

i(t) =

1 1₋2t

1/2

(18)

Calculando MX(t), temos

MX(t) = E etX

= Eet(ξ2

1+ξ22+···+ξn2)

= Eetξ2 1

Eetξ2 2

· · ·Eetξ2

n

=

1 1−2t

1/2 1 1−2t

1/2

· · ·

1 1−2t

1/2

=

1 1−2t

n/2

.

Portanto, X _∼χ2 (n).

1.2 Estat´ıstica de Pearson

Nesta se¸cão, vamos mostrar que a estat´ıstica de Pearson(1900) converge em dis-tribui¸cão para uma variável aleatória com disdis-tribui¸cão qui-quadrado; este é o resultado

em que se baseia o teste qui-quadrado.

1.2.1 Experimentos multinomiais

Considere um experimento comcposs´ıveis resultados, cada um com probabilidade

pj > 0, j = 1, ..., c e c

X

j=1

pj = 1. Esse experimento ´e repetido n vezes de forma

independente e observamos as vari´aveis Xj, j = 1, ..., c, que correspondem ao n´umero

de ocorrˆencias de cada um dos poss´ıveis resultados dessas repeti¸c˜oes. Dizemos que vetor

aleatório X= (X1, ..., Xc) tem distribui¸cão multinomial, com fun¸cão de probabilidade

pX(k₁, ..., k_c) =

n! k1!· · ·kc!

pk1

1 · · ·pkcc,

com

c

X

j=1

pj = 1 e c

X

j=1

kj =n, kj ∈◆, 0≤kj ≤n.

Um resultado bastante comum relacionado a uma variável aleatória X, unidi-mensional com distribui¸cão N(µ, σ2_{) é o fato da varável} _Y ₌ _aX _{ter distribui¸cão}

N(aµ, a2_σ2_{) onde} _a _{é uma constante. No caso onde} _X _{é um vetor aleatório, temos}

(19)

10

usado no lema 1.1 e tamb´em no teorema 1.3

Suponha que X ´e um vetor aleat´orio c-dimensional tal que XT _{= (X}

1, ..., Xc),

com E(X) = µ onde µT = (µ1, ..., µc) e E(Xi) = µi é a média da i-ésima

compo-nente de X. A variˆancia de X ´e dada por Var(X) = σ2 tal que (σ2)T = (σ2

1, ..., σc2),

σ2

i = Var(Xi), isto é, σi2 é a variância da i-ésima componente de X. Portanto por

defini¸c˜ao de variˆancia, temos:

Var(Xi) = E[(Xi−µi)2] =E(Xi2)−µ2i. (1.4)

No caso multivariado vamos denotar σii ao inv´es de σ2i, a fim de se ajustar a

nota¸c˜ao de covariˆancia que veremos agora.

A covariância de duas variáveis Xi e Xj é definida por

Cov(Xi, Xj) =E[(Xi−µi)(Xj−µj)]. (1.5)

Em particular, se i = j, verificamos que covariância de uma variável com ela própria é simplesmente a variância da variável. Assim, não há realmente nenhuma necessidade de definir variância multivariada, separadamente, pois é um caso especial

de covariância. A covariância de Xi e Xj é usualmente denotada por σij como nos

referimos acima.

Desenvolvendo a equa¸c˜ao (1.5), teremos

Cov(Xi, Xj) = E[(Xi−µi)(Xj −µj)]

= E(XiXj −µjXi−µiXj+µiµj)

= E(XiXj)−µjE(Xi)−µiE(Xj) +µiµj

= E(XiXj)−µiµj

A matriz de covariância para cvariáveis é formada por c variâncias ec(c−1)/2 covariâncias, muitas vezes é conveniente apresentar essas quantidades em uma matriz

(c×c), denotada por Σ= (σij)c×c. Ent˜ao,

Σ= 

   

σ11 · · · σ1c

... ... ... σc1 · · · σcc



(20)

é chamada de Matriz de Covariância. Observe que os termos da diagonal principal são

os valores das variâncias e os termos fora da diagonal principal são as covariâncias tais queσij =σji. Desse modo a matrizΣé simétrica, e podemos ainda escrever:

Σ=E[(X₋µ)(X₋µ)T]

Defini¸cão 1.4 (Distribui¸cão Normal Multivariada) Se para todoz_∈❘c_,_zT_z₆₌₀_, a variável aleatória zT_η _{tem uma distribui¸cão normal, então o vetor} _η _{é dito ter uma} distribui¸cão normal em ❘c_.

Seja X_∼N(µ,Σ) e Y = (Y1, ..., Yc)T =BX, onde

B =     

b11 · · · b1c

... ... ... bc1 · · · bcc



   

´e uma matriz de ordemc_×c, e considere o vetorz= (z1, ..., zc)T, satisfazendozTz6= 0.

Temos que,

zTY=zTBX= (zTB)X= (BTz)TX. ou seja Y tem distribui¸c˜ao normal. E mais,

E(Y) = E(BX)

= E     

b11X1+· · ·+b1cXc

...

bc1X1+· · ·+bccXc

     =     

b11µ1+· · ·+b1cµc

...

bc1µ1+· · ·+bccµc

     =     

b11 · · · b1c

... ... ... bc1 · · · bcc

          µ1 ... µc     

(21)

12

e

Var(Y) = E[(Y₋E(Y))(Y₋E(Y))T]

= E[B(X₋µ)(B(X₋µ))T]

= E[B(X₋µ)(X₋µ)TBT]

= BE[(X₋µ)(X₋µ)T]BT

= BΣBT.

Portanto,

Y _∼N(Bµ, BΣBT). (1.6)

Lema 1.1 Seja X_∼N(0,Σ). Ent˜ao XT_X_∼_χ2

r se, e somente se, Σé uma proje¸cão de posto r, isto é, Σ2 =Σ.

Demonstra¸cão. Uma vez que Σ é simétrica, existe uma matriz ortogonal Q (isto é, QT_Q ₌ _{I) tal que} _D ₌ _QΣQT _{é uma matriz diagonal. Então se} _Σ2 ₌ _Σ _e _Σ _tem

postor, temos que

D2 = QΣQT2

= QΣQT QΣQT

= QΣ QTQΣQT = QΣIΣQT

= QΣ2QT

= QΣQT

= D

Logo, D2 ₌_{D, e} _D _{tem posto} _r _{se, e somente se,} _r _{elementos da diagonal de} _D

s˜ao iguais a 1 e o restante deles ´e igual a zero.

Seja Y=QX. Note que

YTY= (QX)T (QX) =XTQTQX=XTX.

(22)

Se dj denota o j-´esimo elemento da diagonal de D, a fun¸c˜ao caracter´ıstica de

YT_Y ₌X j

Y2j ´e

Y

j

(1−2idjt)−1/2, que ´e a fun¸c˜ao caracter´ıstica de χ2(r) se, e somente

se,r dos dj s˜ao iguais a 1 e o restante deles ´e igual a zero.

Um problema comum na teoria das grandes amostras é: dada uma sequência de vetores aleatórios, _{Xn}n≥1, com Xn

D

→ X, encontrar a distribui¸c˜ao limite de f(Xn)

para uma determinada fun¸c˜ao f(X). O teorema de Slutsky fornece uma poderosa t´ecnica para atacar este tipo de problema. Nesse trabalho apenas enunciaremos o

teorema de Slutsky, pois será usado na demonstra¸cão do teorema 1.5, sendo poss´ıvel encontrar sua demonstra¸cão em Ferguson(1996), página 41.

Teorema 1.3 (Teorema de Slutsky) a) Se Xn ∈❘c, Xn

D

→X e se f : ❘c _−→ _❘m _{é tal que} _P_(X _∈ _C(f_{)) = 1}_{, onde} _C(f₎ é o conjunto de continuidade de f, então f(Xn)

D

→f(X);

b) Se Xn D

→X e (Xn−Yn) P

→0, ent˜ao Yn D

→X;

c) Se Xn∈❘c, Yn∈❘m, Xn D

→X e Yn D

→k, ent˜ao

Xn

Yn

D

→

X k

.

O teorema 1.5 mostra em detalhes que a distribui¸c˜ao assint´otica da estat´ıstica de

Pearson(1900) converge em distribui¸c˜ao para umaχ2

(c−1), ondec´e o n´umero de

catego-rias em que a amostra est´a dividida. Al´em do teorema de Slutsky, um outro teorema

que será fortemente usado é o Teorema do Limite Central para variáveis aleatórias multivarida. Por se tratar de um resultado de grande importância não só no

teo-rema 1.5 mas em outros resultados ao longo do trabalho, enunciaremos e faremos sua demonstra¸c˜ao.

Teorema 1.4 (Teorema do Limite Central para Vari´aveis Multivariada) Sejam

X1,X2, ...vetores aleatórios i.i.d. com média µe matriz de covariância finita, Σ. En-tão, para Xn=

X1+X2+...+Xn

n , temos

√

n(Xn−µ)→D N(0,Σ)

(23)

14

Vejamos inicialmente que,

√

n(Xn−µ) =

1 √ n n X j=1

(Xj −µ).

De fato,

√

n(Xn−µ) = √n

Pn j=1Xj

n − nµ n ! = √ n n n X j=1

Xj −nµ

!

= √1 n

n

X

j=1

(Xj−µ)

Assim, temos

ϕ√

n(X_n₋_µ₎(t) = ϕ_√1

n

Pn

j=1(Xj−µ)(t)

= ϕPn

j=1(Xj−µ)

t √ n = n Y j=1

ϕX_j₋_µ

t √ n = ϕ t √ n n ,

onde ϕ(t) ´e a fun¸c˜ao caracter´ıstica de Xj −µ. Calculando ϕ(0) e ϕ′(0), obtemos

ϕ(0) = 1 e ϕ′_{(0) =} _{0, e}_ϕ′′₍_ε_{) =}₋_{Σ. como}_ε _→_{0, aplicando o teorema de Taylor,} ϕ√

n(X_n₋_µ₎(t) =

1 + 1

nt T Z 1 0 Z 1 0

vϕ′′(uvt/√n)dudvt

n

→ exp

lim

n→∞t

T

Z 1

0

Z 1

0

vϕ′′(uvt/√n)dudvt

= exp₋(1/2)tTΣt .

Nesta convergência estamos usando o fato que qualquer sequência de númerosan

tais que lim

n→∞nan existe, ent˜ao

(1 +an)n n−→→∞exp

lim

n→∞nan

.

No nosso caso,

an =

1 nt T Z 1 0 Z 1 0

vϕ′′(uvt/√n)dudvt.

Agora que fizemos todos esses resultados auxiliares, veremos no teorema a seguir que a estat´ıstica de Pearson (1900) converge em distribui¸c˜ao para uma qui-quadrada

(24)

Teorema 1.5 Seja η = (η1, ..., ηc) um vetor aleat´orio com distribui¸c˜ao multinomial. A estat´ıstica de Pearson, definida por

χ2 =

c

X

j=1

(ηj−npj)2

npj

,

em que pj =P(Xn =j), tem distribui¸c˜ao assint´otica χ2_(c₋₁₎.

Demonstra¸cão. Para encontrar a distribui¸cão assintótica de χ2 _quando _n _{→ ∞}_,

defina

Xm(j) =

  

 

1, se o resultado dom-´esimo experimento ´ej;

0, caso contr´ario.

Ent˜ao, os vetores aleat´orios X1 = (X1(1), ..., X1(c)),..., Xn = (Xn(1), ..., Xn(c))

s˜ao i.i.d. eηj =X1(j) +· · ·+Xn(j), j = 1, ..., c.

Note que E[Xm(j)] =pj e Var[Xm(j)] =pj(1−pj). De fato,

E[Xm(j)] = 1.P(Xm(j) = 1) + 0.P(Xm(j) = 0) =pj,

e

Var[Xm(j)] =E

(Xm(j))2

−(E[Xm(j)])2 =pj −p2j =pj(1−pj),

pois (Xm(j))2 =Xm(j).

Verifiquemos, ainda, que para o vetorX1 = (X1(1), ..., X1(c)), temos

Cov(X1(i), X1(j)) = E[(X1(i)−E[X1(i)])(X1(j)−E[X1(j)])]

= E[(X1(i)−pi)(X1(j)−pj)]

= E[X1(i)X1(j)−pjX1(i)−piX1(j) +pipj]

= E[X1(i)X1(j)]−pjE[X1(i)]−piE[X1(j)] +pipj

= E[X1(i)X1(j)]−pjpi−pipj +pipj

= E[X1(i)X1(j)]−pjpi

=   

 

pi−p2i, sei=j

−pipj, sei6=j

=   

 

pi(1−pi), se i=j

(25)

16

Como os vetores X1, ...,Xn s˜ao i.i.d, temos EX1 =p, com

p=      p1 ... pc      ,

e matriz de covariˆancia do vetorX1 ´eΣ= Cov(X1), com

Σ =        

Cov(X1(1), X1(1)) Cov(X1(1), X1(2)) · · · Cov(X1(1), X1(c))

Cov(X1(2), X1(1)) Cov(X1(2), X1(2)) · · · Cov(X1(2), X1(c))

... ... ...

Cov(X1(c), X1(1)) Cov(X1(c), X1(2)) · · · Cov(X1(c), X1(c))

        =        

p1(1−p1) −p1p2 · · · −p1pc

−p1p2 p2(1−p2) · · · −p2pc

... ... ...

−p1pc −p2pc · · · pc(1−pc)

        .

Podemos escrever a estat´ısticaχ2 _{da seguinte forma:}

χ2 =

c

X

j=1

(ηj −npj)2

npj =n c X j=1 _η_j n −pj

2

pj

.

Agora, observemos que

χ2 ₌_n(X

n−p)TP−1(Xn−p),

onde P =        

p1 0 · · · 0

0 p2 · · · 0

... ... ... ... 0 0 _{· · ·} pc

        . De fato,

(Xn−p) =

       

n1/n−p1

n2/n−p2

... nc/n−pc

       

, (Xn−p)T =

_n

1

n −p1 n2

n −p2 · · · nc

(26)

e

P−1 =        

1/p1 0 · · · 0

0 1/p2 · · · 0

... ... . .. ... 0 0 · · · 1/pc

        . Disso, temos

n(Xn−p)TP−1(Xn−p) =

=n n1 n −p1

n2

n −p2 · · · nc

n −pc        

1/p1 0 · · · 0

0 1/p2 · · · 0

... ... . .. ... 0 0 · · · 1/pc

               

n1/n−p1

n2/n−p2

... nc/n−pc

       

=n n1 n −p1

₁ p1

_n

2

n −p2 ₁

p2 · · ·

_n

c

n −pc ₁ pc        

n1/n−p1

n2/n−p2

... nc/n−pc

       

=nn1 n −p1

2 ₁

p1

+n2 n −p2

2 ₁

p2

+· · ·+nc n −pc

2 ₁ pc =n c X j=1

(nj/n−pj)2

pj

.

Portanto,

χ2 =n(Xn−p)TP−1(Xn−p).

Pelo Teorema do Limite Central para o caso multivariado, temos

√

n(Xn−p) D

−→Y,

onde Y _∼N(0,Σ) e X1,X2, ...,Xn são vetores aleatórios i.i.d. com média p e matriz

de covariˆancia Σ.

Assim, usando o teorema de Slutsky,

χ2 =n(Xn−p)TP−1(Xn−p) = √n(Xn−p)TP−1√n(Xn−p) D

−→YTP−1Y.

Devemos, agora, mostrar queYT_P−1

(27)

18

De fato, denotando

P−1/2 =        

1/√p1 0 · · · 0

0 1/√p2 · · · 0

... ... . .. ... 0 0 _{· · ·} 1/√pc

       

e fazendoZ=P−1/2Y, temos

ZTZ =P−1/2YT P−1/2Y =YTP−1/2P−1/2Y=YTP−1Y.

ComoY ∼N(0,Σ), temos,Z =P−1/2Y ∼N(0,P−1/2ΣP−1/2). Vamos mostrar que a matriz de covariância deZé uma proje¸cão, isto é, (P−1/2ΣP−1/2)2 ₌_P−1/2_Σ_P−1/2_.

Note que Σ=P ₋ppT. Disso, (P−1/2ΣP−1/2)2 ₌

= [P−1/2(P ₋ppT)P−1/2]2

= [P−1/2P P−1/2₋P−1/2ppTP−1/2]2

= [I₋P−1/2ppTP−1/2]2

=I₋P−1/2ppTP−1/2₋P−1/2ppTP−1/2+P−1/2p(pTP−1/2P−1/2p)pTP−1/2

=I₋P−1/2ppTP−1/2₋P−1/2ppTP−1/2+P−1/2p(pTP−1p)pTP−1/2.

Observe que pTP−1p= 1, pois

pTP−1p = p1 p2 · · · pc

       

1/p1 0 · · · 0

0 1/p2 · · · 0

... ... . .. ... 0 0 _{· · ·} 1/pc

                p1 p2 · · · pc        

= 1 1 _{· · ·} 1         p1 p2 · · · pc        

= p1+p2+· · ·+pc

(28)

Portanto,

(P−1/2ΣP−1/2)2 = I₋P−1/2ppTP−1/2 ₋P−1/2ppTP−1/2+P−1/2ppTP−1/2

= I₋P−1/2ppTP−1/2

= P−1/2ΣP−1/2. Logo, como ZT_Z₌_YT_P−1

Y, temos χ2 =√n(Xn−p)TP−1√n(Xn−p)

D

−→YTP−1Y ∼χ2_(c₋₁₎. Portanto, χ2 _∼_χ2

(c−1).

1.3 O Teste

χ

2

A id´eia do famoso teste de hip´otese qui-quadrado foi usada por K. Pearson em

1900, baseada na estat´ıstica de Pearson(1900)

χ2 =

c

X

j=1

(ηj−npj)2

npj

.

Na maioria dos casos de Inferência Estat´ıstica, o problema consiste em testar hipóteses sobre os parâmetros média e propor¸cão. Em geral, as formas das distribui¸cões

de probabilidade são conhecidas e o interesse é decidir quanto a aceitar ou rejeitar uma hipótese, sobre o verdadeiro valor do parâmetro. Mas existem também situa¸cões

práti-cas em que temos observa¸cões de uma variável aleatória cuja distribui¸cão da popula¸cão é desconhecida e o interesse agora é identificar o comportamento da variável com um

modelo teórico. Isto é, ter´ıamos um candidato a modelo e nosso problema seria esta-belecer um procedimento para aceitá-lo ou não. O modelo proposto pode ser testado

através do teste qui-quadrado, considerando uma amostra grande, pelo teorema 1.3 , a distribui¸cão deχ2 _{é aproximada pela qui-quadrada cujo grau de liberdade} _c₋_{1 onde}_c

é o número de categorias estabelecidas. A decisão se baseia no comportamento de χ2_.

Da seguinte forma:

1o

Enunciar a hip´otese Ho;

2o

Determinar o n´ıvel de significancia do teste, ou seja,

(29)

20

3o

Calcular as frequˆencias esperadas com base na hip´otese;

4o

Calcular o valor da estat´ıstica do teste;

5o

Com o aux´ılio da tabela do qui-quadrado encontar a regi˜ao cr´ıtica;

Conclus˜ao:

• Se χ2 _≥_q

c, então a hipótese H0 é rejeitada, ao passo que

• Se χ2 _{< q}

c ent˜ao aceito a hip´otese H0.

A figura a seguir ilustra geometricamente o resultado deste teste, em que RAé a região de aceita¸cão,RC é a região cr´ıtica e qc é o valor cr´ıtico encontrado na tabela

da distribui¸c˜ao qui-quadrado.

Figura 2

Vejamos um exemplo real, onde possamos utilizar o m´etodo.

Exemplo: Deseja-se estudar a tolerância de um equipamento eletrônico com re-la¸cão ao número de impactos termo-elétricos. Pelas caracter´ısticas de fabrica¸cão do

(30)

A decisão que precisamos tomar é aceitar ou rejeitar o modelo sugerido. Não

estamos testando o valor de um parâmetro, mas sim a adequa¸cão ou não de fun¸cão de probabilidade. Suponha que nossa amostra é composta de 80 equipamentos para serem

submetidos a sucessivos impactos termo-elétricos até a ocorrência da primeira falha. Dessa forma, 80 realiza¸cões da variável aleatória X serão denotadas por X1, ..., X80.

Dessa forma,Xi representa o número de impactos até a ocorrência de falha noi-ésimo

equipamento testado, i = 1,2, ...,80. Pretendemos verificar se o modelo Geométrico com p= 0,4, é adequado, então o teste será:

H0 : X ∼G(0,4) ;

Ha : X tem outra distribui¸c˜ao.

Considere as seguintes frequˆencias observadas:

Impactos 0 1 2 3 4 mais de 4

Freq. Obs. 30 26 10 5 5 4

SeH0 for verdadeiro, X segue o modelo Geom´etrico, cuja fun¸c˜ao de probabilidade

´e dada por:

p(x) =p(1₋p)x

Logo a frequˆencia esperada de resistˆencia a x impactos = npx, temos: fe= 80×

0,4_×0,6x_{. Fazendo os c´alculos, temos:}

fe(0) = 80×0,4×0,60 = 32

fe(1) = 80×0,4×0,61 = 19,2

fe(2) = 80×0,4×0,62 = 11,5

fe(3) = 80×0,4×0,63 = 6,9

fe(4) = 80×0,4×0,64 = 4,1

fe(x >4) = fe(5) +fe(6) +· · ·= 6,3

Impactos (x) 0 1 2 3 4 mais de 4

Freq. Obs. (fo) 30 26 10 5 5 4

(31)

22

Como a categoria correspondente ao valor 4 teve frequˆencia esperada igual a 4,1,

que é menor que 5, agregamos as duas últimas categorias formando a categoria dos maiores de 3, a qual terá a frequencia observada de 9 e esperada de 10,4.

Ent˜ao,

χ2 ₌ (30−32)2

32 +

(26₋19,2)2

19,2 +...+

(9₋10,4)2

10,4 = 3,44.

Escolhendo α = 0,05 e observando que ficamos com um total de 5 categorias, portanto 4 graus de liberdade, consultando a tabela da distribui¸c˜ao da qui-quadrado,

temosqc = 9,49. Como χ2 = 3,44<9,49, ent˜ao conclu´ımos que o modelo proposto ´e

(32)

Cap´ıtulo 2

Cadeias de Markov

Neste cap´ıtulo, vamos detalhar alguns resultados que est˜ao no artigo Statistical Methods In Markov Chains de Billingsley(1960). O artigo faz um apanhado dos

as-pectos matemáticos de Inferência Estat´ıstica e suas aplica¸cões em cadeias de Markov finita. O problema se resume a fazer inferência sobre as probabilidades de transi¸cão a

partir de uma observa¸c˜ao {x1, ..., xn} da cadeia. Nesse trabalho nos restringiremos a

analisar que a distribui¸c˜ao assint´otica de uma estat´ıstica semelhante a Pearson agora

numa observa¸cão de uma cadeia de Markov, também tem modelo qui-quadrado com (d₋s) gruas de liberdade. Um resultado que nos ajudará a encontrar essa estat´ıstica é visto no teorema 2.2, para isso será preciso resultados como o teorema 2.1 que garante em uma cadeia de Markov, estacionária, irredut´ıvel, aperiódica e com espa¸co de estados

finito o raio de convegência é geométrico. O resultado do lema 2.1 é importante para o entendimento do teorema 2.2, verificaremos entre outros resultados a Lei Fraca dos

Grandes Números para cadeias de Markov que é um resultado de grande importância para a demonstra¸cão do teorema 2.2.

2.1 Processos Estoc´

asticos e Cadeias de Markov

Um processo estocástico é uma sequência de variáveis aleatórias {Xt, t ∈ T},

definidas sobre um mesmo espa¸co de probabilidade (Ω,_F, P). Assim, para cadaw_∈Ω fixo, a fun¸cão Xt(w) na variável t, denotada por {Xt(w), t ∈ T}, é chamada uma

(33)

24

se o conjunto de ´ındicesT for enumerável, e um processo a tempo cont´ınuo, seT for não enumerável. Um processo de Markov é um processo estocástico cujo comportamento dinâmico é tal que as distribui¸cões de probabilidade para o seu desenvolvimento futuro

depende somente do estado presente, n˜ao levando em considera¸c˜ao como o processo chegou a tal estado.

Defini¸cão 2.1 O conjuntoS de todos os valores assumidos por um processo é chamado espa¸co de estados do processo. Se S é enumerável, dizemos que o processo é uma Cadeia. Se S é não enumerável dizemos que o processo tem espa¸co de estados geral.

Defini¸c˜ao 2.2 Um processo estoc´astico _{Xt, t = 0,1,2, . . .} com espa¸co de estado

S=_{1,2, ..., s_}´e uma Cadeia de Markov se satisfaz a propriedade de Markov dada por

P (Xn=in|Xn−1 =in−1, . . . , X0 =i0) = P (Xn=in|Xn−1 =in−1), (2.1) para todon ∈◆ e para todo i∈S ={1,2, ..., s}.

Defini¸cão 2.3 Uma cadeia de Markov é dita homogênea ou estacionária no tempo se a probabilidade de ir de um estado a outro independe do tempo em que o passo é dado. Isto é, para quaisquer estados i, j _∈S, temos:

P (Xn=j|Xn−1 =i) =P (Xn+k =j |Xn+k−1 =i), (2.2) para k =₋(n₋1),₋(n₋2), . . . ,₋1,0,1,2, . . ..

Denotamos por pij a probabilidade de transi¸c˜ao do estado i para o estadoj em

um passo, ou seja, P (Xn =j |Xn−1 =i), n = 1,2, . . .. Assim, a probabilidade de

no tempo n estarmos no estado j sabendo que no tempo n ₋1 estamos no estado i é dada por P (Xn =j |Xn−1 =i) = Pij(n−1,n). Caso a cadeia seja estacionária, então

P_ij(n−1,n) = P_ij(n+k−1,n+k), para todo k = ₋(n₋1),₋(n ₋2), . . . ,₋1,0,1, . . . . A essas probabilidades condicionais denominamos de probabilidades de transi¸c˜ao da cadeia.

Considerando, agora, {Xn}n≥1 uma Cadeia de Markov com espa¸co de estados

S = _{1,2, . . . , s_}. Para essa cadeia existem s2 _{probabilidades de transi¸c˜ao} _{_p ij},

(34)

irmos de um estado iao estado j em um passo.

P= 

      

p11 p12 · · · p1s

p21 p22 · · · p2s

... ... ... ... ps1 ps2 · · · pss



      

Observe que na matriz de transi¸cão todas as entradas são não-negativas, visto que são probabilidades; e a soma de cada uma das linhas é sempre igual a um.

Defini¸cão 2.4 Uma cadeia de Markov com matriz de transi¸cão P = (pij)i,j∈S é dita ser ergódica se, para todo j ∈S, existe

lim

n→∞p

(n) ij =pj independente do i∈S, e

X

j∈S

pj = 1.

Defini¸cão 2.5 Uma distribui¸cão _{pj, j ≥0} é estacionária para a cadeia de Markov com matriz de transi¸cão P = (pij)i,j∈S e S={1,2, ..., s}, se:

s

X

i=1

pipij =pj,∀j.

Defini¸cão 2.6 Uma cadeia de Markov com matriz de transi¸cão P = (pij)i,j∈S é dita ser irredut´ıvel se todos os estados se comunicam, isto é, quaisquer que sejam i, j ∈ S

existen ∈◆ tal que p(n)_ij >0 e existe k ∈◆ tal que p(k)_ji >0.

Defini¸cão 2.7 O per´ıodo de um estado qualquer i_∈S é dado pelo número

d(i) =mdc_{n_≥1_|p(n)_ii >0_}.

E quando d(i) = 1 dizemos que i ´e aperi´odico.

Defini¸cão 2.8 Uma cadeia de Markov com matriz de transi¸cão P = (pij)i,j∈S onde todos os estados são aperiódicos é dita ser aperiódica.

No restante do trabalho nos referiremos sempre a Cadeia de Markov com espa¸co

de estados finito, aperiódica e irredut´ıvel. Um resultado importante sobre cadeia de Markov, que será usado no lema 2.1 da se¸cão 2.2, será demonstrado na segunda parte do

(35)

26

Teorema 2.1 Uma cadeia de Markov homogênea_{Xn}n≥0 irredut´ıvel e aperiódica com espa¸co de estados finito é ergódica. Além do mais, o raio de convergência é geométrico, no sentido de que existem γ >0 e 0< ρ < 1 tais que

|p(n)_ij ₋pj| ≤γρn.

Demonstra¸c˜ao. A ergodicidade de {Xn}n≥0 segue como consequˆencia dos teoremas

2.7, 2.8 de Kijima (1997).

Agora, suponha que pij ≥ δ > 0, quaisquer que sejam i, j ∈ S. Sejam Mjn =

sup

i

p(n)_ij emn

j = inf_i p (n)

ij . Observe quemnj ≤p (n)

ij ≤Mjn. Usando a equa¸c˜ao de

Chapman-Kolmogorov, temos

p(n+1)_ij =X

l∈S

pilp(n)_lj ≤

X

l∈S

pilMjn=Mjn

X

l∈S

p(n)_il =M_jn _⇒M_jn+1 = sup

i

p(n+1)_ij _≤M_jn,

ou seja,

M_jn+1 _≤M_jn.

De modo an´alogo, temos

mn+1_j = inf

i p (n+1) ij = inf_i

X

l∈S

pilp(n)lj ≥inf_i

X

l∈S

pilmnj =mnj,

ou seja,

mn+1_j ≥mn_j.

Como (mn

j) ´e mon´otona e limitada inferiormente, temos mnj ↑pj = lim n→∞p

(n) ij , para

todoi.

Vamos mostrar que existe ρ >0 tal que_|Mn

j −mnj| ≤ρn.

De fato,

M_jn+1₋mn+1_j = sup

i,k

p(n+1)_ij ₋p(n+1)_kj

= sup

i,k

X

l∈S

pilp(n)_lj −

X

l∈S

pklp(n)_lj

!

= sup

i,k

X

l∈S

(pil−pkl)p(n)lj

!

(36)

Defina

(pil−pkl)+ =

  

 

pil−pkl, sepil > pkl

0, sepil ≤pkl.

e

(pil−pkl)− =

  

 

pil−pkl, sepil < pkl

0, sepil ≥pkl.

Como

0 = X

l∈S

(pil−pkl) =

X

l∈S

(pil−pkl)+−

X

l∈S

(pil−pkl)−,

temos

X

l∈S

(pil−pkl)+ =

X

l∈S

(pil−pkl)−.

Disso,

M_jn+1₋mn+1_j = sup

i,k

( X

l∈S

(pil−pkl)+−

X

l∈S

(pil−pkl)−

!

p(n)_lj )

≤ sup

i,k

X

l∈S

M_jn(pil−pkl)+−

X

l∈S

mn_j(pil−pkl)−

!

= sup

i,k

X

l∈S

(pil−pkl)+(Mjn−mnj)

!

.

Por hip´otese, temos pkl≥δ >0. Logo,

−pkl ≤ −δ⇒pil−pkl≤pil−δ.

Da mesma forma

pil ≥δ >0⇒pil−δ ≥0.

Assim,

(pil−pkl)+=pil−pkl ⇒(pil−pkl)+≤pil−δ

e

(pil−pkl)+ = 0⇒(pil−pkl)+ ≤pil−δ.

Logo,

M_jn+1₋mn+1_j _≤ sup

i,k

X

l∈S

(pil−δ)(Mjn−mnj)

!

≤ sup

i,k

(1₋sδ)(M_jn₋mn_j)

= (1₋sδ)(M_jn₋mn_j)

(37)

28

em queρ= 1₋sδ. Assim, continuando com esse procedimento, temos

|Mn

j −mnj| ≤ρn.

Note que p(n)_ij _≤Mn

j e mnj ≤πj implicam p(n)ij −πj ≤Mjn−mnj. Logo,

|p(n)_ij ₋pj| ≤ |Mjn−mnj| ≤ρn.

Sendo a cadeia ´e irredut´ıvel e aperi´odica, existe n0 ≥ 1 tal que p(nij0) ≥ δ > 0.

Podemos fazer

Pn =Pk0_P[n/n0]n0 ₌_Pk0+mn0_,

ondeP ´e a matriz de transi¸c˜ao da cadeia em=

n n0

. Logo,

|p(n)_ij ₋pj| =

p

(k0+mn0)

ij −pj

=

X

l∈S

p(k0)

il (p (mn0)

lj −pj)

= pm_lj −p_j

≤ ρm

= ρ(n−k0)/n0

= ρ−k0/n0_ρn/n0

= ρ−k0/n0 _ρ1/n0n_.

Portanto, existem γ >0 e 0< ρ <1 tais que

|p(n)_ij ₋pj| ≤γρn.

2.2 Resultados em Cadeia de Markov Erg´

odica e

Estacion´

aria

Alguns resultados sobre convergência, válidos em cadeias de Markov, serão

apre-sentados nesta se¸c˜ao. Denotaremos por fi e fij, respectivamente, o n´umero de vezes

(38)

Lema 2.1 Seja _{Xn}n≥1 uma cadeia de Markov estacion´aria e erg´odica e seja ξ =

(ξ1, ..., ξs) o vetor aleat´orio com componentes

ξi =

fi −npi

√ n .

Ent˜ao ₍

E(ξi) = 0

E(ξiξj) =αij +O _n1

,

onde αij = δijpi−pipj +pi

∞ X

k=1

(p(k)_ij −pj) +pj

∞ X

k=1

(p(k)_ji −pi) e lim n→∞

O _n1

1/n = c, com c

constante. Alem disso, vale a lei fraca dos grandes n´umeros para cadeias de Markov:

fi

n

P

−→pi.

Demonstra¸cão. O número de vezes que a cadeia saiu de ié

fi = n

X

m=1

I[Xm=i].

Ent˜ao

E(fi) = E(I[X1=i]) +· · ·+E(I[Xn=i])

= P(X1 =i) +· · ·+P(Xn =i)

= npi,

pois a cadeia é estacionária, isto é,P(Xm =i) =pi, ∀m= 1, ..., n.

Assim, para todo i_∈S, temos

E(ξi) = E

fi−npi

√ n

= √1

nE(fi−npi)

= E(fi)√−E(npi) n = npi√−npi

(39)

30

Agora, vamos calcular E(ξiξj).

E(ξiξj) = E

fi−npi

√ n

fj −npj

√ n

= 1

nE " _n

X

l=1

I(Xl=i)−npi

! _n X

m=1

I(Xm=j)−npj

!# = 1 nE " _n X l=1

(I(Xl=i)−pi)

n

X

m=1

(I(Xm=j)−pj)

# = 1 nE " _n X m=1 n X l=1

(I(Xl=i)−pi)(I(Xm=j)−pj)

# = 1 n n X m=1 n X l=1

E(I(Xl=i)−pi)(I(Xm=j)−pj)

.

Calculemos E(I(Xl=i)−pi)(I(Xm=j)−pj)

para os casos em que l < m, m < l e m=l.

Caso I (l < m):

= E(I(Xl=i)I(Xm=j)−pjI(Xl=i)−piI(Xm=j)+pipj)

= E(I(Xl=i)I(Xm=j))−pjE(I(Xl=i))−piE(I(Xm=j)) +pipj

= E(I(Xl=i,Xm=j))−pjE(I(Xl=i))−piE(I(Xm=j)) +pipj

= P(Xl =i, Xm =j)−pipj −pipj +pipj

= P(Xl =i, Xm =j)−pipj

= P(Xm =j|Xl=i)P(Xl=i)−pipj

∗

= P(Xm−l+1 =j|X1 =i)P(Xl =i)−pipj

= p(_ijm−l)pi−pipj.

* pois a cadeia tem probabilidade de transi¸c˜ao estacion´aria.

Caso II (m =l):

= P(Xm =i, Xm =j)−pipj

=     

P(Xm =i), se i=j

P(∅), se i6=j 

−p_ip_j

(40)

em que

δij =

 



1, se i=j 0, se i₆=j .

Caso III (l > m):

= P(Xl =i|Xm =j)P(Xm =j)−pipj

= p(l_ji−m)pj −pipj.

Ent˜ao, podemos escrever

= P(Xl=i|Xm =j)−pipj

=         

p(m_ij −l)pi−pipj, sem > l;

δijpi −pipj, sem =l;

p(l_ji−m)pj −pipj, sem < l.

. Assim, n X m=1 n X l=1

=

=n(δijpi −pipj)

| {z }

m=l

+ (n₋1)(pjp(1)ji −pipj) + (n−2)(pjp(2)ji −pipj) +· · ·+ 1(pjpji(n−1)−pipj)

| {z }

m<l

+ (n₋1)(pip(1)ij −pipj) + (n−2)(pip(2)ij −pipj) +· · ·+ 1(pipij(n−1)−pipj)

| {z }

m>l

.

Ent˜ao,

E(ξiξj) =

1 n      

n(δijpi−pipj) + n−1

X

k=1

(n−k)(pip(k)ij −pipj)

| {z }

m>l

+

n−1

X

k=1

(n−k)(pjp(k)ji −pipj)

| {z }

m<l      

= (δijpi−pipj) +n−1 n−1

X

k=1

(n₋k)(pip(k)ij −pipj)

| {z }

(I)

+n−1

n−1

X

k=1

(n₋k)(pjp(k)ji −pipj)

| {z }

(II)

.

Vejamos que (I) difere da parcela pi

∞ X

k=1

(p(k)_ij ₋pj) de αij pela quantidade

pi

∞ X

k=n

(p(k)_ij −pj) +n−1pi n−1

X

k=1

(41)

32 De fato, pi ∞ X k=1

(p(k)_ij −pj)−n−1 n−1

X

k=1

(n−k)(pip(k)ij −pipj) =

=pi

∞ X

k=1

(p(k)_ij −pj)−pi n−1

X

k=1

X

k=1

k(p(k)_ij −pj)

=pi

∞ X

k=n

X

k=1

k(p(k)_ij −pj).

Pelo teorema 2.1,

|p(k)_ij −pj|< γρk, 0< ρ <1⇒

∞ X

k=1

|p(k)_ij −pj| ≤

∞ X

k=1

γρk

| {z }

s´erie geom.

0<ρ<1

.

Logo, ∞ X

k=1

|p(k)_ij −pj| converge , isto ´e,

∞ X

k=1

(p(k)_ij −pj) ´e uma s´erie absolutamente

convergente.

Da mesma maneira,

∞ X

k=1

|k(p(k)_ij ₋pj)| ≤

∞ X

k=1

kγρk_,

que ´e convergente. De fato, pelo teste da raz˜ao,

(k+ 1)ρk+1

kρk =

1 + 1

k

ρ→ρ <1, quando k → ∞.

Logo, ∞ X

k=1

k(p(k)_ij ₋pj) tamb´em ´e absolutamente convergente.

Consequentemente,

pi

∞ X

k=n

(p(k)_ij ₋pj)

| {z }

tende a 0 quandon→∞

+n−1pi n−1

X

k=1

k(p(k)_ij ₋pj)

| {z }

converge quandon→∞

=O 1 n .

Analogamente, (II) difere da parcela pj

∞ X

k=1

(p(k)_ji ₋pi) de αij por uma quantidade

O _n1. Portanto, E(ξiξj) =αij +O _n1

(42)

Agora, vamos mostrar que vale a lei fraca dos grandes n´umeros.

SeX é uma variável aleatória qualquer. Então, para quaisquer t, k >0, temos

P(_|X_{| ≥}t)_≤ E(|X|

k₎

tk ,

conhecida como desigualdade de Markov. Assim,usando a desigualdade acima

P fi

n −pi ≥ε ≤ E fi

n −pi

2

ε2 =

Eh fi

n −pi

2i

ε2 =

E(fi−npi)2

n2_ε2

=

1 nE

(fi−npi)2

1 nn2ε2

=

Efi−_√npi

n

2

nε2 =

E(ξi)2

nε2

= αii+O(1/n) nε2 =

αii

nε2 +

O(1/n) nε2

= αii nε2 |{z} ↓ 0 +O(1/n)1/n (1/n)nε2

| {z }

↓ 0 Portanto, fi n P

−→pi.

Teorema 2.2 Seja {Xn}n≥1 uma cadeia de Markov estacionária e ergódica, a dis-tribui¸cão do vetor estacionários2_{-dimensional com componentes}

ξij =

fij −fipij

f_i1/2 ,

converge quando n → ∞ para uma distribui¸c˜ao normal com matriz de covariˆancia

λij,kl=δik(δjlpij −pijpil).

Demonstra¸c˜ao. O processo {Xn}n≥1 pode ser gerado da seguinte forma: considere

uma cole¸c˜ao independente de v.a.’s X1 e Win, (i = 1, ..., s e n = 1,2, ...), tais que

(43)

34

descrito abaixo.

W11, W12, · · · , W1n, · · ·

W21, W22, · · · , W2n, · · ·

· · · · Ws1, Ws2, · · · , Wsn, · · ·

.

A constru¸cão do processo é feita da seguinte maneira: SeX1 =i, então a primeira

variável da linhaié, por defini¸cão, o valor deX2. SeX2 =j, então a primeira variável

daj-ésima linha será o valor de X3, a menos que i=j, neste caso, X3 será a segunda

variável da j-ésima linha, e assim sucessivamente. De maneira formal, podemos es-crever X2 = WX11, e se X1, X2, ..., Xn já estão definidos, então Xn+1 = WXnm, onde

(m−1) ´e o n´umero de ´ındices l, 1 ≤l < n, tais que Xl=Xn.

Por defini¸c˜ao,

{Xk=ak, 1≤k ≤n+ 1}=

X1 =a1, Wak−1mk =ak, 2≤k ≤n+ 1 ,

onde (mk−1) é o número de elementos em{a1, ..., ak−1}que são iguais a ak. Como as

variáveis envolvidas são todas independentes, então

P(X1 =a1, X2 =a2, ..., Xn+1 =an+1) =

=P(X1 =a1, Wa1m2 =a2, Wa2m3 =a3, ..., Wanmn+1 =an+1)

=P(X1 =a1)P(Wa1m2 =a2)· · ·P(Wanmn+1 =an+1)

=pa1.pa1a2.pa2a3· · ·panan+1.

Note que

fij = fi

X

m=1

I[Wim=j].

Assim, (fi1, fi2, ..., fis) ´e a contagem da frequˆencia de{Wi1, Wi2, ..., Wifi}, ou seja,

fij ´e o n´umero de vezes que na amostra {Wi1, Wi2, ..., Wifi} a cadeia saiu de i para j,

1_≤j _≤s.

Pelo lema 2.1, vimos que fi n

P

−→pi, isto ´e, fi est´a perto denpi com probabilidade

alta. ´E natural comparar (fi1, fi2, ..., fis) com a contagem de frequˆencia (gi1, gi2, ..., gis)

(44)

nesta amostra. Da independˆencia do vetor (Win) e do teorema central do limite para

processos multinomiais, segue que ass2 _v.a.’s

gij −[npi]pij

(npi)1/2

s˜ao assintoticamente normal distribu´ıdas, com matriz de covariˆancia

λij,kl =δik(δjlpij −pijpil).

Então, o vetor de variável aleatória η= (ηij), com compontentes

ηij =

fij −fipij

(npi)1/2

ter´a essa mesma distribui¸c˜ao limite se mostrarmos que para cada i e para cada j a diferen¸ca

gij−[npi]pij

(npi)1/2 −

fij −fipij

(npi)1/2 P

−→0.

Defina

em =

  

 

1₋pij, se Wim =j;

−pij, se Wim 6=j

e

Sm =e1+· · ·+em.

Assim,

Sfi = e1+· · ·+efi

= (1₋pij) fi

X

m=1

I[Wim=j]

!

−pij fi

X

m=1

I[Wim6=j]

!

= (1−pij) fi

X

m=1

I[Wim=j]

!

−pij fi− fi

X

m=1

I[Wim=j]

!

= (1−pij)fij −pij(fi−fij)

= fij −pijfij −pijfi+pijfij

(45)

36

e

S[npi] = e1+· · ·+e[npi]

= (1₋pij)





[npi]

X

m=1

I[wim=j]



−pij



[npi]− [npi]

X

m=1

I[wim=j]





= (1₋pij)gij −pij([npi]−gij)

= gij −pijgij −pijfi+pijgij

= gij −pij[npi].

Ent˜ao,

gij −[npi]pij

n1/2 −

fij −fipij

n1/2 =

S[npi]

n1/2 −

Sfi

n1/2 =

S[npi]−Sfi

n1/2 .

Pelo lema 2.1, temos fi n

P

−→pi, isto ´e, para todoε >0, existe n0 ∈◆tal que

n≥n0 ⇒P |fi−[npi]|> nε3

< ε.

Podemos escrever

|S[npi]−Sfi|

n1/2 > ε

=

|S[npi]−Sfi|

n1/2 > ε

∩h{|fi−[npi]|> nε3} ∪ {|fi−[npi]| ≤nε3}

i

=

|S[npi]−Sfi|

n1/2 >ε

∩{|fi−[npi]|> nε3}

∪

|S[npi]−Sfi|

n1/2 >ε

∩{|fi−[npi]|≤nε3}

.

Se_{Xn:n≥1}é uma sequência de variáveis aleatórias independentes com média

zero e variˆancia finita. Ent˜ao, para todoλ >0 e com Sk =X1+· · ·+Xk temos,

P

max

1≤k≤n|Sk| ≥λ

≤ V ar(Sn) λ2 .

(46)

P

|S[npi]−Sfi|

n1/2 > ε

=

=P

|S[npi]−Sfi|

n1/2 > ε,|fi−[npi]|> nε 3

+P

|S[npi]−Sfi|

n1/2 > ε,|fi−[npi]| ≤nε 3

≤P (|fi−[npi]|> nε3) +P

|S[npi]−Sfi|

n1/2 > ε,|fi−[npi]| ≤nε 3

≤P (|fi−[npi]|> nε3) +P

max |m−[npi]|≤nε3

|S[npi]−Sm|> εn

1/2

≤ε+ 2P

max

1≤m≤nε3

|Sm|>

εn1/2

2

≤ε+ 2Var(Snε3)

nε2_/4 (pela desigualdade de Kolmogorov)

=ε+ 2 4

nε2Var(Snε3).

Mas

Var(Snε3) = nε3Var(e_m) =nε3p_ij(1−p_ij),

pois

E(em) = (1−pij)P(Wim =j)−pijP(Wim6=j) = (1−pij)pij−pij(1−pij) = 0

e

E(e2_m) = (1−pij)2pij +p2ij(1−pij) =pij −p2ij

implicam

Var(em) =pij(1−pij).

Logo

P

|S[npi]−Sfi|

n1/2 > ε

≤ε+ 2 4 nε2nε

3_p

ij(1−pij) = ε(1 + 8pij(1−pij)).

Como ε >0 foi qualquer, temos

S[npi]−Sfi

n1/2

P

(47)

38

Logo, pelo teorema de Slutsky, temos

gij −[npi]pij

(npi)1/2 −

gij−[npi]pij

(npi)1/2 −

fij −fipij

(npi)1/2

D

−→Y,

ondeY tem distribui¸c˜ao normal. Portanto, ηij =

fij −fipij

(npi)1/2

, converge em distribui¸c˜ao para uma normal.

Agora, observe que:

ηij

ξij

=

fij−fipij

(npi)1/2

fij−fipij

f_i1/2

= f

1/2 i

(npi)1/2

=

fi

n 1/2

1 p1/2_i

P

−→p1/2_i 1 p1/2_i = 1,

quandon _{→ ∞}. Portanto,

ηij

ξij P

−→1.

Usando novamente o teorema de Slutsky, temos

ξij =

ηij

ηij/ξij D

−→Y,

ondeY tem distribui¸c˜ao normal.

Com isso, e da teoria b´asica de qui-quadrado, cada estat´ıstica

X

j

(fij−fipij)2

fipij

, i= 1, ..., s, (2.3)

tem distribui¸cão assintótica qui-quadrado. A soma em (2.3) deve ser restrita aos ´ındices j tais que pij > 0; se tivermos di desses pij’s, então o número de graus de liberdade

da distribui¸cão limite é di − 1. Além disso, as s estat´ısticas são assintoticamente

independentes, de modo que a soma

X

ij

(fij −fipij)2

fipij

,

tem distribui¸c˜ao assint´otica qui-quadrado comd−sgraus de liberdade, onded=X

i

di

´e o n´umero de elementos positivos da matriz (pij). A estat´ıstica (2.3), considerada

primeiro por Bartlett (1951), fornece a medida de melhor ajuste da amostra com as

(48)

Referˆ

encias Bibliogr´

aficas

BARTLETT, M. S.The frequency goodness of fit test for probability chains.Proc. Comb. Phil. Soc, Vol. 47 (1951), pp. 86₋95 (MR. 12.512).

BOLFARINE, Heleno.; SANDOVAL, M.C.Introdu¸cão À Inferência Estat´ıstica, SBM. BREIMAN, Leo.Statistics: With a View Toward ApplicationsHougthton Mifflin

Company.

COCHRAN, W. G.The χ2 _{test of goodness of fit. The Annals of Mathematical}

Statis-tics, Vol. 23, No. 3 (Sep., 1952), pp. 315₋345.

CHUNG, Kai Lai. A Course in Probability Theory.2.ed. [S.L], Academic Press, 1974. CRAM´ER,Harald.Mathematical Methods Of Statistics.1.ed.Princenton University Press,

1946

FERGUSON,Thomas S.A Course In Large Sample Theory.1.ed.Chapman & Hall,

London,1996

GON ¸CALVES, Cristina Faria F.,Estat´ısticaed. UEL, 2002

GRENNWOOD,Priscilla E.; NIKULIN,Mikhail S.A Guides To Chi-Squared Testing. John Wiley & Sons, Inc.

JAMES, Barry R. Probabilidade: Um curso intermedi´ario. 3. ed. Rio de Janeiro: IMPA, 2004.

(49)

40

KOEHLER, K. J.; LARNTZ, K. An Empirical Investigation of Goodness-of-Fit Statistics for Sparse Multinomials. Journal of the American Statistical Associa-tion, Vol. 75, No. 370 (Jun., 1980), pp. 336₋344.

MAGALH ÃES, M. Nascimento. Probabilidade e Variáveis aleatórias. São Paulo: IME-USP, 2004.

MAGALH ˜AES, Marcos N.; LIMA, Antonio C. Pedroso de.;No¸c˜oes De Probabilidade E Estat´ıstica 6.ed. Edusp, 2007.

MOOD, Alexander M.; GRAYBIIL, Franklin A.;BOES,Duane C. Introduction To The Theory Of Statistics. 3.ed. International Student edition, 1913.

PAUL, L., Probabilidade Aplica¸c˜oes `A Estat´ıstica2. ed.LTC,1983

PEARSON,K.(1900),On the Criterion That a Given System of Variables Is Such That It Can Be Reasonably Supposed to Have Arisen From Random Sam-pling. Philosophical Magazine , 1901. 50, 157-175.

ROSSI, S. M. Stochastic Processes.New York: John Wiley and Sons, 1983.

SERFLING, Robert J.Approximation Theorems of Mathematical Statistics.Wiley Interscience, 2002.