• Nenhum resultado encontrado

Métodos estatisticos em cadeias de Markov

N/A
N/A
Protected

Academic year: 2017

Share "Métodos estatisticos em cadeias de Markov"

Copied!
49
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIˆENCIAS EXATAS E DA TERRA

PROGRAMA DE P ´OS-GRADUA ¸C ˜AO EM MATEM ´ATICA APLICADA E ESTAT´ISTICA

HELENICE LOPES BARBOSA

ETODOS ESTAT´ISTICOS EM

CADEIAS DE MARKOV

NATAL - RN

(2)

M´ETODOS ESTAT´ISTICOS EM CADEIAS DE MARKOV

Disserta¸c˜ao apresentada ao Programa de P´os-Gradua¸c˜ao em Matem´atica Aplicada e Estat´ıstica - PPGMAE, da

Universidade Federal do Rio Grande do Norte, como requisito parcial para obten¸c˜ao do t´ıtulo de Mestre em

Matem´atica Aplicada e Estat´ıstica.

Orientadora: Prof. Dra. Viviane Simioli Medeiros

Cam-pos.

NATAL - RN

(3)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIˆENCIAS EXATAS E DA TERRA

PROGRAMA DE P ´OS-GRADUA ¸C ˜AO EM MATEM ´ATICA APLICADA E ESTAT´ISTICA

HELENICE LOPES BARBOSA

M´ETODOS ESTAT´ISTICOS EM CADEIAS DE MARKOV

Comiss˜ao Examinadora:

Profa. Dra. Viviane Simioli Medeiros Campos (DM - UFRN - Orientadora)

Prof◦. Dr◦. Jaques Silveira Lopes(Universidade Federal de Vi¸cosa -UFV) Prof◦. Dr. Andr´e Gustavo Campos Pereira (PPGMAE/UFRN)

(4)

Agradecimentos

Agrade¸co ao meu maravilhoso Deus, que cuidou de mim em todo o tempo. O Deus que faz como quer, mas que tem para n´os muito mais do que pedimos ou pensamos

e que sem Ele nada disso poderia ser poss´ıvel;

Aos meus pais, que me incentivaram a estudar e investiram em mim;

A minha irm˜a Maria Jos´e, que tem sido muito mais m˜ae do que irm˜a;

A minha m˜aemiga, Socorro Santos de Macedo que tanto me ajudou com suas

ora¸c˜oes e com suas palavras tamb´em;

A amiga Juciara, que me incentivou e sempre me deu palavras de otimismo;

Ao colega Marconio, que se tornou um amigo especial. Sua ajuda foi fundamental ao digitar comigo a disserta¸c˜ao, que Deus possa aben¸coa-lo grandemente;

Ao amigo de trabalho, Nonato, que de forma sempre prestativa me ajudou quando meu computador deu problemas;

A amiga Jackelya que tanto me ajudou. Posso dizer que ela foi um anjo que Deus colocou em minha vida;

Aos colegas do curso de Probabilidade. Foram dias de estudos ´arduos mas ex-tremamente alegres;

Ao funcion´ario Cesar, da biblioteca setorial , que de forma sempre atenciosa e prestativa me ajudava nas pesquisas por livros e bibliografias;

A amiga Let´ıcia, que mesmo de longe sempre esteve torcendo por mim;

Ao amigo Alb´erico que me ajudou muito. Nessa reta final ele foi uma providˆencia

de Deus ao me ajudar na escola;

(5)

dificuldades tamb´em. Obrigada pelas suas ora¸c˜oes;

Ao amigo Helio Meira de Morais, funcion´ario do departamento de matem´atica, pela sua forma prestativa, sempre disposto a me ajudar;

A professora Mirtes de Carvalho Varela, diretora da escola em que trabalho, sua ajuda foi de fundamental importancia para realiza¸c˜ao desse trabalho;

As coordenadoras do vespertino, Lucia, Marcia, Ariadna e Gra¸ca Leite que sempre me apoiaram muito;

A amiga e coordenadora do noturno, Socorro Silva, que carinhosamente ´e chamada de minha santinha. Sem a sua ajuda na escola tudo teria sido bem mais dificil;

Aos meus amigos e colegas professores da Escola Estadual Berilo Wanderley que me deram for¸ca em todo o tempo;

A professora Dione que t˜ao pacientemente me ensinou muito em suas brilhantes aulas de inferˆencia com tanta simplicidade ao ministr´a-las. E tamb´em por todas as

suas sugest˜oes na minha qualifica¸c˜ao;

Ao professor Benedito V. Tadeu que me deixou grandes ensinamentos;

Ao professor Rub´ens Le˜ao, que me ensinou al´em de matem´atica, que ´e poss´ıvel ser um excelente matem´atico e mesmo assim ser simples;

Ao professor Dami˜ao que me ajudou muito com suas dicas de livros;

Ao professor Paulo Roberto, que t˜ao gentilmente me atendeu e esclareceu algumas

d´uvidas de estat´ıtica;

Ao professor Jaques, pelas suas palavras sempre positivas e confiantes;

Ao professor e amigo, Marcelo Gomes, um grande matem´atico e um ser humano formid´avel;

Ao professor Elias pelas suas sugest˜oes na disciplina de Semin´arios;

Aos professores do PPGMAE, em particular ao professor Andr´e Gustavo por toda

a ajuda;

A professora Viviane Simioli Medeiros Campos, minha orientadora, que de uma

(6)

Dedicat´

oria

Dedico esta disserta¸c˜ao a meus

pais: C´ıcero Lopes Barbosa (in memoriam) e Helena de Sena

Barbosa, que foram em todo o tempo os meus orientadores de

(7)

Resumo

Este trabalho tem como objetivo o estudo do comportamento assint´otico da es-tat´ıstica de Pearson(1900), que ´e o aparato te´orico do conhecido teste qui-quadrado

ou teste χ2 como tamb´em ´e usualmente denotado. Inicialmente estudamos o

compor-tamento da distribui¸c˜ao da estat´ıstica qui-quadrado de Pearson(1900) numa amostra {X1, X2, ..., Xn} quandon → ∞epi =pi0,∀n. Em seguida detalhamos os argumentos

usados em Billingley(1960), os quais demonstram a convergˆencia em distribui¸c˜ao de

uma estat´ıstica, semelhante a de Pearson, baseada em uma amostra de uma cadeia de Markov, estacion´aria, erg´odica e com espa¸co de estados finitos S.

(8)

Abstract

This work has as objetive the study of the statistics behavior asymptotic of Pear-son(1900), that is the acquaintance’s theoretical apparatus it chi-square tests or test

χ2 as well as it is usually denoted. Initially, we studied the behavior of the distribution

of the statistics of Pearson(1900) in a sample {X1, X2, ..., Xn} when followed n → ∞

andpi =pi0,∀n. Soon after we detailed the arguments used in Billingley(1960), which

demonstrate the convergence in distribution of a statistics, similar the one of Pearson,

based on a sample of a chain of Markov, stationary, erg´odica and with space of finite states S.

(9)

Sum´

ario

Introdu¸c˜ao 1

1 Modelos Importantes 4

1.1 Distribui¸c˜oes . . . 4

1.2 Estat´ıstica de Pearson . . . 9

1.2.1 Experimentos multinomiais . . . 9

1.3 O Teste χ2 . . . . 19

2 Cadeias de Markov 23 2.1 Processos Estoc´asticos e Cadeias de Markov . . . 23

2.2 Resultados em Cadeia de Markov Erg´odica e Estacion´aria . . . 28

(10)

Introdu¸c˜

ao

A estat´ıstica de Pearson(1900), como o nome sugere, foi originalmente proposta

por Karl Pearson em 1900 para testar o ajuste de um modelo, comparando o conjunto de frequˆencias observadas com as frequˆencias esperadas.

O teste χ2 de Pearson(1900), como tamb´em pode ser denotado, ´e um teste de

hip´otese, que pode ser usado para dados discretos e para testar a homogeneidade de

duas popula¸c˜oes para alternativas gerais, e n˜ao somente de localiza¸c˜ao. Por exemplo, duas distribui¸c˜oes podem diferir em escalas, como ilustra a Figura 1, embora tenham

a mesma m´edia.

Figura 1: Distribui¸c˜oes P1 e P2.

´

E comum encontrar na literatura a estat´ısticaχ2 = c

X

j=1

(oj−ej)2

ej

, para a

utiliza-¸c˜ao do teste, onde oi e ei s˜ao as frequˆencias observadas e esperadas respectivamente,

numa amostra de tamanho n, dividida em c categorias disjuntas. Observamos dessa forma, que n˜ao h´a um cuidado em denotar na estat´ıstica a vari´avel aleat´oria envolvida.

(11)

2

verificar se os dados de uma amostra se comportam de acordo com uma certa

dis-tribui¸c˜ao te´orica. A estat´ıstica usada no teste ´e a estat´ıstica de Pearson(1900) definida por:

χ2 =

c

X

j=1

(ηj−npj)2

npj

, (1)

onde η = (η1, ..., ηc) ´e o vetor aleat´orio de frequˆencias observadas, com c

X

i=1

ηi = n ,

E(η) =np´e o vetor das frequˆencias esperadas e p= (p1, ..., pc) ´e o vetor de

probabi-lidade, com

c

X

i=1

pi = 1.

Para grandes amostras,ηnprepresenta o desvio entre as frequˆencias observadas e as frequˆencias esperadas do modelo proposto.

Neste trabalho, que tem como base o artigo Statistical Methods in Markov chain

de Patrick Billingsley(1960), o foco principal ´e fazer um apanhado dos aspectos matem´ati-cos de Inferˆencia Estat´ıstica aplicados em Cadeias de Markov com espa¸co de estados

finito. O problema consiste em fazer inferˆencia sobre as probabilidades de transi¸c˜ao a partir de uma observa¸c˜ao {x1, ..., xn} da cadeia. A estrat´egia utilizada por

Billings-ley(1960) foi transportar para Cadeia de Markov as id´eias utilizadas no cap´ıtulo 30 de Crammer(1946), para demonstrar o m´etodoχ2 aplicado ao modelo multinomial, no

caso em que a cadeia ´e estacion´aria, erg´odica e tem espa¸co de estados finito. Antes de tratarmos do caso de Inferˆencia Estat´ıstica em Cadeias de Markov, faremos uma

abordagem para o caso de amostras {X1, ..., Xn} independentes e identicamente

dis-tribu´ıdas.

Para um entendimento geral do trabalho, estabelecemos a seguinte ordem de apresenta¸c˜ao:

No cap´ıtulo 1, a se¸c˜ao 1.1 foi destinada a relembrar algumas distribui¸c˜oes impor-tantes, como o modelo gama e o modelo qui-quadrado, com objetivo de justificarmos,

atrav´es do teorema (1.2) que sob certas condi¸c˜oes a soma de vari´aveis aleat´orias com distribui¸c˜ao qui-quadrado segue tamb´em um modelo qui-quadrado, onde o grau

liber-dade dessa vari´avel ´e a soma dos graus de liberliber-dade de cada vari´avel qui-quadrado. A se¸c˜ao 1.2 ´e dedicada a estat´ıstica de Pearson(1900). Mostraremos que a distribui¸c˜ao

assint´otica deχ2 definida em (1) segue um modelo qui-quadrado com (c1) graus de

(12)

Embora existam alguns modelos probabil´ısticos para an´alise estat´ıstica de dados

categ´oricos conjuntos ou para an´alise da distribui¸c˜ao da amostra, vamos concentrar os estudos num modelo multinomial que desempenha um papel fundamental no

desen-volvimento de ferramentas de an´alise estat´ıstica.

No cap´ıtulo 2, a se¸c˜ao 2.1 ´e dedicada ao estudo de cadeias de Markov, onde

relem-braremos defini¸c˜oes e ajustaremos nota¸c˜oes para o entendimento geral deste cap´ıtulo. Em seguida demonstramos no teorema (2.1) que uma cadeia de Markov homogˆenea,

irredut´ıvel, aperi´odica com espa¸co de estados finito ´e erg´odica. Al´em do mais o seu raio de convergˆencia ´e geom´etrico no sentido que existem γ > 0 e 0 < ρ < 1 tais que |pn

ij−pj| ≤γρn. Na se¸c˜ao 2.2 com base no artigo de Billingsley(1960) ´e feito um estudo

sistem´atico para atacar o problema de an´alise estat´ıstica em cadeias de Markov, mais

especificamente o teorema (2.2) que ser´a uma poderosa ferramenta para nos ajudar a concluir sobre a convergˆencia para uma χ2

(d−s) da distribui¸c˜ao de uma estat´ıstica

semelhante a de Pearson, constru´ıda a partir de uma amostra{X1, X2, ..., Xn} de uma

cadeia de Markov.

(13)

Cap´ıtulo 1

Modelos Importantes

Neste cap´ıtulo relembramos alguns modelos te´oricos para vari´aveis aleat´orias, em especial o modelo qui-quadrado. Descreveremos a estat´ıstica de Pearson(1900) e um

importante resultado que garante, em uma amostra de tamanhon que a estat´ıstica de Pearson(1900) converge em distribui¸c˜ao para uma qui-quadrado com (c1) graus de liberdade, sendo co n´umero de categorias disjuntas da amostra.

1.1

Distribui¸c˜

oes

Um modelo cont´ınuo bastante importante e, tamb´em, com muitas aplica¸c˜oes ´e o

modelo Gama. Na literatura, alguns autores se referem a ele como a fam´ılia Gama tendo em vista que, dependendo da escolha dos seus parˆametros, outros modelos importantes

podem ser obtidos.

Defini¸c˜ao 1.1 Dizemos que uma vari´avel aleat´oria X segue um modelo Gama(α,β) se, e somente se, sua fun¸c˜ao densidade for dada por:

fX(x) =

βα

Γ(α)x

α−1e−βxI

(0,∞)(x). (1.1)

Sendo α eβ dois parˆametros positivos e Γ(α) a fun¸c˜ao Gama, definida por

Γ(α) = Z

0

xα−1e−xdx, α >0.

Usamos a nota¸c˜aoX ∼ Gama(α,β).

(14)

i) Γ(α+ 1) =αΓ(α), α >0;

ii) Γ(n) = (n1)!, n inteiro positivo;

iii) Γ(12) = √π.

Um caso particular, muito importante, da distribui¸c˜ao Gama (1.1) ser´a obtido a

seguir, se fizermosα= n

2 e β= 1

2, onde n ´e um inteiro positivo.

Defini¸c˜ao 1.2 Dizemos que uma vari´avel aleat´oria X tem distribui¸c˜ao qui-quadrado

χ2

(n) com n graus de liberdade se, e somente se, sua fun¸c˜ao densidade for dada por:

fX(x) =

1 2n2Γ(n

2)

xn2−1e−

x

2, (1.2)

para x >0 e n , e a fun¸c˜ao Gama definida por:

Γ(n 2) =

Z

0

xn2−1e−xdx,

para n >0.

A distribui¸c˜ao qui-quadrado possui numerosas aplica¸c˜oes importantes em

inferˆen-cia estat´ıstica, nesse trabalho sua importˆaninferˆen-cia se d´a em ser a distribui¸c˜ao assint´otica da estat´ıstica de Pearson(1900), como veremos na se¸c˜ao 1.2.

A fun¸c˜ao geradora de momentos de uma vari´avel aleat´oria ´e muito importante quando precisamos identificar qual o modelo da vari´avel que estamos trabalhando. Em

resultados adiante, estudaremos vari´aveis aleat´orias que seguem um modeloχ2

(n), desse

modo ´e importante saber como se caracteriza a fun¸c˜ao geradora de uma χ2

(n). Como

umaχ2

(n)´e um caso particular de umaX ∼Gama(n2, 1

2) ent˜ao basta calcularmos a fun¸c˜ao

geradora de momento de uma vari´avel aleat´oriaX Gama(α,β). Assim calculemos a fun¸c˜ao geradora deX ∼ Gama(α,β).

Por defini¸c˜ao a fun¸c˜ao de densidade da vari´avel aleat´oria X Gama(α,β) ´e:

fX(x) =

βα

Γ(α)x

α−1e−βxI

(0,∞)(x).

(15)

6

MX(t) = E(etX)

= Z

0

etxfX(x)dx

= Z

0

etx β

α

Γ(α)x

α−1e−βxdx

= Z

0

βα

Γ(α)x

α−1e−(β−t)xdx

= Z ∞

0

βα

Γ(α)

(β−t)α

t)αx

α−1e−(β−t)xdx

= β

α

t)α

Z

0

t)α

Γ(α) x

α−1e−(β−t)x

| {z }

´

E a fun¸c˜ao densidade de

uma Gama (α, βt)

dx

= β

α

(β−t)α,

para todot < β.

Em particular a fun¸c˜ao geradora de momento de uma vari´avel aleat´oria X com distribui¸c˜aoχ2

(n) ´e:

MX(t) = 1 2

n/2

1 2 −t

n/2 =

1 1−2t

n/2

.

Defini¸c˜ao 1.3 Uma vari´avel aleat´oria X segue o modelo Normal com parˆametros

µ= 0 e σ2 = 1, isto ´e , X N(0,1) se sua fun¸c˜ao densidade ´e dada por:

fX(x) =

1 √

2πe

−x2

2 . (1.3)

Teorema 1.1 Seja X uma vari´avel aleat´oria cont´ınua com fun¸c˜ao de densidade de probabilidade f. Ent˜ao, a vari´avel aleat´oria Y = X2 tem fun¸c˜ao de densidade de probabilidade dada por:

fY(y) =

1 2√y[f(

y) +f(

−√y)].

Demonstra¸c˜ao. A fun¸c˜ao de distribui¸c˜ao de Y =X2 ´e dada por:

G(y) = P(Y y)

= P(X2 y)

= P(√yx√y)

(16)

ondeF ´e a fun¸c˜ao de distribui¸c˜ao de X.

Logo,

fY(y) = G′(y)

= f(√y)1 2y

−12 −f(−√y)

−1

2

y−12

= 1

2√yf(

y) + 1 2√yf(−

y)

= 1

2√y[f(

y) +f(

−√y)].

Usando o teorema anterior, vamos mostrar que o quadrado de uma vari´avel

aleat´oria que tem distribui¸c˜aoN(0,1) ´e uma qui-quadrado com um grau de liberdade, isto ´e:

SeX N(0,1), ent˜aoX2 χ2 (1)

De fato, seja X N(0,1). A fun¸c˜ao de densidade de X ´e

fX(x) =

1 √

2πe −x2

2 .

Agora, pelo Teorema 1.1, temos que a v.a. Y =X2 tem fun¸c˜ao de densidade

fY(y) =

1 2√y[f(

y) +f(

−√y)].

Logo,

fY(y) =

1 2√y

1 √

2πe

−√2y2 +√1

2πe −(−√2y)2

= 1

2√y 2 √

2πe −y

2

= 1 y

e−y2

√ 2π

= y

−1 2e−

y 2 √ 2π = 1 2 1 2 √ π y

−12e−

y 2 = 1 2 1 2

Γ 12y

1 2−1e−

1 2y.

(17)

8

Teorema 1.2 A soma de v.a.’s independentes, com distribui¸c˜ao qui-quadrado, segue uma distribui¸c˜ao qui-quadrado, cujo n´umero de graus de liberdade ´e igual `a soma do n´umero de graus de liberdade das parcelas, i.e.,

Xi ∼χ2(ki) independentes , i= 1, ..., n⇒

n

X

i=1

Xi ∼χ2(Pn i=1ki).

Demonstra¸c˜ao. Usando a fun¸c˜ao geradora de momentos, temos

Xi ∼χ2(ki) ⇒MXi(t) =

1 1−2t

ki

2

.

Assim,

M(Pn

i=1Xi)(t) = E

etPni=1Xi

= E etX1+···+tXn

= E etX1· · ·etXn

= E etX1· · ·E etXn

=

1 1−2t

k1

2

· · ·

1 1−2t

kn

2

=

1 12t

Pni=1ki 2

.

Portanto,

n

X

i=1

Xi ∼χ2(Pn i=1ki).

Como vimos anteriormente, se uma vari´avel aleat´oria tem distribui¸c˜ao N(0,1), ent˜ao o quadrado dela tem distribui¸c˜ao χ2

(1). Agora, vejamos que se ξ1, ξ2, ..., ξn s˜ao

v.a.’s independentes e ξi ∼N(0,1), ∀i∈ {1, ..., n}, ent˜ao

X =

n

X

i=1

ξ2

i ∼χ2(n).

De fato, usando a Fun¸c˜ao Geradora de Momentos da ξ2

i, temos

Mξ2

i(t) =

1 12t

1/2

(18)

Calculando MX(t), temos

MX(t) = E etX

= Eet(ξ2

1+ξ22+···+ξn2)

= Eetξ2 1

Eetξ2 2

· · ·Eetξ2

n

=

1 1−2t

1/2 1 1−2t

1/2

· · ·

1 1−2t

1/2

=

1 1−2t

n/2

.

Portanto, X χ2 (n).

1.2

Estat´ıstica de Pearson

Nesta se¸c˜ao, vamos mostrar que a estat´ıstica de Pearson(1900) converge em dis-tribui¸c˜ao para uma vari´avel aleat´oria com disdis-tribui¸c˜ao qui-quadrado; este ´e o resultado

em que se baseia o teste qui-quadrado.

1.2.1

Experimentos multinomiais

Considere um experimento comcposs´ıveis resultados, cada um com probabilidade

pj > 0, j = 1, ..., c e c

X

j=1

pj = 1. Esse experimento ´e repetido n vezes de forma

independente e observamos as vari´aveis Xj, j = 1, ..., c, que correspondem ao n´umero

de ocorrˆencias de cada um dos poss´ıveis resultados dessas repeti¸c˜oes. Dizemos que vetor

aleat´orio X= (X1, ..., Xc) tem distribui¸c˜ao multinomial, com fun¸c˜ao de probabilidade

pX(k1, ..., kc) =

n! k1!· · ·kc!

pk1

1 · · ·pkcc,

com

c

X

j=1

pj = 1 e c

X

j=1

kj =n, kj ∈◆, 0≤kj ≤n.

Um resultado bastante comum relacionado a uma vari´avel aleat´oria X, unidi-mensional com distribui¸c˜ao N(µ, σ2) ´e o fato da var´avel Y = aX ter distribui¸c˜ao

N(aµ, a2σ2) onde a ´e uma constante. No caso onde X ´e um vetor aleat´orio, temos

(19)

10

usado no lema 1.1 e tamb´em no teorema 1.3

Suponha que X ´e um vetor aleat´orio c-dimensional tal que XT = (X

1, ..., Xc),

com E(X) = µ onde µT = (µ1, ..., µc) e E(Xi) = µi ´e a m´edia da i-´esima

compo-nente de X. A variˆancia de X ´e dada por Var(X) = σ2 tal que (σ2)T = (σ2

1, ..., σc2),

σ2

i = Var(Xi), isto ´e, σi2 ´e a variˆancia da i-´esima componente de X. Portanto por

defini¸c˜ao de variˆancia, temos:

Var(Xi) = E[(Xi−µi)2] =E(Xi2)−µ2i. (1.4)

No caso multivariado vamos denotar σii ao inv´es de σ2i, a fim de se ajustar a

nota¸c˜ao de covariˆancia que veremos agora.

A covariˆancia de duas vari´aveis Xi e Xj ´e definida por

Cov(Xi, Xj) =E[(Xi−µi)(Xj−µj)]. (1.5)

Em particular, se i = j, verificamos que covariˆancia de uma vari´avel com ela pr´opria ´e simplesmente a variˆancia da vari´avel. Assim, n˜ao h´a realmente nenhuma necessidade de definir variˆancia multivariada, separadamente, pois ´e um caso especial

de covariˆancia. A covariˆancia de Xi e Xj ´e usualmente denotada por σij como nos

referimos acima.

Desenvolvendo a equa¸c˜ao (1.5), teremos

Cov(Xi, Xj) = E[(Xi−µi)(Xj −µj)]

= E(XiXj −µjXi−µiXj+µiµj)

= E(XiXj)−µjE(Xi)−µiE(Xj) +µiµj

= E(XiXj)−µiµj

A matriz de covariˆancia para cvari´aveis ´e formada por c variˆancias ec(c−1)/2 covariˆancias, muitas vezes ´e conveniente apresentar essas quantidades em uma matriz

(c×c), denotada por Σ= (σij)c×c. Ent˜ao,

Σ= 

   

σ11 · · · σ1c

... ... ... σc1 · · · σcc

(20)

´e chamada de Matriz de Covariˆancia. Observe que os termos da diagonal principal s˜ao

os valores das variˆancias e os termos fora da diagonal principal s˜ao as covariˆancias tais queσij =σji. Desse modo a matrizΣ´e sim´etrica, e podemos ainda escrever:

Σ=E[(Xµ)(Xµ)T]

Defini¸c˜ao 1.4 (Distribui¸c˜ao Normal Multivariada) Se para todoz❘c,zTz6=0, a vari´avel aleat´oria zTη tem uma distribui¸c˜ao normal, ent˜ao o vetor η ´e dito ter uma distribui¸c˜ao normal em ❘c.

Seja XN(µ,Σ) e Y = (Y1, ..., Yc)T =BX, onde

B =     

b11 · · · b1c

... ... ... bc1 · · · bcc

   

´e uma matriz de ordemc×c, e considere o vetorz= (z1, ..., zc)T, satisfazendozTz6= 0.

Temos que,

zTY=zTBX= (zTB)X= (BTz)TX. ou seja Y tem distribui¸c˜ao normal. E mais,

E(Y) = E(BX)

= E     

b11X1+· · ·+b1cXc

...

bc1X1+· · ·+bccXc

     =     

b11µ1+· · ·+b1cµc

...

bc1µ1+· · ·+bccµc

     =     

b11 · · · b1c

... ... ... bc1 · · · bcc

          µ1 ... µc     

(21)

12

e

Var(Y) = E[(YE(Y))(YE(Y))T]

= E[B(Xµ)(B(Xµ))T]

= E[B(Xµ)(Xµ)TBT]

= BE[(Xµ)(Xµ)T]BT

= BΣBT.

Portanto,

Y N(Bµ, BΣBT). (1.6)

Lema 1.1 Seja XN(0,Σ). Ent˜ao XTXχ2

r se, e somente se, Σ´e uma proje¸c˜ao de posto r, isto ´e, Σ2 =Σ.

Demonstra¸c˜ao. Uma vez que Σ ´e sim´etrica, existe uma matriz ortogonal Q (isto ´e, QTQ = I) tal que D = QΣQT ´e uma matriz diagonal. Ent˜ao se Σ2 = Σ e Σ tem

postor, temos que

D2 = QΣQT2

= QΣQT QΣQT

= QΣ QTQΣQT = QΣIΣQT

= QΣ2QT

= QΣQT

= D

Logo, D2 =D, e D tem posto r se, e somente se, r elementos da diagonal de D

s˜ao iguais a 1 e o restante deles ´e igual a zero.

Seja Y=QX. Note que

YTY= (QX)T (QX) =XTQTQX=XTX.

(22)

Se dj denota o j-´esimo elemento da diagonal de D, a fun¸c˜ao caracter´ıstica de

YTY =X j

Y2j ´e

Y

j

(1−2idjt)−1/2, que ´e a fun¸c˜ao caracter´ıstica de χ2(r) se, e somente

se,r dos dj s˜ao iguais a 1 e o restante deles ´e igual a zero.

Um problema comum na teoria das grandes amostras ´e: dada uma sequˆencia de vetores aleat´orios, {Xn}n≥1, com Xn

D

→ X, encontrar a distribui¸c˜ao limite de f(Xn)

para uma determinada fun¸c˜ao f(X). O teorema de Slutsky fornece uma poderosa t´ecnica para atacar este tipo de problema. Nesse trabalho apenas enunciaremos o

teorema de Slutsky, pois ser´a usado na demonstra¸c˜ao do teorema 1.5, sendo poss´ıvel encontrar sua demonstra¸c˜ao em Ferguson(1996), p´agina 41.

Teorema 1.3 (Teorema de Slutsky) a) Se Xn ∈❘c, Xn

D

→X e se f : ❘c −→ m ´e tal que P(X C(f)) = 1, onde C(f) ´e o conjunto de continuidade de f, ent˜ao f(Xn)

D

→f(X);

b) Se Xn D

→X e (Xn−Yn) P

→0, ent˜ao Yn D

→X;

c) Se Xn∈❘c, Yn∈❘m, Xn D

→X e Yn D

→k, ent˜ao

Xn

Yn

D

X k

.

O teorema 1.5 mostra em detalhes que a distribui¸c˜ao assint´otica da estat´ıstica de

Pearson(1900) converge em distribui¸c˜ao para umaχ2

(c−1), ondec´e o n´umero de

catego-rias em que a amostra est´a dividida. Al´em do teorema de Slutsky, um outro teorema

que ser´a fortemente usado ´e o Teorema do Limite Central para vari´aveis aleat´orias multivarida. Por se tratar de um resultado de grande importˆancia n˜ao s´o no

teo-rema 1.5 mas em outros resultados ao longo do trabalho, enunciaremos e faremos sua demonstra¸c˜ao.

Teorema 1.4 (Teorema do Limite Central para Vari´aveis Multivariada) Sejam

X1,X2, ...vetores aleat´orios i.i.d. com m´edia µe matriz de covariˆancia finita, Σ. En-t˜ao, para Xn=

X1+X2+...+Xn

n , temos

n(Xn−µ)→D N(0,Σ)

(23)

14

Vejamos inicialmente que,

n(Xn−µ) =

1 √ n n X j=1

(Xj −µ).

De fato,

n(Xn−µ) = √n

Pn j=1Xj

n − nµ n ! = √ n n n X j=1

Xj −nµ

!

= √1 n

n

X

j=1

(Xj−µ)

Assim, temos

ϕ√

n(Xnµ)(t) = ϕ1

n

Pn

j=1(Xj−µ)(t)

= ϕPn

j=1(Xj−µ)

t √ n = n Y j=1

ϕXjµ

t √ n = ϕ t √ n n ,

onde ϕ(t) ´e a fun¸c˜ao caracter´ıstica de Xj −µ. Calculando ϕ(0) e ϕ′(0), obtemos

ϕ(0) = 1 e ϕ′(0) = 0, eϕ′′(ε) =Σ. comoε 0, aplicando o teorema de Taylor, ϕ√

n(Xnµ)(t) =

1 + 1

nt T Z 1 0 Z 1 0

vϕ′′(uvt/√n)dudvt

n

→ exp

lim

n→∞t

T

Z 1

0

Z 1

0

vϕ′′(uvt/√n)dudvt

= exp(1/2)tTΣt .

Nesta convergˆencia estamos usando o fato que qualquer sequˆencia de n´umerosan

tais que lim

n→∞nan existe, ent˜ao

(1 +an)n n−→→∞exp

lim

n→∞nan

.

No nosso caso,

an =

1 nt T Z 1 0 Z 1 0

vϕ′′(uvt/√n)dudvt.

Agora que fizemos todos esses resultados auxiliares, veremos no teorema a seguir que a estat´ıstica de Pearson (1900) converge em distribui¸c˜ao para uma qui-quadrada

(24)

Teorema 1.5 Seja η = (η1, ..., ηc) um vetor aleat´orio com distribui¸c˜ao multinomial. A estat´ıstica de Pearson, definida por

χ2 =

c

X

j=1

(ηj−npj)2

npj

,

em que pj =P(Xn =j), tem distribui¸c˜ao assint´otica χ2(c1).

Demonstra¸c˜ao. Para encontrar a distribui¸c˜ao assint´otica de χ2 quando n → ∞,

defina

Xm(j) =

  

 

1, se o resultado dom-´esimo experimento ´ej;

0, caso contr´ario.

Ent˜ao, os vetores aleat´orios X1 = (X1(1), ..., X1(c)),..., Xn = (Xn(1), ..., Xn(c))

s˜ao i.i.d. eηj =X1(j) +· · ·+Xn(j), j = 1, ..., c.

Note que E[Xm(j)] =pj e Var[Xm(j)] =pj(1−pj). De fato,

E[Xm(j)] = 1.P(Xm(j) = 1) + 0.P(Xm(j) = 0) =pj,

e

Var[Xm(j)] =E

(Xm(j))2

−(E[Xm(j)])2 =pj −p2j =pj(1−pj),

pois (Xm(j))2 =Xm(j).

Verifiquemos, ainda, que para o vetorX1 = (X1(1), ..., X1(c)), temos

Cov(X1(i), X1(j)) = E[(X1(i)−E[X1(i)])(X1(j)−E[X1(j)])]

= E[(X1(i)−pi)(X1(j)−pj)]

= E[X1(i)X1(j)−pjX1(i)−piX1(j) +pipj]

= E[X1(i)X1(j)]−pjE[X1(i)]−piE[X1(j)] +pipj

= E[X1(i)X1(j)]−pjpi−pipj +pipj

= E[X1(i)X1(j)]−pjpi

=   

 

pi−p2i, sei=j

−pipj, sei6=j

=   

 

pi(1−pi), se i=j

(25)

16

Como os vetores X1, ...,Xn s˜ao i.i.d, temos EX1 =p, com

p=      p1 ... pc      ,

e matriz de covariˆancia do vetorX1 ´eΣ= Cov(X1), com

Σ =        

Cov(X1(1), X1(1)) Cov(X1(1), X1(2)) · · · Cov(X1(1), X1(c))

Cov(X1(2), X1(1)) Cov(X1(2), X1(2)) · · · Cov(X1(2), X1(c))

... ... ...

Cov(X1(c), X1(1)) Cov(X1(c), X1(2)) · · · Cov(X1(c), X1(c))

        =        

p1(1−p1) −p1p2 · · · −p1pc

−p1p2 p2(1−p2) · · · −p2pc

... ... ...

−p1pc −p2pc · · · pc(1−pc)

        .

Podemos escrever a estat´ısticaχ2 da seguinte forma:

χ2 =

c

X

j=1

(ηj −npj)2

npj =n c X j=1 ηj n −pj

2

pj

.

Agora, observemos que

χ2 =n(X

n−p)TP−1(Xn−p),

onde P =        

p1 0 · · · 0

0 p2 · · · 0

... ... ... ... 0 0 · · · pc

        . De fato,

(Xn−p) =

       

n1/n−p1

n2/n−p2

... nc/n−pc

       

, (Xn−p)T =

n

1

n −p1 n2

n −p2 · · · nc

(26)

e

P−1 =        

1/p1 0 · · · 0

0 1/p2 · · · 0

... ... . .. ... 0 0 · · · 1/pc

        . Disso, temos

n(Xn−p)TP−1(Xn−p) =

=n n1 n −p1

n2

n −p2 · · · nc

n −pc        

1/p1 0 · · · 0

0 1/p2 · · · 0

... ... . .. ... 0 0 · · · 1/pc

               

n1/n−p1

n2/n−p2

... nc/n−pc

       

=n n1 n −p1

1 p1

n

2

n −p2 1

p2 · · ·

n

c

n −pc 1 pc        

n1/n−p1

n2/n−p2

... nc/n−pc

       

=nn1 n −p1

2 1

p1

+n2 n −p2

2 1

p2

+· · ·+nc n −pc

2 1 pc =n c X j=1

(nj/n−pj)2

pj

.

Portanto,

χ2 =n(Xn−p)TP−1(Xn−p).

Pelo Teorema do Limite Central para o caso multivariado, temos

n(Xn−p) D

−→Y,

onde Y N(0,Σ) e X1,X2, ...,Xn s˜ao vetores aleat´orios i.i.d. com m´edia p e matriz

de covariˆancia Σ.

Assim, usando o teorema de Slutsky,

χ2 =n(Xn−p)TP−1(Xn−p) = √n(Xn−p)TP−1√n(Xn−p) D

−→YTP−1Y.

Devemos, agora, mostrar queYTP−1

(27)

18

De fato, denotando

P−1/2 =        

1/√p1 0 · · · 0

0 1/√p2 · · · 0

... ... . .. ... 0 0 · · · 1/√pc

       

e fazendoZ=P−1/2Y, temos

ZTZ =P−1/2YT P−1/2Y =YTP−1/2P−1/2Y=YTP−1Y.

ComoY ∼N(0,Σ), temos,Z =P−1/2Y ∼N(0,P−1/2ΣP−1/2). Vamos mostrar que a matriz de covariˆancia deZ´e uma proje¸c˜ao, isto ´e, (P−1/2ΣP−1/2)2 =P−1/2ΣP−1/2.

Note que Σ=P ppT. Disso, (P−1/2ΣP−1/2)2 =

= [P−1/2(P ppT)P−1/2]2

= [P−1/2P P−1/2P−1/2ppTP−1/2]2

= [IP−1/2ppTP−1/2]2

=IP−1/2ppTP−1/2P−1/2ppTP−1/2+P−1/2p(pTP−1/2P−1/2p)pTP−1/2

=IP−1/2ppTP−1/2P−1/2ppTP−1/2+P−1/2p(pTP−1p)pTP−1/2.

Observe que pTP−1p= 1, pois

pTP−1p = p1 p2 · · · pc

       

1/p1 0 · · · 0

0 1/p2 · · · 0

... ... . .. ... 0 0 · · · 1/pc

                p1 p2 · · · pc        

= 1 1 · · · 1         p1 p2 · · · pc        

= p1+p2+· · ·+pc

(28)

Portanto,

(P−1/2ΣP−1/2)2 = IP−1/2ppTP−1/2 P−1/2ppTP−1/2+P−1/2ppTP−1/2

= IP−1/2ppTP−1/2

= P−1/2ΣP−1/2. Logo, como ZTZ=YTP−1

Y, temos χ2 =√n(Xn−p)TP−1√n(Xn−p)

D

−→YTP−1Y ∼χ2(c1). Portanto, χ2 χ2

(c−1).

1.3

O Teste

χ

2

A id´eia do famoso teste de hip´otese qui-quadrado foi usada por K. Pearson em

1900, baseada na estat´ıstica de Pearson(1900)

χ2 =

c

X

j=1

(ηj−npj)2

npj

.

Na maioria dos casos de Inferˆencia Estat´ıstica, o problema consiste em testar hip´oteses sobre os parˆametros m´edia e propor¸c˜ao. Em geral, as formas das distribui¸c˜oes

de probabilidade s˜ao conhecidas e o interesse ´e decidir quanto a aceitar ou rejeitar uma hip´otese, sobre o verdadeiro valor do parˆametro. Mas existem tamb´em situa¸c˜oes

pr´ati-cas em que temos observa¸c˜oes de uma vari´avel aleat´oria cuja distribui¸c˜ao da popula¸c˜ao ´e desconhecida e o interesse agora ´e identificar o comportamento da vari´avel com um

modelo te´orico. Isto ´e, ter´ıamos um candidato a modelo e nosso problema seria esta-belecer um procedimento para aceit´a-lo ou n˜ao. O modelo proposto pode ser testado

atrav´es do teste qui-quadrado, considerando uma amostra grande, pelo teorema 1.3 , a distribui¸c˜ao deχ2 ´e aproximada pela qui-quadrada cujo grau de liberdade c1 ondec

´e o n´umero de categorias estabelecidas. A decis˜ao se baseia no comportamento de χ2.

Da seguinte forma:

1o

Enunciar a hip´otese Ho;

2o

Determinar o n´ıvel de significancia do teste, ou seja,

(29)

20

3o

Calcular as frequˆencias esperadas com base na hip´otese;

4o

Calcular o valor da estat´ıstica do teste;

5o

Com o aux´ılio da tabela do qui-quadrado encontar a regi˜ao cr´ıtica;

Conclus˜ao:

• Se χ2 q

c, ent˜ao a hip´otese H0 ´e rejeitada, ao passo que

• Se χ2 < q

c ent˜ao aceito a hip´otese H0.

A figura a seguir ilustra geometricamente o resultado deste teste, em que RA´e a regi˜ao de aceita¸c˜ao,RC ´e a regi˜ao cr´ıtica e qc ´e o valor cr´ıtico encontrado na tabela

da distribui¸c˜ao qui-quadrado.

Figura 2

Vejamos um exemplo real, onde possamos utilizar o m´etodo.

Exemplo: Deseja-se estudar a tolerˆancia de um equipamento eletrˆonico com re-la¸c˜ao ao n´umero de impactos termo-el´etricos. Pelas caracter´ısticas de fabrica¸c˜ao do

(30)

A decis˜ao que precisamos tomar ´e aceitar ou rejeitar o modelo sugerido. N˜ao

estamos testando o valor de um parˆametro, mas sim a adequa¸c˜ao ou n˜ao de fun¸c˜ao de probabilidade. Suponha que nossa amostra ´e composta de 80 equipamentos para serem

submetidos a sucessivos impactos termo-el´etricos at´e a ocorrˆencia da primeira falha. Dessa forma, 80 realiza¸c˜oes da vari´avel aleat´oria X ser˜ao denotadas por X1, ..., X80.

Dessa forma,Xi representa o n´umero de impactos at´e a ocorrˆencia de falha noi-´esimo

equipamento testado, i = 1,2, ...,80. Pretendemos verificar se o modelo Geom´etrico com p= 0,4, ´e adequado, ent˜ao o teste ser´a:

H0 : X ∼G(0,4) ;

Ha : X tem outra distribui¸c˜ao.

Considere as seguintes frequˆencias observadas:

Impactos 0 1 2 3 4 mais de 4

Freq. Obs. 30 26 10 5 5 4

SeH0 for verdadeiro, X segue o modelo Geom´etrico, cuja fun¸c˜ao de probabilidade

´e dada por:

p(x) =p(1p)x

Logo a frequˆencia esperada de resistˆencia a x impactos = npx, temos: fe= 80×

0,4×0,6x. Fazendo os c´alculos, temos:

fe(0) = 80×0,4×0,60 = 32

fe(1) = 80×0,4×0,61 = 19,2

fe(2) = 80×0,4×0,62 = 11,5

fe(3) = 80×0,4×0,63 = 6,9

fe(4) = 80×0,4×0,64 = 4,1

fe(x >4) = fe(5) +fe(6) +· · ·= 6,3

Impactos (x) 0 1 2 3 4 mais de 4

Freq. Obs. (fo) 30 26 10 5 5 4

(31)

22

Como a categoria correspondente ao valor 4 teve frequˆencia esperada igual a 4,1,

que ´e menor que 5, agregamos as duas ´ultimas categorias formando a categoria dos maiores de 3, a qual ter´a a frequencia observada de 9 e esperada de 10,4.

Ent˜ao,

χ2 = (30−32)2

32 +

(2619,2)2

19,2 +...+

(910,4)2

10,4 = 3,44.

Escolhendo α = 0,05 e observando que ficamos com um total de 5 categorias, portanto 4 graus de liberdade, consultando a tabela da distribui¸c˜ao da qui-quadrado,

temosqc = 9,49. Como χ2 = 3,44<9,49, ent˜ao conclu´ımos que o modelo proposto ´e

(32)

Cap´ıtulo 2

Cadeias de Markov

Neste cap´ıtulo, vamos detalhar alguns resultados que est˜ao no artigo Statistical Methods In Markov Chains de Billingsley(1960). O artigo faz um apanhado dos

as-pectos matem´aticos de Inferˆencia Estat´ıstica e suas aplica¸c˜oes em cadeias de Markov finita. O problema se resume a fazer inferˆencia sobre as probabilidades de transi¸c˜ao a

partir de uma observa¸c˜ao {x1, ..., xn} da cadeia. Nesse trabalho nos restringiremos a

analisar que a distribui¸c˜ao assint´otica de uma estat´ıstica semelhante a Pearson agora

numa observa¸c˜ao de uma cadeia de Markov, tamb´em tem modelo qui-quadrado com (ds) gruas de liberdade. Um resultado que nos ajudar´a a encontrar essa estat´ıstica ´e visto no teorema 2.2, para isso ser´a preciso resultados como o teorema 2.1 que garante em uma cadeia de Markov, estacion´aria, irredut´ıvel, aperi´odica e com espa¸co de estados

finito o raio de convegˆencia ´e geom´etrico. O resultado do lema 2.1 ´e importante para o entendimento do teorema 2.2, verificaremos entre outros resultados a Lei Fraca dos

Grandes N´umeros para cadeias de Markov que ´e um resultado de grande importˆancia para a demonstra¸c˜ao do teorema 2.2.

2.1

Processos Estoc´

asticos e Cadeias de Markov

Um processo estoc´astico ´e uma sequˆencia de vari´aveis aleat´orias {Xt, t ∈ T},

definidas sobre um mesmo espa¸co de probabilidade (Ω,F, P). Assim, para cadawΩ fixo, a fun¸c˜ao Xt(w) na vari´avel t, denotada por {Xt(w), t ∈ T}, ´e chamada uma

(33)

24

se o conjunto de ´ındicesT for enumer´avel, e um processo a tempo cont´ınuo, seT for n˜ao enumer´avel. Um processo de Markov ´e um processo estoc´astico cujo comportamento dinˆamico ´e tal que as distribui¸c˜oes de probabilidade para o seu desenvolvimento futuro

depende somente do estado presente, n˜ao levando em considera¸c˜ao como o processo chegou a tal estado.

Defini¸c˜ao 2.1 O conjuntoS de todos os valores assumidos por um processo ´e chamado espa¸co de estados do processo. Se S ´e enumer´avel, dizemos que o processo ´e uma Cadeia. Se S ´e n˜ao enumer´avel dizemos que o processo tem espa¸co de estados geral.

Defini¸c˜ao 2.2 Um processo estoc´astico {Xt, t = 0,1,2, . . .} com espa¸co de estado

S={1,2, ..., s}´e uma Cadeia de Markov se satisfaz a propriedade de Markov dada por

P (Xn=in|Xn−1 =in−1, . . . , X0 =i0) = P (Xn=in|Xn−1 =in−1), (2.1) para todon ∈◆ e para todo i∈S ={1,2, ..., s}.

Defini¸c˜ao 2.3 Uma cadeia de Markov ´e dita homogˆenea ou estacion´aria no tempo se a probabilidade de ir de um estado a outro independe do tempo em que o passo ´e dado. Isto ´e, para quaisquer estados i, j S, temos:

P (Xn=j|Xn−1 =i) =P (Xn+k =j |Xn+k−1 =i), (2.2) para k =(n1),(n2), . . . ,1,0,1,2, . . ..

Denotamos por pij a probabilidade de transi¸c˜ao do estado i para o estadoj em

um passo, ou seja, P (Xn =j |Xn−1 =i), n = 1,2, . . .. Assim, a probabilidade de

no tempo n estarmos no estado j sabendo que no tempo n 1 estamos no estado i ´e dada por P (Xn =j |Xn−1 =i) = Pij(n−1,n). Caso a cadeia seja estacion´aria, ent˜ao

Pij(n−1,n) = Pij(n+k−1,n+k), para todo k = (n1),(n 2), . . . ,1,0,1, . . . . A essas probabilidades condicionais denominamos de probabilidades de transi¸c˜ao da cadeia.

Considerando, agora, {Xn}n≥1 uma Cadeia de Markov com espa¸co de estados

S = {1,2, . . . , s}. Para essa cadeia existem s2 probabilidades de transi¸c˜ao {p ij},

(34)

irmos de um estado iao estado j em um passo.

P= 

      

p11 p12 · · · p1s

p21 p22 · · · p2s

... ... ... ... ps1 ps2 · · · pss

      

Observe que na matriz de transi¸c˜ao todas as entradas s˜ao n˜ao-negativas, visto que s˜ao probabilidades; e a soma de cada uma das linhas ´e sempre igual a um.

Defini¸c˜ao 2.4 Uma cadeia de Markov com matriz de transi¸c˜ao P = (pij)i,j∈S ´e dita ser erg´odica se, para todo j ∈S, existe

lim

n→∞p

(n) ij =pj independente do i∈S, e

X

j∈S

pj = 1.

Defini¸c˜ao 2.5 Uma distribui¸c˜ao {pj, j ≥0} ´e estacion´aria para a cadeia de Markov com matriz de transi¸c˜ao P = (pij)i,j∈S e S={1,2, ..., s}, se:

s

X

i=1

pipij =pj,∀j.

Defini¸c˜ao 2.6 Uma cadeia de Markov com matriz de transi¸c˜ao P = (pij)i,j∈S ´e dita ser irredut´ıvel se todos os estados se comunicam, isto ´e, quaisquer que sejam i, j ∈ S

existen ∈◆ tal que p(n)ij >0 e existe k ∈◆ tal que p(k)ji >0.

Defini¸c˜ao 2.7 O per´ıodo de um estado qualquer iS ´e dado pelo n´umero

d(i) =mdc{n1|p(n)ii >0}.

E quando d(i) = 1 dizemos que i ´e aperi´odico.

Defini¸c˜ao 2.8 Uma cadeia de Markov com matriz de transi¸c˜ao P = (pij)i,j∈S onde todos os estados s˜ao aperi´odicos ´e dita ser aperi´odica.

No restante do trabalho nos referiremos sempre a Cadeia de Markov com espa¸co

de estados finito, aperi´odica e irredut´ıvel. Um resultado importante sobre cadeia de Markov, que ser´a usado no lema 2.1 da se¸c˜ao 2.2, ser´a demonstrado na segunda parte do

(35)

26

Teorema 2.1 Uma cadeia de Markov homogˆenea{Xn}n≥0 irredut´ıvel e aperi´odica com espa¸co de estados finito ´e erg´odica. Al´em do mais, o raio de convergˆencia ´e geom´etrico, no sentido de que existem γ >0 e 0< ρ < 1 tais que

|p(n)ij pj| ≤γρn.

Demonstra¸c˜ao. A ergodicidade de {Xn}n≥0 segue como consequˆencia dos teoremas

2.7, 2.8 de Kijima (1997).

Agora, suponha que pij ≥ δ > 0, quaisquer que sejam i, j ∈ S. Sejam Mjn =

sup

i

p(n)ij emn

j = infi p (n)

ij . Observe quemnj ≤p (n)

ij ≤Mjn. Usando a equa¸c˜ao de

Chapman-Kolmogorov, temos

p(n+1)ij =X

l∈S

pilp(n)lj

X

l∈S

pilMjn=Mjn

X

l∈S

p(n)il =Mjn Mjn+1 = sup

i

p(n+1)ij Mjn,

ou seja,

Mjn+1 Mjn.

De modo an´alogo, temos

mn+1j = inf

i p (n+1) ij = infi

X

l∈S

pilp(n)lj ≥infi

X

l∈S

pilmnj =mnj,

ou seja,

mn+1j ≥mnj.

Como (mn

j) ´e mon´otona e limitada inferiormente, temos mnj ↑pj = lim n→∞p

(n) ij , para

todoi.

Vamos mostrar que existe ρ >0 tal que|Mn

j −mnj| ≤ρn.

De fato,

Mjn+1mn+1j = sup

i,k

p(n+1)ij p(n+1)kj

= sup

i,k

X

l∈S

pilp(n)lj

X

l∈S

pklp(n)lj

!

= sup

i,k

X

l∈S

(pil−pkl)p(n)lj

!

(36)

Defina

(pil−pkl)+ =

  

 

pil−pkl, sepil > pkl

0, sepil ≤pkl.

e

(pil−pkl)− =

  

 

pil−pkl, sepil < pkl

0, sepil ≥pkl.

Como

0 = X

l∈S

(pil−pkl) =

X

l∈S

(pil−pkl)+−

X

l∈S

(pil−pkl)−,

temos

X

l∈S

(pil−pkl)+ =

X

l∈S

(pil−pkl)−.

Disso,

Mjn+1mn+1j = sup

i,k

( X

l∈S

(pil−pkl)+−

X

l∈S

(pil−pkl)−

!

p(n)lj )

≤ sup

i,k

X

l∈S

Mjn(pil−pkl)+−

X

l∈S

mnj(pil−pkl)−

!

= sup

i,k

X

l∈S

(pil−pkl)+(Mjn−mnj)

!

.

Por hip´otese, temos pkl≥δ >0. Logo,

−pkl ≤ −δ⇒pil−pkl≤pil−δ.

Da mesma forma

pil ≥δ >0⇒pil−δ ≥0.

Assim,

(pil−pkl)+=pil−pkl ⇒(pil−pkl)+≤pil−δ

e

(pil−pkl)+ = 0⇒(pil−pkl)+ ≤pil−δ.

Logo,

Mjn+1mn+1j sup

i,k

X

l∈S

(pil−δ)(Mjn−mnj)

!

≤ sup

i,k

(1sδ)(Mjnmnj)

= (1sδ)(Mjnmnj)

(37)

28

em queρ= 1sδ. Assim, continuando com esse procedimento, temos

|Mn

j −mnj| ≤ρn.

Note que p(n)ij Mn

j e mnj ≤πj implicam p(n)ij −πj ≤Mjn−mnj. Logo,

|p(n)ij pj| ≤ |Mjn−mnj| ≤ρn.

Sendo a cadeia ´e irredut´ıvel e aperi´odica, existe n0 ≥ 1 tal que p(nij0) ≥ δ > 0.

Podemos fazer

Pn =Pk0P[n/n0]n0 =Pk0+mn0,

ondeP ´e a matriz de transi¸c˜ao da cadeia em=

n n0

. Logo,

|p(n)ij pj| =

p

(k0+mn0)

ij −pj

=

X

l∈S

p(k0)

il (p (mn0)

lj −pj)

= pmlj −pj

≤ ρm

= ρ(n−k0)/n0

= ρ−k0/n0ρn/n0

= ρ−k0/n0 ρ1/n0n.

Portanto, existem γ >0 e 0< ρ <1 tais que

|p(n)ij pj| ≤γρn.

2.2

Resultados em Cadeia de Markov Erg´

odica e

Estacion´

aria

Alguns resultados sobre convergˆencia, v´alidos em cadeias de Markov, ser˜ao

apre-sentados nesta se¸c˜ao. Denotaremos por fi e fij, respectivamente, o n´umero de vezes

(38)

Lema 2.1 Seja {Xn}n≥1 uma cadeia de Markov estacion´aria e erg´odica e seja ξ =

(ξ1, ..., ξs) o vetor aleat´orio com componentes

ξi =

fi −npi

√ n .

Ent˜ao (

E(ξi) = 0

E(ξiξj) =αij +O n1

,

onde αij = δijpi−pipj +pi

∞ X

k=1

(p(k)ij −pj) +pj

∞ X

k=1

(p(k)ji −pi) e lim n→∞

O n1

1/n = c, com c

constante. Alem disso, vale a lei fraca dos grandes n´umeros para cadeias de Markov:

fi

n

P

−→pi.

Demonstra¸c˜ao. O n´umero de vezes que a cadeia saiu de i´e

fi = n

X

m=1

I[Xm=i].

Ent˜ao

E(fi) = E(I[X1=i]) +· · ·+E(I[Xn=i])

= P(X1 =i) +· · ·+P(Xn =i)

= npi,

pois a cadeia ´e estacion´aria, isto ´e,P(Xm =i) =pi, ∀m= 1, ..., n.

Assim, para todo iS, temos

E(ξi) = E

fi−npi

√ n

= √1

nE(fi−npi)

= E(fi)√−E(npi) n = npi√−npi

(39)

30

Agora, vamos calcular E(ξiξj).

E(ξiξj) = E

fi−npi

√ n

fj −npj

√ n

= 1

nE " n

X

l=1

I(Xl=i)−npi

! n X

m=1

I(Xm=j)−npj

!# = 1 nE " n X l=1

(I(Xl=i)−pi)

n

X

m=1

(I(Xm=j)−pj)

# = 1 nE " n X m=1 n X l=1

(I(Xl=i)−pi)(I(Xm=j)−pj)

# = 1 n n X m=1 n X l=1

E(I(Xl=i)−pi)(I(Xm=j)−pj)

.

Calculemos E(I(Xl=i)−pi)(I(Xm=j)−pj)

para os casos em que l < m, m < l e m=l.

Caso I (l < m):

E(I(Xl=i)−pi)(I(Xm=j)−pj)

= E(I(Xl=i)I(Xm=j)−pjI(Xl=i)−piI(Xm=j)+pipj)

= E(I(Xl=i)I(Xm=j))−pjE(I(Xl=i))−piE(I(Xm=j)) +pipj

= E(I(Xl=i,Xm=j))−pjE(I(Xl=i))−piE(I(Xm=j)) +pipj

= P(Xl =i, Xm =j)−pipj −pipj +pipj

= P(Xl =i, Xm =j)−pipj

= P(Xm =j|Xl=i)P(Xl=i)−pipj

= P(Xm−l+1 =j|X1 =i)P(Xl =i)−pipj

= p(ijm−l)pi−pipj.

* pois a cadeia tem probabilidade de transi¸c˜ao estacion´aria.

Caso II (m =l):

E(I(Xl=i)−pi)(I(Xm=j)−pj)

= P(Xm =i, Xm =j)−pipj

=     

P(Xm =i), se i=j

P(∅), se i6=j 

−pipj

(40)

em que

δij =

 

1, se i=j 0, se i6=j .

Caso III (l > m):

E(I(Xl=i)−pi)(I(Xm=j)−pj)

= P(Xl =i|Xm =j)P(Xm =j)−pipj

= p(lji−m)pj −pipj.

Ent˜ao, podemos escrever

E(I(Xl=i)−pi)(I(Xm=j)−pj)

= P(Xl=i|Xm =j)−pipj

=         

p(mij −l)pi−pipj, sem > l;

δijpi −pipj, sem =l;

p(lji−m)pj −pipj, sem < l.

. Assim, n X m=1 n X l=1

E(I(Xl=i)−pi)(I(Xm=j)−pj)

=

=n(δijpi −pipj)

| {z }

m=l

+ (n1)(pjp(1)ji −pipj) + (n−2)(pjp(2)ji −pipj) +· · ·+ 1(pjpji(n−1)−pipj)

| {z }

m<l

+ (n1)(pip(1)ij −pipj) + (n−2)(pip(2)ij −pipj) +· · ·+ 1(pipij(n−1)−pipj)

| {z }

m>l

.

Ent˜ao,

E(ξiξj) =

1 n      

n(δijpi−pipj) + n−1

X

k=1

(n−k)(pip(k)ij −pipj)

| {z }

m>l

+

n−1

X

k=1

(n−k)(pjp(k)ji −pipj)

| {z }

m<l      

= (δijpi−pipj) +n−1 n−1

X

k=1

(nk)(pip(k)ij −pipj)

| {z }

(I)

+n−1

n−1

X

k=1

(nk)(pjp(k)ji −pipj)

| {z }

(II)

.

Vejamos que (I) difere da parcela pi

∞ X

k=1

(p(k)ij pj) de αij pela quantidade

pi

∞ X

k=n

(p(k)ij −pj) +n−1pi n−1

X

k=1

(41)

32 De fato, pi ∞ X k=1

(p(k)ij −pj)−n−1 n−1

X

k=1

(n−k)(pip(k)ij −pipj) =

=pi

∞ X

k=1

(p(k)ij −pj)−pi n−1

X

k=1

(p(k)ij −pj) +n−1pi n−1

X

k=1

k(p(k)ij −pj)

=pi

∞ X

k=n

(p(k)ij −pj) +n−1pi n−1

X

k=1

k(p(k)ij −pj).

Pelo teorema 2.1,

|p(k)ij −pj|< γρk, 0< ρ <1⇒

∞ X

k=1

|p(k)ij −pj| ≤

∞ X

k=1

γρk

| {z }

s´erie geom.

0<ρ<1

.

Logo, ∞ X

k=1

|p(k)ij −pj| converge , isto ´e,

∞ X

k=1

(p(k)ij −pj) ´e uma s´erie absolutamente

convergente.

Da mesma maneira,

∞ X

k=1

|k(p(k)ij pj)| ≤

∞ X

k=1

kγρk,

que ´e convergente. De fato, pelo teste da raz˜ao,

(k+ 1)ρk+1

kρk =

1 + 1

k

ρ→ρ <1, quando k → ∞.

Logo, ∞ X

k=1

k(p(k)ij pj) tamb´em ´e absolutamente convergente.

Consequentemente,

pi

∞ X

k=n

(p(k)ij pj)

| {z }

tende a 0 quandon→∞

+n−1pi n−1

X

k=1

k(p(k)ij pj)

| {z }

converge quandon→∞

=O 1 n .

Analogamente, (II) difere da parcela pj

∞ X

k=1

(p(k)ji pi) de αij por uma quantidade

O n1. Portanto, E(ξiξj) =αij +O n1

(42)

Agora, vamos mostrar que vale a lei fraca dos grandes n´umeros.

SeX ´e uma vari´avel aleat´oria qualquer. Ent˜ao, para quaisquer t, k >0, temos

P(|X| ≥t) E(|X|

k)

tk ,

conhecida como desigualdade de Markov. Assim,usando a desigualdade acima

P fi

n −pi ≥ε ≤ E fi

n −pi

2

ε2 =

Eh fi

n −pi

2i

ε2 =

E(fi−npi)2

n2ε2

=

1 nE

(fi−npi)2

1 nn2ε2

=

Efi−npi

n

2

nε2 =

E(ξi)2

nε2

= αii+O(1/n) nε2 =

αii

nε2 +

O(1/n) nε2

= αii nε2 |{z} ↓ 0 +O(1/n)1/n (1/n)nε2

| {z }

↓ 0 Portanto, fi n P

−→pi.

Teorema 2.2 Seja {Xn}n≥1 uma cadeia de Markov estacion´aria e erg´odica, a dis-tribui¸c˜ao do vetor estacion´arios2-dimensional com componentes

ξij =

fij −fipij

fi1/2 ,

converge quando n → ∞ para uma distribui¸c˜ao normal com matriz de covariˆancia

λij,kl=δik(δjlpij −pijpil).

Demonstra¸c˜ao. O processo {Xn}n≥1 pode ser gerado da seguinte forma: considere

uma cole¸c˜ao independente de v.a.’s X1 e Win, (i = 1, ..., s e n = 1,2, ...), tais que

(43)

34

descrito abaixo.

W11, W12, · · · , W1n, · · ·

W21, W22, · · · , W2n, · · ·

· · · · Ws1, Ws2, · · · , Wsn, · · ·

.

A constru¸c˜ao do processo ´e feita da seguinte maneira: SeX1 =i, ent˜ao a primeira

vari´avel da linhai´e, por defini¸c˜ao, o valor deX2. SeX2 =j, ent˜ao a primeira vari´avel

daj-´esima linha ser´a o valor de X3, a menos que i=j, neste caso, X3 ser´a a segunda

vari´avel da j-´esima linha, e assim sucessivamente. De maneira formal, podemos es-crever X2 = WX11, e se X1, X2, ..., Xn j´a est˜ao definidos, ent˜ao Xn+1 = WXnm, onde

(m−1) ´e o n´umero de ´ındices l, 1 ≤l < n, tais que Xl=Xn.

Por defini¸c˜ao,

{Xk=ak, 1≤k ≤n+ 1}=

X1 =a1, Wak−1mk =ak, 2≤k ≤n+ 1 ,

onde (mk−1) ´e o n´umero de elementos em{a1, ..., ak−1}que s˜ao iguais a ak. Como as

vari´aveis envolvidas s˜ao todas independentes, ent˜ao

P(X1 =a1, X2 =a2, ..., Xn+1 =an+1) =

=P(X1 =a1, Wa1m2 =a2, Wa2m3 =a3, ..., Wanmn+1 =an+1)

=P(X1 =a1)P(Wa1m2 =a2)· · ·P(Wanmn+1 =an+1)

=pa1.pa1a2.pa2a3· · ·panan+1.

Note que

fij = fi

X

m=1

I[Wim=j].

Assim, (fi1, fi2, ..., fis) ´e a contagem da frequˆencia de{Wi1, Wi2, ..., Wifi}, ou seja,

fij ´e o n´umero de vezes que na amostra {Wi1, Wi2, ..., Wifi} a cadeia saiu de i para j,

1j s.

Pelo lema 2.1, vimos que fi n

P

−→pi, isto ´e, fi est´a perto denpi com probabilidade

alta. ´E natural comparar (fi1, fi2, ..., fis) com a contagem de frequˆencia (gi1, gi2, ..., gis)

(44)

nesta amostra. Da independˆencia do vetor (Win) e do teorema central do limite para

processos multinomiais, segue que ass2 v.a.’s

gij −[npi]pij

(npi)1/2

s˜ao assintoticamente normal distribu´ıdas, com matriz de covariˆancia

λij,kl =δik(δjlpij −pijpil).

Ent˜ao, o vetor de vari´avel aleat´oria η= (ηij), com compontentes

ηij =

fij −fipij

(npi)1/2

ter´a essa mesma distribui¸c˜ao limite se mostrarmos que para cada i e para cada j a diferen¸ca

gij−[npi]pij

(npi)1/2 −

fij −fipij

(npi)1/2 P

−→0.

Defina

em =

  

 

1pij, se Wim =j;

−pij, se Wim 6=j

e

Sm =e1+· · ·+em.

Assim,

Sfi = e1+· · ·+efi

= (1pij) fi

X

m=1

I[Wim=j]

!

−pij fi

X

m=1

I[Wim6=j]

!

= (1−pij) fi

X

m=1

I[Wim=j]

!

−pij fi− fi

X

m=1

I[Wim=j]

!

= (1−pij)fij −pij(fi−fij)

= fij −pijfij −pijfi+pijfij

(45)

36

e

S[npi] = e1+· · ·+e[npi]

= (1pij)

[npi]

X

m=1

I[wim=j]

−pij

[npi]− [npi]

X

m=1

I[wim=j]

= (1pij)gij −pij([npi]−gij)

= gij −pijgij −pijfi+pijgij

= gij −pij[npi].

Ent˜ao,

gij −[npi]pij

n1/2 −

fij −fipij

n1/2 =

S[npi]

n1/2 −

Sfi

n1/2 =

S[npi]−Sfi

n1/2 .

Pelo lema 2.1, temos fi n

P

−→pi, isto ´e, para todoε >0, existe n0 ∈◆tal que

n≥n0 ⇒P |fi−[npi]|> nε3

< ε.

Podemos escrever

|S[npi]−Sfi|

n1/2 > ε

=

=

|S[npi]−Sfi|

n1/2 > ε

∩h{|fi−[npi]|> nε3} ∪ {|fi−[npi]| ≤nε3}

i

=

|S[npi]−Sfi|

n1/2 >ε

∩{|fi−[npi]|> nε3}

|S[npi]−Sfi|

n1/2 >ε

∩{|fi−[npi]|≤nε3}

.

Se{Xn:n≥1}´e uma sequˆencia de vari´aveis aleat´orias independentes com m´edia

zero e variˆancia finita. Ent˜ao, para todoλ >0 e com Sk =X1+· · ·+Xk temos,

P

max

1≤k≤n|Sk| ≥λ

≤ V ar(Sn) λ2 .

(46)

P

|S[npi]−Sfi|

n1/2 > ε

=

=P

|S[npi]−Sfi|

n1/2 > ε,|fi−[npi]|> nε 3

+P

|S[npi]−Sfi|

n1/2 > ε,|fi−[npi]| ≤nε 3

≤P (|fi−[npi]|> nε3) +P

|S[npi]−Sfi|

n1/2 > ε,|fi−[npi]| ≤nε 3

≤P (|fi−[npi]|> nε3) +P

max |m−[npi]|≤nε3

|S[npi]−Sm|> εn

1/2

≤ε+ 2P

max

1≤m≤nε3

|Sm|>

εn1/2

2

≤ε+ 2Var(Snε3)

nε2/4 (pela desigualdade de Kolmogorov)

=ε+ 2 4

nε2Var(Snε3).

Mas

Var(Snε3) = nε3Var(em) =nε3pij(1−pij),

pois

E(em) = (1−pij)P(Wim =j)−pijP(Wim6=j) = (1−pij)pij−pij(1−pij) = 0

e

E(e2m) = (1−pij)2pij +p2ij(1−pij) =pij −p2ij

implicam

Var(em) =pij(1−pij).

Logo

P

|S[npi]−Sfi|

n1/2 > ε

≤ε+ 2 4 nε2nε

3p

ij(1−pij) = ε(1 + 8pij(1−pij)).

Como ε >0 foi qualquer, temos

S[npi]−Sfi

n1/2

P

(47)

38

Logo, pelo teorema de Slutsky, temos

gij −[npi]pij

(npi)1/2 −

gij−[npi]pij

(npi)1/2 −

fij −fipij

(npi)1/2

D

−→Y,

ondeY tem distribui¸c˜ao normal. Portanto, ηij =

fij −fipij

(npi)1/2

, converge em distribui¸c˜ao para uma normal.

Agora, observe que:

ηij

ξij

=

fij−fipij

(npi)1/2

fij−fipij

fi1/2

= f

1/2 i

(npi)1/2

=

fi

n 1/2

1 p1/2i

P

−→p1/2i 1 p1/2i = 1,

quandon → ∞. Portanto,

ηij

ξij P

−→1.

Usando novamente o teorema de Slutsky, temos

ξij =

ηij

ηij/ξij D

−→Y,

ondeY tem distribui¸c˜ao normal.

Com isso, e da teoria b´asica de qui-quadrado, cada estat´ıstica

X

j

(fij−fipij)2

fipij

, i= 1, ..., s, (2.3)

tem distribui¸c˜ao assint´otica qui-quadrado. A soma em (2.3) deve ser restrita aos ´ındices j tais que pij > 0; se tivermos di desses pij’s, ent˜ao o n´umero de graus de liberdade

da distribui¸c˜ao limite ´e di − 1. Al´em disso, as s estat´ısticas s˜ao assintoticamente

independentes, de modo que a soma

X

ij

(fij −fipij)2

fipij

,

tem distribui¸c˜ao assint´otica qui-quadrado comd−sgraus de liberdade, onded=X

i

di

´e o n´umero de elementos positivos da matriz (pij). A estat´ıstica (2.3), considerada

primeiro por Bartlett (1951), fornece a medida de melhor ajuste da amostra com as

(48)

Referˆ

encias Bibliogr´

aficas

BARTLETT, M. S.The frequency goodness of fit test for probability chains.Proc. Comb. Phil. Soc, Vol. 47 (1951), pp. 8695 (MR. 12.512).

BOLFARINE, Heleno.; SANDOVAL, M.C.Introdu¸c˜ao `A Inferˆencia Estat´ıstica, SBM. BREIMAN, Leo.Statistics: With a View Toward ApplicationsHougthton Mifflin

Company.

COCHRAN, W. G.The χ2 test of goodness of fit. The Annals of Mathematical

Statis-tics, Vol. 23, No. 3 (Sep., 1952), pp. 315345.

CHUNG, Kai Lai. A Course in Probability Theory.2.ed. [S.L], Academic Press, 1974. CRAM´ER,Harald.Mathematical Methods Of Statistics.1.ed.Princenton University Press,

1946

FERGUSON,Thomas S.A Course In Large Sample Theory.1.ed.Chapman & Hall,

London,1996

GON ¸CALVES, Cristina Faria F.,Estat´ısticaed. UEL, 2002

GRENNWOOD,Priscilla E.; NIKULIN,Mikhail S.A Guides To Chi-Squared Testing. John Wiley & Sons, Inc.

JAMES, Barry R. Probabilidade: Um curso intermedi´ario. 3. ed. Rio de Janeiro: IMPA, 2004.

(49)

40

KOEHLER, K. J.; LARNTZ, K. An Empirical Investigation of Goodness-of-Fit Statistics for Sparse Multinomials. Journal of the American Statistical Associa-tion, Vol. 75, No. 370 (Jun., 1980), pp. 336344.

MAGALH ˜AES, M. Nascimento. Probabilidade e Vari´aveis aleat´orias. S˜ao Paulo: IME-USP, 2004.

MAGALH ˜AES, Marcos N.; LIMA, Antonio C. Pedroso de.;No¸c˜oes De Probabilidade E Estat´ıstica 6.ed. Edusp, 2007.

MOOD, Alexander M.; GRAYBIIL, Franklin A.;BOES,Duane C. Introduction To The Theory Of Statistics. 3.ed. International Student edition, 1913.

PAUL, L., Probabilidade Aplica¸c˜oes `A Estat´ıstica2. ed.LTC,1983

PEARSON,K.(1900),On the Criterion That a Given System of Variables Is Such That It Can Be Reasonably Supposed to Have Arisen From Random Sam-pling. Philosophical Magazine , 1901. 50, 157-175.

ROSSI, S. M. Stochastic Processes.New York: John Wiley and Sons, 1983.

SERFLING, Robert J.Approximation Theorems of Mathematical Statistics.Wiley Interscience, 2002.

Imagem

Figura 1: Distribui¸c˜oes P1 e P2. ´

Referências

Documentos relacionados

Um teste utilizando observa¸c˜ oes de fra¸c˜ ao de massa do g´ as de aglomerados de ga- l´ axias e SNe Ia foi proposto por Gon¸calves, Holanda e Alcaniz (2012)[ 41 ]. Eles

•O valor resultante sofre uma operação de complemento de 1, formando o checksum •O receptor agrupa os dados recebidos em k bits. Depois efetua a soma, inclusive com o

•   O  material  a  seguir  consiste  de  adaptações  e  extensões  dos  originais  gentilmente  cedidos  pelo 

As taxas pela apreciação de processos tem como referencial o custo da contrapartida, calculado com base no tempo padrão dos serviços administrativos, o tempo

O enfermeiro, como integrante da equipe multidisciplinar em saúde, possui respaldo ético legal e técnico cientifico para atuar junto ao paciente portador de feridas, da avaliação

Nela o pesquisado pode convidar pessoas para participarem de sua pesquisa, de forma que a média aritmética dos resultados possa gerar um feedback real da exigência do

A valiar o desempenho de quatro filtros anaer6bios durante o periodo de partida, no qual dois terao aneis inteiros de bambu e os outros dois terao meio aneis

Tem menos dentes que o disco de corte transversal para um corte mais rápido.