• Nenhum resultado encontrado

Propriedades assintóticas e estimadores consistentes para a probabilidade de clustering

N/A
N/A
Protected

Academic year: 2021

Share "Propriedades assintóticas e estimadores consistentes para a probabilidade de clustering"

Copied!
58
0
0

Texto

(1)

Propriedades assintóticas e

estimadores consistentes para a

probabilidade de clustering

Mariana Pereira de Melo

Tese apresentada

ao

Instituto de Matemática e Estatística

da

Universidade de São Paulo

para

obtenção do título

de

Doutor em Ciências

Programa: Estatística

Orientador: Prof. Dr. Miguel Natalio Abadi

Durante o desenvolvimento deste trabalho o autor recebeu auxílio nanceiro da CAPES/CNPq São Paulo, 23 de maio de 2014

(2)
(3)

Propriedades assintóticas e

estimadores consistentes para a

probabilidade de clustering

Esta versão da tese contém as correções e alterações sugeridas pela Comissão Julgadora durante a defesa da versão original do trabalho, realizada em 23/05/2014. Uma cópia da versão original está disponível no Instituto de Matemática e Estatística da Universidade de São Paulo.

Comissão Julgadora:

• Prof. Dr. Miguel Natalio Abadi (orientador) - IME-USP • Prof. Dr. Cristian Favio Coletti - UFABC

• Profa. Dra. Laura Leticia Ramos Rifo - UNICAMP

• Profa. Dra. Veronica Andrea Gonzalez Lopez - UNICAMP • Profa. Dra. Denise Duarte Scarpa Magalhães Alves - UFMG

(4)
(5)

Agradecimentos

Ao meu marido, André, por sua extrema paciência e pelo seu apoio que me conforta e me fortalece para enfrentar novos desaos.

Aos meus familiares que sempre acreditaram e torceram por mim. Em especial, aos meus pais, que me deram não somente a vida, mas principalmente educação e condições de estudo e que, junto com minha irmã, me incentivaram em mais esta etapa da minha vida.

Ao meu orientador, Prof.Dr. Miguel Abadi, por sua orientação, dedicação e incentivo.

Aos membros da Comissão Julgadora por suas observações e sugestões, fundamentais para me-lhorar este trabalho.

Aos meus amigos, por todas as palavras de incentivo, que me apoiaram nos momentos mais diceis. Em especial, aos meus amigos Alex, Marina e Núbia que, além de me ensinarem sobre uma cultura diferente, se mostraram pessoas únicas e inesquecíveis.

A todos os colegas que conheci durante a pós-graduação no IME, a todos os funcionários e professores do Instituto.

Meus agradecimentos às entidades nanciadoras deste projeto, CAPES e CNPQ, que possibili-taram a realização deste trabalho.

(6)
(7)

Resumo

MELO, M. P. Propriedades assintóticas e estimadores consistentes para a probabilidade de clustering. 2014. 44 f. Tese (Doutorado) - Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo, 2014.

Considere um processo estocástico (Xm)m∈N em tempo discreto denido sobre o alfabeto nito

A. Seja xn−10 uma palavra xa sobre Ak. No estudo das propriedades estatísticas na teoria de

recorrência de Poincaré, é clássico o estudo do tempo decorrente até que a sequência xa xk−1 0 seja

encontrada em uma realização do processo. Tipicamente, esta é uma quantidade exponencialmente grande com relação ao comprimento da palavra.

Contrariamente, o primeiro tempo de retorno possível para uma sequência dada está denido como sendo o mínimo entre os tempos de entrada de todas as sequências que começam com a própria palavra e é uma quantidade tipicamente pequena, da ordem do tamanho da palavra.

A convergência quase certa para 1 da razão entre esta quantidade e k é estudada em ([29]) e ([9]). As utuações desta quantidade foram estudadas em ([5]) e ([24]). Já os grandes desvios desta função foram estudados por ([7]), ([20]) e ([13]).

Neste trabalho estudamos o comportamento da probabilidade deste primeiro retorno possível de uma palavra xk−1

0 dado que o processo começa com ela mesma. Esta quantidade mede a

in-tensidade de que, uma vez observado um conjunto alvo, possam ser observados agrupamentos ou clusters. Provamos que, sob certas condições, a taxa de decaimento exponencial desta probabilidade converge para a entropia para quase toda a sequência quando k diverge. Apresentamos também um estimador desta probabilidade para árvores de contexto e mostramos sua consistência.

Palavras-chave: tempo de entrada, tempo de retorno, clustering, árvores de contexto.

(8)
(9)

Abstract

MELO, M. P. Asymptotic properties and consistent estimators for the clustering proba-bility. 2014. 44 f. Tese (Doutorado) - Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo, 2014.

Considering a stochastic process (Xm)m∈N in a discrete dened time over a nite alphabet A

and xn−1

0 a xed word over Ak. In the study of the statistical properties of the Poincaré recurrence

theory, it is usual the study of the time elapsed until a xed sequence xk−1

0 appears in a given

realization of process. This quantity is known as the hitting time and it is usually exponentially large in relation to the size of word.

On the opposite, the rst possible return time of a given word is dened as the minimum among all the hitting times of realizations that begins with the given word xk−1

0 . This quantity is tipically

small that is of the order of the length of the sequence.

The almost surely convergence of the ratio between the rst possible return time and k was studied in ([29]) and ([9]). Flutuactions of this quantity were studied in ([5]) and([24]). Large deviations of this function were studied by ([7]), ([20]) and ([12]).

In this work, we study the probability of the rst possible return time given that the process begins of the target word. This quantity measures the intensity of that, once observed the target set, it can be observed in clusters. We show that, under certain conditions, the exponential decay rate of this probability converges to the entropy for all almost every word xk−1

0 as k diverges. We

also present an estimator of this probability for context trees and shows its consistency. Keywords: hitting time, return time, clustering, context trees.

(10)
(11)

Sumário

1 Introdução 1

1.1 Denições básicas . . . 1

1.2 Resultados Anteriores . . . 2

1.2.1 Função Primeiro retorno possível . . . 2

1.2.2 Função Tempo de Entrada. . . 3

1.2.3 Função Tempo de retorno . . . 3

1.2.4 Tipicalidade de larga-escala . . . 3

1.3 Objetivos e Resultados Obtidos . . . 4

2 Propriedades assintóticas 7 2.1 Denições . . . 7

2.1.1 Denições relativas à dependência . . . 8

2.1.2 Preliminares. . . 8

2.2 Propriedades assintóticas de ˜ρ(xk−1 0 ) e ρ(x k−1 0 ) para processos ψ0-regulares. . . 9

2.3 Propriedades assintóticas de ˜ρ(xk−1 0 )e ρ(xk−10 )para processos ψg-regulares, com g > 0. 10 2.4 Contra-exemplo: Processo ergódico e de entropia positiva. . . 12

3 Propriedades dos Estimadores 17 3.1 Árvores de Contexto . . . 17

3.2 Resultados obtidos para ˆ˜ρn(xk−10 ) . . . 19

3.2.1 Convergência do estimador ˆ˜ρn(xk−10 ) . . . 25

3.3 Resultados obtidos para ˆρn(xk−10 ) . . . 25

3.3.1 Convergência do estimador ˆρn(xk−10 ) . . . 31

A Ferramentas auxiliares 33

Referências Bibliográcas 45

(12)
(13)

Capítulo 1

Introdução

1.1 Denições básicas

Considere um processo estocástico (Xm)m∈N em tempo discreto denido sobre o alfabeto nito

A. Para cada inteiro positivo k, considere o conjunto de todas as palavras de comprimento k sobre este alfabeto, denominado Ak.

Denimos primeiramente o tempo de entrada de uma realização ω do processo em xk−1 0 ∈ Ak como Txk−1 0 (ω) = inf{j ≥ 1 : X j+k−1 j (ω) = x k−1 0 }. (1.1)

Este é o tempo de entrada clássico estudado na teoria de recorrência de Poincaré, que verica, entre outras coisas, o conhecido Lema de Kac. Tipicamente, esta é uma quantidade de magni-tude exponencialmente grande. Porém, neste trabalho consideraremos uma quantidade tipicamente pequena, de fácil observação nas amostras.

Seja a função τ(xk−1

0 ) denida como primeiro retorno possível para x k−1 0 , dada por τ (xk−10 ) = inf {ω:wk−10 =xk−10 } Txk−1 0 (ω).

Mesmo quando a denição de Txk−1

0 é puramente analítica, é interessante ter em mente uma

denição equivalente do ponto de vista combinatorial. Fixada uma palavra de tamanho k, xk−1 0 ,

o tempo de retorno de xk−1

0 sobre toda seqüência innita ω, tal que w0k−1 = xk−10 , é denido

explicitamente como

Txk−1

0 (ω) = inf{j ≥ 1 : x

k−j−1

0 = xk−1j } (1.2)

(e innito caso contrário), onde ω é uma realização do processo. Então τ (xk−10 ) = inf

{ω:wk−10 =xk−10 }

Txk−1 0 (ω).

Para uma palavra xk−1

0 , a função primeiro retorno possível nos dá o número mínimo de

trans-lações necessárias que temos que aplicar na sequência, a m de poder encontrar uma cópia dela mesma. Considere λ(xk−1 0 ) a probabilidade de saída de x k−1 0 , denida como λ(xk−10 ) = P(Txk−1 0 (ω) > τ (x k−1 0 )|X k−1 0 = x k−1 0 ) (1.3) ou, equivalentemente, λ(xk−10 ) = P(Xτ (x k−1 0 )+k−1 τ (xk−10 ) 6= x k−1 0 |X k−1 0 = x k−1 0 ). 1

(14)

Podemos denir ρ(xk−1

0 ) a partir da probabilidade de saída,

ρ(xk−10 ) = P(Txk−1 0 (ω) = τ (x k−1 0 )|X k−1 0 = x k−1 0 ) (1.4) ou, equivalentemente, ρ(xk−10 ) = P(Xτ (x k−1 0 )+k−1 τ (xk−10 ) = xk−10 |X0k−1 = xk−10 ). Observe que ρ(xk−1

0 )é a probabilidade de permanecer em xk−10 , isto é, ρ(xk−10 ) = 1 − λ(xk−10 ).

Esta quantidade mede a intensidade de que, uma vez observado um conjunto alvo, possam ser observados agrupamentos ou clusters.

1.2 Resultados Anteriores

1.2.1 Função Primeiro retorno possível

A relevância da função primeiro retorno possível foi colocada em evidência na análise estatística da recorrência de Poincaré. Para provar a convergência do número de ocorrências de uma palavra de tamanho k em uma amostra de tamanho n, quando k diverge, para a distribuição de Poisson é necessário que a palavra não se sobreponha ([22]) ou, pelo menos, que a proporção que sobreponha-se, em relação a k, seja pequena. Se este não for o caso, uma distribuição de Poisson é a lei limitante ([19]). Há também algumas aproximações para esse limite ([26], [27] e [28]).

Os primeiros trabalhos a estudar o comportamento da função de primeiro retorno foram ([14]) e ([1]), onde é provado que

P(τ (xk−10 ) ≤ ck) ≤ C exp −dk,

com C, c e d constantes positivas tal que c ∈ [0, 1]. Os resultados foram estabelecidos para processos ψ-mixing assumindo decaimento exponencial de {ψ(m)}m∈N e para processos φ-mixing assumindo

decaimento exponencial de {φ(m)}m∈N, respectivamente.

Posteriormente, usando a função de complexidade de Kolmogorov e, independentemente, utili-zando o Teorema de Shannon, Mc-Millan e Breiman, foi provado em ([29]) e ([9]) respectivamente que, para um processo estocástico sobre um alfabeto nito ou contável, com uma medida ergódica positiva µ e entropia positiva satisfazendo a propriedade de especicação, temos

τ (xk−10 ) k

q.c.

−−−→

k→∞ 1 (1.5)

para quase toda sequência x = (x1, x2, · · · ).

A função primeiro retorno possível também foi estudada em ([5]), onde provou-se que, para processos independentes e identicamente distribuídos e para qualquer alfabeto A,

k − τ (xk−10 ) ⇒ L(µ, σ2), ou seja, k −τ(xk−1

0 )converge em distribuição para uma lei não degenerada com média µ e variância

σ2.

O mesmo resultado foi obtido em ([24]) para processos β-misturadores, tal que Pjln(j)β(j) <

∞. Além disso, considerando a lei dos grandes desvios, obtemos por ([19]), ([7]) e ([12]) que 1 klog P τ (xk−10 ) k − 1 >  !

(15)

1.2 RESULTADOS ANTERIORES 3

1.2.2 Função Tempo de Entrada

A função primeiro retorno possível também aparece quando se considera o tempo de entrada, dado em (1.1), que é o tempo decorrido até a primeira ocorrência da palavra xk−1

0 em uma amostra

de tamanho n. Para um processo de renovação recorrente positivo e para toda sequência, foi provado em ([13]) que, quando a palavra não se sobrepõe, o tempo de entrada pode ser bem aproximado por uma lei exponencial com parâmetro determinado pela medida da palavra ([23]). Por outro lado, quando a palavra se sobrepõe, o parâmetro da lei exponencial é corrigido para λ(xk−1

0 )p(x k−1 0 ), onde

p(xk−10 ) é a medida da palavra de tamanho k tal que p(xk−10 ) = P(X0k−1= x

k−1 0 )

e λ(xk−1

0 ) é a probabilidade de saída, como denida em (1.3).

1.2.3 Função Tempo de retorno

Em ([13]) também foi provado que, para um processo de renovação recorrente positivo e para toda sequência, considerando uma palavra de tamanho k xa, xk−1

0 , o tempo de retorno também

pode ser bem aproximado por uma lei exponencial cujo parâmetro, quando a palavra não tem sobreposição, é a medida da palavra. No entanto, quando a palavra se sobrepõe, a distribuição do tempo de retorno de xk−1

0 é aproximadamente uma combinação convexa entre uma medida de Dirac

na origem e uma lei exponencial com parâmetro λ(xk−1 0 )p(x

k−1

0 ). O peso desta combinação convexa

é λ(xk−1

0 ). Estes resultados foram obtidos para processos α-mixing ([4]) e φ-mixing ([8]).

1.2.4 Tipicalidade de larga-escala

Como uma ferramenta para provar consistência, o estudo de tipicalidade de larga-escala, ou seja, a questão de quão perto estão as probabilidades empíricas de blocos de tamanho k denidas por

ˆ p(xk−10 ) = Nn(x k−1 0 ) n − k + 1 onde Nn(xk−10 ) = n−k X j=0 1{Xj+k−1 j = xk−10 }.

das verdadeiras probabilidades (estacionárias), p(xk−1

0 ), quando o tamanho da amostra n vai para

innito e k pode crescer quando n cresce, foi iniciado em ([15]) para o caso particular de cadeias de Markov.

Foi mostrado que, para uma cadeia de Markov ergódica de qualquer ordem k0, a

distribui-ção empírica do bloco de tamanho k, ˆp(xk−1

0 ) está próxima da verdadeira distribuição, p(x k−1 0 ),

eventualmente quase certamente, quando n → ∞ e k < α log n, para α adequado. Aqui, eventual-mente quase certaeventual-mente signica que, com probabilidade 1, existe um patamar n0 (dependente da

realização ω) tal que a armação vale para todo n ≥ n0.

Dando continuidade em ([21]), para cadeias de Markov de ordem k0, com alfabeto nito A,

teoremas limites foram provados sobre frequências relativas de blocos de tamanho k e de símbolos precedidos por um dado bloco de tamanho k, ou seja,

ˆ

Pn(Xk= xk|X0k−1 = xk−10 ),

onde xk ∈ A é o símbolo e k pode crescer quando o tamanho da amostra n cresce.

Primeira-mente uma melhoria do teorema da tipicalidade forte (apresentado em ([15])) foi provada usando a abordagem de grandes desvios, que também funciona para certos processos não-Markovianos. Em seguida, a questão da tipicalidade condicional de larga escala foi abordada para cadeias de Markov irredutíveis de ordem k0, isto é, o problema de quão perto estão as probabilidades condicionais

(16)

empíricas ˆ Pn(Xk= xk|X0k−1= x k−1 0 ) = ˆ Pn(X0k= xk0) ˆ Pn−1(X0k−1= x k−1 0 ) = Nn(X k 0 = xk0) Nn−1(X0k−1= xk−10 ) . das verdadeiras probabilidades condicionais P(Xk= xk|X0k−1 = x

k−1

0 )quando k ≥ k0 pode crescer

com n.

1.3 Objetivos e Resultados Obtidos

O objetivo deste trabalho é estudar o comportamento assintótico de ρ(xk−1

0 )e de um estimador

ˆ ρ(xk−10 ).

O crescimento linear de τ(xk−1

0 ) dado em (1.5) nos leva, por um lado, a introduzir o valor de

˜

ρ(xk−10 ) = P(Xk2k−1= x k−1

0 |X0k−1 = xk−10 )

e utilizá-lo como uma primeira aproximação.

No Capítulo 2, apresentaremos os resultados assintóticos de ρ(xk−1

0 ). Para isto é fundamental

entender o comportamento de τ(xk−1

0 )e de p(x k−1

0 ). Então, lembraremos o Teorema de Shannon-Mc

Millan Breiman para p(xk−1

0 ), dado por

Teorema 1.1. Suponha que o processo (Xm)m∈N é ergódico, estacionário e com entropia positiva.

Temos que −1 klog P(X k−1 0 = x k−1 0 ) q.c. −−−→ k→∞ h,

onde h é a entropia métrica do processo.

Este teorema indica que, se o processo tiver boas condições de mistura, ˜ρ(xk−1

0 ) deveria se comportar como p(xk−1 0 ) pois ˜ ρ(xk−10 ) = P(Xk2k−1= x k−1 0 |X k−1 0 = x k−1 0 ) ≈ p(xk−10 )p(xk−10 ) p(xk−10 ) = p(x k−1 0 ).

Além disso, o crescimento linear de τ(xk−1

0 )dado em (1.5) nos leva a acreditar que ˜ρ(x k−1

0 )possui

um comportamento parecido com ρ(xk−1

0 ). Desta maneira, esperamos para ˜ρ(xk−10 ) e ρ(xk−10 ) um

teorema similar ao Teorema de Shannon-Mc Millan-Breinman.

Dentre os resultados apresentados, mostraremos que, sob determinadas condições, o processo satisfaz − 1 klog ˜ρ(x k−1 0 ) q.c. −−−→ k→∞ h. (1.6)

Resultados similares são obtidos para ρ(xk−1

0 ). Porém, através da construção de um

contra-exemplo, mostraremos que (1.6) não é válido em geral para ˜ρ(xk−1

0 ). Não sabemos se a mesma

conclusão é válida para ρ(xk−1 0 ).

No Capítulo 3, serão apresentados os resultados assintóticos para os estimadores ˆ˜ρ(xk−1 0 ) e

ˆ

ρ(xk−10 ). Para uma realização de n passos de um processo estacionário dependente, vamos propor os seguintes estimadores de máxima verossimilhança

ˆ ˜ ρn(xk−10 ) = Nn(xk−10 xk−10 ) Nn−k(xk−10 ) e ˆ ρn(xk−10 ) = Nn  xk−10 xk−1 k−τ (xk−10 )  Nn−τ (xk−1 0 )(x k−1 0 )

(17)

1.3 OBJETIVOS E RESULTADOS OBTIDOS 5

onde Nn(y) é a quantidade de vezes que a sequência y aparece na amostra de tamanho n e Nn(xy)

é a quantidade de vezes que a sequência x, seguida da sequência y, aparece na amostra de tamanho n.

Utilizando o teorema 2 de ([21]) é possível encontrar, sob determinadas condições, o limite superior para a diferença

ˆ Pn(Xk= xk|X0k−1= xk−10 ) − Pn(Xk= xk|Xk−kk−10 = xk−1k−k0)

onde xk∈ Ae k0 é a ordem da cadeia de Markov.

Nesta tese, estudaremos as propriedades da probabilidade de uma determinada sequência xk−1 0

se sobrepor sobre uma cópia dela mesma. Para isto, iremos demonstrar, sob determinadas condições, uma extensão do teorema mencionado acima, porém, aplicado a árvores de contexto e trabalhando com a probabilidade de permanecer em xk−1

0 . Note que em ([21]), o teorema é demonstrado para

cadeias de Markov irredutíveis de ordem k0, considerando a probabilidade condicional de um único

(18)
(19)

Capítulo 2

Propriedades assintóticas

Neste capítulo provaremos as propriedades assintóticas de ˜ρn(xk−10 ) e ρn(xk−10 ). O ingrediente

principal da prova é o Teorema de Shannon-Mc Millan-Breiman ([11]). Na primeira seção deste capítulo, algumas denições e teoremas serão apresentados. A seguir, mostraremos os resultados obtidos e suas respectivas demonstrações. Finalmente, um contra-exemplo será construído, com o intuito de mostrar que estes resultados não são válidos para casos mais gerais.

2.1 Denições

Nesta seção, serão apresentadas algumas denições utilizadas no decorrer do capítulo.

Consideraremos um processo estocástico estacionário (Xm)m∈N tomando valores no alfabeto

nito A. O espaço AN das realizações deste processo será denotado Ω.

Denição 2.1. Denimos o Tempo de Entrada da palavra xk−1

0 como sendo a variável aleatória

Txk−1 0 : Ω → N ∪ {∞} dada por: Txk−1 0 (ω) = inf{j ≥ 1 : X j+k−1 j (ω) = x k−1 0 }. (2.1)

Observe que o tempo de entrada de uma palavra é o menor deslocamento necessário para se encontrar a palavra xk−1

0 em uma realização especíca ω do processo.

Denição 2.2. Denimos o Primeiro Retorno possível da palavra xk−1 0 como

τ (xk−10 ) = inf

{ω:wk−10 =xk−10 }

Txk−1 0 (ω).

Observe que o primeiro tempo de retorno possível de xk−1

0 é o ínmo entre os tempos de entrada

de todas as sequências que começam em xk−1 0 . Exemplo 2.3. Considere x6 0 = aabaaab. Palavra: a a b a a a b 1 deslocamento: a a b a a a b 2 deslocamentos: a a b a a a b 3 deslocamentos: a a b a a a b 4 deslocamentos: a a b a a a b

Observe que, neste exemplo, o encaixe ocorreu após 4 deslocamentos à direita. Logo, τ(aabaaab) = 4.

Podemos denir agora as probabilidades de saída e de permanência em xk−1 0 .

(20)

Denição 2.4. A Probabilidade de Saída de xk−1 0 é denida como λ(xk−10 ) = P  Xτ (x k−1 0 )+k−1 τ (xk−10 ) 6= x k−1 0 X0k−1 = xk−10  . Denição 2.5. A Probabilidade de permanência dentro do conjunto xk−1

0 é denida como ρ(xk−10 ) = 1 − λ(xk−10 ) = P  Xτ (x k−1 0 )+k−1 τ (xk−10 ) = x k−1 0 X0k−1= xk−10  . Denição 2.6. Similarmente, denimos

˜ ρ(xk−10 ) = P  Xk2k−1= xk−10 X0k−1= xk−10  .

Com o intuito de facilitar a leitura, na próxima seção apresentaremos alguns conceitos de de-pendência de variáveis aleatórias utilizados neste trabalho.

2.1.1 Denições relativas à dependência

Considere (Xm)m∈N um processo estocástico estacionário com valores no alfabeto A. O valor de

Xné interpretado como o estado do processo no tempo n. As palavras serão vistas como realizações

deste processo. Denote Fm

n a σ-álgebra gerada pelas palavras {Xnm= xmn}. O processo (Xm)m∈N é

1. ψg-regular se ∃ g ∈ N tal que, sendo

f1(m, n) = inf A∈Fn 1,B∈F n+1+g+m n+1+g P(B|A) P(B) , sup A∈Fn 1,B∈F n+1+g+m n+1+g P(B|A) P(B) = f2(m, n) (2.2) tem-se que 1 mlog f1(m, cm) e 1

mlog f2(m, cm) convergem para 0 quando m → ∞, para toda

constante positiva c.

Os processos ψg-regulares foram introduzidos em ([12]), onde é mostrado que a condição ψg

-regular implica na condição ψg+1-regular, para qualquer inteiro positivo g. Nesse trabalho, é

construído um processo que satisfaz a condição ψ1-regular mas que não satisfaz a condição

ψ0-regular, indicando como construir processos que satisfazem a condição ψg+1-regular e que

não satisfazem a condição ψg-regular, para qualquer inteiro positivo g.

Nos teoremas da seção2.2, iremos utilizar, em particular, a propriedade ψg-regular, com g = 0.

2. processo de renovação se, para qualquer estado xn+1∈ A:

P Xn+1 = xn+1 X1n= 0n, X0 = 1 = P Xn+1= xn+1 X1n= 0n, X0= 1, X−∞−1 = x−1−∞ . 2.1.2 Preliminares

Nesta seção apresentaremos dois teoremas já conhecidos na literatura, que serão utilizados no decorrer do capítulo. O primeiro é o Teorema de Shannon-Mc Millan-Breiman ([11]) e o segundo teorema foi apresentado em ([29]) e ([9]), que demonstra que τ(xk−1

0 ) tem um comportamento

próximo de k, o tamanho da palavra.

Teorema 2.7. Suponha que o processo (Xm)m∈N é ergódico, estacionário e com entropia positiva

h. Temos que − 1 klog P(X k−1 0 = xk−10 ) q.c. −−−→ k→∞ h. (2.3)

(21)

2.2 PROPRIEDADES ASSINTÓTICAS DE ˜ρ(XK−1 0 )E ρ(X

K−1

0 )PARA PROCESSOS ψ0-REGULARES. 9

Teorema 2.8. Suponha que (Xm)m∈N é um processo ergódico com alfabeto nito ou contável e com

entropia positiva, que satisfaz a propriedade de especicação. Então, temos que τ (xk−10 ) k q.c. −−−→ k→∞ 1. (2.4)

2.2 Propriedades assintóticas de ˜ρ(x

k−1 0

)

e ρ(x

k−1 0

)

para processos

ψ

0

-regulares.

O teorema a seguir nos mostra que, para (Xm)m∈N um processo ergódico, estacionário e que

satisfaz a condição ψ0-regular, temos que a probabilidade condicional

˜ ρ(xk−10 ) = P(Xk2k−1= x k−1 0 X0k−1= xk−10 )

apresenta decaimento exponencial a medida que o tamanho da palavra cresce, para quase toda sequência e com taxa exponencial dada pela entropia do processo.

Teorema 2.9. Para um processo (Xm)m∈N ergódico, estacionário e que satisfaz a condição ψ0

-regular, temos − 1 klog ˜ρ(x k−1 0 ) q.c. −−−→ k→∞ h. (2.5)

Prova. Por denição, temos que −1 klog ˜ρ(x k−1 0 ) = − 1 klog P(Xk2k−1= xk−10 X0k−1= xk−10 ) P(Xk2k−1= xk−10 ) −1 klog P(X 2k−1 k = x k−1 0 ).

Como o processo é estacionário e satisfaz a condição ψ0-regular, utilizando o Teorema2.7, temos

que −1 klog ˜ρ(x k−1 0 ) ≤ − 1 klog f1(k, k) − 1 klog P(X k−1 0 = x k−1 0 ) q.c. −−−→ k→∞ 0 + h = h e, do mesmo modo, −1 klog ˜ρ(x k−1 0 ) ≥ − 1 klog f2(k, k) − 1 klog P(X k−1 0 = x k−1 0 ) q.c. −−−→ k→∞ 0 + h = h.

De forma semelhante, de acordo com o próximo teorema, temos que para (Xm)m∈Num processo

ergódico, estacionário e que satisfaz a condição ψ0-regular, a probabilidade condicional

ρ(xk−10 ) = P  Xτ (x k−1 0 )+k−1 τ (xk−10 ) = x k−1 0 X0k−1 = xk−10 

apresenta decaimento exponencial a medida que o tamanho da palavra cresce, para quase toda sequência e com taxa exponencial dada pela entropia do processo.

Teorema 2.10. Para um processo (Xm)m∈N ergódico, estacionário e que satisfaz a condição ψ0

-regular, temos − 1 klog ρ(x k−1 0 ) q.c. −−−→ k→∞ h. (2.6)

Prova. Por denição, temos que

ρ(xk−10 ) = P  Xτ (x k−1 0 )+k−1 τ (xk−10 ) = x k−1 0 X0k−1= xk−10  = P  Xτ (x k−1 0 )−1 0 = x τ (xk−10 )−1 0 ∩ X τ (xk−10 )+k−1 τ (xk−10 ) = x k−1 0  P(X0k−1 = xk−10 ) .

(22)

Multiplicando e dividindo pelo termo P  Xτ (x k−1 0 )+k−1 τ (xk−10 ) = x k−1 0 

, podemos reescrever a expressão acima da seguinte forma

P  Xτ (x k−1 0 )+k−1 τ (xk−10 ) = x k−1 0 Xτ (x k−1 0 )−1 0 = x τ (xk−10 )−1 0  P  Xτ (x k−1 0 )+k−1 τ (xk−10 ) = xk−10  P  Xτ (x k−1 0 )−1 0 = x τ (xk−10 )−1 0 P  Xτ (x k−1 0 )+k−1 τ (xk−10 ) = x k−1 0  P(X0k−1 = xk−10 ) .

Logo, como o processo é estacionário e satisfaz a condição ψ0-regular, utilizando os teoremas 2.7e 2.8, temos que −1 klog ρ(x k−1 0 ) ≤ − 1 klog f1(τ (x k−1 0 ), k) − 1 klog P  Xτ (x k−1 0 )−1 0 = x τ (xk−10 )−1 0  − 1 klog P  X0k−1 = xk−10 + 1 klog P(X k−1 0 = x k−1 0 ) = − 1 klog f1(τ (x k−1 0 ), k) −τ (x k−1 0 ) k 1 τ (xk−10 )log P  Xτ (x k−1 0 )−1 0 = x τ (xk−10 )−1 0  q.c. −−−→ k→∞ 0 + 1h = h e, do mesmo modo, −1 klog ρ(x k−1 0 ) ≥ − 1 klog f2(τ (x k−1 0 ), k) − 1 klog P  Xτ (x k−1 0 )−1 0 = x τ (xk−10 )−1 0  − 1 klog P  X0k−1 = xk−10  + 1 klog P(X k−1 0 = x k−1 0 ) = − 1 klog f2(τ (x k−1 0 ), k) −τ (x k−1 0 ) k 1 τ (xk−10 )log P  Xτ (x k−1 0 )−1 0 = x τ (xk−10 )−1 0  q.c. −−−→ k→∞ 0 + 1h = h.

2.3 Propriedades assintóticas de ˜ρ(x

k−1 0

)

e ρ(x

k−1 0

)

para processos

ψg

-regulares, com g > 0.

De acordo com o próximo teorema temos que, para (Xm)m∈Num processo ergódico, estacionário

e que satisfaz a condição ψg-regular, então −

1

klog ˜ρ(x

k−1

0 ) é limitada inferiormente pela função

−1 klog f2(k, k − g) − 1 klog P(X k−g−1 0 = x k−g−1 0 )

que apresenta decaimento exponencial a medida que o tamanho da palavra cresce, para quase toda sequência e com taxa exponencial dada pela entropia do processo.

Teorema 2.11. Para um processo (Xm)m∈N ergódico, estacionário e que satisfaz a condição ψg

-regular, temos lim k→∞− 1 klog ˜ρ(x k−1 0 ) ≥ h, q.c. (2.7)

Prova. Por denição, temos que ˜ ρ(xk−10 ) = P(X k−1 0 = x k−1 0 ∩ X 2k−1 k = x k−1 0 ) P(X0k−1 = x k−1 0 ) .

(23)

2.3 PROPRIEDADES ASSINTÓTICAS DE ˜ρ(X

K−1 0 )E ρ(X

K−1

0 )PARA PROCESSOS ψG-REGULARES, COM

G > 0. 11 Para 0 ≤ g < k, vale P(X0k−1 = x k−1 0 ∩ X 2k−1 k = x k−1 0 ) ≤ P(X k−g−1 0 = x k−g−1 0 ∩ X 2k−1 k = x k−1 0 ).

Portanto, como o processo é estacionário, então ˜ ρ(xk−10 ) ≤ P(X k−g−1 0 = x k−g−1 0 ∩ Xk2k−1= x k−1 0 ) P(X0k−1= xk−10 ) = P(X 2k−1 k = x k−1 0 X0k−g−1= xk−g−10 ) P(Xk2k−1= x k−1 0 ) P(X0k−g−1= x k−g−1 0 ).

Como o processo satisfaz a condição ψg-regular, utilizando o Teorema2.7, temos que

−1 klog ˜ρ(x k−1 0 ) ≥ − 1 klog f2(k, k − g) − (k − g) k 1 (k − g)log P(X k−g−1 0 = x k−g−1 0 ) q.c. −−−→ k→∞ 0 + 1h = h.

De forma parecida ao teorema anterior, temos que para (Xm)m∈N um processo ergódico,

estaci-onário e que satisfaz a condição ψg-regular, temos que −

1

klog ρ(x

k−1

0 )é limitada inferiormente pela

função −1 klog f2(τ (x k−1 0 ), k − g) − 1 klog P  Xτ (x k−1 0 )−1 0 = x τ (xk−10 )−1 0  −1 klog P  X0k−g−1= xk−g−10  +1 klog P(X k−1 0 = xk−10 )

que apresenta decaimento exponencial a medida que o tamanho da palavra cresce, para quase toda sequência e com taxa exponencial dada pela entropia do processo.

Teorema 2.12. Para um processo (Xm)m∈N ergódico, estacionário e que satisfaz a condição ψg

-regular, temos lim k→∞− 1 klog ρ(x k−1 0 ) ≥ h, q.c.

Prova. Por denição, temos que

ρ(xk−10 ) = P  X0k−1= xk−10 ∩ Xk+τ (x k−1 0 )−1 k = x τ (xk−10 )−1 0  P  X0k−1 = xk−10  . Para 0 ≤ g < k, vale P  X0k−1 = xk−10 ∩ Xk+τ (x k−1 0 )−1 k = x τ (xk−10 )−1 0  ≤ P  X0k−g−1= xk−g−10 ∩ Xk+τ (x k−1 0 )−1 k = x τ (xk−10 )−1 0  . Desta forma, temos que

ρ(xk−10 ) ≤ P  X0k−g−1= xk−g−10 ∩ Xk+τ (x k−1 0 )−1 k = x τ (xk−10 )−1 0  P(X0k−1= xk−10 ) = P  Xk+τ (x k−1 0 )−1 k = x τ (xk−10 )−1 0 X0k−g−1= xk−g−10  P  X0k−1= xk−10  × P  X0k−g−1= xk−g−10  .

(24)

Multiplicando e dividindo pelo termo P  Xk+τ (x k−1 0 )−1 k = x τ (xk−10 )−1 0  , podemos reescrever a expressão acima da seguinte forma

P  Xk+τ (x k−1 0 )−1 k = x τ (xk−10 )−1 0 X0k−g−1= xk−g−10  P  Xk+τ (x k−1 0 )−1 k = x τ (xk−10 )−1 0  P  X0k−g−1= xk−g−10  P  Xk+τ (x k−1 0 )−1 k = x τ (xk−10 )−1 0  P(X0k−1= xk−10 ) .

Logo, como o processo é estacionário e satisfaz a condição ψg-regular, utilizando os teoremas 2.7e 2.8, temos que −1 klog ρ(x k−1 0 ) ≥ − 1 klog f2(τ (x k−1 0 ), k − g) − τ (xk−10 ) k 1 τ (xk−10 )log P  Xτ (x k−1 0 )−1 0 = x τ (xk−10 )−1 0  −(k − g) k 1 (k − g)log P  X0k−g−1= xk−g−10  + 1 klog P(X k−1 0 = x k−1 0 ) q.c. −−−→ k→∞ 0 + 1h + 1h − h = h.

A seguir, mostraremos que os teoremas 2.9e2.11acima não são válidos para casos mais gerais.

2.4 Contra-exemplo: Processo ergódico e de entropia positiva

Com o intuito de mostrar que os teoremas2.9e2.11não podem ser estendidos para o caso onde o processo é apenas ergódico, estacionário e de entropia positiva, construímos o seguinte contra-exemplo:

Denimos X2k variáveis aleatórias independentes com distribuição Bernoulli(p) e variáveis Y2k

e Z2k tais que X2k = Y2k = Z2k. Considere que

Y2k+1= Y2k

e que

Z2k−1= Z2k

valem para todo k.

Observe que as variáveis são independentes nas coordenadas pares.

Sejam P0e P00as medidas dos processos Y e Z, respectivamente. Considere os seguintes conjuntos:

Ck0 = {xj+1 = xj,para todo j par e 0 ≤ j ≤ k} e C

00

k = {xj−1 = xj,para todo j par e 0 ≤ j ≤

k}.

A seguir, mostraremos que:

(a) As medidas P0 e P00 não são estacionárias, mas a medida P = (P0+ P00)

2 é estacionária. Note que: (i) Se a sequência xk−1 0 ∈ C 0 k, então P0(X0k−1 = x k−1 0 ) = k/2 Y i=0 P(X2i= x2i) = ( P0(Xjj+k−1= xk−10 ), se j par P00(Xjj+k−1= x k−1 0 ), se j ímpar

(25)

2.4 CONTRA-EXEMPLO: PROCESSO ERGÓDICO E DE ENTROPIA POSITIVA 13 e P00(X0k−1= xk−10 ) = 0 = ( P00(Xjj+k−1= x k−1 0 ), se j par P0(Xjj+k−1= xk−10 ), se j ímpar (ii) Se a sequência xk−1 0 ∈ C 00 k, temos P0(X0k−1 = x k−1 0 ) = 0 = ( P0(Xjj+k−1= xk−10 ), se j par P00(Xjj+k−1= x k−1 0 ), se j ímpar e P00(X0k−1= xk−10 ) = k/2 Y i=0 P(X2i= x2i) = ( P00(Xjj+k−1= x k−1 0 ), se j par P0(Xjj+k−1 = xk−10 ), se j ímpar Generalizando, obtemos P0(Xjj+k−1= xk−10 ) = ( P0(X0k−1 = x k−1 0 ), para j par P00(X0k−1= x k−1 0 ), para j ímpar e P00(Xjj+k−1= x k−1 0 ) = ( P00(X0k−1 = xk−10 ), para j par P0(X0k−1= x k−1 0 ), para j ímpar

(b) Para todo 0 < p < 1, o processo Y + Z

2 é ergódico e tem entropia positiva. Considere os seguintes casos:

(i) Para toda sequência xk−1

0 com pelo menos dois símbolos 0 e dois símbolos 1 que pertence

ao conjunto C0 k, temos P0(X0k−1 = x k−1 0 ) ∼= p #10s 2 (1 − p) #00s 2 e P00(X0k−1 = x k−1 0 ) = 0

(ii) Para toda a sequência xk−1

0 com pelo menos dois símbolos 0 e dois símbolos 1 que pertence

ao conjunto C00 k, temos P0(X0k−1= xk−10 ) = 0 e P00(X0k−1= x k−1 0 ) ∼= p #10s 2 (1 − p) #00s 2

Para (i) e (ii),

h ∼= −p 2log p − (1 − p) 2 log (1 − p) + 1 klog 2 (iii) Para a sequência xk−1

0 formada apenas pelo símbolo 1, temos

P0(Xjj+k−1= x k−1 0 ) = P 00(Xj+k−1 j = x k−1 0 ) ∼= p #10s 2 , para todo j. Então, h ∼= −1 klog p k 2p = −p 2log p.

(26)

(iv) Para a sequência xk−1

0 formada apenas pelo símbolo 0, temos

P0(Xjj+k−1= x k−1 0 ) = P 00(Xj+k−1 j = x k−1 0 ) ∼= p #00s 2 , para todo j. Assim, h ∼= −1 klog (1 − p) k 2(1−p)= −(1 − p) 2 log(1 − p).

Logo, para (i), (ii), (iii) e (iv), temos que h > 0 para 0 < p < 1 e h = 0 para p = 0 ou p = 1. (c) O processo Y + Z

2 não satisfaz a condição ψg-regular, para todo g ∈ N. Considere os seguintes casos:

(i) Seja k par e o caso particular onde x(1)= {x

0 = 0, x1= 0, x2= 1, x3 = 1}e x(2)= {xk= 0, xk+1 = 1, xk+2= 1, xk+3 = 0}. Então, P(x(1)) = p(1 − p) + 0 2 e P(x (2)) = 0 + p(1 − p)2 2 . Note que x(1)x(2) = {x0= 0, x1 = 0, x2 = 1, x3= 1, . . . , xk= 0, xk+1= 1, xk+2 = 1, xk+3= 0}.

Como k é par, temos que:

• P0(x(1)x(2)) = 0 pois, se xk= 0, então xk+16= 1;

• P00(x(1)x(2)) = 0pois, se x2 = 1, então x16= 0.

Logo, P(x(1)x(2)) = 0. Neste caso, para todo k par,

P(x(2)|x(1)) P(x(2)) =

P(x(1)x(2)) P(x(1))P(x(2)) = 0.

Pela denição de ψg-regular, temos que P(x

(2)|x(1))

P(x(2)) encontra-se entre duas funções f1 (m, n) e f2(m, n) tal que

1

mfi(m, cm) → 0, quando m → ∞, para i = 1, 2. Porém, para estas sequências x(1) e x(2), com k par, isto não é válido pois P(x(2)|x(1))

P(x(2)) = 0 e não existe lim

m→∞

1 mlog

P(x(2)|x(1)) P(x(2)) . (ii) Seja k ímpar e o caso particular onde x(1) = {x

0 = 0, x1 = 0, x2 = 1, x3 = 1} e x(2)= {xk= 1, xk+1 = 1, xk+2= 0, xk+3= 0}. Então, P(x(1)) = p(1 − p) + 0 2 e P(x (2)) = p(1 − p) + 0 2 . Note que x(1)x(2) = {x0= 0, x1 = 0, x2 = 1, x3= 1, . . . , xk= 1, xk+1= 1, xk+2 = 0, xk+3= 0}.

(27)

2.4 CONTRA-EXEMPLO: PROCESSO ERGÓDICO E DE ENTROPIA POSITIVA 15

Como k é ímpar, temos que:

• P0(x(1)x(2)) = 0 pois, se xk+1= 1, então xk+2 6= 0;

• P00(x(1)x(2)) = 0 pois, se x2 = 1, então x16= 0.

Logo, P(x(1)x(2)) = 0. Neste caso, para todo k ímpar,

P(x(2)|x(1)) P(x(2)) = P(x (1)x(2)) P(x(1))P(x(2)) = 0.

Pela denição de ψg-regular, temos que P(x

(2)|x(1))

P(x(2)) encontra-se entre duas funções f1 (m, n) e f2(m, n) tal que

1

mfi(m, cm) → 0, quando m → ∞, para i = 1, 2. Porém, para estas sequências x(1) e x(2), com k ímpar, isto não é válido pois P(x(2)|x(1))

P(x(2))

= 0e

não existe lim

m→∞ 1 mlog P(x(2)|x(1)) P(x(2)) . (d) O processo Y + Z

2 não satisfaz a condição −1

klog ˜ρ(wk) → h q.c., quando k → ∞, onde h é a entropia do processo.

Como prova, iremos mostrar que existem innitas subsequências wki(ω) tal que p(wki(ω)) > 0 e

p(wki(ω)wki(ω)) = 0.

Seja wk uma sequência nita contida em M onde

M = {ω ∈ AN tal que ω começa com 10 e ω tem innitos 0's}.

Neste caso, para ω, existe uma subsequência innita k1(ω), k2(ω), k3(ω), · · · onde wki(ω) = 0.

Então, wki(ω) = 10 . . . 0 | {z } ki(ω) e wki(ω)wki(ω)= 10 . . . 010 . . . 0 | {z } 2ki(ω) Nestes casos, p(wki(ω)) > 0 e p(wki(ω)wki(ω)) = 0.

Logo, existem innitos ki(ω) tal que p(wki(ω)) > 0 e p(wki(ω)wki(ω)) = 0, ou seja,

˜

ρ(wki(ω)) = 0.

Consequentemente,

−1

(28)

Portanto, através deste contra-exemplo, mostramos que existe um processo estacionário, com entropia positiva e que não satisfaz a condição ψg-regular, para todo g ∈ N e tal que

−1

(29)

Capítulo 3

Propriedades dos Estimadores

Neste capítulo construiremos e apresentaremos as propriedades dos estimadores ˆ˜ρn(xk−10 ) e

ˆ

ρn(xk−10 )para árvores de contexto. Inicialmente, alguns conceitos básicos e a estrutura fundamental

dos processos utilizados serão apresentados e, nas seções seguintes, provaremos que os estimadores ˆ

˜

ρn(xk−10 ) e ˆρn(xk−10 ) convergem para ˜ρn(xk−10 ) e ρn(xk−10 ) q.c., respectivamente, quando n → ∞,

onde n é o tamanho da amostra.

3.1 Árvores de Contexto

Seja (Xm)m∈N um processo estocástico, ergódico e estacionário sobre o alfabeto nito A, de

tamanho |A|.

Dados dois inteiros m ≤ n denotamos por xn

m a sequência de símbolos xm, · · · , xn de A. O

comprimento da sequência xn

m é denido por l(xnm) = n − m + 1. Qualquer sequência xnm com

m > nrepresenta a sequência vazia. Dadas duas sequências xn

m e xsr, com l(xnm) < ∞, denotamos por xnmxsr a sequência

xm, · · · , xn, xr, · · · , xs, de comprimento l(xnm)+l(xsr), obtida pela concatenação das duas sequências.

Denição 3.1. Dizemos que a sequência s é um suxo da sequência w se existe uma sequência u, com l(u) ≥ 1, tal que w = us. Neste caso, escrevemos s ≺ w. Quando s ≺ w ou s = w, escrevemos s  w.

O suxo de uma sequência semi-innita é denido similarmente.

Denição 3.2. Uma sequência w ∈ Ak é um contexto para o processo (X

m)m∈N se P(X0k−1 =

w) > 0e para toda sequência semi-innita xk−1−∞∈ AN tal que w é um suxo de xk−1

−∞ temos que

P(Xk= a|X−∞k−1 = xk−1−∞) = P(Xk = a|X0k−1= w)

para todo a ∈ A e nenhum suxo de w satisfaz esta equação.

A denição acima foi extraída de ([16]) e implica que o conjunto de todos os contextos pode ser representado como uma árvore com raiz e rótulos. Esta árvore é chamada árvore de contextos do processo (Xm)m∈N e será denotada por T .

Denição 3.3. Considere Aj o conjunto de todas as sequências de comprimento j sobre A. Seja

A∗=

[

j=1

Aj.

Um subconjunto T de A∗ é uma árvore se nenhuma sequência s ∈ T é um suxo de outra

sequência w ∈ T . Esta propriedade é chamada de propriedade do suxo.

(30)

Denotamos por d(T ) a profundidade da árvore T , ou seja, d(T ) = sup{l(w) : w ∈ T }.

No caso onde d(T ) < ∞, temos que T tem um número nito de sequências e dizemos que T é limitada, denotando por |T | o número de sequências em T . Por outro lado, se d(T ) = ∞, então T tem um número contável de sequências e dizemos que T é ilimitada.

Denição 3.4. A árvore de contexto é irredutível se nenhuma sequência w pode ser substituída por um suxo s sem violar a propriedade de suxo. Esta noção foi introduzida em ([16]) e generaliza o conceito de árvore completa.

Denição 3.5. Uma árvore de contexto probabilística sobre A é um par ordenado (T , p) tal que (a) T é uma árvore irredutível.

(b) p = {p(.|w) : w ∈ T } é uma família de probabilidades de transição sobre A.

Denição 3.6. Dizemos que o processo (Xm)m∈N é compatível com a árvore de contexto

probabi-lística (T , ¯p) se e somente se

(a) Todo w ∈ T é um contexto para o processo (Xm)m∈N.

(b) Para todo w ∈ T e todo a ∈ A, ¯p(a|w) = P(Xk= a|Xk−l(w)k−1 = w).

A seguir, são apresentadas duas árvores de contexto. A gura3.1representa a árvore de contexto limitada, de um processo de renovação com profundidade igual a 3. Já a gura 3.2 representa a árvore de contexto ilimitada de um processo de renovação.

Figura 3.1: Árvore de contexto de um processo de renovação (k0= 3)

Figura 3.2: Árvore de contexto de um processo de renovação (k0= ∞)

O objetivo deste capítulo é estudar as propriedades assintóticas dos estimadores de máxima verossimilhança ˆ˜ρn(xk−10 ) e ˆρn(xk−10 ), dados por

ˆ ˜ ρn(xk−10 ) = Nn(xk−10 x k−1 0 ) Nn−k(xk−10 )

(31)

3.2 RESULTADOS OBTIDOS PARA ˆ˜ρN(X0K−1) 19 e ˆ ρn(xk−10 ) = Nn  xk−10 xk−1 k−τ (xk−10 )  Nn−τ (xk−1 0 )(x k−1 0 ) .

Considere a função Nn(y) : AN→ R, onde y é uma sequência nita, denida da seguinte forma:

Nn(y) = n−l(y) X j=0 Yj(y), (3.1) onde Yj(y) =      1, se Xjj+l(y)−1 = y 0, caso contrário

ou seja, Nn(y) é a quantidade de vezes que a sequência y aparece na amostra de tamanho n.

3.2 Resultados obtidos para ˆ˜ρ

n(xk−10

)

Nesta seção mostraremos que a ocorrência dos eventos: uma amostra de tamanho k −1 aparecer um número mínimo de vezes e a distância entre ˜ρn(xk−10 ) e o estimador ˆ˜ρn(xk−10 ) ser superior a um

erro tem probabilidade nula de ocorrer innitas vezes. Sejam ξ e η números reais positivos. Considere

(ξ, η, xk−10 ) = s

max{2ξk, η log log Nn−k(xk−10 )}

Nn−k(xk−10 ) e Gn(ξ, η, xk−10 ) = n ρˆ˜n(x k−1 0 ) − P(X 2k−1 k = x k−1 0 |X k−1 k−s = x k−1 k−s) > (ξ, η, x k−1 0 ) o . (3.2)

Seja c uma constante positiva e

Hn(c, xk−10 ) =

n

Nn−k(xk−10 ) > 2ck

o

. (3.3)

Além disso, considere Bn(ξ, η, c, xk−10 ) o evento {Gn(ξ, η, xk−10 ) ∩ Hn(c, xk−10 )}e

Bn= [ k≥s [ xk−10 Bn(ξ, η, c, xk−10 ). (3.4) Fixando θ > 1, seja Cm(ξ, η, c, θ, xk−10 ) = ∞ [ l=2k (Bl(ξ, η, c, xk−10 ) ∩ {θ m< N l−k(xk−10 ) ≤ θ m+1}), (3.5) e Cm = [ k≥s [ xk−10 Cm(ξ, η, c, θ, xk−10 ).

A seguir, apresentaremos um lema que será utilizado como ferramenta auxiliar na prova do teorema, que tem como objetivo mostrar que, sob determinadas condições,

(32)

Observe que se, além desta condição,

P(lim sup Cm) = 0

também é válida, então podemos concluir que

P(lim sup Bn) = 0.

Lema 3.7. Para ξ, η, c e θ xos, tal que θ > 1, seja Bn e Cm como denidos em (3.4) e (3.5).

Então temos que

P(lim sup Bn\ lim sup Cm) = 0.

Prova. Seja mk=

 log(2ck) log θ



e considere que ω ∈ lim sup Bn. Temos que

∞ [ m=mk Cm(ξ, η, c, θ, xk−10 ) = ∞ [ m=mk ∞ [ j=2k (Bj(ξ, η, c, xk−10 ) ∩ {θm < Nj−k(xk−10 ) ≤ θm+1}) = ∞ [ j=2k (Bj(ξ, η, c, xk−10 ) ∩ {Nj−k(xk−10 ) > θ mk}). Como log(2ck) log θ − 1 < mk< log(2ck)

log θ , temos que θ

mk < 2ck < θmk+1. Desta forma, ∞ [ j=2k (Bj(ξ, η, c, xk−10 ) ∩ {Nj−k(xk−10 ) > θ mk}) ⊃ ∞ [ j=2k (Bj(ξ, η, c, xk−10 ) ∩ {Nj−k(xk−10 ) > 2ck}) = ∞ [ j=2k Bj(ξ, η, c, xk−10 ) ⊃ Bn(ξ, η, c, xk−10 ), ∀n ≥ 2k.

Do enunciado, temos que ω ∈ lim sup Bn, ou seja, existem innitos i tal que ω ∈ Bni(ξ, η, c, x(i)

kni−1 0 ). Como Bni(ξ, η, c, x(i) kni−1 0 ) ⊂ [ m=mkni Cm(ξ, η, c, θ, x(i) kni−1 0 ), então Bni(ξ, η, c, x(i) kni−1 0 ) ⊂ Clkni(ξ, η, c, θ, x(i) kni−1 0 ) para algum lkni ≥ mkni.

Portanto, existem innitos i tal que ω ∈ Clkni(ξ, η, c, θ, x(i) kni−1

0 ), para algum lkni ≥ mkni.

Desta forma, concluímos que ω ∈ lim sup Cm.

Teorema 3.8. Considere (Xm)m∈N um processo estocástico, ergódico, estacionário e compatível

com a árvore de contexto probabilística (T , P). Para s < k, considere a sequência xk−1

0 tal que

xk−1k−s ∈ T.Então, para todo ξ > log |A|2 , existem η > 0 e c > 0 tal que

P n

Gn(ξ, η, xk−10 ) ∩ Hn(c, xk−10 )

o

i.v.= 0. Prova. Seja Bn(ξ, η, c, xk−10 )o evento {Gn(ξ, η, xk−10 ) ∩ Hn(c, xk−10 )}e

Bn= [ k≥s [ xk−10 Bn(ξ, η, c, xk−10 ). (3.6)

(33)

3.2 RESULTADOS OBTIDOS PARA ˆ˜ρN(X0K−1) 21

Iremos mostrar que para todo ξ > log |A|

2 e η e c sucientemente grandes, P(lim sup Bn) = 0. Fixando θ > 1, considere Cm(ξ, η, c, θ, xk−10 ) = ∞ [ l=2k (Bl(ξ, η, c, xk−10 ) ∩ {θm< Nl−k(xk−10 ) ≤ θm+1}), (3.7) e Cm = [ k≥s [ xk−10 Cm(ξ, η, c, θ, xk−10 ).

Para mostrarmos que P(lim sup Bn) = 0, iremos utilizar o Lema3.7. Conforme já mencionado,

é suciente mostrar que P(lim sup Cm) = 0, ou, por Borel-Cantelli, que ∞

X

m=1

P(Cm) < ∞

para uma escolha adequada de θ > 1 na denição de Cm.

Considere Zn=    Nn(xk−10 xk−10 ) − P(Xk2k−1= x k−1 0 |Xk−sk−1 = x k−1 k−s)Nn−k(x k−1 0 ), para n ≥ 2k 0, para 0 ≤ n < 2k. (3.8) Pelo Lema A.1, para todo n ≥ 2k, temos que Zn é um martingal e que |Zn+1− Zn| ≤ 1.

Para todo n ≥ 2k, seja

u(n) =1{Xn−2kn−1 = xk−10 xk−10 } − E[1{Xn−2kn−1 = xk−10 xk−10 }|Fn−k−1] =1{Xn−2kn−1 = xk−10 xk−10 } −1{Xn−2kn−k−1= xk−10 }P(Xk2k−1= x k−1 0 |Xk−sk−1= x k−1 k−s).

Observe que Zn− Zn−1 = u(n). Assim, a sequência de variáveis aleatórias An, onde (Am)m∈N

denota o processo crescente associado com o submartingal (Z2

m)m∈N pela Decomposição de Doob,

é dado por An= n X t=2k E((Zt− Zt−1)2|Ft−k−1) = n X t=2k E((u(t))2|Ft−k−1) Como, u(n)2=1{Xn−2kn−1 = xk−10 xk−10 } − 21{Xn−2kn−1 = xk−10 xk−10 }1{Xn−2kn−k−1= xk−10 }[P(Xk2k−1= x k−1 0 |X k−1 k−s = x k−1 k−s)] +1{Xn−2kn−k−1= xk−10 }[P(Xk2k−1= x k−1 0 |X k−1 k−s = x k−1 k−s)] 2 temos que E(u(n)2|Fn−k−1) =1{Xn−2kn−k−1= xk−10 }[P(Xk2k−1= x k−1 0 |Xk−sk−1= x k−1 k−s)] − 21{Xn−2kn−k−1= xk−10 }[P(Xk2k−1= xk−10 |Xk−sk−1 = xk−1k−s)]2 +1{Xn−2kn−k−1= xk−10 }[P(Xk2k−1= x k−1 0 |X k−1 k−s = x k−1 k−s)] 2.

(34)

Portanto, E(u(n)2|Fn−k−1) = =1{Xn−2kn−k−1= xk−10 }[P(X2k−1 k = x k−1 0 |Xk−sk−1 = x k−1 k−s)][1 − P(X 2k−1 k = x k−1 0 |Xk−sk−1= x k−1 k−s)]. Assim, An= n X t=2k E(u(t)2|Ft−k−1) = n X t=2k 1{Xt−k−1 t−2k = x k−1 0 }P(Xk2k−1= x k−1 0 |Xk−sk−1 = x k−1 k−s)[1 − P(X 2k−1 k = x k−1 0 |Xk−sk−1 = x k−1 k−s)] = Nn−k(xk−10 )P(Xk2k−1= x k−1 0 |Xk−sk−1= x k−1 k−s)[1 − P(X 2k−1 k = x k−1 0 |Xk−sk−1= x k−1 k−s)] ≤ 1 4Nn−k(x k−1 0 ). (3.9) Agora, xe  > 0. Considere

f (λ) = exp(λ) − 1 − λ λ e g(λ) = 1 2 +   λ.

Cálculos diretos mostram que f(λ) = g(λ) tem uma única solução, que chamamos λ0().

Para 0 < λ < λ0() temos f(λ) < g(λ) e para λ > λ0() temos f(λ) > g(λ). Desta forma, para

0 < λ < λ0(),  X > 1 2+   λ  ⊂  X > exp(λ) − 1 − λ λ  . (3.10)

Portanto, para todo m ≥ 0 e 0 < λ < λ0(), por (3.9) e (3.10) temos que

{θm < N n−k(xk−10 ) ≤ θm+1} ∩  |Zn| > α + 1 2 +   λθ m+1 4  ⊂  |Zn| > α + exp(λ) − 1 − λ λ An  . (3.11) Iremos considerar α e λ como

α(m) = θ

m/2pmax[2ξk, η log(m log θ)]

2(1 + ) e

λ(m) = 4pmax[2ξk, η log(m log θ)] (1 + )θ1+m/2 .

Para garantir que λ < λ0(), necessário em (3.11), assumimos que m satisfaz

θm+1> τ () max[2ξk, η log(m log θ)] onde τ () = 

4 λ0()

2

e também excede um patamar m0(, θ, η).

Considerando θm< N n−k(xk−10 ), temos que α + 1 2 +   λθ m+1 4 = θ m/2p

max[2ξk, η log(m log θ)] <

q

Nn−k(xk−10 ) max[2ξk, η log log(Nn−k(xk−10 ))].

(35)

3.2 RESULTADOS OBTIDOS PARA ˆ˜ρN(X0K−1) 23

Além disso,

αλ = µ max[2ξk, η log(m log θ)], onde

µ = 2

(1 + )2θ.

Assim, por (3.11), (3.12) e pelo CorolárioA.10, P ∞ [ n=2k (θm < Nn−k(xk−10 ) ≤ θm+1) ∩ (|Zn| > q

Nn−k(xk−10 ) max[2ξk, η log log Nn−k(xk−10 )])

! < P ∞ [ n=2k  θm < Nn−k(xk−10 ) ≤ θ m+1  |Zn| > α +  1 2 +   λθ m+1 4 ! < P ∞ [ n=2k  |Zn| > α + exp(λ) − 1 − λ λ An ! ≤ 2 exp(−λα), (3.13) onde 2 exp(−λα) = 2 exp(−µ max[2ξk, η log(m log θ)]).

Note que a desigualdade (3.13) é válida quando 0 < λ < λ0(), isto é, quando m satisfaz

θm+1 > τ () max[2ξk, η log(m log θ)], com τ() = 

4 λ0()

2

e quando m > m0(, θ, η).

Da equação (3.8), para n ≥ 2k, observamos que Zn Nn−k(xk−10 ) = Nn(x k−1 0 x k−1 0 ) Nn−k(xk−10 ) − P(X 2k−1 k = x k−1 0 |X k−1 k−s = x k−1 k−s)Nn−k(x k−1 0 ) Nn−k(xk−10 ) = ˆρ˜n(xk−10 ) − P(Xk2k−1= x k−1 0 |Xk−sk−1 = x k−1 k−s)

e temos que Cm(ξ, η, c, θ, xk−10 ) é igual a intersecção do evento

( [

n=2k

(θm < Nn−k(xk−10 ) ≤ θm+1) ∩ (|Zn| >

q

Nn−k(xk−10 ) max[2ξk, η log log Nn−k(xk−10 )])

)

com o evento

{Nn−k(xk−10 ) > 2ck}.

Quando a intersecção é não vazia, temos que θm+1> τ () max[2ξk, η log(m log θ)]e como θm+1

Nn−k(xk−10 ) > 2ck, temos que 2ck ≥ τ() max[2ξk, η log(m log θ)].

Assim, se c em (3.3) é sucientemente grande, então para todo m > m0(, θ, η)e para todo xk−10

com k > s:

P(Cm(ξ, η, c, θ, xk−10 )) ≤ 2 exp(−µ max[2ξk, η log(m log θ)])

=        2 exp(−2µξk), se k ≥ η 2ξlog(m log θ) 2(m log θ)−µη, se k < η 2ξlog(m log θ). (3.14)

Assuma θ e  até agora arbitrários são selecionados tais que µξ = 2ξ

(36)

possível pela suposição ξ > log |A| 2 . De (3.7), temos que P(Cm) = P    [ k≥s [ xk−10 Cm(ξ, η, c, θ, xk−10 )   ≤ X k≥s X xk−10 P(Cm(xk−10 )). Utilizando a desigualdade (3.14), X k≥s X xk−10 P(Cm(ξ, η, c, θ, xk−10 )) ≤ 2    X k≥η log(m log θ) exp(−2µξk)  #xk−10 : k ≥ η 2ξ log(m log θ)     + 2    X k<η log(m log θ) (m log θ)−µη  #xk−10 : k < η 2ξ log(m log θ)     = 2    X k≥η log(m log θ) |A|kexp(−2µξk) +    X k<η log(m log θ) |A|k   (m log θ) −µη   . (3.15)

Para o cálculo do primeiro termo do lado direito de (3.15), observe que

∞ X k≥η log(m log θ) |A|kexp(−2µξk) = ∞ X k≥η log(m log θ)

exp(−k(2µξ − log |A|))

= exp(−

η

2ξlog(m log θ)(2µξ − log |A|))

1 − exp(−(2µξ − log |A|)) .

(3.16)

Para o segundo termo do lado direito da equação (3.15), temos que    X k<η log(m log θ) |A|k   (m log θ)

−µη≤ (m log θ)−µη|A|η log(m log θ)+1

. (3.17)

Como

|A|2ξη log(m log θ) = (m log θ) η

2ξlog |A|, (3.18)

então temos por (3.16), (3.17) e (3.18), P(Cm) ≤ 2

exp(−η

2ξlog(m log θ)(2µξ − log |A|))

1 − exp(−(2µξ − log |A|)) + (m log θ)

−µη|A|(m log θ)η log |A|

! = 2   (m log θ)−ηµ+ η log |A| 2ξ

1 − exp(−(2µξ − log |A|))+ |A|(m log θ)

−ηµ+η log |A|   = π × (m log θ)−(µ− log |A| 2ξ )η, onde π é constante. Portanto, se η > 2ξ

2µξ − log |A|, temos que P

(37)

3.3 RESULTADOS OBTIDOS PARA ˆρN(X0K−1) 25

3.2.1 Convergência do estimador ˆ˜ρn(xk−10 )

A seguir vericaremos que, para uma sequência xa xk−1

0 , pelo LemaA.11e como consequência

do Teorema3.8, a distância entre a probabilidade condicional P(X2k−1

k = x k−1 0 |X k−1 k−s = x k−1 k−s)e seu

estimador ˆ˜ρn(xk−10 )converge para zero.

Corolário 3.9. Considere os conjuntos Gn(ξ, η, xk−10 ) e Hn(c, xk−10 ) denidos em (3.2) e (3.3).

Sob as hipóteses do Teorema 3.8, temos que P

n

Gn(ξ, η, xk−10 )

o

i.v.= 0.

Prova. Considere Gn(ξ, η, xk−10 ) e Hn(c, xk−10 ) denidos em (3.2) e (3.3), respectivamente. Pelo

Teorema3.8, obtemos o seguinte resultado P

n

Gn(ξ, η, xk−10 ) ∩ Hn(c, xk−10 )

o

i.v.= 0. (3.19)

Observe também que Hn(c, xk−10 ) é um conjunto crescente e existe um número inteiro positivo

n0 tal que

Nn−k(xk−10 ) > 2ck,

para todo n > n0.Logo,

P n

Hn(c, xk−10 )

o

i.v.= 1

Portanto, pelo Lema A.11 podemos concluir, sob as condições do Teorema 3.8, que P n Gn(ξ, η, xk−10 ) o i.v.= 0. Logo, P n ˆ ˜ ρn(xk−10 ) − P(X 2k−1 k = x k−1 0 |X k−1 k−s = x k−1 k−s) > (ξ, η, x k−1 0 ) o i.v.= 0, e, ˆ ˜ ρn(xk−10 ) q.c. −−−→ n→∞ P(X 2k−1 k = x k−1 0 |X k−1 k−s = x k−1 k−s). (3.20)

Na próxima seção será apresentado o teorema e o corolário quando consideramos ρn(xk−10 ) e o

respectivo estimador ˆρn(xk−10 ).

3.3 Resultados obtidos para ˆρn

(x

k−10

)

Nesta seção mostraremos que a ocorrência dos eventos: uma amostra de tamanho k −1 aparecer um número mínimo de vezes e a distância entre o estimador ρn(xk−10 ) e o valor estimado ˆρn(xk−10 )

ser superior a um erro tem probabilidade nula de ocorrer innitas vezes. Sejam ξ e η números reais positivos. Considere

(ξ, η, xk−10 ) = v u u t

max{2ξk, η log log Nn−τ (xk−1 0 )(x k−1 0 )} Nn−τ (xk−1 0 )(x k−1 0 ) . e Gn(ξ, η, xk−10 ) =  ˆ ρn(xk−10 ) − P  Xk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−10 )|X k−1 k−s = x k−1 k−s  > (ξ, η, xk−10 )  . (3.21)

(38)

Seja c uma constante positiva e Hn(c, xk−10 ) = n Nn−τ (xk−1 0 )(x k−1 0 ) > 2ck o . (3.22)

Além disso, considere Bn(ξ, η, c, xk−10 ) o evento {Gn(ξ, η, xk−10 ) ∩ Hn(c, xk−10 )}e

Bn= [ k≥s [ xk−10 Bn(ξ, η, c, xk−10 ). (3.23) Fixando θ > 1, considere Cm(ξ, η, c, θ, xk−10 ) = ∞ [ l=k+τ (xk−10 ) (Bl(ξ, η, c, xk−10 ) ∩ {θm < Nl−τ (xk−10 )(x k−1 0 ) ≤ θm+1}), (3.24) e Cm = [ k≥s [ xk−10 Cm(ξ, η, c, θ, xk−10 ).

A seguir, apresentaremos um lema que será utilizado como ferramenta auxiliar na prova do teorema que, sob determinadas condições,

P(lim sup Bn\ lim sup Cm) = 0.

Observe que se, além desta condição,

P(lim sup Cm) = 0

também é válida, então podemos concluir que

P(lim sup Bn) = 0.

Lema 3.10. Para ξ, η, c e θ xos, tal que θ > 1, seja Bn e Cm como denidos em (3.23) e (3.24).

Então temos que

P(lim sup Bn\ lim sup Cm) = 0.

Prova. Seja mk=

 log(2ck) log θ



e considere que ω ∈ lim sup Bn. Temos que

∞ [ m=mk Cm(ξ, η, c, θ, xk−10 ) = ∞ [ m=mk ∞ [ j=k+τ (xk−10 ) (Bj(ξ, η, c, xk−10 ) ∩ {θm< Nj−τ(xk−1 0 )(x k−1 0 ) ≤ θ m+1}) = ∞ [ j=k+τ (xk−10 ) (Bj(ξ, η, c, xk−10 ) ∩ {Nj−τ(xk−1 0 )(x k−1 0 ) > θ mk}).

(39)

3.3 RESULTADOS OBTIDOS PARA ˆρN(X0K−1) 27

Como log(2ck)

log θ − 1 < mk<

log(2ck)

log θ , temos que θ

mk < 2ck < θmk+1. Desta forma, ∞ [ j=k+τ (xk−10 ) (Bj(ξ, η, c, xk−10 ) ∩ {Nj−τ(xk−10 )(xk−10 ) > θ mk}) ⊃ ∞ [ j=k+τ(xk−10 ) (Bj(ξ, η, c, xk−10 ) ∩ {Nj−τ(xk−10 )(xk−10 ) > 2ck}) = ∞ [ j=k+τ (xk−10 ) Bj(ξ, η, c, xk−10 ) ⊃ Bn(ξ, η, c, xk−10 ), ∀n ≥ k + τ (xk−10 ).

Do enunciado, temos que ω ∈ lim sup Bn, ou seja, existem innitos i tal que ω ∈ Bni(ξ, η, c, x(i)

kni−1 0 ). Como Bni(ξ, η, c, x(i) kni−1 0 ) ⊂ [ m=mkni Cm(ξ, η, c, θ, x(i) kni−1 0 ), então Bni(ξ, η, c, x(i) kni−1 0 ) ⊂ Clkni(ξ, η, c, θ, x(i) kni−1 0 ) para algum lkni ≥ mkni.

Portanto, existem innitos i tal que ω ∈ Clkni(ξ, η, c, θ, x(i) kni−1

0 ), para algum lkni ≥ mkni.

Desta forma, concluímos que ω ∈ lim sup Cm.

Teorema 3.11. Considere (Xm)m∈N um processo estocástico, ergódico, estacionário e compatível

com a árvore de contexto probabilística (T , P). Para s < k, considere a sequência xk−1

0 tal que

xk−1k−s ∈ T.Então, para todo ξ > log |A|2 , existem η > 0 e c > 0 tal que

P n Gn(ξ, η, xk−10 ) ∩ Hn(c, xk−10 ) o i.v.  = 0. Prova. Seja Bn(ξ, η, c, xk−10 )o evento {Gn(ξ, η, xk−10 ) ∩ Hn(c, xk−10 )}e

Bn= [ k≥s [ xk−10 Bn(ξ, η, c, xk−10 ). (3.25)

Iremos mostrar que para todo ξ > log |A|

2 e η e c sucientemente grandes, P(lim sup Bn) = 0. Fixando θ > 1, considere Cm(ξ, η, c, θ, xk−10 ) = ∞ [ l=k+τ (xk−10 ) (Bl(ξ, η, c, xk−10 ) ∩ {θm < Nl−τ (xk−10 )(x k−1 0 ) ≤ θm+1}), (3.26) e Cm = [ k≥s [ xk−10 Cm(ξ, η, c, θ, xk−10 ).

Para mostrarmos que P(lim sup Bn) = 0, iremos utilizar o Lema3.10. Conforme já mencionado,

(40)

X

m=1

P(Cm) < ∞

para uma escolha adequada de θ > 1 na denição de Cm.

Considere Zn=      Nn  xk−10 xk−1 k−τ (xk−1 0 )  − PXk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−1 0 ) |Xk−1 k−s = x k−1 k−s  Nn−τ (xk−1 0 )(x k−1 0 ), para n ≥ k + τ(x k−1 0 ) 0, para 0 ≤ n < k + τ(xk−10 ). (3.27) Pelo LemaA.2, para todo n ≥ k + τ(xk−1

0 ), temos que Zn é um martingal e que |Zn+1− Zn| ≤ 1. Para todo n ≥ k + τ(xk−1 0 ), seja u(n) =1nXn−1 n−k−τ (xk−10 )= x k−1 0 x k−1 k−τ (xk−10 ) o − Eh1 nXn−1 n−k−τ (xk−10 )= x k−1 0 x k−1 k−τ (xk−10 ) o |Fn−τ (xk−1 0 )−1 i =1nXn−1 n−k−τ (xk−10 )= x k−1 0 x k−1 k−τ (xk−10 ) o −1nXn−τ (x k−1 0 )−1 n−k−τ (xk−10 )= x k−1 0 o P  Xk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−10 )|X k−1 k−s = x k−1 k−s  . Observe que Zn− Zn−1= u(n). Assim, a sequência de variáveis aleatórias An, onde (Am)m∈N denota o

processo crescente associado com o submartingal (Z2

m)m∈N pela Decomposição de Doob, é dado por

An= n X t=k+τ (xk−1 0 ) E(Zt− Zt−1) 2 |Ft−τ (xk−1 0 )−1  = n X t=k+τ (xk−1 0 ) E(u(t))2|Ft−τ (xk−1 0 )−1  . Como, u(n)2=1nXn−1 n−k−τ (xk−10 )= x k−1 0 x k−1 k−τ (xk−10 ) o − 21nXn−1 n−k−τ (xk−1 0 ) = xk−10 xk−1 k−τ (xk−1 0 ) o 1 nXn−τ (xk−10 )−1 n−k−τ (xk−1 0 ) = xk−10 o hPXk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−1 0 ) |Xk−1 k−s = x k−1 k−s i +1nXn−τ (x k−1 0 )−1 n−k−τ (xk−1 0 ) = xk−10 o hPXk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−1 0 ) |Xk−1 k−s = x k−1 k−s i2 temos que Eu(n)2|Fn−τ (xk−1 0 )−1  =1nXn−τ (x k−1 0 )−1 n−k−τ (xk−1 0 ) = xk−10 o hP  Xk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−1 0 ) |Xk−1 k−s = x k−1 k−s i − 21nXn−τ (x k−1 0 )−1 n−k−τ (xk−1 0 ) = xk−10 o hP  Xk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−1 0 ) |Xk−1 k−s = x k−1 k−s i2 +1nXn−τ (x k−1 0 )−1 n−k−τ (xk−1 0 ) = xk−10 o hP  Xk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−1 0 ) |Xk−1 k−s = x k−1 k−s i2 . Portanto, Eu(n)2|Fn−τ (xk−1 0 )−1  = =1nXn−τ (x k−1 0 )−1 n−k−τ (xk−10 )= x k−1 0 o h P  Xk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−10 )|X k−1 k−s = x k−1 k−s i h 1 − PXk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−10 )|X k−1 k−s = x k−1 k−s i .

(41)

3.3 RESULTADOS OBTIDOS PARA ˆρN(X0K−1) 29 Assim, An= n X t=k+τ (xk−1 0 ) Eu(t)2|Ft−τ (xk−1 0 )−1  = n X t=k+τ (xk−10 ) 1nXt−τ (x k−1 0 )−1 t−k−τ (xk−10 )= x k−1 0 o P  Xk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−10 )|X k−1 k−s = x k−1 k−s  h 1 − PXk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−10 )|X k−1 k−s = x k−1 k−s i = Nn−τ (xk−1 0 )(x k−1 0 )P  Xk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−10 )|X k−1 k−s = x k−1 k−s  h 1 − PXk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−10 )|X k−1 k−s = x k−1 k−s i ≤ 1 4Nn−τ (xk−10 )(x k−1 0 ). (3.28)

Agora, xe  > 0. Considere

f (λ) = exp(λ) − 1 − λ λ e g(λ) = 1 2 +   λ.

Cálculos diretos mostram que f(λ) = g(λ) tem uma única solução, que chamamos λ0().

Para 0 < λ < λ0() temos f(λ) < g(λ) e para λ > λ0() temos f(λ) > g(λ). Desta forma, para 0 < λ < λ0(),  X > 1 2 +   λ  ⊂  X > exp(λ) − 1 − λ λ  . (3.29)

Portanto, para todo m ≥ 0 e 0 < λ < λ0(), por (3.28) e (3.29) {θm< Nn−τ (xk−1 0 ) (xk−10 ) ≤ θm+1} ∩  |Zn| > α +  1 2+   λθ m+1 4  ⊂  |Zn| > α + exp(λ) − 1 − λ λ An  . (3.30) Iremos considerar α e λ como

α(m) = θ

m/2pmax[2ξk, η log(m log θ)] 2(1 + )

e

λ(m) = 4pmax[2ξk, η log(m log θ)] (1 + )θ1+m/2 .

Para garantir que λ < λ0(), necessário em (3.30), assumimos que m satisfaz θm+1> τ () max[2ξk, η log(m log θ)] onde τ () =

 4 λ0()

2

e também excede um patamar m0(, θ, η). Considerando θm< N n−τ (xk−10 )(x k−1 0 ), temos que α + 1 2+   λθ m+1 4 = θ m/2p

max[2ξk, η log(m log θ)] <qNn−τ (xk−1

0 )

(xk−10 ) max[2ξk, η log log(Nn−τ (xk−1 0 )

(xk−10 ))].

(3.31) Além disso,

(42)

onde

µ = 2 (1 + )2θ. Assim, por (3.30), (3.31) e pelo CorolárioA.10,

P   ∞ [ n=k+τ (xk−10 ) (θm< Nn−τ (xk−1 0 ) (xk−10 ) ≤ θm+1) ∩ (|Zn| > q Nn−τ (xk−1 0 )

(xk−10 ) max[2ξk, η log log Nn−τ (xk−1 0 ) (xk−10 )])   < P   ∞ [ n=k+τ (xk−10 )  θm< Nn−τ (xk−1 0 ) (xk−10 ) ≤ θm+1∩  |Zn| > α +  1 2+   λθ m+1 4    < P   ∞ [ n=k+τ (xk−1 0 )  |Zn| > α + exp(λ) − 1 − λ λ An   ≤ 2 exp(−λα), (3.32) onde 2 exp(−λα) = 2 exp(−µ max[2ξk, η log(m log θ)]).

Note que a desigualdade (3.32) é válida quando 0 < λ < λ0(), isto é, quando m satisfaz θm+1 > τ () max[2ξk, η log(m log θ)], com τ() =

 4 λ0() 2 e quando m > m0(, θ, η). Da equação (3.27), para n ≥ k + τ(xk−1 0 ), observamos que Zn Nn−τ (xk−1 0 )(x k−1 0 ) = Nn  xk−10 xk−1 k−τ (xk−10 )  Nn−τ (xk−1 0 )(x k−1 0 ) −P  Xk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−10 )|X k−1 k−s = x k−1 k−s  Nn−τ (xk−1 0 )(x k−1 0 ) Nn−τ (xk−1 0 )(x k−1 0 ) = ˆρn(xk−10 ) − P  Xk+τ (x k−1 0 )−1 k = x k−1 k−τ (xk−10 )|X k−1 k−s= x k−1 k−s 

e temos que Cm(ξ, η, c, θ, xk−10 )é igual a intersecção do evento    ∞ [ n=k+τ (xk−10 ) (θm< Nn−τ (xk−1 0 )(x k−1 0 ) ≤ θ m+1) ∩ (|Z n| > q Nn−τ (xk−1 0 )(x k−1

0 ) max[2ξk, η log log Nn−τ (xk−10 )(x k−1 0 )])    com o evento {Nn−τ (xk−1 0 ) (xk−10 ) > 2ck}.

Quando a intersecção é não vazia, temos que θm+1 > τ () max[2ξk, η log(m log θ)] e como θm+1 Nn−τ (xk−1

0 )(x

k−1

0 ) > 2ck, temos que 2ck ≥ τ() max[2ξk, η log(m log θ)].

Assim, se c em (3.22) é sucientemente grande, então para todo m > m0(, θ, η)e para todo xk−10 com k > s:

P(Cm(ξ, η, c, θ, xk−10 )) ≤ 2 exp(−µ max[2ξk, η log(m log θ)])

=        2 exp(−2µξk), se k ≥ η 2ξlog(m log θ) 2(m log θ)−µη, se k < η 2ξlog(m log θ). (3.33)

Assuma θ e  até agora arbitrários são selecionados tais que µξ = 2ξ

(1 + )2θ > log |A|, que é possível pela suposição ξ > log |A|

2 . De (3.7), temos que P(Cm) = P   [ k≥s [ xk−10 Cm(ξ, η, c, θ, xk−10 )  ≤ X k≥s X xk−10 P(Cm(xk−10 )).

(43)

3.3 RESULTADOS OBTIDOS PARA ˆρN(X0K−1) 31 Utilizando a desigualdade (3.33), X k≥s X xk−10 P(Cm(ξ, η, c, θ, xk−10 )) ≤ 2   X k≥ηlog(m log θ) exp(−2µξk)  #xk−10 : k ≥ η 2ξlog(m log θ)    + 2   X k<η 2ξlog(m log θ) (m log θ)−µη  #xk−10 : k < η 2ξlog(m log θ)    = 2   X k≥ηlog(m log θ) |A|kexp(−2µξk) +   X k<ηlog(m log θ) |A|k  (m log θ)−µη  . (3.34) Para o cálculo do primeiro termo do lado direito de (3.34), observe que

∞ X k≥η log(m log θ) |A|kexp(−2µξk) = ∞ X k≥η log(m log θ)

exp(−k(2µξ − log |A|))

= exp(− η

2ξlog(m log θ)(2µξ − log |A|)) 1 − exp(−(2µξ − log |A|)) .

(3.35)

Para o segundo termo do lado direito da equação (3.34), temos que   X k<η log(m log θ) |A|k  (m log θ) −µη≤ (m log θ)−µη|A|η 2ξlog(m log θ)+1. (3.36) Como

|A|2ξη log(m log θ)= (m log θ) η

2ξlog |A|, (3.37)

então temos por (3.35), (3.36) e (3.37), P(Cm) ≤ 2

exp(−η

2ξlog(m log θ)(2µξ − log |A|))

1 − exp(−(2µξ − log |A|)) + (m log θ)

−µη|A|(m log θ)2ξη log |A|

!

= 2 (m log θ)

−ηµ+η log |A| 2ξ

1 − exp(−(2µξ − log |A|))+ |A|(m log θ)

−ηµ+η log |A| 2ξ

!

= π × (m log θ)−(µ−log |A|2ξ )η,

onde π é constante.

Portanto, se η > 2ξ

2µξ − log |A|, temos que P ∞

m=1P(Cm) < ∞, ou seja, P(lim sup Cm) = 0.

3.3.1 Convergência do estimador ˆρn(xk−10 )

A seguir, vericaremos que, para uma sequência xa xk−1

0 , pelo LemaA.11e como consequência

do Teorema3.11, a distância entre a probabilidade condicional P  Xτ (x k−1 0 )+k−1 k = x k−1 k−τ (xk−10 )|X k−1 k−s = x k−1 k−s 

e seu estimador ˆρn(xk−10 ) converge para zero.

Corolário 3.12. Sejam os conjuntos Gn(ξ, η, xk−10 ) e Hn(c, xk−10 )denidos em (3.21) e (3.22). Sob

as hipóteses do Teorema 3.11, temos que P n Gn(ξ, η, xk−10 ) o i.v.  = 0.

Referências

Documentos relacionados

Tais restrições, sendo convencionais, operam efeitos entre o loteador e os que vão construir no bairro, enquanto não colidentes com a legislação urbanística ordenadora da cidade e

Como apontado no Relatório Anual dos Gastos Militares do SIPRI, “é improvável que o aumento das despesas militares na América do Sul resulte em uma guerra entre Estados, mas

A média de idade foi semelhante entre homens (70,3.. anos) e mulheres (70,9 anos), sem diferença estatística, o que sugere que os homens desse estudo não apresentaram menor

A intricada relação de crise que ocorre entre as duas esferas pública e privada expõe questões que de início nos pareceriam no- vas, porém, nas palavras de Arendt, não é

▪ Quanto a solução para os conflitos entre os pais e a escola, houve um grande número de pais que não responderam, o que pode nos revelar que os pais não fizeram

Podem treinar tropas (fornecidas pelo cliente) ou levá-las para combate. Geralmente, organizam-se de forma ad-hoc, que respondem a solicitações de Estados; 2)

Deste modo, o adequado zoneamento e sua observância são fundamentais para a conciliação da preservação ou conservação de espécies, hábitats e paisagens dentre outras e

• Quando o navegador não tem suporte ao Javascript, para que conteúdo não seja exibido na forma textual, o script deve vir entre as tags de comentário do HTML. &lt;script Language