Inferência em cadeias com memória de alcance variável

(1)

Inferˆ

encia em cadeias com mem´

oria de

alcance vari´

avel

Niter´oi - RJ, Brasil 05 de dezembro de 2019

(2)

Maiara Gripp

Inferˆ

encia em cadeias com mem´

oria

de alcance vari´

avel

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Douglas Rodrigues Coorientador: Profa. Karina Yuriko Yaginuma

Niter´oi - RJ, Brasil 05 de dezembro de 2019

(3)

(4)

Inferˆ

encia em cadeias com mem´

oria de

alcance vari´

avel

Monografia de Projeto Final de Gradua¸cão sob o t´ıtulo “In-ferência em cadeias com memória de alcance variável”, defen-dida por Maiara Gripp e aprovada em 05 de dezembro de 2019, na cidade de Niterói, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Douglas Rodrigues Departamento de Estat´ıstica – UFF

Prof. Dr. Valentin Sisko Departamento de Estat´ıstica – UFF

Prof. Dr. Guilherme Ost Departamento de Estat´ıstica – UFRJ

Profa. Dra. Karina Yuriko Yaginuma Departamento de Estat´ıstica – UFF

(5)

Bibliotecário responsável: Ana Nogueira Braga - CRB7/4776

G846i Gripp, Maiara

Inferência em cadeias com memória de alcance variável / Maiara Gripp ; Douglas Rodrigues, orientador ; Karina Yuriko Yaginuma, coorientador. Niterói, 2019.

70 f.

Trabalho de Conclusão de Curso (Graduação em

Estatística)-Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2019.

1. Cadeias de alcance variável. 2. Algoritmo Contexto. 3. Critério de Informação Bayesiano. 4. Árvore de contextos. 5. Produção intelectual. I. Rodrigues, Douglas, orientador. II. Yaginuma, Karina Yuriko, coorientador. III. Universidade Federal Fluminense. Instituto de Matemática e Estatística. IV. Título.

(6)

-Nesta disserta¸cão foram estudadas cadeias estocásticas de ordem fixa k ≥ 2, e cadeias de ordem variável, com espa¸co de estados A = {0, 1}. Cadeias de alcance variável são uma classe de cadeias estocásticas introduzidas por (RISSANEN, 1983). Nestas cadeias a ocorrência de eventos depende de alguma por¸cão do passado, e o tamanho desta por¸cão é variável em fun¸cão da informa¸cão contida nos eventos que já ocorreram. Abordou-se aqui como fazer inferência sobre as probabilidades de transi¸cão inerentes às cadeias, e quanta informa¸cão do passado deve ser usada para estimá-las adequadamente. Para isto foram utilizados o Critério de Informa¸cão Bayesiano (BIC), e uma variante do Algoritmo Contexto. Estas probabilidades, quando estimadas corretamente, podem ser usadas para fazer predi¸cões de grande utilidade prática. Ao constatar que o Algoritmo Contexto estima qual parte do passado é relevante para fazer predi¸cões, verificou-se que, para isto, ele decide se olhar um passo a mais no passado traz algum ganho de informa¸cão significativo. Seu critério de decisão é um valor δ. Este valor deve permitir que o Algoritmo Contexto descarte informa¸cões desnecessárias e mantenha informa¸cões relevantes. Uma vez que ele é fundamental para a aplica¸cão do Algoritmo Contexto, propôs-se estudar esse valor δ através de simula¸cões. Foi poss´ıvel encontrar uma equa¸cão que estima δ em fun¸cão de duas variáveis explicativas, quando o modelo atende às premissas necessárias, e, desta forma, analisar o comportamento de δ diante de mudan¸cas nessas variáveis.

Palavras-chaves: Cadeias de alcance variável, Algoritmo Contexto, Critério de Informa¸cão Bayesiano, Árvore de contextos.

(7)

Gostaria de agradecer aos meus orientadores, que estão comigo praticamente desde que ingressei na faculdade, não só pelo auxilio neste trabalho mas por toda a dedica¸cão nesses últimos anos.

(8)

Lista de Figuras Lista de Tabelas 1 Introdu¸cão p. 11 1.1 Motiva¸cão . . . p. 12 1.2 Objetivos . . . p. 12 1.3 Organiza¸cão . . . p. 13 2 Materiais e Métodos p. 14 2.1 Cadeias de alcance k . . . p. 14 2.1.1 Inferência para cadeias de memória de alcance k . . . p. 17 2.2 Estima¸cão do alcance de uma cadeia . . . p. 22 2.2.1 Critério de Informa¸cão Bayesiano (BIC) . . . p. 22 2.2.2 Algoritmo Contexto . . . p. 23 2.3 Cadeias de Alcance Variável . . . p. 26 2.3.1 Conceitos básicos . . . p. 29 2.4 Estima¸cão de árvores de contextos . . . p. 33 2.4.1 Critério de Informa¸cão Bayesiano (BIC) . . . p. 33 2.4.2 Algoritmo Contexto . . . p. 36 2.5 Modelo de Regressão Linear Múltipla com transforma¸cão cúbica . . . . p. 39

(9)

3.1.1 Considera¸cões iniciais da simula¸cão . . . p. 42 3.2 Simula¸cão . . . p. 46 3.2.1 Rela¸cão entre δ e as probabilidades de transi¸cão . . . p. 47 3.2.2 Algoritmo para determina¸cão de IAδ∗ . . . p. 48

3.2.3 Rela¸cão linear entre δ e . . . p. 51 3.2.4 Modelo de Regressão Linear Múltipla . . . p. 53 3.2.4.1 Compara¸cão de resultados . . . p. 56

4 Conclus˜oes p. 62

Referˆencias p. 64

(10)

1 Amostra de tamanho n = 11 em A = {0, 1}. . . p. 17 2 Arvore completa para d = 3 e A = {0, 1}´ . . . p. 24 3 Arvore completa para d = 2 e A = {0, 1}´ . . . p. 25 4 Arvore de contextos para Z´ n. . . p. 27

5 Amostra de tamanho 10 de Y10

1 , um sistema com 3 neurˆonios. . . p. 28

6 Exemplos de ´arvores. . . p. 30 7 Exemplo de ´arvore irredut´ıvel τ . . . p. 31 8 Arvore da Figura 7 truncada em k = 3, τ |´ 3. . . p. 32

9 Log negativo da Verossimilhan¸ca para τ . . . p. 35 10 BIC para τ . . . p. 36 11 Arvore completa para d = 4 e A = {0, 1}´ . . . p. 37 12 Arvore de contextos da Figura 11 ap´´ os primeira aplica¸c˜ao do passo 2. p. 38 13 Arvore de contextos da Figura 12 ap´´ os aplica¸c˜ao do passo 3. . . p. 38 14 Arvore referente a τ´ 0 = {0, 01, 011, 111} com A = {0, 1} . . . p. 43

15 Comportamento de δl e δu a mudan¸cas em N mantendo d = 4, para τ2. p. 49

16 Intervalos de aceita¸cão de δ . . . p. 50 17 Distribui¸cão de δ∗ em fun¸cão de para cada τi . . . p. 52

18 Distribui¸c˜ao de δ∗ em fun¸c˜ao de n e para τ2. . . p. 53

(11)

1 Listagens de árvores de contextos por cardinalidade . . . p. 35 2 Rela¸cão d versus n . . . p. 46 3 Resultado de r = 100 amostras de tamanho N para τ2 no cenário bom. p. 48

4 Resultado de r = 100 amostras de tamanho N para τ2 no cen´ario ruim. p. 48

5 Valor de d para cada N nas Tabelas 3 e 4 . . . p. 49 6 Parte de resultados da 2a _simula¸c˜_ao. _{. . . .} _{p. 51}

7 Tabela com resultados da estima¸c˜ao dos modelos RLM. . . p. 55 8 Tabela com resultados dos testes de normalidade dos res´ıduos e R2 _dos

modelos ajustados . . . p. 55 9 Resultados de testes de aplicabilidade de (3.1) e (3.2) para τ2. . . p. 58

10 Resultados de testes de aplicabilidade de (3.1) e (3.2) para τ4. . . p. 59

11 Resultados de testes de aplicabilidade de (3.1) e (3.2) . . . p. 60 12 Resultados de testes de aplicabilidade de (3.1) e (3.2) . . . p. 61 13 Resultados da simula¸c˜ao 2 . . . p. 69

(12)

1 Introdu¸

c˜

ao

Fazer previsões é uma necessidade humana, é o que antecede toda a tomada de de-cisão. A possibilidade de melhorar a qualidade das previsões depende da quantidade de informa¸cão dispon´ıvel. Em geral, previsões são obtidas a partir do passado. Por exemplo, até uma crian¸ca pode estimar que o vendedor de picolé vai passar no mesmo horário do dia anterior, e se ele repetiu o padrão nos dias que antecederam, melhor ainda.

Seria ótimo obter uma probabilidade acurada sobre um evento futuro baseado apenas no que ocorreu hoje, mas, às vezes, é preciso revisitar também alguns eventos no passado para ter mais certeza. Uma cadeia estocástica descreve a evolu¸cão de um determinado fenômenos ao longo do tempo. A partir dela é poss´ıvel estimar a probabilidade de um evento se repetir no futuro. Existe, entretanto, o custo operacional de olhar para toda a cadeia, e ele pode ser inviabilizante. Diante disso, (RISSANEN, 1983) introduziu um conceito de “parte relevante do passado”, o contexto. O contexto é uma sequência de eventos que, uma vez identificada em uma cadeia, dispensa qualquer informa¸cão adicional. Mas como identificam-se os contextos? Se o vendedor de picolé chegou no mesmo horário nos últimos 3 dias, vale a pena lembrar o que ocorreu antes disso? Mas e se houve um grande atraso justamente no dia anterior? Uma ideia para identificar um contexto é verificar se olhar mais para o passado não melhora a predi¸cão a ponto de justificar o custo. Para isso é preciso limitar quanta certeza se está disposto a perder. Qual perda preditiva vale a pena tolerar para reduzir o custo?

Neste trabalho abordou-se o estudo de cadeias estocásticas, que dependem do passado, em busca de ferramentas que possam melhora a predi¸cão de eventos. Foram analisadas duas formas de estima¸cão das árvores de contexto, dentre elas uma variante do Algoritmo Contexto. Esta variante, definida em (GALVES; MAUME-DESCHAMPS; SCHMITT, 2008) depende de um critério de decisão δ. Por fim, procurou-se compreender este δ e tentar encontrar maneiras de estima-lo dados alguns critérios iniciais.

(13)

1.1 Motiva¸

c˜

ao

Este trabalho foi motivado pela crescente utiliza¸cão de cadeias de alcance variável nas mais diversas áreas como Lingu´ıstica, Log´ıstica, Economia, Biologia, em particular, no estudo de Neurociências, pelo modelo de Galves-Löcherbach, apresentado em (GALVES; L ÖCHERBACH, 2012).

Existem muitos eventos cuja ocorrência pode ser estimada observando o passado. Muitas vezes é poss´ıvel predizer a próxima palavra de um texto baseado apenas no que já foi escrito. A hora da chegada de um ônibus, a um ponto em um determinado dia, pode ser estimada a partir da hora de chegada nos dias anteriores. Até mesmo os tempos em que ocorrerão disparos em um sistema de neurônios podem ser estimados a partir dos ´

ultimos disparos nesse sistema. Diante disso fica clara a necessidade do estudo de cadeias estocásticas, cujas probabilidades de realiza¸cão de eventos dependem exclusivamente do passado. Este trabalho pretende o aprofundamento neste estudo através, principalmente, na análise do Algoritmo Contexto. Um resumo completo sobre cadeias de alcance variável e Algoritmo Contexto pode ser encontrado em (GALVES; L ÖCHERBACH, 2008).

O Algoritmo Contexto é uma ferramenta utilizada para estimar qual parte do passado, registrada nas cadeias estocásticas, é relevante para estimar o próximo evento. A variante do Algoritmo Contexto que será estudada aqui tem por critério de decisão um valor δ. A importância do δ para a aplica¸cão do Algoritmo Contexto foi motivadora para que sua análise fosse alvo de destaque neste trabalho, principalmente ao considerar a ausência de estudos sobre ele até o momento.

1.2 Objetivos

Os objetivos deste trabalho s˜ao:

• Estudar processos estocásticos cujas probabilidades de transi¸cão não dependam ape-nas do passado imediato.

• Estudar a estima¸cão das probabilidades de transi¸cão para cadeias estocásticas. • Estudar formas de determina¸cão dos contextos de cadeias estocásticas pelo Critério

de Informa¸c˜ao Bayesiano (BIC) e pelo Algoritmo Contexto.

(14)

• Estimar o δ, o critério de decisão do Algoritmo Contexto. Analisar o impacto da sobrestima¸cão e da subestima¸cão de δ para o Algoritmo Contexto. Determinar como encontrar um intervalo de valores poss´ıveis para δ quando a árvore de contextos é conhecida. Verificar como δ se comporta em fun¸cão das probabilidades de transi¸cão e do tamanho da amostra através de simula¸cões computacionais.

1.3 Organiza¸

c˜

ao

Na Se¸cão 2.1, desta disserta¸cão, aborda-se o conceito de cadeias estocásticas de alcance k ≥ 2, em seguida, faz-se inferência sobre suas probabilidades de transi¸cão. Na Se¸cão 2.2 analisa-se a estima¸cão do alcance das cadeias através do Critério de Informa¸cão Bayesiano (BIC), e o Algoritmo Contexto. Na Se¸cão 2.3 amplia-se o estudo para cadeias de alcance variável através da defini¸cão de árvores de contexto. Na Se¸cão 2.4 aplicam-se o critério BIC e o Algoritmo Contexto para a estima¸cão dos contextos de cadeias de alcance variável. Na Se¸cão 2.5 é feita uma breve descri¸cão do modelo de Regressão linear múltipla, que será usado posteriormente para predi¸cão de δ. Por fim, no Cap´ıtulo 3 discute-se o delta, um limite superior para a distância entre as probabilidades de transi¸cão, ou seja, a perda máxima que se pode aceitar, em termos de qualidade na estimativa das probabilidades de transi¸cão, para reduzir o custo, e propõe-se formas de estimar seu valor a partir de algumas premissas.

(15)

2 Materiais e M´

etodos

2.1 Cadeias de alcance k

O estudo de Processos Estocásticos nas gradua¸cões em Estat´ıstica das universidades brasileiras aborda o tema Cadeias de Markov, em sua maioria, como sequências cujas probabilidades de transi¸cão dependem de apenas 1 passo no passado. Do ponto de vista probabil´ıstico, uma cadeia de Markov de ordem k é uma cadeia de Markov de ordem 1 com um espa¸co de estados apropriado, como será visto na Proposi¸cão 2.1. Por isso, em geral não se estuda as cadeias de Markov de ordem k. Entretanto, do ponto de vista estat´ıstico, as cadeias de ordem k e ordem 1 são objetos diferentes. Através do estudo de cadeias de ordem k e com base em uma amostra, é poss´ıvel determinar o k que “melhor” descreve esta amostra. Neste cap´ıtulo, pretende-se definir e estudar as cadeias de ordem k ∈ N.

Defini¸c˜ao 2.1. Seja (Xn)n∈N uma cadeia assumindo valores no espa¸co de estados finito

A, e k um inteiro positivo, diz-se que (Xn)n∈N ´e uma cadeia de mem´oria de alcance k se,

∀ n ≥ k:

P Xn = xn | X0n−1 = x n−1

0 = P Xn= xn | X_n−kn−1 = xn−1_n−k , (2.1)

onde Xn

j = xnj ´e uma nota¸c˜ao simplificada para Xn = xn, Xn−1 = xn−1, ..., Xj+1 =

xj+1, Xj = xj, n > j.

A probabilidade de transi¸cão para o próximo estado depende dos últimos k estados da cadeia, mas dispensa qualquer registro anterior a estes. Para cada n, pode-se também definir Xn como uma fun¸cão dos k passos anteriores e um termo aleatório Un, em outras

palavras

Xn= f (Xn−1, Xn−2, ..., Xn−k, Un) ,

onde (Un)n∈N é uma sequência de variáveis aleatórias uniformes, independentes e

identi-camente distribu´ıdas (i.i.d.) no intervalo [0, 1].

(16)

ordem 1, a n´ıvel de gradua¸cão. Isto, na verdade, é justificado quando nota-se que toda a Cadeia de Markov de ordem k ≥ 2 pode ser interpretada como uma cadeia de ordem 1. Proposi¸cão 2.1. Toda cadeia de alcance k no espa¸co de estados A pode ser reescrita como uma cadeia de alcance 1 em Ak_{, onde A}k _´_{e o conjunto de todas as sequˆ}_{encias de}

s´ımbolos de A de tamanho k.

Seja u = a1a2...ak uma sequˆencia concatenada de elementos ai ∈ A, por exemplo,

u = 0011 ∈ A4é a concatena¸cão de 0, 0, 1, 1, que são elementos de A = {0, 1}. Propõe-se demonstrar a Proposi¸cão 2.1. Demonstra¸cão. P (Xn = an|Xn−kn−1 = a n−1 n−k) = P Xn= an, Xn−k+1n−1 = a n−1 n−k+1| X n−1 n−k+1 = a n−1 n−k+1, Xn−k = an−k = P X_n−k+1n = an_n−k+1| Xn−1 n−k = a n−1 n−k .

Tomando un = an−k+1an−k+2...an, un∈ Ak, e Yn= (Xn−k+1, Xn−k+2, ..., Xn), tem-se que

P Xn = an| Xn−kn−1 = a n−1

n−k = P (Yn = un| Yn−1 = un−1),

onde (Yn)_n≥k ´e uma cadeia de ordem 1 em Ak.

De forma geral, se (Xn)n≥k ´e uma cadeia de alcance k em A, ent˜ao (Yn)n≥k =

(Xn−k+1, Xn−k+2, ..., Xn)n≥k ´e uma cadeia de alcance 1 em Ak.

A seguir, apresenta-se um exerc´ıcio de aplica¸c˜ao da Proposi¸c˜ao 2.1.

Exemplo 2.1. O exerc´ıcio a seguir exemplifica a transforma¸c˜ao de uma cadeia de ordem k = 2 para uma cadeia de ordem 1.

Seja (Xn)_n∈N uma cadeia com mem´oria de alcance 2, assumindo valores no alfabeto

A = {0, 1}, que pode ser simulada atrav´es do seguinte algoritmo: Passo 1. X−2 = 1 e X−1= 0.

Passo 2. Para n ≥ 0, define-se:

Xn=    0, se Un ≤ h (Xn−2, Xn−1) 1, se Un > h (Xn−2, Xn−1)

(17)

onde h(0, 0) = 1/2, h(0, 1) = 1/3, h(1, 0) = 1/4, h(1, 1) = 1/5 e (Un)n≥1 ´e uma sequˆencia

de variáveis aleatórias i.i.d. com distribui¸cão uniforme no intervalo [0, 1]. Pergunta-se:

(i) Qual ´e a matriz de probabilidades de transi¸c˜ao de (Xn)_n∈N?

(ii) Definindo (Yn)_n∈N= (Xn−1, Xn), qual seria a matriz de transi¸c˜ao para (Yn)_n∈N?

Solu¸c˜ao: (i) P = 0 1             00 1/2 1/2 01 1/3 2/3 10 1/4 3/4 11 1/5 4/5 (ii) P∗ = 00 01 10 11             00 1/2 1/2 0 0 01 0 0 1/3 2/3 10 1/4 3/4 0 0 11 0 0 1/5 4/5

portanto, conclui-se que (Yn)_n∈N ´e uma cadeia de alcance 1 em A2.

O estudo de cadeias de Markov de ordens k ≥ 2 em A é importante, pois permite estimar as probabilidades de transi¸cão em k passos para qualquer k, como será visto na Se¸cão 2.1.1. Isto é fundamental porque muitas vezes o valor de k é desconhecido, ou seja, o pesquisador não sabe quantos passos no passado devem ser considerados ao calcular as probabilidades de transi¸cão. Faz-se necessário, então, estimar um valor para k, mas para isso, primeiro é preciso estimar as probabilidades de transi¸cão.

(18)

2.1.1 Inferˆ

encia para cadeias de mem´

oria de alcance k

Seja X−k, X−k+1, ..., Xnuma amostra de uma cadeia de Markov de ordem k, assumindo

valores em A = {0, 1}, com matriz de transi¸c˜ao P dada por P = p(a|u) | a ∈ A, u ∈ Ak_,

a fun¸c˜ao de m´axima verossimilhan¸ca para esta amostra pode ser escrita como Lk an−k, p = P X−k = a−k, X−(k−1)= a−(k−1), ..., Xn= an = P X−kn = an−k

onde denota-se an

m a sequˆencia amam+1...an−1an de comprimento n − m + 1.

Assumindo que P X_−k−1 = a−1_−k = 1 tem-se que

Lk an−k, p = n Y i=0 P Xi = ai|X−ki−1= a i−1 −k .

Seja N (ua) é o número de vezes em que a sequência ua ocorreu na amostra,

N (ua) =

n

X

i=0

IXi−ki−1= u, Xi = a , (2.2)

pode-se reescrever a fun¸c˜ao de m´axima verossimilhan¸ca como Lk an−k, p = Y a∈A Y u∈Ak p (a|u)N (ua). (2.3)

Exemplo 2.2. Suponha que u = 010, a = 0 e a amostra ´e (ai)10i=0 = 01000101001 ent˜ao,

temos que N (ua) = 2.

0100 | {z } 1 01 0100 | {z } 2 1

(19)

Através da fun¸cão de máxima verossimilhan¸ca, pode-se encontrar as probabilidades de transi¸cão estimadas que maximizam a chance da amostra ocorrer

ˆp (a|u) | a ∈ A, u ∈ Ak , respeitando a condi¸c˜ao X

a∈A

ˆ

p (a|u) = 1.

Para simplificar o c´alculo utiliza-se a fun¸c˜ao de log verossimilhan¸ca definida como Lk an−k, p =

X

a∈A

X

u∈Ak

N (ua) log p (a|u). (2.4)

Aplica-se o m´etodo dos multiplicadores de Lagrange. Sejam λ = (λu)u∈Ak, λu ∈ R e F (λ, p) definida por

F (λ, p) = X

u∈Ak

( X

a∈A

N (ua) log p(a|u) + λu

" 1 −X a∈A p(a|u) #) ,

derivando-se F (λ, p) em rela¸c˜ao `a λu e iguando a zero, tem-se que

∂ ∂λu F (λ, p) = 1 −X a∈A p(a|u) ⇒ 1 −X a∈A p(a|u) = 0. _(2.5)

Em seguida, deriva-se F (λ, p) em rela¸c˜ao `a p(a|u) para todo a ∈ A, u ∈ Ak e, ao iguala-las a zero, tem-se que

∂ ∂p(a|u)F (λ, p) = N (ua) p(a|u) − λu ⇒ ˆp(a|u) = N (ua) λu . (2.6)

De (2.5) e (2.6) pode-se verificar que X b∈A N (ub) λu = 1 ⇒X b∈A N (ub) = λu. (2.7)

Por (2.2) sabe-se que X b∈A N (ub) =X b∈A n X i=0 IXi−ki−1= u, Xi = b , como X b∈A I {Xi = b} = 1 ∀ i, tem-se que X b∈A N (ub) = n X i=0 IXi−ki−1= u ,

(20)

que pode ser interpretado como: quantas vezes u apareceu na amostra desconsiderando-se o n-´esimo elemento.

Por fim, de (2.6) e (2.7) tem-se que ˆ

p(a|u) = _XN (ua)

b∈A

N (ub)

, (2.8)

ou seja, a probabilidade de a ocorrer, dado que u ocorreu, que maximiza a fun¸cão de verossimilhan¸ca, é uma propor¸cão de quantas vezes ua apareceu na amostra em rela¸cão a u. Defina ˆp(a|u) = 0 se X

b∈A

N (ub) = 0.

Exemplo 2.3. Para esclarecer a forma como ˆp(a|u) ´e calculada, pode-se utilizar a amostra do Exemplo 2.2. 1 z}|{ 010 0 2 z}|{ 01 0 10 |{z} 3 01

Verifica-se que u = 010 ocorre 3 vezes mas sabe-se que ua = 0100 ocorreu 2 vezes. Portanto, a probabilidade estimada ˆp(a|u) = 2/3.

(GALVES; LEONARDI, 2007) mostraram que ˆp(a|u)−q.c.−→ p(a|u). Uma vez que con-vergência quase certa implica convergência em probabilidade, tem-se que este é um esti-mador consistente.

Foi visto como estimar as probabilidades de transi¸cão a partir de uma amostra e sua fun¸cão de verossimilhan¸ca. A seguir, um exemplo onde a fun¸cão de máxima verossimi-lhan¸ca é calculada a partir das estimativas das probabilidades de transi¸cão.

Exemplo 2.4. Seja X1, X2, ..., X100 uma amostra aleat´oria no espa¸co de estados A =

{0, 1} onde N (0) = 51, N (1) = 49 e o número de ocorrências das sequências de tamanho 2 e 3 foi registrado, respectivamente, conforme as tabelas abaixo:

a0 N (a0, 0) N (a0, 1) 0 16 35 1 35 13 a0 a1 N (a0, a1, 0) N (a0, a1, 1) 0 0 5 11 0 1 26 9 1 0 11 24 1 1 8 4

(21)

(i) Estime as matrizes de probabilidades de transi¸c˜ao de alcance 0 (caso independente), 1 e 2 que maximizam a verossimilhan¸ca da amostra.

(ii) Escreva explicitamente as f´ormulas para o maior valor que a verossimilhan¸ca da amostra pode assumir, supondo que ela seja produzida por uma cadeia de Markov de alcance 0, 1 e 2, supondo que X1 = 1 e X2 = 0 com probabilidade 1.

Solu¸cão: • k = 0 ˆ p(0) = N (0) N (0) + N (1) = 51 100 ˆ p(1) = N (1) N (1) + N (0) = 49 100 Fun¸cão de máxima verossimilhan¸ca:

L1(X1100, p) = 16 51 16₃₅ 51 35₃₅ 48 35₁₃ 48 13 p(X1 = 1) ⇒ L1(X1100, p) = 16 51 16₃₅ 51 35₃₅ 48 35₁₃ 48 13

(22)

L2(x1001 , p) = 5 16 5₁₁ 16 11₂₆ 35 26₉ 35 9₁₁ 35 11₂₄ 35 24₈ 12 8₄ 12 4 × p(X2 = 0, X1 = 1) ⇒ L2(x1001 , p) = 5 16 5₁₁ 16 11₂₆ 35 26₉ 35 9₁₁ 35 11₂₄ 35 24₈ 12 8₄ 12 4

Observe que, dada uma amostra, é poss´ıvel estimar as probabilidades de transi¸cão para qualquer k que seja suficientemente menor que n, assim como a fun¸cão de máxima verossimilhan¸ca. Note que, para k = 1, foi necessário estimar duas probabilidades, ˆp(0|0) e ˆp(0|1), uma vez que as demais são complementares. Já no caso de k = 2 são necessárias 4 estimativas, para k = 3, 8 estimativas. De forma geral, um processo de memória k = k0, quando o número de elementos em A é igual a dois, precisará de 2k0 estimativas

(23)

de probabilidade para encontrar sua fun¸c˜ao de m´axima verossimilhan¸ca. Isto gera um aumento exponencial do custo operacional a medida que k aumenta.

2.2 Estima¸

c˜

ao do alcance de uma cadeia

Quanta “memória” deve-se incorporar à análise para obter a melhor estimativa das probabilidades de transi¸cão? Pode-se pensar que “quanto mais informa¸cão melhor” e tentar contemplar todos os dados dispon´ıveis, mas o custo operacional desta op¸cão pode, por vezes, suplantar o ganho de qualidade na estima¸cão. Então, como identificar o valor de k que, ao mesmo tempo, gera boas estimativas de probabilidades de transi¸cão e não onera tanto a pesquisa? Veja a seguir dois modelos que propõem formas de estima¸cão da ordem de uma cadeia.

2.2.1 Crit´

erio de Informa¸

c˜

ao Bayesiano (BIC)

Seja |A| o número de elementos em A, o critério BIC é um método utilizado para encontrar a ordem de uma amostra de tamanho n, gerada a partir de uma cadeia de Markov de alcance k desconhecido, com cardinalidade |A| < ∞.

O BIC encontra o ˆk que minimiza a soma da fun¸cão de log-verossimilhan¸ca negativa de k-ésima ordem com um termo de penalidade |A|k(|A|−1) log n₂ . De acordo com (CSISZAR; SHIELDS, 1999), a fun¸cão BIC pode ser definida por

BIC(k, xn₁) = − log (Lk(xn1, p)) +

|A|k_{(|A| − 1) log n}

2 , (2.9)

para todo k ≤ l onde l é de ordem log n. O estimador da ordem k de uma cadeia, obtido pelo método BIC, é definido como

ˆ

kBIC(xn1) = arg min {BIC(k, X n

1)} (2.10)

Exemplo 2.5. Utilizando a amostra e os resultados do Exerc´ıcio 2.4 aplique o crit´erio BIC para encontrar a ordem da cadeia.

Solu¸c˜ao:

´

E necess´ario calcular o ˆkBIC(xn0) para k = 0, 1, 2 e encontrar qual o k que gera o menor

(24)

BIC(0, x100₁ ) = − log 51 100 51₄₉ 100 49! +|2| 0_{(|2| − 1) log 100} 2 , portanto, BIC(0, x100₁ ) = 71,6 BIC(1, x100₁ ) = − log 16 51 16₃₅ 51 35₃₅ 48 35₁₃ 48 13! + |2| 1_{(|2| − 1) log 100} 2 , portanto, BIC(1, x100₁ ) = 64,4 BIC(2, x100₁ ) = − log 5 16 5₁₁ 16 11₂₆ 35 26₉ 35 9₁₁ 35 11₂₄ 35 24₈ 12 8₄ 12 4! +|2| 2_{(|2| − 1) log 100} 2 , portanto, BIC(2, x100₁ ) = 68,5

Pode-se observar que, quando k = 1, obtˆem-se o menor BIC, ent˜ao ˆkBIC(x1001 ) = 1.

Conclui-se que a amostra pertence a uma Cadeia de Markov de ordem 1.

2.2.2 Algoritmo Contexto

Este método propõe comparar as probabilidades estimadas para algum k com as estimadas para k +1, e determinar se elas são suficientemente próximas. Em caso positivo, considera-se que não existe ganho preditivo em usar o alcance maior. Em outras palavras, o algoritmo contexto consiste em testar sequencialmente a hipótese

H0 : p(k+1)(a|u−1−k−1) = p(k)(a|u −1 −k),

at´e que esta n˜ao seja satisfeita para algum valor de k.

A partir de uma amostra aleat´oria X1, X2, ..., Xnde uma cadeia de Markov de ordem

(25)

Algoritmo:

1. Toma-se um δ > 0, d = blog|A|₂ nc, k = d − 1 e constrói-se a árvore completa até n´ıvel d conforme a Figura 2. 0 ←−−→ 1 111 011 101 001 110 010 100 000 0 1 00 10 01 11

Figura 2: ´Arvore completa para d = 3 e A = {0, 1}

Vale ressaltar que os valores em cinza na Figura 2 não devem aparecer na repre-senta¸cão de uma árvore de contextos irredut´ıvel, conforme será visto na Defini¸cão 2.3.3, mas foram utilizados aqui a fim de esclarecer o que representam as interse¸cões na árvore, também chamadas de “nós”. Observe que, conforme a árvore cresce, acrescenta-se um elemento à esquerda das sequencias, ou seja, aumentar um n´ıvel na árvore significa adicionar mais um elemento do passado.

2. Para cada sequˆencia uj ∈ Ak calcula-se:

∆(uj) = max

b∈A maxa∈A { |ˆp(a|uj) − ˆp(a|buj)| } , j = 1, ..., |A| k_.

3. Se max

uj∈Ak

{∆(uj)} < δ, descarta-se o n´ıvel k + 1 da ´arvore. Defini-se k = k − 1 e

repete-se o algoritmo a partir do passo 2. Caso contr´ario, defini-se ˆk = k + 1, ou seja,

ˆ

k = max

k | max

uj∈Ak−1

{∆(uj)} ≥ δ, 0 ≤ k ≤ log|A|n

.

A seguir, prop˜oe-se um exemplo de aplica¸c˜ao do algoritmo contexto.

Exemplo 2.6. Suponha que quer-se testar, pelo m´etodo do algoritmo contexto, o alcance da cadeia no Exemplo 2.4.

1. Toma-se δ = 0,1, d = blog₂100c = 2 e constrói-se a árvore completa até o n´ıvel d = 2, conforme a Figura 3 abaixo.

(26)

0 ←−−→ 1

00 10 01 11

Figura 3: ´Arvore completa para d = 2 e A = {0, 1} 2. Toma-se k = 1, ent˜ao uj ∈ A, ou seja uj = {0, 1}.

∆(0) =

max {|ˆp(0|0) − ˆp(0|00)|, |ˆp(0|0) − ˆp(0|10)|, |ˆp(1|0) − |ˆp(1|00)|, |ˆp(1|0) − ˆp(1|10)|}

Veja que

ˆ

p(0|0) − ˆp(0|00) = − [ˆp(1|0) − ˆp(1|00)] , uma vez que

− [ˆp(1|0) − ˆp(1|00)] = − {1 − ˆp(0|0) − [1 − ˆp(0/00)]} = ˆp(0|0) − ˆp(0|00). O mesmo vale para ˆp(0|0) − ˆp(0|10) = − [ˆp(1|0) − ˆp(1|10)], portanto, para calcular o m´aximo em valor absoluto, torna-se desnecess´ario considerar as quatro diferen¸cas. Para exemplificar numericamente,

∆(0) = max 16 51− 5 16 , 16 51− 11 35 , 35 51− 11 16 , 35 51− 24 35 = = max {|0,00123|, | − 0,00056|, | − 0,00123|, |0,00056|} = = max {0,00123, 0,00056} = 0,00123. Analogamente, ∆(1) = max {|ˆp(0|1) − ˆp(0|01)|, |ˆp(0|1) − ˆp(0|11)|} ∆(1) = max 35 48− 26 35 , 35 48− 8 12 = = max {| − 0,01369|, |0,0625|} = 0,0625

3. Veja que max {0,00123, 0,0625} = 0,0625 < δ = 0,1, portanto, “poda-se” o n´ıvel k + 1 = 2. Agora, toma-se k = 0 e precisa-se repetir o processo para testar se a ordem k + 1 ´e mais adequada que k.

(27)

2.3 Cadeias de Alcance Vari´

avel

O conceito de cadeia de alcance variável foi apresentado por (RISSANEN, 1983) para definir cadeias onde o valor de k pode variar de acordo com a relevância da informa¸cão passada contida na cadeia, o contexto. A seguir, serão abordados alguns exemplos mo-tivacionais para esse estudo, bem como alguns conceitos básicos para compreensão de cadeias com alcance variável.

Exemplo 2.7. Exemplo motivacional 1:

Ser´a visto neste exemplo que, dependendo de como a cadeia ´e definida, o valor de k pode variar de acordo com os valores observados na amostra.

Seja (Xn)_n≥0 uma cadeia de Markov de ordem k = 1 no alfabeto A = {0, 1}, com

matriz de transi¸c˜ao P , e (Yn)n≥0 um processo de Bernoulli de parˆametro p independente

de (Xn)n≥0. Define-se o processo (Zn)n≥0 como Zn = XnYn para todo n ≥ 0.

Consequentemente, Zn =    1, se Xn = 1 e Yn = 1 0, se Xn = 1 e Yn = 0, ou Xn= 0 e Yn= 0, ou Xn= 0 e Yn= 1.

Observe que, dada uma amostra Z1, Z2, ..., Zn, se Zi = 0, n˜ao se pode afirmar nada

sobre os valores de Xi e Yi. Ou seja, olhando apenas um passo no passado, s´o ´e poss´ıvel

determinar a distribui¸c˜ao de Zn+1 quando Zn= 1.

P (Zn+1= 1|Zn= 1) =P (Yn+1 = 1)P (Xn+1 = 1|Xn= 1) = pP (Xn+1 = 1|Xn= 1)

P (Zn+1= 0|Zn= 1) =pP (Xn+1 = 0|Xn= 1) + (1 − p)P (Xn+1 = 0|Xn= 1)

+(1 − p)P (Xn+1 = 1|Xn= 1)

Já em um cenário onde Zn= 0, não é poss´ıvel determinar as probabilidades de transi¸cão

para Zn+1, pois não há como determinar se o valor de Xn é 1 ou 0.

Nota-se que se Zn = 1 basta que k seja igual a 1, mas se Zn = 0 ´e preciso observar

(28)

A seguir, pode-se verificar que se Z_n−i+1n = 0 e Zn−i = 1, 0 < i < n, ent˜ao k = i + 1.

P (Zn+1 = 1|Zn−i+1n = 0, Zn−i= 1) = P (Yn+1 = 1)P (Xn+1 = 1|Xn−i+1n = a, Xn−i= 1)

= pP (Xn+1 = 1|Xn−i= 1)

pela equa¸c˜ao de Chapman-Komolgorov

P (Zn+1 = 1|Zn−i+1n = 0, Zn−i= 1) = p " ₁ X j=0 P (Xn+1 = 1|Xn= j)Pi(Xn = j|Xn−i = 1) #

Nesse caso é preciso contemplar as últimas i + 1 observa¸cões na amostra para encontrar as probabilidades de transi¸cão, portanto k = i + 1. Veja na Figura 4 a representa¸cão da ´

arvore de contexto para esse exemplo.

Conclui-se que o alcance da cadeia (Zn)_n≥0 varia de acordo com o ´ultimo valor 1

observado. 0 ←−−→ 1 1 10 100 1000 ...

Figura 4: ´Arvore de contextos para Zn.

Exemplo 2.8. Exemplo motivacional 2:

(GALVES; L ÖCHERBACH, 2012) apresentaram um modelo probabil´ıstico para re-presentar a atividade em um conjunto de neurônios I. Considerando que, a probabilidade de disparo de um neurônio i ∈ I depende da atividade acumulada em todo o conjunto I, desde o último disparo de i, pode-se pensar o comportamento de um neurônio no tempo como um processo estocástico com memória de alcance variável.

Suponha um sistema com 3 neurˆonios que apresentam o seguinte comportamento:

• Cada vez que um neurˆonio transmite um impulso nervoso, ele espalha energia pelos demais neurˆonios.

(29)

• A probabilidade de um neurˆonio disparar em um instante n depende da quantidade de energia acumulada at´e o instante n − 1.

• Os neurˆonios disparam no instante n de forma independente. • Ao disparar, o neurˆonio zera sua energia acumulada.

Seja I = {1, 2, 3} o conjunto de neurˆonios, e, para i ∈ I

Xn(i) =

 



0, se o i-ésimo neurônio não disparou no instante n 1, se o i-ésimo neurônio disparou no instante n

Define-se o processo Yn=

Xn(1), Xn(2), Xn(3)

para todo n.

Seja q(i) o número de disparos de todos os neurônios desde a última vez que o neurônio i disparou. Pode-se supor que

P (Xn+1(i) = a|Y1n) = " 1 − 1 2 q(i)+1#a"₁ 2 q(i)+1#1−a , a = {0, 1} , portanto, P (Xn+1(i) = 1|Y1n) = 1 − 1 2 q(i)+1 .

Sob esta hipótese, a probabilidade de um neurônio disparar aumenta a medida que os vizinhos disparam, mas ainda existe 50% de chance de um neurônio disparar mesmo que não haja influência dos demais (q(i) = 0).

A Figura 5 contˆem uma amostra y1, y2, ..., y10 do sistema com 3 neurˆonios, a partir

deste, pretende-se calcular as probabilidades de transi¸c˜ao.

n Yn 1 2 3 4 5 6 7 8 9 10 Xn(3) Xn(2) Xn(1) 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 1 0 0 1 1 0 0 0

(30)

Sabe-se que P Y11= (a, b, c)|Y110 = y 10 1 = P X11(1) = a, X11(2) = b, X11(3) = c|Y110 = y 10 1

dada a amostra, os disparos dos neurˆonios em n + 1 s˜ao independentes, portanto P Y11 = (a, b, c)|Y110= y 10 1 =P X11(1) = a|Y110= y 10 1 P X11(2) = b|Y110 = y 10 1 × P X11(3) = c|Y110 = y101 .

Para esta amostra, foi necessário olhar k = 9 passos no passado para encontrar as probabilidades de transi¸cão. Mas, se por exemplo, X5(3) = 1, então k seria igual a 6.

Fica claro que existem cadeias cujo alcance pode variar de acordo com as realiza¸cões passadas. Para compreensão dessas cadeias, será necessária a introdu¸cão de algumas novas defini¸cões.

2.3.1 Conceitos b´

asicos

Seja AN _{o conjunto de todas as sequˆ}_{encias finitas de elementos de A, ou seja}

AN₌ ∞

[

k=1

A{−k,...,−1}

e A∞ = A{...,−n,...,−2,−1} o conjunto de todas as sequˆencias semi-infinitas de s´ımbolos de A. Denota-se A∗ _{= A}_N_{∪ A}∞_.

Sejam duas sequˆencias u e v, onde u ∈ A∗ e v ∈ AN_{, denota-se uv como a sequˆ}_encia

resultante da concatena¸c˜ao de u e v.

(31)

se u−1_−j = v_−j−1. Ou seja, se u = u−ku−k+1...u−j−1v−j...v−1, ent˜ao v ≺ u.

Exemplo 2.9. A seguir alguns exemplos de sufixo. Se u = 011011100111001110 e v = 01110 ent˜ao u = 011v, v ≺ u.

Se u = 0111011 e v = 111, então u 6= 0111v, v não é sufixo de u.

Se u = 0001001001 e v = 001 ent˜ao u = 0v, v ≺ u. Nota-se ainda que v ´e o maior sufixo poss´ıvel de u.

Defini¸c˜ao 2.3.2. Seja u = u−1_−k define-se suf(u) = u−1_−k+1, o maior sufixo de u. suf(u−1_−k) = u−1_−k+1

Defini¸cão 2.3.3. Um subconjunto τ de sequências de elementos de A é uma árvore irredut´ıvel se satisfaz às seguintes condi¸cões (RODRIGUES, 2016):

1. A árvore possui propriedade de sufixo, isto é, se u ∈ τ , então nenhum sufixo de u pertence a τ .

2. A árvore é irredut´ıvel, isto é, nenhum elemento de τ pode ser substitu´ıdo por um sufixo sem violar a propriedade de sufixo.

Em uma representa¸cão gráfica de árvore irredut´ıvel os elementos de τ ficam nas “fo-lhas” e estão ligados a “nós” correspondentes a seus sufixos.

Exemplo 2.10. Verifique se as árvores apresentadas a seguir são irredut´ıveis. τ1 = {0, 00, 10, 1} τ2 = {00, 01, 11} τ3 = {00, 10, 1} τ1 0 ←−−→ 1 1 0 10 00 _τ 2 0 ←−−→ 1 11 01 00 _τ 3 0 ←−−→ 1 1 10 00 Figura 6: Exemplos de árvores.

(32)

1. τ1: Veja que 0 é sufixo de 00 e 10, então há viola¸cão da propriedade de sufixo, τ1

não é uma árvore irredut´ıvel.

2. τ2: Veja que 00 poderia ser substitu´ıdo por seu sufixo 0, uma vez que 10 n˜ao ´e um

contexto. Portanto, a árvore não é irredut´ıvel.

3. τ3: Nenhum contexto pode ser substitu´ıdo por um sufixo, e nenhum elemento da

´

arvore é sufixo de outro, portanto, esta é uma árvore irredut´ıvel.

Defini¸cão 2.3.4. Seja τ uma árvore irredut´ıvel, defini-se τ |k como a árvore truncada no

n´ıvel k, ou seja,

τ |k= {v ∈ τ | |v| ≤ k} ∪v ∈ Ak | v ≺ u para todo u ∈ τ tal que |u| > k

onde |v| é o comprimento de v, ou seja, o número de elementos de A na sequência v. Exemplo 2.11. A árvore τ = {0000, 1000, 0101, 1101, 100, 001, 10, 11}, representada na Figura 7, é irredut´ıvel e de alcance variável. Deseja-se truncar a árvore em k = 3.

0 ←−−→ 1 11 1101 0101 001 10 100 1000 0000

Figura 7: Exemplo de ´arvore irredut´ıvel τ .

Primeiro, deve-se repetir qualquer contexto de comprimento menor ou igual a 3, são eles: 100, 001, 10, 11. Em seguida, deve-se identificar os elementos de τ cujo comprimento é maior que 3 ( 0000, 1000, 0101, 1101), e extrair destes seus sufixos de tamanho 3, (000, 101). Finalmente, a árvore truncada em k = 3 será τ |3 = {000, 100, 001, 101, 10, 11},

con-forme a Figura 8.

Defini¸c˜ao 2.3.5. Sejam τ1 e τ2 duas ´arvores finitas, define-se τ1 ≺ τ2 se τ1 6= τ2, e para

(33)

0 ←−−→ 1 11 101 001 10 100 000

Figura 8: ´Arvore da Figura 7 truncada em k = 3, τ |3.

1. u ∈ τ2.

2. ∃ v ∈ τ2 tal que u ≺ v.

A defini¸c˜ao segue de forma an´aloga para τ1 τ2.

Defini¸cão 2.3.6. O par (τ, P ) é uma árvore probabil´ıstica de contextos em A, se:

1. τ ´e uma ´arvore de contextos irredut´ıvel.

2. P = {p(.|v) : v ∈ τ } ´e uma fam´ılia de probabilidades de transi¸c˜ao em A.

Defini¸cão 2.3.7. Uma sequência v de elementos de A é um contexto do processo esta-cionário (Xn)n∈N se p(v) > 0 e se

1. Para toda sequˆencia u de elementos de A tal que v ≺ u, tem-se que P (Xn = a|X_m−|u|n−1 = u) = p(a|v), para todo a ∈ A, n ∈ N.

Nesse caso, diz-se também que v é o contexto da sequência u para o processo (Xn)n∈N.

2. Para toda sequˆencia w de elementos de A tal que w ≺ v, w n˜ao satisfaz 1.

Defini¸cão 2.3.8. O processo (Xn)n>0, definido no alfabeto A, é uma cadeia com memória

de alcance vari´avel compat´ıvel com (τ, P ) se

• v ∈ τ ⇔ v ´e um contexto para (Xn)n∈N.

(34)

Exemplo 2.12. Seja (Xn)_n≥0 uma cadeia com matriz de probabilidades de transi¸c˜ao definida por P = 0 1             00 1/3 2/3 10 1/3 2/3 01 1/5 4/5 11 1/2 1/2 (2.11)

Dada uma amostra X1, X2, ..., Xn, se Xn= 0 não é necessário olhar para Xn−1 para

determinar as probabilidade de transi¸c˜ao para Xn+1.

P (Xn+1 = xn+1|Xn= 0, Xn−1= xn−1) = P (Xn+1 = xn+1|Xn= 0)

p(0|0) = 1

3 p(1|0) = 2 3

Contudo, quando Xn= 1 ´e necess´ario olhar um passo a mais no passado para determinar

as probabilidades de transi¸c˜ao. Logo, sejam

τ = {0, 01, 11}

P = {p(a|u) : a ∈ A, u ∈ τ } = {p(0|0), p(1|0), p(0|01), p(1|01), p(0|11), p(1|11)} (Xn)_n≥0 é uma cadeia com memória de alcance variável compat´ıvel com (τ, P ).

2.4 Estima¸

c˜

ao de ´

arvores de contextos

Definiu-se na se¸cão anterior que, uma cadeia de alcance variável no alfabeto A é definida pela dupla (τ, P ). Nesta se¸cão, pretende-se mostrar que os dois métodos já estu-dados, para estima¸cão do alcance de uma cadeia, podem ser utilizados para a estima¸cão da árvore de contextos τ .

2.4.1 Crit´

erio de Informa¸

c˜

ao Bayesiano (BIC)

Dado uma amostra xn

1 compat´ıvel com uma ´arvore de contextos τ0, (CSISZAR;

TA-LATA, 2006) propuseram uma forma consistente de estimar τ0 pelo m´etodo BIC.

(35)

mais se adéqua à amostra, considerando o custo de aumentar o número de parâmetros. Seja |τ | o número de elementos em τ , o BIC para uma poss´ıvel árvore de contextos será

BIC(τ, xn₁) = − log L(τ, xn₁) + (|A| − 1)|τ |

2 log n

onde L(τ, xn

1) é a máxima verossimilhan¸ca da amostra quando considera-se uma árvore

de contextos τ , em que todo u ∈ τ ocorre na amostra pelo menos uma vez, L(τ, xn₁) = Y

u∈τ,N (u)≥1

Y

a∈A

p(a|u)N (ua).

De acordo com (CSISZAR; TALATA, 2006), se τ0 ´e finita, ent˜ao

ˆ

τBIC = arg min BIC(τ, xn1),

para τ ∈ τD = {τ |d(τ ) ≤ D(n)} onde d(τ ) ´e a profundidade de τ , ou seja, o tamanho do

maior elemento de τ , e D(n) est´a em escala log n.

Eles provam que ˆτBIC = τ0 eventualmente, quase certamente, quando n → ∞.

Outro resultado, importante para possibilitar o estudo de cadeias de memória infinita, é que, sob certas condi¸cões, a árvore de contextos estimada, truncada em k, é igual à árvore real truncada em k, quase certamente, quando n tende a infinito. Em outras palavras

ˆ τBIC|k

q.c.

−−→ τ0|k.

Exemplo 2.13. Dada uma amostra x1, x2, ..., xn, com n = 1000 de uma cadeia

es-toc´astica, no alfabeto A = {0, 1}, gerada a partir de um matriz de transi¸c˜ao

P = 00 01 10 11             00 0,2 0,8 0 0 10 0,6 0,4 0 0 01 0 0 0,4 0,6 11 0 0 0,8 0,2

Gostaria-se de verificar se o m´etodo do BIC realmente identifica a ´arvore de contextos τ0 = {00, 01, 10, 11}, compat´ıvel com x10001 .

Foi feita uma listagem de todas as ´arvores de contextos poss´ıveis at´e o n´ıvel d = 3, e elas foram ordenadas de acordo com sua cardinalidade |τ |, conforme a Tabela 1.

(36)

|τ | = 2 |τ | = 3 |τ | = 4 ... |τ | = 8 {0, 1} {0, 01, 11} {00, 10, 01, 11} {000, 100, 010, 110, 001, 101, 011, 111} {00, 10, 1} {000, 100, 10, 1} {00, 010, 110, 1} {0, 01, 011, 111} {0, 001, 101, 11}

Tabela 1: Listagens de ´arvores de contextos por cardinalidade

A seguir, foi calculado o log negativo da verossimilhan¸ca para cada árvore, e o re-sultado foi plotado no gráfico da Figura 9. Observe que esses valores ainda não foram penalizados pelo número de parâmetros, assim, o menor valor será sempre relativo à árvore que tiver o maior número de contextos. Afinal, quanto mais informa¸cão do passado melhor quando não há nenhum custo operacional. Em vermelho, destacou-se o ponto relativo à τ0.

Já no gráfico da Figura 10 introduz-se o termo de penaliza¸cão, veja que o menor BIC é, conforme desejado, referente à τ0.

2 3 4 5 6 7 8 600 620 640 660 680 |τ | − log L (τ ,X )

(37)

2 3 4 5 6 7 8 600 620 640 660 680 |τ | BIC( τ ,X )

Figura 10: BIC para τ .

2.4.2 Algoritmo Contexto

O algoritmo contexto propõe testar se olhar um passo a mais no passado altera subs-tancialmente as probabilidades de transi¸cão, pois sabe-se que invariavelmente aumenta o custo operacional. No caso de cadeias de alcance variável, não é necessário manter todo um n´ıvel da árvore se apenas alguns dos contextos são mais adequados que seus sufixos. Manter apenas os contextos necessários é uma forma de reduzir o número de parâmetros e, portanto, o custo.

Inicialmente, o algoritmo contexto para amostras produzidas por cadeias de alcance variável é igual ao algoritmo para amostras de ordem k. Considera-se uma árvore completa até o n´ıvel d, e analisa-se as probabilidades de transi¸cão, verificando-se se são suficiente-mente próximas. A diferen¸ca aqui é que, ao invés de comparar todas as probabilidades do n´ıvel k + 1 com as do n´ıvel k, analisa-se nó a nó da árvore de contextos, comparando as probabilidades entre as folhas e seus respectivos nós e, caso sejam suficientemente próximos, podam-se apenas as folhas referentes ao nó analisado.

Seja X1, X2, ..., Xn uma amostra aleat´oria de uma cadeia de alcance vari´avel

(38)

Algoritmo:

1. Toma-se δ > 0, d = blog_|A|nc e k = d − 1. Constrói-se a árvore completa até o n´ıvel d, conforme a Figura 11. 0 ←−−→ 1 1111 0111 1011 0011 1101 0101 1001 0001 1110 0110 1010 0010 1100 0100 1000 0000

Figura 11: ´Arvore completa para d = 4 e A = {0, 1}

2. Para todos os nós do n´ıvel k que não possuem nenhuma folha associada a um s´ımbolo T , verifica-se se as probabilidades de transi¸cão são suficientemente próximas.

max

b∈A maxa∈A {|p(a|bu) − p(a|u)|} ≤ δ, u ∈ A k_.

Em caso positivo, podam-se as folhas. Em caso negativo, atribui-se àquele nó um s´ımbolo T . Se todos os nós tiverem folhas associadas ao s´ımbolo T , encerre o algoritmo.

3. Os nós do n´ıvel k que já possu´ıam alguma folha associada ao s´ımbolo T também recebem o s´ımbolo T .

4. Toma-se k = k − 1, se k > 0 repete-se o procedimento a partir do passo 2.

Ao final desse processo, uma vez eliminados todos os s´ımbolos T utilizados, ser´a obtida a ´arvore de contextos irredut´ıvel.

Exemplo 2.14. Aplica¸c˜ao do algoritmo acima para encontrar τ0 sem atribuir valores `as

probabilidades de transi¸c˜ao.

Seja d = 4, então k = 3. Veja que, a princ´ıpio, nenhuma folha está associada ao s´ımbolo T , portanto, deve-se compara as probabilidades de transi¸cão para todos os nós.

Para o primeiro nó, suponha que |p(0|000) − p(0|0000)| < |p(0|000) − p(0|1000)| < δ, conclui-se que as probabilidades de transi¸cão são próximas o suficiente, portanto, poda-se as folhas referentes ao nó 000. O mesmo ocorre para o nó 100. Já para o nó seguinte

(39)

(010), notou-se que δ < |p(0|010) − p(0|1010)|, assim, voltar um passo a mais no passado é importante quando se trata da sequência 010, portanto, não se pode podar suas folhas. Então, atribui-se o s´ımbolo T ao nó 010. Prosseguindo com essa análise para todos os nós do n´ıvel k = 3 encontrou-se a árvore da Figura 12.

0 ←−−→ 1 111 011 1101 0101 1001 0001 110 1010 0010 100 000 _T _T _T

Figura 12: Árvore de contextos da Figura 11 após primeira aplica¸cão do passo 2.

Nota-se que, nesse momento, o passo 3 não pode ser aplicado pois não existe nenhuma folha associada ao s´ımbolo T . Pula-se, então, para o passo 4.

Agora k = 2. Como k > 0 aplica-se o algoritmo novamente a partir do passo 2. Nota-se que no n´ıvel k = 2 apenas os nós 00 e 11 não possuem folhas associadas a um s´ımbolo T , portanto as probabilidades de transi¸cão devem ser comparadas apenas para esses nós. Suponha que |p(0|00) − p(0|000)| < |p(0|00) − p(0|100)| < δ, portanto as folhas 000 e 100 devem ser podadas. Já para o nó 11 notou-se que δ < |p(0|11) − p(0|011)|, assim, este nó receberá o s´ımbolo T e suas folhas não serão podadas.

Aplica-se o passo 3 e atribui-se o s´ımbolo T a todos os nós do n´ıvel k = 2 que não foram analisados, pois já havia um s´ımbolo T associado a alguma de suas folhas. Veja a Figura 13. 0 ←−−→ 1 111 011 1101 0101 1001 0001 110 1010 0010 00 T T T T T _T

Figura 13: Árvore de contextos da Figura 12 após aplica¸cão do passo 3.

Agora, pelo passo 4, tem-se que k = 1, como k > 0 retorna-se ao passo 2, mas não existe mais nenhum nó não associado a uma folha com s´ımbolo T , portanto, pode-se

(40)

terminar o algoritmo. Elimina-se os s´ımbolos T escritos na ´arvore e, finalmente, obtˆem-se τ0 = {00, 0010, 1010, 110, 0001, 1001, 0101, 1101, 011, 111}.

2.5 Modelo de Regress˜

ao Linear M´

ultipla com

trans-forma¸

c˜

ao c´

ubica

No Cap´ıtulo 3 inicia-se uma investiga¸cão sobre o δ, critério do Algoritmo Contexto. A partir de suposi¸cões feitas sobre probabilidades de transi¸cão, é poss´ıvel identificar uma rela¸cão linear entre o δ e outras duas variáveis explicativas que serão definidas no Cap´ıtulo 3. Consequentemente, o modelo de regressão linear múltipla (RLM) figurou como uma forma pertinente de explicar δ em fun¸cão dessas duas variáveis. Nesta se¸cão, pretende-se, brevemente, explicar o RLM para a compreensão dos estudos feitos no Cap´ıtulo 3.

O modelo utilizado sup˜oe que

δi = β1+ β2Xi1+ β3Xi2+ φi, i = 1, 2, ..., n

onde δi representa o i-´esimo valor observado de δ, β = [β1, β2, β3] um vetor de parˆametros

desconhecidos, Xi1 e Xi2 são as i-ésimas observa¸cões das variáveis explicativas, n é o

tamanho da amostra e φi é o erro aleatório, por hipótese φi ∼ N (0, σ2). Além da

hipótese de normalidade e homoscedasticidade dos erros, o RLM também pressupõe inde-pendência nas observa¸cões, linearidade nos parâmetros e ausência de outliers (KUTNER; NACHTSHEIM; NETER, 2003).

Uma vez estabelecido o modelo teórico, propõe-se estimar os valores dos parâmetros do modelo ˆβ

∼

, pelo método de m´ınimos quadrados ordinários (MQO), para que seja poss´ıvel estimar um valor para δ (ˆδ), dadas as variáveis explicativas, através da fun¸cão

ˆ

δi = ˆβ1 + ˆβ2Xi1+ ˆβ3Xi2, i = 1, 2, ..., n.

Ao estimar os valores de δ ´e poss´ıvel calcular os res´ıduos do modelo, definidos como ei = δi− ˆδi, i = 1, 2, ..., n.

e, a partir deles pode-se calcular os res´ıduos estudentizados e verificar as suposi¸c˜oes do modelo.

O teste de Kolmogorov–Smirnov pode ser aplicado aos res´ıduos estudentizados para verificar se estes seguem uma distribui¸cão normal padrão. Caso o teste rejeite a hipótese

(41)

de normalidade, ´e poss´ıvel aplicar alguns tipos de transforma¸c˜oes aos dados para tentar obter normalidade dos res´ıduos.

Uma das poss´ıveis transforma¸cões, que foi adotada neste trabalho, é a raiz cúbica da variável dependente (δ). Esta transforma¸cão não interfere na rela¸cão de linearidade entre as variáveis explicativas e a variável resposta, estabiliza a variância dos res´ıduos e torna sua distribui¸cão aproximadamente normal (KUTNER; NACHTSHEIM; NETER, 2003). O novo modelo ajustado fica da forma

3

q ˆ

δi = ˆβ1+ ˆβ2Xi1+ ˆβ3Xi2, i = 1, 2, ..., n.

Uma vez testada e confirmada a normalidade dos res´ıduos é preciso verificar as demais hipóteses do modelo. Em seguida, é poss´ıvel testar a significância dos parâmetros para afirmar que as variáveis explicativas tem, de fato, efeito linear significativo sobre a raiz cúbica de δ.

Uma vez que os estimadores de MQO são não-viesados e a partir da hipótese de normalidade dos erros pode-se inferir que

ˆ

βk∼ N (βk, V ar( ˆβ)).

´

E poss´ıvel mostrar que

V ar( ˆβ) = (X0X)−1X0E(e0e)X(X0X)−1,

onde e0 = [e1, e2, ..., en] e X é a matriz de variáveis independentes. Se a hipótese de

homocedasticidade é válida estão E(e0e) = σ2_{, ent˜}_{ao V ar( ˆ}_{β) = σ}2_(X0_X)−1_{, caso contr´}_ario

é poss´ıvel estimar a variância de ˆβ a partir dos res´ıduos do modelo, são os chamados estimadores robustos para heterocedasticidade (WOOLDRIDGE, 1960).

O teste de significˆancia individual para o parˆametro βk, k = 1, 2, 3 consiste em testar

as hip´oteses

H0 : βk= 0

H1 : βk6= 0

Sob H0, e a partir da distribui¸c˜ao de ˆβ deriva-se a estat´ıstica do teste

T = ˆ βk 2 q Vˆar( ˆβk) ∼ Tn−p,

(42)

onde p é o número de parâmetros a serem estimados (neste modelo p = 3). Obtêm-se, então, o valor observado da estat´ıstica do teste tobs. A partir de um n´ıvel de significância

α que, neste trabalho, foi considerado α = 0,05, verifica-se se tobs ´e de fato um valor

compat´ıvel com a distribui¸cão padronizada de βk. Um bom indicador é o p − valor que é

uma probabilidade de obter alguma observa¸c˜ao mais extrema (na dire¸c˜ao de H1) que tobs

sob H0.

p − valor = P (Tn−p > |tobs|) + P (Tn−p< −|tobs|).

Se p − valor ≤ α rejeita-se H0 ao n´ıvel de significˆancia de 5%. Em seguida pode ser

observado o n´ıvel de determina¸c˜ao do modelo R2_{, que quantifica o quanto da varia¸c˜}_{ao da}

(43)

3 An´

alise dos Resultados

3.1 An´

alise do Delta

De acordo com o que foi estudado sobre o Algoritmo Contexto, nota-se que este tem por critério de decisão o valor δ, uma distância máxima tolerável entre as probabilidades de transi¸cão. Veja que uma escolha incorreta do δ prejudica a capacidade algoritmo de estimar a árvore de contextos correta, uma vez que um δ muito alto “rejeita” mais contextos do que deveria, e um δ muito baixo “aceita”. Dessa forma, antes de recorrer ao algoritmo para estimar τ , é preciso primeiro determinar δ.

No programa R (TEAM, 2014) foi feita uma série de simula¸cões a fim de compreender melhor o δ e seu comportamento, a seguir será relatada a formula¸cão e organiza¸cão dessas simula¸cões.

3.1.1 Considera¸

c˜

oes iniciais da simula¸

c˜

ao

1. ´Arvore de contextos conhecida.

As amostras de cadeias estocásticas foram simuladas a partir de árvores de contexto conhecidas. Seja τ0 uma árvore de contextos preestabelecida, ao atribuir-se valores

`

as probabilidades P = {p(a|u0) : u0 ∈ τ0, a ∈ A}, ´e poss´ıvel simular uma amostra

de tamanho n ∈ N compat´ıvel com (τ0, P ). Note que os j primeiros valores iniciais

da amostra, onde j é o tamanho da maior sequência em τ0, também devem ser

conhecidos para que se possa iniciar a simula¸c˜ao.

De posse da amostra simulada ´e poss´ıvel estimar as probabilidades ˆp(a|u), onde u ∈ Ak_{, para qualquer k que seja menor que n o bastante.}

2. Intervalo de aceita¸c˜ao para δ. ´

E poss´ıvel, a partir das probabilidades estimadas, encontrar um intervalo de valores de δ que encontra τ0 atrav´es do Algoritmo Contexto. Denote IAδ o “intervalo de

(44)

aceita¸c˜ao de δ”.

Exemplo 3.1. Dada uma amostra de tamanho n referente a uma cadeia com τ0 =

{0, 01, 011, 111}, prop˜oe-se tentar identificar os valores de δ que comp˜oem IAδ, em

fun¸cão das probabilidades estimadas. Tome uma árvore de contextos até um n´ıvel d = 4 conforme a Figura 11. Para encontrar τ0 o Algoritmo Contexto deve “podar”

as “folhas” at´e que a ´arvore fique conforme a Figura 14.

0 ←−−→ 1

111 011 01 0

Figura 14: ´Arvore referente a τ0 = {0, 01, 011, 111} com A = {0, 1}

Note que, a maior sequˆencia em τ0 tem tamanho 3. Portanto ´e preciso “podar”

qualquer n´ıvel da árvore com sequências de tamanho maior que 3. Em outras palavras, é preciso encontrar um δ tal que

max

b∈A maxa∈A {|ˆp(a|u) − ˆp(a|bu)|} ≤ δ, ∀ u ∈ A

k_{, k ≥ 3.}

Tome δl1 igual ao menor dos δ que satisfazem essa condi¸c˜ao. Mais que isso, o δ ideal

ainda precisa garantir que as sequˆencias {00, 10, 000, 100, 010, 110, 001, 101} sejam podadas, ent˜ao,

max

b∈A maxa∈A {|ˆp(a|v) − ˆp(a|bv)|} ≤ δ, ∀ v ∈ {0, 00, 10, 01} .

Tome δl2 igual ao menor dos δ que satisfazem essa condi¸c˜ao. Finalmente, ´e preciso

garantir que pelo menos uma das sequências {011, 111} não possam ser cortadas, então

max

b∈A maxa∈A {|ˆp(a|11) − ˆp(a|b11)|} > δ.

Tome δuigual ao maior dos δ que satisfazem essa condi¸c˜ao. Portanto, pode-se definir

IAδ = [δl = max {δl1, δl2} , δu] como o maior intervalo tal que, se δ ∈ IAδ, ent˜ao o

Algoritmo Contexto, encontra τ0.

A partir do Exemplo 3.1 ´e importante notar que, caso δ < δl o Algoritmo Contexto

(45)

o Algoritmo Contexto “rejeitar” mais contextos do que deveria, assim, é válida a rela¸cão abaixo:

δ < δl → ˆτ τ0

δ ∈ [δl, δu] → ˆτ = τ0

δ > δu → ˆτ ≺ τ0

Quando subestima-se δ obtêm-se ˆτ τ0, então os elementos de τ0que não pertencem

a ˆτ são sufixos de elementos em ˆτ . Dessa forma, a informa¸cão relevante sobre o passado está em ˆτ , mesmo que esta árvore estimada carregue mais informa¸cão do que o necessário. Já no caso uma superestima¸cão de δ obtêm-se ˆτ ≺ τ0, existem

elementos em τ0 que não pertencem a ˆτ e não são sufixos de elementos em ˆτ , desta

forma, desconsidera-se a influˆencia de parte relevante do passado nas probabilidades de transi¸c˜ao do modelo.

Por esse motivo, em termos de qualidade preditiva, este trabalho considera que subestimar δ ´e melhor que superestim´a-lo.

Outra observa¸cão necessária é que existe a possibilidade de, nas simula¸cões, ocorrer amostras em que δl > δu, neste caso, considera-se que não existe um δ que encontra

τ0 para essa amostra.

3. Espa¸co de estados e sele¸c˜ao de ´arvores de contexto

As simula¸c˜oes feitas neste trabalho consideraram apenas cadeias com espa¸co de estados A = {0,1}.

Buscando analisar os efeitos das probabilidades sobre δ foram escolhidas três árvores de contextos a partir das quais serão geradas as amostras. São elas

τ1 = {0, 1}

τ2 = {0, 01, 011, 111}

τ3 = {000, 100, 10, 11, 001, 101} .

Para cada uma dessas ´arvores foi estabelecida uma regra para encontrar IAδ

con-forme o Exerc´ıcio 3.1.

(46)

Uma vez que o IAδ, se existe, est´a em fun¸c˜ao das probabilidades estimadas,

levantou-se a hipótese de δ ser uma fun¸cão das probabilidades de transi¸cão compat´ıveis com a amostra. Investigar essa rela¸cão, no entanto, é um trabalho dif´ıcil uma vez que existem muitas combina¸cões poss´ıveis de valores que as probabilidades podem as-sumir. Fez-se necessário então adotar uma constru¸cão simplificada para os valores das probabilidades de transi¸cão.

Assumiu-se que todas as probabilidades de transi¸c˜ao seriam fun¸c˜oes de um valor ∈ [0, 1/2], e definidas como segue:

τ1 : P (0|0) = 1/2 − ; P (0|1) = 1/2 +

τ2 : P (0|0) = 1/2 − ; P (0|01) = 1/2 + ; P (0|011) = 1/2 − ; P (0|111) = 1/2 +

τ3 : P (0|000) = 1/2 − ; P (0|100) = 1/2 + ; P (0|10) = 1/2 − ;

P (0|11) = 1/2 + ; P (0|001) = 1/2 − ; P (0|101) = 1/2 + .

Nesta configura¸cão as probabilidades “pares”, aquelas condicionadas em sequências que dividem o mesmo nó na árvore de contextos, devem somar 1. Note que, se é pequeno, então as probabilidades de transi¸cão serão bem próximas. Se é grande haverá uma distin¸cão maior entre as probabilidades, principalmente quando comparadas com suas complementares.

5. Tamanho da amostra e profundidade da ´arvore inicial.

O tamanho da árvore inicial d, necessário para o primeiro passo do Algoritmo Con-texto, é uma fun¸cão do tamanho da amostra n, e da cardinalidade do espa¸co de estados |A|. Na hora de gerar amostras é preciso pensar com cuidado quais valores de d e n geram boas estimativas sem onerar muito o tempo de processamento. Em termos práticos, para garantir uma boa estima¸cão das probabilidades é preciso que haja ocorrências suficientes das sequências na amostra, nesse sentido é reco-mendável escolher n grande. Por exemplo, para calcular ˆp(1|01001) é preciso contar quantas vezes as sequências 010011 e 010010 ocorreram, se a probabilidade de al-guma ocorrer for relativamente baixa e o tamanho da amostra pequeno, é poss´ıvel que não haja nenhuma observa¸cão da sequência na amostra. O valor de n precisa permitir que as sequências ocorram tantas vezes quanto necessárias para sua pro-por¸cão aproximar-se da probabilidade real. Vale lembrar que se d = k é preciso observar as quantidades de ocorrências de todas as sequências de tamanho menor ou igual a k + 1.

(47)

Em contrapartida sabe-se que quanto maior o n maior o custo operacional. Prin-cipalmente quando se percebe que d também aumenta e, portanto, o número de sequências a serem encontradas e contadas na amostra aumenta exponencialmente. Outra coisa a se considerar é que são necessários valores iniciais para gerar amostras de cadeias estocásticas, para dissipar o efeito destes valores, 10% das observa¸cões foram exclu´ıdas do inicio das amostras.

Tudo isso considerado, definiu-se d = blog|A|n

2 c − 1. Esta equa¸c˜ao para d foi proposta

para que este não aumentasse tanto em fun¸cão de n, permitindo a operacionaliza¸cão das simula¸cões. Como o aumento de n não é tão oneroso quanto o aumento de uma unidade em d, propôs-se encontrar o maior n para um determinado d, ou seja encontrar o n que “satura” d. Dessa forma, n ≈ |A|2d+4_.

Como também é necessário apagar o efeito dos valores iniciais utilizados na gera¸cão da amostra, é preciso encontrar um N tal que 0,9N = n, e este será o valor utilizado para gerar as amostras. Por exemplo, para ter d = 4 é preciso que 1024 < n < 4096, assim, é necessário que 0,9N < 4096, então 1138 ≤ N ≤ 4551. Se N = 4552, então n = 4096,8 e d = 5, nesse cenário passa a ser necessário contar também a quantidade de repeti¸cões de sequências de tamanho 6. Além do custo de ter 26 _sequˆ_{encias a}

mais para contar, existe o risco dessas sequˆencias n˜ao ocorrerem suficientemente neste tamanho de amostra.

Veja na Tabela 2 uma rela¸cão dos valores máximos de n e N para alguns valores de d. d n N 3 1.023 1.137 4 4.095 4.551 5 16.383 18.204 6 65.535 72.817 Tabela 2: Rela¸cão d versus n

3.2 Simula¸

c˜

ao

A partir da discussão na se¸cão anterior foi poss´ıvel construir um algoritmo para si-mula¸cão de amostras de cadeias estocásticas e investiga¸cão da distribui¸cão de δ.

O processo consiste em, dado um τ0, um N , um e alguns valores iniciais, simular

(48)

amostra de tamanho n. A partir de n calcula-se d, lista-se todas as sequências poss´ıveis de tamanhos k ≤ d + 1, e contabiliza-se as quantidades de suas ocorrências a fim de estimar as probabilidades de transi¸cão.

Conforme o Exemplo 3.1, a partir dessas probabilidades estimadas, ´e poss´ıvel calcular um IAδ, se este existir1. Nesse caso, pode-se calcular as diferen¸cas entre as probabilidades

de transi¸cão e, dado um valor δ ∈ IAδ, estimar uma árvore através do Algoritmo Contexto.

Naturalmente, se IAδ existe, então a árvore estimada é τ0.

3.2.1 Rela¸

c˜

ao entre δ e as probabilidades de transi¸

c˜

ao

Na pr´atica, foram geradas r = 100 amostras para cada τi, i = 1, 2, 3, N e , com

o intuito de verificar a capacidade do algoritmo de estimar τi. Inicialmente foram

es-tabelecidos dois valores para , = 0,125 (cenário bom) e = 0,0625 (cenário ruim). Essa distin¸cão entre cenário bom e ruim se dá, pois quanto mais as probabilidades se aproximam de 1/2 mais dif´ıcil se torna a estima¸cão. Como as probabilidades tornam-se muito próximas, a frequência com que as sequências aparecem na amostra torna-se muito parecida, espera-se que a amplitude do IAδ diminua, ou, em muitos casos, não exista.

Veja a Tabela 3, para cada valor de N foram geradas r = 100 amostras compat´ıveis com τ2 a partir de = 0,125. Como, para cada amostra pode ser obtido um IAδ, cada

linha da tabela corresponde a 100 intervalos de aceita¸cão. Os valores δ∗_l e δ∗_u compõem IAδ∗, que é o intervalo que mais interseccionou os 100 IA_δ gerados para cada N . A forma

de encontrar IAδ∗ será abordada a seguir na Se¸cão 3.2.2. A variável δ_u∗− δ_l∗é a amplitude

de IAδ∗, e o “% Acerto” representa quantas das 100 repeti¸c˜oes encontraram um IA_δ e,

portanto, estimaram τ2 com sucesso. Pode-se observar que, neste cen´ario, foi poss´ıvel

encontrar um intervalo de δ que encontra τ2 em todas as 100 repeti¸c˜oes para todos os

tamanhos N , justificando a denota¸c˜ao de cen´ario bom.

Ao mesmo tempo, ao comparar com a Tabela 4, verifica-se que o “% Acerto” cai. Isto ocorre pois as probabilidades de transi¸cão da Tabela 4 foram geradas a partir de um = 0,0625, configurando o cenário ruim. Existe maior dificuldade de encontrar valores de δ que estimam τ2. Isto se reflete na média da variável δ∗u− δ

∗

l que ´e 0,0215 no cen´ario

bom, e cai para 0,0044 no cen´ario ruim.

Na Tabela 5 foi especificado qual d, tamanho inicial da ´arvore de contextos, corres-ponde aos valores de N nas Tabelas 3 e 4. Pode-se observar pela Tabela 4 que para um

1_{O intervalo existe se seu limite inferior ´}_{e menor que o limite superior conforme explicado no Exemplo}

(49)

N P (0|0) P (0|01) P (0|011) P (0|111) δ_l∗ δ∗_u δ_u∗− δ∗ l % Acerto 1000 0,375 0,625 0,375 0,625 0,0914 0,0971 0,0057 100% 4000 0,375 0,625 0,375 0,625 0,0872 0,1177 0,0304 100% 7000 0,375 0,625 0,375 0,625 0,0956 0,1039 0,0083 100% 10000 0,375 0,625 0,375 0,625 0,0822 0,1176 0,0354 100% 13000 0,375 0,625 0,375 0,625 0,0887 0,1147 0,0260 100% 16000 0,375 0,625 0,375 0,625 0,0704 0,1118 0,0413 100% 19000 0,375 0,625 0,375 0,625 0,1085 0,1124 0,0039 100% 22000 0,375 0,625 0,375 0,625 0,0991 0,1123 0,0132 100% 25000 0,375 0,625 0,375 0,625 0,0939 0,1228 0,0289 100%

Tabela 3: Resultado de r = 100 amostras de tamanho N para τ2 no cen´ario bom.

N P (0|0) P (0|01) P (0|011) P (0|111) δ_l∗ δ∗_u δ_u∗− δ∗ l % Acerto 1000 0,4375 0,5625 0,4375 0,5625 0,0615 0,0766 0,0151 60% 4000 0,4375 0,5625 0,4375 0,5625 0,0601 0,0646 0,0045 50% 7000 0,4375 0,5625 0,4375 0,5625 0,0652 0,069 0,0037 60% 10000 0,4375 0,5625 0,4375 0,5625 0,058 0,0591 0,001 90% 13000 0,4375 0,5625 0,4375 0,5625 0,0586 0,0633 0,0047 100% 16000 0,4375 0,5625 0,4375 0,5625 0,0516 0,0527 0,0012 100% 19000 0,4375 0,5625 0,4375 0,5625 0,0586 0,0656 0,007 50% 22000 0,4375 0,5625 0,4375 0,5625 0,0595 0,0614 0,0019 70% 25000 0,4375 0,5625 0,4375 0,5625 0,0603 0,0607 0,0004 90%

Tabela 4: Resultado de r = 100 amostras de tamanho N para τ2 no cen´ario ruim.

mesmo d o “% Acerto” aumenta conforme N aumenta. Isto sinaliza que dado d, quanto maior o tamanho da amostra maior a probabilidade de encontrar um δ que estima τ corretamente.

Uma vez que mudan¸cas em d atrapalham a análise de como IAδ reage às varia¸cões

em N , foram simuladas amostras aumentando N mas mantendo d = 4 constante, para um mesmo τ e = 0,3. O resultado pode ser visto na Figura 15 onde observa-se o comportamento de IAδa medida que N cresce. Note que os valores de δus˜ao relativamente

constantes enquanto os valores de δl tendem a diminuir com o aumento de N , portanto,

a amplitude do IAδ tende a aumentar a medida que N aumenta.

3.2.2 Algoritmo para determina¸

c˜

ao de IA

δ∗

Dada uma amostra para um τ0 conhecido ´e poss´ıvel encontrar um IAδ conforme

de-monstrado no Exemplo 3.1. Se, entretanto, são geradas r amostras haverá r intervalos de IAδ. Faz-se necessário então encontrar o intervalo de valores de δ que mais

(50)

interseccio-N n d 1000 900 3 4000 3600 4 7000 6300 5 10000 9000 5 13000 11700 5 16000 14400 5 19000 17100 6 22000 19800 6 25000 22500 6

Tabela 5: Valor de d para cada N nas Tabelas 3 e 4

4000 6000 8000 10000 0.15 0.20 0.25 0.30 N δ

δ

_l

δ

u

Figura 15: Comportamento de δl e δu a mudan¸cas em N mantendo d = 4, para τ2.

nou os IAδ encontrados. Veja a Figura 16, nesta foram plotados r = 7 IAδ, note que o

intervalo limitado pelas linhas verticais é constitu´ıdo exclusivamente de valores de δ que encontram τ0 em 5 das 7 amostras, nenhum outro intervalo é tão ou mais eficaz, portanto

este ser´a IAδ∗.

Para determinar esse intervalo a partir dos IAδ obtidos nas simula¸c˜oes foi aplicado o

seguinte algoritmo:

1 Defina ~δl o vetor com todos os r δl j´a ordenados, e ~δu o vetor com todos os r δu

tamb´em j´a ordenados.