Bruno César Santos Rodrigues. Estimadores para o alcance de uma cadeia de Markov: um estudo comparativo

(1)

Bruno C´

esar Santos Rodrigues

Estimadores para o alcance de uma cadeia

de Markov: um estudo comparativo

Niter´oi - RJ, Brasil 17 de julho de 2018

(2)

Bruno C´

esar Santos Rodrigues

Estimadores para o alcance de uma

cadeia de Markov: um estudo

comparativo

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.

Orientador: Prof. Douglas Rodrigues Pinto

Coorientador: Prof. Hugo Henrique Kegler dos Santos

Niter´oi - RJ, Brasil 17 de julho de 2018

(3)

Universidade Federal Fluminense

Bruno C´

esar Santos Rodrigues

Estimadores para o alcance de uma cadeia

de Markov: um estudo comparativo

Monografia de Projeto Final de Gradua¸cão sob o t´ıtulo “Esti-madores para o alcance de uma cadeia de Markov: um estudo comparativo”, defendida por Bruno César Santos Rodrigues em 17 de julho de 2018, na cidade de Niterói, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:

Prof. Dr. Douglas Rodrigues Pinto Departamento de Estat´ıstica – UFF

Profa. Dra. Karina Yuriko Yaginuma Departamento de Estat´ıstica – UFF

Prof. Dr. Valentin Sisko Departamento de Estat´ıstica – UFF

(4)

comparativo / Bruno César Santos Rodrigues. - Niterói, RJ: [s.n.], 2018.

58f.

Orientador: Prof. Dr. Douglas Rodrigues Pinto Coorientador: Prof. Dr. Hugo Henrique Kegler dos Santos TCC ( Graduação de Bacharelado em Estatística) – Universidade

Federal Fluminense, 2018.

1. Cadeia de Markov . 2. Algoritmo contexto. I. Título. CDD. 519.542

(5)

Resumo

Neste trabalho abordamos as cadeias estocásticas de ordem finita em um alfabeto finito, estando interessados no quanto do presente é influenciado pelo passado. Obser-vamos uma amostra implementada com programa na linguagem R (www.r-project.org), a fim de estimar as probabilidades de transi¸cão de uma cadeia de Markov de alcance k, com k fixado. Em seguida, estudamos os estimadores de alcance k de um processo de Markov com probabilidade de transi¸cão e alcance desconhecidos. Utilizamos o critério de informa¸cão Bayesiano(BIC), também conhecido como Critério de Schwarz, algoritmo contexto e o critério de determina¸cão eficiente(EDC). Por fim, comparamos a precisão de cada método quando submetidos a amostras geradas computacionalmente.

Palavras-chaves: Cadeia de Markov, algoritmo contexto, critério de informa¸cão bayesiano e critério de determina¸cão eficiente.

(6)

Dedico este trabalho primeiramente à Deus, por sempre estar cuidando, dando for¸ca, sabedoria e discernimento em toda esta jornada, aos meus pais Lúcia Maria e Rubem Xavier que, com todo carinho, nunca mediram esfor¸cos para que eu chegasse até aqui, a minha irmã Beatriz Rodrigues por sempre estar presente me ajudando de todas as formas, ao meu namorado amado e melhor amigo Gabriel Engel, um exemplo de perseve-ran¸ca e companheirismo e a minha grande amiga irmã Carolina Miranda, pelas trocas de conhecimento, experiências de vida e muitas risadas.

(7)

Agradecimentos

Ao meu orientador e prof. Douglas Rodrigues, por todo o conhecimento passado com muita clareza, pela paciência e dedica¸cão ao estudo dirigido para a finaliza¸cão desse projeto.

Agrade¸co ao meu co-orientador e prof. Hugo Henrique Kegler dos Santos por toda ajuda relacionada na implementa¸c˜ao das rotinas computacionais.

(8)

Lista de Tabelas

1 Introdu¸c˜ao p. 10

2 Objetivos p. 12

3 Materiais e M´etodos p. 13

3.1 Defini¸cões . . . p. 13 3.2 Probabilidade de transi¸cão em múltiplos passos . . . p. 15 3.3 Cadeias de Markov com dois estados . . . p. 18 3.4 Classifica¸cão de estados em cadeias de Markov . . . p. 22 3.5 Estados recorrentes e transientes . . . p. 22 3.6 Comportamento limite . . . p. 24 3.7 Distribui¸cão estacionária . . . p. 27 3.8 Alcance da Cadeia de Markov . . . p. 29 3.9 Estima¸cão de máxima verossimilhan¸ca para cadeias de Markov de alcance k p. 31 3.10 Método de sele¸cão da ordem de uma cadeia de Markov . . . p. 35 3.10.1 Critério de informa¸cão Bayesiano (BIC) . . . p. 35 3.10.2 Algoritmo contexto . . . p. 39 3.10.3 Critério de determina¸cão eficiente (EDC) . . . p. 41

4 An´alise dos Resultados p. 46

(9)

Referências p. 49 5.1 Anexo A- Código fonte dos estimadores . . . p. 50 5.2 Anexo B- Código fonte do estimador de BIC . . . p. 51 5.3 Anexo C- Código fonte do estimador de Algoritmo Contexto . . . p. 53 5.4 Anexo D- Código fonte do estimador de EDC . . . p. 56

(10)

1 Probabilidade de transi¸c˜ao Pn(b|u) . . . p. 40

2 Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ =

0, 06 (%). . . p. 46 3 Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ =

(11)

10

1 Introdu¸

c˜

ao

Saber o quanto do passado pode nos trazer informa¸cões sobre o presente é uma das motiva¸cões deste trabalho. Esse tipo de informa¸cão é de suma importância no âmbito industrial, comercial, biológico e financeiro, bem como em fenômenos naturais, pois há um alto grau de incerteza. Portanto, mesmo que se conhe¸ca a condi¸cão inicial, o processo pode evoluir de diferentes formas. Determinar um modelo probabil´ıstico para compre-ensão do comportamento desses sistemas ajuda na tomada de decisões, recorre-se ao processos estocásticos como uma forma de estudar estes fenômenos, aproveitando algu-mas caracter´ısticas de regularidade que eles apresentam para serem descritos por modelos probabil´ısticos.

Dá-se o nome de cadeia de Markov a um fenômeno que possa ser classificado em espa¸co de estados N, cuja probabilidade de transi¸cão entre tais estados, num intervalo de tempo também discreto, dependa apenas do estado corrente e do estado seguinte. A sequência de estados seguindo este processo dá-se o nome de cadeia de Markov [1]. Mais generica-mente, seguindo Kac[2] e Nelson[3], qualquer tipo de evolu¸cão temporal (determin´ıstica ou essencialmente probabil´ıstica) que seja analisável em termos de probabilidade pode ser chamada de processo estocástico.

Na primeira se¸cão definimos o conceito de cadeia de Markov em tempo discreto, denotamos a probabilidade de transi¸cão via matriz e diagrama. Na Se¸cão seguinte, re-tomamos exemplos anteriores a fim de definir a probabilidade de transi¸cão em m + n passos utilizando a equa¸cão de Champman-Kolmogorov. Na Se¸cão 3.3 estudamos algu-mas particularidades quando o espa¸co amostral Ω possui apenas 2 estados e calculamos a probabilidade inicial. Na Se¸cão 3.4 e 3.5 classificamos os estados em recorrente e tran-siente e utilizamos de exemplos para melhor compreensão. Na Se¸cão 3.6 e 3.7 estudamos comportamento limite, definimos o conceito de cadeia ergótica, aperiódica e verificamos o comportamento limite através da distribui¸cão de π. Nas se¸cões seguintes, estudamos como estimar a matriz de probabilidade com k assumindo valores |A| = 2 e |A| assumindo valores maiores que 2. Por fim, definimos o critério de informa¸cão Bayesiano, algoritmo

(12)

contexto e o critério de determina¸cão eficiente, onde estudamos via simula¸cão a eficiência dos estimadores de alcance da cadeia.

(13)

12

2 Objetivos

O trabalho tem como objetivos:

• Estudar processos estocásticos cujas probabilidades de transi¸cão dependem de uma por¸cão de tamanho fixo do passado;

• Construir algoritmo para a simula¸c˜ao desses processos;

• Estudar os estimadores para as probabilidades de transi¸c˜ao de uma cadeia de Markov de oredem k;

• Estudar os estimadores do alcance de uma cadeia de Markov de alcance k;

• Realizar a implementa¸c˜ao computacional dos estimadores BIC e o Algoritmo Con-texto;

• Realizar um estudo comparativo entre os estimadores BIC, Algoritmo Contexto e o Crit´erio de Determina¸c˜ao Eficiente a partir de uma amostra gerada por uma cadeia de Markov de alcance k.

(14)

3 Materiais e M´

etodos

3.1 Defini¸

c˜

oes

Considere um sistema que pode possuir qualquer número finito ou infinito de estados. Denotamos como Ω esse conjunto de estados e assumimos nesse trabalho que ele é um subconjunto dos inteiros. O conjunto Ω é chamado de espa¸co de estado do processo.. Neste trabalho observamos os momentos discretos de tempo n = 1, 2, ..., e denotamos Xn

como vari´aveis aleat´orias que definem o estado do processo no momento n.

O modelo mais simples poss´ıvel seria uma estrutura de variáveis aleatórias indepen-dentes, isto é, um modelo em que a probabilidade da variável aleatória Xn assuma um

determinado valor xn de Ω n˜ao depende dos valores assumidos por X1, ..., Xn−1. Ou seja,

P (Xn = xn|Xn−1 = xn−1, ..., X1 = x1, X0 = x0) = P (Xn= xn). (3.1)

Entretanto, em diversos problemas, os estados passados tem influência nos estados futuros. Particularmente, podemos considerar o caso em que a probabilidade de uma variável aleatória Xn assumir um determinado valor dependa exclusivamente do estado

imediatamente anterior, isto ´e,

P (Xn = xn|Xn−1 = xn−1, ..., X1 = x1, X0 = x0) = P (Xn= xn|Xn−1= xn−1). (3.2)

Essa propriedade ´e chamada de propriedade de Markov e os sistemas que tem essa propriedade s˜ao chamados de cadeias de Markov.

Para cada n e dos n´umeros x0, ..., xn+1, cada um em Ω ⊂ Z, as probabilidades

con-dicionais P (Xn+1 = i|Xn = j) s˜ao chamadas de probabilidade de transi¸c˜ao da cadeia e

denotada por p(i, j). As probabilidades de transi¸cão são dispostas numa matriz P deno-minada matriz de transi¸cão dada por

(15)

3.1 Defini¸c˜oes 14 P =           p(0, 0) p(0, 1) p(0, 2) · · · p(0, n) p(1, 0) p(1, 1) p(1, 2) · · · p(1, n) p(2, 0) p(2, 1) p(2, 2) · · · p(2, n) .. . ... ... . .. ... p(n, 0) p(n, 1) p(n, 2) · · · p(n, n)           .

Neste trabalho abordamos as cadeias de Markov que tenham probabilidades de transi¸cão estacionárias, isto é, aquelas que P (Xn+1 = xn+1|Xn = xn) independem de n. Quando

falarmos que {Xn}n>0 forma uma cadeia de Markov, queremos dizer que essas vari´aveis

aleatórias satisfazem as propriedades de Markov e que tem probabilidade de transi¸cão estacionárias.

Exemplo 3.1.1. Ru´ına do jogador.

Suponha um jogo em que, o jogador ganhe 1 real com probabilidade p = 0, 3, ou perca 1 real com probabilidade 1 − p = 0, 7, a cada rodada de modo independente, at´e que sua fortuna seja 0 ou N reais, ao atingir um desses valores ele para de jogar. Seja Xn = i com

0 < i < N a quantidade de dinheiro acumulada em n jogadas. Note que, conhecendo seu estado atual, qualquer outra informa¸cão sobre o passado é irrelevante para a previsão do próximo estado Xn+1. Ou seja, para i0, ..., in−1, i, j:

P (Xn+1 = j|Xn = i, Xn−1= ii−1, ...X0 = i0) = P (Xn+1= j|Xn= i).

Para aumentar sua riqueza, dado que o jogador possui Xn= i no momento Xn+1 tem

que possuir i + 1 reais. Veja a seguir o comportamento dos estados.

P (Xn+1 = j|Xn = i) = p(i, j) =

(

0, 3 se j = i + 1 0, 7 se j = i − 1. Para o caso N=4, a matriz de transi¸c˜ao ´e dada por:

(16)

0 1 2 3 4 P = 0 1 2 3 4          1 0 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0 1          ,

Outra forma de representar o processo ´e atrav´es de diagrama, como

0 1,0 ₉₉ ₁ 0,7 hh 0,3 (( 2 0,7 hh 0,3 (( 3 0,7 hh 0,3 (( 4_ee 1,0_.

Exemplo 3.1.2. Cadeia meteorol´ogica.

Seja Xn o clima em uma determinada cidade no dia n, sendo considerados trˆes

es-tados: nevado=1, nublado=2 e ensolarado=3. O clima certamente não é uma cadeia de Markov, pois, por exemplo, se dois dias anteriores eram ensolarados, então é mais provável que haja uma condi¸cão atmosférica especial, como uma área de alta pressão localizada na região, que favorece a luz do sol. Desta forma, ter´ıamos uma maior probabilidade de um terceiro dia ensolarado. Mesmo que o tempo não seja exatamente uma cadeia de Markov, podemos propor um modelo Markoviano para ele, como por exemplo considerando a se-guinte matriz de transi¸cão para o processo

1 2 3 P = 1 2 3     0,2 0,8 0 0,3 0,4 0,3 0,2 0,5 0,3     .

Neste exemplo, a probabilidade do tempo estar ensolarado (estado 3), sabendo que no dia anterior esteve nublado (estado 2) ´e P (X2 = 3|X1 = 2) = p(2, 3) = 0, 3.

3.2 Probabilidade de transi¸

c˜

ao em m´

ultiplos passos

Até agora, vimos a probabilidade de transi¸cão de sair do estado i para o estado j em apenas um passo p(i, j) = P (Xn+1 = j|Xn = i). Nesta se¸cão estudamos a probabilidade

(17)

3.2 Probabilidade de transi¸c˜ao em m´ultiplos passos 16

pm(i, j) = P (Xn+m = j|Xn = i). (3.3)

No exemplo a seguir retomamos a situa¸c˜ao do Exemplo 3.1.2.

Exemplo 3.2.1. Considere que hoje seja sexta-feira e o está ensolarado (estado 3). Qual é a probabilidade de sábado estar nublado (estado 2) e no domingo nevando (estado 1)?

Pela propriedade da cadeia de Markov, sabemos que a probabilidade de que iniciando no estado 3, passar para o estado 2 e ent˜ao para o estado 1 ´e:

P (X2 = 1, X1 = 2|X0 = 3) = P (X2 = 1, X1 = 2, X0 = 3) P (X0 = 3) = P (X1 = 2, X0 = 3)P (X2 = 1|X1 = 2, X0 = 3) P (X0 = 3) = P (X1 = 2, X0 = 3) · P (X2 = 1|X1 = 2) P (X0 = 3) = P (X2 = 1|X1 = 2) · P (X1 = 2|X0 = 3) = p(2, 1) · p(3, 2)

Pela propriedade de Markov (3.2) a express˜ao ´e:

P (X2 = 1|X1 = 2) · P (X1 = 2|X0 = 3) = p(3, 2)p(2, 1) = 0, 5 · 0, 3 = 0, 15.

Exemplo 3.2.2. Sabendo que hoje ´e segunda feira e o dia est´a nevando, qual a probabi-lidade de quarta feira o tempo estar nublado?

P (X2 = 2|X0 = 1) = = P (∪3k=1[X2 = 2, X1 = k]|X0 = 1) = 3 X k=1 P (X2 = 2, X1 = k|X0 = 1) = 3 X k=1 p(1, k).p(k, 2) = p(1, 1)p(1, 2) + p(1, 2)p(2, 2) + p(1, 3)p(3, 2) = 0, 2 · 0, 8 + 0, 8 · 0, 4 + 0 · 0, 5 = 0, 48.

(18)

P (X2 = j|X0 = i) = 3

X

k=1

p(i, k)p(k, j).

A probabilidade de transi¸cão de iniciar no estado 1 e chegar ao estado 2 em apenas 2 passos é dada pela nota¸cão p2(1, 2). A matriz p nos fornece esse valor quando a (i, j)-ésima da matriz p é multiplicada por ela mesma, ou seja, a segunda potência da matriz P.

Teorema 3.2.1. Equa¸c˜ao Chapman-Kolmogorov

Esta equa¸cão nos fornece um método de calcular as probabilidades de trans¸cão em m + n passos:

Pm+n_{(i, j) =} X k

pm(i, k)pn(k, j).

Ou seja, o processo pode ser dividido em duas partes, saindo de i para k em m passos e de k para o estado j em n passos.

Demonstra¸c˜ao. P (Xm+n= j|X0 = i) =

X

k

P (Xm+n = j, Xm = k|X0 = i).

Usando a defini¸c˜ao de probabilidade condicional temos que:

P (Xm+n = j, Xm = k|X0 = i) = P (Xm+n = j, Xm = k, X0 = i) P (X0 = i) = P (Xm+n = j, Xm = k, X0 = i) P (Xm = k, X0 = i) P (Xm = k, X0 = i) P (X0 = i) = P (Xm+n = j|Xm = k, X0 = i)P (Xm = k|X0 = i) = P (Xm+n=j|Xm=k)P (Xm = k|X0 = i) = pm(j, k)pn(k, j).

Para calcular, por exemplo p2(3, 1), a probabilidade de iniciar no estado 3 e passar para o estado 1 em 2 passos. Para efetuar esse c´alculo multiplica-se a terceira linha da matriz p pela primeira coluna da mesma.

(19)

3.3 Cadeias de Markov com dois estados 18 p2(3, 1) =X k p(3, k)p(k, 1), em outras palavras     . . . . . . 0, 2 0, 5 0, 3         0, 2 . . 0, 3 . . 0, 2 . .     =     . . . . . . 0, 25 . .    

Generalizando, temos o seguinte:

Teorema 3.2.2. O passo m da probabilidade de transi¸c˜ao P (Xn+1 = j|Xn = i) ´e a

m-ésima potência da matriz de transi¸cão p.

3.3 Cadeias de Markov com dois estados

Nesta se¸c˜ao, vamos apresentar algumas particularidades do caso onde nosso Ω possui apenas dois estados.

Para um exemplo da cadeia de Markov com dois estados, considere uma máquina que, no in´ıcio de qualquer dia esteja quebrada ou em condi¸cão operacional. Assume-se que, se a máquina está quebrada no dia n, a probabilidade dela ser reparada com sucesso e em condi¸cões de funcionamento no in´ıcio do (n+1)-ésimo dia é igual a p. Considere também que se a máquina está no estado de funcionamento no in´ıcio do dia n, a probabilidade dela ter uma falha fazendo com que a máquina esteja quebrada no in´ıcio do (n+1)-ésimo dia é igual a q. O estado 0 corresponde a máquina estar quebrada e o estado 1 corresponde a máquina estar em condi¸cões de funcionamento. Denotamos π0(0) a probabilidade de que

m´aquina esteja inicialmente quebrada e π0(1) esteja em funcionamento.

Seja Xn a variável aleatória que representa o estado da máquina no tempo n. De

acordo com as premissas do problema, temos ent˜ao,

P (X0 = 0) = π0(0),

P (Xn+1 = 1|Xn = 0) = p,

(20)

Uma vez que s´o existem dois estados, 0 ou 1, temos que:

π0(1) = P (X0 = 1) = 1 − π0(0),

P (Xn+1 = 0|Xn= 0) = 1 − p,

P (Xn+1 = 1|Xn= 1) = 1 − q.

A partir dessas informa¸c˜oes, podemos facilmente calcular P (Xn = 0) e P (Xn = 1).

Observamos que P (Xn+1 = 0) = P (Xn= 0 e Xn+1 = 0) + P (Xn= 1 e Xn+1 = 0) = P (Xn= 0)P (Xn+1 = 0|Xn= 0) + P (Xn= 1)P (Xn+1 = 0|Xn = 1) = P (Xn= 0)(1 − p) + qP (Xn = 1) = P (Xn= 0)(1 − p) + q(1 − P (Xn= 0)) = P (Xn= 0)(1 − p) + q − qP (Xn = 0) = P (Xn= 0)(1 − p − q) + q.

Como P (X0 = 0) = π0(0), ent˜ao,

P (X1 = 0) = (1 − p − q)π0(0) + q,

e

P (X2 = 0) = (1 − p − q)P (X1 = 0) + q

= (1 − p − q)[(1 − p − q)π0(0) + q]q

= (1 − p − q)2π0(0) + q[1 + (1 − p − q)].

Generalizando para um n qualquer.

P (Xn= 0) = (1 − p − q)nπ0(0) + q n−1 X j=0 (1 − p − q)j. (3.4) Observamos 2 casos.

(21)

3.3 Cadeias de Markov com dois estados 20

P (Xn = 0) = π0(0) e P (Xn= 1) = π0(1).

Caso 2: Quando p + q > 0, a fórmula resulta em uma soma de progressão geométrica finita. n−1 X j=0 (1 − p − q)j = 1 − (1 − p − q) n p + q . (3.5)

Concluimos no caso 2 que:

P (Xn = 0) = (1 − p − q)nπ0(0) + q n−1 X j=0 (1 − p − q)j = (1 − p − q)nπ0(0) + q 1 − (1 − p − q)n p + q = q p + q + (1 − p − q) n π0(0) − q p + q , (3.6) e, al´em disso, P (Xn= 1) = (1 − p − q)nπ0(1) + q n−1 X j=0 (1 − p − q)j = (1 − p − q)nπ0(1) + q 1 − (1 − p − q)n p + q = q p + q + (1 − p − q) n π0(1) − q p + q . (3.7)

Supondo que p e q s˜ao diferentes de 0 e 1, ent˜ao 0 < p + q < 2, assim, temos que |1 − p − q| < 1. Quando n → ∞ em (3.6) e (3.7) concluimos: lim n→∞P (Xn= 0) = limn→∞ q p + q + (1 − p − q) n π0(0) − q p + q = q p + q (3.8) e lim n→∞P (Xn= 1) = limn→∞ p p + q + (1 − p − q) n π0(0) − p p + q = p p + q. (3.9)

(22)

Vimos em (3.8) e (3.9) para n > 0, P (X0 = 0) = q p + q e P (X0 = 1) = p p + q, ou seja, para n > 0 P (Xn= 0) = q p + q e P (Xn = 1) = p p + q.

Supondo que a propriedade de Markov é válida, n é igual a 2 e x0, x1 e x2 ∈ {0, 1}.

Ent˜ao:

P (X0 = x0, X1 = x1, X2 = x2) = P (X0 = x0, X1 = x1)P (X2 = x2|X0 = x0, X1 = x1)

= P (X0 = x0)P (X1 = x1|X0 = x0)P (X2 = x2|X0 = x0, X1 = x1).

Como P (X0 = x0) e P (X1 = x1|X0 = x0) s˜ao determinados por π0(0), p, q e pela

propriedade de Markov, temos P (X2 = x2|X0 = x0, X1 = x1) = P (X2 = x2|X1 = x1) =

p(x1, x2). P (X0 = 0, X1 = 0, X2 = 0) = p(0)p(0, 0)p(0, 0) = π0(0)(1 − p)2; P (X0 = 0, X1 = 0, X2 = 1) = p(0))p(0, 0)p(1, 0) = π0(0)(1 − p)p; P (X0 = 0, X1 = 1, X2 = 0) = p(0)p(1, 0)p(0, 1) = π0(0)pq; P (X0 = 0, X1 = 1, X2 = 1) = p(0)p(1, 0)p(1, 1) = π0(0)p(1 − p); P (X0 = 1, X1 = 0, X2 = 0) = p(1)p(0, 1)p(0, 0) = (1 − π0(0))q(1 − p); P (X0 = 1, X1 = 0, X2 = 1) = p(1)p(0, 1)p(1, = 0) = (1 − π0(0))qp; P (X0 = 1, X1 = 1, X2 = 0) = p(1)p(1, 1)p(0, 1) = (1 − π0(0))(1 − q)q; P (X0 = 1, X1 = 1, X2 = 1) = p(1)p(1, 1)p(1, 1) = (1 − π0(0))(1 − q)2.

Podemos resumir as equa¸c˜oes acima em uma tabela. x0 x1 x2 P (X0 = x0, X1 = x1, X2 = x2) 0 0 1 π0(0)(1 − p)2 0 0 1 π0(0)(1 − p)p 0 1 0 π0(0)pq 0 1 1 π0(0)p(1 − p) 1 0 0 (1 − π0(0))q(1 − p) 1 0 1 (1 − π0(0))qp 1 1 0 (1 − π0(0))(1 − q)q 1 1 1 (1 − π0(0))(1 − q)2

(23)

3.4 Classifica¸c˜ao de estados em cadeias de Markov 22

3.4 Classifica¸

c˜

ao de estados em cadeias de Markov

Seja Ty = min{n > 0 | Xn = y} o tempo de primeiro retorno para y .

Um estado y ´e dito ser alcan¸c´avel a partir de um estado x se ρxy = Px(Ty < ∞) > 0.

Ent˜ao se ρxy > 0, dizemos que, x se comunica com y, e denotamos por x → y.

Lema 3.4.1. Se x → y e y → z, ent˜ao x → z.

Demonstra¸cão. Dado três estados x, y, e z. Se x → y, por defini¸cão temos que Px(Ty <

∞) > 0, e se y → z temos que Py(Tz < ∞) > 0. Seja k = min{k | pk(x, y) > 0} o menor

n´umero de passos poss´ıvel iniciando no estado x at´e o estado y, e w = min{w | pw_{(y, z) >}

0} o n´umero de passos iniciando do estado y at´e o estado z. Para provar que x → z, vamos mostrar que Px(Tz < ∞) > 0. De fato

Px(Tz < ∞) = ∞ X i=1 Px(Tz = i) ≥ Px(Tz = k + w) = X j∈Ω pk(x, j)pw(j, z) ≥ pk(x, y)pw(y, z) > 0,

logo A Px(Tz < ∞) > 0, conclu´ımos que x → z .

3.5 Estados recorrentes e transientes

Um estado é transiente se, entrando neste estado, o processo pode nunca retornar. Portanto, x é transiente se e somente se, existe um estado y (y 6= x) que é alcan¸cável a partir de x, mas não vice-versa, isto é, o estado x não é alcan¸cável a partir do estado y. Assim, se x é transiente, há uma probabilidade positiva que o processo irá mover-se para o estado y e nunca mais retornar para o estado x. Consequentemente, um estado transiente será visitado um número finito de vezes.

Px(Tx< ∞) < 1

Um estado é dito recorrente se entrando nesse estado, o processo definitivamente irá retornar. Portanto, um estado é recorrente, se e somente se, não é transiente. Uma vez que ele é recorrente, será ”revisitado”após cada visita (não necessariamente no próximo passo do processo).

(24)

Lema 3.5.1. Se x é um estado recorrente e x → y, então y é recorrente.

Demonstra¸c˜_{ao. Seja um estado u, tal que, y → u mas, u 9 y ou seja , estamos supondo} que o estado y seja um estado transiente. Pelo Lema 1.4.1 vimos se, x → y e y → u , então, x → u, como x é um estado recorente por defini¸cão temos ρxx = 1, mas como a ρux < 1

ent˜ao ρxx < 1, ou seja, uma contradi¸c˜ao pois o estado x foi definido como um estado

recorrente. Assim provamos então que o estado y também é um estado recorrente. Exemplo 3.5.1. Ru´ına do jogador. Considere N = 4

0 1 2 3 4 P = 0 1 2 3 4          1 0 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0 1         

Note que, como p(0, 0) = 1 e p(4, 4) = 1 os estados 0 e 4 são recorrentes e absorventes. Um estado é absorvente se p(y, y) = 1, ou seja, uma vez atingidos não será poss´ıvel sair deles. Já os estados 1, 2 e 3 são transientes, iniciando deles poderá nunca retornar.

P (T1 = ∞|X0 = 1) ≥ p(1, 0) = 0, 7 > 0.

Igualmente acontece come¸cando do estado 2, ent˜ao,

P (T2 = ∞|X0 = 2) ≥ p(2, 1)p(1, 0) = 0, 7 · 0, 7 = 0, 49 > 0.

E finalmente iniciando do estado 3, temos

(25)

3.6 Comportamento limite 24

Exemplo 3.5.2. Cadeia de sete estados.

Considere a matriz de transi¸c˜ao:

1 2 3 4 5 6 7 P = 1 2 3 4 5 6 7                0,2 0 0 0 0,8 0 0 0,3 0,1 0,4 0,2 0 0 0 0 0 0,1 0,9 0 0 0 0 0 0 0,8 0 0,2 0 0,7 0 0 0 0,3 0 0 0 0 0 0 0 0,6 0,4 0 0 0 1 0 0 0                1 → 5, 2 → 1, 2 → 3, 2 → 4, 3 → 4, 3 → 5, 4 → 6, 4 → 7, 5 → 1, 6 → 4, 6 → 7, 7 → 4. Um conjunto A é fechado se é impossivel sair, se i ∈ A e j /∈ A então p(i,j)=0. No Exemplo 3.5.2, {1,5} e {4,6,7} são conjuntos fechados. Um conjunto B é chamado de fechado irredut´ıvel se i, j ∈ B, i se comunica com j. No Exemplo 3.5.2 os conjuntos {1,5} e {4,6,7} são conjuntos fechados e irredut´ıveis.

Teorema 3.5.1. Se o estado no espa¸co Ω é finito, então Ω pode ser escrito como a união dijunta T ∪ R1 ∪ ... ∪ Rk, onde T é um conjunto de estados transientes e Ri, 1 ≤ i ≤ k,

s˜ao conjuntos fechados irredut´ıveis de estados recorrentes.

Demonstra¸c˜_{ao. Seja T um conjunto de x tal que existe um y que x → y, mas y 9 x. Os} estados em T s˜ao transientes pelo Teorema (3.5.1). Vamos mostrar que todos os estdos restantes Ω − T s˜ao recorrentes. Seja x ∈ Ω − T e Cx = {y|x → y}. Como x ∈ Ω − T pela

propriedade se, x → y, ent˜ao y → x. Para checar que Cx ´e um conjunto fechado note que

se y ∈ Cx e y → z, ent˜ao implica que x → z logo z ∈ Cx. Para testarmos irredutibilidade,

note que se y, z ∈ Cx, ent˜ao x ∈ Ω − T e implica que y → z. Se Cx ´e um conjunto fechado

e irredut´ıvel, todos estados em Cx s˜ao recorrentes.

3.6 Comportamento limite

Neste t´opico iremos abordar como o nosso processo se comporta ao longo do tempo, ou seja, o comportamento da probabilidade de transi¸c˜ao em n passos, para n grande,

(26)

lim

n→∞P n

(x, y) = lim

n→∞P (Xn = x|X0 = y).

Se esta probabilidade for independente do estado inicial, ela converge para um número π(x) > 0 e é chamada de probabilidade estacionária. Ela pode ser calculada multiplicando-se a matriz P por ela mesmo até que não tenha modifica¸cão nas probabilidade de estado. Se y é um estado transiente, então Xnretornará para y finitas vezes e a probabilidade

de retorno depois de n passos vai para 0 quando n → ∞

pn(x, y) = Px(Xn= y) → 0 para algum estado inicial x.

Caso y seja um estado recorrente em uma cadeia de estados finitos, pn(x, y) conver-gir´a para um limite positivo.

Considere a seguinte matriz de transi¸c˜ao:

P =     0, 2 0, 8 0 0, 3 0, 4 0, 3 0, 2 0, 5 0, 3    

Pelo diagrama a seguir fica mais fácil verificar que todos os estados dessa matriz são recorrentes, então quando n → ∞ ela convergirá para um limite positivo.

0 0,2 ₉₉ 0,8 (( 1 0,4 0,3 hh 0,3 (( 2 0,2 XX _ee 0,3 0,5 hh .

Vamos calcular inicialmente P2, P4, P8, P16 e P32.

P2 =     0, 28 0, 48 0, 24 0, 24 0, 55 0, 21 0, 25 0, 51 0, 24     , P4 =     0, 2536 0, 5208 0, 2256 0, 2517 0, 5248 0, 2235 0, 2524 0, 5229 0, 2247     ,

(27)

3.6 Comportamento limite 26 P8 =     0, 2523398 0, 5233570 0, 2243033 0, 2523347 0, 5233686 0, 2242968 0, 2523369 0, 5233635 0, 2242997     , P16 =     0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991     , P32=     0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991     .

Note que P16_{= P}32_{, ou seja, existe uma probabilidade limite que o processo depois de}

um número grande de passos estará no estado y, e esta probabilidade limite não depende do estado inicial.

Defini¸cão 3.6.1. Seja x um estado recorrente. Então x é recorrente positivo se, come¸cando no estado x, o tempo médio de retorno a x é finito. Um estado x é ergódico se este es-tado é aperiódico e recorrente positivo. Logo, uma cadeia ergódica, todos os estados são ergóticos.

Defini¸c˜ao 3.6.2. Um estado x tem per´ıodo d se:

Ix = mdc{n ≥ 1|pn(x, x) > 0} = d.

Para uma cadeia irredut´ıvel, o per´ıodo da cadeia é definido como o per´ıodo comum a todos os estados. A cadeia é chamada de aperiódica se todos os estados possuem per´ıodo 1.

Defini¸cão 3.6.3. .Dizemos que uma cadeia é ergótica se ela é aperiódica e recorrente positiva.

Lema 3.6.1. Se p(x, x) > 0, ent˜ao x tem per´ıodo 1.

Demonstra¸cão. Se p(x, x) > 0, então 1 ∈ Ix, então o maior divisor comum deve ser 1.

(28)

Lema 3.6.5. Se x e y se comunicam x ↔ y, ent˜ao x e y tem o mesmo per´ıodo.

Demonstra¸c˜ao. Vamos supor que o per´ıodo de x seja c e o de y seja d < c. Seja k tal que pk_{(x, y) > 0 e seja m tal que p}m_{(y, x) > 0. Ent˜}_ao

pk+m(x, x) ≥ pk(x, y).pm(y, x) > 0,

Pelo Lema (3.6.4) temos que k + m ∈ Ix. Com x tem per´ıodo c, k + m deve ser

m´ultiplo de c. Agora seja l um inteiro com pl_{(y, y) > 0. Ent˜}_ao

pk+l+m(x, x) ≥ pk(x, y)pl(y, y)pm(y, x) > 0,

k + l + m ∈ Ix, e k + l + m deve ser múltiplos de c. Uma vez que k + m é um múltiplo

de c, isso significa que l é um múltiplo de c. Uma vez que l ∈ Iy, mostramos que c é um

divisor de cada elemento de Iy, mas d < c ´e o maior divisor comum, ent˜ao temos uma

contradi¸c˜ao.

3.7 Distribui¸

c˜

ao estacion´

aria

Com a distribui¸cão estacionária podemos verificar o comportamento limite através de uma distribui¸cão de π = π0, π1, π2, ...πN onde πy > 0 ∀ y = 0, 1, 2, ..., N e

X

y

πy = 1 e

essa distribui¸c˜ao independe do estado inicial.

Seja uma cadeia de Markov (Xn)n∈N, supondo que ela ´e irredut´ıvel e erg´odica, temos:

1) O lim n→∞p n_{(x, y) existe e n˜}_{ao depende de x.} 2) π(y) = lim n→∞p n_{(x, y), y ∈ Ω.}

O vetor π = (π0, π1, ..., πn) é solu¸cão única do sistema

  

 

π(y) = limn→∞pn(x, y), y ∈ Ω

X

y∈Ω

(29)

3.7 Distribui¸c˜ao estacion´aria 28

Considere a seguinte matriz de transi¸c˜ao:

P =     0, 2 0, 8 0 0, 3 0, 4 0, 3 0, 2 0, 5 0, 3     . A equa¸c˜ao πp = π diz, π = π1 π2 π3     0, 2 0, 8 0 0, 3 0, 4 0, 3 0, 2 0, 5 0, 3     . π1(0, 2) + π2(0, 3) + π3(0, 2) = π1 π1(0, 8) + π2(0, 4) + π3(, .5) = π2 0 + π2(0, 3) + π3(0, 3) = π3

Aqui nós temos três equa¸cões e três incógnitas e vamos adicionar uma quarta equa¸cão: π1+ π2+ π3 = 1, então uma das equa¸cões é redundante.

Resolvendo as equa¸c˜oes temos:

π1 = 27 107 ∼_{= 0, 252336,} _π 2 = 168 321 ∼ = 0, 523364, π3 = 24 107 ∼ = 0, 224299.

Ent˜ao voltando ao nosso Exemplo (3.1.2), em que o estado 1 representa nevado, o estado 2 nublado e o estado 3 ensolarado, ao acharmos o comportamento limite dessa cadeia,

π = (0, 2523 0, 5234 0, 2243)

concluimos que a propor¸cão que o tempo está nevado é de aproximadamente 0,252336, nublado é aproximadamente de 0,523364 e ensolarado é aproximadamente 0,224299.

(30)

3.8 Alcance da Cadeia de Markov

Vamos sempre assumir valores num alfabeto ’A’ finito, de onde escolheremos um valor e atribuiremos a X0, em seguida vamos selecionar um n´umero aleat´orio Un ∈ [0; 1], com

distribui¸c˜ao uniforme independente do passado.

Xn = f (Xn−1, Un) ∈ [0, 1], n ≥ 1.

Defini¸cão 3.8.1. Uma cadeia de Markov é de alcance K se escolhermos valores para X−k, ..., X−1 para todo n ≥ 0 : Xn = f (Xn−1, Xn−2, ..., Xn−k; Un), onde (Un)n≥1 é uma

sequência de variáveis aleatórias i.i.d. com distribui¸cão uniforme em [0; 1].

Exemplo 3.8.1. Seja a cadeia de Markov de alcance 1 : Xn = f (Xn−1, Un) com fun¸c˜ao

f : A × [0; 1] → A. Ent˜ao P (Xn= b|Xn−1= a) ´e dada por:

P (Xn= b|Xn−1= a) = P (f (Xn−1, Un) = b|Xn−1= a) = P (f (a, Un) = b|Xn−1= a)

= P (f (a, Un) = b) = p(a|u).

Exemplo 3.8.2. Perda de memória. Neste exemplo vamos mostrar a perda de memória do valor inicial da cadeia de Markov, supondo uma cadeia de alfabeto A = {0, 1} e K=1. Como os estados assumem os valores 0 ou 1, vamos usar a seguinte nota¸cão:

(

X_n−1(0) , se X0 = 0

X_n−1(1) , se X0 = 1.

Uma simula¸c˜ao foi efetuada ao mesmo tempo com o par (Xn(0), Xn(1)).

Dada matriz de transi¸c˜ao abaixo, analisamos os poss´ıveis casos.

P = 0, 4 0, 6 0, 8 0, 2 ! Caso 1: (X_n−1(0) , X_n−1(1) )=(0,1) Xn−1 = 0 ,, Xn−1 = 1 22 00 0, 4 u 1 10, 6 1 0

(31)

3.8 Alcance da Cadeia de Markov 30        (Xn(0)= 0, Xn(1) = 0), se Un≤ 0, 4 (Xn(0)= 1, Xn(1) = 1), se 0, 4 < Un ≤ 0, 6 (Xn(0)= 1, Xn(1) = 0), se 0, 6 < Un ≤ 1. Caso 2: (X_n−1(0) , X_n−1(1) )=(0,0) Xn−1 = 0 ,, Xn−1 = 0 22 u 0 0 0, 4 1 10, 6 1 1        (Xn(0)= 0, Xn(1) = 0), se Un≤ 0, 4 (Xn(0)= 1, Xn(1) = 1), se 0, 4 < Un ≤ 0, 6 (Xn(0)= 1, Xn(1) = 1), se 0, 6 < Un ≤ 1.

Se X_n−1(0) = X_n−1(1) ent˜ao Xn(0) = Xn(1), ou seja, no momento em que os estados ficam

iguais as probabilidades se igualam tamb´em.

(0, 0) (1, 0) oo {{ (1, 1) OO II (0, 1) OO oo cc P (X_n(0) 6= X(1) n ) = P (U0 > 0, 6; U1 > 0, 6; ...Un> 0, 6) = = P (U0 > 0, 6)P (U1 > 0, 6)...P (Un > 0, 6) = 0, 4n = lim n→∞ 4 10 n = 0

Portanto, P (Xn(0) 6= Xn(1)) = 0. Concluimos que a cadeia de Markov perde a mem´oria do

(32)

3.9 Estima¸

c˜

ao de m´

axima verossimilhan¸

ca para

ca-deias de Markov de alcance k

Nesta se¸cão, fizemos inferência estat´ıstica em cadeia de Markov, buscando encontrar um ˆp que maximiza a probabilidade de ocorrência da amostra. Para isso utilizamos a estima¸cão por máxima verossimilhan¸ca. A fun¸cão de verossimilhan¸ca é dada por

L(θ, x1, ..., xn) = p(x1; θ)p(x2; θ)....p(xn; θ) = n

Y

i=1

p(xi; θ),

que deve ser interpretada como a fun¸cão de θ. O estimador de máxima verossimilhan¸ca de θ é o valor que maximiza L(θ, x1, ..., xn)

No caso 1, K assume valores em A = {0, 1} e no caso 2 onde K assume valores em A > 2. Neste segundo caso utilizamos o m´etodo de multiplicadores de Lagrange.

caso 1: Seja (Xn)n=0,1,2,... uma cadeia de Markov com probabilidades de transi¸c˜ao

p = {p(a|u); a ∈ A, u ∈ Ak_{}, u = u}

1.u2...uk.

Vamos usar a seguinte nota¸c˜ao: {Xn

−k = an−k} = {X−k = a−k, X−k+1 = a−k+1, ..., X0 = a0, X1 = a1, ..., Xn = an} e indicar

a matriz p como ´ındice de P:

Pp{X−kn = an−k} = P {X −1 −k = a −1 −k}P {X n 0 = a n 0|X −1 −k = a −1 −k} = P {X_−k−1 = a−1_−k}P {X0 = a0|X−k−1 = a −1 −k}P {X1n = an1|X−k+1= a−k+1} = P {X−k = a−k} n Y r=0 P {Xr = ar|X_r−kr−1 = ar−1_r−k} = P {X−k = a−k} Y a∈A Y u∈Ak p(a|u)Nn(ua)_. Seja Nn(ua) = n X t=k+1

I{X_k−1t−1 = u} o n´umero de vezes que a sequˆencia u seguida de a

´e observada na amostra. Dada a amostra an −k e assumindo P {X −1 −k = a −1 −k} = 1 queremos encontrar ˆpn =

{p(a|u); a ∈ A, u ∈ Ak_{} que maximiza P}

p{X−kn = an−k}, para isso vamos aplicar L(p),

(33)

3.9 Estima¸c˜ao de m´axima verossimilhan¸ca para cadeias de Markov de alcance k 32 Seja a matriz : p = α 1 − α 1 − β β ! e p =ˆ αˆ 1 − ˆα 1 − ˆβ βˆ ! . Aplicando L(Pp{X−kn = an−k}): log(P(α,β){X−kn = an−k}) = X a∈A X u∈Ak Nn(ua) log(p(a|u)).

Agora vamos derivar e igualar a zero:

∂ ∂α log(α, β) = Nn(ua) X b∈A Nn(ub) =⇒ ˆα = _XNn(u0) b∈A Nn(ub) , ∂ ∂β log(α, β) = Nn(ua) X b∈A Nn(ub) =⇒ ˆβ = _XNn(u1) b∈A Nn(ub) .

Para melhor entendimento, selecionamos a seguinte amostra com k=2 e A={0,1}.

X−2 = 0, X−1 = 0, X0 = 0, X1 = 0, X2 = 1, X3 = 0, X4 = 1, X5 = 1, X6 = 0, X7 = 0,

X8 = 0, X9 = 1, X10= 0.

Observa¸cão: Quando falarmos que o alcance da cadeia é 2 então, u ∈ A2 significa que: u ∈ {00,10,01,11}. Pp{X−210 = a10−2} = P {X −1 −2 = a −1 −2}P {X0 = x0|X−2−1 = a −1 −2}P {X110= x 10 1 |X 0 −2+1 = a0−2+1} = P {X₋₂−1 = a−1₋₂}Y a∈A Y u∈A2 p(a|u)Nn(ua)_. Seja: 0 1 0 1 ˆ p = 00 01 10 11        ˆ p(0|00) p(1|00)ˆ ˆ p(0|10) p(1|10)ˆ ˆ p(0|01) p(1|01)ˆ ˆ p(0|11) p(1|11)ˆ        =⇒ p =ˆ 00 01 10 11        ˆ α 1 − ˆα 1 − ˆβ βˆ ˆ γ 1 − ˆγ 1 − ˆθ θˆ       

(34)

Aplicando L(Pp{X−210 = a10−2}:

X

a∈A={0,1}

X

u∈A2

Nn(ua) log p(a|u) = N (000) log pn(0|00) + N (001) log pn(1|00)

+ N (010) log pn(0|01) + N (011) log pn(1|01)

+ N (100) log pn(0|10) + N (101) log pn(1|01)

+ N (110) log pn(0|11) + N (111) log pn(1|11)

X

a∈A={0,1}

X

u∈A2

Nn(ua) log p(a|u) = 3 log(α) + 2 log(1 − α) + 1 log(1 − β) +

1 log(β) + 2 log(γ) + 1 log(1 − γ) + 1 log(θ) + 0 log(1 − θ) Derivando e igualando a zero:

∂ ∂αlog(α, β, γ, θ) = 3 ˆ α − 2 1 − ˆα = 0 =⇒ ˆα = 3 3 + 2 = 3 5 = 0, 6. ∂ ∂βlog(α, β, γ, θ) = 2 ˆ β − 1 1 − ˆβ = 0 =⇒ ˆβ = 1 1 + 1 = 1 2 = 0, 5. ∂ ∂γ log(α, β, γ, θ) = 1 ˆ γ − 1 1 − ˆγ = 0 =⇒ ˆγ = 2 2 + 1 = 2 3 ∼ = 0, 66. ∂ ∂θ log(α, β, γ, θ) = 0 ˆ θ − 1 1 − ˆθ = 0 =⇒ ˆθ = 0. ˆ p =        0, 60 0, 40 0, 50 0, 50 0, 66 0, 34 0 1       

(35)

3.9 Estima¸c˜ao de m´axima verossimilhan¸ca para cadeias de Markov de alcance k 34

Lagrange para encontrar extremos (máximos e m´ınimos) de uma fun¸cão de uma ou mais variáveis com uma ou mais restri¸cões.

Sejam as retri¸c˜oes:

0 ≤ p(a|u) ≤ 1, ∀ a e X u∈Ak p(a|u) = 1. Seja λ = (λu)u∈Ak ; λ_u ∈ R e F (λ, p) definido por : X u∈Ak {X a∈A

Nn(ua) log p(a|u) + λu[1 −

X

a∈A

p(a|u)]}.

Derivando F (λ, p) em rela¸c˜ao `a λu e igualando a zero:

∂ ∂λu F (λ, p) = 1 −X a∈A p(a|u) = 0 X a∈A p(a|u) = 1. (3.10)

Derivando em rela¸cão à p(a|u) a fun¸cão F (λ, p):

∂ ∂p(a|u)F (λ, p) = Nn(ua) 1 p(a|u) − λu ˆ pn(a|u) = Nn(ua) λu . (3.11)

Pelas equa¸c˜oes 3.10 e 3.11, temos que:

X b∈A Nn(ub) λu = 1 X b∈A Nn(ub) = λu.

Logo, o estimador de m´axima verossimilhan¸ca ˆp = {ˆp(a|u); a ∈ A, u ∈ Ak_{} ser´}_{a :}

ˆ pn(a|u) = Nn(ua) X b∈A Nn(ub) .

(36)

3.10 M´

etodo de sele¸

c˜

ao da ordem de uma cadeia de

Markov

J´a sabemos estimar uma matriz de probabilidade de transi¸c˜ao onde ˆpn ∈ Mk(A), ou

seja, estimar essa matriz independente da sua ordem e alfabeto finito. Quando fazemos essa estima¸c˜ao com k = 0, 1, 2, ... obtemos para cada k calculado ˆp(0)n , ˆp(1)n , ˆp(2)n , ... onde

ˆ p(0)n = n X t=1 I{xt=a}.

O objetivo principal nesta se¸cão é estimar k para uma amostra, utilizando os métodos de Critério de informa¸cão Bayesiano (BIC), Algoritmo contexto e o Critério de deter-mina¸cão eficiente (EDC) a fim de verificar a eficiência de cada método para diferentes tamanhos de amostras.

Seja ˆk o grau estimado do polinˆomio tal que minimize o erro: E(xn₁; ˆα0, ˆα1, ˆαk).

Selecionada uma amostra X₁n= an₁, para cada ˆk escolhido calculamos o ˆp(k)n ,

ˆ p(k)_n (b|a−1_−k) = Nn(a −1 −kb) Nn−1(a−1−k) =⇒ ˆpM V (k)(X1n= a n 1) = P {X k 1 = a n k} Y a−k−1∈Ak Y b∈A ˆ pk_n(b|a−1_−k)Nn(a−1−kb) Lk(ak1) = log( ˆPM V (k){(X1n= a n 1)}) = X a−1_−k X b Nn(a−1−kb) log ˆp(k)n (b|a −1 −k)

Neste caso, maximizar a verossimilhan¸ca da amostra não adiantaria, pois fixada a amostra com n >> k a sequência sempre será crescente, então a escolha de um k grande não resultaria numa boa estima¸cão.

3.10.1 Crit´

erio de informa¸

c˜

ao Bayesiano (BIC)

´

E um critério que seleciona o alcance ¯k, levando em considera¸cão a rela¸cão custo benef´ıcio com ¯k << n.

(37)

3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 36

log

ˆ

PM V (k)(X1k)

custo do modelo de alcance k !

= Lk(X1n) − log(custo(k))

onde c(k, n) = c. |A|k.(|A| − 1)

| {z }

. log(n), em geral c = 1 2

Nota¸c˜ao:BIC(k, X₁n) = log ˆPM V (k)(X1n) − c([|A|k(|A| − 1))] log(n).

Exemplo 3.10.1. Supondo um alfabeto A = {0, 1} vamos determinar o alcance K da cadeia dada a matriz:

P = 0, 7 0, 3 0, 6 0, 4

! .

Simulamos uma cadeia com n=10000, encontramos o ˆp(0)_{, ˆ}_p(1)_{, ˆ}_p(2)_{, ..., ˆ}_p(k) _e

aplica-mos na fun¸c˜ao ˆPM V (0), ˆPM V (1), ˆPM V (2), ..., ˆPM V (k) respectivamente, a fim de verificar se

(BIC(k, X₁n) − BIC(k − 1, X₁n)) ≥ 0. Para k=0: ˆ p(0)(0) = Nn(1) n = 0, 6598; ˆ p(0)(1) = Nn(0) n = 0, 3402; ˆ PM V (0) = Y b (ˆp(0)_n (b))Nn(b)_.

Aplicando L0( ˆPM V (0)) e substituindo os valores observados da amostra:

L0( ˆPM V (0)) = X b Nn(b) log ˆp(0)n (b) = Nn(0) log(ˆp(0)n (0)) + Nn(1) log(ˆp(0)n (1)) = 6598 log(0, 6598) + 3402 log(0, 3402) = −9250, 1.

(38)

Substituindo o valor encontrado de L0( ˆPM V (0)) na equa¸c˜ao BIC(0, X1n):

BIC(0, X₁n) = L0( ˆPM V (0)) − c([|A|0(|A| − 1))] log(n)

= −9.250, 1 − 1 2([|2| 0_{(|2| − 1)]) log(10000) = −9.251, 761.} Para k=1: ˆ α = ˆp(1)_{(0|0) =} Nn(00) Nn−1(0) = 4578 4578 + 2019 = 0, 693951796, 1 − ˆα = ˆp (1)_{(1|0) = 0, 306048203;} ˆ β = ˆp(1)_{(1|1) =} Nn(11) Nn−1(1) = 1383 1338 + 2020 = 0, 406406112, 1 − ˆβ = ˆp (1)_{(0|1) = 0, 59359388.} ˆ PM V (1) = Y u∈A Y b∈A (ˆp(1)_n (b|u))Nn(ub)

L1( ˆPM V (1)) =

X

u∈A

X

b∈A

Nn(ub) log ˆp(1)n (b|u)

= Nn(00) log(ˆp(1)(0|0)) + Nn(01) log(ˆp(1)(1|0)) + Nn(10) log(ˆp(1)(0|1)) + Nn(11) log(ˆp(1)(1|1))

= 4578 log(0, 693951796) + 2019 log(0, 306048203) + 2020 log(0, 5935) + 1383 log(0, 4065) = −9178, 302

= −6328, 352 − 1 2([|2| 1_{(|2| − 1))] log(10000) = −9181, 624.} Temos que: BIC(1, X₁n) = −9178, 302 BIC(0, X₀n) = −9251, 761.

(39)

Como BIC(1, X₁n) = −9178, 302 > BIC(0, X₀n) = −9251, 761, ent˜ao podemos afir-mar que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem, acrescentou informa¸c˜oes relevantes.

K=2 ˆ α = ˆp(0|00) = 3.190 ˆ α − 1.361 1 − ˆα = 0 =⇒ ˆα = 3190 3190 + 1361 = 3190 4551 = 0, 7017697. ˆ β = ˆp(0|10) = 1.050 ˆ β − 666 1 − ˆβ = 0 =⇒ ˆβ = 1050 669 + 1050 = 669 1719 = 0, 4026746. ˆ γ = ˆp(0|01) = 1.362 ˆ γ − 357 1 − ˆγ = 0 =⇒ ˆγ = 1362 1362 + 357 = 1362 1719 = 0, 6762376. ˆ θ = ˆp(0|11) = 1050 ˆ θ − 961 1 − ˆθ = 0 =⇒ ˆθ = 1050 1050 + 961 = 1050 2011 = 0, 4114244. ˆ p =        0, 7017697 0, 2982303 0, 5973254 0, 4026746 0, 6762376 0, 3237624 0, 5885756 0, 4114244        ˆ PM V (2) = Y u∈A Y b∈A ˆ p(2)_n (b|u)Nn(ub)

(40)

L2( ˆPM V (2)) =

X

u∈A

X

b∈A

= Nn(000) log(ˆp(2)(0|00)) + Nn(001) log(ˆp(2)(1|00) + Nn(010) log(ˆp(2)(0|10))

+ Nn(011) log(ˆp(2)(1|10) + Nn(100) log(ˆp(2)(0|01)) + Nn(101) log(ˆp(2)(1|01)

+ Nn(110) log(ˆp(2)(0|11)) + Nn(111) log(ˆp(2)(1|11)

= 3212 log(0, 7017697) + 1365 log(0, 2982303) + 1206 log(0, 5973254) + 813 log(0, 4026746) + 1366 log(0, 6762376) + 654 log(0, 3237624) + 814 log(0, 5885756) + 569 log(0, 4114244) = −9173, 729.

= −9173, 729 − 1 2([|2| 2 (|2| − 1))] log(10000) = −9180, 373. Temos que: BIC(1, X₁n) = −9178, 302 BIC(2, X₁n) = −9180, 373 Como BIC(2, Xn

1) = −9180, 373 < BIC(1, X1n) = −9178, 302, ent˜ao podemos

afir-mar que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem para 2 n˜ao acrescentou informa¸c˜ao relevante.

3.10.2 Algoritmo contexto

1. Calcular ˆpk_n(b|a−1_−k) para todo k ≤ log_|A|n,

1.1. k = 1

2log|A|n para ter suficientes repeti¸c˜oes de a

−1

−k, pois se obtivermos

sequências muito longas, não teremos repeti¸cões. 1.2. a−1_−k é candidato a contexto.

2. Para cada a−1_−(k−1) decidimos se a informa¸c˜ao ´e relevante. 3. Se for relevante, decidimos que a−1_−k ∈ ˆτn.

4. Se n˜ao for relevante essa informa¸c˜ao a−1_−k, recome¸camos no passo 1, mas agora com a−1_−(k−1) como novo candidato a contexto.

(41)

Seja uma amostra X1, X2, X3, ..., Xn gerada por uma cadeia de Markov de alcance

fixo finito, queremos estimar o alcance desta cadeia por um m´etodo diferente da se¸c˜ao anterior. Vamos supor que conhecemos k onde k < n − 1 e queremos testar se ˆp(k)_{e ˆ}_p(k+1)

são tão próximos ao ponto de afirmarmos a hipótese nula(H0),

H0 : p(k+1)(b|a−1−k+1) = p

(k)_(b|a−1 −k),

para isso vamos calcular:

∆n(a−1−k) = max a−1_−(k−1)∈Ak−1 max a∈A |ˆpn(b|a −1 −k) − ˆpn(b|a−1_−(k−1))|.

Definimos δ ∈ (0, 1) (um valor pequeno) como a precis˜ao do ˆk. Se ∆n(a−1−k) < δ

dizemos que a informa¸c˜ao de ordem k foi irrelevante. Para verificar se a−k ´e relevante

devemos comparar todos os valores de a para todos os valores de b.

Vamos utilizar a amostra do Exemplo 3.10.1 onde ˆpn(b|u) para k = 1, k = 2 e

A = {0, 1} encontra-se na tabela 1 :

Tabela 1: Probabilidade de transi¸c˜ao Pn(b|u)

u 0 1 0 0,6978352 0,3021648 1 0,6003584 0,3996416 00 0,6968979 0,3031021 10 0,7 0,3 01 0,6114428 0,3885572 11 0,583707 0,416293

(42)

|ˆp(2)_n (0|00) − ˆp(1)_n (0|0)| = 0, 0009373112 < 0, 05; |ˆp(2)_n (0|10) − ˆp(1)_n (0|0)| = 0, 0021648 < 0, 05; |ˆp(2)_n (1|00) − ˆp(1)_n (1|0)| = 0, 0009373112 < 0, 05; |ˆp(2)_n (1|10) − ˆp(1)_n (1|0)| = 0, 0021648 < 0, 05; |ˆp(2)_n (0|01) − ˆp(1)_n (0|1)| = 0, 01108439 < 0, 05; |ˆp(2)_n (0|11) − ˆp(1)_n (0|1)| = 0, 01665137 < 0, 05; |ˆp(2)_n (1|01) − ˆp(1)_n (1|1)| = 0, 01108439 < 0, 05; |ˆp(2)_n (1|11) − ˆp(1)_n (1|1)| = 0, 01665137 < 0, 05.

Como o valor de ∆n(a−1−k) < 0, 05, podemos aceitar H0. Como j´a vimos no crit´erio de

informa¸cão Bayesiano, verificamos que as informa¸cões observadas na cadeia de ordem 2 não foram relevantes em rela¸cão a amostra observada de ordem 1.

3.10.3 Crit´

erio de determina¸

c˜

ao eficiente (EDC)

Englobam critérios do BIC, sendo baseado na log-verossimilhan¸ca máxima e com certa liberdade de escolha do termo de penalidade. Onde k é estimado por ˆkEDC definida por:

ˆ

kEDC = argmin{EDC(k); k = 0, ..., K}

e

EDC(k) = −2 log ˆPM V (k)+ γ(k)cn,

onde γ(.) é uma fun¸cão positiva e estritamente crescente, cn > 0 e log ˆPM V (k) é a

fun¸c˜ao de m´axima verossimilhan¸ca da amostra.

Sob condi¸cões de regularidade, a escolha ótima é dada por:

(43)

com

ˆ

kEDC = argmink>0EDCopt(k).

Vamos utilizar a matriz de transi¸c˜ao do Exemplo 3.10.1 onde ˆpn(b|u) para k = 1,

k = 2 e A = {0, 1}.

Simulamos uma cadeia com n=10000, encontramos o ˆp(0), ˆp(1), ˆp(2), ..., ˆp(k) e aplica-mos na fun¸c˜ao ˆPM V (0), ˆPM V (1), ˆPM V (2), ..., ˆPM V (k) respectivamente, a fim de verificar se

(EDC(k, Xn 1) − EDC(k − 1, X1n)) ≥ 0. Para k=0: ˆ p(0)(0) = Nn(1) n = 0, 6598; ˆ p(0)(1) = Nn(0) n = 0, 3402; ˆ PM V (0) = Y b (ˆp(0)_n (b))Nn(b)_.

L0( ˆPM V (0)) = X b Nn(b) log ˆp(0)n (b) = Nn(0) log(ˆp(0)n (0)) + Nn(1) log(ˆp(0)n (1)) = 6598 log(0, 6598) + 3402 log(0, 3402) = −9250, 1.

Substituindo o valor encontrado de L0( ˆPM V (0)) na equa¸c˜ao EDC(0, X1n):

EDC(0, X₁n) = −2L0( ˆPM V (0))(k) + 2|A|k+1log log n

= −2(−9250, 1) + 2|2|0+1log(log(10000)) = 18515, 13.

(44)

ˆ α = ˆp(1)_{(0|0) =} Nn(00) Nn−1(0) = 4578 4578 + 2019 = 0, 693951796, 1 − ˆα = ˆp (1)_{(1|0) = 0, 306048203;} ˆ β = ˆp(1)_{(1|1) =} Nn(11) Nn−1(1) = 1383 1338 + 2020 = 0, 406406112, 1 − ˆβ = ˆp (1)_{(0|1) = 0, 59359388.} ˆ PM V (1) = Y u∈A Y b∈A (ˆp(1)_n (b|u))Nn(ub)

L1( ˆPM V (1)) =

X

u∈A

X

b∈A

= Nn(00) log(ˆp(1)(0|0)) + Nn(01) log(ˆp(1)(1|0)) + Nn(10) log(ˆp(1)(0|1)) + Nn(11) log(ˆp(1)(1|1))

= 4578 log(0, 693951796) + 2019 log(0, 306048203) + 2020 log(0, 5935) + 1383 log(0, 4065) = −9178, 302

Substituindo o valor encontrado de L1( ˆPM V (1)) na equa¸c˜ao EDC(1, X1n):

EDC(1, X₁n) = −2L1( ˆPM V (1))(k) + 2|A|k+1log log n

= −2(−9178, 302) + 2|2|1+1log(log(10000)) = 18386, 46.

Temos que:

EDC(1, X₁n) = 18386, 46 EDC(0, X₀n) = 18515, 13.

Como EDC(1, Xn

1) = 1.8386, 46 < EDC(0, X0n) = 18515, 13, ent˜ao podemos afirmar

que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem, acrescentou informa¸c˜oes relevantes.

(45)

3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 44 ˆ α = ˆp(0|00) = 3.190 ˆ α − 1.361 1 − ˆα = 0 =⇒ ˆα = 3190 3190 + 1361 = 3190 4551 = 0, 7017697. ˆ β = ˆp(0|10) = 1.050 ˆ β − 666 1 − ˆβ = 0 =⇒ ˆβ = 1050 669 + 1050 = 669 1719 = 0, 4026746. ˆ γ = ˆp(0|01) = 1.362 ˆ γ − 357 1 − ˆγ = 0 =⇒ ˆγ = 1362 1362 + 357 = 1362 1719 = 0, 6762376. ˆ θ = ˆp(0|11) = 1.050 ˆ θ − 961 1 − ˆθ = 0 =⇒ ˆθ = 1050 1050 + 961 = 1050 2011 = 0, 4114244. ˆ p =        0, 7017697 0, 2982303 0, 5973254 0, 4026746 0, 6762376 0, 3237624 0, 5885756 0, 4114244        ˆ PM V (2) = Y u∈A Y b∈A ˆ p(2)_n (b|u)Nn(ub)

Aplicando L2( ˆPM V (2)) e substituindo os valores observados da amostras:

L2( ˆPM V (2)) =

X

u∈A

X

b∈A

= Nn(000) log(ˆp(2)(0|00)) + Nn(001) log(ˆp(2)(1|00) + Nn(010) log(ˆp(2)(0|10))

+ Nn(011) log(ˆp(2)(1|10) + Nn(100) log(ˆp(2)(0|01)) + Nn(101) log(ˆp(2)(1|01)

+ Nn(110) log(ˆp(2)(0|11)) + Nn(111) log(ˆp(2)(1|11)

= 3212 log(0, 7017697) + 1365 log(0, 2982303) + 1206 log(0, 5973254) + 813 log(0, 4026746) + 1366 log(0, 6762376) + 654 log(0, 3237624) + 814 log(0, 5885756) + 569 log(0, 4114244) = −9173, 729.

(46)

EDC(2, X₁n) = −2L2( ˆPM V (2))(k) + 2|A|k+1log log n = −2(−9173, 7290) + 2|2|2+1log(log(10000)) = 18407, 17 Temos que: EDC(1, X₁n) = 18386, 46 EDC(2, X₁n) = 18407, 17 Como EDC(2, Xn

1) = 18407, 17 > EDC(1, X1n) = 18386, 46, ent˜ao podemos afirmar

que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem para 2 n˜ao acrescentou informa¸c˜ao relevante.

(47)

46

4 An´

alise dos Resultados

Neste cap´ıtulo, são apresentados todos os resultados obtidos nas simula¸cões realizadas com o objetivo de comparar os estimadores BIC, Algoritmo Contexto e EDC, definidos nas Se¸cões (3.10.1), (3.10.2) e (3.10.3).

Essas simula¸c˜oes foram geradas considerando o alcance de 1 a 6 e com espa¸co de estados fixados em 2, totalizando 24 casos para cada estimador estudado. Em cada um desses, foram simuladas 100 cadeias de Markov de tamanho n=1000, n=10000, n=50000 e n=100000.

As Tabelas (2), (3), (4) e (5) representam as propor¸cões de subestima¸cão, acerto e superestima¸cão para cada n, onde n representa o tamanho da amostra e k o alcance da cadeia.

As simula¸c˜oes foram realizadas atrav´es do programa computacional R.

Tabela 2: Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ = 0, 06 (%).

n k BIC EDC Algoritmo Contexto

< = > < = > < = > 1 0 100 0 0 100 0 16 65 19 2 0 100 0 0 100 0 44 52 4 1000 3 0 100 0 0 100 0 68 32 0 4 0 100 0 52 48 0 87 13 0 5 51 49 0 100 0 0 100 0 0 6 100 0 0 100 0 0 100 0 0

(48)

< = > < = > < = > 1 0 100 0 0 100 0 1 55 44 2 0 100 0 0 100 0 14 73 13 10000 3 0 100 0 0 100 0 13 73 14 4 0 100 0 0 100 0 94 6 0 5 0 100 0 0 100 0 100 0 0 6 0 100 0 0 100 0 100 0 0

< = > < = > < = > 1 0 100 0 0 100 0 0 25 75 2 0 100 0 0 100 0 12 69 19 50000 3 0 100 0 0 100 0 9 73 18 4 0 100 0 0 100 0 90 10 0 5 0 100 0 0 100 0 100 0 0 6 0 100 0 0 100 0 100 0 0

< = > < = > < = > 1 0 100 0 0 100 0 0 80 20 2 0 100 0 0 100 0 40 50 10 100000 3 0 100 0 0 100 0 39 58 3 4 0 100 0 0 100 0 98 2 0 5 0 100 0 0 100 0 100 0 0 6 0 100 0 0 100 0 100 0 0

(49)

48

5 Conclus˜

oes

As simula¸c˜oes realizadas mostram o estimador BIC mais eficiente para amostras de tamanho 1000, onde obteve melhor performance nos alcances 4 e 5 com taxa de acerto de 100% e 49% respectivamente, enquanto, 48% e 0% do EDC e 13% e 0% do Algoritmo Contexo. O Algoritmo Contexto manteve taxa de acerto inferior a 66% para amostras de tamanho 1000. A medida que o alcance aumenta os estimadores tem tendˆencia a subestimar em amostras pequenas.

Em linhas gerais, conclui-se que os estimadores BIC e EDC mostraram-se consistentes, diferente do Algoritmo Contexto, que mostrou-se inconsistente para todos os alcances estudados. Para cada tamanho de amostra do estimador Algoritmo Contexto foi adotada uma precisão diferente, a cada aumento dessa amostra, houve um decréscimo do δ, o critério para esses valores foi baseado no tamanho da amostra, pois quanto maior, mais próximo o ˆpndo pn, ou seja, a diferen¸ca entre a matriz de propor¸cão estimada e a matriz de

propor¸cão real seria próxima de 0. Com esse critério, notamos que houve maior acerto para amostras de alcances 1, 2 e 3 chegando no máximo a 80%, enquanto para alcances maiores o Algoritmo Contexto subestimou em todos os casos. Com os resultados obtidos através do estudo realizado para o estimador Algoritmo contexto, percebe-se que o tamanho da amostra e do alfabeto influencia na escolha do δ, sendo assim, ele precisa ser estudado em trabalhos futuros.

(50)

Referˆ

encias

[1] SHAMBLIN, J. E. Introduction to Probability Theory and Statistical Inference. [S.l.]: Atlas, 1982.

[2] KAC, M. & LOGAN, J. in Fluctuation Phenomena, eds. E.W. Montroll & J.L. Le-bowitz, North-Holland, Amsterdam, 1976.

[3] NELSON, E. Quantum Fluctuations, Princeton University Press, Princeton, 1985. [4] DURRETT, Rick. Essentials of Stochastic Processes. 2. ed. Version Beta, 2010. [5] HOEL, PORT & STONE. Introduction to Stochastic Processes, [S.l.]. University of

California, Los Angeles, 1972.

[6] ROSS, Sheldon M. Introduction to Probability Models. 9. ed, Elsevier,2007.

[7] GALVES, Antônio & NUNES, R. Klanfer Um curso de inferência e sele¸cão estat´ıstica de cadeias de alcance variável, São Paulo,2014.

[8] GALVES, Antônio & YAGINUMA, Karina Yuriko Notas do curso Inferência em Pro-cessos Estocásticos.

[9] CHANG C.Y. Dorea, CATIA R. Gon¸calves and PAULO A.A. Resende Simulation Results for Markov Model Seletion : AIC, BIC and EDC, 4 October, 2014, San Francisco, USA.

(51)

5.1 Anexo A- C´odigo fonte dos estimadores 50

5.1 Anexo A- C´

odigo fonte dos estimadores

1 ################################################# ###### Funcao p a r a g e r a r a amostra ######## 3 ################################################# 5 amostra<−f u n c t i o n( n , r e p l i c a c o e s , k=2 , A l f a b e t o=c( 0 , 1 ) , prob ) { #Fixando a amostra 7 s e t. s e e d ( 1 0 0 ) # n = tamanho da amostra 9 # r e p l i c a c o e s = q u a n t i d a d e de a m o s t r a s # k = a l c a n c e 11 # A l f a b e t o = Espaco Amostral # prob = m a t r i z de t r a n s i c a o 13 #p a c o t e p a r a a m a n i p u l a c a o do p e r m u t a t i o n 15 l i b r a r y( g t o o l s ) 17 amostra<−NULL MA<−m a t r i x(NA, r e p l i c a c o e s , n+k ) 19 #M a t r i z de p o s s i b i l i d a d e s de a c o r d o com o a l c a l c e e a l f a b e t o 21 a<−m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k , A l f a b e t o , r e p e a t s=TRUE) ,l e n g t h( A l f a b e t o ) ˆ ( k ) , k ) 23 #p a r a a l f a b e t o de tamanho 2 f o r( j i n 1 : r e p l i c a c o e s ) { 25 i f(l e n g t h( A l f a b e t o ) ==2){ #s o r t e a n d o a amostra i n i c i a l de a c o r d o com o a l c a n c e 27 amostra<−sample( A l f a b e t o , k ,r e p l a c e = T) f o r( i i n 1 : ( n ) ) { 29 s o r t e i o<−r u n i f( 1 ) #p e r c o r r e a m a t r i z de permutacao e v e r i f i c a a i g u a l d a d e da amostra g e r a d a com cada l i n h a da m a t r i z de permutacao

31 f o r(t i n 1 :l e n g t h( A l f a b e t o ) ˆk ) {

i f(a l l(u n i q u e( amostra [ i : ( i+k−1) ] ) == a [t, ] ) ) {

33 i f( s o r t e i o <prob [t, 1 ] ) { amostra [ i+k ]<−0} e l s e{ amostra [ i+k ]=1}}

}} 35 MA[ j , ]<−amostra } 37 r e t u r n(MA) } #p a r a a l f a b e t o de tamanho 3 39 i f(l e n g t h( A l f a b e t o ) ==3){

(52)

f o r( j i n 1 : r e p l i c a c o e s ) { 41 #s o r t e a n d o a amostra i n i c i a l de a c o r d o com o a l c a n c e amostra=sample( A l f a b e t o , k ,r e p l a c e <− T) 43 f o r( i i n 1 : ( n ) ) { s o r t e i o<−r u n i f( 1 ) 45 #p e r c o r r e a m a t r i z de permutacao e v e r i f i c a a i g u a l d a d e da amostra g e r a d a

com cada l i n h a da m a t r i z de permutacao

f o r(t i n 1 :l e n g t h( A l f a b e t o ) ˆk ) {

47 #v e r i f i c a q u a l l i n h a da m a t r i z de permutacao a amostra p e r t e n c e p a r a

i d e n t i f i c a r em q u a l l i n h a da m a t r i z de t r a n s i c a o u s a r

i f(a l l(u n i q u e( amostra [ i : ( i+k−1) ] ) == a [t, ] ) ) {

49 #v e r i f i c a o s o r t e i o com a amostra s e l e c i o n a d a da m a t r i z de t r a n s i c a o

i f( s o r t e i o <min( prob [t, ] ) ) { amostra [ i+k ]<−0}

51 e l s e{i f(min( prob [t, ] )<=s o r t e i o && s o r t e i o <=max( prob [t, 3 ] ) ) {

amostra [ i+k ]<−1} e l s e{ amostra [ i+k ]<−2}}} 53 }} MA[ j , ]<−amostra 55 } r e t u r n(MA) } 57 e l s e{p r i n t(” E s c o l h a um A l f a b e t o menor , por f a v o r! ! !”) } } 59 61 ############################################################# 63 ###### Funcao p a r a g e r a r a m a t r i z de t r a n s i c a o ####### ############################################################# 65 g e r a m a t r i z<−f u n c t i o n( k , A l f a b e t o=c( 0 , 1 ) ) { 67 # k = a l c a n c e da c a d e i a # A l f a b e t o = Espaco Amostral 69 m<− m a t r i x(r u n i f(l e n g t h( A l f a b e t o ) ˆ ( k )∗ l e n g t h( A l f a b e t o ) , 0 , 1 ) , n c o l=l e n g t h( A l f a b e t o ) )

m a t r i z t r a n s i c a o<− round(sweep(m, 1 , rowSums (m) , FUN=”/”) , 2 )

71 m a t r i z t r a n s i c a o=d a t a.frame( m a t r i z t r a n s i c a o )

}

(53)

5.2 Anexo B- C´odigo fonte do estimador de BIC 52 2 BIC <−f u n c t i o n( k r e a l , n , r e p l i c a c o e s , A l f a b e t o ) { 4 #f i x a n d o o s v a l o r e s da m a t r i z de p r o b a b i l i d a d e s e t. s e e d ( 2 ) 6 r e s u l t a d o <− NULL t a b e l a r e s u l t a d o s <− NULL 8 prob <− g e r a m a t r i z ( k r e a l , A l f a b e t o ) #g e r a n d o a amostra 10 x <−amostra ( n , r e p l i c a c o e s , k r e a l , A l f a b e t o , prob ) tamanho amostra <− l e n g t h( x [ 1 , ] ) 12 k e s t i m a d o <− r e p( 0 , r e p l i c a c o e s ) 14 f o r( r i n 1 : r e p l i c a c o e s ) { b i c <− c( ) 16 f o r( j i n 1 : 8 ) { tamanho amostra=l e n g t h( x [ 1 , ] ) 18 k <− j p <− NULL 20 l o g v e r o <− NULL a <− m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k+1 , A l f a b e t o , r e p e a t s=TRUE) , l e n g t h( A l f a b e t o ) ˆ ( k+1) , k+1) 22 v e t o r contagem <− r e p( 0 ,l e n g t h( A l f a b e t o ) ˆ ( k+1) ) m a t r i z contagem <− c b i n d( a , v e t o r contagem ) 24 26 f o r(t i n 1 : (l e n g t h( A l f a b e t o ) ˆ ( k+1) ) ) { v e t o r contagem [t]=0 28 f o r( i i n 1 : ( tamanho amostra−k ) ) {

i f(sum(abs( x [ r , i : ( i+k ) ]−a [t , ] ) ) ==0){ v e t o r contagem [t]= v e t o r contagem [t]+1} 30 }} m a t r i z contagem <− c b i n d( a , v e t o r contagem ) 32 z <− l e n g t h( A l f a b e t o ) 34 i <− 1 t <− 1 36 f o r( i i n 1 :l e n g t h( v e t o r contagem ) ) { i f( i <=z ) {

38 p [ i ]= v e t o r contagem [ i ]/sum( v e t o r contagem [t: z ] )

l o g v e r o [ i ]= v e t o r contagem [ i ]∗ l o g 2( p [ i ] )

(54)

t <− t+l e n g t h( A l f a b e t o )

42 z <− z+l e n g t h( A l f a b e t o )

p [ i ] <− v e t o r contagem [ i ]/sum( v e t o r contagem [t: z ] )

44 l o g v e r o [ i ]= v e t o r contagem [ i ]∗ l o g 2( p [ i ] ) } } 46 #p r i n t ( p ) b i c [ j ] <− sum(l o g v e r o ) −(0.5∗(l e n g t h( A l f a b e t o ) ˆk∗(l e n g t h( A l f a b e t o ) −1) )∗ l o g 2(l e n g t h( x [ 1 , ] ) ) ) 48 b i c <− b i c [! i s.na( b i c ) ] }

50 k e s t i m a d o [ r ] <− match(max( b i c ) , b i c )#r e t o r n a a p o s i c a o do maximo , ou

s e j a , do k e s t i m a d o } 52 k e s t i m a d o <− d a t a.frame( k e s t i m a d o ) p r i n t( k e s t i m a d o ) 54 a c e r t o <− k e s t i m a d o%>%summarise ( a c e r t o=sum( k e s t i m a d o %i n% k r e a l)/ r e p l i c a c o e s ) s u p e r e s t i m a <− k e s t i m a d o%>%summarise ( s u p e r e s t i m a=sum( k e s t i m a d o > k r e a l )/r e p l i c a c o e s ) 56 s u b e s t i m a <− k e s t i m a d o%>%summarise ( s u b e s t i m a=sum( k e s t i m a d o < k r e a l)/ r e p l i c a c o e s )

r e s u l t a d o <− d a t a.frame(K=k r e a l , n=tamanho amostra , S u b e s t i m a=p a s t e( s u b e s t i m a∗1 0 0 ,”%”) , 58 A c e r t o=p a s t e( a c e r t o∗1 0 0 ,”%”) , s u p e r e s t i m a=p a s t e( s u p e r e s t i m a∗ 1 0 0 ,”%”) ) 60 t a b e l a r e s u l t a d o s <− r b i n d( r e s u l t a d o , t a b e l a r e s u l t a d o s ) } 62 t a b e l a r e s u l t a d o s BIC <− BIC ( k r e a l=1 ,n =1000 , r e p l i c a c o e s =10 , A l f a b e t o=c( 0 , 1 ) )

5.3 Anexo C- C´

odigo fonte do estimador de

Algo-ritmo Contexto

A l g o r i t m o c o n t e x t o<−f u n c t i o n( k r e a l , n , r e p l i c a c o e s , A l f a b e t o , p r e c i s a o ) { 2 #Fixando amostra s e t. s e e d ( 2 ) 4 #p a c o t e p a r a a m a n i p u l a c a o do p i p e r (%>%) l i b r a r y( t i d y r )

(55)

5.3 Anexo C- C´odigo fonte do estimador de Algoritmo Contexto 54 6 l i b r a r y( d p l y r ) r e s u l t a d o <− NULL 8 t a b e l a r e s u l t a d o s <− NULL prob <− g e r a m a t r i z ( k r e a l , A l f a b e t o ) 10 #g e r a n d o a amostra tamanho amostra <− l e n g t h( x [ 1 , ] ) 12 x <− amostra ( n , r e p l i c a c o e s , k r e a l , A l f a b e t o , prob ) k e s t i m a d o <− r e p( 0 , r e p l i c a c o e s ) 14 f o r( r i n 1 : r e p l i c a c o e s ) { 16 d i f max e n t r e k2 k1 <− 1 k2=6 18 p r i n t( r ) 20 w h i l e( ( d i f max e n t r e k2 k1 > p r e c i s a o ) & ( k2 >0) ) { #A l c a n c e 22 k2 <− k2 p2 <− NULL 24 k1 <− k2−1 26 p1 <− NULL 28 #m a t r i z de t r a n s i c a o a1 <− m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k1 +1 , A l f a b e t o , r e p e a t s=TRUE) ,l e n g t h( A l f a b e t o ) ˆ ( k1 +1) , k1 +1) 30 v e t o r contagem 1 <− r e p( 0 ,l e n g t h( A l f a b e t o ) ˆ ( k1 +1) ) m a t r i z contagem 1 <− c b i n d( a1 , v e t o r contagem 1 ) 32 #m a t r i z de t r a n s i c a o 34 a2 <− m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k2 +1 , A l f a b e t o , r e p e a t s=TRUE) ,l e n g t h( A l f a b e t o ) ˆ ( k2 +1) , k2 +1) v e t o r contagem 2 <− r e p( 0 ,l e n g t h( A l f a b e t o ) ˆ ( k2 +1) ) 36 m a t r i z contagem 2 <− c b i n d( a2 , v e t o r contagem 2 ) 38 #Contagem e armazenamento p a r a k

#Aqui e g e r a d o a contagem de passagem p a r a cada e s t a d o de t r a n s i c a o

40 f o r(t i n 1 : (l e n g t h( A l f a b e t o ) ˆ ( k1 +1) ) ) {

v e t o r contagem 1 [t]=0

42 f o r( i i n 1 : ( tamanho amostra−k1 ) ) {

i f(sum(abs( x [ r , i : ( i+k1 ) ]− a1 [t, ] ) ) ==0){ v e t o r contagem 1 [t]= v e t o r contagem 1 [t]+1}

(56)

contagem 1 <− m a t r i x( v e t o r contagem 1 ,l e n g t h( A l f a b e t o ) ˆ ( k1 ) ,l e n g t h( A l f a b e t o ) , byrow=T) 46 p1 <− m a t r i x(a p p l y( contagem 1 , 1 ,prop.t a b l e) ,l e n g t h( A l f a b e t o ) ˆ ( k1 ) , l e n g t h( A l f a b e t o ) , byrow=T) m a t r i z contagem 1 <− c b i n d( a1 , v e t o r contagem 1 ) 48 #Contagem e armazenamento p a r a k+1

50 #Aqui e g e r a d o a contagem de passagem p a r a cada e s t a d o de t r a n s i c a o

52 f o r(t i n 1 : (l e n g t h( A l f a b e t o ) ˆ ( k2 +1) ) ) {

v e t o r contagem 2 [t] <− 0

54 f o r( i i n 1 : ( tamanho amostra−k2 ) ) {

i f(sum(abs( x [ r , i : ( i+k2 ) ]− a2 [t, ] ) ) ==0){ v e t o r contagem 2 [t]= v e t o r contagem 2 [t]+1} 56 }} 58 contagem 2 <− m a t r i x( v e t o r contagem 2 ,l e n g t h( A l f a b e t o ) ˆ ( k2 ) ,l e n g t h( A l f a b e t o ) , byrow=T) p2 <− m a t r i x(a p p l y( contagem 2 , 1 ,prop.t a b l e) ,l e n g t h( A l f a b e t o ) ˆ ( k2 ) , l e n g t h( A l f a b e t o ) , byrow=T) 60 m a t r i z contagem 2 <− c b i n d( a2 , v e t o r contagem 2 ) 62 #C a l c u l o p a r a a d i f e r e n c a o da m a t r i z p r o p o r c a o e n t r e k e k+1 d i f <− m a t r i x( 0 , 1 ,l e n g t h( p1 [ 1 , ] ) ) 64 f o r( i i n 1 :nrow( p1 ) ) { d i f [ i ]=abs( p1 [ i ]−p2 [ i ] )

66 d i f [ i+nrow( p1 ) ]=abs( p2 [ i+nrow( p1 ) ]−p1 [ i ] )

d i f=d i f [! i s.na( d i f ) ]#e x c l u i n d o o s Na 68 } d i f max e n t r e k2 k1 <− max(a s.v e c t o r( d i f ) ) 70 k2 <− k2−1 72 } k e s t i m a d o [ r ] <− k1 74 p r i n t( k e s t i m a d o ) } 76 k e s t i m a d o <− d a t a.frame( k e s t i m a d o ) p r i n t( k e s t i m a d o ) 78 a c e r t o <−k e s t i m a d o%>%summarise ( a c e r t o=sum( k e s t i m a d o %i n% k r e a l)/ r e p l i c a c o e s ) s u p e r e s t i m a <− k e s t i m a d o%>%summarise ( s u p e r e s t i m a=sum( k e s t i m a d o > k r e a l )/r e p l i c a c o e s )