Bruno C´
esar Santos Rodrigues
Estimadores para o alcance de uma cadeia
de Markov: um estudo comparativo
Niter´oi - RJ, Brasil 17 de julho de 2018
Bruno C´
esar Santos Rodrigues
Estimadores para o alcance de uma
cadeia de Markov: um estudo
comparativo
Trabalho de Conclus˜ao de Curso
Monografia apresentada para obten¸c˜ao do grau de Bacharel em Estat´ıstica pela Universidade Federal Fluminense.
Orientador: Prof. Douglas Rodrigues Pinto
Coorientador: Prof. Hugo Henrique Kegler dos Santos
Niter´oi - RJ, Brasil 17 de julho de 2018
Universidade Federal Fluminense
Bruno C´
esar Santos Rodrigues
Estimadores para o alcance de uma cadeia
de Markov: um estudo comparativo
Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo “Esti-madores para o alcance de uma cadeia de Markov: um estudo comparativo”, defendida por Bruno C´esar Santos Rodrigues em 17 de julho de 2018, na cidade de Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora constitu´ıda pelos professores:
Prof. Dr. Douglas Rodrigues Pinto Departamento de Estat´ıstica – UFF
Profa. Dra. Karina Yuriko Yaginuma Departamento de Estat´ıstica – UFF
Prof. Dr. Valentin Sisko Departamento de Estat´ıstica – UFF
comparativo / Bruno César Santos Rodrigues. - Niterói, RJ: [s.n.], 2018.
58f.
Orientador: Prof. Dr. Douglas Rodrigues Pinto Coorientador: Prof. Dr. Hugo Henrique Kegler dos Santos TCC ( Graduação de Bacharelado em Estatística) – Universidade
Federal Fluminense, 2018.
1. Cadeia de Markov . 2. Algoritmo contexto. I. Título. CDD. 519.542
Resumo
Neste trabalho abordamos as cadeias estoc´asticas de ordem finita em um alfabeto finito, estando interessados no quanto do presente ´e influenciado pelo passado. Obser-vamos uma amostra implementada com programa na linguagem R (www.r-project.org), a fim de estimar as probabilidades de transi¸c˜ao de uma cadeia de Markov de alcance k, com k fixado. Em seguida, estudamos os estimadores de alcance k de um processo de Markov com probabilidade de transi¸c˜ao e alcance desconhecidos. Utilizamos o crit´erio de informa¸c˜ao Bayesiano(BIC), tamb´em conhecido como Crit´erio de Schwarz, algoritmo contexto e o crit´erio de determina¸c˜ao eficiente(EDC). Por fim, comparamos a precis˜ao de cada m´etodo quando submetidos a amostras geradas computacionalmente.
Palavras-chaves: Cadeia de Markov, algoritmo contexto, crit´erio de informa¸c˜ao bayesiano e crit´erio de determina¸c˜ao eficiente.
Dedico este trabalho primeiramente `a Deus, por sempre estar cuidando, dando for¸ca, sabedoria e discernimento em toda esta jornada, aos meus pais L´ucia Maria e Rubem Xavier que, com todo carinho, nunca mediram esfor¸cos para que eu chegasse at´e aqui, a minha irm˜a Beatriz Rodrigues por sempre estar presente me ajudando de todas as formas, ao meu namorado amado e melhor amigo Gabriel Engel, um exemplo de perseve-ran¸ca e companheirismo e a minha grande amiga irm˜a Carolina Miranda, pelas trocas de conhecimento, experiˆencias de vida e muitas risadas.
Agradecimentos
Ao meu orientador e prof. Douglas Rodrigues, por todo o conhecimento passado com muita clareza, pela paciˆencia e dedica¸c˜ao ao estudo dirigido para a finaliza¸c˜ao desse projeto.
Agrade¸co ao meu co-orientador e prof. Hugo Henrique Kegler dos Santos por toda ajuda relacionada na implementa¸c˜ao das rotinas computacionais.
Lista de Tabelas
1 Introdu¸c˜ao p. 10
2 Objetivos p. 12
3 Materiais e M´etodos p. 13
3.1 Defini¸c˜oes . . . p. 13 3.2 Probabilidade de transi¸c˜ao em m´ultiplos passos . . . p. 15 3.3 Cadeias de Markov com dois estados . . . p. 18 3.4 Classifica¸c˜ao de estados em cadeias de Markov . . . p. 22 3.5 Estados recorrentes e transientes . . . p. 22 3.6 Comportamento limite . . . p. 24 3.7 Distribui¸c˜ao estacion´aria . . . p. 27 3.8 Alcance da Cadeia de Markov . . . p. 29 3.9 Estima¸c˜ao de m´axima verossimilhan¸ca para cadeias de Markov de alcance k p. 31 3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov . . . p. 35 3.10.1 Crit´erio de informa¸c˜ao Bayesiano (BIC) . . . p. 35 3.10.2 Algoritmo contexto . . . p. 39 3.10.3 Crit´erio de determina¸c˜ao eficiente (EDC) . . . p. 41
4 An´alise dos Resultados p. 46
Referˆencias p. 49 5.1 Anexo A- C´odigo fonte dos estimadores . . . p. 50 5.2 Anexo B- C´odigo fonte do estimador de BIC . . . p. 51 5.3 Anexo C- C´odigo fonte do estimador de Algoritmo Contexto . . . p. 53 5.4 Anexo D- C´odigo fonte do estimador de EDC . . . p. 56
1 Probabilidade de transi¸c˜ao Pn(b|u) . . . p. 40
2 Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ =
0, 06 (%). . . p. 46 3 Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ =
0, 03 (%). . . p. 47 4 Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ =
0, 015 (%). . . p. 47 5 Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ =
10
1
Introdu¸
c˜
ao
Saber o quanto do passado pode nos trazer informa¸c˜oes sobre o presente ´e uma das motiva¸c˜oes deste trabalho. Esse tipo de informa¸c˜ao ´e de suma importˆancia no ˆambito industrial, comercial, biol´ogico e financeiro, bem como em fenˆomenos naturais, pois h´a um alto grau de incerteza. Portanto, mesmo que se conhe¸ca a condi¸c˜ao inicial, o processo pode evoluir de diferentes formas. Determinar um modelo probabil´ıstico para compre-ens˜ao do comportamento desses sistemas ajuda na tomada de decis˜oes, recorre-se ao processos estoc´asticos como uma forma de estudar estes fenˆomenos, aproveitando algu-mas caracter´ısticas de regularidade que eles apresentam para serem descritos por modelos probabil´ısticos.
D´a-se o nome de cadeia de Markov a um fenˆomeno que possa ser classificado em espa¸co de estados N, cuja probabilidade de transi¸c˜ao entre tais estados, num intervalo de tempo tamb´em discreto, dependa apenas do estado corrente e do estado seguinte. A sequˆencia de estados seguindo este processo d´a-se o nome de cadeia de Markov [1]. Mais generica-mente, seguindo Kac[2] e Nelson[3], qualquer tipo de evolu¸c˜ao temporal (determin´ıstica ou essencialmente probabil´ıstica) que seja analis´avel em termos de probabilidade pode ser chamada de processo estoc´astico.
Na primeira se¸c˜ao definimos o conceito de cadeia de Markov em tempo discreto, denotamos a probabilidade de transi¸c˜ao via matriz e diagrama. Na Se¸c˜ao seguinte, re-tomamos exemplos anteriores a fim de definir a probabilidade de transi¸c˜ao em m + n passos utilizando a equa¸c˜ao de Champman-Kolmogorov. Na Se¸c˜ao 3.3 estudamos algu-mas particularidades quando o espa¸co amostral Ω possui apenas 2 estados e calculamos a probabilidade inicial. Na Se¸c˜ao 3.4 e 3.5 classificamos os estados em recorrente e tran-siente e utilizamos de exemplos para melhor compreens˜ao. Na Se¸c˜ao 3.6 e 3.7 estudamos comportamento limite, definimos o conceito de cadeia erg´otica, aperi´odica e verificamos o comportamento limite atrav´es da distribui¸c˜ao de π. Nas se¸c˜oes seguintes, estudamos como estimar a matriz de probabilidade com k assumindo valores |A| = 2 e |A| assumindo valores maiores que 2. Por fim, definimos o crit´erio de informa¸c˜ao Bayesiano, algoritmo
contexto e o crit´erio de determina¸c˜ao eficiente, onde estudamos via simula¸c˜ao a eficiˆencia dos estimadores de alcance da cadeia.
12
2
Objetivos
O trabalho tem como objetivos:
• Estudar processos estoc´asticos cujas probabilidades de transi¸c˜ao dependem de uma por¸c˜ao de tamanho fixo do passado;
• Construir algoritmo para a simula¸c˜ao desses processos;
• Estudar os estimadores para as probabilidades de transi¸c˜ao de uma cadeia de Markov de oredem k;
• Estudar os estimadores do alcance de uma cadeia de Markov de alcance k;
• Realizar a implementa¸c˜ao computacional dos estimadores BIC e o Algoritmo Con-texto;
• Realizar um estudo comparativo entre os estimadores BIC, Algoritmo Contexto e o Crit´erio de Determina¸c˜ao Eficiente a partir de uma amostra gerada por uma cadeia de Markov de alcance k.
3
Materiais e M´
etodos
3.1
Defini¸
c˜
oes
Considere um sistema que pode possuir qualquer n´umero finito ou infinito de estados. Denotamos como Ω esse conjunto de estados e assumimos nesse trabalho que ele ´e um subconjunto dos inteiros. O conjunto Ω ´e chamado de espa¸co de estado do processo.. Neste trabalho observamos os momentos discretos de tempo n = 1, 2, ..., e denotamos Xn
como vari´aveis aleat´orias que definem o estado do processo no momento n.
O modelo mais simples poss´ıvel seria uma estrutura de vari´aveis aleat´orias indepen-dentes, isto ´e, um modelo em que a probabilidade da vari´avel aleat´oria Xn assuma um
determinado valor xn de Ω n˜ao depende dos valores assumidos por X1, ..., Xn−1. Ou seja,
P (Xn = xn|Xn−1 = xn−1, ..., X1 = x1, X0 = x0) = P (Xn= xn). (3.1)
Entretanto, em diversos problemas, os estados passados tem influˆencia nos estados futuros. Particularmente, podemos considerar o caso em que a probabilidade de uma vari´avel aleat´oria Xn assumir um determinado valor dependa exclusivamente do estado
imediatamente anterior, isto ´e,
P (Xn = xn|Xn−1 = xn−1, ..., X1 = x1, X0 = x0) = P (Xn= xn|Xn−1= xn−1). (3.2)
Essa propriedade ´e chamada de propriedade de Markov e os sistemas que tem essa propriedade s˜ao chamados de cadeias de Markov.
Para cada n e dos n´umeros x0, ..., xn+1, cada um em Ω ⊂ Z, as probabilidades
con-dicionais P (Xn+1 = i|Xn = j) s˜ao chamadas de probabilidade de transi¸c˜ao da cadeia e
denotada por p(i, j). As probabilidades de transi¸c˜ao s˜ao dispostas numa matriz P deno-minada matriz de transi¸c˜ao dada por
3.1 Defini¸c˜oes 14 P = p(0, 0) p(0, 1) p(0, 2) · · · p(0, n) p(1, 0) p(1, 1) p(1, 2) · · · p(1, n) p(2, 0) p(2, 1) p(2, 2) · · · p(2, n) .. . ... ... . .. ... p(n, 0) p(n, 1) p(n, 2) · · · p(n, n) .
Neste trabalho abordamos as cadeias de Markov que tenham probabilidades de transi¸c˜ao estacion´arias, isto ´e, aquelas que P (Xn+1 = xn+1|Xn = xn) independem de n. Quando
falarmos que {Xn}n>0 forma uma cadeia de Markov, queremos dizer que essas vari´aveis
aleat´orias satisfazem as propriedades de Markov e que tem probabilidade de transi¸c˜ao estacion´arias.
Exemplo 3.1.1. Ru´ına do jogador.
Suponha um jogo em que, o jogador ganhe 1 real com probabilidade p = 0, 3, ou perca 1 real com probabilidade 1 − p = 0, 7, a cada rodada de modo independente, at´e que sua fortuna seja 0 ou N reais, ao atingir um desses valores ele para de jogar. Seja Xn = i com
0 < i < N a quantidade de dinheiro acumulada em n jogadas. Note que, conhecendo seu estado atual, qualquer outra informa¸c˜ao sobre o passado ´e irrelevante para a previs˜ao do pr´oximo estado Xn+1. Ou seja, para i0, ..., in−1, i, j:
P (Xn+1 = j|Xn = i, Xn−1= ii−1, ...X0 = i0) = P (Xn+1= j|Xn= i).
Para aumentar sua riqueza, dado que o jogador possui Xn= i no momento Xn+1 tem
que possuir i + 1 reais. Veja a seguir o comportamento dos estados.
P (Xn+1 = j|Xn = i) = p(i, j) =
(
0, 3 se j = i + 1 0, 7 se j = i − 1. Para o caso N=4, a matriz de transi¸c˜ao ´e dada por:
0 1 2 3 4 P = 0 1 2 3 4 1 0 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0 1 ,
Outra forma de representar o processo ´e atrav´es de diagrama, como
0 1,0 99 1 0,7 hh 0,3 (( 2 0,7 hh 0,3 (( 3 0,7 hh 0,3 (( 4ee 1,0.
Exemplo 3.1.2. Cadeia meteorol´ogica.
Seja Xn o clima em uma determinada cidade no dia n, sendo considerados trˆes
es-tados: nevado=1, nublado=2 e ensolarado=3. O clima certamente n˜ao ´e uma cadeia de Markov, pois, por exemplo, se dois dias anteriores eram ensolarados, ent˜ao ´e mais prov´avel que haja uma condi¸c˜ao atmosf´erica especial, como uma ´area de alta press˜ao localizada na regi˜ao, que favorece a luz do sol. Desta forma, ter´ıamos uma maior probabilidade de um terceiro dia ensolarado. Mesmo que o tempo n˜ao seja exatamente uma cadeia de Markov, podemos propor um modelo Markoviano para ele, como por exemplo considerando a se-guinte matriz de transi¸c˜ao para o processo
1 2 3 P = 1 2 3 0,2 0,8 0 0,3 0,4 0,3 0,2 0,5 0,3 .
Neste exemplo, a probabilidade do tempo estar ensolarado (estado 3), sabendo que no dia anterior esteve nublado (estado 2) ´e P (X2 = 3|X1 = 2) = p(2, 3) = 0, 3.
3.2
Probabilidade de transi¸
c˜
ao em m´
ultiplos passos
At´e agora, vimos a probabilidade de transi¸c˜ao de sair do estado i para o estado j em apenas um passo p(i, j) = P (Xn+1 = j|Xn = i). Nesta se¸c˜ao estudamos a probabilidade
3.2 Probabilidade de transi¸c˜ao em m´ultiplos passos 16
pm(i, j) = P (Xn+m = j|Xn = i). (3.3)
No exemplo a seguir retomamos a situa¸c˜ao do Exemplo 3.1.2.
Exemplo 3.2.1. Considere que hoje seja sexta-feira e o est´a ensolarado (estado 3). Qual ´e a probabilidade de s´abado estar nublado (estado 2) e no domingo nevando (estado 1)?
Pela propriedade da cadeia de Markov, sabemos que a probabilidade de que iniciando no estado 3, passar para o estado 2 e ent˜ao para o estado 1 ´e:
P (X2 = 1, X1 = 2|X0 = 3) = P (X2 = 1, X1 = 2, X0 = 3) P (X0 = 3) = P (X1 = 2, X0 = 3)P (X2 = 1|X1 = 2, X0 = 3) P (X0 = 3) = P (X1 = 2, X0 = 3) · P (X2 = 1|X1 = 2) P (X0 = 3) = P (X2 = 1|X1 = 2) · P (X1 = 2|X0 = 3) = p(2, 1) · p(3, 2)
Pela propriedade de Markov (3.2) a express˜ao ´e:
P (X2 = 1|X1 = 2) · P (X1 = 2|X0 = 3) = p(3, 2)p(2, 1) = 0, 5 · 0, 3 = 0, 15.
Exemplo 3.2.2. Sabendo que hoje ´e segunda feira e o dia est´a nevando, qual a probabi-lidade de quarta feira o tempo estar nublado?
P (X2 = 2|X0 = 1) = = P (∪3k=1[X2 = 2, X1 = k]|X0 = 1) = 3 X k=1 P (X2 = 2, X1 = k|X0 = 1) = 3 X k=1 p(1, k).p(k, 2) = p(1, 1)p(1, 2) + p(1, 2)p(2, 2) + p(1, 3)p(3, 2) = 0, 2 · 0, 8 + 0, 8 · 0, 4 + 0 · 0, 5 = 0, 48.
P (X2 = j|X0 = i) = 3
X
k=1
p(i, k)p(k, j).
A probabilidade de transi¸c˜ao de iniciar no estado 1 e chegar ao estado 2 em apenas 2 passos ´e dada pela nota¸c˜ao p2(1, 2). A matriz p nos fornece esse valor quando a (i, j)-´esima da matriz p ´e multiplicada por ela mesma, ou seja, a segunda potˆencia da matriz P.
Teorema 3.2.1. Equa¸c˜ao Chapman-Kolmogorov
Esta equa¸c˜ao nos fornece um m´etodo de calcular as probabilidades de trans¸c˜ao em m + n passos:
Pm+n(i, j) = X k
pm(i, k)pn(k, j).
Ou seja, o processo pode ser dividido em duas partes, saindo de i para k em m passos e de k para o estado j em n passos.
Demonstra¸c˜ao. P (Xm+n= j|X0 = i) =
X
k
P (Xm+n = j, Xm = k|X0 = i).
Usando a defini¸c˜ao de probabilidade condicional temos que:
P (Xm+n = j, Xm = k|X0 = i) = P (Xm+n = j, Xm = k, X0 = i) P (X0 = i) = P (Xm+n = j, Xm = k, X0 = i) P (Xm = k, X0 = i) P (Xm = k, X0 = i) P (X0 = i) = P (Xm+n = j|Xm = k, X0 = i)P (Xm = k|X0 = i) = P (Xm+n=j|Xm=k)P (Xm = k|X0 = i) = pm(j, k)pn(k, j).
Exemplo 3.2.3. Cadeia meteorol´ogica.
Para calcular, por exemplo p2(3, 1), a probabilidade de iniciar no estado 3 e passar para o estado 1 em 2 passos. Para efetuar esse c´alculo multiplica-se a terceira linha da matriz p pela primeira coluna da mesma.
3.3 Cadeias de Markov com dois estados 18 p2(3, 1) =X k p(3, k)p(k, 1), em outras palavras . . . . . . 0, 2 0, 5 0, 3 0, 2 . . 0, 3 . . 0, 2 . . = . . . . . . 0, 25 . .
Generalizando, temos o seguinte:
Teorema 3.2.2. O passo m da probabilidade de transi¸c˜ao P (Xn+1 = j|Xn = i) ´e a
m-´esima potˆencia da matriz de transi¸c˜ao p.
3.3
Cadeias de Markov com dois estados
Nesta se¸c˜ao, vamos apresentar algumas particularidades do caso onde nosso Ω possui apenas dois estados.
Para um exemplo da cadeia de Markov com dois estados, considere uma m´aquina que, no in´ıcio de qualquer dia esteja quebrada ou em condi¸c˜ao operacional. Assume-se que, se a m´aquina est´a quebrada no dia n, a probabilidade dela ser reparada com sucesso e em condi¸c˜oes de funcionamento no in´ıcio do (n+1)-´esimo dia ´e igual a p. Considere tamb´em que se a m´aquina est´a no estado de funcionamento no in´ıcio do dia n, a probabilidade dela ter uma falha fazendo com que a m´aquina esteja quebrada no in´ıcio do (n+1)-´esimo dia ´e igual a q. O estado 0 corresponde a m´aquina estar quebrada e o estado 1 corresponde a m´aquina estar em condi¸c˜oes de funcionamento. Denotamos π0(0) a probabilidade de que
m´aquina esteja inicialmente quebrada e π0(1) esteja em funcionamento.
Seja Xn a vari´avel aleat´oria que representa o estado da m´aquina no tempo n. De
acordo com as premissas do problema, temos ent˜ao,
P (X0 = 0) = π0(0),
P (Xn+1 = 1|Xn = 0) = p,
Uma vez que s´o existem dois estados, 0 ou 1, temos que:
π0(1) = P (X0 = 1) = 1 − π0(0),
P (Xn+1 = 0|Xn= 0) = 1 − p,
P (Xn+1 = 1|Xn= 1) = 1 − q.
A partir dessas informa¸c˜oes, podemos facilmente calcular P (Xn = 0) e P (Xn = 1).
Observamos que P (Xn+1 = 0) = P (Xn= 0 e Xn+1 = 0) + P (Xn= 1 e Xn+1 = 0) = P (Xn= 0)P (Xn+1 = 0|Xn= 0) + P (Xn= 1)P (Xn+1 = 0|Xn = 1) = P (Xn= 0)(1 − p) + qP (Xn = 1) = P (Xn= 0)(1 − p) + q(1 − P (Xn= 0)) = P (Xn= 0)(1 − p) + q − qP (Xn = 0) = P (Xn= 0)(1 − p − q) + q.
Como P (X0 = 0) = π0(0), ent˜ao,
P (X1 = 0) = (1 − p − q)π0(0) + q,
e
P (X2 = 0) = (1 − p − q)P (X1 = 0) + q
= (1 − p − q)[(1 − p − q)π0(0) + q]q
= (1 − p − q)2π0(0) + q[1 + (1 − p − q)].
Generalizando para um n qualquer.
P (Xn= 0) = (1 − p − q)nπ0(0) + q n−1 X j=0 (1 − p − q)j. (3.4) Observamos 2 casos.
3.3 Cadeias de Markov com dois estados 20
P (Xn = 0) = π0(0) e P (Xn= 1) = π0(1).
Caso 2: Quando p + q > 0, a f´ormula resulta em uma soma de progress˜ao geom´etrica finita. n−1 X j=0 (1 − p − q)j = 1 − (1 − p − q) n p + q . (3.5)
Concluimos no caso 2 que:
P (Xn = 0) = (1 − p − q)nπ0(0) + q n−1 X j=0 (1 − p − q)j = (1 − p − q)nπ0(0) + q 1 − (1 − p − q)n p + q = q p + q + (1 − p − q) n π0(0) − q p + q , (3.6) e, al´em disso, P (Xn= 1) = (1 − p − q)nπ0(1) + q n−1 X j=0 (1 − p − q)j = (1 − p − q)nπ0(1) + q 1 − (1 − p − q)n p + q = q p + q + (1 − p − q) n π0(1) − q p + q . (3.7)
Supondo que p e q s˜ao diferentes de 0 e 1, ent˜ao 0 < p + q < 2, assim, temos que |1 − p − q| < 1. Quando n → ∞ em (3.6) e (3.7) concluimos: lim n→∞P (Xn= 0) = limn→∞ q p + q + (1 − p − q) n π0(0) − q p + q = q p + q (3.8) e lim n→∞P (Xn= 1) = limn→∞ p p + q + (1 − p − q) n π0(0) − p p + q = p p + q. (3.9)
Vimos em (3.8) e (3.9) para n > 0, P (X0 = 0) = q p + q e P (X0 = 1) = p p + q, ou seja, para n > 0 P (Xn= 0) = q p + q e P (Xn = 1) = p p + q.
Supondo que a propriedade de Markov ´e v´alida, n ´e igual a 2 e x0, x1 e x2 ∈ {0, 1}.
Ent˜ao:
P (X0 = x0, X1 = x1, X2 = x2) = P (X0 = x0, X1 = x1)P (X2 = x2|X0 = x0, X1 = x1)
= P (X0 = x0)P (X1 = x1|X0 = x0)P (X2 = x2|X0 = x0, X1 = x1).
Como P (X0 = x0) e P (X1 = x1|X0 = x0) s˜ao determinados por π0(0), p, q e pela
propriedade de Markov, temos P (X2 = x2|X0 = x0, X1 = x1) = P (X2 = x2|X1 = x1) =
p(x1, x2). P (X0 = 0, X1 = 0, X2 = 0) = p(0)p(0, 0)p(0, 0) = π0(0)(1 − p)2; P (X0 = 0, X1 = 0, X2 = 1) = p(0))p(0, 0)p(1, 0) = π0(0)(1 − p)p; P (X0 = 0, X1 = 1, X2 = 0) = p(0)p(1, 0)p(0, 1) = π0(0)pq; P (X0 = 0, X1 = 1, X2 = 1) = p(0)p(1, 0)p(1, 1) = π0(0)p(1 − p); P (X0 = 1, X1 = 0, X2 = 0) = p(1)p(0, 1)p(0, 0) = (1 − π0(0))q(1 − p); P (X0 = 1, X1 = 0, X2 = 1) = p(1)p(0, 1)p(1, = 0) = (1 − π0(0))qp; P (X0 = 1, X1 = 1, X2 = 0) = p(1)p(1, 1)p(0, 1) = (1 − π0(0))(1 − q)q; P (X0 = 1, X1 = 1, X2 = 1) = p(1)p(1, 1)p(1, 1) = (1 − π0(0))(1 − q)2.
Podemos resumir as equa¸c˜oes acima em uma tabela. x0 x1 x2 P (X0 = x0, X1 = x1, X2 = x2) 0 0 1 π0(0)(1 − p)2 0 0 1 π0(0)(1 − p)p 0 1 0 π0(0)pq 0 1 1 π0(0)p(1 − p) 1 0 0 (1 − π0(0))q(1 − p) 1 0 1 (1 − π0(0))qp 1 1 0 (1 − π0(0))(1 − q)q 1 1 1 (1 − π0(0))(1 − q)2
3.4 Classifica¸c˜ao de estados em cadeias de Markov 22
3.4
Classifica¸
c˜
ao de estados em cadeias de Markov
Seja Ty = min{n > 0 | Xn = y} o tempo de primeiro retorno para y .
Um estado y ´e dito ser alcan¸c´avel a partir de um estado x se ρxy = Px(Ty < ∞) > 0.
Ent˜ao se ρxy > 0, dizemos que, x se comunica com y, e denotamos por x → y.
Lema 3.4.1. Se x → y e y → z, ent˜ao x → z.
Demonstra¸c˜ao. Dado trˆes estados x, y, e z. Se x → y, por defini¸c˜ao temos que Px(Ty <
∞) > 0, e se y → z temos que Py(Tz < ∞) > 0. Seja k = min{k | pk(x, y) > 0} o menor
n´umero de passos poss´ıvel iniciando no estado x at´e o estado y, e w = min{w | pw(y, z) >
0} o n´umero de passos iniciando do estado y at´e o estado z. Para provar que x → z, vamos mostrar que Px(Tz < ∞) > 0. De fato
Px(Tz < ∞) = ∞ X i=1 Px(Tz = i) ≥ Px(Tz = k + w) = X j∈Ω pk(x, j)pw(j, z) ≥ pk(x, y)pw(y, z) > 0,
logo A Px(Tz < ∞) > 0, conclu´ımos que x → z .
3.5
Estados recorrentes e transientes
Um estado ´e transiente se, entrando neste estado, o processo pode nunca retornar. Portanto, x ´e transiente se e somente se, existe um estado y (y 6= x) que ´e alcan¸c´avel a partir de x, mas n˜ao vice-versa, isto ´e, o estado x n˜ao ´e alcan¸c´avel a partir do estado y. Assim, se x ´e transiente, h´a uma probabilidade positiva que o processo ir´a mover-se para o estado y e nunca mais retornar para o estado x. Consequentemente, um estado transiente ser´a visitado um n´umero finito de vezes.
Px(Tx< ∞) < 1
Um estado ´e dito recorrente se entrando nesse estado, o processo definitivamente ir´a retornar. Portanto, um estado ´e recorrente, se e somente se, n˜ao ´e transiente. Uma vez que ele ´e recorrente, ser´a ”revisitado”ap´os cada visita (n˜ao necessariamente no pr´oximo passo do processo).
Lema 3.5.1. Se x ´e um estado recorrente e x → y, ent˜ao y ´e recorrente.
Demonstra¸c˜ao. Seja um estado u, tal que, y → u mas, u 9 y ou seja , estamos supondo que o estado y seja um estado transiente. Pelo Lema 1.4.1 vimos se, x → y e y → u , ent˜ao, x → u, como x ´e um estado recorente por defini¸c˜ao temos ρxx = 1, mas como a ρux < 1
ent˜ao ρxx < 1, ou seja, uma contradi¸c˜ao pois o estado x foi definido como um estado
recorrente. Assim provamos ent˜ao que o estado y tamb´em ´e um estado recorrente. Exemplo 3.5.1. Ru´ına do jogador. Considere N = 4
0 1 2 3 4 P = 0 1 2 3 4 1 0 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0,7 0 0,3 0 0 0 0 1
Note que, como p(0, 0) = 1 e p(4, 4) = 1 os estados 0 e 4 s˜ao recorrentes e absorventes. Um estado ´e absorvente se p(y, y) = 1, ou seja, uma vez atingidos n˜ao ser´a poss´ıvel sair deles. J´a os estados 1, 2 e 3 s˜ao transientes, iniciando deles poder´a nunca retornar.
P (T1 = ∞|X0 = 1) ≥ p(1, 0) = 0, 7 > 0.
Igualmente acontece come¸cando do estado 2, ent˜ao,
P (T2 = ∞|X0 = 2) ≥ p(2, 1)p(1, 0) = 0, 7 · 0, 7 = 0, 49 > 0.
E finalmente iniciando do estado 3, temos
3.6 Comportamento limite 24
Exemplo 3.5.2. Cadeia de sete estados.
Considere a matriz de transi¸c˜ao:
1 2 3 4 5 6 7 P = 1 2 3 4 5 6 7 0,2 0 0 0 0,8 0 0 0,3 0,1 0,4 0,2 0 0 0 0 0 0,1 0,9 0 0 0 0 0 0 0,8 0 0,2 0 0,7 0 0 0 0,3 0 0 0 0 0 0 0 0,6 0,4 0 0 0 1 0 0 0 1 → 5, 2 → 1, 2 → 3, 2 → 4, 3 → 4, 3 → 5, 4 → 6, 4 → 7, 5 → 1, 6 → 4, 6 → 7, 7 → 4. Um conjunto A ´e fechado se ´e impossivel sair, se i ∈ A e j /∈ A ent˜ao p(i,j)=0. No Exemplo 3.5.2, {1,5} e {4,6,7} s˜ao conjuntos fechados. Um conjunto B ´e chamado de fechado irredut´ıvel se i, j ∈ B, i se comunica com j. No Exemplo 3.5.2 os conjuntos {1,5} e {4,6,7} s˜ao conjuntos fechados e irredut´ıveis.
Teorema 3.5.1. Se o estado no espa¸co Ω ´e finito, ent˜ao Ω pode ser escrito como a uni˜ao dijunta T ∪ R1 ∪ ... ∪ Rk, onde T ´e um conjunto de estados transientes e Ri, 1 ≤ i ≤ k,
s˜ao conjuntos fechados irredut´ıveis de estados recorrentes.
Demonstra¸c˜ao. Seja T um conjunto de x tal que existe um y que x → y, mas y 9 x. Os estados em T s˜ao transientes pelo Teorema (3.5.1). Vamos mostrar que todos os estdos restantes Ω − T s˜ao recorrentes. Seja x ∈ Ω − T e Cx = {y|x → y}. Como x ∈ Ω − T pela
propriedade se, x → y, ent˜ao y → x. Para checar que Cx ´e um conjunto fechado note que
se y ∈ Cx e y → z, ent˜ao implica que x → z logo z ∈ Cx. Para testarmos irredutibilidade,
note que se y, z ∈ Cx, ent˜ao x ∈ Ω − T e implica que y → z. Se Cx ´e um conjunto fechado
e irredut´ıvel, todos estados em Cx s˜ao recorrentes.
3.6
Comportamento limite
Neste t´opico iremos abordar como o nosso processo se comporta ao longo do tempo, ou seja, o comportamento da probabilidade de transi¸c˜ao em n passos, para n grande,
lim
n→∞P n
(x, y) = lim
n→∞P (Xn = x|X0 = y).
Se esta probabilidade for independente do estado inicial, ela converge para um n´umero π(x) > 0 e ´e chamada de probabilidade estacion´aria. Ela pode ser calculada multiplicando-se a matriz P por ela mesmo at´e que n˜ao tenha modifica¸c˜ao nas probabilidade de estado. Se y ´e um estado transiente, ent˜ao Xnretornar´a para y finitas vezes e a probabilidade
de retorno depois de n passos vai para 0 quando n → ∞
pn(x, y) = Px(Xn= y) → 0 para algum estado inicial x.
Caso y seja um estado recorrente em uma cadeia de estados finitos, pn(x, y) conver-gir´a para um limite positivo.
Exemplo 3.6.1. Cadeia meteorol´ogica.
Considere a seguinte matriz de transi¸c˜ao:
P = 0, 2 0, 8 0 0, 3 0, 4 0, 3 0, 2 0, 5 0, 3
Pelo diagrama a seguir fica mais f´acil verificar que todos os estados dessa matriz s˜ao recorrentes, ent˜ao quando n → ∞ ela convergir´a para um limite positivo.
0 0,2 99 0,8 (( 1 0,4 0,3 hh 0,3 (( 2 0,2 XX ee 0,3 0,5 hh .
Vamos calcular inicialmente P2, P4, P8, P16 e P32.
P2 = 0, 28 0, 48 0, 24 0, 24 0, 55 0, 21 0, 25 0, 51 0, 24 , P4 = 0, 2536 0, 5208 0, 2256 0, 2517 0, 5248 0, 2235 0, 2524 0, 5229 0, 2247 ,
3.6 Comportamento limite 26 P8 = 0, 2523398 0, 5233570 0, 2243033 0, 2523347 0, 5233686 0, 2242968 0, 2523369 0, 5233635 0, 2242997 , P16 = 0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991 , P32= 0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991 0, 2523364 0, 5233645 0, 2242991 .
Note que P16= P32, ou seja, existe uma probabilidade limite que o processo depois de
um n´umero grande de passos estar´a no estado y, e esta probabilidade limite n˜ao depende do estado inicial.
Defini¸c˜ao 3.6.1. Seja x um estado recorrente. Ent˜ao x ´e recorrente positivo se, come¸cando no estado x, o tempo m´edio de retorno a x ´e finito. Um estado x ´e erg´odico se este es-tado ´e aperi´odico e recorrente positivo. Logo, uma cadeia erg´odica, todos os estados s˜ao erg´oticos.
Defini¸c˜ao 3.6.2. Um estado x tem per´ıodo d se:
Ix = mdc{n ≥ 1|pn(x, x) > 0} = d.
Para uma cadeia irredut´ıvel, o per´ıodo da cadeia ´e definido como o per´ıodo comum a todos os estados. A cadeia ´e chamada de aperi´odica se todos os estados possuem per´ıodo 1.
Defini¸c˜ao 3.6.3. .Dizemos que uma cadeia ´e erg´otica se ela ´e aperi´odica e recorrente positiva.
Lema 3.6.1. Se p(x, x) > 0, ent˜ao x tem per´ıodo 1.
Demonstra¸c˜ao. Se p(x, x) > 0, ent˜ao 1 ∈ Ix, ent˜ao o maior divisor comum deve ser 1.
Lema 3.6.5. Se x e y se comunicam x ↔ y, ent˜ao x e y tem o mesmo per´ıodo.
Demonstra¸c˜ao. Vamos supor que o per´ıodo de x seja c e o de y seja d < c. Seja k tal que pk(x, y) > 0 e seja m tal que pm(y, x) > 0. Ent˜ao
pk+m(x, x) ≥ pk(x, y).pm(y, x) > 0,
Pelo Lema (3.6.4) temos que k + m ∈ Ix. Com x tem per´ıodo c, k + m deve ser
m´ultiplo de c. Agora seja l um inteiro com pl(y, y) > 0. Ent˜ao
pk+l+m(x, x) ≥ pk(x, y)pl(y, y)pm(y, x) > 0,
k + l + m ∈ Ix, e k + l + m deve ser m´ultiplos de c. Uma vez que k + m ´e um m´ultiplo
de c, isso significa que l ´e um m´ultiplo de c. Uma vez que l ∈ Iy, mostramos que c ´e um
divisor de cada elemento de Iy, mas d < c ´e o maior divisor comum, ent˜ao temos uma
contradi¸c˜ao.
3.7
Distribui¸
c˜
ao estacion´
aria
Com a distribui¸c˜ao estacion´aria podemos verificar o comportamento limite atrav´es de uma distribui¸c˜ao de π = π0, π1, π2, ...πN onde πy > 0 ∀ y = 0, 1, 2, ..., N e
X
y
πy = 1 e
essa distribui¸c˜ao independe do estado inicial.
Seja uma cadeia de Markov (Xn)n∈N, supondo que ela ´e irredut´ıvel e erg´odica, temos:
1) O lim n→∞p n(x, y) existe e n˜ao depende de x. 2) π(y) = lim n→∞p n(x, y), y ∈ Ω.
O vetor π = (π0, π1, ..., πn) ´e solu¸c˜ao ´unica do sistema
π(y) = limn→∞pn(x, y), y ∈ Ω
X
y∈Ω
3.7 Distribui¸c˜ao estacion´aria 28
Exemplo 3.7.1. Cadeia meteorol´ogica.
Considere a seguinte matriz de transi¸c˜ao:
P = 0, 2 0, 8 0 0, 3 0, 4 0, 3 0, 2 0, 5 0, 3 . A equa¸c˜ao πp = π diz, π = π1 π2 π3 0, 2 0, 8 0 0, 3 0, 4 0, 3 0, 2 0, 5 0, 3 . π1(0, 2) + π2(0, 3) + π3(0, 2) = π1 π1(0, 8) + π2(0, 4) + π3(, .5) = π2 0 + π2(0, 3) + π3(0, 3) = π3
Aqui n´os temos trˆes equa¸c˜oes e trˆes inc´ognitas e vamos adicionar uma quarta equa¸c˜ao: π1+ π2+ π3 = 1, ent˜ao uma das equa¸c˜oes ´e redundante.
Resolvendo as equa¸c˜oes temos:
π1 = 27 107 ∼= 0, 252336, π 2 = 168 321 ∼ = 0, 523364, π3 = 24 107 ∼ = 0, 224299.
Ent˜ao voltando ao nosso Exemplo (3.1.2), em que o estado 1 representa nevado, o estado 2 nublado e o estado 3 ensolarado, ao acharmos o comportamento limite dessa cadeia,
π = (0, 2523 0, 5234 0, 2243)
concluimos que a propor¸c˜ao que o tempo est´a nevado ´e de aproximadamente 0,252336, nublado ´e aproximadamente de 0,523364 e ensolarado ´e aproximadamente 0,224299.
3.8
Alcance da Cadeia de Markov
Vamos sempre assumir valores num alfabeto ’A’ finito, de onde escolheremos um valor e atribuiremos a X0, em seguida vamos selecionar um n´umero aleat´orio Un ∈ [0; 1], com
distribui¸c˜ao uniforme independente do passado.
Xn = f (Xn−1, Un) ∈ [0, 1], n ≥ 1.
Defini¸c˜ao 3.8.1. Uma cadeia de Markov ´e de alcance K se escolhermos valores para X−k, ..., X−1 para todo n ≥ 0 : Xn = f (Xn−1, Xn−2, ..., Xn−k; Un), onde (Un)n≥1 ´e uma
sequˆencia de vari´aveis aleat´orias i.i.d. com distribui¸c˜ao uniforme em [0; 1].
Exemplo 3.8.1. Seja a cadeia de Markov de alcance 1 : Xn = f (Xn−1, Un) com fun¸c˜ao
f : A × [0; 1] → A. Ent˜ao P (Xn= b|Xn−1= a) ´e dada por:
P (Xn= b|Xn−1= a) = P (f (Xn−1, Un) = b|Xn−1= a) = P (f (a, Un) = b|Xn−1= a)
= P (f (a, Un) = b) = p(a|u).
Exemplo 3.8.2. Perda de mem´oria. Neste exemplo vamos mostrar a perda de mem´oria do valor inicial da cadeia de Markov, supondo uma cadeia de alfabeto A = {0, 1} e K=1. Como os estados assumem os valores 0 ou 1, vamos usar a seguinte nota¸c˜ao:
(
Xn−1(0) , se X0 = 0
Xn−1(1) , se X0 = 1.
Uma simula¸c˜ao foi efetuada ao mesmo tempo com o par (Xn(0), Xn(1)).
Dada matriz de transi¸c˜ao abaixo, analisamos os poss´ıveis casos.
P = 0, 4 0, 6 0, 8 0, 2 ! Caso 1: (Xn−1(0) , Xn−1(1) )=(0,1) Xn−1 = 0 ,, Xn−1 = 1 22 00 0, 4 u 1 10, 6 1 0
3.8 Alcance da Cadeia de Markov 30 (Xn(0)= 0, Xn(1) = 0), se Un≤ 0, 4 (Xn(0)= 1, Xn(1) = 1), se 0, 4 < Un ≤ 0, 6 (Xn(0)= 1, Xn(1) = 0), se 0, 6 < Un ≤ 1. Caso 2: (Xn−1(0) , Xn−1(1) )=(0,0) Xn−1 = 0 ,, Xn−1 = 0 22 u 0 0 0, 4 1 10, 6 1 1 (Xn(0)= 0, Xn(1) = 0), se Un≤ 0, 4 (Xn(0)= 1, Xn(1) = 1), se 0, 4 < Un ≤ 0, 6 (Xn(0)= 1, Xn(1) = 1), se 0, 6 < Un ≤ 1.
Se Xn−1(0) = Xn−1(1) ent˜ao Xn(0) = Xn(1), ou seja, no momento em que os estados ficam
iguais as probabilidades se igualam tamb´em.
(0, 0) (1, 0) oo {{ (1, 1) OO II (0, 1) OO oo cc P (Xn(0) 6= X(1) n ) = P (U0 > 0, 6; U1 > 0, 6; ...Un> 0, 6) = = P (U0 > 0, 6)P (U1 > 0, 6)...P (Un > 0, 6) = 0, 4n = lim n→∞ 4 10 n = 0
Portanto, P (Xn(0) 6= Xn(1)) = 0. Concluimos que a cadeia de Markov perde a mem´oria do
3.9
Estima¸
c˜
ao de m´
axima verossimilhan¸
ca para
ca-deias de Markov de alcance k
Nesta se¸c˜ao, fizemos inferˆencia estat´ıstica em cadeia de Markov, buscando encontrar um ˆp que maximiza a probabilidade de ocorrˆencia da amostra. Para isso utilizamos a estima¸c˜ao por m´axima verossimilhan¸ca. A fun¸c˜ao de verossimilhan¸ca ´e dada por
L(θ, x1, ..., xn) = p(x1; θ)p(x2; θ)....p(xn; θ) = n
Y
i=1
p(xi; θ),
que deve ser interpretada como a fun¸c˜ao de θ. O estimador de m´axima verossimilhan¸ca de θ ´e o valor que maximiza L(θ, x1, ..., xn)
No caso 1, K assume valores em A = {0, 1} e no caso 2 onde K assume valores em A > 2. Neste segundo caso utilizamos o m´etodo de multiplicadores de Lagrange.
caso 1: Seja (Xn)n=0,1,2,... uma cadeia de Markov com probabilidades de transi¸c˜ao
p = {p(a|u); a ∈ A, u ∈ Ak}, u = u
1.u2...uk.
Vamos usar a seguinte nota¸c˜ao: {Xn
−k = an−k} = {X−k = a−k, X−k+1 = a−k+1, ..., X0 = a0, X1 = a1, ..., Xn = an} e indicar
a matriz p como ´ındice de P:
Pp{X−kn = an−k} = P {X −1 −k = a −1 −k}P {X n 0 = a n 0|X −1 −k = a −1 −k} = P {X−k−1 = a−1−k}P {X0 = a0|X−k−1 = a −1 −k}P {X1n = an1|X−k+1= a−k+1} = P {X−k = a−k} n Y r=0 P {Xr = ar|Xr−kr−1 = ar−1r−k} = P {X−k = a−k} Y a∈A Y u∈Ak p(a|u)Nn(ua). Seja Nn(ua) = n X t=k+1
I{Xk−1t−1 = u} o n´umero de vezes que a sequˆencia u seguida de a
´e observada na amostra. Dada a amostra an −k e assumindo P {X −1 −k = a −1 −k} = 1 queremos encontrar ˆpn =
{p(a|u); a ∈ A, u ∈ Ak} que maximiza P
p{X−kn = an−k}, para isso vamos aplicar L(p),
3.9 Estima¸c˜ao de m´axima verossimilhan¸ca para cadeias de Markov de alcance k 32 Seja a matriz : p = α 1 − α 1 − β β ! e p =ˆ αˆ 1 − ˆα 1 − ˆβ βˆ ! . Aplicando L(Pp{X−kn = an−k}): log(P(α,β){X−kn = an−k}) = X a∈A X u∈Ak Nn(ua) log(p(a|u)).
Agora vamos derivar e igualar a zero:
∂ ∂α log(α, β) = Nn(ua) X b∈A Nn(ub) =⇒ ˆα = XNn(u0) b∈A Nn(ub) , ∂ ∂β log(α, β) = Nn(ua) X b∈A Nn(ub) =⇒ ˆβ = XNn(u1) b∈A Nn(ub) .
Para melhor entendimento, selecionamos a seguinte amostra com k=2 e A={0,1}.
X−2 = 0, X−1 = 0, X0 = 0, X1 = 0, X2 = 1, X3 = 0, X4 = 1, X5 = 1, X6 = 0, X7 = 0,
X8 = 0, X9 = 1, X10= 0.
Observa¸c˜ao: Quando falarmos que o alcance da cadeia ´e 2 ent˜ao, u ∈ A2 significa que: u ∈ {00,10,01,11}. Pp{X−210 = a10−2} = P {X −1 −2 = a −1 −2}P {X0 = x0|X−2−1 = a −1 −2}P {X110= x 10 1 |X 0 −2+1 = a0−2+1} = P {X−2−1 = a−1−2}Y a∈A Y u∈A2 p(a|u)Nn(ua). Seja: 0 1 0 1 ˆ p = 00 01 10 11 ˆ p(0|00) p(1|00)ˆ ˆ p(0|10) p(1|10)ˆ ˆ p(0|01) p(1|01)ˆ ˆ p(0|11) p(1|11)ˆ =⇒ p =ˆ 00 01 10 11 ˆ α 1 − ˆα 1 − ˆβ βˆ ˆ γ 1 − ˆγ 1 − ˆθ θˆ
Aplicando L(Pp{X−210 = a10−2}:
X
a∈A={0,1}
X
u∈A2
Nn(ua) log p(a|u) = N (000) log pn(0|00) + N (001) log pn(1|00)
+ N (010) log pn(0|01) + N (011) log pn(1|01)
+ N (100) log pn(0|10) + N (101) log pn(1|01)
+ N (110) log pn(0|11) + N (111) log pn(1|11)
= 3 log p(0|00) + 2 log p(1|00) + 2 log p(0|01) + 1 log p(1|01) + 1 log p(0|10) + 1 log p(1|10) + 1 log p(0|11) + 0 log p(1|11).
X
a∈A={0,1}
X
u∈A2
Nn(ua) log p(a|u) = 3 log(α) + 2 log(1 − α) + 1 log(1 − β) +
1 log(β) + 2 log(γ) + 1 log(1 − γ) + 1 log(θ) + 0 log(1 − θ) Derivando e igualando a zero:
∂ ∂αlog(α, β, γ, θ) = 3 ˆ α − 2 1 − ˆα = 0 =⇒ ˆα = 3 3 + 2 = 3 5 = 0, 6. ∂ ∂βlog(α, β, γ, θ) = 2 ˆ β − 1 1 − ˆβ = 0 =⇒ ˆβ = 1 1 + 1 = 1 2 = 0, 5. ∂ ∂γ log(α, β, γ, θ) = 1 ˆ γ − 1 1 − ˆγ = 0 =⇒ ˆγ = 2 2 + 1 = 2 3 ∼ = 0, 66. ∂ ∂θ log(α, β, γ, θ) = 0 ˆ θ − 1 1 − ˆθ = 0 =⇒ ˆθ = 0. ˆ p = 0, 60 0, 40 0, 50 0, 50 0, 66 0, 34 0 1
3.9 Estima¸c˜ao de m´axima verossimilhan¸ca para cadeias de Markov de alcance k 34
Lagrange para encontrar extremos (m´aximos e m´ınimos) de uma fun¸c˜ao de uma ou mais vari´aveis com uma ou mais restri¸c˜oes.
Sejam as retri¸c˜oes:
0 ≤ p(a|u) ≤ 1, ∀ a e X u∈Ak p(a|u) = 1. Seja λ = (λu)u∈Ak ; λu ∈ R e F (λ, p) definido por : X u∈Ak {X a∈A
Nn(ua) log p(a|u) + λu[1 −
X
a∈A
p(a|u)]}.
Derivando F (λ, p) em rela¸c˜ao `a λu e igualando a zero:
∂ ∂λu F (λ, p) = 1 −X a∈A p(a|u) = 0 X a∈A p(a|u) = 1. (3.10)
Derivando em rela¸c˜ao `a p(a|u) a fun¸c˜ao F (λ, p):
∂ ∂p(a|u)F (λ, p) = Nn(ua) 1 p(a|u) − λu ˆ pn(a|u) = Nn(ua) λu . (3.11)
Pelas equa¸c˜oes 3.10 e 3.11, temos que:
X b∈A Nn(ub) λu = 1 X b∈A Nn(ub) = λu.
Logo, o estimador de m´axima verossimilhan¸ca ˆp = {ˆp(a|u); a ∈ A, u ∈ Ak} ser´a :
ˆ pn(a|u) = Nn(ua) X b∈A Nn(ub) .
3.10
M´
etodo de sele¸
c˜
ao da ordem de uma cadeia de
Markov
J´a sabemos estimar uma matriz de probabilidade de transi¸c˜ao onde ˆpn ∈ Mk(A), ou
seja, estimar essa matriz independente da sua ordem e alfabeto finito. Quando fazemos essa estima¸c˜ao com k = 0, 1, 2, ... obtemos para cada k calculado ˆp(0)n , ˆp(1)n , ˆp(2)n , ... onde
ˆ p(0)n = n X t=1 I{xt=a}.
O objetivo principal nesta se¸c˜ao ´e estimar k para uma amostra, utilizando os m´etodos de Crit´erio de informa¸c˜ao Bayesiano (BIC), Algoritmo contexto e o Crit´erio de deter-mina¸c˜ao eficiente (EDC) a fim de verificar a eficiˆencia de cada m´etodo para diferentes tamanhos de amostras.
Seja ˆk o grau estimado do polinˆomio tal que minimize o erro: E(xn1; ˆα0, ˆα1, ˆαk).
Selecionada uma amostra X1n= an1, para cada ˆk escolhido calculamos o ˆp(k)n ,
ˆ p(k)n (b|a−1−k) = Nn(a −1 −kb) Nn−1(a−1−k) =⇒ ˆpM V (k)(X1n= a n 1) = P {X k 1 = a n k} Y a−k−1∈Ak Y b∈A ˆ pkn(b|a−1−k)Nn(a−1−kb) Lk(ak1) = log( ˆPM V (k){(X1n= a n 1)}) = X a−1−k X b Nn(a−1−kb) log ˆp(k)n (b|a −1 −k)
Neste caso, maximizar a verossimilhan¸ca da amostra n˜ao adiantaria, pois fixada a amostra com n >> k a sequˆencia sempre ser´a crescente, ent˜ao a escolha de um k grande n˜ao resultaria numa boa estima¸c˜ao.
3.10.1
Crit´
erio de informa¸
c˜
ao Bayesiano (BIC)
´
E um crit´erio que seleciona o alcance ¯k, levando em considera¸c˜ao a rela¸c˜ao custo benef´ıcio com ¯k << n.
3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 36
log
ˆ
PM V (k)(X1k)
custo do modelo de alcance k !
= Lk(X1n) − log(custo(k))
onde c(k, n) = c. |A|k.(|A| − 1)
| {z }
. log(n), em geral c = 1 2
Nota¸c˜ao:BIC(k, X1n) = log ˆPM V (k)(X1n) − c([|A|k(|A| − 1))] log(n).
Exemplo 3.10.1. Supondo um alfabeto A = {0, 1} vamos determinar o alcance K da cadeia dada a matriz:
P = 0, 7 0, 3 0, 6 0, 4
! .
Simulamos uma cadeia com n=10000, encontramos o ˆp(0), ˆp(1), ˆp(2), ..., ˆp(k) e
aplica-mos na fun¸c˜ao ˆPM V (0), ˆPM V (1), ˆPM V (2), ..., ˆPM V (k) respectivamente, a fim de verificar se
(BIC(k, X1n) − BIC(k − 1, X1n)) ≥ 0. Para k=0: ˆ p(0)(0) = Nn(1) n = 0, 6598; ˆ p(0)(1) = Nn(0) n = 0, 3402; ˆ PM V (0) = Y b (ˆp(0)n (b))Nn(b).
Aplicando L0( ˆPM V (0)) e substituindo os valores observados da amostra:
L0( ˆPM V (0)) = X b Nn(b) log ˆp(0)n (b) = Nn(0) log(ˆp(0)n (0)) + Nn(1) log(ˆp(0)n (1)) = 6598 log(0, 6598) + 3402 log(0, 3402) = −9250, 1.
Substituindo o valor encontrado de L0( ˆPM V (0)) na equa¸c˜ao BIC(0, X1n):
BIC(0, X1n) = L0( ˆPM V (0)) − c([|A|0(|A| − 1))] log(n)
= −9.250, 1 − 1 2([|2| 0(|2| − 1)]) log(10000) = −9.251, 761. Para k=1: ˆ α = ˆp(1)(0|0) = Nn(00) Nn−1(0) = 4578 4578 + 2019 = 0, 693951796, 1 − ˆα = ˆp (1)(1|0) = 0, 306048203; ˆ β = ˆp(1)(1|1) = Nn(11) Nn−1(1) = 1383 1338 + 2020 = 0, 406406112, 1 − ˆβ = ˆp (1)(0|1) = 0, 59359388. ˆ PM V (1) = Y u∈A Y b∈A (ˆp(1)n (b|u))Nn(ub)
Aplicando L1( ˆPM V (1)) e substituindo os valores observados da amostra:
L1( ˆPM V (1)) =
X
u∈A
X
b∈A
Nn(ub) log ˆp(1)n (b|u)
= Nn(00) log(ˆp(1)(0|0)) + Nn(01) log(ˆp(1)(1|0)) + Nn(10) log(ˆp(1)(0|1)) + Nn(11) log(ˆp(1)(1|1))
= 4578 log(0, 693951796) + 2019 log(0, 306048203) + 2020 log(0, 5935) + 1383 log(0, 4065) = −9178, 302
Substituindo o valor encontrado de L1( ˆPM V (1)) na equa¸c˜ao BIC(1, X1n):
BIC(1, X1n) = L1( ˆPM V (1)) − c([|A|1(|A| − 1))] log(n)
= −6328, 352 − 1 2([|2| 1(|2| − 1))] log(10000) = −9181, 624. Temos que: BIC(1, X1n) = −9178, 302 BIC(0, X0n) = −9251, 761.
3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 38
Como BIC(1, X1n) = −9178, 302 > BIC(0, X0n) = −9251, 761, ent˜ao podemos afir-mar que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem, acrescentou informa¸c˜oes relevantes.
K=2 ˆ α = ˆp(0|00) = 3.190 ˆ α − 1.361 1 − ˆα = 0 =⇒ ˆα = 3190 3190 + 1361 = 3190 4551 = 0, 7017697. ˆ β = ˆp(0|10) = 1.050 ˆ β − 666 1 − ˆβ = 0 =⇒ ˆβ = 1050 669 + 1050 = 669 1719 = 0, 4026746. ˆ γ = ˆp(0|01) = 1.362 ˆ γ − 357 1 − ˆγ = 0 =⇒ ˆγ = 1362 1362 + 357 = 1362 1719 = 0, 6762376. ˆ θ = ˆp(0|11) = 1050 ˆ θ − 961 1 − ˆθ = 0 =⇒ ˆθ = 1050 1050 + 961 = 1050 2011 = 0, 4114244. ˆ p = 0, 7017697 0, 2982303 0, 5973254 0, 4026746 0, 6762376 0, 3237624 0, 5885756 0, 4114244 ˆ PM V (2) = Y u∈A Y b∈A ˆ p(2)n (b|u)Nn(ub)
L2( ˆPM V (2)) =
X
u∈A
X
b∈A
Nn(ub) log ˆp(2)n (b|u)
= Nn(000) log(ˆp(2)(0|00)) + Nn(001) log(ˆp(2)(1|00) + Nn(010) log(ˆp(2)(0|10))
+ Nn(011) log(ˆp(2)(1|10) + Nn(100) log(ˆp(2)(0|01)) + Nn(101) log(ˆp(2)(1|01)
+ Nn(110) log(ˆp(2)(0|11)) + Nn(111) log(ˆp(2)(1|11)
= 3212 log(0, 7017697) + 1365 log(0, 2982303) + 1206 log(0, 5973254) + 813 log(0, 4026746) + 1366 log(0, 6762376) + 654 log(0, 3237624) + 814 log(0, 5885756) + 569 log(0, 4114244) = −9173, 729.
Substituindo o valor encontrado de L2( ˆPM V (2)) na equa¸c˜ao BIC(2, X1n):
BIC(2, X1n) = L2( ˆPM V (1)) − c([|A|1(|A| − 1))] log(n)
= −9173, 729 − 1 2([|2| 2 (|2| − 1))] log(10000) = −9180, 373. Temos que: BIC(1, X1n) = −9178, 302 BIC(2, X1n) = −9180, 373 Como BIC(2, Xn
1) = −9180, 373 < BIC(1, X1n) = −9178, 302, ent˜ao podemos
afir-mar que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem para 2 n˜ao acrescentou informa¸c˜ao relevante.
3.10.2
Algoritmo contexto
1. Calcular ˆpkn(b|a−1−k) para todo k ≤ log|A|n,
1.1. k = 1
2log|A|n para ter suficientes repeti¸c˜oes de a
−1
−k, pois se obtivermos
sequˆencias muito longas, n˜ao teremos repeti¸c˜oes. 1.2. a−1−k ´e candidato a contexto.
2. Para cada a−1−(k−1) decidimos se a informa¸c˜ao ´e relevante. 3. Se for relevante, decidimos que a−1−k ∈ ˆτn.
4. Se n˜ao for relevante essa informa¸c˜ao a−1−k, recome¸camos no passo 1, mas agora com a−1−(k−1) como novo candidato a contexto.
3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 40
Seja uma amostra X1, X2, X3, ..., Xn gerada por uma cadeia de Markov de alcance
fixo finito, queremos estimar o alcance desta cadeia por um m´etodo diferente da se¸c˜ao anterior. Vamos supor que conhecemos k onde k < n − 1 e queremos testar se ˆp(k)e ˆp(k+1)
s˜ao t˜ao pr´oximos ao ponto de afirmarmos a hip´otese nula(H0),
H0 : p(k+1)(b|a−1−k+1) = p
(k)(b|a−1 −k),
para isso vamos calcular:
∆n(a−1−k) = max a−1−(k−1)∈Ak−1 max a∈A |ˆpn(b|a −1 −k) − ˆpn(b|a−1−(k−1))|.
Definimos δ ∈ (0, 1) (um valor pequeno) como a precis˜ao do ˆk. Se ∆n(a−1−k) < δ
dizemos que a informa¸c˜ao de ordem k foi irrelevante. Para verificar se a−k ´e relevante
devemos comparar todos os valores de a para todos os valores de b.
Vamos utilizar a amostra do Exemplo 3.10.1 onde ˆpn(b|u) para k = 1, k = 2 e
A = {0, 1} encontra-se na tabela 1 :
Tabela 1: Probabilidade de transi¸c˜ao Pn(b|u)
u 0 1 0 0,6978352 0,3021648 1 0,6003584 0,3996416 00 0,6968979 0,3031021 10 0,7 0,3 01 0,6114428 0,3885572 11 0,583707 0,416293
|ˆp(2)n (0|00) − ˆp(1)n (0|0)| = 0, 0009373112 < 0, 05; |ˆp(2)n (0|10) − ˆp(1)n (0|0)| = 0, 0021648 < 0, 05; |ˆp(2)n (1|00) − ˆp(1)n (1|0)| = 0, 0009373112 < 0, 05; |ˆp(2)n (1|10) − ˆp(1)n (1|0)| = 0, 0021648 < 0, 05; |ˆp(2)n (0|01) − ˆp(1)n (0|1)| = 0, 01108439 < 0, 05; |ˆp(2)n (0|11) − ˆp(1)n (0|1)| = 0, 01665137 < 0, 05; |ˆp(2)n (1|01) − ˆp(1)n (1|1)| = 0, 01108439 < 0, 05; |ˆp(2)n (1|11) − ˆp(1)n (1|1)| = 0, 01665137 < 0, 05.
Como o valor de ∆n(a−1−k) < 0, 05, podemos aceitar H0. Como j´a vimos no crit´erio de
informa¸c˜ao Bayesiano, verificamos que as informa¸c˜oes observadas na cadeia de ordem 2 n˜ao foram relevantes em rela¸c˜ao a amostra observada de ordem 1.
3.10.3
Crit´
erio de determina¸
c˜
ao eficiente (EDC)
Englobam crit´erios do BIC, sendo baseado na log-verossimilhan¸ca m´axima e com certa liberdade de escolha do termo de penalidade. Onde k ´e estimado por ˆkEDC definida por:
ˆ
kEDC = argmin{EDC(k); k = 0, ..., K}
e
EDC(k) = −2 log ˆPM V (k)+ γ(k)cn,
onde γ(.) ´e uma fun¸c˜ao positiva e estritamente crescente, cn > 0 e log ˆPM V (k) ´e a
fun¸c˜ao de m´axima verossimilhan¸ca da amostra.
Sob condi¸c˜oes de regularidade, a escolha ´otima ´e dada por:
3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 42
com
ˆ
kEDC = argmink>0EDCopt(k).
Vamos utilizar a matriz de transi¸c˜ao do Exemplo 3.10.1 onde ˆpn(b|u) para k = 1,
k = 2 e A = {0, 1}.
Simulamos uma cadeia com n=10000, encontramos o ˆp(0), ˆp(1), ˆp(2), ..., ˆp(k) e aplica-mos na fun¸c˜ao ˆPM V (0), ˆPM V (1), ˆPM V (2), ..., ˆPM V (k) respectivamente, a fim de verificar se
(EDC(k, Xn 1) − EDC(k − 1, X1n)) ≥ 0. Para k=0: ˆ p(0)(0) = Nn(1) n = 0, 6598; ˆ p(0)(1) = Nn(0) n = 0, 3402; ˆ PM V (0) = Y b (ˆp(0)n (b))Nn(b).
Aplicando L0( ˆPM V (0)) e substituindo os valores observados da amostra:
L0( ˆPM V (0)) = X b Nn(b) log ˆp(0)n (b) = Nn(0) log(ˆp(0)n (0)) + Nn(1) log(ˆp(0)n (1)) = 6598 log(0, 6598) + 3402 log(0, 3402) = −9250, 1.
Substituindo o valor encontrado de L0( ˆPM V (0)) na equa¸c˜ao EDC(0, X1n):
EDC(0, X1n) = −2L0( ˆPM V (0))(k) + 2|A|k+1log log n
= −2(−9250, 1) + 2|2|0+1log(log(10000)) = 18515, 13.
ˆ α = ˆp(1)(0|0) = Nn(00) Nn−1(0) = 4578 4578 + 2019 = 0, 693951796, 1 − ˆα = ˆp (1)(1|0) = 0, 306048203; ˆ β = ˆp(1)(1|1) = Nn(11) Nn−1(1) = 1383 1338 + 2020 = 0, 406406112, 1 − ˆβ = ˆp (1)(0|1) = 0, 59359388. ˆ PM V (1) = Y u∈A Y b∈A (ˆp(1)n (b|u))Nn(ub)
Aplicando L1( ˆPM V (1)) e substituindo os valores observados da amostra:
L1( ˆPM V (1)) =
X
u∈A
X
b∈A
Nn(ub) log ˆp(1)n (b|u)
= Nn(00) log(ˆp(1)(0|0)) + Nn(01) log(ˆp(1)(1|0)) + Nn(10) log(ˆp(1)(0|1)) + Nn(11) log(ˆp(1)(1|1))
= 4578 log(0, 693951796) + 2019 log(0, 306048203) + 2020 log(0, 5935) + 1383 log(0, 4065) = −9178, 302
Substituindo o valor encontrado de L1( ˆPM V (1)) na equa¸c˜ao EDC(1, X1n):
EDC(1, X1n) = −2L1( ˆPM V (1))(k) + 2|A|k+1log log n
= −2(−9178, 302) + 2|2|1+1log(log(10000)) = 18386, 46.
Temos que:
EDC(1, X1n) = 18386, 46 EDC(0, X0n) = 18515, 13.
Como EDC(1, Xn
1) = 1.8386, 46 < EDC(0, X0n) = 18515, 13, ent˜ao podemos afirmar
que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem, acrescentou informa¸c˜oes relevantes.
3.10 M´etodo de sele¸c˜ao da ordem de uma cadeia de Markov 44 ˆ α = ˆp(0|00) = 3.190 ˆ α − 1.361 1 − ˆα = 0 =⇒ ˆα = 3190 3190 + 1361 = 3190 4551 = 0, 7017697. ˆ β = ˆp(0|10) = 1.050 ˆ β − 666 1 − ˆβ = 0 =⇒ ˆβ = 1050 669 + 1050 = 669 1719 = 0, 4026746. ˆ γ = ˆp(0|01) = 1.362 ˆ γ − 357 1 − ˆγ = 0 =⇒ ˆγ = 1362 1362 + 357 = 1362 1719 = 0, 6762376. ˆ θ = ˆp(0|11) = 1.050 ˆ θ − 961 1 − ˆθ = 0 =⇒ ˆθ = 1050 1050 + 961 = 1050 2011 = 0, 4114244. ˆ p = 0, 7017697 0, 2982303 0, 5973254 0, 4026746 0, 6762376 0, 3237624 0, 5885756 0, 4114244 ˆ PM V (2) = Y u∈A Y b∈A ˆ p(2)n (b|u)Nn(ub)
Aplicando L2( ˆPM V (2)) e substituindo os valores observados da amostras:
L2( ˆPM V (2)) =
X
u∈A
X
b∈A
Nn(ub) log ˆp(2)n (b|u)
= Nn(000) log(ˆp(2)(0|00)) + Nn(001) log(ˆp(2)(1|00) + Nn(010) log(ˆp(2)(0|10))
+ Nn(011) log(ˆp(2)(1|10) + Nn(100) log(ˆp(2)(0|01)) + Nn(101) log(ˆp(2)(1|01)
+ Nn(110) log(ˆp(2)(0|11)) + Nn(111) log(ˆp(2)(1|11)
= 3212 log(0, 7017697) + 1365 log(0, 2982303) + 1206 log(0, 5973254) + 813 log(0, 4026746) + 1366 log(0, 6762376) + 654 log(0, 3237624) + 814 log(0, 5885756) + 569 log(0, 4114244) = −9173, 729.
EDC(2, X1n) = −2L2( ˆPM V (2))(k) + 2|A|k+1log log n = −2(−9173, 7290) + 2|2|2+1log(log(10000)) = 18407, 17 Temos que: EDC(1, X1n) = 18386, 46 EDC(2, X1n) = 18407, 17 Como EDC(2, Xn
1) = 18407, 17 > EDC(1, X1n) = 18386, 46, ent˜ao podemos afirmar
que o alcance mais adequado seria de ordem 1, pois nesse caso, ao aumentarmos a ordem para 2 n˜ao acrescentou informa¸c˜ao relevante.
46
4
An´
alise dos Resultados
Neste cap´ıtulo, s˜ao apresentados todos os resultados obtidos nas simula¸c˜oes realizadas com o objetivo de comparar os estimadores BIC, Algoritmo Contexto e EDC, definidos nas Se¸c˜oes (3.10.1), (3.10.2) e (3.10.3).
Essas simula¸c˜oes foram geradas considerando o alcance de 1 a 6 e com espa¸co de estados fixados em 2, totalizando 24 casos para cada estimador estudado. Em cada um desses, foram simuladas 100 cadeias de Markov de tamanho n=1000, n=10000, n=50000 e n=100000.
As Tabelas (2), (3), (4) e (5) representam as propor¸c˜oes de subestima¸c˜ao, acerto e superestima¸c˜ao para cada n, onde n representa o tamanho da amostra e k o alcance da cadeia.
As simula¸c˜oes foram realizadas atrav´es do programa computacional R.
Tabela 2: Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ = 0, 06 (%).
n k BIC EDC Algoritmo Contexto
< = > < = > < = > 1 0 100 0 0 100 0 16 65 19 2 0 100 0 0 100 0 44 52 4 1000 3 0 100 0 0 100 0 68 32 0 4 0 100 0 52 48 0 87 13 0 5 51 49 0 100 0 0 100 0 0 6 100 0 0 100 0 0 100 0 0
Tabela 3: Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ = 0, 03 (%).
n k BIC EDC Algoritmo Contexto
< = > < = > < = > 1 0 100 0 0 100 0 1 55 44 2 0 100 0 0 100 0 14 73 13 10000 3 0 100 0 0 100 0 13 73 14 4 0 100 0 0 100 0 94 6 0 5 0 100 0 0 100 0 100 0 0 6 0 100 0 0 100 0 100 0 0
Tabela 4: Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ = 0, 015 (%).
n k BIC EDC Algoritmo Contexto
< = > < = > < = > 1 0 100 0 0 100 0 0 25 75 2 0 100 0 0 100 0 12 69 19 50000 3 0 100 0 0 100 0 9 73 18 4 0 100 0 0 100 0 90 10 0 5 0 100 0 0 100 0 100 0 0 6 0 100 0 0 100 0 100 0 0
Tabela 5: Resultado dos estimadores EDC, BIC e Algoritmo Contexto com δ = 0, 0075 (%).
n k BIC EDC Algoritmo Contexto
< = > < = > < = > 1 0 100 0 0 100 0 0 80 20 2 0 100 0 0 100 0 40 50 10 100000 3 0 100 0 0 100 0 39 58 3 4 0 100 0 0 100 0 98 2 0 5 0 100 0 0 100 0 100 0 0 6 0 100 0 0 100 0 100 0 0
48
5
Conclus˜
oes
As simula¸c˜oes realizadas mostram o estimador BIC mais eficiente para amostras de tamanho 1000, onde obteve melhor performance nos alcances 4 e 5 com taxa de acerto de 100% e 49% respectivamente, enquanto, 48% e 0% do EDC e 13% e 0% do Algoritmo Contexo. O Algoritmo Contexto manteve taxa de acerto inferior a 66% para amostras de tamanho 1000. A medida que o alcance aumenta os estimadores tem tendˆencia a subestimar em amostras pequenas.
Em linhas gerais, conclui-se que os estimadores BIC e EDC mostraram-se consistentes, diferente do Algoritmo Contexto, que mostrou-se inconsistente para todos os alcances estudados. Para cada tamanho de amostra do estimador Algoritmo Contexto foi adotada uma precis˜ao diferente, a cada aumento dessa amostra, houve um decr´escimo do δ, o crit´erio para esses valores foi baseado no tamanho da amostra, pois quanto maior, mais pr´oximo o ˆpndo pn, ou seja, a diferen¸ca entre a matriz de propor¸c˜ao estimada e a matriz de
propor¸c˜ao real seria pr´oxima de 0. Com esse crit´erio, notamos que houve maior acerto para amostras de alcances 1, 2 e 3 chegando no m´aximo a 80%, enquanto para alcances maiores o Algoritmo Contexto subestimou em todos os casos. Com os resultados obtidos atrav´es do estudo realizado para o estimador Algoritmo contexto, percebe-se que o tamanho da amostra e do alfabeto influencia na escolha do δ, sendo assim, ele precisa ser estudado em trabalhos futuros.
Referˆ
encias
[1] SHAMBLIN, J. E. Introduction to Probability Theory and Statistical Inference. [S.l.]: Atlas, 1982.
[2] KAC, M. & LOGAN, J. in Fluctuation Phenomena, eds. E.W. Montroll & J.L. Le-bowitz, North-Holland, Amsterdam, 1976.
[3] NELSON, E. Quantum Fluctuations, Princeton University Press, Princeton, 1985. [4] DURRETT, Rick. Essentials of Stochastic Processes. 2. ed. Version Beta, 2010. [5] HOEL, PORT & STONE. Introduction to Stochastic Processes, [S.l.]. University of
California, Los Angeles, 1972.
[6] ROSS, Sheldon M. Introduction to Probability Models. 9. ed, Elsevier,2007.
[7] GALVES, Antˆonio & NUNES, R. Klanfer Um curso de inferˆencia e sele¸c˜ao estat´ıstica de cadeias de alcance vari´avel, S˜ao Paulo,2014.
[8] GALVES, Antˆonio & YAGINUMA, Karina Yuriko Notas do curso Inferˆencia em Pro-cessos Estoc´asticos.
[9] CHANG C.Y. Dorea, CATIA R. Gon¸calves and PAULO A.A. Resende Simulation Results for Markov Model Seletion : AIC, BIC and EDC, 4 October, 2014, San Francisco, USA.
5.1 Anexo A- C´odigo fonte dos estimadores 50
5.1
Anexo A- C´
odigo fonte dos estimadores
1 ################################################# ###### Funcao p a r a g e r a r a amostra ######## 3 ################################################# 5 amostra<−f u n c t i o n( n , r e p l i c a c o e s , k=2 , A l f a b e t o=c( 0 , 1 ) , prob ) { #Fixando a amostra 7 s e t. s e e d ( 1 0 0 ) # n = tamanho da amostra 9 # r e p l i c a c o e s = q u a n t i d a d e de a m o s t r a s # k = a l c a n c e 11 # A l f a b e t o = Espaco Amostral # prob = m a t r i z de t r a n s i c a o 13 #p a c o t e p a r a a m a n i p u l a c a o do p e r m u t a t i o n 15 l i b r a r y( g t o o l s ) 17 amostra<−NULL MA<−m a t r i x(NA, r e p l i c a c o e s , n+k ) 19 #M a t r i z de p o s s i b i l i d a d e s de a c o r d o com o a l c a l c e e a l f a b e t o 21 a<−m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k , A l f a b e t o , r e p e a t s=TRUE) ,l e n g t h( A l f a b e t o ) ˆ ( k ) , k ) 23 #p a r a a l f a b e t o de tamanho 2 f o r( j i n 1 : r e p l i c a c o e s ) { 25 i f(l e n g t h( A l f a b e t o ) ==2){ #s o r t e a n d o a amostra i n i c i a l de a c o r d o com o a l c a n c e 27 amostra<−sample( A l f a b e t o , k ,r e p l a c e = T) f o r( i i n 1 : ( n ) ) { 29 s o r t e i o<−r u n i f( 1 ) #p e r c o r r e a m a t r i z de permutacao e v e r i f i c a a i g u a l d a d e da amostra g e r a d a com cada l i n h a da m a t r i z de permutacao
31 f o r(t i n 1 :l e n g t h( A l f a b e t o ) ˆk ) {
i f(a l l(u n i q u e( amostra [ i : ( i+k−1) ] ) == a [t, ] ) ) {
33 i f( s o r t e i o <prob [t, 1 ] ) { amostra [ i+k ]<−0} e l s e{ amostra [ i+k ]=1}}
}} 35 MA[ j , ]<−amostra } 37 r e t u r n(MA) } #p a r a a l f a b e t o de tamanho 3 39 i f(l e n g t h( A l f a b e t o ) ==3){
f o r( j i n 1 : r e p l i c a c o e s ) { 41 #s o r t e a n d o a amostra i n i c i a l de a c o r d o com o a l c a n c e amostra=sample( A l f a b e t o , k ,r e p l a c e <− T) 43 f o r( i i n 1 : ( n ) ) { s o r t e i o<−r u n i f( 1 ) 45 #p e r c o r r e a m a t r i z de permutacao e v e r i f i c a a i g u a l d a d e da amostra g e r a d a
com cada l i n h a da m a t r i z de permutacao
f o r(t i n 1 :l e n g t h( A l f a b e t o ) ˆk ) {
47 #v e r i f i c a q u a l l i n h a da m a t r i z de permutacao a amostra p e r t e n c e p a r a
i d e n t i f i c a r em q u a l l i n h a da m a t r i z de t r a n s i c a o u s a r
i f(a l l(u n i q u e( amostra [ i : ( i+k−1) ] ) == a [t, ] ) ) {
49 #v e r i f i c a o s o r t e i o com a amostra s e l e c i o n a d a da m a t r i z de t r a n s i c a o
i f( s o r t e i o <min( prob [t, ] ) ) { amostra [ i+k ]<−0}
51 e l s e{i f(min( prob [t, ] )<=s o r t e i o && s o r t e i o <=max( prob [t, 3 ] ) ) {
amostra [ i+k ]<−1} e l s e{ amostra [ i+k ]<−2}}} 53 }} MA[ j , ]<−amostra 55 } r e t u r n(MA) } 57 e l s e{p r i n t(” E s c o l h a um A l f a b e t o menor , por f a v o r! ! !”) } } 59 61 ############################################################# 63 ###### Funcao p a r a g e r a r a m a t r i z de t r a n s i c a o ####### ############################################################# 65 g e r a m a t r i z<−f u n c t i o n( k , A l f a b e t o=c( 0 , 1 ) ) { 67 # k = a l c a n c e da c a d e i a # A l f a b e t o = Espaco Amostral 69 m<− m a t r i x(r u n i f(l e n g t h( A l f a b e t o ) ˆ ( k )∗ l e n g t h( A l f a b e t o ) , 0 , 1 ) , n c o l=l e n g t h( A l f a b e t o ) )
m a t r i z t r a n s i c a o<− round(sweep(m, 1 , rowSums (m) , FUN=”/”) , 2 )
71 m a t r i z t r a n s i c a o=d a t a.frame( m a t r i z t r a n s i c a o )
}
5.2 Anexo B- C´odigo fonte do estimador de BIC 52 2 BIC <−f u n c t i o n( k r e a l , n , r e p l i c a c o e s , A l f a b e t o ) { 4 #f i x a n d o o s v a l o r e s da m a t r i z de p r o b a b i l i d a d e s e t. s e e d ( 2 ) 6 r e s u l t a d o <− NULL t a b e l a r e s u l t a d o s <− NULL 8 prob <− g e r a m a t r i z ( k r e a l , A l f a b e t o ) #g e r a n d o a amostra 10 x <−amostra ( n , r e p l i c a c o e s , k r e a l , A l f a b e t o , prob ) tamanho amostra <− l e n g t h( x [ 1 , ] ) 12 k e s t i m a d o <− r e p( 0 , r e p l i c a c o e s ) 14 f o r( r i n 1 : r e p l i c a c o e s ) { b i c <− c( ) 16 f o r( j i n 1 : 8 ) { tamanho amostra=l e n g t h( x [ 1 , ] ) 18 k <− j p <− NULL 20 l o g v e r o <− NULL a <− m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k+1 , A l f a b e t o , r e p e a t s=TRUE) , l e n g t h( A l f a b e t o ) ˆ ( k+1) , k+1) 22 v e t o r contagem <− r e p( 0 ,l e n g t h( A l f a b e t o ) ˆ ( k+1) ) m a t r i z contagem <− c b i n d( a , v e t o r contagem ) 24 26 f o r(t i n 1 : (l e n g t h( A l f a b e t o ) ˆ ( k+1) ) ) { v e t o r contagem [t]=0 28 f o r( i i n 1 : ( tamanho amostra−k ) ) {
i f(sum(abs( x [ r , i : ( i+k ) ]−a [t , ] ) ) ==0){ v e t o r contagem [t]= v e t o r contagem [t]+1} 30 }} m a t r i z contagem <− c b i n d( a , v e t o r contagem ) 32 z <− l e n g t h( A l f a b e t o ) 34 i <− 1 t <− 1 36 f o r( i i n 1 :l e n g t h( v e t o r contagem ) ) { i f( i <=z ) {
38 p [ i ]= v e t o r contagem [ i ]/sum( v e t o r contagem [t: z ] )
l o g v e r o [ i ]= v e t o r contagem [ i ]∗ l o g 2( p [ i ] )
t <− t+l e n g t h( A l f a b e t o )
42 z <− z+l e n g t h( A l f a b e t o )
p [ i ] <− v e t o r contagem [ i ]/sum( v e t o r contagem [t: z ] )
44 l o g v e r o [ i ]= v e t o r contagem [ i ]∗ l o g 2( p [ i ] ) } } 46 #p r i n t ( p ) b i c [ j ] <− sum(l o g v e r o ) −(0.5∗(l e n g t h( A l f a b e t o ) ˆk∗(l e n g t h( A l f a b e t o ) −1) )∗ l o g 2(l e n g t h( x [ 1 , ] ) ) ) 48 b i c <− b i c [! i s.na( b i c ) ] }
50 k e s t i m a d o [ r ] <− match(max( b i c ) , b i c )#r e t o r n a a p o s i c a o do maximo , ou
s e j a , do k e s t i m a d o } 52 k e s t i m a d o <− d a t a.frame( k e s t i m a d o ) p r i n t( k e s t i m a d o ) 54 a c e r t o <− k e s t i m a d o%>%summarise ( a c e r t o=sum( k e s t i m a d o %i n% k r e a l)/ r e p l i c a c o e s ) s u p e r e s t i m a <− k e s t i m a d o%>%summarise ( s u p e r e s t i m a=sum( k e s t i m a d o > k r e a l )/r e p l i c a c o e s ) 56 s u b e s t i m a <− k e s t i m a d o%>%summarise ( s u b e s t i m a=sum( k e s t i m a d o < k r e a l)/ r e p l i c a c o e s )
r e s u l t a d o <− d a t a.frame(K=k r e a l , n=tamanho amostra , S u b e s t i m a=p a s t e( s u b e s t i m a∗1 0 0 ,”%”) , 58 A c e r t o=p a s t e( a c e r t o∗1 0 0 ,”%”) , s u p e r e s t i m a=p a s t e( s u p e r e s t i m a∗ 1 0 0 ,”%”) ) 60 t a b e l a r e s u l t a d o s <− r b i n d( r e s u l t a d o , t a b e l a r e s u l t a d o s ) } 62 t a b e l a r e s u l t a d o s BIC <− BIC ( k r e a l=1 ,n =1000 , r e p l i c a c o e s =10 , A l f a b e t o=c( 0 , 1 ) )
5.3
Anexo C- C´
odigo fonte do estimador de
Algo-ritmo Contexto
A l g o r i t m o c o n t e x t o<−f u n c t i o n( k r e a l , n , r e p l i c a c o e s , A l f a b e t o , p r e c i s a o ) { 2 #Fixando amostra s e t. s e e d ( 2 ) 4 #p a c o t e p a r a a m a n i p u l a c a o do p i p e r (%>%) l i b r a r y( t i d y r )5.3 Anexo C- C´odigo fonte do estimador de Algoritmo Contexto 54 6 l i b r a r y( d p l y r ) r e s u l t a d o <− NULL 8 t a b e l a r e s u l t a d o s <− NULL prob <− g e r a m a t r i z ( k r e a l , A l f a b e t o ) 10 #g e r a n d o a amostra tamanho amostra <− l e n g t h( x [ 1 , ] ) 12 x <− amostra ( n , r e p l i c a c o e s , k r e a l , A l f a b e t o , prob ) k e s t i m a d o <− r e p( 0 , r e p l i c a c o e s ) 14 f o r( r i n 1 : r e p l i c a c o e s ) { 16 d i f max e n t r e k2 k1 <− 1 k2=6 18 p r i n t( r ) 20 w h i l e( ( d i f max e n t r e k2 k1 > p r e c i s a o ) & ( k2 >0) ) { #A l c a n c e 22 k2 <− k2 p2 <− NULL 24 k1 <− k2−1 26 p1 <− NULL 28 #m a t r i z de t r a n s i c a o a1 <− m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k1 +1 , A l f a b e t o , r e p e a t s=TRUE) ,l e n g t h( A l f a b e t o ) ˆ ( k1 +1) , k1 +1) 30 v e t o r contagem 1 <− r e p( 0 ,l e n g t h( A l f a b e t o ) ˆ ( k1 +1) ) m a t r i z contagem 1 <− c b i n d( a1 , v e t o r contagem 1 ) 32 #m a t r i z de t r a n s i c a o 34 a2 <− m a t r i x( p e r m u t a t i o n s (l e n g t h( A l f a b e t o ) , k2 +1 , A l f a b e t o , r e p e a t s=TRUE) ,l e n g t h( A l f a b e t o ) ˆ ( k2 +1) , k2 +1) v e t o r contagem 2 <− r e p( 0 ,l e n g t h( A l f a b e t o ) ˆ ( k2 +1) ) 36 m a t r i z contagem 2 <− c b i n d( a2 , v e t o r contagem 2 ) 38 #Contagem e armazenamento p a r a k
#Aqui e g e r a d o a contagem de passagem p a r a cada e s t a d o de t r a n s i c a o
40 f o r(t i n 1 : (l e n g t h( A l f a b e t o ) ˆ ( k1 +1) ) ) {
v e t o r contagem 1 [t]=0
42 f o r( i i n 1 : ( tamanho amostra−k1 ) ) {
i f(sum(abs( x [ r , i : ( i+k1 ) ]− a1 [t, ] ) ) ==0){ v e t o r contagem 1 [t]= v e t o r contagem 1 [t]+1}
contagem 1 <− m a t r i x( v e t o r contagem 1 ,l e n g t h( A l f a b e t o ) ˆ ( k1 ) ,l e n g t h( A l f a b e t o ) , byrow=T) 46 p1 <− m a t r i x(a p p l y( contagem 1 , 1 ,prop.t a b l e) ,l e n g t h( A l f a b e t o ) ˆ ( k1 ) , l e n g t h( A l f a b e t o ) , byrow=T) m a t r i z contagem 1 <− c b i n d( a1 , v e t o r contagem 1 ) 48 #Contagem e armazenamento p a r a k+1
50 #Aqui e g e r a d o a contagem de passagem p a r a cada e s t a d o de t r a n s i c a o
52 f o r(t i n 1 : (l e n g t h( A l f a b e t o ) ˆ ( k2 +1) ) ) {
v e t o r contagem 2 [t] <− 0
54 f o r( i i n 1 : ( tamanho amostra−k2 ) ) {
i f(sum(abs( x [ r , i : ( i+k2 ) ]− a2 [t, ] ) ) ==0){ v e t o r contagem 2 [t]= v e t o r contagem 2 [t]+1} 56 }} 58 contagem 2 <− m a t r i x( v e t o r contagem 2 ,l e n g t h( A l f a b e t o ) ˆ ( k2 ) ,l e n g t h( A l f a b e t o ) , byrow=T) p2 <− m a t r i x(a p p l y( contagem 2 , 1 ,prop.t a b l e) ,l e n g t h( A l f a b e t o ) ˆ ( k2 ) , l e n g t h( A l f a b e t o ) , byrow=T) 60 m a t r i z contagem 2 <− c b i n d( a2 , v e t o r contagem 2 ) 62 #C a l c u l o p a r a a d i f e r e n c a o da m a t r i z p r o p o r c a o e n t r e k e k+1 d i f <− m a t r i x( 0 , 1 ,l e n g t h( p1 [ 1 , ] ) ) 64 f o r( i i n 1 :nrow( p1 ) ) { d i f [ i ]=abs( p1 [ i ]−p2 [ i ] )
66 d i f [ i+nrow( p1 ) ]=abs( p2 [ i+nrow( p1 ) ]−p1 [ i ] )
d i f=d i f [! i s.na( d i f ) ]#e x c l u i n d o o s Na 68 } d i f max e n t r e k2 k1 <− max(a s.v e c t o r( d i f ) ) 70 k2 <− k2−1 72 } k e s t i m a d o [ r ] <− k1 74 p r i n t( k e s t i m a d o ) } 76 k e s t i m a d o <− d a t a.frame( k e s t i m a d o ) p r i n t( k e s t i m a d o ) 78 a c e r t o <−k e s t i m a d o%>%summarise ( a c e r t o=sum( k e s t i m a d o %i n% k r e a l)/ r e p l i c a c o e s ) s u p e r e s t i m a <− k e s t i m a d o%>%summarise ( s u p e r e s t i m a=sum( k e s t i m a d o > k r e a l )/r e p l i c a c o e s )